共查询到20条相似文献,搜索用时 31 毫秒
1.
PostScript为桌面设计过程中, 排版印刷的后端处理的开放标准。高速中文PostScript系统的实现涉及到多方面的技术我们一方面研究了中文PostScript系统的软件构成和算法另一方面, 设计并实现了基于Intel 80960CA超标量亿次处理器的高速中文PostScript处理硬件系统, 进一步将其扩充为分布式并行处理系统, 并在通用PC平台上实现单机和并行中文PostScript系统此外, 我们还提出了存储压缩等相关技术。本文探讨了上述系统的构成, 并对系统进行了测试和性能评价。测试表明, 我们通过采用这些高速的硬件系统及与其相适应的软件算法, 基本解决了中文’处理速度慢和成本高的问题。 相似文献
2.
在处理海量数据时,以软件方式实现的Z标准(Zstd)无损压缩算法难以满足特定应用领域对压缩速度的需求.对Zstd进行硬件加速设计是解决这一问题的有效方案,尤其是针对Zstd的有限状态熵编码(finitestateentropy,FSE)的硬件加速.因此,提出一种适用于Zstd的FSE压缩、解压硬件实现架构,采用固定压缩表实现最优的硬件加速步骤;通过增加序列映射的硬件模块来降低存储空间并提高传输速度;采用软硬件协同设计方案,并对硬件实现架构进行7级流水设计.通过VisualStudio与Modelsim的联合验证平台进行验证,实验结果表明在TSMC55 nm的工艺下,系统最高频率可达到750 MHz.与软件实现相比,整体压缩速度提高了9倍以上,整体解压速度提高了约100倍. 相似文献
3.
工业CT图像的重建速度是工业CT产品的一个重要指标。使用并行算法是提高重建速度的一个行之有效的方法。提出了基于Beowulf集群系统的滤波反投影算法的并行实现方法;并且提出了基于Intel 奔腾SIMD技术的加速算法。在用4台P4/2.9 G微机构建的集群系统平台上对工业CT采集的4个不同的断层投影数据进行重建实验,实验数据表明使用SIMD技术可以得到4-6倍的加速,使用集群并行技术的算法能够得到1.5-3倍的加速,综合应用这两项技术可以得到8-10倍的加速。 相似文献
4.
In this paper, we propose a new lightweight block cipher called SCENERY. The main purpose of SCENERY design applies to hardware and software platforms. SCENERY is a 64-bit block cipher supporting 80-bit keys, and its data processing consists of 28 rounds. The round function of SCENERY consists of 8 4 × 4 S-boxes in parallel and a 32 × 32 binary matrix, and we can implement SCENERY with some basic logic instructions. The hardware implementation of SCENERY only requires 1438 GE based on 0.18 um CMOS technology, and the software implementation of encrypting or decrypting a block takes approximately 1516 clock cycles on 8-bit microcontrollers and 364 clock cycles on 64-bit processors. Compared with other encryption algorithms, the performance of SCENERY is well balanced for both hardware and software. By the security analyses, SCENERY can achieve enough security margin against known attacks, such as differential cryptanalysis, linear cryptanalysis, impossible differential cryptanalysis and related-key attacks. 相似文献
5.
本论文介绍了脑电信号处理系统设计的两种基本方法及其优缺点,分析了DSP 尤其是TMS320LF2407的主要特点,阐述了基于TMS320LF2407DSP的16通道脑电信号处理系统的硬件和软件的实现方法.该系统硬件结构简单可靠、灵活性强,可以为脑电波的数字信号处理软件提供功能强大的硬件基础;该系统的软件充分利用了TMS320LF2407内部16通道的高速模数转换器,顺利实现了50Hz工频干扰的滤除,并最终获取清晰干净的16通道的脑电波形. 相似文献
6.
7.
针对当前在FPGA上实现卷积神经网络模型时卷积计算消耗资源大,提高FPGA芯片性能代价较大等问题,提出一种改进的基于嵌入式SoC的优化设计方法。对卷积计算的实现方法和存储访问通道加以优化,以提高并行计算性能;将32位位宽的浮点数量化为16位定点数,加快前向传播的数据传输;结合硬件描述软件的高层次综合技术,将卷积神经网络映射到硬件平台成为一种同步数据流模型从而加快计算速度。通过实验证明,该方案较现有设计节约了89%的BRAM和72%的LUT,在工作频率为100 MHz的测试中,其处理速度比单独使用Cortex-A9的方案提升了42倍。 相似文献
8.
9.
高速图像处理可用软件和硬件两种方案实现。软件方案成本低,灵活,但速度慢;硬件方案速度高,不够灵活且成本高。现场可编程门阵列(FPGA)正好能解决这一矛盾。介绍了一种基于FPGA的视频图像高速处理技术,它被成功地用于钢轨断面图像的实时动态监测系统中。该系统采用了投票表决算法,用VHDL语言(超高速集成电路硬件描述语言)编程,采用多语言协同仿真技术(FLI)。结果表明,该系统充分发挥了FPGA器件的并行特性,显著提高了图像处理速度,达到了动态监测的实时性要求。 相似文献
10.
形态学重建是医学图像处理中非常基础和重要的操作。它根据掩膜图像的特征对标记图像反复进行膨胀操作,直到标记图像中的像素值不再变化为止。对于传统基于中央处理器(CPU)的形态学重建系统计算效率不高的问题,提出了使用图形处理器(GPU)来加速形态学重建。首先,设计了适合GPU处理的数据结构:并行堆集群;然后,基于并行堆集群,设计和实现了一套基于GPU的形态学重建系统。实验结果表明,相比传统基于CPU的形态学重建系统,基于GPU的形态学重建系统可以获取超过20倍的加速比。基于GPU的形态学重建系统展示了如何把基于复杂数据结构的软件系统高效地移植到GPU上。 相似文献
11.
12.
针对目前利用软件解码图像不能满足实时性要求的现状,提出了一种基于FPGA片上系统(SOPC)的JPEG图像解压缩系统设计方案。主要介绍了JPEG图像解压缩算法的硬件实现方法和系统的工作原理以及具体实现。结果表明,该系统能够加快图像的解码速度,解码一幅640×320图像仅需要21.3ms,实时的实现了图像的解码。 相似文献
13.
CAS-ESM 是中国科学院大气物理所开发的地球系统模式,是全球气候变化研究的重要工具,也是高性能计算在地球系统科学领域的重要应用。为了方便其他用户在“元”超级计算机上开展更高效的模拟实验,探究 CAS-ESM 在类似于 “元”的体系结构计算机上的应用前景,分别设计并进行了大气分量模式 AGCM 和海洋分量模式 LICOM 分量模式最优处理器划分实验,保证耦合实验结果准确可靠。结果显示,AGCM 在“元”上使用 4*4、8*4、16*4、16*8、32*8、32*16 的处理器划分能得到最佳的计算效率,LICOM 在“元”上使用 3*5、3*10、5*12、12*10、20*12、60*8 的处理器划分,能在“元”上得到最佳的计算效率。最后设计并进行了耦合模拟实验,分析了 CAS-ESM 耦合模式的并行效率和浮点性能。 相似文献
14.
15.
针对指纹图像核心区域方向变化剧烈及用软件实现图像增强速度慢的缺点,提出了一种适应于硬件并行处理的基于改进的Gabor滤波的指纹图像增强算法,并用硬件描述语言在可编程逻辑门阵列(FPGA)上实现,同时介绍了系统的工作过程及总体结构.实验结果表明,改进的Gabor滤波能使图像的断裂处得到很好的连接,指纹图像信息明显增强,并且在速度方面利用硬件实现远远高于软件.实验表明,FPGA在图像处理方面满足实时性的要求,适用于图像增强的系统. 相似文献
16.
利用TMS320C25的高速数据采集与实时信号分析系统 总被引:8,自引:0,他引:8
介绍了一种由486计算机与TMS320C25构成的主从机系统的硬件结构和软件设计,利用主从机的高速数据采集、并行处理结构及C25强大的数据处理功能,对振动信号实时处理,获得了良好的效果 相似文献
17.
提出了一种并行的可配置HEVC熵编码的VLSI结构。通过对HEVC参考软件算法分析,针对HEVC中CABAC编码采用高度并行的语法元素处理方式,设计了针对CABAC中语法元素并行处理的硬件结构。同时采用可配置的PE-Array结构,在提高了吞吐率和计算效率的同时,平衡了VLSI设计中面积过大的问题。在SMIC 0.13μm工艺库下,进行了逻辑综合,系统总门数为16.2 K,片上存储为20.8 KB。在时钟频率300 MHz下,可处理3 840×2 160@30 frame/s的视频序列。 相似文献
18.
基于SVM的ECT图像重建算法研究与实现 总被引:1,自引:0,他引:1
在ECT系统中使用支持向量机处理采集到的数据集,当数据规模非常大时训练速度缓慢,支持向量机在处理ECT系统中采集到的大规模数据集时训练速度缓慢.针对该问题提出了一种适应于硬件实现的基于SVM的串行计算-并行传输模式,并用硬件描述语言在现场可编程逻辑门阵列(FPGA)上实现,同时给出了硬件系统的工作过程及总体结构.ECT图像重建实验结果表明,同软件实现相比,不仅提高了系统图像重建速度,还能保持较高的分类精度,并且表明FPGA在图像重建方面满足实时性要求,适用于图像重建系统. 相似文献
19.
针对地面数字视频广播(DVB-T)系统中高速FFT处理器的设计要求,提出了一种新的基16/8混合基算法及其实现结构。采用单个基16/8复用的蝶形运算单元顺序处理,并通过减少乘法器数目,有效降低了硬件消耗;运算单元内部采用“基4+基4/2”级联流水线方式,大大加快了运算速度;此外,应用对称乒乓RAM结构提高了蝶算单元的连续运算能力;并且使用改进的块浮点防溢出机制,以保证运算精度。仿真和实现结果表明该设计具有良好的性能,完全满足实际应用要求。 相似文献
20.
以Zynq芯片为基础,采用软硬件协同设计的方法设计并实现整个系统。Zynq芯片内部采用ARM+FPGA的异构架构,既具备ARM处理器的灵活性,又拥有FPGA并行处理的能力。本系统的设计充分发挥了Zynq芯片的优势,在软硬件划分上, 通过ARM处理器来实现图像的采集;图像角点及边缘检测用FPGA来完成,即通过硬件加速提升系统的整体性能。ARM处理器与FPGA通过AXI4总线进行数据交互,在Zynq上实现集图像采集、图像特征提取、图像显示为一体的片上系统。最终系统测试结果表明,采用硬件加速实现图像特征提取的相关算法比在ARM处理器软件上实现的算法的速度提高了6~8倍。 相似文献