期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

廖恒吴昭《中文信息学报》1996,10(2):47-55

PostScript为桌面设计过程中, 排版印刷的后端处理的开放标准。高速中文PostScript系统的实现涉及到多方面的技术我们一方面研究了中文PostScript系统的软件构成和算法另一方面, 设计并实现了基于Intel 80960CA超标量亿次处理器的高速中文PostScript处理硬件系统, 进一步将其扩充为分布式并行处理系统, 并在通用PC平台上实现单机和并行中文PostScript系统此外, 我们还提出了存储压缩等相关技术。本文探讨了上述系统的构成, 并对系统进行了测试和性能评价。测试表明, 我们通过采用这些高速的硬件系统及与其相适应的软件算法, 基本解决了中文’处理速度慢和成本高的问题。相似文献

2.

有限状态熵编码的VLSI设计与实现

黄海邢琳那宁张国良赵石磊刘志伟《计算机辅助设计与图形学学报》2021,33(4):640-648

在处理海量数据时,以软件方式实现的Z标准(Zstd)无损压缩算法难以满足特定应用领域对压缩速度的需求.对Zstd进行硬件加速设计是解决这一问题的有效方案,尤其是针对Zstd的有限状态熵编码(finitestateentropy,FSE)的硬件加速.因此,提出一种适用于Zstd的FSE压缩、解压硬件实现架构,采用固定压缩表实现最优的硬件加速步骤;通过增加序列映射的硬件模块来降低存储空间并提高传输速度;采用软硬件协同设计方案,并对硬件实现架构进行7级流水设计.通过VisualStudio与Modelsim的联合验证平台进行验证,实验结果表明在TSMC55 nm的工艺下,系统最高频率可达到750 MHz.与软件实现相比,整体压缩速度提高了9倍以上,整体解压速度提高了约100倍. 相似文献

3.

扇束工业CT图像重建算法的并行实现 总被引：2，自引：0，他引：2

下载免费PDF全文

邹永宁王珏卢艳平《计算机工程与应用》2007,43(25):218-220

工业CT图像的重建速度是工业CT产品的一个重要指标。使用并行算法是提高重建速度的一个行之有效的方法。提出了基于Beowulf集群系统的滤波反投影算法的并行实现方法;并且提出了基于Intel 奔腾SIMD技术的加速算法。在用4台P4/2.9 G微机构建的集群系统平台上对工业CT采集的4个不同的断层投影数据进行重建实验,实验数据表明使用SIMD技术可以得到4-6倍的加速,使用集群并行技术的算法能够得到1.5-3倍的加速,综合应用这两项技术可以得到8-10倍的加速。相似文献

4.

SCENERY: a lightweight block cipher based on Feistel structure

Jingya FENG Lang LI 《Frontiers of Computer Science》2022,16(3):163813

In this paper, we propose a new lightweight block cipher called SCENERY. The main purpose of SCENERY design applies to hardware and software platforms. SCENERY is a 64-bit block cipher supporting 80-bit keys, and its data processing consists of 28 rounds. The round function of SCENERY consists of 8 4 × 4 S-boxes in parallel and a 32 × 32 binary matrix, and we can implement SCENERY with some basic logic instructions. The hardware implementation of SCENERY only requires 1438 GE based on 0.18 um CMOS technology, and the software implementation of encrypting or decrypting a block takes approximately 1516 clock cycles on 8-bit microcontrollers and 364 clock cycles on 64-bit processors. Compared with other encryption algorithms, the performance of SCENERY is well balanced for both hardware and software. By the security analyses, SCENERY can achieve enough security margin against known attacks, such as differential cryptanalysis, linear cryptanalysis, impossible differential cryptanalysis and related-key attacks. 相似文献

5.

基于TMS320LF2407的脑电信号处理系统设计

石坚陈建华《微计算机信息》2007,23(20):150-151,135

本论文介绍了脑电信号处理系统设计的两种基本方法及其优缺点,分析了DSP 尤其是TMS320LF2407的主要特点,阐述了基于TMS320LF2407DSP的16通道脑电信号处理系统的硬件和软件的实现方法.该系统硬件结构简单可靠、灵活性强,可以为脑电波的数字信号处理软件提供功能强大的硬件基础;该系统的软件充分利用了TMS320LF2407内部16通道的高速模数转换器,顺利实现了50Hz工频干扰的滤除,并最终获取清晰干净的16通道的脑电波形. 相似文献

6.

基于FPGA的电子编码器解码系统设计

张建红杨冬梅薛红平卢军平黄伟林《电脑开发与应用》2011,24(6):31-32,35

借助于电子编码器优良的性能和FPGA可并行处理数据的能力,通过对CORDIC解码算法的研究,设计了一个基于FPGA硬件平台的解码系统.该电子编码器解码系统的硬件组成和软件实现能较好地完成信号转换和数据运算,且具有较高的精度、分辨率和响应速度,能满足大部分伺服系统的控制要求. 相似文献

7.

改进的基于嵌入式SoC卷积神经网络识别模型

孙磊肖金球夏禹顾敏明《计算机应用与软件》2020,37(3):257-260

针对当前在FPGA上实现卷积神经网络模型时卷积计算消耗资源大,提高FPGA芯片性能代价较大等问题,提出一种改进的基于嵌入式SoC的优化设计方法。对卷积计算的实现方法和存储访问通道加以优化,以提高并行计算性能;将32位位宽的浮点数量化为16位定点数,加快前向传播的数据传输;结合硬件描述软件的高层次综合技术,将卷积神经网络映射到硬件平台成为一种同步数据流模型从而加快计算速度。通过实验证明,该方案较现有设计节约了89%的BRAM和72%的LUT,在工作频率为100 MHz的测试中,其处理速度比单独使用Cortex-A9的方案提升了42倍。相似文献

8.

多主并行处理加固计算机设计和实现

郑波祥朱勇苏培培《电子技术应用》2009,35(11)

采用Intel Xeon LV处理器,利用先进的EDA工具和仿真软件进行高速串行总线的合理布局布线,实现了一种支持多主并行处理的加固计算机。根据应用,构建了基于高速互连网络的计算机硬件系统,结合成熟的商用并行软件,对计算机系统并行能力进行了测试;针对抗恶劣环境应用,特别是热设计,通过热分析、建模仿真(Icepak)等手段,实现计算机系统的环境设计。相似文献

9.

基于FPGA的视频图像高速处理技术——在钢轨动态检测中的应用

张欣王兵张春华《计算机工程与应用》2006,42(34):178-181

高速图像处理可用软件和硬件两种方案实现。软件方案成本低,灵活,但速度慢;硬件方案速度高,不够灵活且成本高。现场可编程门阵列(FPGA)正好能解决这一矛盾。介绍了一种基于FPGA的视频图像高速处理技术,它被成功地用于钢轨断面图像的实时动态监测系统中。该系统采用了投票表决算法,用VHDL语言(超高速集成电路硬件描述语言)编程,采用多语言协同仿真技术(FLI)。结果表明,该系统充分发挥了FPGA器件的并行特性,显著提高了图像处理速度,达到了动态监测的实时性要求。相似文献

10.

基于图形处理器的形态学重建系统

何希吴炎桃邸臻炜陈佳《计算机应用》2019,39(7):2008-2013

形态学重建是医学图像处理中非常基础和重要的操作。它根据掩膜图像的特征对标记图像反复进行膨胀操作，直到标记图像中的像素值不再变化为止。对于传统基于中央处理器（CPU）的形态学重建系统计算效率不高的问题，提出了使用图形处理器（GPU）来加速形态学重建。首先，设计了适合GPU处理的数据结构：并行堆集群；然后，基于并行堆集群，设计和实现了一套基于GPU的形态学重建系统。实验结果表明，相比传统基于CPU的形态学重建系统，基于GPU的形态学重建系统可以获取超过20倍的加速比。基于GPU的形态学重建系统展示了如何把基于复杂数据结构的软件系统高效地移植到GPU上。相似文献

11.

基于FPGA的NoC硬件系统设计 总被引：1，自引：0，他引：1

许川佩唐海胡聪《电子技术应用》2012,38(2):117-119,123

设计了基于FPGA的片上网络系统硬件平台。系统由大容量的FPGA、存储器、高速A/D与D/A、通信接口和一个扩展的ARM9系统组成。完成了集高速数字信号处理、视频编解码和网络传输功能与一体的多核系统设计。针对典型的3×3 2D Mesh结构的NoC系统应用进行了探讨,阐述了NoC系统设计过程中的关键技术,并使用SigXplorer软件对系统的信号完整性解决方案进行了PCB的反射与串扰仿真。相似文献

12.

基于SOPC 的图像解压缩系统

王艳秦江云《计算机系统应用》2011,20(4):186-188

针对目前利用软件解码图像不能满足实时性要求的现状,提出了一种基于FPGA片上系统（SOPC）的JPEG图像解压缩系统设计方案。主要介绍了JPEG图像解压缩算法的硬件实现方法和系统的工作原理以及具体实现。结果表明,该系统能够加快图像的解码速度,解码一幅640×320图像仅需要21.3ms,实时的实现了图像的解码。相似文献

13.

地球系统模式 CAS-ESM 在“元”超级计算机上的性能评估

王天一迟学斌张贺郝卉群《数据与计算发展前沿》2016,7(1):59-66

CAS-ESM 是中国科学院大气物理所开发的地球系统模式,是全球气候变化研究的重要工具,也是高性能计算在地球系统科学领域的重要应用。为了方便其他用户在“元”超级计算机上开展更高效的模拟实验,探究 CAS-ESM 在类似于 “元”的体系结构计算机上的应用前景,分别设计并进行了大气分量模式 AGCM 和海洋分量模式 LICOM 分量模式最优处理器划分实验,保证耦合实验结果准确可靠。结果显示,AGCM 在“元”上使用 4*4、8*4、16*4、16*8、32*8、32*16 的处理器划分能得到最佳的计算效率,LICOM 在“元”上使用 3*5、3*10、5*12、12*10、20*12、60*8 的处理器划分,能在“元”上得到最佳的计算效率。最后设计并进行了耦合模拟实验,分析了 CAS-ESM 耦合模式的并行效率和浮点性能。相似文献

14.

实序列并行IFFT在Blackfin DSP上的实现

李刚高峰林凌《电子技术应用》2009,35(2)

针对DSP上常用的实序列IFFT算法运算速度慢的缺陷,采用两行实序列合并为一行复序列进行IFFT运算的方法编制了在Blackfin系列DSP上进行实序列基-2 IFFT运算的程序。实验表明,结合DSP指令的并行性及硬件并行结构的软件设计提高了运算速度,完成两行512点实序列的IFFT运算只需要11864个时钟周期,为原来方法所需时间的一半。该方法应用于基于BF561的并行频域OCT图像处理系统中,满足系统实时处理的要求。相似文献

15.

改进的Gabor滤波算法及其在FPGA中的实现

林青松王小琼《计算机工程与设计》2008,29(18)

针对指纹图像核心区域方向变化剧烈及用软件实现图像增强速度慢的缺点,提出了一种适应于硬件并行处理的基于改进的Gabor滤波的指纹图像增强算法,并用硬件描述语言在可编程逻辑门阵列(FPGA)上实现,同时介绍了系统的工作过程及总体结构.实验结果表明,改进的Gabor滤波能使图像的断裂处得到很好的连接,指纹图像信息明显增强,并且在速度方面利用硬件实现远远高于软件.实验表明,FPGA在图像处理方面满足实时性的要求,适用于图像增强的系统. 相似文献

16.

利用TMS320C25的高速数据采集与实时信号分析系统 总被引：8，自引：0，他引：8

涂永峰周洁敏《数据采集与处理》1996,11(4):295-299

介绍了一种由４８６计算机与ＴＭＳ３２０Ｃ２５构成的主从机系统的硬件结构和软件设计，利用主从机的高速数据采集、并行处理结构及Ｃ２５强大的数据处理功能，对振动信号实时处理，获得了良好的效果相似文献

17.

并行可配置的HEVC熵编码的VLSI结构

路伟余宁梅南江涵王冬芳《计算机工程与应用》2014,(3):121-124,144

提出了一种并行的可配置HEVC熵编码的VLSI结构。通过对HEVC参考软件算法分析,针对HEVC中CABAC编码采用高度并行的语法元素处理方式,设计了针对CABAC中语法元素并行处理的硬件结构。同时采用可配置的PE-Array结构,在提高了吞吐率和计算效率的同时,平衡了VLSI设计中面积过大的问题。在SMIC 0.13μm工艺库下,进行了逻辑综合,系统总门数为16.2 K,片上存储为20.8 KB。在时钟频率300 MHz下,可处理3 840×2 160@30 frame/s的视频序列。相似文献

18.

基于SVM的ECT图像重建算法研究与实现 总被引：1，自引：0，他引：1

李岩郝建青孙永钢张仁伟《计算机工程与设计》2009,30(24)

在ECT系统中使用支持向量机处理采集到的数据集,当数据规模非常大时训练速度缓慢,支持向量机在处理ECT系统中采集到的大规模数据集时训练速度缓慢.针对该问题提出了一种适应于硬件实现的基于SVM的串行计算-并行传输模式,并用硬件描述语言在现场可编程逻辑门阵列(FPGA)上实现,同时给出了硬件系统的工作过程及总体结构.ECT图像重建实验结果表明,同软件实现相比,不仅提高了系统图像重建速度,还能保持较高的分类精度,并且表明FPGA在图像重建方面满足实时性要求,适用于图像重建系统. 相似文献

19.

一种适用于DVB-T系统的新型FFT处理器设计

周加铳陈咏恩《计算机工程与应用》2006,42(27):16-19

针对地面数字视频广播(DVB-T)系统中高速FFT处理器的设计要求,提出了一种新的基16/8混合基算法及其实现结构。采用单个基16/8复用的蝶形运算单元顺序处理,并通过减少乘法器数目,有效降低了硬件消耗;运算单元内部采用“基4+基4/2”级联流水线方式,大大加快了运算速度;此外,应用对称乒乓RAM结构提高了蝶算单元的连续运算能力;并且使用改进的块浮点防溢出机制,以保证运算精度。仿真和实现结果表明该设计具有良好的性能,完全满足实际应用要求。相似文献

20.

基于Zynq的图像角点及边缘检测系统的设计与实现

潘青松张怡杨宗明秦剑秀《计算机科学》2017,44(Z11):530-533, 556

以Zynq芯片为基础,采用软硬件协同设计的方法设计并实现整个系统。Zynq芯片内部采用ARM+FPGA的异构架构,既具备ARM处理器的灵活性,又拥有FPGA并行处理的能力。本系统的设计充分发挥了Zynq芯片的优势,在软硬件划分上, 通过ARM处理器来实现图像的采集;图像角点及边缘检测用FPGA来完成,即通过硬件加速提升系统的整体性能。ARM处理器与FPGA通过AXI4总线进行数据交互,在Zynq上实现集图像采集、图像特征提取、图像显示为一体的片上系统。最终系统测试结果表明,采用硬件加速实现图像特征提取的相关算法比在ARM处理器软件上实现的算法的速度提高了6～8倍。相似文献