首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
基于SIMD技术的图像卷积处理器体系结构研究   总被引:1,自引:1,他引:0  
SIMD处理机特别适合于要求大量高速向量或矩阵计算的场合,数据缓存系统和对准网络是它的关键部件。而图像卷积是图像处理技术中最基本也是最重要的一项技术,文章根据数字图像的卷积定理对数字图像的卷积运算进行了分析,在此基础上提出了一种基于SIMD处理机的可变卷积模板的图像卷积处理器的体系结构。该处理器内部包含有接口部件、控制部件、数据缓存系统、对准电路和执行部件等。它的极高效率的数据缓存系统和对准电路成为该处理器最有特色的部分,它从根本上解决了图像卷积中的数据复用带来的CPU重复访问主存储器的问题。实现了3×3、5×5、7×7、9×9、11×11、13×13和15×15卷积模板的图像卷积运算的变换而无需另行更改硬件电路的特点。最后,对这个图像卷积处理器体系结构的性能进行了缜密的分析。  相似文献   

2.
本文从设计和应用的角度分析了数字信号处理器(DSP)的特点,详细地从结构、指令集和运算单元方面阐述了DSP区别于其它处理器的特点;介绍了DSP的发展概况,从复杂指令单个乘法累加运算单元发展到复杂指令两个运算单元,又发展到简单指令多个运算单元,并指出是应用推动了DSP的飞速发展;最后,对DSP的发展作了预测,DSP将在多发射、嵌入式DSP核和控制运算混合处理器方向发展。  相似文献   

3.
SIMD处理机特别适合于要求大量高速向量或矩阵计算的场合,数据缓存系统和对准网络是它的关键部件。而图像卷积是图像处理技术中最基本也是最重要的一项技术,本文根据数字图像的卷积定理对数字图像的卷积运算进行了分析,并提出了一种基于SIMD处理机的可变卷积模板的图像卷积处理器的体系结构。该处理器内部包含有接口部件、控制部件、数据缓存系统、对准电路和执行部件等。它的极高效率的数据缓存系统和对准电路成为该处理器最有特色的部分,它从根本上解决了图像卷积中的数据复用带来的CPU重复访问主存储器的问题。实现了卷积模板为3×3的图像卷积运算,从而实现了对卷积计算的硬件加速目的。最后,对这个图像卷积处理器体系结构的性能及其可扩展性进行了缜密的分析。  相似文献   

4.
FFT算法的一种FPGA实现   总被引:6,自引:0,他引:6  
FFT运算在OFDM系统中起调制和解调的作用。针对OFDM系统中FFT运算的要求,研究了一种易于FPGA实现的FFT处理器的硬件结构。接收单元采用乒乓RAM结构,扩大了数据吞吐量。中间数据缓存单元采用双口RAM,减少了访问RAM的时钟消耗。计算单元采用基2算法,流水线结构,可在4个时钟后连续输出运算结果。各个单元协调一致的并行工作,提高了系统时钟频率,达到了高速处理。采用块浮点机制,动态扩大数据范围,在速度和精度之间得到折衷。模块化设计,易于实现更多点数的FFT运算。  相似文献   

5.
Sheraz Anjum  陈杰   《电子器件》2007,30(5):1861-1865
为了提高高速DSP或通用处理器的程序执行速度,描述了一种指令缓存单元的有效架构,特别是实现细节和性能分析.因所提出的指令缓存单元是为一种高性能VLIW结构的DSP核而设计,使用了并行的标签比较逻辑和寄存器堆的结构,芯片面积、关键路径延迟、功耗都大大减小.该指令缓存单元使用高层次的RTL(使用Verilog)编码,并由Synopsys的Design Compiler综合,使用不同的StarCoreTM基准程序测试比较,并进行性能分析.比较结果表明,所提出的结构是有效的,适合用于任何高速的处理器核.  相似文献   

6.
浅谈嵌入式处理器体系结构   总被引:1,自引:0,他引:1  
嵌入式系统一般指非PC系统,它包括硬件和软件两部分。其中嵌入式处理器是嵌入式系统硬件的核心。详细介绍了流行的嵌入式处理器体系结构及性能,分析了嵌入式处理器对嵌入式系统性能的影响及发展趋势。  相似文献   

7.
特殊功能单元可以有效加速处理器性能,然而由于其专用性,能够加速的应用有限。领域内可重构功能单元提供领域内的灵活性与高效性。文章提出针对特定应用领域生成可重构能单元的方法,该方法基于多个表达式自动生成高效的可重构功能单元。选取传输触发体系结构作为平台,在密码领域中三类算法的应用验证了该方法的有效性。  相似文献   

8.
uCLinux在Blackfin处理器上的应用   总被引:6,自引:0,他引:6  
作为信号处理芯片的主要供应商之一,Analog Devices公司(ADI)一直致力发展高性价比的产品。Blcckfin系列处理器是ADI公司的最新的基于微信号体系结构的嵌入式处理器.具有高性能和低功耗等特点。利用内核中的两个MAC运算单元.750MHz的BF533处理器每秒可完成1500M的MAC,而双核的BF561处理器每秒可完成3000M的MAC。同时这两款处理器集成了大量的外围设备和处理器接口,  相似文献   

9.
数字信号处理器(DSP)是经优化后用于处理实时信号的微处理器。对这些实时信号的处理取决于高速计算的能力。与RISC和CISC微处理器相比,DSP有许多为高速数学运算所进行的结构优化。除了快速数学计算外,设计者发现,一个专门设计的DSP组合了其他的结构化特性以“平衡”体系结构。为支持DSP计算能力。存储器带宽、I/O  相似文献   

10.
褒贬不一PentiumⅢ处理器是第一款专门为增强用户互联网体验而设计的微处理器。它在性能上有了大幅度的提升、并提供了全新的互联网体验。该处理器核心速度目前为450MHz、500MHz;系统总线频率为100MHz;采用第六代CPU核心──P6微架构,针对32位应用程序进行优化,双重独立总线、动态执行;一级缓存大小为16KB指令缓存加16KB数据缓存;二级缓存大小为512KB,速度相当于CPU核心速度的一半;采用SECC2封装;新增加了能够增强音频、视频和3D图形效果的70条SSE互联网指令集SSE指令集及处理器序列号。这个PentiumⅢ处理器序列号令…  相似文献   

11.
构建了一种针对不同微体系结构的功能验证硬件平台,该平台以FPGA芯片为核心;同时设计了与该平台相适应的微体系结构性能分析软件并介绍了该软件的具体功能;研究了开源软核处理器OpenRISC的微体系结构,将该软核处理器移植到现有开发板上并在开发板上对其进行了评测,从而验证了该微体系结构验证平台的基本功能。  相似文献   

12.
卷积神经网络(convolutional neural network, CNN)作为传统神经网络的改进,已经得到了广泛的应用。然而,在CNN性能提升的同时其模型的规模不断扩大,对存储及算力的要求越来越高,基于冯·诺依曼体系结构的处理器难以达到令人满意的高处理性能。为了提升系统性能,近存储计算(near memory computing, NMC)成为了一个具有发展前景的研究方向。本文利用一种支持NMC的可重构阵列处理器实现手写数字识别,并行地实现了卷积运算;同时利用共享缓存阵列结构,减少片外存储的频繁访问。实验结果表明,在110 MHz的工作频率下,执行单个5×5卷积运算的计算速度提升了75.00%,可以在9 960μs内实现一个手写数字的识别。  相似文献   

13.
针对高速64点FFT(快速傅里叶变换)处理芯片的实现,分析了FFT运算原理,并根据FFT算法原理介绍了改进的FFT运算流图。介绍了FFT处理器系统的各模块的功能划分,并根据FFT处理器结构及其特殊寻址方式,采用Verilog HDL对处理器系统的控制器、双数据缓存、地址生成器、蝶形运算单元以及I/O控制等模块进行了RTL(寄存器传输级)设计,并在ModelSim中对各模块以及整个系统进行功能仿真和验证,给出了部分关键模块的仿真波形图。设计中,注重从硬件实现以及电路的可综合性等角度进行RTL电路设计,以确保得到与期望性能相符的硬件电路。  相似文献   

14.
2004年5月17日,ARM公司发布了一款新的可授权处理器。该处理器是ARM与NEC电子公司合作开发的。MPCore可综合多处理器基于ARMv6体系结构,可配置为1~4个处理器,性能可达2600Dhrystone MIPS。其功能包括:一级可配置缓存、64位AMBA AXI接口、矢量浮点协处理器和可编程中断分配。该处理器支持不工作状态的处理器启用Adaptive Shutdown技术,提供动态节能,低功耗性能与不含缓存的常规130nm处理器相同,为0.57mW/MHz。ARM智能能量管理技术通过动态地预测所需性能,降低电压和频率,这两项技术可实现高达85%的功耗节省。多处理器理想地满…  相似文献   

15.
本文讨论了采用FPGA硬件实现高速实时2K点FFT处理器的设计方案。选择了将基4和基2分解揉合的DIF算法作为实现算法。并采用CORDIC算法代替传统的乘法-累加单元,使得FFT中的三角函数计算只需加减和移位操作来实现。整个处理器采用流水线结构,并且有两个RAM分别轮流作为输入缓存和每一级的中间运算结果存储器。  相似文献   

16.
朱玉飞  戴紫彬  徐进辉  李功丽 《电子学报》2017,45(12):2957-2964
以信息安全设备的密码应用需求为基础,融合流体系结构处理器基本架构,设计出流体系结构密码处理器.文章主要研究和设计影响该处理器性能的瓶颈--流存储系统.此系统针对专用密码处理器的存储特点,并采用可配置化设计,满足密码应用对处理器存储系统灵活高效的要求.同时,该设计将层次化-分布-分体式存储、多数据通道流水并行化访存、流访存调度策略相结合,优化存储系统的访存效率,以提高该处理器的整体性能.研究结果表明,相比于典型密码处理器的存储设计,该设计的访存效率最高可提升约6倍.  相似文献   

17.
孙耀  刘佩林  周晖 《信息技术》2007,31(7):49-51,146
移动多媒体的迅猛发展及视频压缩标准复杂度的不断提升对硬件平台提出了更高的要求。TMS320DM320是TI公司推出的多媒体处理器。内部为ARM+DSP+视频加速引擎IMX的新型处理器架构广泛支持主流音视频压缩标准。视频加速引擎IMX是高性能的运算加速单元,支持多种复杂解码操作。介绍了TMS320DM320,并对H,264解码器进行性能分析,提出了运算复杂模块针对IMX的优化方案,并以耗时的逆变换、逆量化与亮度分量运动补偿为例,测试并评估IMX实现H.264复杂算法的性能。经测试,使用IMX视频解码运算可以获得9倍以上的速度提升。  相似文献   

18.
基于P2P的CDN新型网络及缓存替换算法   总被引:1,自引:0,他引:1  
对内容分发网络和P2P网络的特点进行了分析,给出了一种基于P2P的CDN新型网络自治缓存系统的体系结构,提出了自治缓存区域中智能缓存替换问题并给出了智能缓存替换方法和双关键字缓存替换算法.通过仿真实验,可以找到以运算复杂度低命中率高的关键字来实现缓存替换.  相似文献   

19.
网络处理器体系结构分析   总被引:2,自引:2,他引:0  
文章在阐述网络处理器NP(Network Processor)产生的技术背景的基础上,介绍了网络处理器的功能,分析了网络处理器两种不同的体系结构模型,最后从体系结构方面详细探讨了网络处理器面临的挑战并提出了一些可行的解决方案.  相似文献   

20.
《电子产品世界》1997,(4):72-72,80
第一个微处理器问世至今已有二十多年,但计算机杂志和报刊仍用很多的笔墨专门介绍新处理器体系结构的编程模型和理论上的性能规格.虽然这些文章在某些市场(如工作站市场)中无疑是很有价值的,但是,采用嵌入式计算机的大部分委托加工设备厂商历来都是从实际应用出发考虑问题的.这些实际应用正在推动人们选择Intel公司的x86/Pentium体系结构做为嵌入式系统发展最快的处理器平台.嵌入系统研究公司于1995年发表的调研结果表明,百分之二十的嵌入系统设计人员已在他们的产品中采用PC兼容处理器,但在1997年,这一数字将跃增到34%.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号