首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
本文从设计和应用的角度分析了数字信号处理器(DSP)的特点,详细地从结构、指令集和运算单元方面阐述了DSP区别于其它处理器的特点;介绍了DSP的发展概况,从复杂指令单个乘法累加运算单元发展到复杂指令两个运算单元,又发展到简单指令多个运算单元,并指出是应用推动了DSP的飞速发展;最后,对DSP的发展作了预测,DSP将在多发射、嵌入式DSP核和控制运算混合处理器方向发展。  相似文献   

2.
引言 数据采集是DSP最基本的应用领域,本文设计的数据采集系统利用TI公司的TMS320F2812 DSP芯片。该芯片的主要特点有:150MI/s(百万条指令/秒)的执行速度使得指令周期减小到6.67ns,从而提高了控制器的实时控制能力;采用哈佛总线结构,具有高性能的32位的CPU,在一个周期内能够实现32位×32位或两个16位×16位的乘法累加操作,  相似文献   

3.
提出了一种准双精度乘累加运算方法,可以在廉价的16比特DSP上实现ISO/IEC 13818-3的标准精度解码,也可应用于其他高精度实时DSP系统设计。其平均指令数约为单精度运算的3倍,对于MPEG Layer III音频解码器可实现24~25比特的总体精度。给出了基于Motorola DSP56824的核心代码和指令数统计。  相似文献   

4.
DSP单片机是一种通用可编程单片信号处理机,它具有很高的集成度和运算速度。DSP单片机具有很大的存贮器寻址空间。其硬件可在一个指令周期内完成乘法/累加运算.由于配有可靠的软件模拟系统.DSP单片机开发容易,使用方便,因此成为一种比专用VLSI器件和位片器性能更好的廉价数字信号处理系统.本文将介绍几代DSP单片机的特征,发展趋势,以及DSP单数片机在数字信号处理中的应用。  相似文献   

5.
提出了一种支持可变位宽高效加法的现场可编程逻辑门阵列(FPGA)嵌入式数字信号处理(DSP)单元知识产权(IP)硬核结构,相比于Altera公司的Stratix-III DSP结构,基于本文提出的优化结构可以更高效地实现加法、乘加以及累加等多种应用。利用软件对不同数据类型和位宽的输入实现数据预处理,减小了硬件资源的开销,并进一步提升了电路性能。同时在DSP结构中加入了乘法旁路器和二级符号位扩展的加法电路,在减小DSP实现面积的同时,支持超高位宽、高速的流水线型加法运算,扩展了DSP的应用范围。采用TSMC 55 nm标准CMOS工艺设计并完成了所提出的DSP IP核的电路实现,可实现包括72位可变位宽加法及36位可变位宽乘法等在内的9种运算模式。  相似文献   

6.
提出了一种双精度乘累加运算方法,可以在廉价的16比特DSP上实现ISO/IEC13818-3的标准精度解码,也可应用于其他高精度实时DSP系统设计。其平均指令数约为单精度运算的3倍,对于MPEG Layer Ⅲ音频解码器可实现24-25比特的总体精度。给出了基于MotorolaDSP56824的核心代码和指令数统计。  相似文献   

7.
孙修善 《信息技术》2003,27(9):28-29,59
由于DSP运算速度快,可实现指令乘法运算和变址运算,指定的重叠运行,超长指定字(VLIW)结构,不需要动态码再排序的硬件支持。DSP设计简单成本低,销售价格逐年降低,具有广泛的应用前景,非常适合在智能家居自动化系统中应用。  相似文献   

8.
实时信号处理系统要求数字信号处理器具有更高的速度和更低的功耗。文章提出的新型乘法累加器,具有在不同模式下分别处理16位与32位数据。或16位与32位数据混合运算能力。本运算结构采用由三个16位乘法器重构一个32位运算单元,可调用其中一至三个乘法累加模块处理不同精度的数据达到了高速度、低功耗的设计要求。在32位工作模式下数据处理速度可以达到16位乘累加器的水平。  相似文献   

9.
该文在研究分组密码算法处理特征的基础上,提出了可重构分簇式分组密码处理器架构。在指令的控制下,数据通路可动态地重构为4个32bit簇,2个64bit簇和一个128bit簇,满足了分组密码算法数据处理所需的灵活性。基于分簇结构,提出了由指令显性地分隔电路结构的低功耗优化技术,采用此技术使得整体功耗降低了36.1%。设计并实现了5级流水线以及运算单元内流水结构,处理AES/DES/IDEA算法的速度分别达到了689.6Mbit/s, 400Mbit/s和416.7Mbit/s。  相似文献   

10.
问:BF-53x系列处理器可以进行32位乘法吗? 答:BF在一个周期内只有两个单元进行两个16位乘法,因而可以在一个周期内进行32位乘法。不过,BF-53x支持多周期的32位MAC(乘加器)指令,即:Dreg=Dreg.请参考EE-186。如果你需要32位乘法,你应该考虑用SHARC或TigerSHARC处理器,因为它们是设计用于单周期内32位乘法和累加的。  相似文献   

11.
文章通过对32位定点DSP的体系结构及其设计方法的研究,重点阐述了32位定点DSP中CPU包括ALU、MPY、ARAU、流水线、指令系统和总线接口等关键逻辑部件工作原理,对各个逻辑部件的设计思路和实现方法进行了分析描述。采用基于标准单元正向设计方法,设计了一款32位指令集的定点DSP电路,该电路采用哈佛总线结构,可以在单周期内实现16×16位有符号整数乘法、32位累加和32位数据的算术逻辑运算,处理精度高。该电路采用0.5μm 1P3M CMOS工艺流片,集成度7万门,工作频率可达36 MHz,动态功耗594 mW。  相似文献   

12.
介绍了一种应用于ARM处理器的增强DSP功能乘加单元。为了减小乘加指令的周期数,采用了两个并行16×16位乘加单元构成的单指令多数据(SIMD)结构,可以通过适当的配置支持16到32位的各种乘加运算以及16位的复数乘法。理论分析表明,这种乘加单元与传统的单指令单数据(SISD)结构相比在周期数上有明显的减小。尤其对于16位乘加及16位复数乘法,其所需周期数分别只有ARM1022E的1/4和1/3。0.35mm的标准单元库实现表明该乘加单元可以工作在120MHz,使得其非常适合数字信号处理的应用。  相似文献   

13.
A high-performance and low-power 32-bit multiply-accumulate unit (MAC) is described in this paper. The last mixed-length encoding scheme used in the MAC leverages the advantage of a 16-bit encoding scheme without adding extra delay to the faster four-stage Wallace tree of a 12-bit encoding scheme. With this new encoding scheme, one-cycle throughput for 16-bit ×16-bit and 32-bit ×16-bit MAC instructions was achieved at very high frequencies. To handle media streams more efficiently, the single-instruction-multiple-data (SIMD) and the multiply-with-implicit-accumulate (MIA) features were added. A mixture of static CMOS logic and complementary pass-gate logic (CPL) was used to achieve the high-speed and low-power goals. Several power-saving techniques were also implemented in this MAC  相似文献   

14.
The convergence of voice and video in next-generation wireless applications requires a processor that can efficiently implement a broad range of advanced third generation (3G) wireless algorithms. The micro signal architecture (MSA) core is a dual-MAC modified Harvard architecture that has been designed to have good performance on both voice and video algorithms. In addition, some of the best features and simplicity of microcontrollers has been incorporated into the MSA core. This article presents an overview of the MSA architecture, key engineering issues and their solutions, and details associated with the first implementation of the core. The utility of the MSA architecture for practical 3G wireless applications is illustrated with several application examples and performance benchmarks for typical DSP and image/video kernels. The DSP features of the MSA core include: two 16-bit single-cycle throughput multipliers, two 40-bit split data ALUs, and hardware support for on-the-fly saturation and clipping; two 32-bit pointer ALUs with support for circular and bit-reversed addressing; two separate data ports to a unified 4 GB memory space, a parallel port for instructions, and two loop counters that allow nested zero overhead looping  相似文献   

15.
32位可重构多功能乘法器的设计与实现   总被引:1,自引:1,他引:0  
为了提高计算机硬件的利用率,及改善计算性能,提出了一种32位可重构多功能乘法器的实现方法,并能完成8位有符号、无符号,16位有符号、无符号,32位有符号、无符号的乘法,共6种乘法计算功能,并用verilog实现了设计,进行了仿真,得到了正确的结果.  相似文献   

16.
基于SHARC的多功能雷达模拟器的设计与实现   总被引:2,自引:0,他引:2  
ADSP21060是AD公司生产的一种高性能的32位浮点DSP芯片,在雷达模拟系统实时性要求高时,可基于ADSP21060来实现雷达模拟器。本文介绍了ADSP21060的性能,给出了雷达模拟器系统实现的系统原理图和硬件框图及软件流程。该雷达模拟器采用PC机和DSP组合的结构,用软硬件相结合的方法,ADSP21060完成实时运算,最终产生满足要求的视频信号。  相似文献   

17.
This paper describes the architecture and the performance of a new programmable 16-bit Digital Signal Processor (DSP) engine. It is developed specifically for next generation wireless digital systems and speech applications. Besides providing a basic instruction set, similar to current day 16-bit DSP's, it contains distinctive architectural features and unique instructions, which make the engine highly efficient for compute-intensive tasks such as vector quantization and Viterbi operations. The datapath contains two Multiply-Accumulate units and one ALU. The external memory bandwidth is kept to two data busses and two corresponding address busses. Still, the internal bus network is designed such that all three units are operating in parallel. This parallelism is reflected in the performance benchmarks. For example, an FIR filter of N taps will take N/2 instruction cycles compared to N for a general purpose 16-bit DSP, and it will require only half the number of memory accesses of a general purpose DSP. This efficiency is reflected in the very low MIPS requirement to implement cellular standards.  相似文献   

18.
BWDSP100是一款采用16发射、SIMD、VLIW架构的32位高性能DSP,适用于雷达信号处理、电子对抗、通信及图像处理等领域。对这种体系结构,编译器是发挥其高性能的关键因素。本文针对在Openimpact编译基础设施基础上开发BWDSP100编译器过程中遇到的一些关键技术加以讨论,并对Openimpact对多簇BWDSP100的支持进行了扩展。  相似文献   

19.
叶波  李天望  罗敏 《电子学报》2009,37(8):1789-1793
 提出了一种回声消除和噪声抑制算法,采用改进的自适应步长非线性滤波技术,用单芯片对该算法进行了实现.用180nm 3.3V/1.8V 6层金属混合信号CMOS工艺流片,可达70dB的声学回声消除性能,噪音消除达20dB,侧音消除达30dB.该芯片包含1个16位DSP、3个14位Σ-Δ ADC、2个16位Σ-Δ DAC、 以及内置ROM和RAM等,并集成有USB、UART、I2C和PCM等接口.测试结果表明该芯片具有全双工和远距离免提的功能,支持双路麦克风输入,技术规范符合G.165国际标准.该芯片功耗低,外围电路简单,自适应能力强,可广泛应用于蓝牙车载免提通信、GPS和即时通讯等领域.  相似文献   

20.
FPGA is an appealing platform to accelerate DNN.We survey a range of FPGA chip designs for AI.For DSP module,one type of design is to support low-precision operation,such as 9-bit or 4-bit multiplication.The other type of design of DSP is to support floating point multiply-accumulates(MACs),which guarantee high-accuracy of DNN.For ALM(adaptive logic module)module,one type of design is to support low-precision MACs,three modifications of ALM includes extra carry chain,or 4-bit adder,or shadow multipliers which increase the density of on-chip MAC operation.The other enhancement of ALM or CLB(configurable logic block)is to support BNN(binarized neural network)which is ultra-reduced precision version of DNN.For memory modules which can store weights and activations of DNN,three types of memory are proposed which are embedded memory,in-package HBM(high bandwidth memory)and off-chip memory interfaces,such as DDR4/5.Other designs are new architecture and specialized AI engine.Xilinx ACAP in 7 nm is the first industry adaptive compute acceleration platform.Its AI engine can provide up to 8X silicon compute density.Intel AgileX in 10 nm works coherently with Intel own CPU,which increase computation performance,reduced overhead and latency.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号