首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 140 毫秒
1.
针对高速数字信号处理的要求,提出用FPGA实现基-4 FFT算法,并对其整体结构、蝶形单元进行了分析.采用蝶算单元输入并行结构和同址运算,能同时提供蝶形运算所需的4个操作数,具有最大的数据并行性,能提高处理速度;按照旋转因子存放规则,蝶形运算所需的3个旋转因子地址相同,且寻址方式简单;输出采取与输入相似的存储器;运算单元同时采用3个乘法的复数运算算法来实现.  相似文献   

2.
讨论了2个流水蝶形单元并行的地址映射算法.由于FFT级间数据读写关系复杂,实现每次并行执行2个蝶式运算的地址产生非常复杂.通过对基2数据流图的改造,将存储器分为2个存储体,各级每个蝶式运算的1对操作数位于同一存储体,并行执行的2对操作数位于不同存储体相同地址,计算结果按原址写回,同时每次计算所需的2个旋转因子地址间存在一定关系,因而可用1个地址产生单元,实现2条流水线并行所需的操作数及旋转因子的并行访问.本地址产生单元易于实现,资源需求少、延时较小,且可使蝶式计算循环次数减少一半.  相似文献   

3.
CORDIC流水线结构在FFT设计中的改进   总被引:4,自引:0,他引:4  
针对利用CORDIC流水线实现FFT蝶形运算耗费资源多的问题,依据CORDIC计算迭代系数的方法以及FFT算法中旋转因子W^p固定不任意的特点,改进了CORDIC流水线的结构形式,使其适应FFT算法.实验证明,这种改进结构既保证了蝶形运算的速度,又节约了芯片资源,适合在FFT芯片设计中使用.  相似文献   

4.
可变长FFT并行旋转因子高效产生算法及实现   总被引:1,自引:0,他引:1  
为了解决FFT处理并行旋转因子产生复杂、所需存储资源多的问题,该文在分体存储器结构的基础上,提出了一种新的旋转因子存储、访问策略.该策略保证混合基4/2 FFT算法每个蝶式运算所需的3个旋转因子均可无冲突并行访问,且在同一个旋转因子查找表的基础上,使计算任意小于最大可处理长度的FFT时,各级访问旋转因子地址的产生仅与最大可处理长度有关,而与当前处理长度无关.该算法仅用一个可移位累加数寄存器,实现计算过程中旋转因子地址产生的级间切换,且使一个存储体容量及访问次数减少了一半以上.  相似文献   

5.
为在硬件平台上实现雷达目标RCS数据压缩及重构,基于阈值离散傅里叶变换(TDFT)算法,采用基2FFT算法,在蝶形运算部分运用改进的ORDIC算法计算序列和旋转因子的复数乘法,从理论上分析了RCS数据压缩算法在硬件上实现的可能性,并通过Matlab软件仿真了算法硬件实现的全过程.仿真结果表明:所提算法的雷达目标RCS数据压缩及重构方法能在硬件上实现,对雷达目标RCS数据压缩及重构的硬件实现具有一定的参考价值.  相似文献   

6.
本文以FFT算法和CORDIC算法为基础,通过理论分析,提出一种改进的CORDIC流水线结构并设计了FFT的蝶形运算单元,将硬件不易于实现、运算缓慢的乘法单元转换成硬件易于实现、运算快捷的加法单元,并根据基4算法的寻址特点设计了简单快速的地址发生器。系统整体采用流水线的工作方式,使整个系统的数据交换和处理速度得以提高,经过时序仿真和硬件仿真验证,运行速度达到100MHz以上。  相似文献   

7.
双向预判免缩放因子CORDIC算法   总被引:1,自引:0,他引:1  
针对流水线型坐标旋转数字计算机(coordinate rotation digital computer,CORDIC)算法的输出精度低、输出时延长、硬件资源消耗大的问题,提出一种双向预判免缩放因子CORDIC算法.该算法首先将[0,π/4)内的输入角度通过角度二进制编码后按位值i分解为2~(-i)的较小角度,然后使用设立的查找表在初始角度的基础上进行双向免缩放因子旋转,无需根据中间迭代结果判断下次的旋转方向,避免了迭代方向的不确定性,减少了迭代单元级数和迭代次数,同时提高了运算精度;最后将[π/4,2π)内的输入角度通过角度区间折叠技术变换到[0,π/4),使计算区间扩展到整个圆周[0,2π),保证了运算范围,且只需要使用移位和加减运算即可实现,避免了进行乘法运算.在MATLAB和Vivado软件平台上进行算法仿真与验证,结果表明:在输出位宽均为14位时,与流水线型和单向免缩放因子型CORDIC算法相比,输出精度分别提高了47.5%、18.8%,最大输出时延分别降低了53.8%、40.0%,硬件资源消耗也有一定的改善.本文提出的CORDIC算法具有输出精度高、输出时延短等特点,其综合性能具有较大的提升.  相似文献   

8.
根据基2分解的FFT算法理论,采用了流水线与并行结合的方式,设计了一种基于FPGA芯片的FFT计算模块.该模块由地址控制单元和存储单元配合蝶形运算单元,实现了计算长度为1 024点、数据类型为32位浮点型的FFT计算.测试结果表明,该模块在CycloneIII芯片中耗用3 928个LE和123kb的存储器资源,稳定工作频率可达110 MHz,完成1 024点FFT变换时间为95.66μs,具有良好的运算性能.  相似文献   

9.
为了解决无线通信系统结构复杂、硬件占用大的问题,设计了一种优化的流水线型FFT/IFFT处理器。该FFT处理器专为IEEE802.11n协议中SISO-OFDM系统设计,根据SISO-OFDM需完成64点、128点快速傅里叶变换(FFT)的特点,FFT处理器选择基2、基4混合算法,单路延迟反馈结构。硬件实现中,采用优化的蝶形运算单元,精简了旋转因子的存储,并设计了动态存取的输出寄存器等,输入输出位宽为10 bit时,在UMC 0.11μm CMOS工艺下将硬件描述优化成逻辑门阵列,面积约为0.3 mm2。与传统的存储器结构FFT相比,大大减少了硬件开销和芯片面积及电路功耗。  相似文献   

10.
椭圆曲线密码算法的核心是点乘算法,由点加和点倍运算实现.通过采用仿射坐标,点加运算需要1次模除与4次Montgomery乘法,点倍运算需要1次模除与6次Montgomery乘法.通过采用一个统一的模除与Mont-gomery乘算法,使得硬件实现中仅需要1个算术运算器.素数域椭圆曲线密码处理器的核心是一个脉动算术运算阵列,其3级流水结构可以并行计算点运算中模除与Montgomery乘,以减少点运算的时间;通过改进核心的脉动算术运算单元,减少其关键路径延时以提高处理器的计算速度.仿真结果表明改进的处理器有效地提高了椭圆曲线密码处理器的计算速度.  相似文献   

11.
ASIC Design and Implementation for Digital Pulse Compression Chip   总被引:1,自引:0,他引:1  
A novel ASIC design of changeable-point digital pulse compression (DPC) chip is presented. System hardware resource is reduced to one third of the traditional design method through operations sharing hardware, i.e. let FFT, complex multiplication and IFFT be fulfilled with the same hardware structure. Block-floating-point scaling is used to enhance the dynamic range and computation accuracy. This design applies parallel pipeline structure and the radix-4 butterfly operation to improve the processing speed. In addition, a triple-memory-space (TMS) configuration is used that allows input, computation and output operations to be overlapped, so that the dual-butterfly unit is never left in an idle state waiting for I/O operation. The whole design is implemented with only one chip of XC2V500-5 FPGA. It can implement 1 024-point DPC within 91.6μs. The output data is converted to floating-point formation to achieve seamless interface with TMS320C6701. The validity of the design is verified by simulation and measurement results.  相似文献   

12.
以稀疏线性方程组系数矩阵所对应的因子表路径树为基础 ,提出了一种适合于在信息传输型并行计算机上求解大型电力网络方程组的并行算法 ;并将所提出的算法应用于电力系统潮流计算中 ,在信息传输型并行计算机上实现了电力系统潮流的并行计算 .通过对大型电力系统进行试算 ,表明该算法能有效地提高电力系统潮流计算的速度 .  相似文献   

13.
为了以尽量少的硬件资源实现高效能的二层交换地址表查找功能, 通过分析交换芯片地址表以及循环冗余算法的特点, 提出了一种硬件电路由寄存器和异或门构成的10位并行Hash算法. 通过并行地将输入信号帧的48位物理地址转换为10位的地址表查询地址, 可以快速准确地查询1024存储深度的地址表, 采用该地址表查询算法的二层交换芯片实现了线速交换, 从而有效提高了所实现网络设备的性能. 仿真显示, 算法生成的Hash地址较为均匀地分布在其10位地址空间内, 有效地降低Hash冲突发生的几率. 采用FPGA实现的交换电路进一步验证了算法的优异性能.  相似文献   

14.
卫星轨道递推的GPU集成式并行加速方法   总被引:1,自引:0,他引:1  
为克服传统卫星轨道模型预报方法的速度瓶颈,为实现卫星在轨自主规划变轨奠定基础,利用图形处理器(GPU)并行计算方法对多卫星轨道解算进行加速,构建了轨道预报并行计算模块,成功实现了卫星轨道预报的大幅加速.为提高低计算量时解算速度,提出了集成式GPU加速方法,将简化常规摄动模型(SGP4)解算模型整体代入核函数,计算机内存仅需与GPU进行一次调用及数据交互,大大缩短调用核函数时间,较模块化GPU加速方法在中低规模计算量时速度有明显提高.本研究于两种设备上基于统一计算设备架构(CUDA)实现了集成式加速方法并进行了加速试验,在小型嵌入式开发板NIVIDA TX2设备上可实现在5 s内进行500颗星一天时间86 400步的轨道预报,笔记本设备上GPU加速比也可达到中央处理器(CPU)的4.6倍,且加速后精度损失极低.实验结果表明:集成式加速方法适用于中低规模星数(总步数小于400万步)的并行解算任务,模块化加速方法适用于大规模星数(总步数大于400万步)的并行解算任务.  相似文献   

15.
虚拟维度表示高光谱图像中典型地物的个数。虚拟维度的确定是高光谱图像众多应用的首要步骤。针对虚拟维度计算方法时间复杂度高的问题,根据其计算具有高度并行性的特点,该文在图形处理单元(GPU)上使用统一计算设备架构(CUDA)和它的拓展线性代数工具箱CULA及Thrust实现虚拟维度的计算,在算法并行实现的每步都做了进一步优化以获取更大的加速性能。通过在GPU设备上CUDA并行计算和CPU上非并行计算求虚拟维度的实验比较,验证了CUDA并行计算可以明显加快算法的实现。  相似文献   

16.
In this work, power efficient butterfly unit based FFT architecture is presented. The butterfly unit is designed using floating-point fused arithmetic units. The fused arithmetic units include two-term dot product unit and add-subtract unit. In these arithmetic units, operations are performed over complex data values. A modified fused floating-point two-term dot product and an enhanced model for the Radix-4 FFT butterfly unit are proposed. The modified fused two-term dot product is designed using Radix-16 booth multiplier. Radix-16 booth multiplier will reduce the switching activities compared to Radix-8 booth multiplier in existing system and also will reduce the area required. The proposed architecture is implemented efficiently for Radix-4 decimation in time(DIT) FFT butterfly with the two floating-point fused arithmetic units. The proposed enhanced architecture is synthesized, implemented, placed and routed on a FPGA device using Xilinx ISE tool. It is observed that the Radix-4 DIT fused floating-point FFT butterfly requires 50.17% less space and 12.16% reduced power compared to the existing methods and the proposed enhanced model requires 49.82% less space on the FPGA device compared to the proposed design. Also, reduced power consumption is addressed by utilizing the reusability technique, which results in 11.42% of power reduction of the enhanced model compared to the proposed design.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号