期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

龚彤艳张广婷贾海鹏袁良《计算机科学》2020,47(1):31-39

快速傅里叶变换(Fast Fourier Transform,FFT)是最重要的基础算法之一,在科学计算、信号处理、图像处理等领域都有着广泛的应用。随着这些应用领域对实时性需求的进一步提高,FFT算法面临着越来越高的性能要求。在现有的FFT算法库中,FFT算法的求解速度和计算精度受到一定程度的限制,而且也少有研究者对偶数基Cooley-Tukey FFT的高性能实现提出相应的优化策略并对技术进行深入研究。基于此,文中提出了一套针对偶数基的Cooley-Tukey FFT的优化策略和方法。首先构建一个SIMD(Single Instruction Multiple Data)友好、支持混合基的蝶形网络,然后根据偶数基旋转因子特性最大限度地降低蝶形计算的复杂度,接着通过SIMD汇编优化、汇编指令重排及选择、寄存器分配策略制定、高性能矩阵转置算法等方法来优化应用,最后实现一个高性能的FFT算法库。目前,最流行、应用最广的FFT有FFTW和Intel MKL。实验结果表明,在X86计算平台上,新提出的这套针对偶数基Cooley-Tukey FFT的技术所实现的FFT算法库的性能全面优于MKL和FFTW。所提出的这套高性能算法优化和实现技术体系,可推广到除偶数基以外的其他基的实现和优化上,为进一步的研究开发工作奠定一定的基础,进而突破FFT算法在硬件平台上的性能瓶颈,实现一套针对特定平台的高性能FFT算法库。相似文献

2.

基于DSP的实数FFT算法研究与实现 总被引：6，自引：0，他引：6

陈恒亮蒋勇《动力学与控制学报》2005,3(2):50-53

介绍了一种实数快速傅里叶变换(FFT)的设计原理及实现方法,利用输入序列的对称性,将2N点的实数FFT计算转化为N点复数FFT计算,然后将FFT的N点复数输出序列进行适当的运算组合,获得原实数输入的2N点FFT复数输出序列,使FFT的运算量减少了近一半,很大程度上减少了系统的运算时间,解决了信号处理系统要求实时处理与傅里叶变换运算量大之间的矛盾．同时,给出了在TMS320VC5402 DSP上实现实数FFT的软件设计,并比较了执行16,32,64,128,256,512,1024点实数FFT程序代码与相同点数复数FFT的程序代码运行时间．经过实验验证,各项指标均达到了设计要求．相似文献

3.

申威26010众核处理器上一维FFT实现与优化

赵玉文敖玉龙杨超刘芳芳尹万旺林蓉芬《软件学报》2020,31(10):3184-3196

根据申威26010众核处理器的特点提出了基于两层分解的一维FFT众核并行算法.该算法基于迭代的Stockham FFT计算框架和Cooley-Tukey FFT算法,将大规模FFT分解成一系列的小规模FFT来计算,并通过设计合理的任务划分方式、寄存器通信、双缓冲以及SIMD向量化等与计算平台相关的优化方法来提高FFT的计算性能.最后对所提出算法的性能进行了测试,相比于单主核上运行的FFTW3.3.4库,获得了平均44.53x的加速比,最高加速比可达56.33x,且其带宽利用率最高可达83.45%. 相似文献

4.

龙芯3A处理器上FFT的高效实现

郭利财刘燕君《小型微型计算机系统》2012,33(3):594-597

FFT(Fast Fourier transform,快速傅立叶变换)是工程应用中的一个基本算法,优化其性能对于推广龙芯系列处理器的应用具有重要意义.本文充分挖掘龙芯3A处理器的硬件特性,对运算量和调整位序的过程作了优化并使用128位访存来减少访存指令的比例,从而实现了高效的FFT算法.实验结果表明,在825M龙芯3A处理器上经过优化后的一维FFT的速度是FF-TW库的2.5倍左右,而二维FFT的速度则是FFTW的3倍左右. 相似文献

5.

基于Intel SIMD指令的二维FFT优化算法 总被引：1，自引：0，他引：1

李成军周卫峰朱重光《计算机工程与应用》2007,43(5):41-44

在基于频域的大数据量图像处理算法中,最为耗时的步骤就是对图像数据进行二维FFT变换的过程。论文针对这一问题,提出一种基于Intel SIMD指令的二维FFT优化算法。通过将数据按照便于SIMD指令计算的方式进行组织,利用SSE3指令加速复数乘法,在二维处理中针对处理器缓存进行优化等方法,实现了很高的性能。实验结果表明:描述的算法比目前使用最广泛的公共域FFT程序包FFTW快30%左右。达到了对大数据量图像进行快速处理的要求,具有较大的工程实用价值。相似文献

6.

面向FPGA的稀疏傅里叶并行算法实现

《微型机与应用》2017,(10):70-73

提出了一种基于最优搜索的稀疏傅里叶变换(SFT)的并行实现设计。首先将输入信号分为并行N组,分别进行快速傅里叶变换(FFT),实现信号频率分量的取模处理,然后通过排序搜索获得。经验证,相较于FFTW,当信号长度大于524 288时,执行时间会有更好的表现;相较于正交匹配算法及其他SFT的FPGA实现,其系统的复杂度降低了。相似文献

7.

高性能基4快速傅里叶变换处理器的设计 总被引：4，自引：1，他引：3

下载免费PDF全文

段小东顾立志《计算机工程》2008,34(24):238-240

研究并设计高性能基4快速傅里叶变换(FFT)处理器。采用基4算法、流水线结构的蝶形运算单元,提高了处理速度,使芯片能在更高的时钟频率上工作。运用溢出检测状态机对每个蝶形运算单元输出的数据进行块浮点检查,确保对溢出情况进行正确判断。验证与性能评估结果表明,该FFT处理器具有较高性能。相似文献

8.

高性能并行FFT处理器的设计与实现

下载免费PDF全文

石长振杨雪王贞松《计算机工程》2012,38(2):242-244

提出一种高性能并行快速傅里叶变换(FFT)处理器的设计方案,采用4个蝶形单元进行并行处理,利用改进的无冲突操作数地址映射方式,保证每个周期同时读取和写入16个数据。给出该处理器的FPGA实现,性能评测结果表明,与其他FFT处理器相比,该并行FFT处理器的性能较优,能满足实际应用需求。相似文献

9.

大规模集群上多维FFT算法的实现与优化研究

《计算机科学与探索》2017,(6):863-874

快速傅里叶变换(fast Fourier transform,FFT)是用于计算离散傅里叶变换(discrete Fourier transform,DFT)或其逆运算的快速算法,在工程、科学和数学领域的应用非常广泛,例如信号分解、数字滤波、图像处理等。因此,在实际应用中对FFT算法进行细粒度优化是非常重要的。研究了FFT算法常用的分解策略以及FFT算法在大规模集群系统上的并行实现,并提出了相关的优化策略。在此基础上,对多种FFT算法在不同平台上进行了性能评估,并分析了各算法的实现、优缺点及其在大规模计算时的可扩展性。实验结果表明,相关研究有助于对现有的FFT算法进行进一步的优化,以及指导如何在大规模CPU+GPU的异构系统上根据不同需求选择实现性能更优的FFT算法。相似文献

10.

一种高速并行FFT处理器的VLSI结构设计 总被引：8，自引：1，他引：8

万红星陈禾韩月秋《电子技术应用》2005,31(5):45-48

在OFDM系统的实现中,高速FFT处理器是关键。在分析了基4按时域抽取快速傅立叶变换(FFT)算法特点的基础上,研究了一种高性能FFT处理器的硬件结构。此结构能同时从四个并行存储器中读取蝶形运算所需的4个操作数,极大地提高了处理速度。此结构控制单元简单,便于模块化设计。经硬件验证,达到设计要求。在系统时钟为100MHz时,1024点18位复数FFT的计算时间为13滋s。相似文献

11.

基于FPGA的通用FFT处理器的设计 总被引：1，自引：0，他引：1

张裕方康玲《计算机技术与发展》2010,20(8):87-90,95

介绍了一种通用的可以在低端或是高端的FPGA上实现N（N=2M,M=2,3,4…）点FFT变换的方法。设计采用基4布斯编码算法和华莱士树算法设计完成了16X16位有符号数并行乘法器,并采用此并行乘法器为核心设计了FFT算法中的基-2蝶形运算单元,设计了串并转化模块、并串转换模块、移位选择模块、溢出检测模块和地址与控制模块等其它模块,并以这些模块和FPGA内部的双口RAM和ROM为基础组成了基-2FFT算法模块。整个模块采用基-2时域抽取,顺序输入,逆序输出的方法;利用Modelsim完成了FFT模块的前后仿真;利用Matlab编写了用于比较仿真结果和Matlab中FFT函数产生的结果的程序,从而验证了仿真结果的正确性。该模块最后能够在Cyclone EP1C6Q240C8型FPGA上稳定运行在60MHz。整个FFT模块能够在183μs左右完成1024点的16位定点复数FFT运算,能够满足一般工程的要求。该方法也可以用于实现更低点数或是更高点数的FFT运算。相似文献

12.

六边形区域快速傅里叶变换的CUDA-MPI算法及其实现

陈家杰李会元张先轶《数值计算与计算机应用》2012,33(1):59-72

本文研究六边形区域上快速傅里叶变换(FFTH)的CUDA-MPI算法及其实现.首先,我们通过充分利用CUDA的层次化并行机制及其库函数,设计了FFTH的高效率的CUDA算法.对于规模为3×2048~2的双精度复数类型数据,我们设计的CUDA程序与CPU串行程序相比可以达到12倍加速比,如果不计内存和显存之间的数据传输,则加速比可达40倍;其计算效率与CUFFT所提供的二维方形区域FFT程序的效率基本一致.在此基础上,我们通过研究GPU上分布式并行数据的转置与排序算法,优化设计了FFTH的CUDA-MPI算法.在3×8192~2的数据规模、10节点×6GPU的计算环境下,我们的CUDA-MPI程序与CPU串行程序相比达到了55倍的加速;其效率比MPI并行版FFTW以及基于CUFFT本地计算和FFTW并行转置的方形区域并行FFT的效率都要高出很多.FFTH的CUDA-MPI算法研究和测试为大规模CPU+GPU异构计算机系统的可扩展新型算法的探索提供了参考. 相似文献

13.

基于CUDA的矩阵乘法和FFT性能测试 总被引：9，自引：7，他引：2

下载免费PDF全文

肖江胡柯良邓元勇《计算机工程》2009,35(10):7-10

针对NVIDIA公司的CUDA技术用Geforce8800GT在Visual Studi02008环境下进行测试,从程序运行时间比较判断CUBLAS库、CUDA内核程序、CUDA驱动API、C循环程序与Intel MKL库以及FFTW库与CUFFT库运行响应的差异。测试结果表明,在大规模矩阵乘法和快速傅里叶变换的应用方面,相对于CPU,利用GPU运算性能可提高25倍以上。相似文献

14.

异构平台上性能自适应FFT框架

李焱张云泉《计算机研究与发展》2014,(3)

快速傅里叶变换(fast Fourier transform,FFT)在科学和工程界中具有着广泛的应用,尤其是在信号处理、图像处理以及求解偏微分方程领域.基于图形处理器(graphic processing unit,GPU)和加速处理器(accelerated processing unit,APU)的异构平台,提出了自适应性能优化的大规模并行FFT(massively parallel FFT,MPFFT)框架.MPFFT框架采用了安装时和运行时2层自适应策略.安装时借助代码产生器可以生成被GPU程序内核(kernel)调用的任意长度的代码模板库(codelet);运行时根据自动调优技术使代码产生器生成高度优化的GPU计算代码.实验结果表明:MPFFT在APU平台上,一维、二维以及三维FFT相对于AMD clAmdFft 1.6取得的平均加速比分别为3.45,15.20以及4.47,在AMD HD7970GPU上平均加速比分别为1.75,3.01和1.69.在NVIDIA Tesla C2050GPU上取得的整体性能都达到了CUFFT 4.1的93%,最大加速比能够达到1.28. 相似文献

15.

一种高性能超长点数浮点FFT加速器设计

王谛石嵩吴铁彬刘亮谭弘兵郝子宇过锋李宏亮《计算机研究与发展》2021,58(6):1192-1203

快速傅里叶变换(fast Fourier transform,FFT)在数字信号处理中占据核心地位.随着高性能超长点数FFT需求的增长,数字信号处理器(digital signal processor,DSP)的计算能力越来越难以满足需求,集成FFT加速器成为重要的发展趋势.为了支持超长点数FFT,将2维分解算法推广到多维,提出一种可集成于DSP的高性能超长点数FFT加速器结构.该结构通过基于素数个存储体的无冲突体编址方法实现了 3维转置运算;通过递推算法实现了高效铰链因子生成;使用单精度浮点二项融合点积运算和融合加-减运算,对FFT运算电路进行了精细化设计.实现了对4G点数单精度浮点FFT计算的支持.综合结果表明:FFT加速器运行频率能够达到1GHz以上,性能达到640Gflop/s.在支持的点数和性能方面都较已有研究成果取得大幅提升. 相似文献

16.

面向Android系统库文件访存的汇编优化策略

曹越《测控技术》2016,35(1):113-117

以自主嵌入式处理器为平台,对Android系统性能进行分析.通过Oprofile工具采集Android系统下的访存热点函数,结合处理器架构特点,并充分考虑传统Cache特性,重点针对Android系统的BionicC库及Libcutils库中的热点访存函数提出优化算法进行汇编优化.实验表明:优化后的Bionic C库和Libcutils库与优化前相比,访存带宽分别提升8.91％和12.3％,系统性能分别提升1.54％和3.81％;Android系统整体性能提升5.35％. 相似文献

17.

基于CUDA的高速FFT计算* 总被引：1，自引：0，他引：1

赵丽丽张盛兵张萌姚涛《计算机应用研究》2011,28(4):1556-1559

针对快速傅里叶算法FFT在图形图像处理和科学计算领域的重要作用,提出了一种基于CUDA的高速FFT计算方法,在分析GPU硬件平台执行模式及FFT算法并行性特征的基础上,采用多线程并行的映射方法实现算法,并从存储层次优化算法。实验结果表明该算法的高效性,优化后的FFT加速比能达到CUFFT库加速比的2-6倍。相似文献

18.

应用于时频分析的低功耗短时傅里叶变换处理器

张师群于敦山盛世敏《计算机技术与发展》2008,18(1):1-6

提出了一个应用于时频分析的短时傅里叶变换处理器.为了克服已有的离散短时傅里叶变换算法和结构的缺点,给出了一种基于快速傅里叶变换阵列的新结构.根据实际需要提出了一种新的高频域分辨率的SDF(Single-path Delay Feedback)结构FFT单元,和传统的SDF结构FFT单元相比,反馈FIFO的深度和蝶形单元的数量都有所降低.再加上开发窗函数的对称性和适当合并硬件资源,与原始设计相比处理器的功耗降低了20%.使用中芯国际0.18微米工艺实现之后,系统工作时钟可以达到200MHz,即该处理器可以满足同样频率的采样信号的实时时频分析需求. 相似文献

19.

基于软硬件的协同支持在众核上对1-DFFT算法的优化研究 总被引：2，自引：0，他引：2

周永彬张军超张帅张浩《计算机学报》2008,31(11)

随着高性能计算需求的日益增加,片上众核(many-core)处理器成为未来处理器架构的发展方向.快速傅立叶变换(FFT)作为高性能计算中的重要应用,对计算能力和通信带宽都有较高的要求.因此基于众核处理器平台,实现高效、可扩展的FFT算法是算法和体系结构设计者共同面临的挑战.文中在众核处理器Godson-T平台上对1-D FFT算法进行了优化和评估,在节省几乎三分之一L2 Cache存储开销的情况下,通过隐藏矩阵转置,计算与通信重叠等优化策略,使得优化后的1-D FFT算法达到3倍以上的性能提升.并通过片上网络拥塞状况的实验分析,发现对于像FFT这样访存带宽受限的应用,增加L2 Cache的访问带宽,可以缓解因为爆发式读写带给片上网络和L2 Cache的压力,进一步提高程序的性能和扩展性. 相似文献

20.

基于FPGA和C8051F020的简易实时频谱分析设计

杨守建沈一波杨忠李宏《数字社区&智能家居》2011,(16)

FFT-V9.0 Core是基于Altera FPGA高性能、高度参数化的快速傅里叶变换处理器。设计和实现了一种以FPGA为核心,辅助于C8051F020数据处理,液晶显示各谐波幅值、基波含有率和频谱图的实时频谱分析系统。由C8051F020片内AD采集输入信号,经FPGA与C8051F020并行数据通信协议进入FPGA做FFT算法分析,运算结果经并行数据通信协议以送回C8051F020做进一步数据处理和显示。实验证明,系统充分利用了FPGA与C8051F020芯片资源,具有较好的实时性,频谱分析特性,系统操作简便,测量结果直观可靠。相似文献