首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
李焱  张云泉  王可  赵美超 《计算机科学》2011,38(8):284-286,296
快速傅立叶变换作为20世纪公认的最重要的基础算法之一,在大规模科学计算处理、数字信号处理、图形图像仿真等众多领域有着广泛的应用。OpenCL是首个面向异构系统通用的并行编程标准,为软件开发人员提供了统一的面向异构系统的并行编程环境。首先,在异构平台Cell和GPU上使用OpcnCL实现了基于2的幂一维FFT,并 对其进行了测试和分析,在Cell平台上当数据规模适中时它能够达到SDK性能的65%,当数据规模继续增大时,相对性能有所降低。此外,针对Nvidia Fermi平台,手工调优了小因子的FFT,使其性能接近于CUFFT的140%。  相似文献   

2.
针对通用计算平台下SAR成像算法效率低下的问题,提出了一种基于CUDA的SAR成像算法并行化实现方法。在分析CUDA工作原理及CS算法并行性特征的基础上,详细描述了算法每个步骤的CUDA实现。实验结果表明了该算法的高效性,优化后的CS算法提速比达到了10~20倍。  相似文献   

3.
SVM算法在统计分类以及回归分析中得到了广泛的应用。而随着物联网的迅速发展,SVM算法在各种应用中往往需要解决大量数据的快速处理问题。在SVM算法并行化研究中,首先对SVM算法进行分析研究,提出了基于CUDA的SVM算法并行化方案;其次,进一步研究海量数据的处理,提出海量数据处理的并行化方案;最后,通过实验分析对比了并行化算法的性能。  相似文献   

4.
《微型机与应用》2016,(10):40-42
提出了基于CUDA的并行拉普拉斯金字塔算法。算法采用的并行拉普拉斯算法很好地解决了共享存储器的bank冲突和全局存储器的合并访问的问题,为了最大化并行效率,计算了SM占用率,并通过公式进行了论证。在GTX480平台下,基于CUDA的并行拉普拉斯金字塔算法获得了几十倍的加速比。最后,将基于CUDA的并行拉普拉斯金字塔算法成功地应用于图像融合和增强图片的细节处理,充分证明了并行拉普拉斯金字塔算法广泛的有效性和必要性。  相似文献   

5.
基于CUDA 的Wu-Manber 多模式匹配算法   总被引:1,自引:0,他引:1  
多模式匹配是计算机科学中最基本的问题,其应用在许多领域,在一些情形下也是比较耗时的。GPU拥有比CPU更强的并行计算能力,随着CUDA架构的推出,GPU用于通用计算领域的并行编程工作变得更加轻松。实现了基于CUDA架构的Wu-Manber多模式匹配算法,实验结果表明,相比传统串行算法而言,本文的实现获得了10倍以上的加速。  相似文献   

6.
针对传统边界元法计算量大、计算效率低的问题,以三维弹性静力学的边界元法为对象,将基于CUDA的GPU并行计算应用到其边界元计算中,提出了基于CUDA架构的GPU并行算法.该算法首先对不同类型的边界元系数积分进行并行性分析,描述了相关的GPU并行算法,然后阐述了边界元方程组的求解方法及其并行策略.实验结果表明,文中算法较传统算法具有显著的加速效果.  相似文献   

7.
Adaboost算法是一种用于目标检测的有效算法,自2001年应用于人脸检测以来,陆续有各种改进算法提出,旨在提高检测精度和适用范围.然而,训练一个Adaboost分类器仍然是一个很耗时间的过程.目前,CUDA与Adaboost结合的研究主要集中于在已有分类器的基础上加速目标检测的过程,构建实时目标检测系统.本文对Ad...  相似文献   

8.
当今的时代是信息化的时代,随着计算机和网络的迅速发展,在日常生活中会产生越来越多的数据。人们享受信息化网络系统带来的便利的同时,也遗憾有非常多的信息被淹没在数据之中。如何整理管理这些宝贵的数据,怎么才能更好更有效地使用这些数据,成为一个迫切而重要的问题。  相似文献   

9.
针对惯性约束聚变(ICF)间接驱动对称性分析中靶自身遮挡判断困难、表面辐射能流计算效率低等问题,提出了基于CUDA的靶丸辐射能流并行计算方法.该方法以两区近似均匀模型为基础,利用四叉树结构对靶离散单元进行层次化表示,再根据包围盒的相交判断快速剔除遮挡单元;通过单元视角因子计算过程到GPU各运算线程的映射,实现了靶丸辐射能流计算的并行化.实验结果表明,在保证同样计算精度的同时,文中算法平均加速比在考虑遮挡时为15,不考虑遮挡时为400,具有较高的计算效率.  相似文献   

10.
基于CUDA的快速中值滤波算法   总被引:2,自引:0,他引:2  
在众多的快速中值滤波算法中选取一种适合在CUDA平台上实现的算法,并针对GPU的运算特点,对算法进行很大的改进。改进后的算法采用纹理存储器存储数据源,共享存储器和寄存器存储中间运算结果,并通过同一block内的线程共享排序结果减少了排序过程中所需的比较次数,降低了算法的复杂度。实验结果表明改进后的快速中值滤波算法充分发挥了GPU强大的并行处理能力,对于分辨率为4096×4096的图像其运算速度是基于CPU实现的6597倍,可有效地应用在实时图像处理中。  相似文献   

11.
基于CUDA平台的遗传算法并行实现研究   总被引:2,自引:0,他引:2       下载免费PDF全文
CUDA技术方便程序员在GPU上进行通用计算,但并没有提供随机数产生的应用接口。为此,本文提出并实现在CUDA开发平台上并行产生均匀随机数算法,测试证明算法可行。在此基础上优化基本遗传算法,并在GPU上并行实现其所有操作,提高其运行速度和准确度;分析了种群大小和遗传代数对此算法加速比及准确度的影响,并与MAT-LAB工具箱进行比较。实验表明,相比MATLAB遗传算法工具箱,基于CUDA平台实现的遗传算法性能更高,准确度更好。  相似文献   

12.
CUDA高性能计算并行编程   总被引:1,自引:0,他引:1  
针对GPU的计算处理能力,提出了用GPU解决高性能计算的问题,其中包括详细描述CUDA编程的方法、优化处理原则等。采用了对比实验,结果表明了CUDA在并行计算上有很强的能力,为GPU的通用计算提供了新的方法和思路。  相似文献   

13.
在众多的快速中值滤波算法中选取一种适合在CUDA平台上实现的算法。并针对GPU的运算特点.对算法进行很大的改进。改进后的算法采用纹理存储器存储数据源,共享存储器和寄存器存储中间运算结果.并通过同一block内的线程共享排序结果减少了排序过程中所需的比较次数.降低了算法的复杂度。实验结果表明改进后的快速中值滤波算法充分发挥了GPU强大的并行处理能力.对于分辨率为4096×4096的图像其运算速度是基于CPU实现的6597倍.可有效地应用在实时图像处理中。  相似文献   

14.
在三维场景仿真过程中,为了实现真实的光影效果,通常采用光线追踪法对场景进行渲染。光线追踪算法的核心过程是光线与场景中的片元进行相交测试,而对于一个复杂的场景,该过程计算量非常大。为了改善光线追踪算法的计算速度问题,实现一种基于CUDA(Compute Unified Device Architecture)的光线追踪算法。该算法利用GPU的并行处理能力同时结合KD-Tree加速相交测试过程,最终提高仿真场景的渲染速度。通过实验表明,该算法的KD-Tree创建性能相比传统方法提升约20%,光线追踪性能提升约6倍。  相似文献   

15.
首先介绍了CUDA架构特点,在GPU上基于CUDA使用两种方法实现了矩阵乘法,并根据CUDA特有的软硬件架构对矩阵乘法进行了优化。然后计算GPU峰值比并进行了分析。实验结果表明,基于CUDA的矩阵乘法相对于CPU矩阵乘法获得了很高的加速比,最高加速比达到1079.64。GPU浮点运算能力得到有效利用,峰值比最高达到30.85%。  相似文献   

16.
张润梅  王霄 《计算机科学》2011,38(2):302-305
由于内存、运算速度以及磁盘空间的限制,暴力破解MD5几乎无法在PC机上实现。CUDA意在使GPU的超高计算性能在数据处理和科学计算等通用计算领域发挥优势。主要研究基于CUD八架构的MD5破解方法,并使用VS2005与NVCC进行混合编译。实验选择在GeForce9600UT显卡和四核CPUQ660。上分别运行所提程序和标准C语言版程序。结果表明,在高计算负荷与巨量数据情况下,中低端显卡的计算速度比高端CPU高30~50。倍。CUDA使GPU流处理器阵列的性能得到充分发挥,极大地提高了并行计算程序的效率。  相似文献   

17.
分析了目前基于光栅显示器模拟雷达余辉的方法。针对实现逼真余辉效果存在的主要瓶颈,通过采用CUDA技术可以解决模拟余辉时庞大的计算量的问题。主要采用CPU+GPU的编程模式模拟余辉,在GPU中为每一个像素点创建一个并行执行的线程来完成整个屏幕像素的数据处理,使得余辉效果逼真、画面流畅、扫描速度大幅提高。  相似文献   

18.
流体模拟是计算机图形学中一个重要课题。使用基于粒子的光滑流体动力学SPH(smoothed particle hydrodynamics)方法模拟大规模流体的运动需要大量的粒子模拟流体,计算量巨大,传统的方法很难达到实时性要求。为了解决该问题,使用NVIDIA的并行计算架构CUDA(Compute Unified Device Architecture)将SPH方法的全部处理过程在GPU上实现,充分利用了GPU并行计算的性能优势。使用Z-order排列改进已有的并行邻域搜索算法,并通过优化数据结构及存储器分配,有效缓解了SPH方法在GPU架构上的性能瓶颈。实验结果表明,该方法能实时逼真地模拟大规模流体,与已有的GPU方法相比处理速度有显著的提升。  相似文献   

19.
塔台模拟机冲突检测算法是一种耗时大的并行算法。针对其导致塔台模拟系统核心服务器CPU负担过重的缺点,在常用冲突检测算法的基础上,提出一种基于统一设备构架(CUDA)的塔台模拟机冲突检测实现方案。首先介绍GPU并行运算的体系结构基础,并将基于卡尔曼滤波的目标物体跟踪技术的分层冲突检测算法移植到GPU。然后利用相同价格的CPU和GPU对比运算效果。实验结果表明:与相同算法的CPU实现方案相比,GPU实现方案将计算效率提高10~50倍。使用此方案,极大地减轻了核心服务器的负担,使塔台模拟机的性能得到质的提高。  相似文献   

20.
近年来GPU通用计算蓬勃发展。程序开发者和GPU通用计算应用程序的数量增长很快。针对不同的应用程序的要求和程序开发者不同的使用习惯,围绕着CUDA架构的 GPU,NVIDIA及其合作伙伴共同开发了很多种不同的编程技术。本文详细介绍了它们的特点和适用对象。希望可以帮助广大开发人员针对自己的编程习惯和程序要求选择最为合适的编程技术。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号