共查询到20条相似文献,搜索用时 0 毫秒
1.
快速傅立叶变换作为20世纪公认的最重要的基础算法之一,在大规模科学计算处理、数字信号处理、图形图像仿真等众多领域有着广泛的应用。OpenCL是首个面向异构系统通用的并行编程标准,为软件开发人员提供了统一的面向异构系统的并行编程环境。首先,在异构平台Cell和GPU上使用OpcnCL实现了基于2的幂一维FFT,并
对其进行了测试和分析,在Cell平台上当数据规模适中时它能够达到SDK性能的65%,当数据规模继续增大时,相对性能有所降低。此外,针对Nvidia Fermi平台,手工调优了小因子的FFT,使其性能接近于CUFFT的140%。 相似文献
2.
3.
4.
5.
6.
针对传统边界元法计算量大、计算效率低的问题,以三维弹性静力学的边界元法为对象,将基于CUDA的GPU并行计算应用到其边界元计算中,提出了基于CUDA架构的GPU并行算法.该算法首先对不同类型的边界元系数积分进行并行性分析,描述了相关的GPU并行算法,然后阐述了边界元方程组的求解方法及其并行策略.实验结果表明,文中算法较传统算法具有显著的加速效果. 相似文献
7.
Adaboost算法是一种用于目标检测的有效算法,自2001年应用于人脸检测以来,陆续有各种改进算法提出,旨在提高检测精度和适用范围.然而,训练一个Adaboost分类器仍然是一个很耗时间的过程.目前,CUDA与Adaboost结合的研究主要集中于在已有分类器的基础上加速目标检测的过程,构建实时目标检测系统.本文对Ad... 相似文献
8.
9.
针对惯性约束聚变(ICF)间接驱动对称性分析中靶自身遮挡判断困难、表面辐射能流计算效率低等问题,提出了基于CUDA的靶丸辐射能流并行计算方法.该方法以两区近似均匀模型为基础,利用四叉树结构对靶离散单元进行层次化表示,再根据包围盒的相交判断快速剔除遮挡单元;通过单元视角因子计算过程到GPU各运算线程的映射,实现了靶丸辐射能流计算的并行化.实验结果表明,在保证同样计算精度的同时,文中算法平均加速比在考虑遮挡时为15,不考虑遮挡时为400,具有较高的计算效率. 相似文献
10.
基于CUDA的快速中值滤波算法 总被引:2,自引:0,他引:2
在众多的快速中值滤波算法中选取一种适合在CUDA平台上实现的算法,并针对GPU的运算特点,对算法进行很大的改进。改进后的算法采用纹理存储器存储数据源,共享存储器和寄存器存储中间运算结果,并通过同一block内的线程共享排序结果减少了排序过程中所需的比较次数,降低了算法的复杂度。实验结果表明改进后的快速中值滤波算法充分发挥了GPU强大的并行处理能力,对于分辨率为4096×4096的图像其运算速度是基于CPU实现的6597倍,可有效地应用在实时图像处理中。 相似文献
11.
CUDA技术方便程序员在GPU上进行通用计算,但并没有提供随机数产生的应用接口。为此,本文提出并实现在CUDA开发平台上并行产生均匀随机数算法,测试证明算法可行。在此基础上优化基本遗传算法,并在GPU上并行实现其所有操作,提高其运行速度和准确度;分析了种群大小和遗传代数对此算法加速比及准确度的影响,并与MAT-LAB工具箱进行比较。实验表明,相比MATLAB遗传算法工具箱,基于CUDA平台实现的遗传算法性能更高,准确度更好。 相似文献
12.
13.
在众多的快速中值滤波算法中选取一种适合在CUDA平台上实现的算法。并针对GPU的运算特点.对算法进行很大的改进。改进后的算法采用纹理存储器存储数据源,共享存储器和寄存器存储中间运算结果.并通过同一block内的线程共享排序结果减少了排序过程中所需的比较次数.降低了算法的复杂度。实验结果表明改进后的快速中值滤波算法充分发挥了GPU强大的并行处理能力.对于分辨率为4096×4096的图像其运算速度是基于CPU实现的6597倍.可有效地应用在实时图像处理中。 相似文献
14.
在三维场景仿真过程中,为了实现真实的光影效果,通常采用光线追踪法对场景进行渲染。光线追踪算法的核心过程是光线与场景中的片元进行相交测试,而对于一个复杂的场景,该过程计算量非常大。为了改善光线追踪算法的计算速度问题,实现一种基于CUDA(Compute Unified Device Architecture)的光线追踪算法。该算法利用GPU的并行处理能力同时结合KD-Tree加速相交测试过程,最终提高仿真场景的渲染速度。通过实验表明,该算法的KD-Tree创建性能相比传统方法提升约20%,光线追踪性能提升约6倍。 相似文献
15.
16.
由于内存、运算速度以及磁盘空间的限制,暴力破解MD5几乎无法在PC机上实现。CUDA意在使GPU的超高计算性能在数据处理和科学计算等通用计算领域发挥优势。主要研究基于CUD八架构的MD5破解方法,并使用VS2005与NVCC进行混合编译。实验选择在GeForce9600UT显卡和四核CPUQ660。上分别运行所提程序和标准C语言版程序。结果表明,在高计算负荷与巨量数据情况下,中低端显卡的计算速度比高端CPU高30~50。倍。CUDA使GPU流处理器阵列的性能得到充分发挥,极大地提高了并行计算程序的效率。 相似文献
17.
18.
流体模拟是计算机图形学中一个重要课题。使用基于粒子的光滑流体动力学SPH(smoothed particle hydrodynamics)方法模拟大规模流体的运动需要大量的粒子模拟流体,计算量巨大,传统的方法很难达到实时性要求。为了解决该问题,使用NVIDIA的并行计算架构CUDA(Compute Unified Device Architecture)将SPH方法的全部处理过程在GPU上实现,充分利用了GPU并行计算的性能优势。使用Z-order排列改进已有的并行邻域搜索算法,并通过优化数据结构及存储器分配,有效缓解了SPH方法在GPU架构上的性能瓶颈。实验结果表明,该方法能实时逼真地模拟大规模流体,与已有的GPU方法相比处理速度有显著的提升。 相似文献
19.
塔台模拟机冲突检测算法是一种耗时大的并行算法。针对其导致塔台模拟系统核心服务器CPU负担过重的缺点,在常用冲突检测算法的基础上,提出一种基于统一设备构架(CUDA)的塔台模拟机冲突检测实现方案。首先介绍GPU并行运算的体系结构基础,并将基于卡尔曼滤波的目标物体跟踪技术的分层冲突检测算法移植到GPU。然后利用相同价格的CPU和GPU对比运算效果。实验结果表明:与相同算法的CPU实现方案相比,GPU实现方案将计算效率提高10~50倍。使用此方案,极大地减轻了核心服务器的负担,使塔台模拟机的性能得到质的提高。 相似文献
20.
近年来GPU通用计算蓬勃发展。程序开发者和GPU通用计算应用程序的数量增长很快。针对不同的应用程序的要求和程序开发者不同的使用习惯,围绕着CUDA架构的 GPU,NVIDIA及其合作伙伴共同开发了很多种不同的编程技术。本文详细介绍了它们的特点和适用对象。希望可以帮助广大开发人员针对自己的编程习惯和程序要求选择最为合适的编程技术。 相似文献