期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

李焱张云泉王可赵美超《计算机科学》2011,38(8):284-286,296

快速傅立叶变换作为20世纪公认的最重要的基础算法之一,在大规模科学计算处理、数字信号处理、图形图像仿真等众多领域有着广泛的应用。OpenCL是首个面向异构系统通用的并行编程标准,为软件开发人员提供了统一的面向异构系统的并行编程环境。首先,在异构平台Cell和GPU上使用OpcnCL实现了基于2的幂一维FFT,并对其进行了测试和分析,在Cell平台上当数据规模适中时它能够达到SDK性能的65%,当数据规模继续增大时,相对性能有所降低。此外,针对Nvidia Fermi平台,手工调优了小因子的FFT,使其性能接近于CUFFT的140%。相似文献

2.

基于CUDA的SAR成像CS算法研究

高跃清张焱刘伟光《计算机与网络》2012,(7):55-57

针对通用计算平台下SAR成像算法效率低下的问题,提出了一种基于CUDA的SAR成像算法并行化实现方法。在分析CUDA工作原理及CS算法并行性特征的基础上,详细描述了算法每个步骤的CUDA实现。实验结果表明了该算法的高效性,优化后的CS算法提速比达到了10～20倍。相似文献

3.

基于CUDA的SVM算法并行化研究

张巍张功萱王永利张永平朱昭萌《计算机科学》2013,40(4):69-72

SVM算法在统计分类以及回归分析中得到了广泛的应用。而随着物联网的迅速发展,SVM算法在各种应用中往往需要解决大量数据的快速处理问题。在SVM算法并行化研究中,首先对SVM算法进行分析研究,提出了基于CUDA的SVM算法并行化方案;其次,进一步研究海量数据的处理,提出海量数据处理的并行化方案;最后,通过实验分析对比了并行化算法的性能。相似文献

4.

基于CUDA的拉普拉斯金字塔的优化

《微型机与应用》2016,(10):40-42

提出了基于CUDA的并行拉普拉斯金字塔算法。算法采用的并行拉普拉斯算法很好地解决了共享存储器的bank冲突和全局存储器的合并访问的问题,为了最大化并行效率,计算了SM占用率,并通过公式进行了论证。在GTX480平台下,基于CUDA的并行拉普拉斯金字塔算法获得了几十倍的加速比。最后,将基于CUDA的并行拉普拉斯金字塔算法成功地应用于图像融合和增强图片的细节处理,充分证明了并行拉普拉斯金字塔算法广泛的有效性和必要性。相似文献

5.

基于CUDA 的Wu-Manber 多模式匹配算法 总被引：1，自引：0，他引：1

马计王国平杨明《计算机系统应用》2012,21(3):51-54,175

多模式匹配是计算机科学中最基本的问题,其应用在许多领域,在一些情形下也是比较耗时的。GPU拥有比CPU更强的并行计算能力,随着CUDA架构的推出,GPU用于通用计算领域的并行编程工作变得更加轻松。实现了基于CUDA架构的Wu-Manber多模式匹配算法,实验结果表明,相比传统串行算法而言,本文的实现获得了10倍以上的加速。相似文献

6.

CUDA架构下的三维弹性静力学边界元并行计算

王英俊王启富王钢王书亭黄运保《计算机辅助设计与图形学学报》2012,24(1):112-119

针对传统边界元法计算量大、计算效率低的问题,以三维弹性静力学的边界元法为对象,将基于CUDA的GPU并行计算应用到其边界元计算中,提出了基于CUDA架构的GPU并行算法.该算法首先对不同类型的边界元系数积分进行并行性分析,描述了相关的GPU并行算法,然后阐述了边界元方程组的求解方法及其并行策略.实验结果表明,文中算法较传统算法具有显著的加速效果. 相似文献

7.

基于CUDA的Adaboost算法并行实现

程峰李德华《计算机工程与科学》2011,33(2):118-123

Adaboost算法是一种用于目标检测的有效算法,自2001年应用于人脸检测以来,陆续有各种改进算法提出,旨在提高检测精度和适用范围.然而,训练一个Adaboost分类器仍然是一个很耗时间的过程.目前,CUDA与Adaboost结合的研究主要集中于在已有分类器的基础上加速目标检测的过程,构建实时目标检测系统.本文对Ad... 相似文献

8.

基于CUDA的数据挖掘KNN算法的改进

刘振黄理灿闫志文《工业控制计算机》2013,26(5):104-105

当今的时代是信息化的时代,随着计算机和网络的迅速发展,在日常生活中会产生越来越多的数据。人们享受信息化网络系统带来的便利的同时,也遗憾有非常多的信息被淹没在数据之中。如何整理管理这些宝贵的数据,怎么才能更好更有效地使用这些数据,成为一个迫切而重要的问题。相似文献

9.

CUDA架构下的靶丸辐射能流并行计算

赵权黄运保孙宇航《计算机辅助设计与图形学学报》2013,25(7)

针对惯性约束聚变(ICF)间接驱动对称性分析中靶自身遮挡判断困难、表面辐射能流计算效率低等问题,提出了基于CUDA的靶丸辐射能流并行计算方法.该方法以两区近似均匀模型为基础,利用四叉树结构对靶离散单元进行层次化表示,再根据包围盒的相交判断快速剔除遮挡单元;通过单元视角因子计算过程到GPU各运算线程的映射,实现了靶丸辐射能流计算的并行化.实验结果表明,在保证同样计算精度的同时,文中算法平均加速比在考虑遮挡时为15,不考虑遮挡时为400,具有较高的计算效率. 相似文献

10.

基于CUDA的快速中值滤波算法 总被引：2，自引：0，他引：2

吕亚飞贾堃阳《现代计算机》2011,(14):3-6

在众多的快速中值滤波算法中选取一种适合在CUDA平台上实现的算法,并针对GPU的运算特点,对算法进行很大的改进。改进后的算法采用纹理存储器存储数据源,共享存储器和寄存器存储中间运算结果,并通过同一block内的线程共享排序结果减少了排序过程中所需的比较次数,降低了算法的复杂度。实验结果表明改进后的快速中值滤波算法充分发挥了GPU强大的并行处理能力,对于分辨率为4096×4096的图像其运算速度是基于CPU实现的6597倍,可有效地应用在实时图像处理中。相似文献

11.

基于CUDA平台的遗传算法并行实现研究 总被引：2，自引：0，他引：2

下载免费PDF全文

谭彩凤马安国邢座程《计算机工程与科学》2009,31(Z1)

CUDA技术方便程序员在GPU上进行通用计算,但并没有提供随机数产生的应用接口。为此,本文提出并实现在CUDA开发平台上并行产生均匀随机数算法,测试证明算法可行。在此基础上优化基本遗传算法,并在GPU上并行实现其所有操作,提高其运行速度和准确度;分析了种群大小和遗传代数对此算法加速比及准确度的影响,并与MAT-LAB工具箱进行比较。实验表明,相比MATLAB遗传算法工具箱,基于CUDA平台实现的遗传算法性能更高,准确度更好。相似文献

12.

CUDA高性能计算并行编程 总被引：1，自引：0，他引：1

李波赵华成张敏芳《微型电脑应用》2009,25(9):55-57,64

针对GPU的计算处理能力,提出了用GPU解决高性能计算的问题,其中包括详细描述CUDA编程的方法、优化处理原则等。采用了对比实验,结果表明了CUDA在并行计算上有很强的能力,为GPU的通用计算提供了新的方法和思路。相似文献

13.

基于CUDA的快速中值滤波算法

吕亚飞贾堃阳《电脑与微电子技术》2011,(13):3-6

在众多的快速中值滤波算法中选取一种适合在CUDA平台上实现的算法。并针对GPU的运算特点．对算法进行很大的改进。改进后的算法采用纹理存储器存储数据源,共享存储器和寄存器存储中间运算结果．并通过同一block内的线程共享排序结果减少了排序过程中所需的比较次数．降低了算法的复杂度。实验结果表明改进后的快速中值滤波算法充分发挥了GPU强大的并行处理能力．对于分辨率为4096×4096的图像其运算速度是基于CPU实现的6597倍．可有效地应用在实时图像处理中。相似文献

14.

基于CUDA的光线追踪优化算法研究与实现

岳田爽赵怀慈花海洋《计算机应用与软件》2015,32(1)

在三维场景仿真过程中,为了实现真实的光影效果,通常采用光线追踪法对场景进行渲染。光线追踪算法的核心过程是光线与场景中的片元进行相交测试,而对于一个复杂的场景,该过程计算量非常大。为了改善光线追踪算法的计算速度问题,实现一种基于CUDA(Compute Unified Device Architecture)的光线追踪算法。该算法利用GPU的并行处理能力同时结合KD-Tree加速相交测试过程,最终提高仿真场景的渲染速度。通过实验表明,该算法的KD-Tree创建性能相比传统方法提升约20%,光线追踪性能提升约6倍。相似文献

15.

基于CUDA架构矩阵乘法的研究

马梦琦刘羽曾胜田《微型机与应用》2011,30(24):62-64,68

首先介绍了CUDA架构特点,在GPU上基于CUDA使用两种方法实现了矩阵乘法,并根据CUDA特有的软硬件架构对矩阵乘法进行了优化。然后计算GPU峰值比并进行了分析。实验结果表明,基于CUDA的矩阵乘法相对于CPU矩阵乘法获得了很高的加速比,最高加速比达到1079.64。GPU浮点运算能力得到有效利用,峰值比最高达到30.85%。相似文献

16.

基于CUDA架构的MD5破解方法研究

张润梅王霄《计算机科学》2011,38(2):302-305

由于内存、运算速度以及磁盘空间的限制,暴力破解MD5几乎无法在PC机上实现。CUDA意在使GPU的超高计算性能在数据处理和科学计算等通用计算领域发挥优势。主要研究基于CUD八架构的MD5破解方法,并使用VS2005与NVCC进行混合编译。实验选择在GeForce9600UT显卡和四核CPUQ660。上分别运行所提程序和标准C语言版程序。结果表明,在高计算负荷与巨量数据情况下,中低端显卡的计算速度比高端CPU高30~50。倍。CUDA使GPU流处理器阵列的性能得到充分发挥,极大地提高了并行计算程序的效率。相似文献

17.

基于CUDA技术模拟雷达余辉的方法

谢永亮汤晓迪刘尚富曾海兵《微型机与应用》2011,30(8):61-63,66

分析了目前基于光栅显示器模拟雷达余辉的方法。针对实现逼真余辉效果存在的主要瓶颈,通过采用CUDA技术可以解决模拟余辉时庞大的计算量的问题。主要采用CPU+GPU的编程模式模拟余辉,在GPU中为每一个像素点创建一个并行执行的线程来完成整个屏幕像素的数据处理,使得余辉效果逼真、画面流畅、扫描速度大幅提高。相似文献

18.

基于CUDA的大规模流体实时模拟

周煜坤陈清华余潇《计算机应用与软件》2015,32(1)

流体模拟是计算机图形学中一个重要课题。使用基于粒子的光滑流体动力学SPH(smoothed particle hydrodynamics)方法模拟大规模流体的运动需要大量的粒子模拟流体,计算量巨大,传统的方法很难达到实时性要求。为了解决该问题,使用NVIDIA的并行计算架构CUDA(Compute Unified Device Architecture)将SPH方法的全部处理过程在GPU上实现,充分利用了GPU并行计算的性能优势。使用Z-order排列改进已有的并行邻域搜索算法,并通过优化数据结构及存储器分配,有效缓解了SPH方法在GPU架构上的性能瓶颈。实验结果表明,该方法能实时逼真地模拟大规模流体,与已有的GPU方法相比处理速度有显著的提升。相似文献

19.

基于CUDA的塔台模拟机冲突检测算法

汤坤费向东季玉龙徐伟《计算机与数字工程》2011,(10):85-88

塔台模拟机冲突检测算法是一种耗时大的并行算法。针对其导致塔台模拟系统核心服务器CPU负担过重的缺点,在常用冲突检测算法的基础上,提出一种基于统一设备构架（CUDA）的塔台模拟机冲突检测实现方案。首先介绍GPU并行运算的体系结构基础,并将基于卡尔曼滤波的目标物体跟踪技术的分层冲突检测算法移植到GPU。然后利用相同价格的CPU和GPU对比运算效果。实验结果表明：与相同算法的CPU实现方案相比,GPU实现方案将计算效率提高10～50倍。使用此方案,极大地减轻了核心服务器的负担,使塔台模拟机的性能得到质的提高。相似文献

20.

GPU并行计算编程技术介绍

王泽寰王鹏《数据与计算发展前沿》2013,4(1):81-87

近年来GPU通用计算蓬勃发展。程序开发者和GPU通用计算应用程序的数量增长很快。针对不同的应用程序的要求和程序开发者不同的使用习惯,围绕着CUDA架构的 GPU,NVIDIA及其合作伙伴共同开发了很多种不同的编程技术。本文详细介绍了它们的特点和适用对象。希望可以帮助广大开发人员针对自己的编程习惯和程序要求选择最为合适的编程技术。相似文献