首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
相场法作为一种极具优势的微观组织数值模拟方法,已经在凝固微观组织演化机制的研究中得到了广泛应用。然而无论是从计算尺度还是微观组织演化时间上考虑,相场模拟计算量均非常大,对计算机有着非常高的要求。相对于传统的中央处理器(CPU)计算,图形处理器(GPU)计算是最近发展的一种高效计算手段。提出了一种基于GPU加速的定向凝固相场模拟计算策略,实现了大尺度条件下的定向凝固界面形态演化的加速计算。计算结果表明,对于单个计算机,GPU计算与CPU计算的加速比可以高达30余倍。GPU加速将为相场模拟的发展及应用带来新的契机。  相似文献   

2.
在多核中央处理器(CPU)—图形处理器(GPU)异构并行体系结构上,采用OpenMP和计算统一设备架构(CUDA)编程实现了基于AMBER力场的蛋白质分子动力学模拟程序。通过合理地将程序划分为CPU单线程、CPU多线程和GPU多线程执行部分,高效地利用了计算机的处理能力。性能测试结果表明,相对于优化后的CPU串行计算,多核CPU-GPU异构并行计算模型有强大的性能优势,特别是将占整个程序执行时间90%的作用力的计算移植到GPU上执行,获得了最高可达12倍的计算加速比。  相似文献   

3.
大规模稀疏矩阵的主特征向量计算优化方法   总被引:1,自引:0,他引:1  
矩阵主特征向量(principal eigenvectors computing,PEC)的求解是科学与工程计算中的一个重要问题。随着图形处理单元通用计算(general-purpose computing on graphics pro cessing unit,GPGPU)的兴起,利用GPU来优化大规模稀疏矩阵的图形处理单元求解得到了广泛关注。分别从应用特征和GPU体系结构特征两方面分析了PEC运算的性能瓶颈,提出了一种面向GPU的稀疏矩阵存储格式——GPU-ELL和一个针对GPU的线程优化映射策略,并设计了相应的PEC优化执行算法。在ATI HD Radeon5850上的实验结果表明,相对于传统CPU,该方案获得了最多200倍左右的加速,相对于已有GPU上的实现,也获得了2倍的加速。  相似文献   

4.
为满足文本检索、计算生物学等领域海量数据匹配对高性能计算的要求,提出一种基于计算统一设备架构(CUDA)的位并行近似串匹配算法。结合图形处理器(GPU)的高并行计算结构及存储带宽特性,通过优化数据存储方式,实现并行化动态规划矩阵算法(BPM)的加速,并对加速性能进行对比测试。实验结果表明,BPM算法通过GPU加速能获得20倍左右的加速比。  相似文献   

5.
平面波赝势密度泛函(PWP-DFT)计算是材料计算中应用最广泛的方法,其中映射计算是PWP-DFT方法求解自洽迭代中重要的一部分。针对映射势能计算成为软件加速的瓶颈,提出了针对该部分的图形处理器(GPU)加速算法,其中考虑GPU的特点:1)使用了新的并行机制求解非局部映射势能;2)重新设计了数据分布结构;3)减少内存的使用;4)提出了一种解决算法中数据相关问题的方法。最终获得了18~57倍加速,使每步分子动力学模拟最终降为12s。详细分析了该模块在GPU平台上的测试时间,同时对该算法在GPU集群上的计算瓶颈进行了讨论。  相似文献   

6.
陈颖  林锦贤  吕暾 《计算机应用》2011,31(3):851-855
随着图形处理器(GPU)性能的大幅度提升以及可编程性的发展,已经有许多算法成功地移植到GPU上.LU分解和Laplace算法是科学计算的核心,但计算量往往很大,由此提出了一种在GPU上加速计算的方法.使用Nvidia公司的统一计算设备架构(CUDA)编程模型实现这两个算法,通过对CPU与GPU进行任务划分,同时利用GP...  相似文献   

7.
对MS-Alignment算法进行分析得出该算法很难满足大规模数据对鉴定速度的要求,而且具有的一个特点是相同的任务在不同的数据上重复计算,为数据划分提供了基础。基于CUDA编程模型使用图形处理器(GPU)对步骤数据库检索及候选肽段生成进行加速优化,设计了该步骤在单GPU上的实现方法。测试结果表明,此方法平均加速比为30倍以上,效果良好,可以满足蛋白质翻译后修饰鉴定中大规模数据快速计算的需求。  相似文献   

8.
随着数据采集设备的发展,数字地形分析中高分辨率数字高程模型(DEM)图像越来越普遍。目前已经存在一系列的曲线结构提取算法由于计算复杂度较高,因此在针对高分辨率DEM图像提取地形特征线时效率较低。提出一种在图形处理器(GPU)上加速Steger曲线结构提取算法的策略,利用图形处理器上计算统一设备架构(CUDA)的高度并行性来加速算法中计算密集的Hessian矩阵生成模块以及图像特征点提取模块,对于百万像素级的DEM图像该算法可以获得5倍以上的加速比。  相似文献   

9.
分子动力学模拟中基于GPU的范德华非键作用计算   总被引:1,自引:1,他引:0  
GPU最初是专为图形渲染而设计的.近年来已经演化为高并行度、多线程、具有强大计算能力和极高存储器带宽的通用多核处理器,目前主流GPLJ的峰值计算能力通常可达CPU的数10倍.这提供了1种解决大计算量难题的新的可能.分子动力学模拟需要极强的计算能力.故使用GPU来进行分子动力学模拟的尝试是很自然的选择.本文基于NVIDIA的GeForceGTX295 GPU和CUDA2.3开发环境实现了范德华力计算、范德华势能计算和基于网格的邻居搜索.在邻居搜索算法实现中,对于不同计算能力的GPU给出了不同的实现策略.对36万粒子规模的高分子聚乙烯体系算例的测试表明:1个时间步的计算结果与计算性能突出的分子动力学软件GROMACS相应的计算结果一致(运行在工作站Intel Xeon E 5405上),相对于CPU单核计算性能有大幅提高,其中邻居搜索加速了17倍,范德华力计算加速了47倍;并且解决了邻居搜索时的边界问题.虽然本文是针对范德华力的计算,但是策略是通用的,其他方向的研究人员也可以参考.测试结果表明,使用 GPU来加速较大规模计算量的计算是可取的.  相似文献   

10.
时域有限差分(FDTD)法是求解电磁学中麦克斯韦方程组的重要方法之一,一直以来获得了广泛的使用,但是应用于电大尺寸目标仿真时存在巨大的耗时问题。为解决这一问题,利用图形处理器(GPU)的并行处理特性,结合计算统一设备架构(CUDA),以低通滤波器为算例,实现了时域卷积理想匹配层(CPML)吸收边界的三维FDTD高性能加速计算,目标网格数达5百万。实验在Fermi架构的Quadro 4000和Tesla M2050两款GPU上实测,误差均在10~(-4)范围内,相对于同时期的CPU分别可获得36和55倍以上的加速,结果表明该方法具有精度高、效率高、通用性和实用性强等特点。  相似文献   

11.
遥感图像配准是遥感图像应用的一个重要处理步骤.随着遥感图像数据规模与遥感图像配准算法计算复杂度的增大,遥感图像配准面临着处理速度的挑战.最近几年,GPU计算能力得到极大提升,面向通用计算领域得到了快速发展.结合GPU面向通用计算领域的优势与遥感图像配准面临的处理速度问题,研究了GPU加速处理遥感图像配准的算法.选取计算量大计算精度高的基于互信息小波分解配准算法进行GPU并行设计,提出了GPU并行设计模型;同时选取GPU程序常用面向存储级的优化策略应用于遥感图像配准GPU程序,并利用CUDA(compute unified device architecture)编程语言在nVIDIA Tesla M2050GPU上进行了实验.实验结果表明,提出的并行设计模型与面向存储级的优化策略能够很好地适用于遥感图像配准领域,最大加速比达到了19.9倍.研究表明GPU通用计算技术在遥感图像处理领域具有广阔的应用前景.  相似文献   

12.
随着GPU通用计算能力的不断发展,一些新的更高效的处理技术应用到图像处理领域.目前已有一些图像处理算法移植到GPU中且取得了不错的加速效果,但这些算法没有充分利用CPU/GPU组成的异构系统中各处理单元的计算能力.文章在研究GPU编程模型和并行算法设计的基础上,提出了CPU/GPU异构环境下图像协同并行处理模型.该模型充分考虑异构系统中各处理单元的计算能力,通过图像中值滤波算法,验证了CPU/GPU环境下协同并行处理模型在高分辨率灰度图像处理中的有效性.实验结果表明,该模型在CPU/GPU异构环境下通用性较好,容易扩展到其他图像处理算法.  相似文献   

13.
GPU加速希尔加解密方法的研究   总被引:1,自引:1,他引:0       下载免费PDF全文
GPU有效地利用了数量巨大的晶体管制造大量的处理单元,适用于处理单任务多数据(SIMD)的计算任务。研究了GPU的体系结构及CUDA的编程模式,改进了基于CPU的希尔加解密方法,使用多个线程将计算中耗时的矩阵相乘部分改造成SIMD模式,并分析了线程块内线程数对加速比的影响。实验结果表明,基于GPU的并行矩阵相乘的希尔加解密方法成功实现了硬件加速,相对于CPU上运行的希尔加解密方法,其执行效率明显提高,可获取12倍以上的加速,并易于扩展,对大规模数据加密和解密处理呈现出高效的处理能力。  相似文献   

14.
针对SAR地面系统实时关键成像技术进行研究,采用GPU(Graphic Processing Unit)硬件平台CUDA(Computer Uniformed Device Architecture)编程模型,对传统合成孔径雷达的RDA(Range Doppler Algorithm)算法核心部分进行了针对性的设计与实现,并在GPU专用科学计算平台Tesla C1060上进行了实验。结果表明其处理速度是一台主流4核心8线程CPU的20倍以上,并且相对RadarSat\|1卫星可以达到10倍左右的实时率;基于GPU的处理方式较好地实现了SAR实时成像系统。  相似文献   

15.
利用GPU进行加速的归一化差分植被指数(Normalized Differential Vegetation Index,NDVI)提取算法通常采用GPU多线程并行模型,存在弱相关计算之间以及CPU与GPU之间数据传输耗时较多等问题,影响了加速效果的进一步提升。针对上述问题,根据NDVI提取算法的特性,文中提出了一种基于GPU多流并发并行模型的NDVI提取算法。通过CUDA流和Hyper-Q特性,GPU多流并发并行模型可以使数据传输与弱相关计算、弱相关计算与弱相关计算之间达到重叠,从而进一步提高算法并行度及GPU资源利用率。文中首先通过GPU多线程并行模型对NDVI提取算法进行优化,并对优化后的计算过程进行分解,找出包含数据传输及弱相关性计算的部分;其次,对数据传输和弱相关计算部分进行重构,并利用GPU多流并发并行模型进行优化,使弱相关计算之间、弱相关计算和数据传输之间达到重叠的效果;最后,以高分一号卫星拍摄的遥感影像作为实验数据,对两种基于GPU实现的NDVI提取算法进行实验验证。实验结果表明,与传统基于GPU多线程并行模型的NDVI提取算法相比,所提算法在影像大于12000*12000像素时平均取得了约1.5倍的加速,与串行提取算法相比取得了约260倍的加速,具有更好的加速效果和并行性。  相似文献   

16.
王丽娜  史晓华 《计算机应用》2014,34(11):3121-3125
针对人脸轮廓提取中Chan-Vese模型计算量大、分割速度缓慢等问题,采用开放计算语言(OpenCL)并行编程模型,提出了一种基于图形处理器(GPU)和多核CPU加速的并行算法。该算法首先将模型的框架进行重构,消除模型中的数据依赖关系;然后,利用开放计算语言对算法进行并行化以及相应的优化。实验结果表明,与单线程算法相比,在NVIDIA GTX660和AMD FX-8530下达到了较高的加速比。  相似文献   

17.
本文介绍了GPU并行计算的优越性,并对基于GPU平台的开发框架和编程环境CUDA给予概述;在CUDA环境中开发DCT算法代码,实现了DCT算法代码从CPU平台向GPU平台的移植;并通过对比两个计算平台上DCT算法的计算耗时,分析了GPU计算平台的优越性。  相似文献   

18.
针对并行处理H.264标准视频流解码问题,提出基于CPU/GPU的协同运算算法。以统一设备计算架构(CUDA)语言作为GPU编程模型,实现DCT逆变换与帧内预测在GPU中的加速运算。在保持较高计算精度的前提下,结合CUDA混合编程,提高系统的计算性能。利用NIVIDIA提供的CUDA语言,在解码过程中使DCT逆变换和帧内预测在GPU上并行实现,将并行算法与CPU单机实现进行比较,并用不同数量的视频流验证并行解码算法的加速效果。实验结果表明,该算法可大幅提高视频流的编解码效率,比CPU单机的平均计算加速比提高10倍。  相似文献   

19.
叠前逆时偏移(RTM)方法是目前地震勘探领域最为精确的一种地震数据成像方法,其运用双程声波方程进行波场延拓,可实现对复杂构造介质的准确成像.文中采用互相关成像条件对震源波场与检波点波场在同时刻相关成像.针对RTM方法计算量大的问题,将图形处理器(GPU)引入到RTM计算中,充分挖掘GPU的众核结构优势,利用基于CUDA架构的并行加速算法取代传统CPU的串行运算,对逆时偏移算法中较为耗时的波场延拓和相关成像过程进行加速.复杂模型测试结果表明,在确保RTM成像精度的前提下,相比于传统CPU计算,GPU并行加速算法可大幅度地提高计算效率,进而实现基于GPU加速的叠前逆时偏移算法对复杂介质的高效率、高精度成像.  相似文献   

20.
多核集群的层次化并行编程模型一直是高性能计算的研究热点。以SMP集群为例,从硬件上可分为节点间和节点内的两层架构。阐述了层次化并行编程的实现技术,针对N体问题算法进行了基于Hybrid并行编程模型的并行化研究。提出了一种块同步MPI/OpenMP细粒度N体问题的优化算法。基于曙光TC5000A集群,将该算法与传统的N体并行算法进行了执行时间与加速比的比较,得出了几句总结性具体论述。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号