共查询到19条相似文献,搜索用时 79 毫秒
1.
2.
使用GPU加速分子动力学模拟中的非绑定力计算 总被引:1,自引:0,他引:1
在分子动力学模拟(MD)中,对非绑定力的计算需要花费大量的时间。本文提出了基于CUDA和Brook+的两种双精度算法,分别在NVIDIA和AMD两款主流GPU上实现了非绑定力的计算,借助GPU的计算能力加速了整个MD程序。算法对MD进行了任务分割,采用区域分解的方法将非绑定力的计算映射到GPU的计算核心上,同时针对两款GPU的各自特点提出了线程块内共享存储、最小化数据集两种优化方法。性能测试结果表明,与Intel Xeon 2.6GHzCPU的单核相比,43.2万粒子的高速粒子碰撞模拟,在配置NVIDIA Tesla C1060的系统上性能提高了6.5倍,在配置AMD HD4870的系统上性能提高了4.8倍。 相似文献
3.
雷达信号处理算法的高性能实现是雷达系统中的关键技术。传统雷达信号处理算法的高性能加速主要依赖DSP和FPGA等专用设备,而它们具有开发周期长、调试难度大、成本高等缺点。GPU作为通用设备,特别适合处理雷达信号这种大规模数据。目前,GPU加速雷达信号处理的成果大多集中在SAR成像等应用领域,针对脉冲多普勒雷达相关研究还比较少。为了满足雷达回波数据对吞吐量和处理实时性的高要求,提出了基于网格跨步并行的细粒度并行化、基于多CUDA流的粗粒度并行化和基于并行扫描的数据预处理等优化技术。从性能测试和误差分析等多角度评估了算法的实时性和准确性,在所使用的硬件平台上相比于传统CPU实现达到了300倍以上的加速比,并优于其它已有的CUDA加速的脉冲多普勒雷达信号处理算法。 相似文献
4.
针对双向相似性计算在CPU下串行计算效率低下,无法满足实际需求的问题,利用该计算中数据独立性的特点,应用CUDA编程模型实现基于GPU加速的图像双向相似性计算。与CPU相比,在392x300的分辨率实验下,该算法在GPU上可获得超过1200倍的加速比。 相似文献
5.
在地震资料的处理应用中,逆时偏移等处理技术由于计算资源的需求量巨大,而不能在实际生产中被广泛采用。GPU及CUDA编程架构的引入大幅提高其运算性能,是解决类似技术应用的有效途径。同时,GPU独特的物理特性使得一些应用不仅不能提高性能,甚至使性能急剧下降。通过逆时偏移技术应用实例来说明GPU的加速效果,同时将其和常规流程进行对比和分析给出应用软件的GPU适用性评价方法。 相似文献
6.
7.
基于CUDA架构在GPU上实现了神经网络前向传播算法,该算法利用神经网络各层内神经元计算的并行性,每层使用一个Kernel函数来并行计算该层神经元的值,每个Kernel函数都根据神经网络的特性和CUDA架构的特点进行优化。实验表明,该算法比普通的CPU上的算法快了约7倍。研究结果对于提高神经网络的运算速度以及CUDA的适用场合都有参考价值。 相似文献
8.
提出一种基于水面物理特征和GPU实时加速的水面效果三维模拟方法.根据水面运动的物理特征和水面纹理变化特征,采用4个周期函数叠加产生几何波和2个周期函数叠加产生纹理渡,使用凹凸纹理表现水面的细节.通过环境映射实时模拟出水面的反射等现象,通过GPU实时加速渲染,最终生成实时并且生动逼真的水面。 相似文献
9.
10.
二维扩散方程的GPU加速 总被引:1,自引:0,他引:1
近几年来,GPU因拥有比CPU更强大的浮点性能备受瞩目。NVIDIA推出的CUDA架构,使得GPU上的通用计算成为现实。本文将计算流体力学中Benchmark问题的二维扩散方程移植到GPU,并采用了全局存储和纹理存储两种方法。结果显示,当网格达到百万量级的时候,得到了34倍的加速。 相似文献
11.
12.
雷达回波信号的仿真是雷达模拟器模拟显示逼真与否的基础,在此背景下提出利用电子海图和CUDA并行处理技术,模拟导航雷达海岸线回波的新方法.通过对电子海图的并行处理实现对导航雷达海岸线回波的模拟,仿真了雷达岸线回波的遮挡效果,解决了雷达模拟器回波生成实时性要求的难题.通过计算机仿真验证了该方法的有效性,已实际运用于某型雷达模拟器的回波信号仿真. 相似文献
13.
14.
基于计算机的分子动力学仿真具有理论分析方法和实验方法无法比拟的优点,但分子动力学仿真算法计算量非常大,特别是在对碳纳米管的大规模粒子数进行仿真处理时,普通的基于CPU的串行算法执行效率低且耗时多。为此,提出基于统一计算设备架构的碳纳米管分子动力学的图形处理单元( GPU)并行算法,设计并实现仿真算法中适合GPU并行运算的分裂算法,将具有竞争资源的运算以非竞争方式运行。实验结果表明,与CPU串行仿真算法相比,分裂算法的运算速度较快,且在只有16个GPU流处理器显卡上可获得十多倍的加速比。 相似文献
15.
由于GPU(图形处理器)性能的大幅提高和可编程性的发展,基于GPU的光线追踪算法逐渐成为研究热点。光线追踪算法需要的计算量大,基于此,分析了光线追踪算法的基本原理,在NVIDIA公司的CUDA(计算统一设备体系结构)环境下采用均匀栅格法作为加速结构实现了光线追踪算法。实验结果表明,该计算模式相对于传统基于CPU的光线追踪算法具有更快的整体运算速度,GPU适合处理高密度数据计算。 相似文献
16.
基于样图的纹理合成是一个大计算量过程,为了利用GPU的并行计算能力进行大规模纹理合成,我们提出一种并行纹理合成算法.该算法综合块查找和全局纹理优化算法分多遍进行纹理的合成和优化,其中每一遍分为串行纹理块定位和并行最优块匹配2个阶段.纹理块定位阶段在CPU端按照扫描线顺序确定待合成的邻域,并将邻域位置传入GPU;最优块匹配阶段在GPU端并行计算待合成邻域与对应样本邻域的全局距离,并查找出最优解得到匹配块.最后根据匹配过程统计数据自适应调整优化规模,在全局范围内对纹理进行迭代优化.实验结果表明,文中算法在保证大规模纹理合成效果的基础上减少了计算时间,能够满足交互式纹理合成的应用. 相似文献
17.
为提高图像处理领域协方差矩阵的计算效率,满足其在实时要求下的应用,借助GPU通用计算技术,结合CUDA编程模型,对协方差矩阵的计算进行有针对性的并行化优化,设计并实现一种高效的并行图像协方差矩阵算法。为在通用PC平台上使用协方差矩阵并满足实时性需求的各种图像处理应用提供了一个可行的解决方法,对其它领域涉及到协方差矩阵的实时计算也有良好的借鉴作用。与原有的CPU实现方法相比,GPU的效率有了平均数千倍的提升。 相似文献
18.
Akihiro Uchida Yasuaki Ito 《International Journal of Parallel, Emergent and Distributed Systems》2014,29(4):401-420
Recent graphics processing units (GPUs) can be used for general purpose parallel computation. Ant colony optimisation (ACO) approaches have been introduced as nature-inspired heuristics to find good solutions of the travelling salesman problem (TSP). In ACO approaches, a number of ants traverse the cities of the TSP to find better solutions of the TSP. The ants randomly select next visiting cities based on the probabilities determined by total amounts of their pheromone spread on routes. The main contribution of this paper is to present sophisticated and efficient implementation of one of the ACO approaches on the GPU. In our implementation, we have considered many programming issues of the GPU architecture including coalesced access of global memory and shared memory bank conflicts. In particular, we present a very efficient method for random selection of next cities by a number of ants. Our new method uses iterative random trial which can find next cities in few computational costs with high probability. This idea can be applied in not only GPU implementation but also CPU implementation. The experimental results on NVIDIA GeForce GTX 580 show that our implementation for 1002 cities runs in 8.71 s, while the CPU implementation runs in 190.05 s. Thus, our GPU implementation attains a speed-up factor of 22.11. 相似文献