共查询到10条相似文献,搜索用时 484 毫秒
1.
针对目前快速多极子算法中PP问题在图形处理器上实现的缺点,如负载不平衡和计算规模受显存大小的限制等,提出了一种新的基于统一计算设备架构平台的实现方法。采取以Box为并行单位、在内存中开辟缓冲区与多线程流水计算等方式,使其适合于CPU和GPU组成的异构体系结构,充分利用CUDA编程模型的高并行性加速PP问题。实验结果表明,采用CUDA加速后,PP问题的计算时间明显降低,提高了整个FMM模拟效率,适合于各种多体问题的实时模拟。 相似文献
2.
为了实现小尺度范围流体场景的实时、真实感模拟,采用弱可压SPH方法对水体进行建模,提出了流体计算的CPU GPU混合架构计算方法。针对邻域粒子查找算法影响流体计算效率的问题,采用三维空间网格对整个模拟区域进行均匀网格划分,利用并行前缀求和和并行计数排序实现邻域粒子的查找。最后,采用基于CUDA并行加速的Marching Cubes算法实现流体表面提取,利用环境贴图表现流体的反射和折射效果,实现流体表面着色。实验结果表明,所提出的流体建模和模拟算法能实现小尺度范围流体的实时计算和渲染,绘制出水的波动、翻卷和木块在水中晃动的动态效果,当粒子数达到1 048 576个时,GPU并行计算方法相较CPU方法的加速比为60.7。 相似文献
3.
《计算机应用与软件》2018,(2)
流血模拟是虚拟手术训练系统的重要组成部分。然而,流血模拟的真实性和庞大的计算量对手术训练系统具有很大的挑战。提出一种基于GPU加速的方法以解决虚拟手术中的流血效果模拟的实时性问题。该方法利用网格法实时划分问题区域,创建以支持域为边长的空间网格。通过临近网格搜索最近相邻粒子,并且通过并行计算架构(CUDA)多线程并行加速技术完成粒子控制方程的求解以及血液与固体交互的计算,大大提高了运算效率,从而提高了手术训练的实时性。一种改进的移动立方体算法(marching cube)用于流体表面的渲染,大大提高了手术训练的真实性。实验结果表明,该方法能够满足虚拟手术过程中流血的模拟需求,相比于CPU的实现,速度明显提升。 相似文献
4.
5.
凡是需要真实场景和人物动画的图形应用场合,织物模拟都是必不可少的环节之一,其模拟速度和效果往往决定应用整体的效率和真实感.以实时织物模拟为目标,利用GPU(Graphics Processing Unit)并行编程语言CUDA,设计了一种基于弹簧-质点模型的显式织物模拟并行算法.该算法将模拟过程分为计算阶段和渲染阶段.在计算阶段,通过将质点与CUDA的线程一一对应,并行更新质点的速度和位置.算法利用线性存储器纹理解决了越界问题,并通过使用CUDA的共享内存减少对全局内存的访问.为了使各线程负载均衡地填充共享内存,提出nPass方法.在渲染阶段,算法利用CUDA与OpenGL的交互性,直接在GPU上渲染,避免了将数据回传到主存的额外开销.实验结果表明,与CPU算法和传统的GPU算法相比,该算法的模拟速度分别加快了30倍和5倍. 相似文献
6.
7.
模板计算是一类使用固定模板的算法,被广泛应用于图像处理、计算流体动力学模拟等领域,现有的模板计算存在计算并行度弱、缓存命中率低、无法充分利用计算资源等问题。在消息传递接口(MPI)计算模型和跨平台多线程(OpenMP)计算模型的基础上提出MPI+OpenMP、统一计算设备架构(CUDA)+OpenMP两种混合计算模型。相较于常规的MPI计算模型,MPI+OpenMP计算模型通过使用MPI进行多节点之间的粗粒度通信,使用OpenMP实现进程内部的细粒度并行计算,并结合单指令多数据、非一致内存访问、数据预取、数据分块等技术,提高模板计算过程中的缓存命中率与计算并行能力,加快计算速度。在只采用CUDA进行模板计算时,CPU的计算资源没有得到充分利用,浪费了大量计算资源,CUDA+OpenMP计算模型通过对计算任务的负载划分让CPU也参与到计算中,以减少通信开销及充分利用CPU的多核并行计算能力。实验结果表明,OpenMP+MPI计算模型相较于MPI计算模型的平均加速比为3.67,CUDA+OpenMP计算模型相较于CUDA计算模型的平均加速比为1.26,OpenMP+MPI和CUDA+Ope... 相似文献
8.
一种实时的3D动态海洋模拟新方法 总被引:3,自引:0,他引:3
海浪模拟是航海模拟器和海洋数值计算中非常关键的技术,直接影响到整个系统的真实性和可行性,但是实时模拟真实的海洋、湖水表面是非常困难的。文章设计了一种新的海浪模拟方法,即首先建立了新颖的海浪模拟的基本构架;然后提出了一个高性能的基于统计模型与FFT的波浪生成方法;最后研究了船舶在海浪中航行的各种特殊效果。实验表明该方法有着非常明显的改进效果。 相似文献
9.
10.
基于体的可视外壳重建不需要复杂的几何计算,易于实现,但其精度和效率仍不理想。提出一种基于统一计算架构(CUDA)和行进立方体(MC)的体素可视外壳并行优化建模方法,将体素相交判断和等值面抽取过程并行分解,利用CUDA的内核多线程机制加速建模;在MC网格化阶段,提取准确交点并消除冗余边计算;利用像素着色器实现混合权重的纹理映射,提高模型精度。在多摄像机采集装置DreamWorld上的实验结果表明,本文方法能够对多个动态物体进行实时准确的3维建模。 相似文献