共查询到11条相似文献,搜索用时 93 毫秒
1.
GRAPES是中国气象局自主研发的一个全球/区域分析预报系统。其模式计算方程组经过离散化之后,积分求解过程最终归结为对一个椭圆方程或Helmholtz(赫姆霍兹)方程的求解,这个求解是整个动力框架计算的核心。在目前GRAPES全球模式的准业务计算中,对于分辨率为0.5o的系统,Helmholtz方程的求解时间占到了整个模式计算时间的三分之一强。而且随着未来高分辨率模式的进一步加细,以及模式计算精度的提高,方程求解计算总量更是呈指数式增长。为此,本文分析了GRAPES模式中求解Helmholtz方程所采用的广义共轭余差法(GCR),并对比给出了利用PETSC函数库中提供的GMRES方法求解Helmholtz方程的一些初步测试结果。结果表明,采用高精度的GMRES方法可以减少模式预报偏差,改善模式预报准确度,在大规模并行计算时具有更好的可扩展性能。 相似文献
2.
研究了基于GPU的稀疏线性方程组的预条件共轭梯度法加速求解问题,并基于统一计算设备架构(CUDA)平台编制了程序,在NVIDIAGT430 GPU平台上进行了程序性能测试和分析。稀疏矩阵采用压缩稀疏行(CSR)格式压缩存储,针对预条件共轭梯度法的算法特性,研究了基于GPU的稀疏矩阵与向量相乘的性能优化、数据从CPU端传到GPU端的加速传输措施。将编制的稀疏矩阵与向量相乘的kernel函数和CUSPARSE函数库中的cusparseDcsrmv函数性能进行了对比,最优得到了2.1倍的加速效果。对于整个预条件共轭梯度法,通过自编kernel函数来实现的算法较之采用CUBLAS库和CUSPARSE库实现的算法稍具优势,与CPU端的预条件共轭梯度法相比,最优可以得到7.4倍的加速效果。 相似文献
3.
群体仿真中个体从环境中查找相关对象时会导致较高的时间复杂度。要使大规模群体能够实时仿真,必须降低模型运算的时间复杂度或者提高计算平台的能力。通过对Biods模型为典型案例进行研究,提出一种基于统一计算架构(CUDA)的大规模群体行为实时仿真并行实现及优化的方法。实现中将个体与GPU逻辑线程一一对应,通过将仿真环境离散化来提高相关个体查找的效率,通过并行化基数排序法将个体信息组织成具有空间局部性的数组,提高图形处理器(GPU)内存带宽的利用率。通过实验验证了该方法将仿真个体的数量提升到CPU方法的约7.3倍。 相似文献
4.
利用并行体系结构中不同层次级别的内存和计算单元,提出一种求解对称结构化特普利茨线性系统的多级并行算法。通过数学推导将特普利茨线性系统转换成柯西式线性系统,利用消息传递接口和开放多平台共享内存并行程序设计工具实现该算法,并通过实验验证其可行性。 相似文献
5.
6.
GIST特征提取的异构并发流计算实现 总被引:1,自引:0,他引:1
针对图像GIST全局特征提取算法的计算任务,实现了CPU+GPU异构协同计算与优化:使用CPU完成图像量化、线性延拓等小计算量、不规则的数据运算,使用GPU完成滤波、Gabor特征提取、降维等计算密集、高度并行的数据运算。面向图像序列的计算扩展,在CPU端引入线程池技术,通过每个线程都绑定一个CUDA流处理一幅图像的方法,实现了多幅图像并发流处理和流内数据传输延时的隐藏;利用线程池技术提供线程预创建、资源预分配及根据资源消耗情况的线程数量动态增减等方法,提高了CPU对GPU计算资源的调度使用效率。实验结果表明,在保证同等精度的前提下,基于异构计算平台的图像GIST特征提取方法相比传统CPU平台达到8.35~9.31倍的加速比,在使用线程池之后算法处理图像序列数据时速度进一步提升10.0%~37.2%。 相似文献
7.
在Gauss-Jordan消去法的基础上,给出了一种适应于CUDA架构的改进Gauss-Jordan消去并行算法。通过分析该方法的处理过程以及CUDA架构的相应限制,在CUDA的grid-block-thread三层组织结构的基础上,从算法构造的角度提出了grid-strip-group-block-thread五层结构,给出了基础行以及全局基础行等概念,并构建了适应于CUDA架构的Gauss-Jordan消去法的并行版本,在最高维数为4 000维的大规模稠密线性方程组的算例求解上与串行Gauss-Jordan消去法进行了比较,实验结果表明,该算法能够充分利用GPU的硬件特性,有效地降低了大规模稠密线性方程组的求解时间。 相似文献
8.
通过对离散量系统中事物之间相互关系的研究,提出了相对标准这一概念。通过建立适合于并行计算的数学模型,推导出能够解决实际问题的理论公式。并以一个实际的例子,通过在曙光1000AMMP并行计算机上的演算,证明该方法具有非常好的并行效率和广泛的应用前景。 相似文献
9.
通过对人脸识别系统的2个关键部分的优化,实现一种快速高效的人脸识别系统。在面部检测阶段改进图像积分的并行算法;在面部识别阶段尝试算法的并行化,并且把测试阶段的一部分进行了并行化。与传统的CPU识别程序相比,CUDA平台改进程序可在面部检测阶段实现22.42倍的加速比,在面部识别阶段实现1668.56倍的加速比。实验数据表明,本文提出的人脸识别系统具有很高的实时性能。 相似文献
10.
编写实现了六方点阵中拉普拉斯模型的随机行走雪花生长的CUDA(Compute Unified Device Architecture)程序,分析了GPU(Graphic Processing Unit)随机行走计算效率,对比了拉普拉斯模型随机行走雪花生长的GPU与CPU加速特性,给出了该模型随机计算环境尺寸增加的用时增长曲线。 相似文献
11.