首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
基于雷达资料的外推是临近预报中重要的方法之一,随着全国气象雷达网络建设规模的不断提高以及观测资料精细化程度的提升,基于区域乃至全国雷达拼图的外推预报,每次计算都需花费大量时间,甚至滞后于每6分钟一次的资料观测频次。为解决传统外推算法运算复杂度高,实时性差的问题,运用OpenCL构建基于GPU的异构计算模型对外推算法进行并行化改进。然后逐步分析影响算法性能的瓶颈,并通过改进和测试数据比对,阐述算法优化的过程。其中,内存与线程的映射优化、合理利用局部存储器作为高速缓存以及隐藏CPU执行时间等方法不仅对本算法的执行效率带来显著提升,也可为其他基于OpenCL异构计算的优化提供参考。以AMD Graphic Core Next和Northern Islands二代GPU架构作为测试平台,并以Intel CPU并行计算作为测试参考,测试结果表明,改进后的算法在硬件同等功耗的情况下,计算性能提升15~22倍。  相似文献   

2.
针对现代优化算法在处理相对复杂问题中所面临的求解时间复杂度较高的问题,引入基于GPU的并行处理解决方法。首先从宏观角度阐释了基于计算统一设备架构CUDA的并行编程模型,然后在GPU环境下给出了基于CUDA架构的5种典型现代优化算法(模拟退火算法、禁忌搜索算法、遗传算法、粒子群算法以及人工神经网络)的并行实现过程。通过对比分析在不同环境下测试的实验案例统计结果,指出基于GPU的单指令多线程并行优化策略的优势及其未来发展趋势。  相似文献   

3.
为解决高质量的轮廓提取算法计算复杂、实时性差的问题,基于GPU并行计算架构提出了一种针对高质量的轮廓提取算法——Pb(probability boundary,概率轮廓)提取算法的高效并行计算方法。重点讨论了如何利用多计算单元加速计算最耗时的梯度计算部分。详细介绍了多方向直方图并行统计机制及χ2并行计算中访存冲突避免机制。对比实验表明,在GPU上基于该并行方法的轮廓提取相比传统CPU方式具有明显加速效果,且随着图像分辨率变大,加速效果更加明显,例如图像大小为1024×1024时可获得160倍的加速;此外,基于伯克利标准测试集验证了该并行方法可保持原有算法的计算准确度。为大规模图像数据智能分析中的轮廓提取提供了快速、实时的计算方法。  相似文献   

4.
许建  林泳  秦勇  黄翰 《计算机应用研究》2013,30(9):2656-2659
为提高协同过滤算法的可伸缩性, 加快其运行速度, 提出了一种基于GPU(graphic processing unit)的并行协同过滤算法来实现高速并行处理。GPU的运算模式采用单指令多数据流, 适用于逻辑性弱、数据量巨大的运算, 而这正是协同过滤算法所具有的特点。使用统一计算设备框架(compute unified device architecture, CUDA)实现了此协同过滤算法。实验表明, 在中低端的GPU上该算法与在高端的四核CPU上的协同过滤算法相比, 其加速比达到40倍以上, 显著地提高了算法的可伸缩性, 而算法在准确率方面也有优秀的表现。  相似文献   

5.
6.
针对大规模高维数复杂非线性函数优化的问题,提出一种新的基于GPU的协同差分进化算法。该方法将协同进化的思想引入启发式差分进化算法,随机分解大规模计算问题,利用GPU处理数据的并行性,同步计算分解后的子问题,加快算法的精度和收敛速度。实验对比结果表明,所提出的基于GPU的协同差分进化算法对大规模非线性函数优化具有更高的精度和效率。  相似文献   

7.
为了得到片上电源线/地线网络(P/G网)快速而准确的求解算法,根据结构化供电网的局部性效应,重新分析了连续过松弛迭代法(SOR)和变向隐含迭代法(ADI)在P/G网中的求解效率及并行性,提出了利于GPU加速的并行算法:G_RBSOR和G_ADI.它们均采用规则的数据结构,以利于GPU并行读写数据,并采用合并归约来并行计算迭代结束标志位.为了避免GPU计算的数据冲突,G_RBSOR算法采用棋盘格方式对电路节点进行红黑分类,并对红黑节点进行交错松弛.实验结果表明,在不损失精度的前提下,与各自对应的CPU串行算法相比,G_RBSOR和G_ADI算法均取得了超过50倍的加速效果;与高效的P/G分析串行求解算法ICCG相比,也取得了超过5倍的加速效果.  相似文献   

8.
9.
针对粒子群优化(PSO)算法训练人工神经网络(NN)时面临的计算时间过长问题,引入基于图形处理器(GPU)技术的并行处理解决方法。使用粒子与线程一一对应的并行策略,通过并行处理各个粒子的计算过程来加快整个粒子群的收敛速度,减少粒子群神经网络(PSO-NN)的训练时间。在统一计算设备架构(CUDA)下对一简单测试函数逼近的数值进行仿真,实验结果表明,相较基于CPU的串行PSO-NN,基于GPU的并行PSO-NN在寻优稳定性一致的前提下取得了超过500倍的计算加速比。  相似文献   

10.
当重建的图像规模偏大、实时性要求高时,卷积反投影(CBP)重建过程比较慢,达不到预期满意的速度。针对这一不足,通过深入研究卷积反投影算法的原理,优化投影数据在图形处理器(GPU)中的存储结构、分析和挖掘算法执行过程中滤波阶段的可并行性,对其中的滤波操作进行并行化处理,从而提出并行滤波过程的方法。通过在MATLAB进行仿真实验,实验结果表明:所提出的并行化方法在保证重建图像精度和清晰度的前提下,同串行卷积法相比较,滤波过程运算的加速比得到了较大程度的提高。  相似文献   

11.
为了解决模式识别中的计算效率问题,文章研究GPU的体系架构,采用基于GPU的并行计算方法,针对人脸识别算法在GPU上做了相关实验,获得了较高的计算加速比,得到了采用基于GPU的并行计算方法可以较好解决在模式识别中的计算瓶颈问题的结论。  相似文献   

12.
李繁  严星  张晓宇 《计算机科学》2021,48(4):197-204
特征脸算法是基于脸部表征的常用人脸辨识方法之一.当训练数据量较大时,不管是训练还是测试模块都非常耗时.基于此,采用CUDA并行运算架构实现GPU加速特征脸算法.针对GPU并行运算的效果取决于硬件规格、算法本身的复杂度和可并行性,以及程序开发者使用GPU的并行化方式等因素,文中首先提出在特征脸算法训练阶段的计算平均值、z...  相似文献   

13.
随着网络的发展,网络流量的增长速度与网络安全系统的过滤能力之间的矛盾日益突出。作为网络安全系统的核心模块———模式匹配模块的处理能力受到严峻的挑战。传统串行模式匹配算法已经很难满足当前网络的需求。本文改进了传统的AC算法,利用高性能专用并行处理芯片———GPU来提高AC算法的处理速度,提出了一种G-AC算法。实验表明,在不同数据集上,其性能分别是传统AC算法的10倍以上。  相似文献   

14.
大尺度、高分辨率数字地形数据应用需求的增长,给计算密集型的累积汇流等数字地形分析算法带来了新的挑战。针对CPU/GPU(Graphics Processing Unit)异构计算平台的特点,提出了一种基于OpenCL(Open Computing Language)的多流向累积汇流算法的并行化策略,具有更好的平台独立性和可移植性,简化了CPU/GPU异构平台下的并行应用程序设计。累积汇流并行算法包括时空独立型的流量分配和空间依赖型的累积入流两个过程,均定义为OpenCL内核并交由OpenCL设备并行执行,其中累积入流过程借助流量转移矩阵由递归式转换为迭代式来实现并行计算。与基于流量转移矩阵的并行汇流算法相比,尽管基于单元入度矩阵的并行汇流算法可以降低迭代过程中的计算冗余,但需要采用具有较大延迟的原子操作以及需要更多的迭代次数,在有限的GPU计算资源下,两种算法性能差异不明显。实验结果表明,并行累积汇流算法在NVIDIA GeForce GT 650M GPU上获得了较好的加速比,加速性能随格网尺度增加而有所增加,其中流量分配获得了约50~70倍的加速比,累积入流获得了10~20倍的加速比,展示了利用OpenCL在GPU等并行计算设备上进行大规模数字地形分析的潜在优势。  相似文献   

15.
甘威  张素文  雷震  李怡凡 《计算机科学》2016,43(Z6):165-167
特征的检测和匹配在计算机视觉应用中是一个重要的组成部分,如图像匹配、物体识别和视频跟踪等。SIFT算法以其尺度不变性和旋转不变性在图像配准领域得到了广泛应用。传统的SIFT算法效率低,因此提出一种在移动智能终端上实现的高效方法。在Android平台利用OpenCL框架实现了移动智能终端的SIFT算法,通过计算任务的重新分配,优化SIFT算法在移动GPU上的并行实现。实验结果表明,移动平台的SIFT算法充分利用了GPU并行计算能力,大大提高了SIFT算法的执行效率,实现了高效的特征检测。  相似文献   

16.
文章提出一种基于混沌和比特级置乱的并行图像加密算法--CBLP算法。该算法主要包含3种基本运算:像素位置置换、比特旋转(BR)以及像素值异或(XOR)运算,其中位置置换用于置乱像素位置,BR和XOR运算用于扩散图像的像素值。另外,为充分利用当前异构处理平台的计算资源以大幅提升算法的执行效率,文章在NIVIDIA GeForce GTX 580 GPU上使用OpenCL技术并行实现了该算法。实验结果和数值分析表明,CBLP算法具有较高的加密效率和良好的安全性,可以有效地应用于实际加密当中,具有较高的应用价值。  相似文献   

17.
传统求图传递闭包的方法存在计算量大与计算时间长的问题.为加快处理大数据量的传递闭包算法的计算速度,结合算法密集计算和开放式计算语言(OpenCL)框架的特征,采用本地存储器优化的并行子矩阵乘和分块的矩阵乘并行计算,提出一种基于OpenCL的传递闭包并行算法.利用本地存储器优化的并行子矩阵乘算法来优化计算步骤,提高图形处...  相似文献   

18.
何希  吴炎桃  邸臻炜  陈佳 《计算机应用》2019,39(7):2008-2013
形态学重建是医学图像处理中非常基础和重要的操作。它根据掩膜图像的特征对标记图像反复进行膨胀操作,直到标记图像中的像素值不再变化为止。对于传统基于中央处理器(CPU)的形态学重建系统计算效率不高的问题,提出了使用图形处理器(GPU)来加速形态学重建。首先,设计了适合GPU处理的数据结构:并行堆集群;然后,基于并行堆集群,设计和实现了一套基于GPU的形态学重建系统。实验结果表明,相比传统基于CPU的形态学重建系统,基于GPU的形态学重建系统可以获取超过20倍的加速比。基于GPU的形态学重建系统展示了如何把基于复杂数据结构的软件系统高效地移植到GPU上。  相似文献   

19.
针对如光束平差这样的大规模优化问题,实现基于OpenCL的并行化自动微分。采用更有效的反向计算模式,实现对多参数函数的导数计算。在OpenCL框架下,主机端完成C/C++形式的函数构建以及基于拓扑排序的计算序列生成,设备端按照计算序列完成函数值以及导数的并行计算。测试结果表明,将实现的自动微分应用于光束平差的雅可比矩阵计算后,相比于采用OpenMP的Ceres Solver,运行速度提高了约3.6倍。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号