期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

袁良张云泉龙国平王可张先轶《软件学报》2010,21(Z1):251-262

近年来在生物计算,科学计算等领域成功地应用了GPU 加速计算并获得了较高加速比.然而在GPU 上编程和调优过程非常繁琐,为此,研究人员提出了许多提高编程效率的编程模型和编译器,以及指导程序优化的计算模型,在一定程度上简化了GPU上的算法设计和优化,但是已有工作都存在一些不足.针对GPU低延迟高带宽的特性,提出了基于延迟隐藏因子的GPU 计算模型,模型提取算法隐藏延迟的能力,以指导算法优化.利用3 种矩阵乘算法进行实测与模型预测,实验结果表明,在简化模型的情况下,平均误差率为0.19. 相似文献

2.

基于OpenCL的图像模糊化算法优化研究

张樱张云泉龙国平《计算机科学》2012,39(3):260-264

现代GPU一般都提供特定硬件(如纹理部件、光栅化部件及各种片上缓存)以加速二维图像的处理和显示过程,相应的编程模型(CUDA、OpenCL)都定义了特定程序设计接口(CUDA的纹理内存,OpenCL的图像对象)以便图像应用能利用相关硬件支持。以典型图像模糊化处理算法在AMD平台GPU的优化为例,探讨了OpenCL的图像对象在图像算法优化上的适用范围,尤其是分析了其相对于更通用的基于全局内存加片上局部存储进行性能优化的方法的优劣。实验结果表明,图像对象只有在图像为四通道且计算过程中需要缓存的数据量较小时才能带来较好的性能改善,其余情况采用全局内存加局部存储都能获得较好性能。优化后的算法性能相对于精心实现的CPU版加速比为200～1000;相对于NVIDIA NPP库相应函数的性能加速比为1.3～5。相似文献

3.

柴油机机体装配变形的测试与分析

龙国平沈炜良熊焕庭《中国测试技术》1998,(6)

柴油机装配后，机体承受较大的装配应力而发生变形，改变其冷加工时的质量控制。本文以6105柴油机机体曲轴箱为例，介绍一种测试和描述柴油机机体装配变形的计算机辅助方法。相似文献

4.

大型水轮发电机组的减振研究

沈炜良龙国平宋咏春《中国测试技术》2000,(2)

介绍消除大型水轮发电机组振动的几种补气方法及现场试验 ,通过试验得出较好的补气方案。相似文献

5.

LU分解在Godson-Tvl众核体系结构上的半行化研究

龙国平范东睿《计算机学报》2009,32(11)

随着集成电路工艺的发展,众核体系结构成为人们日益关注的计算平台.LU分解是科学和工程计算中被广泛使用的核心算法之一,尽管在传统的并行体系结构上已有大量的并行化研究工作,但是结合新犁众核体系结构特征的工作还不多.文章从负载均衡、延迟容忍和性能分析模型3个方面系统研究了LU分解在众核体系结构上的并行化问题.该文的贡献在于:首先,针对二维卷帘负载分配方案难以达到良好负载均衡的缺点,提出一种新的"之"字形分配方案,实验表明不经任何优化的情况下性能比前者提高20%,优化后达到了40%;其次,提出了一个性能加速比的分析模型,并用实验定量研究了实测性能加速比和理论值之间的差距,发现在合理利用片上存储优化访存延迟,并恰当选择矩阵分块参数的情况下,实测加速效果能比较接近理论值;通过实验还证明实测性能难以达到理论预测值的两个主要原因:访存带宽有限和片上网络的资源竞争. 相似文献

6.

基于OpenCL的连续数据无关访存密集型函数并行与优化研究

蒋丽媛张云泉龙国平贾海鹏《计算机科学》2013,40(3):111-115

连续的数据无关是指计算目标矩阵连续的元素时使用的源矩阵元素之间没有关系且也为连续的,访存密集型是指函数的计算量较小,但是有大量的数据传输操作。在OpenCL框架下,以bitwise函数为例,研究和实现了连续数据无关访存密集型函数在GPU平台上的并行与优化。在考察向量化、线程组织方式和指令选择优化等多个优化角度在不同的GPU硬件平台上对性能的影响之后,实现了这个函数的跨平合性能移植。实验结果表明,在不考虑数据传输的前提下,优化后的函数与这个函数在OpenCV库中的CPU版本相比,在AMD HD 5850 GPU达到了平均40倍的性能加速比;在AMD HD 7970 GPU达到了平均90倍的性能加速比;在NVIDIA Tesla 02050 CPU上达到了平均60倍的性能加速比;同时,与这个函数在OpenCV库中的CUDA实现相比,在NVIDIA Tesla 02050平台上也达到了1.5倍的性能加速。相似文献

7.

面向相似App推荐的列表式多核相似性学习算法

卜宁牛树梓马文静龙国平《计算机系统应用》2017,26(1):116-121

相似App推荐可以有效帮助用户发现其所感兴趣的App.与以往的相似性学习不同,相似App推荐场景主要面向的是排序问题.本文主要研究在排序场景下如何学习相似性函数.已有的工作仅关注绝对相似性或基于三元组的相似性.本文建模了列表式的相似性,并将三元组相似性与列表式相似性用统一的面向排序场景的相对相似性学习框架来描述,提出了基于列表的多核相似性学习算法SimListMKL.实验证明,该算法在真实的相似App推荐场景下性能优于已有的基于三元组相似性学习算法. 相似文献

8.

基于OpenCL的均值平移算法在多个众核平台的性能优化研究

庞旭张云泉龙国平贾海鹏颜深根《计算机科学》2013,40(3):79-85

OpenCL作为一种面向多种平台、通用目的的编程标准,已经对许多应用程序进行了加速。由于平台硬件和软件环境的差异,通用的优化方法不一定在所有平台都有很好的加速。通过对均值平移算法在GPU和APU平台的优化,探讨了不同平台各种优化方法的贡献力,一方面研究各个平台的计算特性,另一方面体会不同优化方法的优劣,在优劣的相互转化中寻求最优的解决方案。实验表明,算法并行优化前、后在AVIV 5850,Tesla 02050和APU A6365。上分别达到了9.68, 5.74和1.27倍加速,并行相比串行程序达到79.73,93.88和2.22倍加速,前两个平台OpcnCL版本相比,CUVA版本的OpenCV程序达到1.27和1.24倍加速。相似文献

9.

基于OpenCL的图像重映射算法优化研究

吴再龙张云泉龙国平徐建良贾海鹏《数据与计算发展前沿》2013,4(1):57-66

图像重映射(Remap)算法是典型的图像变化算法。在图像放缩、扭曲、旋转等领域有着广泛的应用。随着图片规模和分辨率的不断提高,对图形映射算法的性能提出了越来越高的要求。本文在充分考虑不同GPU平台硬件体系结构差异的基础上,系统研究了在OpenCL框架下图像映射(Remap)算法在不同GPU平台上的高效实现方式。并从片外内存访存优化,向量化计算,减少动态指令等多个优化角度考察了不同优化方法在不同GPU平台上对性能的影响,提出了在不同GPU平台间实现性能移植的可能性。实验结果表明,优化后的算法在不考虑数据传输时间的前提下,在AMD HD5850GPU上相对于CPU版本取得114.3～491.5倍的加速比,相对于CUDA版本(现有GPU算法的实现)得到1.01～1.86的加速比,在NIVIDIA C2050 GPU上相对CPU版本取得100.7～369.8倍的加速比,相对于CUDA版本得到0.95～1.58的加速比。有效验证了本文提出的优化方法的有效性和性能可移植性。相似文献

10.

一种资源优化的双最小均衡Web集群区分服务调度算法

刘安丰陈志刚龙国平曾志文《计算机研究与发展》2005,42(11):1969-1976

在一种新的Web集群体系结构的基础上,提出了一种资源优化的双最小均衡区分服务调度算法：首先在前端调度器按资源均衡度将Web请求分配到各后台服务器．然后将Web请求的优先级与资源均衡度两个特征参数结合起来,综合设计后台服务器的Web请求调度顺序,为了评估该算法的性能,进行了大量的模拟实验．在与其他著名调度策略如分离式调度的对比结果显示：双最小均衡调度算法使Web请求的效率提高了11％,同时很好地实现了区分服务．证实了资源优化调度策略具有一定的普遍意义．相似文献