期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

吴再龙张云泉龙国平徐建良贾海鹏《数据与计算发展前沿》2013,4(1):57-66

图像重映射(Remap)算法是典型的图像变化算法。在图像放缩、扭曲、旋转等领域有着广泛的应用。随着图片规模和分辨率的不断提高,对图形映射算法的性能提出了越来越高的要求。本文在充分考虑不同GPU平台硬件体系结构差异的基础上,系统研究了在OpenCL框架下图像映射(Remap)算法在不同GPU平台上的高效实现方式。并从片外内存访存优化,向量化计算,减少动态指令等多个优化角度考察了不同优化方法在不同GPU平台上对性能的影响,提出了在不同GPU平台间实现性能移植的可能性。实验结果表明,优化后的算法在不考虑数据传输时间的前提下,在AMD HD5850GPU上相对于CPU版本取得114.3～491.5倍的加速比,相对于CUDA版本(现有GPU算法的实现)得到1.01～1.86的加速比,在NIVIDIA C2050 GPU上相对CPU版本取得100.7～369.8倍的加速比,相对于CUDA版本得到0.95～1.58的加速比。有效验证了本文提出的优化方法的有效性和性能可移植性。相似文献

2.

基于OpenCL的Kmeans算法的优化研究

吴再龙张云泉徐建良贾海鹏颜深根解庆春《计算机科学与探索》2014,(10):1162-1176

Kmeans算法是无监督机器学习中一种典型的聚类算法,是对已知数据集进行划分和分组的重要方法,在图像处理、数据挖掘、生物学领域有着广泛的应用。随着实际应用中数据规模的不断变大,对Kmeans算法的性能也提出了更高的要求。在充分考虑不同硬件平台体系架构差异的基础上,系统地研究了Kmeans算法在GPU和APU平台上实现与优化的关键技术：片上全局同步高效实现,冗余计算减少全局同步次数,线程任务重映射,局部内存重用等,实现了Kmeans算法在不同硬件平台上的高性能与性能移植。实验结果表明,优化后的算法在考虑数据传输时间的前提下,在AMD HD7970 GPU上相对于CPU版本取得136.975～170.333倍的加速比,在AMD A10-5800K APU上相对于CPU版本取得22.2365～24.3865倍的加速比,有效验证了优化方法的有效性和平台的可移植性。相似文献

3.

面向GPU计算平台的归约算法的性能优化研究

张逸然陈龙安向哲颜深根《计算机科学》2019,46(2):306-309

归约算法在科学计算和图像处理等领域有着十分广泛的应用,是并行计算的基本算法之一,因此对归约算法进行加速具有重要意义。为了充分挖掘异构计算平台下GPU的计算能力以对归约算法进行加速,文中提出基于线程内归约、work-group内归约和work-group间归约3个层面的归约优化方法,并打破以往相关工作将优化重心集中在work-group内归约上的传统思维,通过论证指出线程内归约才是归约算法的瓶颈所在。实验结果表明,在不同的数据规模下,所提归约算法与经过精心优化的OpenCV库的CPU版本相比,在AMD W8000和NVIDIA Tesla K20M平台上分别达到了3.91~15.93和2.97~20.24的加速比; 相比于OpenCV库的CUDA版本与OpenCL版本,在NVIDIA Tesla K20M平台上分别达到了2.25~5.97和1.25~1.75的加速比;相比于OpenCL版本,在AMD W8000平台上达到了1.24~5.15的加速比。文中工作不仅实现了归约算法在GPU计算平台上的高性能,而且实现了在不同GPU计算平台间的性能可移植。相似文献

4.

异构计算平台图像边缘检测算法优化研究

《计算机工程》2017,(5):240-247

随着实际应用中图像数据规模的增大和分辨率的提高,图像边缘检测算法的性能成为制约图像实时处理的关键。从向量化访存、数据本地化以及条件分支优化3个方面出发,结合算法特性和底层硬件架构特征,研究Canny边缘检测算法在NVIDIA Tegra K1异构计算平台上的GPU性能优化。实验结果表明,与基于Open CV3.0CPU的Canny边缘检测算法相比,优化后的Canny边缘检测算法在不同图像数据规模下可达13.2倍~17.8倍的性能加速比,具有较好的检测性能。相似文献

5.

基于GPU的遥感图像IHS小波融合并行算法设计与实现

徐如林周海芳姜晶菲《计算机工程与科学》2012,34(8):135-141

遥感图像融合是遥感图像应用的一个重要处理步骤。随着遥感图像数据规模与融合算法计算复杂度的增大,遥感图像融合面临着处理速度的挑战。最近几年,GPU计算能力得到极大提升,面向通用计算的应用得到了快速发展。本文基于GPU编程模型和硬件特性,深入研究了遥感图像融合的并行加速算法,提出了适合融合执行流的并行映射模型。本文选取计算量大、计算精度高的IHS增强小波融合算法进行GPU并行设计,并针对主流的GPU平台在数据传输、循环优化、线程设计等方面进行了优化,最后在nVIDIA GTX 460 GPU上进行了实验。实验结果表明,本文设计的并行映射模型及优化策略能够很好地适用于遥感图像融合应用,最大加速比达到了114倍。研究表明,GPU通用计算技术在遥感图像处理领域具有广阔的应用前景。相似文献

6.

基于OpenCL的图像积分图算法优化研究 总被引：1，自引：0，他引：1

贾海鹏张云泉徐建良《计算机科学》2013,40(2):1-7

图像积分图算法在快速特征检测中有着广泛的应用,通过GPU对其进行性能加速有着重要的现实意义。然而由于GPU硬件架构的复杂性和不同硬件体系架构间的差异性,完成图像积分图算法在GPU上的优化,进而实现不同GPU平台间的性能移植是一件非常困难的工作。在分析不同CPU平台底层硬件架构的基础上,从片外访存带宽利用率、计算资源利用率和数据本地化等多个角度考察了不同优化方法在不同GPU硬件平台上对性能的影响。并在此基础上实现了基于OpenCL的图像积分图算法。实验结果表明,优化后的算法在AMD和NVIDIA CPU上分别取得了11.26和12.38倍的性能加速,优化后的GPU kernel比NVIDIA NPP库中的相应函数也分别取得了55.01%和65.17%的性能提升。验证了提出的优化方法的有效性和性能可移植性。相似文献

7.

一种BPNNs识别算法的医学检测泛实时性问题研究

刘玉成理查德·丁张颖超《计算机科学》2018,45(6):301-307

尿沉渣空间环境的复杂性,导致采集的有形成分图像存在较多冗余信息,提取有效的图像信息变得较为困难,进而使得识别系统需要处理的数据量十分巨大。虽然BP神经网络算法的串行版本DJ8000系统平台解决了细胞等有形成分的识别准确率问题,但其不能满足尿沉渣图像医学检验的实时性要求。为此,提出了基于BP神经网络算法优化的并行处理GPU框架的系统平台。它采用并行优化框架,同步高效地对数据进行加速处理;同时,以GPU 计算和测试平台为硬件系统支持,无论是在硬件指标、数据传输及总线技术还是软硬件的兼容性方面,都有助于解决算法中时常出现的负载不均衡的问题。实验数据表明,BP神经网络尿沉渣识别算法在优化并行框架的GPU 系统处理平台上显示的加速比、时效比和运行时间等相关性能参数值都有所提升。相比于DJ8000系统平台,优化的AMD HD7970 和 NVIDIAGTX680 两个并行处理GPU框架系统平台相应的加速比参数值分别是前者的10.82~21.35个和7.63~15.28个标准当量。实验数据充分说明,优化并行框架的GPU处理系统中相关的逻辑数据、地址数据和线性寻程的函数映射关系均能相互动态分配对接并优化算法架构,实现软件到硬件系统的最优比映射,最终解决由于线程间负载不均衡导致的性能瓶颈问题,从而有效地化解了医学领域实时检测中的时效性这一难题。相似文献

8.

基于GPU的遥感图像配准并行程序设计与存储优化

周海芳赵进《计算机研究与发展》2012,(Z1):281-286

遥感图像配准是遥感图像应用的一个重要处理步骤.随着遥感图像数据规模与遥感图像配准算法计算复杂度的增大,遥感图像配准面临着处理速度的挑战.最近几年,GPU计算能力得到极大提升,面向通用计算领域得到了快速发展.结合GPU面向通用计算领域的优势与遥感图像配准面临的处理速度问题,研究了GPU加速处理遥感图像配准的算法.选取计算量大计算精度高的基于互信息小波分解配准算法进行GPU并行设计,提出了GPU并行设计模型;同时选取GPU程序常用面向存储级的优化策略应用于遥感图像配准GPU程序,并利用CUDA(compute unified device architecture)编程语言在nVIDIA Tesla M2050GPU上进行了实验.实验结果表明,提出的并行设计模型与面向存储级的优化策略能够很好地适用于遥感图像配准领域,最大加速比达到了19.9倍.研究表明GPU通用计算技术在遥感图像处理领域具有广阔的应用前景. 相似文献

9.

GIST特征提取的异构并发流计算实现 总被引：1，自引：0，他引：1

仲济源梅魁志温哲西《计算机工程与应用》2015,(6):139-144,187

针对图像GIST全局特征提取算法的计算任务,实现了CPU+GPU异构协同计算与优化：使用CPU完成图像量化、线性延拓等小计算量、不规则的数据运算,使用GPU完成滤波、Gabor特征提取、降维等计算密集、高度并行的数据运算。面向图像序列的计算扩展,在CPU端引入线程池技术,通过每个线程都绑定一个CUDA流处理一幅图像的方法,实现了多幅图像并发流处理和流内数据传输延时的隐藏;利用线程池技术提供线程预创建、资源预分配及根据资源消耗情况的线程数量动态增减等方法,提高了CPU对GPU计算资源的调度使用效率。实验结果表明,在保证同等精度的前提下,基于异构计算平台的图像GIST特征提取方法相比传统CPU平台达到8.35~9.31倍的加速比,在使用线程池之后算法处理图像序列数据时速度进一步提升10.0%~37.2%。相似文献

10.

基于FPGA的7-Zip加密文档高能效口令恢复方法

陈晓杰周清雷李斌《计算机科学》2020,47(1):321-328

随着7-Zip压缩软件的广范使用,破解7-Zip加密文档的口令对信息安全有着非常重要的意义。目前,破解7-Zip加密文档主要采用CPU和GPU平台,而潜在的口令空间大,计算复杂度高,在有限的时间内找到正确的口令需要更高性能的计算平台。因此,文中通过分析解密算法的PMC特性,采用可重构的FPGA硬件计算平台,使用流水线技术来实现数据拼接和SHA-256算法,并利用预计算和CSA方法优化SHA-256算法的关键路径,同时使用双端口RAM存储校验数据,从而满足算法的计算需求和存储需求,实现高效能的7-Zip解密算法。实验数据表明,文中提出的优化方法能大幅提升SHA-256算法的性能,使其吞吐量达到110.080 Gbps,并且通过多种方法对解密算法进行优化,最终破解10位长度口令的速率达到了10608个/s,是CPU的226倍,GPU的1.4倍,且能效比是GPU的8倍,极大地提升了算法的性能,降低了高功耗需求。相似文献

11.

基于OpenCL的拉普拉斯图像增强算法优化研究

贾海鹏张云泉龙国平徐建良李炎《计算机科学》2012,39(5):271-277

OpenCL是面向异构计算平台的通用编程框架,然而由于硬件体系结构的差异,如何在平台间功能移植的基础上实现性能移植仍是有待研究的问题。当前已有算法优化研究一般只针对单一硬件平台,它们很难实现在不同平台上的高效运行。在分析了不同GPU平台底层硬件架构的基础上,从Global Memory的访存效率、GPU计算资源的有效利用率及其硬件资源的限制等多个角度考察了不同优化方法在不同GPU硬件平台上对性能的影响;并在此基础上实现了基于OpenCL的拉普拉斯图像增强算法。实验结果表明,优化后的算法在不考虑数据传输时间的前提下,在AMD和NVIDIA GPU上都取得了3.7～136.1倍、平均56.7倍的性能加速,优化后的kernel比NVIDIA NPP库中相应函数也取得了12.3%～346.7%、平均143.1%的性能提升,验证了提出的优化方法的有效性和性能可移植性。相似文献

12.

基于CUDA的位并行近似串匹配算法

下载免费PDF全文

崔文科徐克付李娜娜胡玥《计算机工程》2012,38(22):267-270

为满足文本检索、计算生物学等领域海量数据匹配对高性能计算的要求,提出一种基于计算统一设备架构(CUDA)的位并行近似串匹配算法。结合图形处理器(GPU)的高并行计算结构及存储带宽特性,通过优化数据存储方式,实现并行化动态规划矩阵算法(BPM)的加速,并对加速性能进行对比测试。实验结果表明,BPM算法通过GPU加速能获得20倍左右的加速比。相似文献

13.

Fermi架构下的时域高斯滤波并行算法 总被引：1，自引：0，他引：1

何兴无《计算机与数字工程》2012,40(11):142-145

为提高图形图像处理中高斯滤波算法模块的计算速度,将高斯滤波与Fermi平台相结合,设计了一种高斯滤波时域的并行算法。数据测试结果显示,与基于CPU的实现相比,采用Fermi架构的GPU处理不仅可以得到误差精度小于0.0001的计算结果,而且可以取得较大的加速效果。在数据规模为512×112×128和滤波窗口大小为11的情况下能够达到约210倍的加速效果。相似文献

14.

基于GPU的GRAPES数值预报系统中RRTM模块的并行化研究

郑芳许先斌向冬冬王卓薇徐鸣《计算机科学》2012,39(106):370-374

GRAPES(Global and Regional Assimilation and Prediction System)是由中国气象科学研究院自主研究开发的中国新一代数值天气预报系统,由于其处理的数据量非常庞大以及对实时性的要求较高,因此一直是并行计算领域研究的热点。首次运用GPU(图形处理器)通用计算及CUDA技术对CRAPES_Meso。模式中物理过程的RRTM(快速辐射传输模式)长波辐射模块进行并行化处理。在性能分析的基础上,针对GPU体系结构的特点,从代码优化、存储器优化、编译选项等方面对程序性能进行优化,并取得了14X倍的加速比。经过测试表明,长波辐射RRTM模块在GPU上并行计算过程正确、稳定而且有效,并为GRAPES系统未来在GPU平台上的并行化发展奠定了一定的基础。相似文献

15.

高分辨图像区域填充的并行计算方法

曹建立陈志奎王宇新郭禾《计算机工程》2021,47(9):217-226,234

针对传统种子填充算法无法充分利用多核处理器性能以及需要人工指定种子的不足,提出基于动态连接和并查集的并行随机种子反向填充算法。将填充任务分为随机种子生成、并行填充、连通区域识别、并行合并与反转步骤,并采用C++和CUDA-C语言分别实现各步骤的CPU和GPU版本。在此基础上,从众多参数组合中选择能发挥硬件最佳性能的参数。实验结果表明,相比传统反向填充算法,并行随机种子反向填充算法能充分利用多核、异构处理器的多线程并行能力,在处理6种不同分辨率的单张和批量图像时获得了平均3.84倍和4.43倍的加速比,其中在处理8 KB高分辨图像时,最高取得6.05倍和7.09倍的加速比。相似文献