期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

张楠王建立王鸣浩《计算机科学》2010,37(1):265-267

边缘检测是一种高度并行的算法,计算量较大,传统的CPU处理难以满足实时要求。针对图像边缘检测问题的计算密集性,在分析常用边缘检测算法的基础上,利用CUDA(Compute Unified Device Architecture,计算统一设备架构)软硬件体系架构,提出了图像边缘检测的GPU(Graphics Processing Unit,图形处理器)实现方案。首先介绍GPU高强度并行运算的体系结构基础,并将Roberts和Sobel这两个具有代表性的图像边缘检测算法移植到GPU,然后利用当前同等价格的CPU和GPU进行对比实验,利用多幅不同分辨率图像作为测试数据,对比CPU和GPU方案的计算效率。实验结果表明,与相同算法的CPU实现相比,其GPU实现获得了相同的处理效果,并将计算效率最高提升到了17倍以上,以此证明GPU在数字图像处理的实际应用中大有潜力。相似文献

2.

CPU-GPU协同计算加速ASIFT算法 总被引：1，自引：1，他引：0

何婷婷芮建武温腊《计算机科学》2014,41(5):14-19

ASIFT(Affine-SIFT)是一种具有仿射不变性、尺度不变性的特征提取算法,其被用于图像匹配中,具有较好的匹配效果,但因计算复杂度高而难以运用到实时处理中。在分析ASIFT算法运行耗时分布的基础上,先对SIFT算法进行了GPU优化,通过使用共享内存、合并访存,提高了数据访问效率。之后对ASIFT计算中的其它部分进行GPU优化,形成GASIFT。整个GASIFT计算过程中使用显存池来减少对显存的申请和释放。最后分别在CPU/GPU协同工作的两种方式上进行了尝试。实验表明,CPU负责逻辑计算、GPU负责并行计算的模式最适合于GASIFT计算,在该模式下GASIFT有很好的加速效果,尤其针对大、中图片。对于2048*1536的大图片,GASIFT与标准ASIFT相比加速比可达16倍,与OpenMP优化过的ASIFT相比加速比可达7倍,极大地提高了ASIFT在实时计算中应用的可能性。相似文献

3.

LBM算法在GPU组中的应用

王鹏封卫兵《计算机工程与设计》2011,32(12):4237-4240

为提高大规模并行计算的并行效率,充分发挥CPU与GPU的功能特点,特别是体现GPU强大的运算能力,提出了用消息传递接口(MPI)将一组GPU连接起来。使GPU通用计算与计算流体力学中的LBM(latticeBoltzmannmethod)算法相结合。根据GPU通用计算与LBM算法的原理,使MPI作为计算分配的机制,CUDA(compute unified device architecture)作为主要的计算执行引擎,建立支持CUDA的GPU集群,在集群上对LBM算法中的D2Q9模型进行二维方腔流数值模拟。实验结果表明,利用GPU组模拟与CPU模拟结果一致,更充分发挥了GPU的计算能力,提高了并行效率。相似文献

4.

多核CPU和GPU加速分子动力学模拟

林江宏林锦贤吕暾《计算机应用》2011,31(3):843-847

在多核中央处理器(CPU)—图形处理器(GPU)异构并行体系结构上,采用OpenMP和计算统一设备架构(CUDA)编程实现了基于AMBER力场的蛋白质分子动力学模拟程序。通过合理地将程序划分为CPU单线程、CPU多线程和GPU多线程执行部分,高效地利用了计算机的处理能力。性能测试结果表明,相对于优化后的CPU串行计算,多核CPU-GPU异构并行计算模型有强大的性能优势,特别是将占整个程序执行时间90%的作用力的计算移植到GPU上执行,获得了最高可达12倍的计算加速比。相似文献

5.

一种基于GPU的预计算辐射度传递全频阴影算法

王京王莉莉李帅《计算机研究与发展》2006,43(9):1505-1510

针对基于CPU的实时渲染全频阴影算法中内存使用效率低下、CPU运算能力消耗严重等问题,提出了基于GPU的改进算法．在预计算过程中使用基于小波变换的预计算辐射度传递（PRT）算法生成PRT矩阵,然后将其编码为易于被GPU使用的稀疏形式;在渲染过程中使用具有高度并行性的片断渲染器程序进行稀疏矩阵向量快速乘法计算,以求得最终渲染结果．相对于目前基于CPU的相应算法,算法充分利用了GPU的并行计算能力,平衡了CPU与GPU之间的负载,并同时降低了内存消耗．在一般情况下,算法可以获得超过一个数量级的性能提升．相似文献

6.

GPU在实时阴影绘制中的应用 总被引：1，自引：1，他引：0

刘双申闫春狄翠萍《计算机技术与发展》2009,19(11):226-229

实时阴影在增强三维场景真实感方面起着非常重要的作用。阴影体算法是实时阴影绘制中效果非常理想的一种方法。但是随着场景复杂度的增加,该算法计算量比较大,将导致绘制效率的降低。另一方面,随着可编程GPU技术的发展,GPU的渲染速度远远大于CPU,为提高三维场景的渲染效率提供了更大的空间。在此基础上,介绍了一种在GPU上生成阴影体的方法,加速实时阴影绘制。利用图形硬件的图形处理单元（GPU）的运算能力和可编程性,将生成阴影体的大量计算从CPU转移到GPU,从而有效地提高实时阴影的绘制效率。相似文献

7.

GPU加速的八叉树体绘制算法 总被引：2，自引：0，他引：2

苏超轼赵明昌张向文《计算机应用》2008,28(5):1232-1235

提出一种针对物体空间为序体绘制的空域跳过算法：采用双层次空间跳过,先以规则的数据分块作粗略地跳过,再以八叉树获得更高粒度的优化。该方法进一步解决了超过可用纹理内存容量的大规模体数据实时绘制问题,允许实时改变传递函数。针对该算法引入的CPU高负载瓶颈,提出一种新算法,在图形处理器(GPU)内快速计算采样面片,平衡了CPU与GPU间的运算负载。结合上述两种算法,实现高效的大规模体数据绘制并无损图像质量。相似文献

8.

基于GPU的彩色显微光学图像快速三维可视化

《计算机应用与软件》2016,(12)

彩色显微光学图像三维可视化计算量较大,针对基于CPU单线程串行计算的可视化方法无法满足实时显示要求,提出一种基于图形处理器(GPU)的显微彩色图像快速三维可视化算法。该方法采用最大密度投影函数(MIP)实现可视化,通过插值计算通过物体光线上等间距点的RGB值,取其最大亮度点的RGB作为该光线对应像素的颜色值。以上过程通过构筑的内核函数在GPU上以多线程方法完成,最终使用Open GL直接绘制投影图像。利用激光共聚焦显微镜获得的小鼠肾细胞彩色图像和多层细胞样本进行算法验证。实验结果表明,与基于CPU的单线程串行计算方法相比,基于GPU的可视化方法在显示效果一致的前提下,计算速度提高了90倍。该方法极大提升了显微图像处理过程中的实时显示性能。相似文献

9.

基于CUDA的热传导GPU并行算法研究

孟小华黄丛珊朱丽莎《计算机工程》2014,(5):41-44,48

在热传导算法中,使用传统的CPU串行算法或MPI并行算法处理大批量粒子时,存在执行效率低、处理时间长的问题。而图形处理单元(GPU)具有大数据量并行运算的优势,为此,在统一计算设备架构(CUDA)并行编程环境下,采用CPU和GPU协同合作的模式,提出并实现一个基于CUDA的热传导GPU并行算法。根据GPU硬件配置设定Block和Grid的大小,将粒子划分为若干个block,粒子输入到GPU显卡中并行计算,每一个线程执行一个粒子计算,并将结果传回CPU主存,由CPU计算出每个粒子的平均热流。实验结果表明,与CPU串行算法在时间效率方面进行对比,该算法在粒子数到达16 000时,加速比提高近900倍,并且加速比随着粒子数的增加而加速提高。相似文献

10.

基于CUDA的声辐射力弹性成像算法研究

下载免费PDF全文

曾博雷友诚王丛知邱维宝冯歌曾成志杨戈郑海荣《计算机工程与应用》2015,51(18):249-254

声辐射力弹性成像是一种新的测量组织硬度的超声成像方法。不同于其他超声组织弹性成像方法,声辐射力弹性成像能够定量测量组织的弹性模量数值,并且具有对操作者经验依赖性低的特点。然而,由于成像算法数据处理量大,运算时间长,声辐射力弹性成像还无法进行准实时的二维成像。为了获得实时的二维声辐射力弹性图像,提出并实现了一种适合于在GPU上并行计算的声辐射力弹性成像算法。通过与运行在CPU上的原始声辐射力弹性成像算法进行对比,证明在GPU上实现的算法大幅度地提高了运算速度。在自制弹性仿体上,比较了基于GPU和CPU两种算法所成的二维弹性分布图像的质量,结果证明两者的图像质量没有明显差异。相似文献

11.

基于CUDA技术的卷积神经网络识别算法

下载免费PDF全文

张佳康陈庆奎《计算机工程》2010,36(15):179-181

针对具有高浮点运算能力的流处理器设备GPU对神经网络的适用性问题,提出卷积神经网络的并行化识别算法,采用计算统一设备架构(CUDA)技术,并定义其上的并行化数据结构,描述计算任务到CUDA的映射机制。实验结果证明,在GTX200硬件架构的GPU上实现的并行识别算法的平均浮点运算能力峰值较CPU上串行算法提高了近60倍,更适用于神经网络的相关应用。相似文献

12.

基于CUDA的尺度不变特征变换快速算法 总被引：2，自引：2，他引：0

下载免费PDF全文

田文徐帆王宏远周波《计算机工程》2010,36(8):219-221

针对尺度不变特征变换(SIFT)算法耗时多限制其应用范围的缺点,提出一种基于统一计算设备架构(CUDA)的尺度不变特征变换快速算法,分析其并行特性,在图像处理单元(GPU)的线程和内存模型方面对算法进行优化。实验证明,相对于CPU,算法速度提升了30~50倍,对640×480图像的处理速度达到每秒24帧,满足实时应用的需求。相似文献

13.

基于CUDA的SKINNY加密算法并行实现与分析

解文博韦永壮刘争红《计算机应用》2021,41(4):1136-1141

针对SKINNY加密算法在中央处理器（CPU）下实现效率偏低的问题,提出一种基于图形处理器（GPU）的快速实现方法。首先,结合SKINNY算法的结构特征提出优化方案,将5个分步操作优化整合为1个整体运算;然后,分析该算法的电子密码本（ECB）模式和计数器（CTR）模式的特性,并给出并行粒度、内存分配等并行设计方案。实验结果表明,与传统的CPU实现方法下的SKINNY算法相比,基于计算统一设备架构（CUDA）实现的SKINNY算法的效率和吞吐量得到很大提升。具体来说,当处理的数据达到16 MB及以上时,在所提实现方法下,SKINNY算法的ECB模式的加速效率提升峰值为99.85%,加速比峰值为671,CTR模式的加速效率提升峰值为99.87%,加速比峰值为765;而与已有AES-256（ECB）和SKINNY_ECB并行算法比较,新提出的SKINNY-256（ECB）并行算法的吞吐量分别是它们的吞吐量的1.29倍和2.55倍。相似文献

14.

GPU加速的分段Top-k查询算法

黄玉龙邹循进刘奎苏本跃《计算机应用》2014,34(11):3112-3116

现有Top-k查询优化算法无法充分利用图形处理器(GPU)强大的并行吞吐量及时获取查询结果,为此提出了一种基于统一计算设备架构(CUDA)模型的大规模分段查询算法。通过划分查询过程以及采用分段并行处理策略,该算法可最大限度地提升查询过程中的计算和比较效率。实验结果表明,与4线程多核优化算法相比,所提算法具有明显的性能优势,当有序列表数量为6,遍历步长为120时,性能达到最优,此时比多核算法快40倍。相似文献

15.

低功耗异构计算架构的高光谱遥感图像分类研究

刘鹏飞朱健晨万良易江波《计算机工程》2022,48(12):9

高光谱图像分类算法通常需要逐点对图像中的像素点进行迭代处理,计算复杂度及并行程度存在较大差异。随着高光谱遥感图像空间、光谱和辐射分辨率的不断提升,这些算法无法满足实时处理海量遥感图像数据的需求。通过分析NPU存储计算一体化模式与遥感图像分类算法的实现步骤,设计低功耗CPU+NPU异构资源计算架构的低秩稀疏子空间聚类（LRSSC）算法,将数据密集型计算转移至NPU,并利用NPU数据驱动并行计算和内置AI加速,对基于机器学习算法的海量遥感数据进行实时分类。受到big.LITTLE计算范式的启发,CPU+NPU异构资源计算架构由8 bit和低精度位宽NPU共同组成以提高整体吞吐量,同时减少图网络推理过程中的能量损耗。实验结果表明,与CPU计算架构和CPU+GPU异构计算架构的LRSSC算法相比,CPU+NPU异构计算架构的LRSSC算法在Pavia University遥感数据集下的计算速度提升了3~14倍。相似文献

16.

基于GPU的位并行多模式串匹配研究 总被引：1，自引：0，他引：1

下载免费PDF全文

赵光南吴承荣《计算机工程》2011,37(14):265-267

图形处理器(GPU)具有较强的单一运算能力及高度并行的体系结构。根据上述特点,选择基于位并行技术的多模式串匹配算法M-BNDM,将其移植到GPU上加以实现和优化。通过对需要处理的数据进行预处理,将串匹配的过程简化为更适合CUDA计算数据的位操作。对基于CUDA架构的并行串匹配算法的性能影响因子进行分析。实验结果表明,与同等CPU算法相比,该算法能够获得约十几倍的加速比。相似文献

17.

基于CUDA的彩色超声血流成像

范正娟谭朝炜刘东权《计算机应用》2011,31(3):856-859

彩色超声血流成像在医学超声诊断中得到了广泛的运用。对前期所提出的超声血流成像图形处理器(GPU)的处理框架做出了两点改进：在壁滤波器模块并行实现Regression滤波器,替换原来的并行有限冲激响应(FIR)滤波器;在后处理模块中,加入了并行实现的Threshold box滤波器,改善了血流的均匀性。实验结果表明：GPU并行实现的运算效率是中央处理器(CPU)串行实现的16.2倍,帧率可以达到70帧/秒。与传统的FIR滤波器相比,Regression滤波器能够得到更高质量的超声血流图像,并且Threshold box滤波器提高了组织/血流鉴定的精确度。相似文献

18.

基于图形处理器加速的医学图像配准技术进展

查珊珊王远军聂生东《计算机应用》2015,35(9):2486-2491

针对目前医学图像配准技术无法满足临床实时性需求问题,对基于图形处理器(GPU)加速的医学图像配准技术进行综述探讨。首先对GPU通用计算进行概述,再以医学图像配准基本框架为主线,对近年来基于GPU加速的医学图像配准技术在国内外发展现状进行深入研究,并针对正电子发射型计算机断层显像(PET)和电子计算机断层扫描(CT)数据的非线性配准问题,分别基于中央处理器(CPU)和GPU平台进行配准实验,通过实验结果的对比,体现GPU加速配准技术的优越性。基于GPU加速的自由形变(FFD)和归一化互信息(NMI)结合的非线性配准方法配准后互信息值略低于CPU平台的配准结果,但其配准速度是CPU平台的12倍。基于GPU加速的配准算法在保持配准精度的基础上,配准速度都得到了很大的提升。相似文献

19.

基于CUDA的大规模群体行为实时仿真并行实现及优化

贺毅辉叶晨刘志忠彭伟《计算机应用》2012,32(9):2466-2469

群体仿真中个体从环境中查找相关对象时会导致较高的时间复杂度。要使大规模群体能够实时仿真,必须降低模型运算的时间复杂度或者提高计算平台的能力。通过对Biods模型为典型案例进行研究,提出一种基于统一计算架构(CUDA)的大规模群体行为实时仿真并行实现及优化的方法。实现中将个体与GPU逻辑线程一一对应,通过将仿真环境离散化来提高相关个体查找的效率,通过并行化基数排序法将个体信息组织成具有空间局部性的数组,提高图形处理器(GPU)内存带宽的利用率。通过实验验证了该方法将仿真个体的数量提升到CPU方法的约7.3倍。相似文献

20.

面向多核CPU和GPU平台的数据库星形连接优化

刘专韩瑞琛张延松陈跃国张宇《计算机应用》2021,41(3):611-617

针对联机分析处理（OLAP）中事实表与多个维表之间的星形连接执行代价较高的问题,提出了一种在先进的多核中央处理器（CPU）和图形处理器（GPU）上的星形连接优化方法。首先,对于多核CPU和GPU平台的星形连接中的物化代价问题,提出了基于向量索引的CPU和GPU平台上的向量化星形连接算法;然后,通过面向CPU cache和GPU shared memory大小的向量划分来提出基于向量粒度的星形连接操作,从而优化星形连接中向量索引的物化代价;最后,提出了基于压缩向量的星形连接算法,将定长向量索引压缩为变长的二元向量索引,从而在低选择率时提高cache内向量索引的存储访问效率。实验结果表明,在CPU平台上向量化星形连接算法相对于常规的行式或列式连接性能提升了40%以上,在GPU平台上向量化星形连接算法相对于常规星形连接算法性能提升超过了15%;与当前主流的内存数据库和GPU数据库相比,优化的星形连接算法性能相对于最优内存数据库Hyper性能提升了130%,相对于最优的GPU数据库OmniSci性能提升了80%。可见基于向量索引的向量化星形连接优化技术有效地提高了多表连接性能,与传统优化技术相比,基于向量索引的向量化处理提高了较小cache上的数据存储访问效率,压缩向量进一步提升了向量索引在cache内的访问效率。相似文献