期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

刘丹赵广辉钟珞《计算机工程与应用》2010,46(18):49-51

GPU有效地利用了数量巨大的晶体管制造大量的处理单元,适用于处理单任务多数据（SIMD）的计算任务。研究了GPU的体系结构及CUDA的编程模式,改进了基于CPU的希尔加解密方法,使用多个线程将计算中耗时的矩阵相乘部分改造成SIMD模式,并分析了线程块内线程数对加速比的影响。实验结果表明,基于GPU的并行矩阵相乘的希尔加解密方法成功实现了硬件加速,相对于CPU上运行的希尔加解密方法,其执行效率明显提高,可获取12倍以上的加速,并易于扩展,对大规模数据加密和解密处理呈现出高效的处理能力。相似文献

2.

GPU实现的抑制椒盐噪声的排序滤波算法

吴粉侠李红《微机发展》2014,(1):89-92

文中提出了一种简单有效的排序滤波算法,并在GPU上实现了该算法。算法首先检测图像中的信号,如果检测的像素是信号则保留不变,否则取其邻域并对邻域内的非噪声像素排序并取中值,若中值为信号,则用它代替噪声像素灰度值;否则扩大邻域窗口,重复算法。随着图像规模的增大,在CPU上执行的时间显著增加。文中在CUDA平台上对其进行了实现。实验结果表明该算法不仅能有效地移除椒盐噪声,而且执行效率高,图像的规模越大,加速比越高,最多可提高3个数量级。相似文献

3.

基于GPU的MD5高速解密算法的实现 总被引：1，自引：1，他引：1

下载免费PDF全文

乐德广常晋义刘祥南郭东辉《计算机工程》2010,36(11):154-155,158

MD5快速碰撞算法由于不支持逆向过程而无法在MD5密码攻击中得到实际应用。针对上述问题,通过分析基于图形处理单元(GPU)的MD5密码并行攻击算法原理,设计基于GPU的MD5高速解密算法,在此基础上实现一个MD5高速密码攻击系统。测试结果证明,该算法能有效加快MD5密码破解速度。相似文献

4.

基于CUDA的热传导GPU并行算法研究

孟小华黄丛珊朱丽莎《计算机工程》2014,(5):41-44,48

在热传导算法中,使用传统的CPU串行算法或MPI并行算法处理大批量粒子时,存在执行效率低、处理时间长的问题。而图形处理单元(GPU)具有大数据量并行运算的优势,为此,在统一计算设备架构(CUDA)并行编程环境下,采用CPU和GPU协同合作的模式,提出并实现一个基于CUDA的热传导GPU并行算法。根据GPU硬件配置设定Block和Grid的大小,将粒子划分为若干个block,粒子输入到GPU显卡中并行计算,每一个线程执行一个粒子计算,并将结果传回CPU主存,由CPU计算出每个粒子的平均热流。实验结果表明,与CPU串行算法在时间效率方面进行对比,该算法在粒子数到达16 000时,加速比提高近900倍,并且加速比随着粒子数的增加而加速提高。相似文献

5.

GPU上高效Jacobi迭代算法的研究与实现

狄鹏胡长军李建江《小型微型计算机系统》2012,33(9):1962-1967

Jacobi迭代算法是一种求解偏微分方程组的常用循环运算.由于该算法存在语句间的数据相关,阻碍了其在图像处理单元(Graphic Processing Unit,GPU)等并行计算平台的高效实现.通过数学证明与实验验证,比较不同的循环优化策略,消除语句间数据相关,增强数据局部性,从而获得更高的执行性能.此外,利用块(Tile)大小选取模型,合理的划分计算数据,充分利用GPU的运算资源,进一步提高性能.实验结果表明,Jacobi奇偶复制算法比传统Jacobi并行算法在GPU上的性能提高4倍以上. 相似文献

6.

基于GPU的可见光与红外图像融合快速实现

下载免费PDF全文

闫钧华杭谊青孙思佳《计算机工程》2013,(11):249-253

为利用统一计算设备架构（CUDA）强大的并行处理能力实现快速图像融合,提出一种适用于并行运算的图像融合算法,包括高斯滤波、直方图均衡、基于小波变换的图像融合。通过CUDA编程对以上算法进行实现,并将其与对应的CPU程序相比较,实验结果表明,图形处理单元（GPU）执行效率比CPU高出一个数量级,并且随着数据量的增加,GPU的加速比还会增大。相似文献

7.

LBM算法在GPU组中的应用

王鹏封卫兵《计算机工程与设计》2011,32(12):4237-4240

为提高大规模并行计算的并行效率,充分发挥CPU与GPU的功能特点,特别是体现GPU强大的运算能力,提出了用消息传递接口(MPI)将一组GPU连接起来。使GPU通用计算与计算流体力学中的LBM(latticeBoltzmannmethod)算法相结合。根据GPU通用计算与LBM算法的原理,使MPI作为计算分配的机制,CUDA(compute unified device architecture)作为主要的计算执行引擎,建立支持CUDA的GPU集群,在集群上对LBM算法中的D2Q9模型进行二维方腔流数值模拟。实验结果表明,利用GPU组模拟与CPU模拟结果一致,更充分发挥了GPU的计算能力,提高了并行效率。相似文献

8.

NTRU公开密钥体制算法分析与实现 总被引：7，自引：0，他引：7

步山岳《计算机工程》2002,28(6):111-113

介绍了一种新的公开密钥体制NTRU。NTRU逄法的安全性取决于一从一个非常大的维数格中寻找很短向量的困难性，NTRU公开密钥体制算法主要计算对象是对多项式进行加、减、乘、模等运算。用NTRU产生的密钥方法比较容易，加密、解密的速度比RSA等著名算法快得多。从安全笥和有效性方面分析，NTRU密码体制有着广阔的应用前景。相似文献

9.

LU分解和Laplace算法在GPU上的实现

陈颖林锦贤吕暾《计算机应用》2011,31(3):851-855

随着图形处理器(GPU)性能的大幅度提升以及可编程性的发展,已经有许多算法成功地移植到GPU上.LU分解和Laplace算法是科学计算的核心,但计算量往往很大,由此提出了一种在GPU上加速计算的方法.使用Nvidia公司的统一计算设备架构(CUDA)编程模型实现这两个算法,通过对CPU与GPU进行任务划分,同时利用GP... 相似文献

10.

基于GPU的光子映射并行化算法

贺怀清孙希栋《计算机应用》2012,32(7):1939-1942

针对串行情况下光子映射算法速度慢的问题,对光子映射算法并行化进行可行性分析,充分利用图像处理器(GPU)的统一设备计算架构(CUDA)的并行和计算能力,实现光子映射算法的并行化。同时针对算法中光子发射追踪阶段生成GPU线程数与光子数相同的方法的不足以及平均分配方法所造成的资源浪费等,提出线程之间协同工作的方法并采用动态平衡处理,使光子渲染速度提升了将近一倍。实验结果证明了多线程间协同工作及动态平衡相结合方法的有效性。相似文献

11.

GPU核函数细化研究

下载免费PDF全文

焦良葆陈瑞《计算机工程》2010,36(18):10-12

GPU上的并行算法效率依赖于核函数在流多处理器上的平均运行效率,基于此,分析GPU核的执行方式,以及网格、线程块和线程之间的关系,采用细化核函数的方法将光线跟踪算法进行细化。实验结果证明,核的大小设置和分布方向影响了线程块内部的一致性,核函数的细化能增加线程块中同时运行的线程捆的数量。相似文献

12.

GPU加速的高精度数字地面模型建模方法

闫长青岳天祥《计算机工程与应用》2012,48(22):22-27

以曲面轮为基础发展的高精度曲面建模方法（HASM）可以建立具有高精度的数字高程模型,但使用该方法需要求解偏微分方程离散产生的大规模线性方程组,计算量巨大,严重制约了对大规模数据的模拟应用;而现代GPU技术的发展使GPU越来越广泛地应用于通用计算加速。为了提高HASM方法的模拟速度,把高精度曲面模拟与GPU通用技术相结合,提出了GPU加速的高精度曲面建模方法。把HASM模拟过程中的有限差分离散、离散后的大规模线性系统求解分别使用GPU进行分解,使用共轭梯度（CG）和预处理共轭梯度方法（PCG）将求解任务分解为可以并行处理的独立的多任务,使得计算任务并行化,同时并行运行大规模线程,每个线程执行一个独立的任务,充分利用了现代GPU强大的通用计算能力,并行处理以获得加速。利用并行化加速的高精度曲面建模算法使用英伟达公司的统一计算开发架构（CUDA）编程实现,GPU采用该公司的Quadro 2000。分别应用该算法进行了数值实验和实际项目区数字高程模型（DEM）模拟实验。实验结果表明,充分利用GPU的并行处理能力加速后的HASM方法,在保证达到相同曲面模拟的精度条件下,和传统的CPU方法相比,算法可以获得超过一个数量级的加速。相似文献

13.

GPU加速的二值图连通域标记并行算法 总被引：1，自引：0，他引：1

覃方涛房斌《计算机应用》2010,30(10):2774-2776

结合NVIDIA公司统一计算设备架构(CUDA)下的图形处理器(GPU)并行结构和硬件特点,提出了一种新的二值图像连通域标记并行算法,高速有效地标识出了二值图的连通域位置及大小,大幅缩减了标记时间耗费。该算法通过搜索邻域内最小标号值的像素点对连通域进行标记,各像素点处理顺序不分先后并且不相互依赖,因此可以并行执行。算法效率不受连通域形状及数量的影响,具有很好的鲁棒性。实验结果表明,该并行算法充分发挥了GPU并行处理能力,在处理高分辨率与多连通域图像时效率为一般CPU标记算法的300倍,比OpenCV的优化函数(CPU)效率高近17倍。相似文献

14.

基于CUDA的邻近粒子搜索算法研究

刘丹陈捷捷《计算机工程与应用》2012,48(18):53-56

在粒子方法中,运用邻近粒子搜索算法可以快速获取每个粒子的邻近粒子信息。由于粒子方法模拟一个体系的行为所采用的粒子数据是十分庞大的,对计算机的运算速度提出了挑战。研究了GPU的计算能力和CUDA开发环境,利用GPU的并行多线程处理技术,提出了一种并行邻近粒子搜索算法。实验结果表明,基于CUDA的并行邻近粒子搜索算法,加快了邻近粒子搜索过程,显著地减少了计算时间,成功实现了硬件加速,可获取290以上的加速比,对大规模粒子系统呈现出高效的处理能力。相似文献

15.

基于自适应线程束的GPU并行粒子群优化算法

张硕何发智周毅鄢小虎《计算机应用》2016,36(12):3274-3279

基于统一计算设备架构（CUDA）对图形处理器（GPU）下的并行粒子群优化（PSO）算法作改进研究。根据CUDA的硬件体系结构特点,可知Block是串行执行的,线程束（Warp）才是流多处理器（SM）调度和执行的基本单位。为了充分利用Block中线程的并行性,提出基于自适应线程束的GPU并行PSO算法：将粒子的维度和线程相对应;利用GPU的Warp级并行,根据维度的不同自适应地将每个粒子与一个或多个Warp相对应;自适应地将一个或多个粒子与每个Block相对应。与已有的粗粒度并行方法（将每个粒子和线程相对应）以及细粒度并行方法（将每个粒子和Block相对应）进行了对比分析,实验结果表明,所提出的并行方法相对前两种并行方法,CPU加速比最多提高了40。相似文献

16.

gAC:基于GPU的高性能AC算法

陈虎彭江锋施少怀《计算机工程与应用》2012,48(12):43-48

字符串匹配是计算科学中研究最广泛的问题之一,已成为信息检索和生物计算等领域的核心操作。然而受限于CPU的计算能力和存储器访问带宽,传统的串行字符串匹配算法难以进一步提升性能。GPU在计算能力和存储器访问带宽上有很大提升,已经在很多应用上取得了卓越成效。gAC作为一种基于GPU的并行AC算法,针对GPU的SIMT(Single-Instruction Multiple-Thread)以及合并存储器访问的技术特点,采取了减少条件分支、合并访问全局存储器等优化方法,使得在C1060GPU上的字符串扫描速度达到51Gb/s,比基于CPU的串行算法提升了28倍。相似文献

17.

基于GPU的不规则三角网向规则格网数字高程模型转换算法优化

卢立托李攀峰马洪浩《计算机应用》2015,(Z1)

基于规则格网的数字高程模型( DEM)相对于不规则三角网( TIN)具有结构简单,便于存储、管理和分析等优点。针对TIN向规则格网转换的串行算法效率较低的问题,利用图形处理器( GPU)并行编程对一种串行算法进行实现;然后从GPU 全局内存和共享内存的访问方面对算法进行优化;最后用C++语言和统一计算设备架构( CUDA)开发了实验系统,对优化前后算法的效率进行对比。结果表明,优化后的算法效率较优化前最大提高了72倍。相似文献

18.

GPU上实现的向量点积的性能分析

郭雷刘进锋《计算机工程与应用》2012,48(2):201-202

CUDA是一种较为简便的利用GPU进行通用计算的技术。研究了GPU上基于CUDA的几种向量点积算法,比较、分析了每种算法的性能。实验表明,GPU上最快的算法比CPU上的算法快了约7倍。相似文献

19.

基于CUDA的SKINNY加密算法并行实现与分析

解文博韦永壮刘争红《计算机应用》2021,41(4):1136-1141

针对SKINNY加密算法在中央处理器(CPU)下实现效率偏低的问题,提出一种基于图形处理器(GPU)的快速实现方法.首先,结合SKINNY算法的结构特征提出优化方案,将5个分步操作优化整合为1个整体运算;然后,分析该算法的电子密码本(ECB)模式和计数器(CTR)模式的特性,并给出并行粒度、内存分配等并行设计方案.实验... 相似文献