首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 145 毫秒
1.
Speeded Up Robust Feature(SURF)算法是在计算机视觉领域得到广泛应用的一种图像兴趣点检测和匹配方法。开放计算语言(OpenCL)提供了一个在异构体系结构上,包括GPU,CPU及其他类型处理器,编写并行程序的框架。本文介绍了如何在通用GPU和OpenCL平台上,对SURF算法进行优化与实现。本文对其中一些优化方法,例如kernel线程的配置,局部内存的使用方法等,进行了详细的对比和讨论。最终实现的OpenCL版本的算法在NVidiaGTX260平台上获得了比原始的CPU版本在IntelDual—CoreE54002.7G处理器上至少21倍的加速。  相似文献   

2.
统一计算设备架构(CUDA,ComputeUnifiedDeviceArchitecture)是并行计算中重要的研究与应用领域,如何将串行程序重构为并行程序以及如何将并行程序的速度最大化都成为研究的重点。前期搭建了单机单卡和单机多卡的实验环境,并在此平台上重构了一系列的密码算法。为了进一步提高破解平台的破解速度和稳定性,设计并实现了一种基于GPU集群(多机多卡)的暴力破解通用平台,并且在此平台上验证了MD5暴力破解的高速性和鲁棒性,为未来设计密码分析算法和提升算法性能提供了研究基础。  相似文献   

3.
为了解决传统雷达信号处理机在研发阶段面临的调试困难,计算能力受硬件限制及程序复用性差等问题,本文提出了使用GPU作为雷达计算核心的方案。在使用GPU实现雷达信号处理算法的过程中,动目标检测(MTD)部分的优化效果远低于脉冲压缩和恒虚警检测。经过分析,MTD过程中的矩阵转置与向量点乘占据了算法的大量时间。本文从GPU的数据读取方式和CUDA函数特性入手,优化快速傅里叶变换实现MTD的过程,并在GPU上使用CUBLAS矩阵运算实现有限脉冲响应滤波器组对脉冲压缩之后数据的滤波,实现了更具灵活性的MTD。最终得到的GPU计算结果与CPU平台实现的结果相比,误差不超过0.05%,同时实现了相比CPU平台优化实现最多200余倍的性能提升。  相似文献   

4.
为了提高光照不均图像的增强速率,提出了基于GPU平台的同态滤波并行算法.根据同态滤波算法的并行性,利用CUDA软硬件体系架构,实现了同态滤波算法向GPU上的移植.利用多幅不同分辨率图像作为测试数据,对比CPU和GPU方案的计算效率.实验结果表明,GPU实现方案大幅度提升了计算效率.  相似文献   

5.
根据GPU和CPU在硬件组成以及数据处理的区别引入了通用GPU计算的概念.通过计算流体粒子模拟的实际数学模型来详细介绍了通用GPU计算的实现方式,并且给出了具体程序的设计算法,最终使用计算数据测试验证通用GPU计算对与离散型大规模数据计算的高效性.  相似文献   

6.
邓劲 《现代电子技术》2007,30(10):151-154
随着图形处理器(GPU)性能的突飞猛进,以及GPU可编程特性的发展,人们开始将GPU应用到通用计算领域(GPGPU)。目前国内在这方面的研究还相对较少。使用改进的按频率划分(DIF)算法,结合相关研究的新进展,在GPU上实现了快速傅里叶变换(FFT),讨论和分析GPU在GPGPU中的应用技巧和技术原理,比较GPU与CPU在GPGPU设计中的差异以及性能表现。对GPGPU设计具有指导作用。  相似文献   

7.
分析了KNN算法在GPU上实现并行计算的可能性,提出了通过使用CUDA实现KNN算法的方案,在研究了GPU对存储访问的机制后,通过设计合理的数据以及对算法的改进,避免存储体冲突的产生,提高了算法的健壮性。研究结果证明该方法在GPU上的并行运算速度明显要快于CPU,有着很好的加速比。  相似文献   

8.
合成孔径雷达(SAR)成像算法能够通过图形处理器(GPU)加速来实现处理速度的显著提升。针对后向投影(BP)成像算法的GPU加速,分析了BP算法的并行化和并行处理方法,提出了一种适合GPU加速的BP成像方案;通过研究GPU设计中的多流异步执行技术、数据传输模式和计算速度与精度,进一步提出一种针对BP成像的GPU优化成像方案。通过仿真数据和实测数据在Tesla C2075上的测试结果表明,与GPU非优化方案的实现相比,该方案有了近一倍的速度提升。  相似文献   

9.
商凯  胡艳 《电子技术》2011,38(5):9-11
近几年图形处理器GPU的通用计算能力发展迅速,现在已经发展成为具有巨大并行运算能力的多核处理器,而CUDA架构的推出突破了传统GPU开发方式的束缚,把GPU巨大的通用计算能力解放了出来.本文利用GPU来加速AES算法,即利用GPU作为CPU的协处理器,将AES算法在GPU上实现,以提高计算的吞吐量.最后在GPU和CPU...  相似文献   

10.
GPU计算液晶自适应光学波前重构的并行性研究   总被引:1,自引:2,他引:1  
研究了图形处理器(GPU)计算液晶自适应波前重构的并行性。介绍了液晶自适应光学的Zernike模式波前重构算法,论述了GPU的通用架构和GPU实现波前重构的方法。在此基础上提出了利用GPU拥有的RGBA4个颜色通道进行并行计算,进一步加快计算速度,最后给出了实验结果。结果表明:在GPU计算波前重构时,利用RGBA颜色通道的并行计算,将计算速度提高了3倍多。  相似文献   

11.
相关干涉仪算法具有实现简单和精度高等优点,但将其运用于宽带测向时存在运算量较大等问题,文中针对该问题提出一种基于GPU的宽带干涉仪测向算法实现,利用CUDA技术对传统相关算法进行改进,使之能够适应于GPU平台并充分发挥图形处理器强大的浮点运算能力及其出色的并行执行性,进而使算法在执行速度上能获得极大提升。算法中采用向量1范数并通过插值拟合得到来波方向的精确估计,仿真结果表明,算法在满足实时性要求的同时也能够保证较高精度。相比于CPU平台,算法的GPU实现能够获得很高的时间加速比。  相似文献   

12.
针对目前地层层析成像算法中正演算法存在计算量大、计算速度慢的问题,以图像处理器(GPU)为核心,研究并实现了一种基于GPU平台的时域有限差分(FDTD)正演算法。CUDA是一种由NVIDIA推出的GPU通用并行计算架构,也是目前较为成熟的GPU并行运算架构。而FDTD正演算法本身在算法特性上满足并行的要求,二者的结合将极大地加速程序的计算速度。在基于标准Marmousi速度模型的正演模拟中,程序速度提升30倍,而GPU正演图像与CPU正演结果误差小于千分之一。算例表明CUDA可以大大加速目前的FDTD正演算法,并且随着GPU硬件自身的发展和计算架构的不断改进,加速效果还将进一步提升,这将有利于后续波形反演工作的进展。  相似文献   

13.
谈继魁  方勇  霍迎秋 《电视技术》2015,39(15):42-45
重建算法在压缩感知理论中有着重要的作用,经典的正交匹配追踪(OMP)重建算法在每次迭代中对已选择的原子进行正交化处理以加速算法的收敛速度,但同时增加了算法的计算复杂度。针对这一问题,提出了一种基于图形处理单元(GPU)并行计算的OMP算法,重点对算法中复杂度高的投影和矩阵求逆部分在GPU平台上进行并行设计。实验结果表明基于GPU的并行OMP算法相对于其串行算法加速比可以达到30~44倍,有效地提高了算法的计算效率,拓宽了该算法的应用范围。  相似文献   

14.
提出了一种基于图形处理器(GPU)的SAR方位向信号分解的高效实现方法。SAR方位向信号可以通过四参数Chirplet分解方法来分解。此方法的关键难题是计算量过大,计算量主要由2部分组成:构建Chirp原子库,以及SAR方位向信号在过完备库上分解的计算量。与传统的CPU相比,GPU更加适用于密集型和大量数据并行化的计算。提出将算法的核心部分移植到GPU上进行并行计算,充分挖掘其运算潜能。结果表明:该方法与传统的基于CPU的算法相比有两位数以上的效率提升。  相似文献   

15.
With the pervasiveness of secure data transmission techniques and increasing requirements of information authentication, the public key-based digital signature scheme has been extensively used in various fields. However, the process speed of digital signature has gradually become the bottleneck of various security and high-concurrency applications. In this paper, a high-throughput SM2 digital signature computing scheme based on Graphics Processing Unit(GPU) platform is proposed. Firstly, the basic operations are optimized by low-level instructions of GPU. Then, according to the characteristics of GPU platform, the addition chain of SM2 recommended prime number is reduced and the speed of modular inverse operation based on Fermat's theorem is improved. Furthermore, a pre-computing table is constructed and the repeated doubling algorithm is introduced to accelerate the unknown point multiplication. Due to the construction of pre-computing table, divergence of threads can be successfully avoided. The experiments show that the proposed scheme can effectively speed up SM2 algorithm, and the throughput of signing and verification can respectively reach 76.09 million ops and 3.46 million ops on RTX3090.  相似文献   

16.
利用显卡(Graphics Processing Unit, GPU)加速时域有限差分(Finite-Difference Time Domain, FDTD)法计算二维粗糙面的双站散射系数, 介绍了FDTD的理论公式以及计算模型.采用各向异性完全匹配层(Uniaxial Perfectly Matched Layer, UPML)截断FDTD计算区域.重点讨论了基于GPU的并行FDTD计算粗糙面双站散射系数的并行设计方案计算流程.在NVIDIA GeForce GTX 570显卡上获得了50.7×的加速比.结果表明:通过对FDTD计算粗糙面散射问题的加速, 极大地提高了计算效率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号