期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

马歌肖汉《现代电子技术》2014,(20):103-106

Prewitt算法是数字图像分割中最常用的边缘检测算法。采用传统CPU上的串行方法实现该算法需要较大的计算量、耗时较长,因此,通过GPU对其进行性能加速有着重要的意义。然而由于GPU硬件体系结构的差异性,跨平台移植是一件非常困难的工作。针对上述问题,提出了一种基于OpenCL异构框架的Prewitt图像边缘检测并行算法。实验结果表明,该并行算法比CPU上的串行算法运行速度快,加速比可达30倍,有效地提高了大规模数据处理的效率,可移植性好,具有较高的应用价值。相似文献

2.

同态滤波的一种GPU提速实现方法

张楠王建立王德俊《微电子学与计算机》2011,28(1)

为了提高光照不均图像的增强速率,提出了基于GPU平台的同态滤波并行算法.根据同态滤波算法的并行性,利用CUDA软硬件体系架构,实现了同态滤波算法向GPU上的移植.利用多幅不同分辨率图像作为测试数据,对比CPU和GPU方案的计算效率.实验结果表明,GPU实现方案大幅度提升了计算效率. 相似文献

3.

基于GPU的快速二维沃尔什变换研究 总被引：2，自引：1，他引：1

童莹张健《微电子学与计算机》2011,28(1):46-49,53

提出了一种基于GPU(Graphics Processing Unit,图形处理器)CUDA(Compute Unified Device Architecture,计算统一设备架构)平台的快速二维沃尔什变换(Walsh Transform)实现方法.该方法利用GPU的并行结构和硬件特点,从算法实现、存储类型、逻辑构架设置等方面提高了沃尔什变换的运算速度.实验结果表明,随着图像分辨率的增加,沃尔什变换在GPU上运行时间远低于CPU,GPU比CPU具有更明显的加速效果. 相似文献

4.

基于GPU+CPU的CANNY算子快速实现

下载免费PDF全文

唐斌龙文《液晶与显示》2016,31(7):714-720

本文提出一种基于GPU+CPU的快速实现Canny算子的方法。首先将算子分为串行和并行两部分,高斯滤波、梯度幅值和方向计算、非极大值抑制和双阈值处理在GPU中完成,将二维高斯滤波分解为水平方向上和垂直方向上的两次一维滤波从而降低计算的复杂度;然后使用CUDA编程完成多线程并行计算以加快计算速度;最后使用共享存储器隐藏线程访问全局存储的延迟;在CPU中则使用队列FIFO完成边缘连接。仿真测试结果表明：对分辨率为1024×1024的8位图像的处理时间为122 ms,相对应单独使用CPU而言,加速比最高可达5.39倍,因此本文方法充分利用了GPU的并行性的特征和CPU的串行处理能力。相似文献

5.

基于边缘强度匹配的图像融合并行算法的研究

吴粉侠李红《电子设计工程》2014,(23):168-171

图像融合是图像理解和计算机视觉领域中的一项重要课题。随着图像规模的增大,图像融合面临着处理速度的挑战。最近几年,GPU面向通用计算应用得到了快速发展。本文基于GPU编程模型和硬件特性,深入研究了基于边缘强度的图像融合算法,提出了该算法的并行模型。实验结果表明,该方法有效地综合了源图像中的重要信息,融合图像边界清晰,得到较好视觉效果和较优的评价指标,执行速度与CPU上相比提高了3个数量级。相似文献

6.

基于ZYNQ的可重构卷积神经网络加速器

刘杰葛一凡田明马力强《电子学报》2021,49(4):729-735

针对卷积神经网络中卷积运算复杂度高、计算量大及算法在CPU和GPU上计算时存在延时及功耗限制问题,从提高现有硬件平台计算速率、降低功耗角度出发,设计了一种基于ZYNQ的具有高吞吐率和低功耗的可重构神经网络加速系统.为充分利用运算资源,探索了一种卷积运算循环优化电路;为降低带宽访问量,设计了一种数据在内存中的特殊排列方式.以VGG16网络为例,利用ZYNQ对系统进行加速,在计算性能上达到62.00GPOS的有效算力,分别是GPU和CPU的2.58倍和6.88倍,其MAC利用率高达98.20％,逼近Roofline模型理论值.加速器的计算功耗为2.0W,能效比为31.00GOPS/W,是GPU的112.77倍和CPU的334.41倍. 相似文献

7.

基于数学形态学的图像边缘检测新方法

孙李辉李钊史德琴李俊山《无线电通信技术》2008,34(5)

经典数学形态学的边缘检测方法虽然具有较好的去噪能力,但却存在计算量大,计算时间长等缺点,并且其得到的结果具有不连续、不完整等缺点,不能较为准确地提取图像的边缘特征。在研究数学形态学的基础上,利用数学形态学方法对图像进行边缘处理,然后将处理后的图像作为神经网络的输入,利用CP神经网络对图像的边缘进行检测。实验结果表明,该方法得到的边缘图像边界细腻完整,具有较好的抗噪性,实现了提高精度与抗噪性能的协调统一。相似文献

8.

GPU加速三维面形测量

下载免费PDF全文

赵亚龙刘守起张启灿《红外与激光工程》2018,47(3):317003-0317003(7)

随着通用计算和图形显示需求的不断增加,图形处理器（Graphics Processing Unit,GPU）在医学、科学计算、图像处理等领域得到了广泛的应用。但它在三维测量领域的应用还只是一个开始。文中基于傅里叶变换轮廓术（Fourier Transform Profilometry,FTP）和三频外差法设计了两套三维测量系统,并利用计算统一设备架构（Compute Unified Device Architecture,CUDA）方法,加速了静态或动态物体的三维重建。在三频外差测量系统中,需要利用高速数字投影模块和相机,同步触发采集小视场表面的12个变形条纹图,然后对图像数据进行处理。实验结果表明:对12幅1 360 pixel1 024 pixel大小的图像进行相位展开运算,GPU方法比CPU方法的效率提高了2 089倍。在基于FTP方法的测量系统中,摄像机只需记录一幅变形条纹图,然后拷贝到显存中,并用CUDA编程的算法进行处理,进而重建出物体的三维面形。基于GPU的FTP方法对一幅1 024 pixel1 280 pixel大小的图像进行计算,其计算时间比CPU方法缩短了27倍。相似文献

9.

基于CPU+GPU异构计算的多聚焦图像融合

《电子技术与软件工程》2017,(6)

本文提出使用CPU+GPU异构计算技术对显微镜下的多张不同焦距图像进行图像融合,使用GPU的并行处理功能快速计算图像上每个像素位置的聚焦清晰值,取最高值所在位置的图像像素融合为显微镜超景深图。实验结果显示,采用了CPU+GPU异构计算技术的图像融合计算速度远高于CPU计算的速度。相似文献

10.

基于Brook的排序网络实现

崔雪冰张芳芳李国徽《微电子学与计算机》2010,27(5)

针对"排序网络"的特点及其广泛运用的意义,依据现代GPU在通用计算方面的功能,提出了基于Brook在GPU上执行通用计算的实现方法,并对"排序网络"在GPU的实现进行了测试,结果表明GPU在Brook环境下通用计算能力优于CPU,且排序网络的并行计算的特点能够在GPU上充分展现. 相似文献

11.

基于GPU的星图配准算法并行程序设计

下载免费PDF全文

陈茜邱跃洪易红伟《红外与激光工程》2014,43(11):3756-3761

星图配准是星图处理应用中的一个重要步骤,因此星图配准的速度直接影响了星图处理的整体速度.近几年来,图形处理器(GPU)在通用计算领域得到快速的发展.结合GPU在通用计算领域的优势与星图配准面临的处理速度的问题,研究了基于GPU加速处理星图配准的算法.在已有配准算法的基础上,根据算法特点提出了相应的GPU并行设计模型,利用CUDA编程语言进行仿真实验.实验结果表明:相较于传统基于CPU的配准算法,基于GPU的并行设计模型同样达到了配准要求,且配准速度的加速比达到29.043倍. 相似文献

12.

海面弱小目标红外检测算法的高速实现

张雅楠陈绪光许文海《光电子．激光》2019,30(5):516-521

为了实现红外图像中海面弱小目标的精确检测, 提出了一种基于局部峰值检测和管道滤波的红外图像处理算法。首先采取局部峰值检测提取疑似目标,然后根据自适应域值处理去除多数非目标峰值,最后通过管道滤波法排除残留干扰以准确识别目标。针对算法中包括大量条件判断和并行计算的特点,通过比对CPU和GPU的工作特性,最终采用CPU-GPU协作的异构计算模型对算法进行了加速。实验结果表明,在大量海面杂波的干扰下,该加速检测算法运行后的目标检测漏警率不高于 3.5%,虚警率不高于5%,加速比为26,处理分辨率为640 ×512图像的速率不低于32帧/秒,具有很高的工程应用价值。相似文献

13.

基于GPU的视频转码技术研究

黄兴宋建新《电视技术》2012,36(1):26-29

视频转码是个复杂的过程,它需要对已经压缩过的码流进行解析,然后经过处理转换成满足解码终端要求的目标格式码流。为了提高视频转码的效率并降低视频转码的计算复杂度,根据视频转码的要求和图形处理器的并行结构,提出了一种利用GPU强大的并行计算能力来加速视频转码的算法。该算法将视频转码过程中耗时最多、最复杂的运动估计和模式选择过程转移到GPU上并行执行。在开发GPU通用计算能力的时候,采用NVIDIA公司的CUDA(统一计算设备架构)计算平台。实验结果证明,该算法可以有效提高视频转码的速度和效率。相似文献

14.

基于GPU的MTD性能优化

杨千禾袁子乔扈月松《火控雷达技术》2021,50(1):86-93

为了解决传统雷达信号处理机在研发阶段面临的调试困难,计算能力受硬件限制及程序复用性差等问题,本文提出了使用GPU作为雷达计算核心的方案.在使用GPU实现雷达信号处理算法的过程中,动目标检测(MTD)部分的优化效果远低于脉冲压缩和恒虚警检测.经过分析,MTD过程中的矩阵转置与向量点乘占据了算法的大量时间.本文从GPU的数... 相似文献

15.

基于CUDA的红外图像快速增强算法研究

张绍良闫钧华刘成朱智超《电子设计工程》2012,20(17):153-157

针对红外图像边缘模糊,对比度低的问题,文中研究了改进的中值滤波和改进的Sobel边缘检测对红外图像进行处理。在对处理后图像的特征进行分析的基础上,研究了改进的Laplace金字塔分解的图像融合算法,并基于CUDA并行处理技术,在可编程GPU上实现了红外图像快速增强的目的。该算法结合GPU的内存特点,应用纹理映射、多点访问、并行触发技术,优化数据的存储结构,提高数据处理速度,适用于对红外图像增强的实时性要求较高的领域。实验结果表明,该算法有较好的并行特性,能充分利用CUDA的并行计算能力,提高了红外图像增强的实时性,处理分辨率为3 096×3 096的红外图像时加速比达32.189。相似文献

16.

基于GPU通用计算CUDA架构的人体检测技术

周晓阳《电子工程师》2012,(2):41-43

随着计算机硬件技术的高速发展,图形处理器（Graphic processing unit,GPU）通用计算已经发展到颇为成熟阶段,其并行运算速度已远远超过多核CPU。文章简介CUDA架构并验证其在图形处理中的加速能力,对比线性代数运算在CPU与GPU架构下的效率,将CUDA技术应用于智能视频监控人体检测系统中,实验验证其高效性及可行性。最后对CUDA的发展方向进行了展望。相似文献

17.

基于GPU 的液晶大气湍流模拟器的波面生成计算

下载免费PDF全文

孔悦徐熙平倪小龙《红外与激光工程》2014,43(9):3061-3065

提出了一种基于GPU 的液晶大气湍流模拟器实时波面生成的计算方法,为了让液晶空间光调制器进行大气湍流类比。依据液晶湍流模拟器高分辨率、高精度的特性讨论CUDA 的算法。此外,建立一种基于GPU 波面生成的模型并进一步对其优化。最后给出使用CPU 和GPU 后的结果并进行类比。结果表明:采用231 项Zernike 系数生成分辨率为256256 的波前所需时间少于2 ms,与传统的采用CPU 生成的方法相比速度提升两个量级,满足实时波面生成的要求。相似文献

18.

基于GPU的太阳图像斑点重建技术实现

宣经纬饶长辉钟立波田雨《大气与环境光学学报》2020,15(2):90-100

在地基太阳观测中,光线在穿越大气层时会受到大气湍流的影响而导致图像扭曲、变形以致质量下降。为了消除或降低大气湍流的影响,事后图像处理技术被用来获得高分辨力的太阳图像。基于斑点干涉法和斑点掩模的事后重建算法可以获得高分辨力的图像,但由于计算复杂度高,难以满足实时性的要求。在讨论了算法原理的基础上, 使用CUDA并行计算架构实现了太阳斑点重建算法并行化。实验结果表明,在GPU环境下,一张TiO通道2304 pixel$\times$1984 pixel像素大小的图像,可以在70 s内完成重建,相比运行在CPU上的串行程序,加速比可达7以上。相似文献

19.

Distributed method for cracking WPA/WPA2‐PSK on multi‐core CPU and GPU architecture

下载免费PDF全文

Liu Yong‐lei Jin Zhi‐gang 《International Journal of Communication Systems》2015,28(4):723-742

To overcome the limitations of the existing brute force cracking method of Wi‐Fi Protected Access/Wi‐Fi Protected Access II (WPA/WPA2)‐pre‐shared key (PSK) based on single core CPU or one core of a multi‐core CPU, a new distributed multi‐core CPU and GPU parallel cracking method (DMCG) was first proposed. Colored Petri nets was used to validate the four‐way handshake protocol and proved that DMCG could successfully crack WPA/WPA2‐PSK. In DMCG, the PSK list was distributed to each PC reasonably using distributed technology. Multiple computing cores were made up of multi‐core CPU and GPU on single PC to crack in parallel. GPU contributed to the cracking speed improvement due to the strong computing power for intensive parallel tasks. Experimental results showed that DMCG improved the cracking speed by two orders of magnitude and would exhibit more notable advantages with high‐performance distributed system as the cracking speed improved by three or four orders of magnitude, compared with the computing power of one CPU core. An improved Amdahl's law was first proposed, by which the upper bound of the cracking speedup was analyzed. Aiming to the DMCG expansion of cloud computing based on GPU, a lightweight framework called Dandelion computing model was first proposed. Moreover, the analysis of the influences of the graphics card parameters on the cracking speed was processed, and accordingly, the decision support for choosing graphics card in DMCG based on analytic hierarchy process was provided. Finally, the performance optimization of DMCG was processed. Copyright © 2013 John Wiley & Sons, Ltd. 相似文献