首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
利用GPU计算的双线性插值并行算法   总被引:1,自引:0,他引:1  
双线性插值算法在数字图像处理中有广泛的应用,但计算速度慢.为提高其计算速度,提出一种基于图形处理器加速的双线性插值并行算法.主要利用Wallis变换双线性插值中各分块之间的独立性适合GPU并行处理架构的特点,把传统串行双线性插值算法映射到CUDA并行编程模型,并从线程分配,内存使用,硬件资源划分等方面进行优化,来充分利用GPU的巨大运算能力.实验结果表明,随着图像分辨率的增大,双线性内插并行算法可以把计算速度提高28倍.  相似文献   

2.
基于图形处理器的边缘检测算法   总被引:1,自引:0,他引:1  
边缘检测是一种高度并行的算法,计算量较大,传统的CPU处理难以满足实时要求。针对图像边缘检测问题的计算密集性,在分析常用边缘检测算法的基础上,利用CUDA(Compute Unified Device Architecture,计算统一设备架构)软硬件体系架构,提出了图像边缘检测的GPU(Graphics Processing Unit,图形处理器)实现方案。首先介绍GPU高强度并行运算的体系结构基础,并将Roberts和Sobel这两个具有代表性的图像边缘检测算法移植到GPU,然后利用当前同等价格的CPU和GPU进行对比实验,利用多幅不同分辨率图像作为测试数据,对比CPU和GPU方案的计算效率。实验结果表明,与相同算法的CPU实现相比,其GPU实现获得了相同的处理效果,并将计算效率最高提升到了17倍以上,以此证明GPU在数字图像处理的实际应用中大有潜力。  相似文献   

3.
图形处理器CUDA编程模型的应用研究   总被引:5,自引:0,他引:5  
由于图形处理器(GPU)最近几年的快速发展,基于 GPU 的通用计算已经成为一个新的研究领域.通过对nVIDIA 公司最新的通用计算 GPU 编程模型-CUDA 的研究,阐明了 CUDA 应用程序的结构和它本身特征,讨论和分析了 CUDA 编程方法与普通 CPU 编程的差别,并以 H.264 数字视频编解码中,以消除宏块边界锯齿为主要目的的去块滤波模块为实例.详细描述了 CUDA 编程的方法和特点,最后通过与 CPU 编程实现的去块滤波模块的性能比较,揭示了 CUDA 在计算能力上的优势,为进一步优化编解码器性能和 GPU 通用计算提供了新的方法和思路.  相似文献   

4.
针对目前图像处理算法日益复杂,对CPU的性能要求越来越高,而传统的基于CPU的图像处理方法无法满足需求的情况,本文对基于统一计算设备架构(CUDA)的图形处理器(GPU)在图形处理方面的算法进行研究和实现。通过充分利用GPU突出的并行处理能力,采用CUDA技术,利用C++语言实现相关算法。研究并设计高斯模糊处理算法、彩色负片处理算法、透明合并处理算法的GPU并行运算流程,并通过与CPU实现相同效果的性能的对比,证明基于GPU图像处理算法的高效性。  相似文献   

5.
下一代观测望远镜将会产生数以亿计的星系测量数据值,这将导致使用中央处理器处理数据时效率低下、成本较高。为了解决这一问题,提出了基于宇宙计算的图形处理器算法。研究了两点式角相关函数以及孔径质量统计这两种宇宙学的计算方法,构建算法代码,并使用统一计算设备架构在图形处理器上实现了这两种算法;比较了算法在中央处理器和图形处理器上使用的运行速度。实验结果表明,与中央处理器相比,使用图形处理器的计算速度得到了显著提高。  相似文献   

6.
刘刚  梁晓庚  贺学剑 《计算机科学》2012,39(1):285-286,294
针对模糊C均值聚类图像分割算法运算量大、难于实时处理的问题,提出了一种基于图形处理器的加速算法。通过分析模糊C均值聚类算法各阶段可以并行处理的运算部分,利用计算统一设备架构软硬件结构,分别将隶属度矩阵计算、聚类中心计算和像素按隶属度归类3个部分改造成适合图形处理器硬件并行运行的形式。实验结果表明,相对于CPU串行算法,基于图形处理器的加速算法效率提升明显。鉴于大多数图像处理算法均具有可并行处理的部分,利用图形处理器进行加速具有普适性。  相似文献   

7.
基于CUDA的汇流分析并行算法的研究与实现*   总被引:2,自引:0,他引:2  
针对基于数字高程模型(DEM)生成流域等流时线的快速运算问题,提出了一种基于统一设备计算架构(CUDA)平台同时可发挥图形处理器(GPU)并行运算特性的汇流分析的快速并行算法。采用改进后的归并排序算法进行数据排序及新的内存分配策略和改进的并行算法进行汇流分析。用该并行算法和CPU上的串行算法, 对生成基于DEM的等流时线运算时间和矩阵乘法运算时间进行分析验证。实验结果表明,基于CUDA的汇流分析并行算法能提高系统的计算效率,具有较好的效果。  相似文献   

8.
基于图形处理器的实时直线段检测   总被引:1,自引:0,他引:1  
张彤  刘钊  欧阳宁 《计算机应用》2009,29(5):1359-1361
提出了一种基于图形处理硬件的递进式直线段检测方法,该方法利用图形处理硬件实现了边缘提取、霍夫变换、端点检测等步骤。其中的GPU并行霍夫变换采用θ参数空间及图像空间双重划分的方法,并使用线程块内的共享存储器较好地解决了同一θ空间的各线程同步问题。实验表明,该方法既有递进式检测方法的准确性,又充分利用图形处理器强大的计算能力获得了较高的实时性。  相似文献   

9.
图形处理器在通用计算中的应用   总被引:1,自引:1,他引:0  
基于图形处理器(GPU)的计算统一设备体系结构(compute unified device architecture,CUDA)构架,阐述了GPU用于通用计算的原理和方法.在Geforce8800GT下,完成了矩阵乘法运算实验.实验结果表明,随着矩阵阶数的递增,无论是GPU还是CPU处理,速度都在减慢.数据增加100倍后,GPU上的运算时间仅增加了3.95倍,而CPU的运算时间增加了216.66倍.  相似文献   

10.
走时计算是叠前时间偏移计算中最耗时的部分,通过分析传统的串行走时算法,发现静态8点插值算法非常适合在GPU上运行。首先利用CUDA技术对静态8点插值算法进行并行化改造,设计静态8点并行插值算法,然后测试其正确性,统计其相对误差情况。实验表明此算法比工业生产上的动态插值算法更准确,最后我们利用体偏作性能测试。试验结果表明,运行在GPU上的静态8点并行插值算法内核性能是运行在CPU上的动态插值算法内核的22.76倍。这说明,静态8点并行插值算法适合进行走时计算,并且可以应用于工业生产上。  相似文献   

11.
基于GPU的并行优化技术*   总被引:2,自引:2,他引:2  
针对标准并行算法难以在图形处理器(GPU)上高效运行的问题,以累加和算法为例,基于Nvidia公司统一计算设备架构(CUDA)GPU介绍了指令优化、共享缓存冲突避免、解循环优化和线程过载优化四种优化方法。实验结果表明,并行优化能有效提高算法在GPU上的执行效率,优化后累加和算法的运算速度相比标准并行算法提高了约34倍,相比CPU串行实现提高了约70倍。  相似文献   

12.
由于复杂网络的规模越来越大, 在大规模的复杂网络中快速、准确地挖掘出隐藏的社区结构是当前该领域研究的热点问题。目前社区结构挖掘常用的基于快速Newman算法的社区结构挖掘算法之一是一般概率框架方法。以规模日益增大的复杂网络为研究对象, 提出了基于GPGPU的一般概率框架并行算法, 有效地解决了在大规模的复杂网络中快速、准确地挖掘出隐藏的社区结构问题。实验证明, 随着节点数的增加, 该并行算法在不损失准确性的前提下运行效率有所提高, 为复杂网络社区结构挖掘的研究提供了一种高效的解决方案。  相似文献   

13.
GPU可以快速有效的处理海量数据,因此在近些年成为图形图像数据处理领域的研究热点。针对现有GPU渲染中在处理含有大量相同或相似模型场景时存在资源利用率低下和带宽消耗过大的问题,在原有GPU渲染架构的基础上提出了一种基于CUDA的加速渲染方法。在该方法中,根据现有的GPU渲染模式构建对应的模型,通过模型找出其不足,从而引申出常量内存的概念;然后分析常量内存的特性以及对渲染产生的作用,从而引入基于常量内存控制的方法来实现渲染的加速,整个渲染过程可以通过渲染算法进行控制。实验结果表明,该方法对解决上述问题具有较好的效果,最终实现加速渲染。  相似文献   

14.
随着数据采集设备的发展,数字地形分析中高分辨率数字高程模型(DEM)图像越来越普遍。目前已经存在一系列的曲线结构提取算法由于计算复杂度较高,因此在针对高分辨率DEM图像提取地形特征线时效率较低。提出一种在图形处理器(GPU)上加速Steger曲线结构提取算法的策略,利用图形处理器上计算统一设备架构(CUDA)的高度并行性来加速算法中计算密集的Hessian矩阵生成模块以及图像特征点提取模块,对于百万像素级的DEM图像该算法可以获得5倍以上的加速比。  相似文献   

15.
在很多新兴应用领域、如传感器网络,实时监控系统等,产生的数据流是不断变化的、连续到达的、数据值可能不确定、且必须被快速处理。其中有些操作,如数据流的实时窗口连接运算,非常消耗时间,这对数据流处理系统的性能提出了严峻的挑战。目前,大多数算法采用软件优化来提高处理速度,但其性能提高有限。利用GPU(图形处理器)的高并行度、多线程、高带宽的并行处理能力,设计了一种软硬件结合的方法来加速处理数据流的窗口连接操作。在CUDA(统一计算架构)下,由CPU控制将内存中的数据传输至GPU存储器中,然后利用多线程进行并行处理。实验验证了提出的方法可以大幅度提高多数据流窗口连接的处理速度,可达到纯软件处理的50倍左右。  相似文献   

16.
By using the method of Finite Difference Time Domain (FDTD) and the technology of Compute Unified Device Architecture (CUDA), the propagation characteristics of electromagnetic waves in Left‐Handed Materials (LHM) have been studied in this paper. The LHM slab was matched with the free space and the secondary focusing phenomenon of LHM was simulated. Compared with the serial FDTD program, our work showed that this method had a high accuracy. The phase compensation effect and the inverse Snell effect of LHM were also discussed by using the parallel FDTD method based on CUDA, which further proved that our results were consistent with the theoretical study. By comparing the calculation time of traditional FDTD program with that of the CUDA based parallel FDTD program, we conclude that the latter is more efficient than the former. This parallel method can be used as a more efficient way to study LHM.  相似文献   

17.
为满足大规模文本快速分类的需求,在传统文本分类方案基础上,利用GPU强大的并行吞吐量,提出了一种大规模并行文本分类方案。为验证该方案的有效性,在多个平台上进行充分的实验分析。结果表明,该方案比传统的分类方案具有10倍以上的加速比。  相似文献   

18.
近年来电子设计自动化(EDA)研究人员尝试利用图形处理器(graphic processing unit,GPU)提供的高性能计算能力对IC参数分析进行加速研究.为了利用GPU进行电源线/地线网络(power/ground network,P/G网)快速分析,设计了一种基于经典的连续过松弛(successive over-relaxation,SOR)算法的高效P/G网分析并行算法.基于GPU并行计算加速原理,此算法进行了如下改进:1)采用红-黑次序的松弛策略.将所有的节点分为红黑两类,红色节点的所有邻点只有黑色节点、黑色节点的所有邻点只有红色节点,红色节点与黑色节点交替松弛,保证了GPU并行计算中的数据一致性.对于具有N个节点的P/G网而言,一次红色节点或黑色节点松弛可以同时对N/2个节点进行松弛操作,即理论上可以同时启动N/2个并行线程.2)优化数据结构.实现了对数据空间的合并访问,以保证对GPU全局存储空间的最优访问.3)在共享存储器内通过并行归约对松弛标记进行快速统计,同时利用zero-copy技术进行松弛标记的快速拷贝,以快速决定是否继续松弛.大量的实验结果表明:与单线程的CPU程序相比,此算法的加速倍数随GPU所提供物理线程的数目增加而线性增加,可以获得最大242倍的加速效果,是目前EDA研究领域中加速效果最好的GPU算法.  相似文献   

19.
黄梦成  刘芳  刘学慧  吴恩华 《软件学报》2011,22(8):1927-1933
提出一种顺序独立透明现象的单遍高效绘制算法.首先设计了一个基于计算统一设备架构(compute unified device architecture,简称CUDA)的可编程渲染器.该系统采用扫描线算法光栅化场景,为每个像素生成多个对应的片元,同时,在GPU(graphics processing unit)的全局内存上为每个像素分配一个数组,以存储其相应的片元.基于这个框架,提出了两种并发的片元收集及排序策略,以单遍高效地绘制顺序独立的透明现象.第1种策略利用CUDA的原子操作符atomicMin收集各个像素上对应的所有片元并按深度动态排序,在后处理中片元即可按序逐一融合;第2种策略采用CUDA的原子操作符atomicInc按光栅化顺序收集所有片元,然后在后处理中按深度排序后再逐一融合.实验结果表明,与基于传统图形管线的经典深度剥离方法相比,该方法可以更高效地绘制顺序独立的透明现象,同时生成正确的绘制效果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号