期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

谭彩凤马安国邢座程《计算机工程与科学》2009,31(Z1)

CUDA技术方便程序员在GPU上进行通用计算,但并没有提供随机数产生的应用接口。为此,本文提出并实现在CUDA开发平台上并行产生均匀随机数算法,测试证明算法可行。在此基础上优化基本遗传算法,并在GPU上并行实现其所有操作,提高其运行速度和准确度;分析了种群大小和遗传代数对此算法加速比及准确度的影响,并与MAT-LAB工具箱进行比较。实验表明,相比MATLAB遗传算法工具箱,基于CUDA平台实现的遗传算法性能更高,准确度更好。相似文献

2.

基于CUDA的Adaboost算法并行实现

程峰李德华《计算机工程与科学》2011,33(2):118-123

Adaboost算法是一种用于目标检测的有效算法,自2001年应用于人脸检测以来,陆续有各种改进算法提出,旨在提高检测精度和适用范围.然而,训练一个Adaboost分类器仍然是一个很耗时间的过程.目前,CUDA与Adaboost结合的研究主要集中于在已有分类器的基础上加速目标检测的过程,构建实时目标检测系统.本文对Ad... 相似文献

3.

快速不变矩算法基于CUDA的并行实现研究

韩斌孙文赟周飞王士同《计算机应用》2010,30(7):1983-1986

不变矩自提出以来被广泛应用于目标识别系统中进行特征描述,这需要能够实时计算不变矩值。虽然人们提出了许多不变矩的快速算法,仍无法在单台PC机上实现不变矩的实时计算。本文分析了基于差分矩因子的不变矩快速算法的并行性,提出了一种基于CUDA（Compute Unified Device Architecture）的快速不变矩并行实现方法,并在NVIDIA Tesla C1060 GPU（Graphic Processing Unit）上实现。对所提出算法的计算性能与普通串行算法进行了对比分析。实验结果表明,本文所提出的并行计算方法极大地提高了不变矩的计算速度,可有效地用来进行实时特征提取。相似文献

4.

基于CUDA的并行K-近邻连接算法实现

潘茜张育平陈海燕《计算机科学》2016,43(10):190-192, 219

针对大规模空间数据的K-近邻连接查询问题,设计了一种CUDA编程模型下K-近邻连接算法的并行优化方法。将K-近邻连接算法的并行过程分两个阶段:1)对参与查询的数据集P和Q分别建立R-Tree索引;2)基于R-Tree索引进行KNNJ查询。首先根据结点所在位置划分最小外包框,在CUDA下基于递归网格排序算法创建R-Tree索引。然后在CUDA下基于R-Tree索引进行KNNJ查询,其中涉及并行求距离和并行距离排序两个阶段:求距离阶段利用每一个线程计算任意两点之间的距离,点与点之间距离的求取无依赖并行;排序阶段将快速排序基于CUDA以实现并行化。实验结果表明,随着样本量的不断增大,基于R-Tree索引的并行K-近邻连接算法的优势更加明显,具有高效性和可扩展性。相似文献

5.

基于CUDA的k-means算法并行化研究

刘端阳郑江帆沈国江刘志《计算机科学》2018,45(11):292-297

k-means算法在面对大规模数据集时,计算时间将随着数据集的增大而成倍增长。为了提升算法的运算性能,设计了一种基于CUDA(Compute Unified Device Architecture)编程模型的并化行k-means算法,即GS_k-means算法。对k-means算法进行了并行化分析,在距离计算前,运用全局选择判断数据所属聚簇是否改变,减少冗余计算;在距离计算时,采用通用矩阵乘加速,加快计算速度;在簇中心点更新时,将所有数据按照簇标签排序分组,将组内数据简单相加,减少原子内存操作,从而提高整体性能。使用KDDCUP99数据集对改进算法进行实验,结果表明,在保证实验结果的准确性的情况下,改进算法加快了计算速度,与经典的GPUMiner算法相比加速比提升5倍。相似文献

6.

基于CUDA的SVM算法并行化研究

张巍张功萱王永利张永平朱昭萌《计算机科学》2013,40(4):69-72

SVM算法在统计分类以及回归分析中得到了广泛的应用。而随着物联网的迅速发展,SVM算法在各种应用中往往需要解决大量数据的快速处理问题。在SVM算法并行化研究中,首先对SVM算法进行分析研究,提出了基于CUDA的SVM算法并行化方案;其次,进一步研究海量数据的处理,提出海量数据处理的并行化方案;最后,通过实验分析对比了并行化算法的性能。相似文献

7.

基于CUDA的并行加速渲染算法

下载免费PDF全文

刘镇郝冬宁梅向东《中国图象图形学报》2013,18(11):1457-1461

GPU可以快速有效的处理海量数据,因此在近些年成为图形图像数据处理领域的研究热点。针对现有GPU渲染中在处理含有大量相同或相似模型场景时存在资源利用率低下和带宽消耗过大的问题,在原有GPU渲染架构的基础上提出了一种基于CUDA的加速渲染方法。在该方法中,根据现有的GPU渲染模式构建对应的模型,通过模型找出其不足,从而引申出常量内存的概念;然后分析常量内存的特性以及对渲染产生的作用,从而引入基于常量内存控制的方法来实现渲染的加速,整个渲染过程可以通过渲染算法进行控制。实验结果表明,该方法对解决上述问题具有较好的效果,最终实现加速渲染。相似文献

8.

一种基于CUDA的K-Means多级并行优化方法

方玉玲那丽春《小型微型计算机系统》2021,(7):1547-1553

K-Means聚类算法是data mining领域中最常用的算法之一.在进行海量数据分析时,K-Means均值聚类的计算时间与其要处理的计算量成正比.因此,数据量越大计算开销也越长.为了提升算法的运算性能,本文设计了一种基于CUDA模型的多级并行的K-Means算法优化方法.将K-Means串行算法并行化,并对并行计算... 相似文献

9.

基于CUDA实现MRRR算法并行

汪丽杰赵永华《计算机科学》2012,39(3):286-289

MRRR(Multiple Relatively Robust Representations)算法是求解对称三对角矩阵本征值问题高效、精确的算法之一。在分析MRRR算法及CUDA(Compute Unified Device Architecture)并行体系结构的基础上,针对算法的可并行性,采用单指令多线程并行方式实现了基于CUDA的MRRR算法并行,并从存储结构方面优化算法。实验结果显示,与LAPACK库中串行MRRR实现相比,并行方法在保证精度的基础上获得了20倍的加速比,进而从计算精度和计算时间上说明MRRR算法适合在GPU上并行。相似文献

10.

基于Sobel算子数字图像的边缘检测 总被引：23，自引：1，他引：23

邢军《微机发展》2005,15(9):48-49,52

数字图像的边缘检测是图像分割、目标区域识别、区域形状提取等图像分析领域中十分重要的基础。图像理解和分析的第一步往往就是边缘检测，目前它已成为机器视觉研究领域最活跃的课题之一，在工程应用中占有十分重要的地位。文中用已在VC中实现图像的边缘检测方法来对其加以分析。目的是在给出图像的边缘检测实现的基础上，提高图像边缘检测的效果，试验表明此方法能有效地提高图像的边缘检测效果。相似文献

11.

基于CUDA的图像轮廓提取并行实现

吴松城《电脑与微电子技术》2012,(6):55-57,61

对图像轮廓提取进行并行实现,介绍基于形态水平集的图像轮廓提取算法,对该算法的并行可行性进行分析,并采用CUDA技术并行实现。与串行的方式实现比较,采用CUDA技术实现可以节省更多的时间,得出CUDA并行技术在需要大量数据计算时加速的有效性。相似文献

12.

CUDA并行程序的内存访问优化技术研究 总被引：2，自引：0，他引：2

邹岩杨志义张凯龙《计算机测量与控制》2009,17(12):2504-2506

对统一计算设备架构CUDA技术进行了研究,分析了CUDA体系结构及其内存访问机制的显著特点,总结了CUDA并行程序常见的内存访问问题,针对全局内存的非对齐访问和共享内存的访问冲突,提出了相应的内存访问优化策略;最后,利用直方图均衡算法对此优化技术进行了测试,对比了优化前后的程序执行时间;实验结果表明,利用此优化技术可以大大缩短CUDA程序的执行时间,并且图像像素越大,优化效果越好。相似文献

13.

基于CUDA的并行粒子群优化算法研究及实现

陈风田雨波杨敏《计算机科学》2014,41(9):263-268

应用图形处理器(GPU)来加速粒子群优化(PSO)算法并行计算时,为突出其加速性能,经常有文献以恶化CPU端PSO算法性能为代价。为了科学比较GPU-PSO算法和CPU-PSO算法的性能,提出用"有效加速比"作为算法的性能指标。文中给出的评价方法不需要CPU和GPU端粒子数相同,将GPU并行算法与最优CPU串行算法的性能作比较,以加速收敛到目标精度为准则,在统一计算设备架构(CUDA)下对多个基准测试函数进行了数值仿真实验。结果表明,在GPU上大幅增加粒子数能够加速PSO算法收敛到目标精度,与CPU-PSO相比,获得了10倍以上的"有效加速比"。相似文献

14.

基于改进的Sobel算子最大嫡图像分割研究 总被引：2，自引：0，他引：2

章慧龚声蓉《计算机科学》2011,38(12):278-280,292

研究图像分割精度问题。针对传统的Sobel算子图像分割容易造成图像分割不清晰、对比度不明显、分割精度低等问题缺陷,提出一种改进的Sobel算子的二维最大墒数字图像分割方法。算法首先根据数字图像特征对图像进行初分割,然后应用Sobel算子检测出数字图像真正的边缘,将通过Sobel算法边缘检测获得的阂值应用到二维最大墒分割方法中。对数字图像目标和目标边缘分别使用不同的阂值进行分割,解决由于局部图像叠加而产生的分割不准确的问题。仿真实验表明,提出的算法对图像分割鲁棒性好,分割准确率高,是一种有效适用的算法。相似文献

15.

Efficient magnetohydrodynamic simulations on graphics processing units with CUDA

Hon-Cheng Wong Un-Hong Wong Xueshang Feng Zesheng Tang 《Computer Physics Communications》2011,(10):2132-2160

Magnetohydrodynamic (MHD) simulations based on the ideal MHD equations have become a powerful tool for modeling phenomena in a wide range of applications including laboratory, astrophysical, and space plasmas. In general, high-resolution methods for solving the ideal MHD equations are computationally expensive and Beowulf clusters or even supercomputers are often used to run the codes that implemented these methods. With the advent of the Compute Unified Device Architecture (CUDA), modern graphics processing units (GPUs) provide an alternative approach to parallel computing for scientific simulations. In this paper we present, to the best of the author?s knowledge, the first implementation of MHD simulations entirely on GPUs with CUDA, named GPU-MHD, to accelerate the simulation process. GPU-MHD supports both single and double precision computations. A series of numerical tests have been performed to validate the correctness of our code. Accuracy evaluation by comparing single and double precision computation results is also given. Performance measurements of both single and double precision are conducted on both the NVIDIA GeForce GTX 295 (GT200 architecture) and GTX 480 (Fermi architecture) graphics cards. These measurements show that our GPU-based implementation achieves between one and two orders of magnitude of improvement depending on the graphics card used, the problem size, and the precision when comparing to the original serial CPU MHD implementation. In addition, we extend GPU-MHD to support the visualization of the simulation results and thus the whole MHD simulation and visualization process can be performed entirely on GPUs. 相似文献

16.

基于图形处理器的边缘检测算法 总被引：1，自引：0，他引：1

张楠王建立王鸣浩《计算机科学》2010,37(1):265-267

边缘检测是一种高度并行的算法,计算量较大,传统的CPU处理难以满足实时要求。针对图像边缘检测问题的计算密集性,在分析常用边缘检测算法的基础上,利用CUDA(Compute Unified Device Architecture,计算统一设备架构)软硬件体系架构,提出了图像边缘检测的GPU(Graphics Processing Unit,图形处理器)实现方案。首先介绍GPU高强度并行运算的体系结构基础,并将Roberts和Sobel这两个具有代表性的图像边缘检测算法移植到GPU,然后利用当前同等价格的CPU和GPU进行对比实验,利用多幅不同分辨率图像作为测试数据,对比CPU和GPU方案的计算效率。实验结果表明,与相同算法的CPU实现相比,其GPU实现获得了相同的处理效果,并将计算效率最高提升到了17倍以上,以此证明GPU在数字图像处理的实际应用中大有潜力。相似文献