期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

基于GPU的高阶辛FDTD算法的并行仿真研究 总被引：1，自引：0，他引：1

马巍巍孙冬吴先良孙兵兵《合肥工业大学学报(自然科学版)》2012,35(7):926-929

高阶辛时域有限差分算法(SFDTD)与传统的时域有限差分算法(FDTD)相比具有更优的稳定性和计算精度,但在进行电磁仿真时则更为耗时。为解决这一问题,文章应用SFDTD的空间并行性,研究并实现了基于计算统一设备架构(CUDA)的SFDTD的并行算法仿真;基于费米架构,分析了各种尺度网格下速度的提升,与传统的CPU实现该算法进行比较,验证了该方法的正确性和高速性。相似文献

2.

基于GPU的图像处理算法研究

张春杨俊《西南师范大学学报(自然科学版)》2013,38(7)

对基于统一计算设备架构(CUDA)的图形处理器(GPU)在图形处理方面的算法进行了研究和实现.针对目前图像处理算法日益复杂,性能要求越来越高,而传统的基于CPU的图像处理算法无法满足需求的情况,充分利用GPU突出的并行处理能力,采用CUDA技术,利用C++语言实现了图像处理算法.研究并设计了高斯模糊处理算法、彩色负片处理算法、透明合并处理算法的GPU并行运算流程,与CPU的性能对比表明基于GPU图像处理算法的效率更高. 相似文献

3.

基于GPU的PCA人脸识别系统设计

熊承义李靓琦高志荣周城《中南民族大学学报(自然科学版)》2015,(2):85-90

针对实际人脸识别系统需要满足实时性的应用需要,探讨了在图形处理器(GPU)硬件架构基础上的基于主成分分析(PCA)人脸识别系统设计与实现.结合统一计算设备架构(CUDA)的计算平台,通过将算法中耗时长、适合并行的部分过程映射到GPU上并行执行改进系统的加速实现.实验结果表明:相对于基于CPU平台的串行实现,基于GPU的实现在整体上能够获得约5倍的加速,而两个执行并行的模块能分别获得最大20倍和30倍的加速. 相似文献

4.

改进的储层直接取样随机模拟方法及GPU实现

谢青彭威柳瑶阁黄涛卢德唐《中国科学技术大学学报》2013,43(8):626-630

讨论了储层随机模拟方法中的直接取样方法,并对其中地质模式分量的选取方式进行了改进,提出了结合空间相关关系模型结构化特性的方法.针对模式子空间中的求解问题,提出了基于统一计算设备构架(compute unified device architecture,CUDA)的并行策略.实验结果表明,模式分量选取方式的改进有效改善了两相河流沉积系统中河道的连续性,并且模式子空间中的求解的并行方法具有较小的时间复杂度.根据选取参数组的不同,并行方法的计算速度比串行方法最低提速10倍,最高提高了近100倍. 相似文献

5.

二维FFT在GPU上的并行实现

陈瑞童莹《南京工程学院学报(自然科学版)》2009,7(2):41-45

FFT算法是高度并行的分治算法,因此适合在GPU（Graphics Processing Unit,图形处理器）的CUDA（Compure Unified Device Architecture,计算统一设备体系结构）构架上实现．阐述了GPU用于通用计算的原理和方法,并在Geforce8800GT平台上完成了二维卷积FfTr的运算实验．实验结果表明,随着图像尺寸的增加,CPU和GPU上的运算量和运算时间大幅度增加,GPU上运算的速度提高倍数也随之增加,平均提升20倍左右．相似文献

6.

GPU加速的图像实时分形编码

孙冬高清维卢一相竺德《安徽大学学报(自然科学版)》2014,(3):50-55

图像分形编码压缩率大且质量较高,但实时性不好,因此难以推广应用.提出使用GPU对编码进行加速的方案.以图像FW算法为基础,在CUDA规范下,使用GPU并行地对图像中所有的待编码子树同时进行最优父树搜索.实验表明,该文编码方案在保持原有算法图像解码质量的情况下,可将编码时间缩短至毫秒级,满足了实时性的要求. 相似文献

7.

基于图形处理器的格子Boltzmann方法计算

下载免费PDF全文

封卫兵杨晓玲《上海大学学报(自然科学版)》2009,15(1):66-70

由于图形处理器(GPU)最近几年迅速发展,基于GPU的计算作为一个新的研究方向已经引起越来越多人的关注.在综述国内外最新文献的基础上,从介绍GPU的高性能开始,分析GPU本身的特性,介绍GPU的计算模型并分析其流水线结构,阐述如何对GPU进行编程,并初步实现基于GPU的格子Boltzmann方法（LBM）计算. 相似文献

8.

面向CPU+GPU异构平台的模板匹配目标识别并行算法

马永军袁赢李灏《天津科技大学学报》2014,(4):48-52

针对大数据量导致模板匹配目标识别算法计算时间长,难以满足快速检测的实际需求问题,在采用最新NVIDIA Tesla GPU构建的CPU+GPU异构平台上,设计了一种模板匹配目标识别并行算法.通过对模板图像数据常量化、输入图像数据极致流多处理器片上化和简化定位参数计算3方面优化了并行算法,并对算法进行性能测试.实验表明,该算法在保证识别效果的同时实时性明显提高. 相似文献

9.

基于包围跳跃的计算统一设备架构光线投射算法

方军房晓阳肖亮《科学技术与工程》2014,(12):251-255

针对传统光线投射算法绘制速度慢和图形处理器(graphics processing unit,GPU)不能有效进行并行计算的缺点,文章提出一种基于包围跳跃的计算统一设备架构(compute unified device architecture,CUDA)光线投射算法。首先介绍了CUDA的编程模型和线程结构,然后用包围盒技术隔离体数据周围无效的空体素,减少投射光线的数目;利用光线跳跃技术,在包围盒内进行快速光线的合成,跳过透明的体素,减少大量体素的重采样;最后使用CUDA强大的并行处理计算的功能实现光线投射算法。实验结果表明,在保证图像质量的同时,绘制速度上比基于GPU加速的光线投射算法有14倍的提高,能够接近实时绘制,有很好的应用价值。相似文献

10.

一种基于移动设备的医学图像体绘制方法

何拥军曾文权余爱民林敏《科学技术与工程》2013,13(18):5376-5380,5389

针对移动设备硬件局限性,提出一种新的纹理切片体绘制方案,利用最新支持移动设备的OpenGL ES 2.0接口的图形处理能力,精心地设计体绘制着色程序,完全避免复杂的计算和条件分支,较好地解决了实现医学图像交互式体绘制速度慢的问题。通过在不同的设备上和不同的场景下进行实验,表明本文的方法可以使绘制帧率提高一倍左右。相似文献

11.

面向CPU+GPU异构计算的SIFT 总被引：1，自引：0，他引：1

肖汉郭运宏周清雷《同济大学学报(自然科学版)》2013,41(11):1732-1737

依据图形处理器(GPU)计算特点和任务划分的特点,提出主从模型的CPU+GPU异构计算的处理模式.通过分析和定义问题中的并行化数据结构,描述计算任务到统一计算设备架构(CUDA)的映射机制,把问题或算法划分成多个子任务,并对划分的子任务给出合理的调度算法.结果表明,在GeForce GTX 285上实现的尺度不变特征变换(SIFT)并行算法相比CPU上的串行算法速度提升了近30倍. 相似文献

12.

稀薄气体直接仿真蒙特卡洛方法交互式并行化系统研究与实现

傅游花嵘《山东科技大学学报(自然科学版)》2009,28(5):75-80

在分析稀薄气体直接仿真蒙特卡洛（Direct Simulation Monte Carlo,DsMc）方法特点的基础上,研究了基于高性能计算平台的DSMC问题交互式并行化技术,提出了DSMC交互式并行化流程和DSMC程序并行化系统体系结构,实现了能对DSMC问题进行处理的交互式并行化软件系统,并应用到两个微通道DSMC方法算例的并行化中,并行化后的两个算例在8个节点的并行集群系统上的计算结果与原串行程序完全吻合,证明了该交互式并行化方法的正确性．相似文献

13.

多GPU节点下的NAMD测试与分析

桂叶晨刘涛彭蓉文高进《华中科技大学学报(自然科学版)》2011,39(Z1):106-109

运用大规模分子动力学并行开源代码NAMD测试了深腾7000GGPU集群的性能.在配备有Teslac1060与双路4核CPU的节点上,分别对烟草花病毒(STMV),血脂蛋白(ApoA1)与Tiny这3类分子进行了单节点与多节点的测试.测试结果表明:GPU相较于CPU能获得平均2至8倍性能提升,可为大规模分子的模拟提供高性价比的解决方案.然而,多节点下GPU的利用率却有所降低,其并行扩展性能也受到一定限制.另外,一些重要的分子结构构建的指标,如范德华力静止点的值也在一定程度上影响着模拟性能. 相似文献

14.

GPU架构下的并行计算

杨柳刘铁英《吉林大学学报(信息科学版)》2012,30(6):630-633

为降低粒子群优化算法(PSO: Particle Swarm Optimization)时间和空间的复杂度随问题规模的增大而越来越高的问题, 对图形处理器（GPU: Graphic Processing Unit）用于并行计算的方法进行了分析, 利用GPU的并行特性, 实现了粒子群优化算法路径搜索过程的并行化。测试函数实验结果证明, GPU平台较CPU模式下的计算, 其搜索速率有明显提高。相似文献

15.

单电子存储器存储时间的Monte Carlo模拟

卢刚李静《西安理工大学学报》2007,23(4):375-378

建立了多隧道结单电子存储器存储时间的Monte Carlo模拟模型,重点分析了器件的工作温度、隧道结电容和隧道结数目等因素对单电子存储器存储时间的影响,给出了用Monte Carlo模拟方法模拟单电子存储器存储时间的模拟流程和方法。计算结果表明,当温度越低、隧道结电容越小、电路中隧道结的数目越多时,存储时间越长,器件工作越稳定。相似文献

16.

基于CUDA技术城市小区电波传播并行计算的研究

陈辉张龙才《重庆邮电大学学报(自然科学版)》2013,25(3):347-352

无线电射线跟踪效率一直是电波传播场强模拟预测的核心问题之一。随着计算统一设备架构(compute u-nified device architecture,CUDA)技术的提出彻底改变传统的x86硬件架构体系,从硬件底层上为并行计算提供了可能。在CUDA被提出用于通用计算的前提下,提出了CUDA技术与射线跟踪相结合,介绍了CUDA如何实现异构体计算,如何在CUDA硬件平台上实现并行化编程,然后通过一个简单的三维地理数据模型实现了无线电波射线跟踪的并行化计算。最后对实验结果进行了分析与总结,证明CUDA技术能很好地提高运算效率。相似文献

17.

引导滤波算法的CUDA加速实现

王新磊何凯王晓文《吉林大学学报(信息科学版)》2016,34(1):104-110

针对引导滤波算法运算速度慢、无法实时处理的问题, 提出基于统一计算设备架构(CUDA: Compute Unified Device Architecture)实现引导滤波算法的加速。利用CUDA 并行编程实现图像邻域窗口像素值求和,进而获得图像邻域均值; 通过利用寄存器和纹理存储器, 同时优化算法步骤, 获得引导滤波关键参数, 进而实现对算法的整体优化。实验结果表明, 与基于CPU 实现引导滤波算法相比, 基于CUDA 并行处理可在很大程度上提高运算速度, 基本达到了实时处理的要求。相似文献

18.

基于GPU的B-S模型下改进的Crank Nicolson算法

王文浩邬春学《上海理工大学学报》2013,35(2):147-151,156

针对Black-Scholes模型及其公式特点进行了理论分析与数学处理,给出了优化的Crank-Nicolson算法,提高了实际期权交易效率.通过使用GPU作为计算平台,结合CUDA架构技术,验证改进后算法的有效性和适用性.在CPU平台下进行横向测试,验证GPU平台运行环境优势.实验表明,改进后的算法在GPU平台下运行所提升的效果显著,运算精度和效率得到提高. 相似文献

19.

邻居搜索问题在CUDA上基于KD-TRIE方法的优化与实现

包南森李正杰柴亚辉徐炜民《上海大学学报(自然科学版)》2012,(3):305-310

介绍如何在CUDA上搭建KD-TRIE,并对其进行搜索,使其能适应解决邻居搜索问题.实验结果表明,当搜索半径较小(如整个空间直径的0.01和0.001),数据规模较大(如10~6)时,使用KD-TRIE进行搜索的效果最佳,与蛮力算法相比可以达到加速比5000～15000倍的效果;当搜索半径较大时,加速比会相应减少.采取优化措施,可以提高加速比. 相似文献

20.

基于多GPU的三维Kirchhoff积分法体偏移

刘伟峰赵改善孔祥宁蔡杰雄张兵《华中科技大学学报(自然科学版)》2011,39(Z1):110-114

提出3种策略挖掘三维Kirchhoff积分法体偏移在众核GPU(图形处理器)上的并行性.首先,使用数据传输线程和GPU计算线程构造流水线并行框架,基于此框架直接实现异步输入输出(I/O)以减少GPU和网络存储之间数据传输所需的时间;其次,使用GPU的线程满载策略以使指令吞吐量最大化;最后,应用纹理缓存和常量缓存来减少片外存储器访问,并使用固定功能单元计算超越函数.实验结果表明:相比于IntelXeon E5430CPU上的算法串行版本,在nVidia Tesla C1060GPU上的优化算法实现了约20倍的加速比.比较了算法在3种不同GPU架构上的性能,并给出了CPU与GPU结果在0.5×10-4误差限下仅0.3×10-5的浮点数绝对误差. 相似文献