期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

韩秉君 ;黄诗铭 ;刘佳 ;聂诗文《电信网技术》2014,(12):43-48

随着通信仿真平台运算规模和复杂度的提升,以CUDA为代表的GPU加速技术成为缩短仿真时间、降低仿真设备购置及运行开销的有效手段。本文梳理了支持CUDA技术的GPU设备核心演进脉络,介绍了不同系列GPU产品的技术特点及应用领域,并以此为基础提出了一种研究CUDA加速仿真技术的试验环境。该环境以低端计算机、消费级GPU和千兆网络设备组建开发环境,以高端服务器、专业GPU运算卡和光纤路由器组建运行环境。这种试验环境搭建方案有利于实现性能与价格的平衡,并能较好跟进未来GPU软硬件技术的持续演进。相似文献

2.

基于GPU的LCS算法加速机制研究与实现

张常志牟澄黄小红马严《通信学报》2013,34(Z2):3-13

协议特征识别技术中用到了一种重要的LCS算法,它是一种字符串比对算法,提取出字符串中的最长连续公共子串。然而,通过理论分析和实验表明：这个查找过程是一个时间复杂度较高的运算过程,如果输入的数据分组比较大,那么运行的时间将会非常长,为此不得不控制输入数据分组的大小和数量,这严重限制了所采用样本集的大小。提出了基于GPU对LCS运算实现加速的方法。在此基础上搭建和配置了CUDA平台,在此平台下研究并实现了LCS算法的并行性。通过对LCS算法在CUDA下并行性的研究,有效地加快了LCS算法的运行速度。实验结果表明,GPU下LCS算法的运行效率比CPU有了显著的提高。相似文献

3.

基于GPU加速的地震图像重建技术

许盼兮张东孙尽尧《半导体光电》2013,34(5):852-857

针对目前地层层析成像算法中正演算法存在计算量大、计算速度慢的问题,以图像处理器(GPU)为核心,研究并实现了一种基于GPU平台的时域有限差分(FDTD)正演算法。CUDA是一种由NVIDIA推出的GPU通用并行计算架构,也是目前较为成熟的GPU并行运算架构。而FDTD正演算法本身在算法特性上满足并行的要求,二者的结合将极大地加速程序的计算速度。在基于标准Marmousi速度模型的正演模拟中,程序速度提升30倍,而GPU正演图像与CPU正演结果误差小于千分之一。算例表明CUDA可以大大加速目前的FDTD正演算法,并且随着GPU硬件自身的发展和计算架构的不断改进,加速效果还将进一步提升,这将有利于后续波形反演工作的进展。相似文献

4.

基于GPU的数学形态学运算并行加速研究

张聪邢同举罗颖张静孙强《电子设计工程》2011,19(19):141-143,146

数学形态学运算是一种高度并行的运算,其计算量大而又如此广泛地应用于对实时性要求较高的诸多重要领域。为了提高数学形态学运算的速度,提出了一种基于CUDA架构的GPU并行数学形态学运算。文章详细描述了GPU硬件架构和CUDA编程模型,并给出了GPU腐蚀并行运算的详细实现过程以及编程过程中为充分利用GPU资源所需要注意的具体问题。实验结果表明,GPU并行数学形态学运算速度可达到几个数量级的提高。相似文献

5.

基于GPU加速的深度图像绘制 总被引：1，自引：0，他引：1

郑专安平张秋闻张兆杨《电视技术》2012,36(11):11-14,26

基于深度图像的绘制(DIBR)广泛应用于虚拟视点的合成,但是目前实现DIBR的算法复杂度都比较高,很难较实时地应用到3DTV系统中。采用单路纹理图像和其对应的深度图像进行虚拟视点的合成,在图形处理单元(GPU)上应用CUDA(Compute Unified Device Architecture)技术实现了基于深度图像的绘制。通过在NVIDIA Telsa C2050图形卡上运行,绘制分辨力1 024×768和640×480的图像速率分别达到了15 f/s(帧/秒)和24 f/s,分别能够准实时或实时地应用到3DTV系统中;同时本文的绘制方法有效地节约了传输带宽,绘制图像的主观质量良好。相似文献

6.

一种基于GPU通用计算的容错方法

徐丹妮贺占庄《微电子学与计算机》2014,(2)

为确保GPU通用计算(GPGPU)程序在CPU-GPU异构平台上运行的可靠性,设计了一种以软件方法实现的容错模型.在分析GPGPU程序运行过程中瞬时故障的产生模式以及错误的传播路径后,对GPGPU程序运行所依赖的CPU端和GPU端分别进行容错设计,并针对GPGPU程序的运行特点,设计能够降低容错运算开销同时提升系统协同工作能力的优化方案,从而在提高GPGPU程序的可靠性的同时降低容错设计所带来的额外开销.通过对典型实例的测试验证了所提出的方案的可行性以及性能. 相似文献

7.

一种基于ARMv8架构CPU的算法加速方法

孟承王静娇《雷达与对抗》2023,(3):37-39+47

基于目前主流的硬件平台ARMv8架构CPU,提出一种使用SIMD技术的算法加速方法,以atan2函数为例,与标准库的性能作对比。实验结果表明,在FT1500计算平台上,采用此种方式优化的算法性能有显著提升。相似文献

8.

基于GPU+CPU的CANNY算子快速实现

下载免费PDF全文

唐斌龙文《液晶与显示》2016,31(7):714-720

本文提出一种基于GPU+CPU的快速实现Canny算子的方法。首先将算子分为串行和并行两部分,高斯滤波、梯度幅值和方向计算、非极大值抑制和双阈值处理在GPU中完成,将二维高斯滤波分解为水平方向上和垂直方向上的两次一维滤波从而降低计算的复杂度;然后使用CUDA编程完成多线程并行计算以加快计算速度;最后使用共享存储器隐藏线程访问全局存储的延迟;在CPU中则使用队列FIFO完成边缘连接。仿真测试结果表明：对分辨率为1024×1024的8位图像的处理时间为122 ms,相对应单独使用CPU而言,加速比最高可达5.39倍,因此本文方法充分利用了GPU的并行性的特征和CPU的串行处理能力。相似文献

9.

基于 GPU 加速的并行字符串匹配算法 总被引：1，自引：0，他引：1

谷岳谷建华《微电子学与计算机》2013,(9)

在分析了经典的串行字符串匹配算法（BF ,KMP ,BM ,BDM ,Shift -And/Shift -Or ,ZZL）基础上,对ZZL算法的预处理过程进行改进,并结合GPU的单指令多线程的并行计算特点,对ZZL算法进行并行改进,以达到处理大规模数据的速度提升。相似文献

10.

图像处理的GPU加速技术研究

詹洪陈袁杰《现代电子技术》2012,35(20):87-90,94

通过Matlab和Visual C＋＋两个平台,实现了对图像工程的并行加速处理,并且通过Jacket,CUDA两种加速方案的介绍,进一步了解使用GPU高性能并行计算的工作流程以及性能效益。最后,给出了通过并行处理之后的关于两个图像工程计算性能的测试结果及比对。结果证明,经并行处理后的图像工程在计算效率方面有显著提高,结果精确,计算耗时小。相似文献

11.

基于GPU通用计算CUDA架构的人体检测技术

周晓阳《电子工程师》2012,(2):41-43

随着计算机硬件技术的高速发展,图形处理器（Graphic processing unit,GPU）通用计算已经发展到颇为成熟阶段,其并行运算速度已远远超过多核CPU。文章简介CUDA架构并验证其在图形处理中的加速能力,对比线性代数运算在CPU与GPU架构下的效率,将CUDA技术应用于智能视频监控人体检测系统中,实验验证其高效性及可行性。最后对CUDA的发展方向进行了展望。相似文献

12.

基于CUDA架构的混合测向算法研究

下载免费PDF全文

金莉宋万杰施治国《雷达科学与技术》2018,16(2):133-138

采用数字波束形成算法与合成导向矢量算法相结合的测高算法,提高了测角精度和测角速率。另外,为了进一步满足系统实时性要求,提出采用基于计算统一设备架构为平台完成雷达测角的方案,该方案利用并行计算平台和异构编程模型,首先在通用处理计算机上用CPU完成预处理,并控制信号处理的任务调度和负载分配,图形处理器实现数字波束形成算法和合成导向矢量算法,并与CPU进行比较。实验结果表明,利用计算统一设备架构技术实现的测高算法取得了比CPU算法更高的运算效率。相似文献

13.

基于GPU的快速二维沃尔什变换研究 总被引：1，自引：1，他引：1

童莹张健《微电子学与计算机》2011,28(1):46-49,53

提出了一种基于GPU(Graphics Processing Unit,图形处理器)CUDA(Compute Unified Device Architecture,计算统一设备架构)平台的快速二维沃尔什变换(Walsh Transform)实现方法.该方法利用GPU的并行结构和硬件特点,从算法实现、存储类型、逻辑构架设置等方面提高了沃尔什变换的运算速度.实验结果表明,随着图像分辨率的增加,沃尔什变换在GPU上运行时间远低于CPU,GPU比CPU具有更明显的加速效果. 相似文献

14.

基于GPU 加速的高阶矩量法研究与应用

下载免费PDF全文

马韬陈明生吴先良刘艺齐琪《微波学报》2013,29(4):34-37

矩量法(MOM)在求解电磁场散射问题时,当未知量数目比较大时,其内存占用和计算时间非常大.基于最佳一致逼近理论构造了高阶矩量法,并引入了计算统一设备架构(CUDA)技术,在图形处理器(GPU)上实现了并行加速计算二维电磁散射问题.实例结果表明,在与快速多极子算法(FMM)相对比下,该方法在较低剖分的情况下,具有很高的计算精度,并且在阻抗矩阵填充和矩矢相乘时的速度大大提升,适用于电大尺寸目标的散射问题. 相似文献

15.

基于GPU的信号产生及脉冲压缩实现

金莉孔文青宋万杰《雷达科学与技术》2017,15(5):505-508

文中采用了一种基于CPU+GPU异构并行架构体系的信号处理方案。按照雷达信号处理流程,通用处理计算机利用CPU串行代码完成核函数启动前数据准备和设备初始化工作,并控制信号处理的任务调度和负载分配,然后将数据通过PCI E总线传输至显存,利用GPU特有的单指令多线程方式,并行实现线性调频信号产生以及线性调频信号频域脉冲压缩算法,并与CPU进行比较。实验结果表明,利用计算统一设备架构技术实现的线性调频信号产生以及脉冲压缩算法取得了比CPU更高的运算效率。相似文献

16.

利用CUDA快速实现IMM目标跟踪

辛召强沈晓峰《雷达科学与技术》2012,10(6):656-659

根据二维空间内目标作匀速直线运动和匀速圆周运动的特点,在建立目标运动模型和观测模型的基础上采用基于交互多模算法（IMM）的卡尔曼滤波器对机动目标进行跟踪。但由于IMM算法存在大量的递归与矩阵运算,所以实时性降低,这也是工程上难以实现的原因。通过CUDA对算法进行加速实现,在不影响算法性能的基础上实时性大大提高。仿真结果表明,利用该架构实现的IMM算法不仅能够对匀速直线运动和匀速圆周运动的目标进行实时跟踪,而且在运动模型发生变化时,实时性也得到很大提升,滤波误差也比较小。相似文献

17.

基于CUDA并行计算的空中目标红外辐射成像计算

下载免费PDF全文

刘连伟董士奎陈前荣邹前进樊宏杰屈东胜《红外与激光工程》2020,49(4):0404003-0404003-7

建立了一种包含蒙皮和尾焰的空中目标红外辐射成像GPU并行计算方法。采用SLG模型计算尾焰辐射气体的红外特性,采用LOS方法求解尾焰红外辐射传输方程,根据本体与三维尾焰的成像几何关系,采用正向光线追迹方法计算蒙皮辐射成像,采用反向光线追迹方法计算尾焰辐射成像,建立了目标投影算法,并在蒙皮投影计算模块和尾焰辐射计算模块采用CUDA并行提高计算速度,实现了探测器入瞳处目标红外光谱图像的快速计算。结果表明:投影成像算法可准确生成设定条件下的目标图像,目标红外图像辐射分布与温度分布一致,尾焰辐射强度计算结果与实验结果符合较好,CUDA并行算法可有效提高程序的计算效率,当计算量较大时,蒙皮投影模块的计算加速可达百倍以上。相似文献

18.

基于实码加速遗传算法改进TOPSIS法在房地产预警体系中的应用

龙会典严广乐《电子测试》2013,(14)

采用实码加速遗传算法来解决传统TOPSIS 算法在方案评选过程中存在方案距离理想解与负理想解同样近及指标权重选取主观两个问题,方便地获得了兼具决策方法适应性和决策者偏好的指标综合权重。应用实例证明了该方法的可行性和有效性。相似文献

19.

一种基于图形处理器的压缩单纯形方法

下载免费PDF全文

白洪涛欧阳丹彤何丽莉姜珊珊《电子学报》2009,37(11):2574-2578

针对GPU通用计算环境CTM纹理资源的限制,研究了一种适于CTM的单纯形方法.依据单纯形方法每次变换最多只增加一列非单位元向量和矩阵求逆运算的特征,给出GPU上系数矩阵、基逆矩阵等的压缩存储策略及在该策略下求解基逆矩阵、单纯形乘子和检验数等步骤新的计算规则.CPU主要进行迭代控制;而计算密集类任务皆由GPU完成.理论分析证明该方法比标准方法在时空复杂度上提高了一个数量级.数值实验表明该方法不仅扩大了可求解问题的规模,且在获得正确优化结果的前提下,效率比CPU版本有数百倍的提高,甚至数倍领先于MATLAB R2007a. 相似文献

20.

一种基于多分辨率建模的雷达仿真方法

范文江牛金涛余非《舰船电子对抗》2011,34(3):74-78

目前已经陆续装备部队的对空情报雷达普遍采用了大量新技术。在分析目前雷达仿真方法不足的基础上,根据现代雷达数字化技术特点,从工程应用的角度出发,提出了雷达真实信号实际算法仿真方法。为了寻求普通硬件资源下的高仿真效果,提出了多分辨率模型的常规雷达仿真方法,构建了多分辨率模型的各组成模块,并用实例验证了该仿真方法的可行性和可... 相似文献