首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 218 毫秒
1.
图形处理单元(GPU)可作为低成本并行可编程协处理器,能提供高的计算吞吐量,非常适于大规模系统设计。为充分利用GPU的并行处理能力,采用专为GPU通用计算所设计的CUDA(Compute Unified Device Architecture)架构,针对平坦衰落信道,设计了用于MIMO无线通信系统的固定复杂度球形解码器,以加速MIMO无线通信系统的数据处理。根据GPU的架构与存储特点,对实现进行了优化,减小了数据存取延迟和访问冲突。实验结果表明,球形解码速度可提高近10倍.  相似文献   

2.
中期冲突探测(MTCD)是空中交通管制的重要决策支持工具。针对Prandini概率型中期冲突探测算法存在计算速度慢、探测精度不够高的缺点,提出基于GPU CUDA的加速算法。利用CUDA线程并行处理能力和GPU的计算能力,对算法进行了重新设计与优化。通过仿真实验,证明了在NVIDIA Geforce 8800GTS显卡上可得到50倍以上的加速性能,可以满足大型空管自动化系统20 min内中期冲突探测的实时性和精度要求。  相似文献   

3.
近年来,GPU的快速发展与NVIDIA公司推出的CUDA技术,推动着GPU在高性能计算领域中的应用。研究并实现CUDA程序性能分析工具,对充分利用GPU的计算优势和提高CUDA架构下并行程序的执行性能具有重要的意义。该文分析了GPU硬件平台的特点和CUDA并行编程模型,结合CPU集群环境下并行程序的性能分析,设计并实现了一种基于指导语句的CUDA程序性能分析工具,并实验验证了其在不同GPU硬件平台上的有效性。  相似文献   

4.
提出一种NVIDIA CUDA架构下的灰度图像匹配算法,利用GPU加速灰度图像的匹配过程。实际的测试结果表明,在现有实验环境中,对同一图像,在不损失匹配精度的前提下,在GPU上使用CUDA实现的灰度图像匹配并行算法比在CPU上使用MPI实现的灰度图像匹配并行算法快了40多倍,性能得到了显著提高,从而使灰度图像匹配应用于如交互式系统等实时应用成为可能。  相似文献   

5.
针对当前基于数字地形的雷达成像仿真实时性差的问题,依据雷达成像仿真原理,分析了雷达成像仿真的并行性,提出了基于CUDA的雷达成像仿真算法流程,进行了基于GPU的雷达RBM成像并行处理实验.通过不同线程调度方式的并行加速效果和不同数据规模的并行加速效果分析,验证了该算法的有效性.  相似文献   

6.
为了解决超电大尺寸海面舰船场景中电磁散射计算的瓶颈问题,研究基于多图像处理单元(Multi-GPU)并行加速技术的弹跳射线法(SBR)。借助统一设备计算架构(CUDA)提供的多线程服务(MPS),构建Multi-GPU并行加速框架,研究基于区域射线束划分GPU计算任务和实现方式;研究基于矩阵网格的任务分割技术,最大限度提高GPU全局内存利用率;针对不同运算单元间的差异所带来的计算不同步问题,设计基于动态负载均衡算法的调度系统,进而提高计算资源利用率。仿真结果表明,在双GPU硬件平台上,该方案与现有并行技术算法相比,在确保结果准确性的情况下加速比接近甚至超过200%。因此,该技术方案能够有效解决超电大海面舰船电磁散射问题。  相似文献   

7.
卫星轨道递推的GPU集成式并行加速方法   总被引:1,自引:0,他引:1  
为克服传统卫星轨道模型预报方法的速度瓶颈,为实现卫星在轨自主规划变轨奠定基础,利用图形处理器(GPU)并行计算方法对多卫星轨道解算进行加速,构建了轨道预报并行计算模块,成功实现了卫星轨道预报的大幅加速.为提高低计算量时解算速度,提出了集成式GPU加速方法,将简化常规摄动模型(SGP4)解算模型整体代入核函数,计算机内存仅需与GPU进行一次调用及数据交互,大大缩短调用核函数时间,较模块化GPU加速方法在中低规模计算量时速度有明显提高.本研究于两种设备上基于统一计算设备架构(CUDA)实现了集成式加速方法并进行了加速试验,在小型嵌入式开发板NIVIDA TX2设备上可实现在5 s内进行500颗星一天时间86 400步的轨道预报,笔记本设备上GPU加速比也可达到中央处理器(CPU)的4.6倍,且加速后精度损失极低.实验结果表明:集成式加速方法适用于中低规模星数(总步数小于400万步)的并行解算任务,模块化加速方法适用于大规模星数(总步数大于400万步)的并行解算任务.  相似文献   

8.
针对已知指纹图像增强系统中指纹局部频谱特性估计的计算负荷大,基于CPU实现后执行时间较长的问题,提出了一种基于GPU的CUDA并行实现方法来提高运算速度.利用不同CUDA线程块来并行处理不同的局部指纹图像,同时线程块中的多线程对相应局部指纹的频谱特性估计进行并行优化,从而完成整个指纹图像的局部频谱特性估计的优化.通过对FVC2000数据库中大量的指纹图像进行测试,得到相应的执行时间并与其基于CPU实现的执行时间相比较.结果显示:通过该基于GPU的CUDA并行实现方法,局部指纹频谱特性估计的执行时间显著减少,从而可以提高已知指纹图像增强系统的运算速度.  相似文献   

9.
各类P系统并行计算的实现是膜计算的一个研究热点。针对耗尽型脉冲神经P系统,提出了其并行计算的矩阵表示,并以此为基础研究了耗尽型脉冲神经P系统的GPU实现。仿真实验分析了耗尽型脉冲神经P系统的并行计算在GPU上的加速性能,在10次实验中,GPU对CPU的平均加速比为1.4。  相似文献   

10.
为了提高无线传感器网络的吞吐量并减小延迟,提出了一种基于多信道的接收节点优先的MAC算法(MCS-MAC).在信道选择阶段,以接收节点为中心,由接收节点选择数据信道,发送节点转换到数据信道上与接收节点通信.如果接收节点不在控制信道上,邻居节点会主动发送NCTS包通知发送节点,并告知接收节点所在的信道,发送节点转换到数据信道进行通信,有效地利用了多信道,提高了网络吞吐量.在数据传输阶段,允许一次传送多个数据包,有效地减少了信道转换次数,减少了传输延迟.仿真结果表明,在较高负载的网络环境下,与经典S-MAC、MMAC协议相比,MCS-MAC明显提高网络吞吐量,同时减少了包的平均传输延迟.  相似文献   

11.
针对图像增强通常需要较大的计算量、用传统方法难于进行实时处理的问题,提出了一种基于图形处理器加速的Wallis变换影像增强方法.借助于图形处理器较强的运算能力,利用CUDA并行计算架构在PC机上实现了快速Wallis图像滤波算法,包括图形处理器(GPU)上任务分解、大规模计算核心的分解方法,结合使用共享存储器、全局存储器对算法进行加速,使用线程块内的共享存储器较好地解决了同一计算子空间的各线程同步问题.对比了CPU和GPU计算Wallis影像变换的时间,结果表明,随着图像分辨率的增大,Wallis并行算法可以把计算速度提高40倍.该方法具有较好的实时性,可大大提高图像增强过程的处理速度,显著地减少了计算时间.  相似文献   

12.
研究了基于CUDA(Compute unified device architecture)技术的蒙特卡洛热辐射计算算法.以油池火的火焰辐射计算为例,采用计算能力值为1.1,1.2,2.1的3种GPU为硬件,探讨了CUDA在蒙特卡洛热辐射计算中的效率.研究发现,当计算采用的线程数为最大值,线程块数为MP个数的整数倍,GPU的计算能力值较大时,计算速度可以得到较大的提升.经过优化后,在计算500万个能束数时,采用计算能力值为1.1,1.2,2.1的GPU运行时间只需0.44,0.167和0.084s,分别比单个CPU的运行时间快了62,167和333倍.结果证明对蒙特卡洛法进行CU-DA并行化改进,在保证计算精度的同时可以极大地提高计算效率.  相似文献   

13.
虚拟维度表示高光谱图像中典型地物的个数。虚拟维度的确定是高光谱图像众多应用的首要步骤。针对虚拟维度计算方法时间复杂度高的问题,根据其计算具有高度并行性的特点,该文在图形处理单元(GPU)上使用统一计算设备架构(CUDA)和它的拓展线性代数工具箱CULA及Thrust实现虚拟维度的计算,在算法并行实现的每步都做了进一步优化以获取更大的加速性能。通过在GPU设备上CUDA并行计算和CPU上非并行计算求虚拟维度的实验比较,验证了CUDA并行计算可以明显加快算法的实现。  相似文献   

14.
NVIDIA公司提出的CUDA技术通过并发执行多个线程以实现大规模快速计算的能力。在研究CUDA技术在数字图像处理领域应用的基础上,提出了一种基于NVIDIA CUDA的方法实现图像边缘检测,把CUDA技术的快速计算的能力应用到数字图像处理领域。从CUDA技术的概况的介绍出发,对基于NVIDIA CUDA的图像边缘检测方法以及该方法的详细实现过程进行了形式化的描述,解决了基于CPU的传统图像边缘检测方法运行效率低的问题。实验结果证明CUDA在数字图像处理的实际应用中卓有成效。  相似文献   

15.
To achieve the across-nodes technology of the heterogeneous parallel method of moments (MoM), a parallel MoM programming model is studied on CPU/GPU and CPU/MIC heterogeneous platforms. By utilizing the CONTEXT technology in the CUDA which contains the GPU common programming criterions, and the concept of environment variables in MIC, a general heterogeneous parallel programming model for the CPU/GPU and CPU/MIC is proposed, which meets the static load-balancing for the across-nodes heterogeneous parallel MoM. Numerical results show that the heterogeneous parallel MoM codes based on the proposed parallel programming model can obtain ideal speedup and good scalability.  相似文献   

16.
为解决势能场骨架提取方法计算效率低、提取过程耗时大的问题,同时为降低该方法的时间复杂度,提出了基于GPU的势能场骨架提取并行算法,并充分利用CUDA架构特有的常量存储器和共享存储器对普通并行算法进行改进.讨论了如何根据程序和显卡设备的固有属性来分配线程以达到最高的GPU占用率,从而得到最优的加速效果.对多组3D模型进行测试的结果表明,随着数据规模的增大,加速效果逐渐提升,处理256×256×487的体数据时,可获得18倍的加速比.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号