首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 733 毫秒
1.
为满足文本检索、计算生物学等领域海量数据匹配对高性能计算的要求,提出一种基于计算统一设备架构(CUDA)的位并行近似串匹配算法。结合图形处理器(GPU)的高并行计算结构及存储带宽特性,通过优化数据存储方式,实现并行化动态规划矩阵算法(BPM)的加速,并对加速性能进行对比测试。实验结果表明,BPM算法通过GPU加速能获得20倍左右的加速比。  相似文献   

2.
为研究基于GPU的高性能并行计算技术,利用集成448个处理核心的NVIDIA GPU GTX470实现了脉冲压缩雷达的基本数据处理算法,包括脉冲压缩算法与相参积累算法;同时根据GPU的并行处理架构,将脉冲压缩、相参积累算法完成了并行优化设计,有效地将算法并行映射到GPU GTX470的448个处理核心中,完成了脉冲压缩雷达基本处理算法的GPU并行处理实现;最后验证了并行计算的结果,并针对处理结果效果与实时性进行了评估。  相似文献   

3.
基于GPU的位并行多模式串匹配研究   总被引:1,自引:0,他引:1       下载免费PDF全文
赵光南  吴承荣 《计算机工程》2011,37(14):265-267
图形处理器(GPU)具有较强的单一运算能力及高度并行的体系结构。根据上述特点,选择基于位并行技术的多模式串匹配算法M-BNDM,将其移植到GPU上加以实现和优化。通过对需要处理的数据进行预处理,将串匹配的过程简化为更适合CUDA计算数据的位操作。对基于CUDA架构的并行串匹配算法的性能影响因子进行分析。实验结果表明,与同等CPU算法相比,该算法能够获得约十几倍的加速比。  相似文献   

4.
基于CUDA海量空间数据实时体绘制研究   总被引:1,自引:0,他引:1  
针对海量空间科学数据的精细及实时三维绘制需求,提出并实现了一种基于CUDA语言的并行化光线投射体绘制加速算法,利用传统体绘制算法中光线投射法的可并行特点和GPU中高速的纹理查询的优点,通过一个实际坐标到纹理坐标的转换函数实现了对不规则采样数据的准确采样,并完成了绘制算法的CUDA并行化改造,通过CUDA语言利用GPU强大的并行计算能力实现了对海量空间数据的实时三维光线投射绘制.  相似文献   

5.
基于通用GPU并行计算技术,结合遥感图像数据融合处理特点,利用NVIDIA公司的CUDA编程框架,在其GPU平台上对BROVEY变换和YIQ变换融合算法进行了并行研究与实现.实验结果表明,随着遥感图像融合算法的计算复杂度、融合处理的问题规模逐渐增加,GPU并行处理的加速性能优势也逐渐增大,GPU通用计算技术在遥感信息处理领域具有广阔的应用前景.  相似文献   

6.
应用GPU通用高性能编程技术实现一种加速地震叠前时间偏移的新方法.该技术是地震勘探处理的常规流程,其核心算法具有计算密集、数据独立性强、并行性高等特点.通过性能剖析获得其计算热点,通过CUDA技术对其进行并行化改造,并利用CUDA的流技术实现CPU到GPU的异步传输.通过集群环境下的性能测试,应用GPU并行化的PSTM程序可明显缩短运行时间.  相似文献   

7.
GPU拥有高度并行性和可编码的特点,在大规模数据并行计算方面得到广泛应用。NTRU算法是一种安全性高,易于并行化的公钥密码算法。研究了NTRU算法基于CUDA的并行化实现技术,将计算中最耗时的卷积运算分解到多个线程并行计算,引入大量的独立并发的加解密线程块来完成整个加解密过程,并给出了具体的数据编码及存储结构、线程组织以及基于合并访问和共享内存的性能优化技术。实验结果表明,基于CUDA的NTRU加解密算法实现了硬件加速,相对于NTRU算法在CPU的实现,CUDA实现能够达到12.38 MB/s的吞吐量,可获得最大为95倍的加速比。  相似文献   

8.
基于OpenCL的数字相控阵雷达干扰模拟   总被引:1,自引:0,他引:1  
针对现代战争复杂电磁环境以及数字相控阵雷达干扰信号生成数据量大、多波束等难点,利用图形处理器(GPU)带宽高,运算能力强的特点,使用OpenCL异构编程框架实现数据级并行策略,设计了基于OpenCL的五种典型数字干扰并行算法。算法根据GPU的读写机制进行优化设计,充分发掘了现有GPU的并行计算能力。实验结果表明:基于GPU的数据并行计算程序与中央处理器(CPU)平台相比较,加速比最大可达3.25,提高了相关雷达回波模拟设备的速度,基本满足数字相控阵雷达信号处理的实时性要求。  相似文献   

9.
基于CUDA的并行粒子群优化算法的设计与实现   总被引:1,自引:0,他引:1  
针对处理大量数据和求解大规模复杂问题时粒子群优化(PSO)算法计算时间过长的问题, 进行了在显卡(GPU)上实现细粒度并行粒子群算法的研究。通过对传统PSO算法的分析, 结合目前被广泛使用的基于GPU的并行计算技术, 设计实现了一种并行PSO方法。本方法的执行基于统一计算架构(CUDA), 使用大量的GPU线程并行处理各个粒子的搜索过程来加速整个粒子群的收敛速度。程序充分使用CUDA自带的各种数学计算库, 从而保证了程序的稳定性和易写性。通过对多个基准优化测试函数的求解证明, 相对于基于CPU的串行计算方法, 在求解收敛性一致的前提下, 基于CUDA架构的并行PSO求解方法可以取得高达90倍的计算加速比。  相似文献   

10.
为了进一步提高信息熵多种群遗传算法的计算效率,缩短计算时间,提出了一种基于CUDA平台的信息熵多种群遗传算法。通过分析原算法的并行因素,结合CUDA开发平台,对原算法进行适合GPU加速的并行化处理,实现了遗传算子、惩罚函数和空间收缩因子等的并行计算,有效地提高了算法效率。例题数值测试表明,在保持了快速收敛特性和计算精度的前提下,CUDA并行算法相对于原算法具有很高的加速效率。  相似文献   

11.
Digital Pulse-Doppler radar chain consists of signal processing algorithms that require high computing power. Multi-processor and multi-core parallel embedded machines are one of the solutions to meet real-time constraints of many radar applications. In this paper, we proposed efficient and scalable parallelization methods of the Pulse-Doppler radar signal processing chain. First, we evaluated Open Multi Processing (OpenMP) to identify its best scheduling technique in order to exploit efficiently the available computing cores. Then, we have proposed new parallel and scalable approaches based on direct memory access (DMA) and inter-processor communication (IPC) techniques, combined with the best OpenMP scheduling method to accelerate radar signal processing chain. To prove the scalability of our proposed parallel approaches, two radar use cases with different real-time and memory constraints have been experienced. We used the eight cores C6678 digital signal processor (DSP) as a target for all our implementations. The obtained results show an overall parallel efficiency of 95%, which is better than the best state-of-the-art implementations.  相似文献   

12.
地面动目标检测( GMTI) 是脉冲多普勒雷达的重要应用领域之一。星载GMTI 雷达系统比传统的机载系统具有更强的适应性和能够获得更好的检测性能而受到广泛关注。主要就星载分布式稀疏孔径GMTI 雷达系统的系统特点及其空时自适应信号处理( STAP) 方法作了较为深入的分析, 基于星载分布式均匀线性阵列( ULA ) GMTI 雷达系统参数获得了典型的STAP 算法信杂噪比( SINR) 损失特性和性能比较。  相似文献   

13.
为了解决k-means算法在Hadoop平台下处理海量高维数据时聚类效果差,以及已有的改进算法不利于并行化等问题,提出了一种基于Hash改进的并行化方案。将海量高维的数据映射到一个压缩的标识空间,进而挖掘其聚类关系,选取初始聚类中心,避免了传统k-means算法对随机选取初始聚类中心的敏感性,减少了k-means算法的迭代次数。又结合MapReduce框架将算法整体并行化,并通过Partition、Combine等机制加强了并行化程度和执行效率。实验表明,该算法不仅提高了聚类的准确率和稳定性,同时具有良好的处理速度。  相似文献   

14.
基于TMS320C80的相关和卷积处理的并行实现   总被引:2,自引:0,他引:2  
在雷达和声纳等许多信号处理场合,都需要高速、长样本、高精度的数字相关和数字卷积处理,随着并行处理技术和新一代可编程数字信号处理芯片的发展,这种需求可以得到满足。文中利用TI公司的TMS320C80(简称C80)芯片实现了基于“双缓冲”数据传输的、无内存冲突的、零等待通信的长样本并行相关器和并行卷积器,其速度和精度都得到了保证,该算法具有通用性和较大的工程应用价值  相似文献   

15.
Recently, High Performance Computing (HPC) platforms have been employed to realize many computationally demanding applications in signal and image processing. These applications require real-time performance constraints to be met. These constraints include latency as well as throughput. In order to meet these performance requirements, efficient parallel algorithms are needed. These algorithms must be engineered to exploit the computational characteristics of such applications. In this paper we present a methodology for mapping a class of adaptive signal processing applications onto HPC platforms such that the throughput performance is optimized. We first define a new task model using the salient computational characteristics of a class of adaptive signal processing applications. Based on this task model, we propose a new execution model. In the earlier linear pipelined execution model, the task mapping choices were restricted. The new model permits flexible task mapping choices, leading to improved throughput performance compared with the previous model. Using the new model, a three-step task mapping methodology is developed. It consists of (1) a data remapping step, (2) a coarse resource allocation step, and (3) a fine performance tuning step. The methodology is demonstrated by designing parallel algorithms for modern radar and sonar signal processing applications. These are implemented on IBM SP2 and Cray T3E, state-of-the-art HPC platforms, to show the effectiveness of our approach. Experimental results show significant performance improvement over those obtained by previous approaches. Our code is written using C and the Message Passing Interface (MPI). Thus, it is portable across various HPC platforms. Received April 8, 1998; revised February 2, 1999.  相似文献   

16.
数据广播环境下实时查询处理   总被引:1,自引:1,他引:0       下载免费PDF全文
现有的实时数据广播研究中,只考虑了具有截止期约束的单个数据请求的调度问题,而支持实时查询处理的数据广播技术尚未得到足够的关注。该文研究在on-demand数据广播环境下,如何有效地处理实时查询问题,提出一种新的数据调度算法(QSA)。通过仿真实验与目前最为有效的数据请求调度算法SIN进行了比较,结果显示QSA具有更低的错过截止期比率,在最好的情况下,QSA比SIN降低了17.45%。  相似文献   

17.
MapReduce大数据处理平台与算法研究进展   总被引:1,自引:1,他引:0  
本文综述了近年来基于MapReduce编程模型的大数据处理平台与算法的研究进展。首先介绍了12个典型的基于MapReduce的大数据处理平台,分析对比它们的实现原理和适用场景,抽象它们的共性。随后介绍基于MapReduce的大数据分析算法,包括搜索算法、数据清洗/变换算法、聚集算法、连接算法、排序算法、偏好查询、最优化算法、图算法、数据挖掘算法。将这些算法按MapReduce实现方式分类,分析影响这算法性能的因素。最后,将大数据处理算法抽象为外存算法,并对外存算法的特征加以梳理,提出了普适的外存算法性能优化方法的研究思路和研究问题,以供研究人员参考。具体包括优化外存算法的磁盘I/O,优化外存算法的局部性,以及设计增量式迭代算法。现有大数据处理平台和算法研究多集中在基于资源分配和任务调度的平台动态性能优化、特定算法并行化、特定算法性能优化等领域,本文提出的外存算法性能优化属于静态优化方法,是现有研究的良好补充,为研究人员提供了广阔的研究空间。  相似文献   

18.
基于种群迭代搜索的智能优化算法在农业、交通、工业等很多领域都取得了广泛的应用.但是该类算法迭代寻优的特点使其求解效率通常较低,很难应用到大规模、高维或实时性要求较高的复杂优化问题中.随并行分布式技术的发展,国内外很多学者开始着手研究智能优化算法的并行化.本文首要介绍了并行智能优化算法的基本概念;其次从协同机制、并行模型以及硬件结构3个维度综述了几类常见的并行智能优化算法,详细分析阐述了它们优点及不足;最后对并行智能优化算法的未来研究进行了展望.  相似文献   

19.
陈曈  杨东勇  石洗凡 《计算机工程》2011,37(1):285-286,289
全方位图像展开算法运算量大,在当前的主流处理器中难以满足实时要求,对其仅做简单并行处理效果仍不理想。针对此问题,基于多核处理器改进双线性内插值法的全方位图像展开算法,对其实现并行处理。通过全方位图像展开实验,对展开时间、并行效率、渲染速度等进行分析和比较。实验结果表明,并行优化后,在E7200(双核2.53 GHz)下实时处理的分辨率能从640×480提高到1 024×768。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号