共查询到19条相似文献,搜索用时 733 毫秒
1.
2.
为研究基于GPU的高性能并行计算技术,利用集成448个处理核心的NVIDIA GPU GTX470实现了脉冲压缩雷达的基本数据处理算法,包括脉冲压缩算法与相参积累算法;同时根据GPU的并行处理架构,将脉冲压缩、相参积累算法完成了并行优化设计,有效地将算法并行映射到GPU GTX470的448个处理核心中,完成了脉冲压缩雷达基本处理算法的GPU并行处理实现;最后验证了并行计算的结果,并针对处理结果效果与实时性进行了评估。 相似文献
3.
4.
基于CUDA海量空间数据实时体绘制研究 总被引:1,自引:0,他引:1
针对海量空间科学数据的精细及实时三维绘制需求,提出并实现了一种基于CUDA语言的并行化光线投射体绘制加速算法,利用传统体绘制算法中光线投射法的可并行特点和GPU中高速的纹理查询的优点,通过一个实际坐标到纹理坐标的转换函数实现了对不规则采样数据的准确采样,并完成了绘制算法的CUDA并行化改造,通过CUDA语言利用GPU强大的并行计算能力实现了对海量空间数据的实时三维光线投射绘制. 相似文献
5.
6.
7.
GPU拥有高度并行性和可编码的特点,在大规模数据并行计算方面得到广泛应用。NTRU算法是一种安全性高,易于并行化的公钥密码算法。研究了NTRU算法基于CUDA的并行化实现技术,将计算中最耗时的卷积运算分解到多个线程并行计算,引入大量的独立并发的加解密线程块来完成整个加解密过程,并给出了具体的数据编码及存储结构、线程组织以及基于合并访问和共享内存的性能优化技术。实验结果表明,基于CUDA的NTRU加解密算法实现了硬件加速,相对于NTRU算法在CPU的实现,CUDA实现能够达到12.38 MB/s的吞吐量,可获得最大为95倍的加速比。 相似文献
8.
基于OpenCL的数字相控阵雷达干扰模拟 总被引:1,自引:0,他引:1
针对现代战争复杂电磁环境以及数字相控阵雷达干扰信号生成数据量大、多波束等难点,利用图形处理器(GPU)带宽高,运算能力强的特点,使用OpenCL异构编程框架实现数据级并行策略,设计了基于OpenCL的五种典型数字干扰并行算法。算法根据GPU的读写机制进行优化设计,充分发掘了现有GPU的并行计算能力。实验结果表明:基于GPU的数据并行计算程序与中央处理器(CPU)平台相比较,加速比最大可达3.25,提高了相关雷达回波模拟设备的速度,基本满足数字相控阵雷达信号处理的实时性要求。 相似文献
9.
基于CUDA的并行粒子群优化算法的设计与实现 总被引:1,自引:0,他引:1
针对处理大量数据和求解大规模复杂问题时粒子群优化(PSO)算法计算时间过长的问题, 进行了在显卡(GPU)上实现细粒度并行粒子群算法的研究。通过对传统PSO算法的分析, 结合目前被广泛使用的基于GPU的并行计算技术, 设计实现了一种并行PSO方法。本方法的执行基于统一计算架构(CUDA), 使用大量的GPU线程并行处理各个粒子的搜索过程来加速整个粒子群的收敛速度。程序充分使用CUDA自带的各种数学计算库, 从而保证了程序的稳定性和易写性。通过对多个基准优化测试函数的求解证明, 相对于基于CPU的串行计算方法, 在求解收敛性一致的前提下, 基于CUDA架构的并行PSO求解方法可以取得高达90倍的计算加速比。 相似文献
10.
为了进一步提高信息熵多种群遗传算法的计算效率,缩短计算时间,提出了一种基于CUDA平台的信息熵多种群遗传算法。通过分析原算法的并行因素,结合CUDA开发平台,对原算法进行适合GPU加速的并行化处理,实现了遗传算子、惩罚函数和空间收缩因子等的并行计算,有效地提高了算法效率。例题数值测试表明,在保持了快速收敛特性和计算精度的前提下,CUDA并行算法相对于原算法具有很高的加速效率。 相似文献
11.
Digital Pulse-Doppler radar chain consists of signal processing algorithms that require high computing power. Multi-processor and multi-core parallel embedded machines are one of the solutions to meet real-time constraints of many radar applications. In this paper, we proposed efficient and scalable parallelization methods of the Pulse-Doppler radar signal processing chain. First, we evaluated Open Multi Processing (OpenMP) to identify its best scheduling technique in order to exploit efficiently the available computing cores. Then, we have proposed new parallel and scalable approaches based on direct memory access (DMA) and inter-processor communication (IPC) techniques, combined with the best OpenMP scheduling method to accelerate radar signal processing chain. To prove the scalability of our proposed parallel approaches, two radar use cases with different real-time and memory constraints have been experienced. We used the eight cores C6678 digital signal processor (DSP) as a target for all our implementations. The obtained results show an overall parallel efficiency of 95%, which is better than the best state-of-the-art implementations. 相似文献
12.
13.
为了解决k-means算法在Hadoop平台下处理海量高维数据时聚类效果差,以及已有的改进算法不利于并行化等问题,提出了一种基于Hash改进的并行化方案。将海量高维的数据映射到一个压缩的标识空间,进而挖掘其聚类关系,选取初始聚类中心,避免了传统k-means算法对随机选取初始聚类中心的敏感性,减少了k-means算法的迭代次数。又结合MapReduce框架将算法整体并行化,并通过Partition、Combine等机制加强了并行化程度和执行效率。实验表明,该算法不仅提高了聚类的准确率和稳定性,同时具有良好的处理速度。 相似文献
14.
基于TMS320C80的相关和卷积处理的并行实现 总被引:2,自引:0,他引:2
在雷达和声纳等许多信号处理场合,都需要高速、长样本、高精度的数字相关和数字卷积处理,随着并行处理技术和新一代可编程数字信号处理芯片的发展,这种需求可以得到满足。文中利用TI公司的TMS320C80(简称C80)芯片实现了基于“双缓冲”数据传输的、无内存冲突的、零等待通信的长样本并行相关器和并行卷积器,其速度和精度都得到了保证,该算法具有通用性和较大的工程应用价值 相似文献
15.
Recently, High Performance Computing (HPC) platforms have been employed to realize many computationally demanding applications
in signal and image processing. These applications require real-time performance constraints to be met. These constraints
include latency as well as throughput. In order to meet these performance requirements, efficient parallel algorithms are
needed. These algorithms must be engineered to exploit the computational characteristics of such applications.
In this paper we present a methodology for mapping a class of adaptive signal processing applications onto HPC platforms
such that the throughput performance is optimized. We first define a new task model using the salient computational characteristics
of a class of adaptive signal processing applications. Based on this task model, we propose a new execution model. In the
earlier linear pipelined execution model, the task mapping choices were restricted. The new model permits flexible task mapping
choices, leading to improved throughput performance compared with the previous model. Using the new model, a three-step task
mapping methodology is developed. It consists of (1) a data remapping step, (2) a coarse resource allocation step, and (3)
a fine performance tuning step. The methodology is demonstrated by designing parallel algorithms for modern radar and sonar
signal processing applications. These are implemented on IBM SP2 and Cray T3E, state-of-the-art HPC platforms, to show the
effectiveness of our approach. Experimental results show significant performance improvement over those obtained by previous
approaches. Our code is written using C and the Message Passing Interface (MPI). Thus, it is portable across various HPC platforms.
Received April 8, 1998; revised February 2, 1999. 相似文献
16.
17.
MapReduce大数据处理平台与算法研究进展 总被引:1,自引:1,他引:0
本文综述了近年来基于MapReduce编程模型的大数据处理平台与算法的研究进展。首先介绍了12个典型的基于MapReduce的大数据处理平台,分析对比它们的实现原理和适用场景,抽象它们的共性。随后介绍基于MapReduce的大数据分析算法,包括搜索算法、数据清洗/变换算法、聚集算法、连接算法、排序算法、偏好查询、最优化算法、图算法、数据挖掘算法。将这些算法按MapReduce实现方式分类,分析影响这算法性能的因素。最后,将大数据处理算法抽象为外存算法,并对外存算法的特征加以梳理,提出了普适的外存算法性能优化方法的研究思路和研究问题,以供研究人员参考。具体包括优化外存算法的磁盘I/O,优化外存算法的局部性,以及设计增量式迭代算法。现有大数据处理平台和算法研究多集中在基于资源分配和任务调度的平台动态性能优化、特定算法并行化、特定算法性能优化等领域,本文提出的外存算法性能优化属于静态优化方法,是现有研究的良好补充,为研究人员提供了广阔的研究空间。 相似文献
18.