首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 76 毫秒
1.
在讨论了逆QR分解(逆正交三角分解)SM(I采样矩阵求逆)自适应波束形成算法的基础上,研究了逆QR分解SMI算法的Systolic阵列(脉动阵列)并行实现结构,分析了组成Systolic阵列的各PE(处理单元)单元的基本运算模块的实现,并给出了逆QR分解SMI算法基于Systolic阵列结构的FPGA(现场可编程门阵列)并行实现方法,提出了系统整体的设计与构架。  相似文献   

2.
本文介绍了一种基于瓦片算法的稠密矩阵并行 QR 分解及其实现方法。瓦片算法的思想是将完整的矩阵分块,并使每个块内的数据连续存储。各个瓦片块先独立进行分解,其他块接收当前块分解产生的数据,来更新自身块内的矩阵。我们分别实现了串行瓦片算法和并行瓦片算法,采用基于 MPI 和 OpenMP 混合并行编程模型,在“元”超级计算机上验证了该并行算法,并与 PLASMA 软件包进行对比,程序效率和可扩展性优于 PLASMA。 在多个节点上运行时,展现了良好的扩展性。  相似文献   

3.
基于GPU的串匹配算法研究   总被引:7,自引:0,他引:7  
BF算法是串匹配算法中最基础的算法,但它是串行算法,不适合图形处理器(Graphic Processing Unit, GPU)的体系结构。结合GPU的特殊体系结构,通过数据存取方式和计算策略的改进,充分利用了GPU的并行处理能力,从而基于GPU实现了BF算法。实验结果表明基于GPU的并行算法能够取得较好的加速比,同时也给出了在现有GPU架构上有效实现通用计算的瓶颈。  相似文献   

4.
高迎彬  徐中英 《自动化学报》2023,49(12):2639-2644
针对串行广义特征值分解算法实时性差的缺点, 提出基于加权矩阵的多维广义特征值分解算法. 与串行算法不同, 所提算法能够在一次迭代过程中并行地估计出多维广义特征向量. 平稳点分析表明: 当且仅当算法中状态矩阵等于所需的广义特征向量时, 算法达到收敛状态. 通过对比相邻时刻的状态矩阵模值证明了所提算法的自稳定特性. 所提算法参数选取简单, 实际实施较为容易. 数值仿真和实例应用进一步验证了算法的并行性、自稳定性和实用性.  相似文献   

5.
基于GPU的并行优化技术*   总被引:4,自引:2,他引:2  
针对标准并行算法难以在图形处理器(GPU)上高效运行的问题,以累加和算法为例,基于Nvidia公司统一计算设备架构(CUDA)GPU介绍了指令优化、共享缓存冲突避免、解循环优化和线程过载优化四种优化方法。实验结果表明,并行优化能有效提高算法在GPU上的执行效率,优化后累加和算法的运算速度相比标准并行算法提高了约34倍,相比CPU串行实现提高了约70倍。  相似文献   

6.
近年来,基于图形处理器GPU的通用计算逐渐成为主流计算模式。为了降低GPU程序设计的难度,提出一种适合于GPU体系结构的非阻塞并行队列数据结构。通过对并行队列进行语义松弛,该数据结构能够有效利用队列操作的并行性。同时,还提出了高速并行队列插入和删除算法。使用线性化准则对该并行队列的正确性进行验证。实验表明,所提出的并发队列能够达到远高于目前多核CPU和GPU并行队列的性能,分别超越现有最好结果 20倍和200倍以上。  相似文献   

7.
许建  林泳  秦勇  黄翰 《计算机应用研究》2013,30(9):2656-2659
为提高协同过滤算法的可伸缩性, 加快其运行速度, 提出了一种基于GPU(graphic processing unit)的并行协同过滤算法来实现高速并行处理。GPU的运算模式采用单指令多数据流, 适用于逻辑性弱、数据量巨大的运算, 而这正是协同过滤算法所具有的特点。使用统一计算设备框架(compute unified device architecture, CUDA)实现了此协同过滤算法。实验表明, 在中低端的GPU上该算法与在高端的四核CPU上的协同过滤算法相比, 其加速比达到40倍以上, 显著地提高了算法的可伸缩性, 而算法在准确率方面也有优秀的表现。  相似文献   

8.
基于GPU的图像快速旋转算法的研究及实现   总被引:2,自引:0,他引:2  
本文提出一种基于GPU(图形处理器)的图像旋转并实时绘制方法。首先,文章概述了一种由GPU完成旋转变换的算法,指出其存在的问题与局限性;然后,引出基于GPU的图像旋转算法,并利用DirectX9.0作为软件开发包,在VC++6.0平台实现了图像的旋转以及实时显示;最后,对两种方法的实验结果进行了比较与分析。算法充分吸收GPU在速度以及节约CPU资源等方面的优势,保证了图像旋转的运算速度与旋转质量。  相似文献   

9.
当重建的图像规模偏大、实时性要求高时,卷积反投影(CBP)重建过程比较慢,达不到预期满意的速度。针对这一不足,通过深入研究卷积反投影算法的原理,优化投影数据在图形处理器(GPU)中的存储结构、分析和挖掘算法执行过程中滤波阶段的可并行性,对其中的滤波操作进行并行化处理,从而提出并行滤波过程的方法。通过在MATLAB进行仿真实验,实验结果表明:所提出的并行化方法在保证重建图像精度和清晰度的前提下,同串行卷积法相比较,滤波过程运算的加速比得到了较大程度的提高。  相似文献   

10.
高光谱遥感图像具有超多波段、光谱分辨率高、信息量丰富等优点,但同时也给异常探测的实时处理带来了重大考验。基于Cholesky分解的高光谱实时异常探测算法很好地解决了实时性问题,而图形处理器(GPU)的并行优化设计则更高效。实验结果表明:提出的优化设计在保证探测精度的同时,进一步提升了计算效率,算法加速比最高达到3. 14倍,说明基于GPU的并行优化算法能够较好地满足高光谱遥感图像实时处理的应用需求。  相似文献   

11.
K-近邻计算在数据集规模较大时计算复杂度较高,因此,利用图形处理器( GPU )强大的并行计算能力对K-近邻算法进行加速。在分析现有K-近邻算法的基础上,针对该算法时间开销过大的问题,结合GPU的体系结构特征实现基于GPU的K-近邻算法。利用全局存储器的合并访问特性,提高GPU全局存储器访问数据的效率,通过事先过滤数据的方法来减少参与排序的数据量,进而减少排序阶段的线程串行化时间。在 KDD, Poker, Covertype 3个数据集上进行实验,结果表明,该实现方法在距离计算阶段每秒执行的浮点运算次数为266.37×109次,而排序阶段为26.47×109次,优于已有方法。  相似文献   

12.
13.
A model for the computational cost of the finite-difference time-domain (FDTD) method irrespective of implementation details or the application domain is given. The model is used to formalize the problem of optimal distribution of computational load to an arbitrary set of resources across a heterogeneous cluster. We show that the problem can be formulated as a minimax optimization problem and derive analytic lower bounds for the computational cost. The work provides insight into optimal design of FDTD parallel software. Our formulation of the load distribution problem takes simultaneously into account the computational and communication costs. We demonstrate that significant performance gains, as much as 75%, can be achieved by proper load distribution.  相似文献   

14.
In the this paper, shock/shock and shock/boundary layer interactions in thermochemical nonequilibrium flow have been analyzed. The analysis is limited to flow at Mach 9 around a double-wedge selected to generate an interaction of type IVr that does not fit into Edney’s classification. It is generally known that the interaction of type IV are associated with very high local loads in pressure and heat transfer. The numerical resolution of the Navier Stokes equations allows the prediction of the structure of flow field. The numerical method used is based on a finite volume formulation defined on a structured multi block mesh. Particular emphasis is given to the contribution of real gas effects on the topological characteristics and dynamic structure of the flow field. A comparative study of the contours of Mach numbers and pressure is shown. The results obtained showed that the flow field is highly sensitive to real gas effects.  相似文献   

15.
基于QR分解与罚函数方法的盲分离算法   总被引:1,自引:0,他引:1  
基于信号的白化变换及矩阵的QR分解理论,提出了一种新的盲分离算法。该算法将对混叠矩阵的辨识转化成对一系列Givens矩阵的辨识,从而减少了对n^2-c^2n个未知矩阵元素的辨识,降低了其计算量。另外,在对未知元素进行辨识时,采用了改进的罚函数算法,这样又大大提高了算法的收敛性能。仿真结果表明,该算法不仅缩短了分离时间,而且有很好的分离效果。  相似文献   

16.
针对图形处理器三维引擎中对图形的后期处理需求,实现片段写入帧缓冲区前的测试、混合、逻辑操作、累积、清除和屏蔽等关键功能。分析并提取了OpenGL核心库中的片段处理相关函数,确定了片段处理单元要实现的功能;合理安排多个片段处理功能的执行顺序,设计了基于流水线的片段处理单元结构;采用Verilog HDL对电路进行描述,采用 Cadence NC-Verilog 仿真工具进行虚拟验证,采用 Xilinx 的 ISE 工具进行综合,并在 Xilinx Virtex6 XC6VLX760 FPGA上进行原型验证,电路工作频率可以达到180 MHz,测试功能正确。在SMIC 65 nm CMOS工艺下,采用Synopsys Design-Compiler对设计进行综合,电路工作频率达到300 MHz,满足设计需求。  相似文献   

17.
在组播通信网络中,在满足组播速率的前提下,如何使编码资源开销最小化即网络编码优化是一个NP难问题.针对现有基于基本遗传算法的网络编码优化的不足,提出基于GPU的并行遗传算法应用于网络编码优化.通过在不同的网络拓扑结构中进行仿真实验,结果表明提出的并行遗传算法能够在更短的时间内找到满意的编码方案,具有更高的性能.  相似文献   

18.
一种基于可编程图形硬件的快速三维图像重建算法*   总被引:4,自引:0,他引:4  
针对三维CT图像重建时间过长这一瓶颈问题,给出了FDK算法的几何描述,并据此导出了利用可编程图形硬件加速三维图像重建的方法,最后利用图形处理器的可编程、高精度以及并行计算等特性实现了该方法。实验结果表明,该三维图像重建方法非常有效,与原始算法相比取得了8倍左右的重建加速比。  相似文献   

19.
一种双目立体视觉算法的GPU实现   总被引:1,自引:0,他引:1  
李亚峰  秦开怀 《计算机工程》2006,32(10):210-211,236
利用可编程图形硬件GPU实现了非参数局域变换双目立体视觉算法。该算法使用局部非参数统计的结果而不是像素灰度值作为匹配代价,相对于其它基于区域的立体匹配算法,具有物体边界区域处理稳定和适于硬件实现等优点。该文利用GPU的最新特性实现了算法的全部运算都在GPU上执行。由于GPU的并行流水特性,算法在GPU上的运算速度较在CPU上得到提高。  相似文献   

20.
李海燕  张春元  李礼  任巨 《计算机工程》2008,34(22):258-260
图形处理器极高的流计算能力使其成为实现实时流应用的有效方案。该文抽象出图形处理器的流执行模型,描述图形处理器流处理机制的执行过程,在图形处理器上实现了二维离散余弦变换。实验结果表明,图形处理器对标清格式的视频压缩编码效率可达70 fps。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号

京公网安备 11010802026262号