共查询到20条相似文献,搜索用时 76 毫秒
1.
刘千里 《计算机工程与应用》2012,48(26):71-75,161
在讨论了逆QR分解(逆正交三角分解)SM(I采样矩阵求逆)自适应波束形成算法的基础上,研究了逆QR分解SMI算法的Systolic阵列(脉动阵列)并行实现结构,分析了组成Systolic阵列的各PE(处理单元)单元的基本运算模块的实现,并给出了逆QR分解SMI算法基于Systolic阵列结构的FPGA(现场可编程门阵列)并行实现方法,提出了系统整体的设计与构架。 相似文献
2.
本文介绍了一种基于瓦片算法的稠密矩阵并行 QR 分解及其实现方法。瓦片算法的思想是将完整的矩阵分块,并使每个块内的数据连续存储。各个瓦片块先独立进行分解,其他块接收当前块分解产生的数据,来更新自身块内的矩阵。我们分别实现了串行瓦片算法和并行瓦片算法,采用基于 MPI 和 OpenMP 混合并行编程模型,在“元”超级计算机上验证了该并行算法,并与 PLASMA 软件包进行对比,程序效率和可扩展性优于 PLASMA。 在多个节点上运行时,展现了良好的扩展性。 相似文献
3.
4.
5.
6.
《计算机应用与软件》2015,(10)
近年来,基于图形处理器GPU的通用计算逐渐成为主流计算模式。为了降低GPU程序设计的难度,提出一种适合于GPU体系结构的非阻塞并行队列数据结构。通过对并行队列进行语义松弛,该数据结构能够有效利用队列操作的并行性。同时,还提出了高速并行队列插入和删除算法。使用线性化准则对该并行队列的正确性进行验证。实验表明,所提出的并发队列能够达到远高于目前多核CPU和GPU并行队列的性能,分别超越现有最好结果 20倍和200倍以上。 相似文献
7.
为提高协同过滤算法的可伸缩性, 加快其运行速度, 提出了一种基于GPU(graphic processing unit)的并行协同过滤算法来实现高速并行处理。GPU的运算模式采用单指令多数据流, 适用于逻辑性弱、数据量巨大的运算, 而这正是协同过滤算法所具有的特点。使用统一计算设备框架(compute unified device architecture, CUDA)实现了此协同过滤算法。实验表明, 在中低端的GPU上该算法与在高端的四核CPU上的协同过滤算法相比, 其加速比达到40倍以上, 显著地提高了算法的可伸缩性, 而算法在准确率方面也有优秀的表现。 相似文献
8.
基于GPU的图像快速旋转算法的研究及实现 总被引:2,自引:0,他引:2
本文提出一种基于GPU(图形处理器)的图像旋转并实时绘制方法。首先,文章概述了一种由GPU完成旋转变换的算法,指出其存在的问题与局限性;然后,引出基于GPU的图像旋转算法,并利用DirectX9.0作为软件开发包,在VC++6.0平台实现了图像的旋转以及实时显示;最后,对两种方法的实验结果进行了比较与分析。算法充分吸收GPU在速度以及节约CPU资源等方面的优势,保证了图像旋转的运算速度与旋转质量。 相似文献
9.
10.
11.
K-近邻计算在数据集规模较大时计算复杂度较高,因此,利用图形处理器( GPU )强大的并行计算能力对K-近邻算法进行加速。在分析现有K-近邻算法的基础上,针对该算法时间开销过大的问题,结合GPU的体系结构特征实现基于GPU的K-近邻算法。利用全局存储器的合并访问特性,提高GPU全局存储器访问数据的效率,通过事先过滤数据的方法来减少参与排序的数据量,进而减少排序阶段的线程串行化时间。在 KDD, Poker, Covertype 3个数据集上进行实验,结果表明,该实现方法在距离计算阶段每秒执行的浮点运算次数为266.37×109次,而排序阶段为26.47×109次,优于已有方法。 相似文献
12.
13.
Ramtin ShamsAuthor Vitae Parastoo SadeghiAuthor Vitae 《Journal of Parallel and Distributed Computing》2011,71(4):584-593
A model for the computational cost of the finite-difference time-domain (FDTD) method irrespective of implementation details or the application domain is given. The model is used to formalize the problem of optimal distribution of computational load to an arbitrary set of resources across a heterogeneous cluster. We show that the problem can be formulated as a minimax optimization problem and derive analytic lower bounds for the computational cost. The work provides insight into optimal design of FDTD parallel software. Our formulation of the load distribution problem takes simultaneously into account the computational and communication costs. We demonstrate that significant performance gains, as much as 75%, can be achieved by proper load distribution. 相似文献
14.
GPU acceleration for general conservation equations and its application to several engineering problems 总被引:1,自引:0,他引:1
Fang-An Kuo Matthew R. Smith Chih-Wei Hsieh Chau-Yi Chou Jong-Shinn Wu 《Computers & Fluids》2011,45(1):147-154
In the this paper, shock/shock and shock/boundary layer interactions in thermochemical nonequilibrium flow have been analyzed. The analysis is limited to flow at Mach 9 around a double-wedge selected to generate an interaction of type IVr that does not fit into Edney’s classification. It is generally known that the interaction of type IV are associated with very high local loads in pressure and heat transfer. The numerical resolution of the Navier Stokes equations allows the prediction of the structure of flow field. The numerical method used is based on a finite volume formulation defined on a structured multi block mesh. Particular emphasis is given to the contribution of real gas effects on the topological characteristics and dynamic structure of the flow field. A comparative study of the contours of Mach numbers and pressure is shown. The results obtained showed that the flow field is highly sensitive to real gas effects. 相似文献
15.
基于QR分解与罚函数方法的盲分离算法 总被引:1,自引:0,他引:1
基于信号的白化变换及矩阵的QR分解理论,提出了一种新的盲分离算法。该算法将对混叠矩阵的辨识转化成对一系列Givens矩阵的辨识,从而减少了对n^2-c^2n个未知矩阵元素的辨识,降低了其计算量。另外,在对未知元素进行辨识时,采用了改进的罚函数算法,这样又大大提高了算法的收敛性能。仿真结果表明,该算法不仅缩短了分离时间,而且有很好的分离效果。 相似文献
16.
针对图形处理器三维引擎中对图形的后期处理需求,实现片段写入帧缓冲区前的测试、混合、逻辑操作、累积、清除和屏蔽等关键功能。分析并提取了OpenGL核心库中的片段处理相关函数,确定了片段处理单元要实现的功能;合理安排多个片段处理功能的执行顺序,设计了基于流水线的片段处理单元结构;采用Verilog HDL对电路进行描述,采用 Cadence NC-Verilog 仿真工具进行虚拟验证,采用 Xilinx 的 ISE 工具进行综合,并在 Xilinx Virtex6 XC6VLX760 FPGA上进行原型验证,电路工作频率可以达到180 MHz,测试功能正确。在SMIC 65 nm CMOS工艺下,采用Synopsys Design-Compiler对设计进行综合,电路工作频率达到300 MHz,满足设计需求。 相似文献
17.
18.
19.
一种双目立体视觉算法的GPU实现 总被引:1,自引:0,他引:1
利用可编程图形硬件GPU实现了非参数局域变换双目立体视觉算法。该算法使用局部非参数统计的结果而不是像素灰度值作为匹配代价,相对于其它基于区域的立体匹配算法,具有物体边界区域处理稳定和适于硬件实现等优点。该文利用GPU的最新特性实现了算法的全部运算都在GPU上执行。由于GPU的并行流水特性,算法在GPU上的运算速度较在CPU上得到提高。 相似文献