首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 53 毫秒
1.
本文在Windows系统并行计算平台下,利用MPICH环境并结合Visual C 6.0编程语言,实现Strassen矩阵乘法算法的并行程序,实验表明该算法能有效地提高矩阵乘法的运行效率.  相似文献   

2.
本文研究大型稀疏矩阵向量乘法的并行化措施。主要包括高效的存储方法,核心代码用汇编语言编写,循环展开,宏任务和微任务方式,重排序和分块技术。根据实际问题的需要,分别给出了一般稀疏矩阵和对称正定带状矩阵向量乘法内核子程序,ELLPACK,ITPAKC及LINPACK等库和许多应用程序可直接调用它们。  相似文献   

3.
夏丽华  张丽晓 《计算机工程与设计》2007,28(19):4603-4605,4615
开发适合集群系统的并行数值算法,可以解决更多的科学与工程计算问题.在PC集群环境下,提出对Cannon算法的改进方案,采用重叠技术,使数据的计算和通信在时间上重叠,达到时延隐藏的目的,克服了网络传输的通信瓶颈问题;还提出一种自适应负载反馈平衡策略,很好地解决了集群负载平衡.该算法在PC集群系统环境下测试,取得了较好的并行效率,在4个结点上和8个结点上,加速比分别达到3.77和7.93.  相似文献   

4.
为进一步提高大规模平台上可扩展矩阵乘法的并行计算效率,提出一种并行分层可扩展矩阵乘法的递阶优化方法。首先,在可扩展矩阵乘法算法(SMM)算法枢轴行和枢轴列通信研究基础上,利用分层方式在更高等级上对网格进行矩形群划分,实现矩阵乘法的二维计算向三维计算转变,并设计对应的集群内通信和集群间通信过程,实现SMM乘法的递阶并行优化(HSMM);其次,对所提HSMM算法进行理论分析,分情况对其通信成本进行分析和预测,推导出最佳计算成本的集群数选取方式;最后,通过在Grid5000和BlueGene/P测试平台实验,验证了所提算法有效性和理论分析的正确性。  相似文献   

5.
一种基于MapReduce并行框架的大规模矩阵乘法运算的实现   总被引:1,自引:0,他引:1  
在机器学习算法中,矩阵乘法运算是一种基本运算.而扩大矩阵乘法的运算规模并降低其运算时间,将有利于满足机器学习算法处理大规模数据的要求.将MapReduee并行框架用于分块矩阵乘法,实现一种用于大规模矩阵乘法运算的方法.理论分析和实验结果表明该方法在处理大规模矩阵乘法上具有极大的潜能,并且随着计算节点的增加从而获得较好的加速比.  相似文献   

6.
目前的矩阵乘法算法无法处理大规模和超大规模的矩阵,而随着MapReduce编程框架的提出,并行处理矩阵乘法成为解决大矩阵运算的主要手段。总结了矩阵乘法在MapReduce编程模型上的并行实现方法,并提出了实现高性能大矩阵乘法的策略——折中单个工作节点的计算量和需要网络传输的数据量。实验证明,并行实现算法在大矩阵上明显优于传统的单机算法,而且随着集群中节点数目的增多,并行算法会表现出更好的性能。  相似文献   

7.
很多实际应用中需要高效计算大量不同维度的小矩阵乘积,如基于图神经网络的图分类需要将多个邻接矩阵与节点特征矩阵相乘。针对现有方法无法跨不同硬件平台高效计算此类维度各异(简称变维)批处理小矩阵乘法的问题,基于深度学习编译器TVM,提出了一种可以跨平台的高效算法BVSM,通过为小矩阵特制优化模板、运用张量化批处理和分组填充等技术使得TVM可以高效进行变维批处理小矩阵乘法。在真实图分类任务数据集上的实验表明,在CPU 端,BVSM相较于自动调度和调优的TVM(AnsorTVM)平均获得两倍以上加速,平均性能达到Intel MKL变维批处理矩阵乘法的95%,最高为其1.27倍;在 GPU 端,BVSM相较于AnsorTVM 平均获得62.05倍的加速,相较于cuBLAS平均获得28.82倍的加速,相较于MAGMA 的变维批处理矩阵乘法平均获得6.59倍的加速。  相似文献   

8.
Systolic乘法是一种基于SIMD-MC2模型的矩阵乘算法,无法直接应用在单独的嵌入式系统中,所以提出一种采用FPGA技术实现Systolic乘法的方法。该方法将FPGA的硬件并行特性与巧妙的并行算法结合起来,利用FPGA灵活可编程的特点,在FPGA内部设计了一种基于MC2模型的节点阵列来实现Systolic乘法。实际应用中,可以灵活地修改节点单元的数量和节点的功能来满足不同规模的运算矩阵需求并充分利用FPGA的资源。仿真结果验证了该方法的正确性。实际测试结果表明:该方法具有较快的速度和较高的实时性。  相似文献   

9.
为了提高半经典分子动力学模拟中矩阵乘法效率,通过一种稀疏矩阵分解方法化简矩阵乘法,基于OpenMP实现矩阵相乘的Winograd并行算法。该算法将Winograd算法中各部分依次采用OpenMP并行计算,降低了数据通信。在16核服务器上测试表明,该方法能够显著提高半经典分子动力学模拟中矩阵乘法效率,并行加速比能够达到9.47,并具有良好的可扩展性,为大分子体系的模拟提供了可能。  相似文献   

10.
基于CUDA的矩阵乘法和FFT性能测试   总被引:9,自引:7,他引:2  
针对NVIDIA公司的CUDA技术用Geforce8800GT在Visual Studi02008环境下进行测试,从程序运行时间比较判断CUBLAS库、CUDA内核程序、CUDA驱动API、C循环程序与Intel MKL库以及FFTW库与CUFFT库运行响应的差异。测试结果表明,在大规模矩阵乘法和快速傅里叶变换的应用方面,相对于CPU,利用GPU运算性能可提高25倍以上。  相似文献   

11.
基于对角划分的矩阵乘并行算法   总被引:5,自引:0,他引:5  
提出了一种新的基于对角划分的矩阵乘并行算法,它在以往行列划分策略的基础上,采用基于对角划分的策略。数值试验表明该算法具有较高的加速比和并行效率。  相似文献   

12.
陈宏建  陈崚  李开荣  陈莉莉 《计算机工程》2004,30(23):31-33,110
在介绍带有宽总线网络的可重构计算阵列(RAPWBN)的基本结构及其二进制值的前缀和操作的基础上,提出了 RAPWBN 阵列上的整数求和算法,并由此得到了 RAPWBN 阵列上的两种快速高效的矩阵乘法运算并行算法。在具有 N3个处理器和 N2条行总线的 RAPWBN 阵列上,若总线带宽ω>logN 字节,矩阵乘法可以在 O(1)时间完成;在具有 N2个处理器和 N 条行总线的 RAPWBN 阵列上,矩阵乘法可以在 O(N)时间完成。它们的效率都为 O(N3),达到了最优。  相似文献   

13.
该文介绍了基于网络的分布式机群并行仿真软件平台SIMNOWs的基本情况及开发。由主服务器、节点机构成基于局域网络的分布式机群并行仿真平台体系结构。作为整个系统的核心,服务器端管理系统根据两个守护进程而设计出节点管理系统和作业管理系统,采用了动态抢先式的动态负载平衡解决并行中的负载问题。  相似文献   

14.
M. Clint  R. Perrott  C. Holt  A. Stewart 《Software》1983,13(10):961-974
Matrix multiplication is used as an example to illustrate a method of transforming the specification of a problem into an algorithm suitable for execution on synchronous machines. The transformations are influenced both by the architectures of the target machines and their available high level languages. Three different synchronous machines, a conceptual MCC (mesh connected computer), the Cray-1 and the ICL DAP are considered as target hardware.  相似文献   

15.
在IPv4/IPv6并存过渡时期提供强有力的网络安全保障,是实现下一代互联网络(NGI)技术成功应用的关键.在NAT-PT协议转换和流量负载均衡等技术分析的基础之上,提出了一种具备IPv4/IPv6混合网络边界访问控制功能的高性能安全网关模型NAPTSG,并详细论述了其系统设计思路,最后给出了其原型的实现及测试情况.  相似文献   

16.
SCALTASK是一种可伸缩的并行任务控制机制,它采用队栈控制结构和分布式调度与负载平衡策略,具有很大的灵活性,可适应于不同规模和不同类型的并行系统。在SCALTASK的支持下,编制高效的、可移植的并行程序变得更加方便易行。  相似文献   

17.
1.问题的提出 随着信息时代的出现,人们对数据库系统的要求越来越高,既要求它能提快速联机响应和大的吞吐量,巨大的存贮容量;又要求它能提供高度的容错能力,即在故障情况能继续工作。  相似文献   

18.
本文以Mandelbrot集图像生成为例提出一种并行Fractal图像生成算法,在发布式环境下所实现的算法具有高可靠性,自然负载平衡等特性,实验数据表明所设计算法具有较高的加速比。  相似文献   

19.
在大规模集群系统的并行运算环境中,I/O效率一直是影响系统整体性能的关键因素,并行文件系统技术是目前解决I/O性能瓶颈的有效途径之一。介绍当前并行文件系统的发展现状以及并行文件系统的类型,阐述SNFS并行文件系统的架构以及负载均衡DLC(分布式LAN客户端)技术的实现原理,并给出大规模集群系统环境中SNFS文件系统负载均衡技术的实现方法,最后,通过实际应用分析说明该技术在提升I/O性能上的优势。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号

京公网安备 11010802026262号