期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

石莹莹李涛《数字社区&智能家居》2007,(22)

本文在Windows系统并行计算平台下,利用MPICH环境并结合Visual C 6.0编程语言,实现Strassen矩阵乘法算法的并行程序,实验表明该算法能有效地提高矩阵乘法的运行效率. 相似文献

2.

杨岳湘李晓梅《计算机工程与科学》1992,14(2):42-46

本文研究大型稀疏矩阵向量乘法的并行化措施。主要包括高效的存储方法,核心代码用汇编语言编写,循环展开,宏任务和微任务方式,重排序和分块技术。根据实际问题的需要,分别给出了一般稀疏矩阵和对称正定带状矩阵向量乘法内核子程序,ELLPACK,ITPAKC及LINPACK等库和许多应用程序可直接调用它们。相似文献

3.

PC集群环境下大规模矩阵乘法算法的研究

夏丽华张丽晓《计算机工程与设计》2007,28(19):4603-4605,4615

开发适合集群系统的并行数值算法,可以解决更多的科学与工程计算问题.在PC集群环境下,提出对Cannon算法的改进方案,采用重叠技术,使数据的计算和通信在时间上重叠,达到时延隐藏的目的,克服了网络传输的通信瓶颈问题;还提出一种自适应负载反馈平衡策略,很好地解决了集群负载平衡.该算法在PC集群系统环境下测试,取得了较好的并行效率,在4个结点上和8个结点上,加速比分别达到3.77和7.93. 相似文献

4.

大规模3D并行分层可扩展矩阵乘法的递阶优化方法

卢炼阳爱民《计算机应用研究》2017,34(6)

为进一步提高大规模平台上可扩展矩阵乘法的并行计算效率,提出一种并行分层可扩展矩阵乘法的递阶优化方法。首先,在可扩展矩阵乘法算法(SMM)算法枢轴行和枢轴列通信研究基础上,利用分层方式在更高等级上对网格进行矩形群划分,实现矩阵乘法的二维计算向三维计算转变,并设计对应的集群内通信和集群间通信过程,实现SMM乘法的递阶并行优化(HSMM);其次,对所提HSMM算法进行理论分析,分情况对其通信成本进行分析和预测,推导出最佳计算成本的集群数选取方式;最后,通过在Grid5000和BlueGene/P测试平台实验,验证了所提算法有效性和理论分析的正确性。相似文献

5.

一种基于MapReduce并行框架的大规模矩阵乘法运算的实现 总被引：1，自引：0，他引：1

张骏《计算机应用与软件》2012,29(6):267-270

在机器学习算法中,矩阵乘法运算是一种基本运算.而扩大矩阵乘法的运算规模并降低其运算时间,将有利于满足机器学习算法处理大规模数据的要求.将MapReduee并行框架用于分块矩阵乘法,实现一种用于大规模矩阵乘法运算的方法.理论分析和实验结果表明该方法在处理大规模矩阵乘法上具有极大的潜能,并且随着计算节点的增加从而获得较好的加速比. 相似文献

6.

基于Hadoop的大矩阵乘法处理方法

孙远帅陈垚官新均林琛《计算机应用》2013,33(12):3339-3344

目前的矩阵乘法算法无法处理大规模和超大规模的矩阵,而随着MapReduce编程框架的提出,并行处理矩阵乘法成为解决大矩阵运算的主要手段。总结了矩阵乘法在MapReduce编程模型上的并行实现方法,并提出了实现高性能大矩阵乘法的策略——折中单个工作节点的计算量和需要网络传输的数据量。实验证明,并行实现算法在大矩阵上明显优于传统的单机算法,而且随着集群中节点数目的增多,并行算法会表现出更好的性能。相似文献

7.

基于TVM 的变维批处理小矩阵乘法的加速及应用

戴翰文;陈长波《计算机科学》2025,52(5):25-40

很多实际应用中需要高效计算大量不同维度的小矩阵乘积,如基于图神经网络的图分类需要将多个邻接矩阵与节点特征矩阵相乘。针对现有方法无法跨不同硬件平台高效计算此类维度各异(简称变维)批处理小矩阵乘法的问题,基于深度学习编译器TVM,提出了一种可以跨平台的高效算法BVSM,通过为小矩阵特制优化模板、运用张量化批处理和分组填充等技术使得TVM可以高效进行变维批处理小矩阵乘法。在真实图分类任务数据集上的实验表明,在CPU 端,BVSM相较于自动调度和调优的TVM(AnsorTVM)平均获得两倍以上加速,平均性能达到Intel MKL变维批处理矩阵乘法的95%,最高为其1.27倍;在 GPU 端,BVSM相较于AnsorTVM 平均获得62.05倍的加速,相较于cuBLAS平均获得28.82倍的加速,相较于MAGMA 的变维批处理矩阵乘法平均获得6.59倍的加速。相似文献

8.

基于FPGA的Systolic乘法技术研究

周磊涛陶耀东刘生李锁《计算机工程与科学》2015,37(9):1632-1636

Systolic乘法是一种基于SIMD-MC2模型的矩阵乘算法,无法直接应用在单独的嵌入式系统中,所以提出一种采用FPGA技术实现Systolic乘法的方法。该方法将FPGA的硬件并行特性与巧妙的并行算法结合起来,利用FPGA灵活可编程的特点,在FPGA内部设计了一种基于MC2模型的节点阵列来实现Systolic乘法。实际应用中,可以灵活地修改节点单元的数量和节点的功能来满足不同规模的运算矩阵需求并充分利用FPGA的资源。仿真结果验证了该方法的正确性。实际测试结果表明:该方法具有较快的速度和较高的实时性。相似文献

9.

基于OpenMP的Winograd并行矩阵乘算法应用研究

阳光亮李鸿健豆育升唐红《计算机应用研究》2012,29(7):2435-2437

为了提高半经典分子动力学模拟中矩阵乘法效率,通过一种稀疏矩阵分解方法化简矩阵乘法,基于OpenMP实现矩阵相乘的Winograd并行算法。该算法将Winograd算法中各部分依次采用OpenMP并行计算,降低了数据通信。在16核服务器上测试表明,该方法能够显著提高半经典分子动力学模拟中矩阵乘法效率,并行加速比能够达到9.47,并具有良好的可扩展性,为大分子体系的模拟提供了可能。相似文献

10.

基于CUDA的矩阵乘法和FFT性能测试 总被引：9，自引：7，他引：2

肖江胡柯良邓元勇《计算机工程》2009,35(10):7-10

针对NVIDIA公司的CUDA技术用Geforce8800GT在Visual Studi02008环境下进行测试,从程序运行时间比较判断CUBLAS库、CUDA内核程序、CUDA驱动API、C循环程序与Intel MKL库以及FFTW库与CUFFT库运行响应的差异。测试结果表明,在大规模矩阵乘法和快速傅里叶变换的应用方面,相对于CPU,利用GPU运算性能可提高25倍以上。相似文献

11.

基于对角划分的矩阵乘并行算法 总被引：5，自引：0，他引：5

张学波李晓梅《计算机工程》2004,30(6):42-43

提出了一种新的基于对角划分的矩阵乘并行算法,它在以往行列划分策略的基础上,采用基于对角划分的策略。数值试验表明该算法具有较高的加速比和并行效率。相似文献

12.

RAPWBN的矩阵乘法并行算法

陈宏建陈崚李开荣陈莉莉《计算机工程》2004,30(23):31-33,110

在介绍带有宽总线网络的可重构计算阵列(RAPWBN)的基本结构及其二进制值的前缀和操作的基础上,提出了 RAPWBN 阵列上的整数求和算法,并由此得到了 RAPWBN 阵列上的两种快速高效的矩阵乘法运算并行算法。在具有 N3个处理器和 N2条行总线的 RAPWBN 阵列上,若总线带宽ω>logN 字节,矩阵乘法可以在 O(1)时间完成;在具有 N2个处理器和 N 条行总线的 RAPWBN 阵列上,矩阵乘法可以在 O(N)时间完成。它们的效率都为 O(N3),达到了最优。相似文献

13.

基于网络的分布式机群并行仿真平台开发

肖育劲唐胜利何祖威《计算机仿真》2004,21(3):48-50

该文介绍了基于网络的分布式机群并行仿真软件平台SIMNOWs的基本情况及开发。由主服务器、节点机构成基于局域网络的分布式机群并行仿真平台体系结构。作为整个系统的核心,服务器端管理系统根据两个守护进程而设计出节点管理系统和作业管理系统,采用了动态抢先式的动态负载平衡解决并行中的负载问题。相似文献

14.

The influence of hardware and software considerations on the design of synchronous parallel algorithms

M. Clint R. Perrott C. Holt A. Stewart 《Software》1983,13(10):961-974

Matrix multiplication is used as an example to illustrate a method of transforming the specification of a problem into an algorithm suitable for execution on synchronous machines. The transformations are influenced both by the architectures of the target machines and their available high level languages. Three different synchronous machines, a conceptual MCC (mesh connected computer), the Cray-1 and the ICL DAP are considered as target hardware. 相似文献

15.

一种基于地址、协议转换方式的高性能IPv6/IPv4安全网关

陆音石进黄皓谢立《计算机应用与软件》2007,24(9):7-10,29

在IPv4/IPv6并存过渡时期提供强有力的网络安全保障,是实现下一代互联网络(NGI)技术成功应用的关键.在NAT-PT协议转换和流量负载均衡等技术分析的基础之上,提出了一种具备IPv4/IPv6混合网络边界访问控制功能的高性能安全网关模型NAPTSG,并详细论述了其系统设计思路,最后给出了其原型的实现及测试情况. 相似文献

16.

SCALTASK：一种可伸缩的并行任务控制机制

熊建新王鼎兴《小型微型计算机系统》1994,15(6):1-7

ＳＣＡＬＴＡＳＫ是一种可伸缩的并行任务控制机制，它采用队栈控制结构和分布式调度与负载平衡策略，具有很大的灵活性，可适应于不同规模和不同类型的并行系统。在ＳＣＡＬＴＡＳＫ的支持下，编制高效的、可移植的并行程序变得更加方便易行。相似文献

17.

无共享并行数据库中结点故障对策

昌月楼阳国贵《计算机科学》1995,22(5):42-45

1.问题的提出随着信息时代的出现,人们对数据库系统的要求越来越高,既要求它能提快速联机响应和大的吞吐量,巨大的存贮容量;又要求它能提供高度的容错能力,即在故障情况能继续工作。相似文献

18.

并行分布式Fractal图像生成算法的设计

潘志庚石教英《小型微型计算机系统》1995,16(5):21-24

本文以Ｍａｎｄｅｌｂｒｏｔ集图像生成为例提出一种并行Ｆｒａｃｔａｌ图像生成算法，在发布式环境下所实现的算法具有高可靠性，自然负载平衡等特性，实验数据表明所设计算法具有较高的加速比。相似文献

19.

SNFS并行文件系统负载均衡技术的研究与实现

朱启伟赵满春张向阳《计算机应用与软件》2012,29(8):220-222,225

在大规模集群系统的并行运算环境中,I/O效率一直是影响系统整体性能的关键因素,并行文件系统技术是目前解决I/O性能瓶颈的有效途径之一。介绍当前并行文件系统的发展现状以及并行文件系统的类型,阐述SNFS并行文件系统的架构以及负载均衡DLC(分布式LAN客户端)技术的实现原理,并给出大规模集群系统环境中SNFS文件系统负载均衡技术的实现方法,最后,通过实际应用分析说明该技术在提升I/O性能上的优势。相似文献