首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 127 毫秒
1.
三对角线性方程组的一种有效和并行算法   总被引:4,自引:0,他引:4  
迟利华  刘杰 《计算机学报》1999,22(2):218-221
本文提出一种球解严格对角占优的三对角线性方程组的并行算法(简称PPD算法),新算法 计算复杂性约为8n,与最优串行算法追赶法的计算复杂性相同,通信复杂性为常数。目前求解此类方程组的最优并行算法的计算复杂性约为17n,通信复杂性约为logP,相对而言PPD算法的计算性能和通信性能都有大幅度提高。试验结果表明,加速比呈线性增加,并行效率达到90%以上。  相似文献   

2.
三对角线性方程组的一种有效分布式并行算法   总被引:8,自引:0,他引:8  
提出了分布式存储环境下求解三对角线性方程的一种并行算法,该算法基于“分而治之”的策略,高效地形成并求解其缩减方程组,避免不必要的冗余计算,通过对计算量的仔细估计,较好地平衡了各处理机的负载;同时,充分利用了计算与通信重叠技术,减少处理机空闲时间,分析了自救的复杂性,给 分布存储多计算机系统上的数值试验结果,数值结果表明,算法的效率较迟利华和李晓梅的DPP算法有较大的提高。  相似文献   

3.
针对大规模结构非线性动力问题的有限元分析非常耗时,基于消息传递接口(MPI)机群环境,提出多种基于并行求解策略的显式有限元并行算法。基于显式消息传递的区域分解技术,采取重叠、非重叠区域分解技术及动态任务分配方法,通过将计算与通信重叠,优化处理器间的通信,对非重叠通信区域分解并行算法、重叠通信区域分解并行算法、群动态任务分配算法、动态任务分配算法及动态负载平衡算法进行研究。为在机群环境下实现非线性动力有限元分析,开发了基于有效并行求解策略的显式有限元并行算法。编写了基于消息传递编程模式的并行有限元程序,在工作站机群上实现了数值算例,分析了算法的性能,并与传统的Newmark算法进行了比较。算例表明:群动态任务分配算法的性能优于动态任务分配算法,低于区域分解算法的性能,动态负载平衡算法最优。对相同规模的问题提出的算法比Newmark算法快,优于Newmark算法。对结构非线性动力问题的有限元分析,所提出的并行算法是可行有效的。  相似文献   

4.
本文讨论了矩阵最优路径的串行和并行算法。在串行方面讨论了用动态规划思想的求解算法;在并行方面给出了计算模型。并给出算法描述和算法复杂性分析。  相似文献   

5.
本文给出了满足三角不等式的货郎担问题的并行启发式算法,在SIMD CREV PRAM并行机上该算法使用O(n^3/log^2n)台处理器需O熄log^2n)时间,这里n是给定城市的个数,因而该并行算法是最优的。  相似文献   

6.
关系最粗粒度的划分问题PCPP在并发系统的验证方面起着重要的作用。本文提出了RCPP问题的一种有效的并行算法,其中假设标号转移系统中有m个转移和n个状态,利用m/n^∈个CREW处理器算法所需的运行时间为O(n^1+∈)(对于任意固定的∈〈1)。  相似文献   

7.
广义Hermitian特征问题并行求解器的性能依赖于所选择的并行算法和矩阵的分布策略等诸多方面.基于块存储和快算法策略,提出了一个新的标准化转化的并行算法,该并行算法将Cholesky分解结合到广义特征问题标准化转换中,降低了已有并行算法的通信开销,并增加了算法的并行性.新算法可显著改善已有并行算法的性能和可扩展性.另外给出了一个有效求解具有多个右端项的三角矩阵方程AX=B的并行块算法.通过自主开发的特征问题并行软件包PSEPS的测试结果表明,并行算法比传统的并行算法快大约1倍,并具有较好的可扩展性.  相似文献   

8.
TFQMR算法是一种Krylov子空间算法,常用来求解大型稀疏线性方程组.通过改变TFQMR算法的计算次序,提出了一种改进的TFQMR(ITFQMR)算法.对比TFQMR算法,ITFQMR算法的数值稳定性和TFQMR算法相同,几乎没有增加计算量,但考虑了在MIMD并行机上实现时并行算法的性能,其同步开销减少为TFQMR算法的一半,并且所有内积计算以及矩阵向量乘是独立的,没有数据相关性,可以进行计算与通信的重叠.从理论和实验两个角度来讨论ITFQMR算法的性能,当处理机台数较多时,ITFQMR算法的计算速度快于TFQMR算法.实验说明了在有64台处理机机群上进行,最快的并行ITFQMR算法的计算速度大约比TFQMR算法快20%.  相似文献   

9.
求解三对角线性方程组的双向并行分裂法   总被引:3,自引:0,他引:3  
首先回顾了H.H.Wang的分裂法^[8]Michielse&Vorst给出的改进算法^[9],分析了影响分裂法及改进算法的并行效率的主要因素,然后提出了一种求解三对角方程组的双向并行分裂法(简记为DPP算法),DPP算法的通讯建立的次数为M&V算法的50%,数据传输量为其30%,最后在工作站网络环境下实现了DPP算法,并就并行效率与M&V算法进行了比较,结果表明在由6台工作站组成的网络中DPP算  相似文献   

10.
块三对角线性方程组的一种分布式并行算法   总被引:16,自引:0,他引:16  
骆志刚  李晓梅 《计算机学报》2000,23(10):1028-1034
提出了分布环境下求解三对角线性方程组的一种并行算法,该算法基于对计算量的仔细估算,合理地将方程组求解工作分配到各处理机,达到负载平衡,同时,充分地将计算与通信重叠,减少处理机空闲时间;当块三以角线性方程组的系数矩阵为对角占优时,算法在执行过程中不会中断;文中分析了算法的复杂性,给出了在分析布存储多计算机系统上的数值试验结果,数值结果表明,文中算法的效率较Chung等的算法有较大的提高。  相似文献   

11.
一类Toeplitz循环三对角方程组的一种分布式并行算法   总被引:4,自引:1,他引:3  
提出一类Toeplitz循环三对方程组的一种分布式并行算法,在求解由一阶线性双曲型方程(如迁移方程)在一定边界条件下导出的隐式差分方程组时,要重复地求解此类Toeplitz循环三对角方程组。算法基于对系数矩阵的分解,贯彻并行算法设计中“分而治之”的原则,充分利用了系数矩阵结构的特殊性。算法实现中通过秦九韶公式的运用,避免了不必要的冗余计算;理论分析和数值试验表明,算法是数值稳定的,且当方程组规模充分大时,该算法加速比趋近线性加速比的理想情况。给出了算法在某分布存储多计算机系统上的数值试验结果。  相似文献   

12.
面向算法的SIMD计算机数学模型及其应用研究   总被引:1,自引:0,他引:1  
针对数据并行计算在图像处理中的应用研究,提出了数据并行计算机的面向算法的数学模型,以及利用该模型得到的一种新颖的、数据并行算法的数学描述方法.采用该数学描述方法对数据并行图像处理中的灰度直方图运算、区域增长法图像分割以及图像卷积运算等3类图像处理方法进行了描述.结果表明,该数学描述方法不仅简单可行和精确,而且,可以从数学公式中直接得到算法的通信复杂性和计算复杂性.该方法可以应用到数据并行计算的应用研究中作为数学描述的工具.  相似文献   

13.
We present and evaluate, for the first time, a parallel algorithm for solving the LU decomposition problem on the star graph. The proposed parallel algorithm is of O(N3/n!) computation complexity and uses O(Nn) communication time to decompose a matrix of order N on a star graph of dimension n, where N⩾(n-1)!. The incurred communication time is better than the best known results for the hypercube, O(Nlogn!), and the mesh, O(N√n!), each with approximately n! nodes. The proposed parallel algorithm takes advantage of the attractive topological qualities of the star graph in order to reduce the communication time involved in tasks such as pivoting, row/column interchanges, and pivot row and multipliers column broadcasts  相似文献   

14.
一类Toeplitz三对角方程组的一种分布式并行算法   总被引:3,自引:0,他引:3  
文中提出一类Toeplitz三对角方程组的一种分布式并行算法。该算法以系数矩阵的分解为基础,充分利用了系数矩阵结构的特殊性,算法因并行化而引入的冗余计算量非常少,算法的通信机制简单,通信量仅与处理 机台数p有关,与方程组规模n无关,算法具有很高的并行效率,理论分析和数值试验表明,其加速比Sp(n)→p(n→ ∞),此为线性加速比的理想情况。文中给出了算法在分布存储多计算机系统上的数值试验结果。  相似文献   

15.
Improving scheduling of tasks in a heterogeneous environment   总被引:1,自引:0,他引:1  
Optimal scheduling of parallel tasks with some precedence relationship, onto a parallel machine is known to be NP-complete. The complexity of the problem increases when task scheduling is to be done in a heterogeneous environment, where the processors in the network may not be identical and take different amounts of time to execute the same task. We introduce a task duplication-based scheduling algorithm for network of heterogeneous systems (TANH), with complexity O(V/sup 2/), which provides optimal results for applications represented by directed acyclic graphs (DAGs), provided a simple set of conditions on task computation and network communication time could be satisfied. The performance of the algorithm is illustrated by comparing the scheduling time with an existing "best imaginary level scheduling (BIL)" scheme for heterogeneous systems. The scalability for a higher or lower number of processors, as per their availability is also discussed. We have shown to provide substantial improvement over existing work on the task duplication-based scheduling algorithm (TDS).  相似文献   

16.
在简化方法的基础上,提出了在MIMD模型上采用异步通信模式求解模糊线性方程组的分布式并行分割算法,算法有效地平衡了负载,并分析了算法的时间复杂性和通信复杂性。  相似文献   

17.
广义共轭余差法是一种用于求解非对称线性方程组的有效算法。为减少算法中的全局通信,首创性地提出了“通信避免的广义共轭余差法”,避免了迭代过程中的全局通信,使算法中的全局通信总次数降低了一个数量级,同时减少了约50%的计算量(计算量的具体减少比例与计算规模相关)。大规模测试中(最大16?384进程),新算法最高达到了原算法3倍的运算速率。进一步分析表明,新算法在各种并行规模下的运算速率和可扩展性都优于原算法。在较小并行规模下,新算法的优势主要来源于计算量的减少。在较大并行规模下,新算法的优势主要来源于全局通信量的减少。  相似文献   

18.
Performance of a parallel algorithm on a parallel machine depends not only on the time complexity of the algorithm, but also on how the underlying machine supports the fundamental operations used by the algorithm. This study analyzes various mappings of image correlation algorithms in SIMD, MIMD, and mixed-mode environments. Experiments were conducted on the Intel Paragon, MasPar MP-1, nCUBE 2, and PASM prototype. The machine features considered in this study include: modes of parallelism, communication/computation ratio, network topology and implementation, SIMD CU/PE overlap, and communication/computation overlap. Performance of an implementation can be enhanced by using algorithmic techniques that match the machine features. Some algorithmic techniques discussed here are additional communication versus redundant computation, data block transfers, and communication/computation overlap. The results presented are applicable to a large class of image processing tasks. Case studies, such as the one presented here, are a necessary step in developing software tools for mapping an application task onto a single parallel machine and for mapping the subtasks of an application task, or a set of independent application tasks, onto a heterogeneous suite of parallel machines.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号