首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 68 毫秒
1.
Cholesky分解递归算法与改进   总被引:10,自引:0,他引:10  
递归算法是计算稠密线性代数的一种新的有效方法。递归产生自动、变化的矩阵分块,能充分发挥当今分级存储高性能计算机的效率。对Cholesky分解递归算法进行了研究,给出了算法的详细推导过程,用具有递归功能的Fortran90实现了算法,并通过矩阵元素顺序重排的方法,进一步提高了递归算法的运算速度。研究产生的算法比目前常用的分块算法快15%-25%。  相似文献   

2.
不完全Cholesky分解预条件共轭梯度(incomplete Cholesky factorization preconditioned conjugate gradient, ICCG)法是求解大规模稀疏对称正定线性方程组的有效方法.然而ICCG法要求在每次迭代中求解2个稀疏三角方程组,稀疏三角方程组求解固有的串行性成为了ICCG法在GPU上并行求解的瓶颈.针对稀疏三角方程组求解,给出了一种利用GPU加速的有效方法.为了增加稀疏三角方程组求解在GPU上的多线程并行性,提出了对不完全Cholesky分解产生的稀疏三角矩阵进行分层调度(level scheduling)的方法.为了进一步提高稀疏三角方程组求解的并行性能,提出了在分层调度前通过近似最小度(approximate minimum degree, AMD)算法对系数矩阵进行重排序、在分层调度后对稀疏三角矩阵进行层排序的方法,降低了分层调度过程中产生的层数,优化了稀疏三角方程组求解的GPU内存访问模式.数值实验表明,与利用NVIDIA CUSPARSE实现的ICCG法相比,采用上述方法性能可以获得平均1倍以上的提升.  相似文献   

3.
在阵列信号抗干扰算法中,常常需要求解协方差矩阵的逆矩阵。Cholesky分解利用了协方差矩阵的厄米特(Hermitian)正定的特性,大大简化了矩阵求逆运算的计算量。论文介绍了Cholesky分解数学原理,并提出了一种适合FPGA实现的结构。基于浮点数的算法实现相比传统的定点数,大大提高了结果的精度。由于Cholesky分解需要涉及浮点数的开方运算,论文引入了平方根倒数法来提高开方运算的速度。通过仿真与实测,选取了最优的资源与速度的实现方案。  相似文献   

4.
稀疏矩阵Cholesky分解是求解大规模稀疏线性方程组的核心算法,也是求解过程中最耗时的部分.近年来,一系列并行算法通过图形处理器(GPU)获得了显著的加速比,然而,由于访存的不规则性以及任务间的大量数据依赖关系,稀疏矩阵Cholesky分解算法在GPU上的计算效率很低.文中实现了一种新的基于GPU的稀疏矩阵Cholesky分解算法.在数据组织方面,改进了稀疏矩阵超节点数据结构,通过超节点合并和分块控制计算粒度;在计算调度方面,将稀疏矩阵Cholesky分解过程映射为一系列的数据块任务,并设计了相应的任务生成与调度算法,在满足数据依赖性的前提下提高任务的并行性.实验结果表明,该算法能够显著提高稀疏矩阵Cholesky分解算法在GPU上的实现效率,在单个GPU上获得了相对4核CPU平台2.69~3.88倍的加速比.  相似文献   

5.
核外计算中,由于磁盘I/O操作特点是启动开销大,所以对文件的访问时间占的比例较大。如果能减少读取文件操作的次数则可以大幅度地提高运行效率。数据重用是一种有效的减少I/O操作次数的技术。本文将数据分成几个文件,然后将本次Cholesky分解完毕的文件继续的留在内存缓冲区中。当对下一个文件进行分解时,可用上一个刚分解完的文件进行数据的更新。这样就减少了读取数据的I/O操作次数,从而提高了分解效率。  相似文献   

6.
沈雁  戴瑜兴 《计算机工程》2019,45(2):284-289
在OpenCL并行计算框架的clMAGMA库中,Cholesky分解算法采用大尺寸分块并行方法,不能充分利用GPU的高速局部存储器,且在计算过程中存在多次GPU-CPU间的数据传递。为此,提出采用小尺寸分块并行方法,充分利用GPU中的高速局部存储器,使矩阵子块的逆矩阵得到复用,完成对称正定矩阵的高效Cholesky分解,并且其能够应用于三维视觉光束平差问题中的大型正定矩阵的分解。实验结果表明,该方法的Cholesky分解速度比clMAGMA提升50%以上,针对光束平差问题,比Ceres Solver中使用的Eigen库速度提升约38倍。  相似文献   

7.
针对大型实对称正定矩阵的Cholesky分解问题,给出其在图形处理器(GPU)上的具体实现。详细分析了Volkov计算Cholesky分解的混合并行算法,并在此基础上依据自身计算机的CPU以及GPU的计算性能,给出一种更为合理的三阶段混合调度方案,进一步减少CPU的空闲时间以及避免GPU空闲情况的出现。数值实验表明,当矩阵阶数超过7000时,新的混合调度算法相比标准的MKL算法获得了超过5倍的加速比,同时对比原Volkov混合算法获得了显著的性能提升。  相似文献   

8.
稀疏线性方程组不完全分解预条件方法   总被引:3,自引:1,他引:2  
稀疏线性方程组的高效求解在科学计算与工程应用中起着十分重要的作用。本文系统介绍一般稀疏线性方程组和块三对角线性方程组的不完全预条件构造技术,同时介绍我们提出的多行双门槛不完全分解预条件子MRILUT和局部块不完全分解预条件子LBF2(l)构造方法,并将它们应用于二维三温能量方程组的离散求解与二维Laplace微分方程的离
离散求解中,取得了满意的结果。  相似文献   

9.
针对Cholesky分解算法采用OpenMP并行程序设计时的并行性开销增大和线程负载不平衡的问题,利用并行性能分析工具对串行程序进行热点分析,提出了一种基于任务的Cholesky分解多核并行算法。该算法将大循环问题划分成各个相互独立的小任务,并运用任务窃取技术和动态负载均衡算法使多个任务能够并行完成。采用ParallelAmplifier对并行程序进行调试和优化,实验结果表明,其性能得到较大幅度的提升。  相似文献   

10.
核外计算中,由于I/O操作速度比较慢,所以对文件的访阿时间占的比例较大.如果使文件操作和计算重叠则可以大幅度地提高运行效率.软件数据预取是一种有效的隐藏存储延迟的技术,通过预取使数据在实际使用之前从硬盘读到缓存中,提高了缓存(cache)的命中率,降低了读取数据的时间.通过设置两个缓冲区来轮流存放本次和下一次读入的数据块,实现访存完全命中cache的效果,使Cholesky分解并行程序执行核外计算的效率得到了大幅度的提高.同时,I/O操作的时间与CPU的执行时间的比例也是影响效率的主要因素.  相似文献   

11.
    
In this paper, we propose an efficiently preconditioned Newton method for the computation of the leftmost eigenpairs of large and sparse symmetric positive definite matrices. A sequence of preconditioners based on the BFGS update formula is proposed, for the preconditioned conjugate gradient solution of the linearized Newton system to solve Au=q(u) u, q(u) being the Rayleigh quotient. We give theoretical evidence that the sequence of preconditioned Jacobians remains close to the identity matrix if the initial preconditioned Jacobian is so. Numerical results onto matrices arising from various realistic problems with size up to one million unknowns account for the efficiency of the proposed algorithm which reveals competitive with the Jacobi–Davidson method on all the test problems.  相似文献   

12.
由两个特征对构造正定Jacobi矩阵   总被引:11,自引:0,他引:11  
132 数值计算与计算机应用2002 it巨1.引言具有如下形状的实对称矩阵:ldl hi Ibid。。6,l人=I”.”·.’·.I 门)16、_,tL、_fo、_11 b、;_IG、l称为n阶实对称三对角矩阵.若人还满足:(a)b;>  相似文献   

13.
In this study, we discover the parallelism of the forward/backward substitutions (FBS) for two cases and thus propose an efficient preconditioned conjugate gradient algorithm with the modified incomplete Cholesky preconditioner on the GPU (GPUMICPCGA). For our proposed GPUMICPCGA, the following are distinct characteristics: (1) the vector operations are optimized by grouping several vector operations into single kernels, (2) a new kernel of inner product and a new kernel of the sparse matrix–vector multiplication with high optimization are presented, and (3) an efficient parallel implementation of FBS on the GPU (GPUFBS) for two cases are suggested. Numerical results show that our proposed kernels outperform the corresponding ones presented in CUBLAS or CUSPARSE, and GPUFBS is almost 3 times faster than the implementation of FBS using the CUSPARSE library. Furthermore, GPUMICPCGA has better behavior than its counterpart implemented by the CUBLAS and CUSPARSE libraries.  相似文献   

14.
15.
For symmetric indefinite linear systems, we introduce a new triangular preconditioner based on symmetric and triangular (ST) decomposition. A new (1, 1) block is obtained by augmented Lagrangian technique. The new ST preconditioner is introduced by the combination of the new (1, 1) block and symmetric and triangular (ST) decomposition. Then a preconditioned system can be obtained by preconditioning technique, which is superior to the original system in terms of condition number. We study the spectral properties of preconditioned system, such as eigenvalues, the estimation of condition number and then give the quasi-optimal parameter. Numerical examples are given to indicate that the new preconditioner has obvious efficiency advantages. Finally, we conclude that the new ST preconditioner is a better option to deal with large and sparse problems.  相似文献   

16.
对称正定矩阵的并行LDLT分解算法实现   总被引:1,自引:0,他引:1  
基于网络机群这一新的并行环境和消息传递界面MPI给出了两种不带平方根的Cholesky并行分解算法,算法采用行卷帘存储方案和提前发送策略,从而减少了负载的不平衡,增加了计算通信的重叠,减少了通信时间。理论分析和数值试验均表明,算法具有较高的并行加速比和效率。  相似文献   

17.
通过对Cholesky分解法求解线性方程组的分析,建立Cholesky分解法三角化对称正定阵的图模型,并基于该模型及Mesh结构P/G网络的自身特点,提出一个P/G网快速分析算法.实验证明,该算法能大大降低Mesh结构P/G网络的分析运算时间和内存占用.  相似文献   

18.
《国际计算机数学杂志》2012,89(14):3111-3137
Reconstruction of three dimensional (3D) object structure from multiple images is a fundamental problem in computational vision. Many applications in computer vision require the use of structure information of 3D objects. The objective of this work is to develop a stable method of 3D reconstruction of an object, which works without the availability of camera parameters, once the plane at infinity is obtained using the approximate scene information. First, a framework has been designed based on a modification of the auto-calibration procedure for 3D structure computation using singular value decomposition. In the second part of the work, ambiguities present at the various stages of 3D reconstruction have been analysed. Error norms have been proposed, and studied to quantify the ambiguity in the reconstruction process. We attempt to analyse the effect of pose difference between camera views and focal length parameters on the reconstruction process, using experimentation with simulated and real-world data.  相似文献   

19.
正则化路径算法是数值求解支持向量机 (support vector machine, SVM)分类问题的有效方法,它可在相当于一次SVM求解的时间复杂度内得到所有的正则化参数及对应SVM的解.现有的SVM正则化路径算法或者不能处理具有重复数据、近似数据或线性相关数据,或者计算开销较大.针对这些问题,应用正定矩阵方程组求解方法来求解SVM正则化路径,提出正定矩阵SVM正则化路径算法(positive definite SVM path, PDSVMP).PDSVMP算法将迭代方程组的系数矩阵转换为正定矩阵,并采用Cholesky分解方法求解路径上各拐点处Lagrange乘子增量向量;与已有算法中直接求解正则化参数不同,该算法根据活动集变化情况确定参数增量,并在此基础上计算正则化参数,这样保证了理论正确性和数值稳定性,并可降低计算复杂性.实例数据集及标准数据集上的实验表明,PDSVMP算法可正确处理包含重复数据、近似数据或线性相关数据的数据集,并具有较高的计算效率.  相似文献   

20.
王锐  吴小俊 《软件学报》2018,29(12):3786-3798
在基于图像集的流形降维问题中,许多算法的核心思想都是把一个高维的流形直接降到一个维数相对较低、同时具有的判别信息更加充分的流形上.投影度量学习(projection metric learning,简称PML)是一种Grassmann流形降维算法.该算法是基于投影度量,并且使用RCG(Riemannian conjugate gradient)算法优化目标函数,其在多个数据集上都取得了较好的实验结果,但是对于复杂的人脸数据集,如YTC其实验结果相对较差,只取得了66.69%的正确率.同时,RCG算法的时间效率较差.基于上述原因,提出了基于切空间判别学习的流形降维算法.该算法首先对于PML中的投影矩阵添加扰动,使其成为对称正定(symmetric positive definite,简称SPD)矩阵;然后,使用LEM(log-euclidean metric)将其映射到切空间中;最后,利用基于特征值分解的迭代优化算法构造判别函数,得到变换矩阵.对提算法在多个标准数据集上进行了实验验证,并取得了较好的实验结果,从而验证了该算法的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号

京公网安备 11010802026262号