首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
鞍点梯度法、鞍点共轭梯度法   总被引:5,自引:0,他引:5  
本文根据文献[1]、[2]、[3]所提出的鞍点逼近算法,提出两种新型算法。这两种算法有如下重要意义。①将计算鞍点问题转化为求二次极值问题;②用新方法计算鞍点可以在有限步达到最优解;③用新方法求解线性规划问题具有多项式算法性质;④引出差梯度的新概念。  相似文献   

2.
多用户检测是第三代移动通信系统中宽带CDMA通信系统抗干扰的关键技术。提出了一种基于共轭梯度算法多用户检测的可实现方案,降低了计算复杂度,提高了收敛速度,又可以做到较低成本的物理实现。同时,介绍了一种基于这种算法的系统实现方案。  相似文献   

3.
为了快速得到高质量的重建图像,提出了对称共轭梯度法成像算法,大大缩减了迭代次数,同时,将ERT物理模型进行规范化和Tikhonov正则化处理,进而将QR分解的思想引入ERT方程的求解中,提出基于QR分解的对称共轭梯度算法,实现了单步图像重建.理论分析表明,该算法具有良好的收敛性.通过典型流型的仿真实验,证明了该算法可以...  相似文献   

4.
不完全Cholesky分解预条件共轭梯度(incomplete Cholesky factorization preconditioned conjugate gradient, ICCG)法是求解大规模稀疏对称正定线性方程组的有效方法.然而ICCG法要求在每次迭代中求解2个稀疏三角方程组,稀疏三角方程组求解固有的串行性成为了ICCG法在GPU上并行求解的瓶颈.针对稀疏三角方程组求解,给出了一种利用GPU加速的有效方法.为了增加稀疏三角方程组求解在GPU上的多线程并行性,提出了对不完全Cholesky分解产生的稀疏三角矩阵进行分层调度(level scheduling)的方法.为了进一步提高稀疏三角方程组求解的并行性能,提出了在分层调度前通过近似最小度(approximate minimum degree, AMD)算法对系数矩阵进行重排序、在分层调度后对稀疏三角矩阵进行层排序的方法,降低了分层调度过程中产生的层数,优化了稀疏三角方程组求解的GPU内存访问模式.数值实验表明,与利用NVIDIA CUSPARSE实现的ICCG法相比,采用上述方法性能可以获得平均1倍以上的提升.  相似文献   

5.
共轭梯度法是为求解线性方程组而独立提出的一种常用的数值计算方法,被广泛地应用于天气动力、物理海洋等数值计算中,其复杂的矩阵计算产生巨大工作量,成为业务化应用过程中的计算瓶颈。利用OpenMP共享并行技术,将大量计算并行化,实现基于OpenMP的共轭梯度法并行加速,为共轭梯度法的广泛应用提供了新的计算解决方案。  相似文献   

6.
研究了基于GPU的稀疏线性方程组的预条件共轭梯度法加速求解问题,并基于统一计算设备架构(CUDA)平台编制了程序,在NVIDIAGT430 GPU平台上进行了程序性能测试和分析。稀疏矩阵采用压缩稀疏行(CSR)格式压缩存储,针对预条件共轭梯度法的算法特性,研究了基于GPU的稀疏矩阵与向量相乘的性能优化、数据从CPU端传到GPU端的加速传输措施。将编制的稀疏矩阵与向量相乘的kernel函数和CUSPARSE函数库中的cusparseDcsrmv函数性能进行了对比,最优得到了2.1倍的加速效果。对于整个预条件共轭梯度法,通过自编kernel函数来实现的算法较之采用CUBLAS库和CUSPARSE库实现的算法稍具优势,与CPU端的预条件共轭梯度法相比,最优可以得到7.4倍的加速效果。  相似文献   

7.
提出了一种分析频谱的新方法,其主要思想是采用共轭梯度法训练傅里叶基神经网络权值,根据权值获得信号的幅度谱和相位谱,并给出了基于Matlab语言的频谱分析应用实例。仿真结果表明,与FFT相比,该方法具有计算精度高,计算速度快以及滤除噪声的功能。  相似文献   

8.
鞍点共轭梯度法在解LP问题中的应用   总被引:2,自引:0,他引:2  
  相似文献   

9.
共轭梯度法是最优化课程中一个比较典型的寻找函数极小点的方法,Matlab软件是科研学习中的一个重要工具,本文尝试用Matlab软件研究共轭梯度算法,取得一定效果。  相似文献   

10.
11.
12.
焦良葆  陈瑞 《计算机工程》2010,36(18):10-12
GPU上的并行算法效率依赖于核函数在流多处理器上的平均运行效率,基于此,分析GPU核的执行方式,以及网格、线程块和线程之间的关系,采用细化核函数的方法将光线跟踪算法进行细化。实验结果证明,核的大小设置和分布方向影响了线程块内部的一致性,核函数的细化能增加线程块中同时运行的线程捆的数量。  相似文献   

13.
针对图形处理器三维引擎中对图形的后期处理需求,实现片段写入帧缓冲区前的测试、混合、逻辑操作、累积、清除和屏蔽等关键功能。分析并提取了OpenGL核心库中的片段处理相关函数,确定了片段处理单元要实现的功能;合理安排多个片段处理功能的执行顺序,设计了基于流水线的片段处理单元结构;采用Verilog HDL对电路进行描述,采用 Cadence NC-Verilog 仿真工具进行虚拟验证,采用 Xilinx 的 ISE 工具进行综合,并在 Xilinx Virtex6 XC6VLX760 FPGA上进行原型验证,电路工作频率可以达到180 MHz,测试功能正确。在SMIC 65 nm CMOS工艺下,采用Synopsys Design-Compiler对设计进行综合,电路工作频率达到300 MHz,满足设计需求。  相似文献   

14.
雅可比迭代法是求解大型线性方程组的基本方法。利用GPU(Graphics Processing Unit,图形处理器)的并行处理能力,将雅可比迭代求解线性方程组过程中运算量较大的部分移植到GPU上执行,以提高运算速度。并分析了影响运算速度的两个因素:CPU-GPU数据交换和共享变量的访问;实验结果表明采用单个thread访问共享变量判断迭代是否收敛时,线性方程组的阶数为500,速度可以提高45倍以上。  相似文献   

15.
K-近邻计算在数据集规模较大时计算复杂度较高,因此,利用图形处理器( GPU )强大的并行计算能力对K-近邻算法进行加速。在分析现有K-近邻算法的基础上,针对该算法时间开销过大的问题,结合GPU的体系结构特征实现基于GPU的K-近邻算法。利用全局存储器的合并访问特性,提高GPU全局存储器访问数据的效率,通过事先过滤数据的方法来减少参与排序的数据量,进而减少排序阶段的线程串行化时间。在 KDD, Poker, Covertype 3个数据集上进行实验,结果表明,该实现方法在距离计算阶段每秒执行的浮点运算次数为266.37×109次,而排序阶段为26.47×109次,优于已有方法。  相似文献   

16.
QR分解作为一个基本计算模块,广泛应用在图像处理、信号处理、通信工程等众多领域.传统的并行QR分解算法只能挖掘计算过程中的数据级并行.在分析快速Givens Rotation分解特征的基础上,提出了一种多层次并行算法,能够同时挖掘计算过程中的任务级并行和数据级并行,非常适合于以图形处理器(GPU)为代表的大规模并行处理器.同时,采用GPU的并行QR分解算法可以作为基本运算模块被GPU平台上的众多应用程序直接调用.实验结果显示,与CPU平台上使用OpenMP实现的算法相比,基于GPU的多层次并行算法能够获得5倍以上的性能提升,而调用QR分解模块的奇异值分解(SVD)应用可以获得3倍以上的性能提升.  相似文献   

17.
GPU图像处理的FFT和卷积算法及性能分析   总被引:2,自引:0,他引:2       下载免费PDF全文
图像滤波器是当前绝大多数图像处理软件中的重要组成部分;然而,图像滤波对于计算量的要求是巨大的,为了加强图像处理软件的人机交互性能,使用GPU(可编程图形处理器)来加速图像滤波,是一个很好的选择。讨论了在GPU上两种图像处理工具的实现:频域上的快速傅立叶变换和空间域上的卷积运算,并评估了这两种工具在GPU上的性能表现。卷积运算在一般情况下表现出来比FFT更好的性能;并同时讨论了在FFT运算有更佳性能的情况。  相似文献   

18.
硅各向异性腐蚀过程复杂,采用元胞自动机模拟硅各向异性腐蚀非常耗时。为了加速腐蚀模拟过程,研究了基于图形处理器(GPU)进行硅的各向异性腐蚀模拟。针对串行算法直接并行化方法存在加速效率低等问题,提出了一个改进的并行模拟方法。该方法增加了并行部分的负载,减少了内存管理的开销,从而提高了加速性能。实验证明该方法能够获得较理想的加速比。  相似文献   

19.
基于GPU的遥感影像数据融合IHS变换算法   总被引:4,自引:1,他引:4       下载免费PDF全文
提出基于图形处理单元(GPU)的遥感影像IHS融合算法,利用图形硬件的可编程渲染器和其处理数据的并行性,把IHS的正反变换映射到GPU中进行计算。应用RTT和MRT技术实现IHS正反变换中3个分量的并行渲染输出,加速计算过程。实验结果表明,在数据量较大时,该算法的处理速度比基于CPU的算法速度更快。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号