首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 296 毫秒
1.
闫昊  刘芳芳  马文静  陈道琨 《软件学报》2023,34(7):3451-3463
稠密矩阵乘法(GEMM)是很多科学与工程计算应用中大量使用的函数,也是很多代数函数库中的基础函数,其性能高低对整个应用往往有决定性的影响.另外,因其计算密集的特点,矩阵乘法效率往往也是体现硬件平台性能的重要指标.针对国产申威1621处理器,对稠密矩阵乘法进行了系统性地优化.基于对各部分开销的分析,以及对体系结构特点与指令集的充分利用,对DGEMM函数从循环与分块方案,打包方式,核心计算函数实现,数据预取等方面进行了深入优化.此外,开发了代码生成器,为不同的输入参数生成不同版本的汇编代码和C语言代码,配合自动调优脚本,选取最佳参数.经过优化和调优,单线程DGEMM性能达到了单核浮点峰值性能的85%,16线程DGEMM性能达到16核浮点峰值性能的80%.对DGEMM函数的优化不仅提高了申威1621平台BLAS函数库性能,也为国产申威系列多核处理器上稠密数据计算优化提供了重要参考.  相似文献   

2.
细粒度任务并行GPU通用矩阵乘   总被引:1,自引:0,他引:1       下载免费PDF全文
稠密线性代数运算对模式识别和生物信息等许多实际应用至关重要,而通用矩阵乘(GEMM)处于稠密线性代数运算的基础地位。在cuBLAS与MAGMA中,GEMM被实现为若干kernel函数,对大型GEMM计算能够达到很高的性能。然而,现有实现对批量的小型GEMM计算性能发挥则较为有限。而且,现有实现也不能在多个具有不同性能的GPU之间自动扩展并达到负载均衡。提出任务并行式GEMM(TPGEMM),用细粒度任务并行的方式实现批量矩阵乘和多GPU矩阵乘。一个或多个GEMM的计算能够被拆分为多个任务,动态地调度到一个或多个GPU上。TPGEMM避免了为批量矩阵乘启动多个kernel函数的开销,对批量矩阵乘能够取得显著高于cuBLAS与MAGMA的性能。在低开销细粒度任务调度的基础上,TPGEMM支持单个GEMM计算在多个GPU间的自动并行,在一台具有四个不同性能GPU的工作站上取得了接近100%的扩展效率。  相似文献   

3.
针对GPU并行计算领域缺少精确的性能分析模型和有针对性的性能优化方法,提出一种基于GPU的并行计算性能定量分析模型,其通过对指令流水线、共享存储器访存、全局存储器访存的性能建模,来定量分析并行程序,帮助程序员找到程序运行瓶颈,进行有效的性能优化。实验部分通过3个具有代表性的实际应用(稠密矩阵乘法、三对角线性方程组求解、稀疏矩阵矢量乘法)的性能分析证明了该模型的实用性,并有效地实现了算法的优化。  相似文献   

4.
矩阵乘法作为高性能计算中的关键组成部分,是一种具有计算和访存密集特点的典型应用,因此优化矩阵乘法的性能对通用处理器是非常重要的.为了提高矩阵乘法的性能,本文提出了一种性能模型,用于预测通用处理器上矩阵乘法的执行时间.该模型反映了矩阵乘法执行时间与通用处理器的运算部件、访存带宽、寄存器个数等结构参数之间的关系,可以指导处理器结构的优化来平衡计算和访存能力、提高执行速度.基于该模型本文给出了在一个优化的通用处理器结构中,寄存器个数和访存带宽应满足的理论下界.本文在Godson-3B处理器平台上对该性能模型进行了验证,实验结果表明矩阵乘法执行时间的预测精确度达到95%以上.基于该模型,本文还提出了一种对Godson-3B结构进行优化的方法,使矩阵乘法的执行时间减少了50%左右.  相似文献   

5.
针对FPGA高级综合中提高矩阵存储并行的问题, 提出了一种基于数组分块的编译优化算法, 用来优化以矩阵乘法为代表的矩阵应用。算法在LLVM编译器架构下对访存密集的数组进行分块, 然后对迭代空间进行对应的合并, 最后修改迭代空间与数据空间之间的数据访问。与AutoESL循环展开算法的实验对比表明, 在分块数目最优的情况下, 矩阵乘法电路的延时平均被降低46%, 资源平均被降低39%。因而该基于数组分块的高级综合编译优化算法能有效降低电路延时和资源使用量。  相似文献   

6.
图像检测、识别任务已经被应用在越来越多的生产生活场景中,基于卷积神经网络的方法凭借着精度高的特点被广泛应用.但是卷积神经网络存在着权重参数多、对算力要求高的问题,算力有限且型号多样的边缘计算设备使得这些应用在使用中受限.在跨平台上运行高性能代码,以及基于GPU的卷积神经网络优化愈发重要.针对卷积神经网络中的卷积规模和其他通用矩阵乘(general matrix multiplication, GEMM)方法的不足,根据分块规模、分支执行、访存和计算比例,提出了一种针对卷积神经网络规模优化的GEMM优化方法,将其应用于Winograd算法,并结合算子合并,实现对卷积进一步优化.同时基于遍历的自调优选择性能最优的卷积算子,结合离线编译、内存池、16 b量化、网络规模裁剪等方法,来提升卷积神经网络的性能.最后在AMD V1605B平台上进行实验验证算法的效果,通过和其他GEMM算法以及深度学习网络的性能进行对比,验证了该方法能够获得比GEMM算法和Winograd算法更好的加速效果,并能有效地加速卷积神经网络.  相似文献   

7.
为了实现对航空发动机传感器稳态性能参数的精准运算,达到精准仿真分析航空发动机传感器稳态特性的目的,研究基于多目标遗传算法的航空发动机传感器稳态特性仿真分析模型。构建航空发动机传感器稳态特性数学仿真分析模型,运用多目标遗传算法经选择操作、交叉操作、变异操作及个体适应度函数值求取等,选出最优组合参数,完成对所构建仿真分析模型的修正,获得修正仿真分析模型,完成稳态特性仿真分析。实验结果表明,该模型修正过程收敛速度高,具有较高的航空发动机传感器稳态性能参数运算精度,针对不同稳态工况下的航空发动机传感器性能参数运算误差始终低于2%,具有稳定且精准的稳态特性仿真分析性能。  相似文献   

8.
考虑物流网络需求的不确定性,利用区间参数度量不确定性变量与参数,建立区间需求模式下的物流网络双层规划模型,设计了一种含区间参数与变量的递阶优化遗传算法,通过定义问题求解的风险系数与最大决策偏差,给出适合物流网络结构的区间运算准则,实现模型的确定性转化。以区间松弛变量与0-1决策变量定义初始种群,通过两阶遗传操作运算,求解不同情景下双层规划目标的区间最优解与节点决策方案。算例测试表明算法求解的可操作性更强,求解结果具有区间最优解与情景决策的优越性。  相似文献   

9.
矩阵乘法运算作为计算机科学和数学的一个基本运算,在科学研究和工程计算中有着广泛的应用。确定2个矩阵乘积所需要的最小乘法数是当今计算机代数中一直未能求解的重要问题之一。通过将矩阵乘法问题建模为一个组合优化问题,采用人工蜂群启发式搜索算法进行矩阵乘法问题求解。对人工蜂群算法进行了改进,给出一种绕圈遍历方法,避免了对同一个解的相同邻域的重复搜索。通过在2×2矩阵乘法问题上的数值实验验证了算法的有效性,所提算法能够快速地找到2×2矩阵分解的乘积方法。  相似文献   

10.
基于外点法的混合遗传算法求解约束优化问题   总被引:2,自引:0,他引:2  
刘伟  刘海林 《计算机应用》2007,27(1):216-218
提出了一种求解约束优化问题的混合遗传算法。它不是传统的在适应值函数中加一个惩罚项,而是在初始种群、交叉运算和变异运算过程中,把违反约束条件的个体用外点法处理设计出新的实数编码遗传算法。数值实验证明,新算法性能优于现有其他进化算法,是通用性强、高效稳健的方法。该方法兼顾了遗传算法和外点法的优点,既有较快的收敛速度,又能以非常大的概率求得约束优化问题全局最优解。  相似文献   

11.
This paper proposes a stochastic approach for optimization of control parameters ( probabilities of crossover and mutation ) in genetic algorithms ( GAs ) . The genetic search can be modelled as a controlled Markovian process, the transition of which depends on the control parameters. A stochastic optimization problem is formed for control of GA parameters, based on a given performance index of populations and analysed as a controlled Markovian process during the genetic search. The optimal values of control parameters can be found from a recursive estimation of control parameters, which is obtained by introducing a stochastic gradient of the performance index and using a stochastic approximation algorithm. The algorithm possesses the capability of finding the stochastic gradient and adapting the control parameters in the direction of descent. A non-stationary Markov model is developed to investigate asymptotic convergence properties of the proposed genetic algorithm. It is proved that the proposed genetic algorithm would asymptotically converge. Numerical results based on the classical functions are obtained to show the potential of the proposed algorithm.  相似文献   

12.
高压直流输电技术以其大容量远距离输电、交流系统之间的异步互联、传输功率快速可控等优点在我国得到了广泛应用,高压直流系统的控制参数直接影响到直流输电系统的运行特性,因此对高压直流系统控制参数的优化显得尤为重要。本文以传统高压直流系统为研究对象,以MATLAB/SIMULINK为仿真平台,基于采用简单记忆法策略,即在每代寻优结束后,将最优个体保留在适应度最低的个体的位置方法对传统遗传算法进行改进,并采用改进后的遗传算法对高压直流控制参数进行优化。应用MATLAB将遗传算法和高压直流系统模型相结合进行仿真,通过多次迭代得到优化的控制器参数。同时,将优化后的控制器参数与原始参数的鲁棒性进行比较,证明了控制器参数优化的必要性以及遗传算法优化控制器参数的可行性和优越性。  相似文献   

13.
程静  邱玉辉 《计算机科学》2012,39(1):215-218
在复杂非线性多目标优化问题求解中,非线性模型结构很难事先给定,需要检验的参数也非常繁多,应用传统的建模方法和优化模型已难以解决更为复杂的现实问题。人工神经网络技术为解决复杂非线性系统建模问题提供了一条新的途径。将神经网络响应面作为目标函数或者约束条件,加上其他常规约束条件进行系统模型的建立,再应用遗传算法进行优化,从而实现设计分析与设计优化的分离。以某化工企业的生产过程优化问题为例,利用BP神经网络建立了工艺参数与性能目标之间的模型,然后利用遗传算法搜索最优工艺参数,获取了用于指导生产的样本点数据。研究结果表明,该方法能够获得高精度的多目标优化模型,从而使优化效率大为提高。  相似文献   

14.
以混合动力汽车传动系统参数与控制策略参数为优化变量,以最小燃油消耗和尾气排放量(CO+HC+NOx)为优化目标,以动力性能与电池荷电状态平衡作为约束条件,建立多目标优化模型,并使用权重系数法将多目标函数优化问题转化为单目标问题。提出了基于免疫遗传算法优化混合动力汽车参数的优化方法,该算法采用实数编码,通过调用ADVISOR的后台函数,建立联合优化仿真模型。仿真结果表明,该算法可有效降低车辆的燃油消耗,减少CO与HC排放量,能够较好地解决带有约束的混合动力汽车的多目标多参数优化问题,可以获得一组具有低油耗与低污染物排放的传动系统与控制策略参数,供决策者选择。  相似文献   

15.
神经架构搜索(neural architecture search,NAS)技术自动寻找神经网络中各层的最佳组合和连接方式,以及各种超参数的最佳分布。该方法从搜索空间生成若干不同的卷积神经网络(CNN),使用混合粒子群优化(hybrid particle swarm optimization,HPSO)算法,将一定数目的神经网络个体视做一个群体,将每个网络个体在评价指标下的表现值视做适应度,在给定的世代数范围内,每个神经网络个体都学习自身的历史最佳适应度个体,和整个群体的最佳适应度个体,迭代改善自身的网络架构。实验结果表明,算法运行中出现的最优网络架构,在图像分类任务的多个基准数据集上,与手工设计的神经网络和以遗传算法为基础的NAS算法相比,在网络参数数量和准确率的平衡上取得了有竞争力的结果。  相似文献   

16.
经典粒子群算法是在连续的解空间里进行的,粒子的方向、速度的确定采用的是二维空间的运算法则,不适合在N维空间里进行,而3D-NOC映射问题面对的是N维离散解空间。对此,提出一种改进的粒子群算法以及相应的算法评估模型。该算法通过引入非支配解(Pareto解)的概念对粒子群算法进行改进,使得算法不仅可以对多个评估模型参数同时优化,而且可以依据实际的应用对单个评估模型参数进行优化。仿真实验结果表明,该算法在单个评估模型且同等计算规模下对比随机映射性能有显著的提升,在降低运算规模方面有很好的优化能力,且在多模型下取得的综合最优解比之相应的单独评估模型下的最优解只有很小的下降。  相似文献   

17.
智能优化算法及其在打浆优化中的应用   总被引:1,自引:0,他引:1  
提出了一种遗传算法与神经网络技术相结合的智能优化算法,实现打浆过程的优化控制;首先针对打浆过程中系统的非线性、工艺参数间关系的不确定性,对打浆过程采用神经网络建立输入与输出之间的非线性模型,再利用遗传算法对控制参数寻求决策变量优化求解;通过改进遗传算法的交叉、变异算子等,使算法在优化过程中能有效地保持种群的多样性,防止种群过早收敛、局部收敛的现象,以实现打浆全局最优控制;实践表明,该智能优化算法,在满足打浆前后性能指标的同时明显降低了打浆能耗,是解决过程控制优化问题的可行之路。  相似文献   

18.
针对水面无人艇(USV)的航迹控制问题,提出了一种由视线导向法和多种群遗传算法整定的PID航向控制器组成的航迹跟踪控制方法.该方法采用多种群遗传算法克服了传统遗传算法容易陷入局部最优的问题,增强了算法的全局寻优能力;并根据模型特点改进了适应度函数,使得对控制器性能的评价更加合理.与标准遗传算法和粒子群算法的对比仿真表明,多种群遗传算法在PID参数整定方面寻优能力更强、稳定性更高;同时,整定出的PID控制器针对不同的模型参数,均表现出收敛速度快、无超调、无稳态误差的优良特性.航迹仿真结果表明,设计的航迹控制方法能够有效跟踪给定航迹.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号