首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 125 毫秒
1.
针对并行深度卷积神经网络算法在大数据环境下存在冗余特征计算过多、卷积运算性能不足和参数并行化合并效率低等问题,提出了基于Winograd卷积的并行深度卷积神经网络优化算法。首先,该算法提出基于余弦相似度与归一化互信息的特征过滤策略,通过先筛选后融合的方式消除了通道间对于冗余特征的计算,以此解决了冗余特征计算过多的问题;然后,结合MapReduce提出了并行Winograd卷积策略,通过使用并行化Winograd卷积运算替换传统卷积运算的方式来提升卷积运算的性能,以此解决了卷积运算性能不足的问题;最后,提出基于任务迁移的负载均衡策略,通过动态负载迁移的方式来均衡集群中各节点之间的负载,降低了集群总体的平均反应时长,以此解决了参数并行化合并效率低的问题。实验表明,WP-DCNN算法显著降低了DCNN在大数据环境下的训练代价,而且对并行DCNN的训练效率也有大幅提升。  相似文献   

2.

卷积作为深度学习中被频繁使用的关键部分,其并行算法的研究已成为高性能计算领域中的热门话题. 随着我国自主研发的申威26010众核处理器在人工智能领域的快速发展,对面向该处理器的高性能并行卷积算法提出了迫切的需求. 针对申威26010处理器的架构特征以及Winograd卷积算法的计算特性,提出了一种高性能并行卷积算法——融合Winograd卷积算法. 该算法不同于依赖官方GEMM(general matrix multiplication)库接口的传统Winograd卷积算法,定制的矩阵乘实现使得该算法的执行过程变得可见,且能够更好地适应现实中常见卷积运算. 整个算法由输入的Winograd变换、卷积核的Winograd变换、核心运算和输出的Winograd逆变换4部分构成,这4个部分并不是单独执行而是融合到一起执行. 通过实时地为核心运算提供需要的变换后数据,并将计算结果及时地逆变换得到最终的输出数据,提高了算法执行过程中的数据局部性,极大地降低了整体的访存开销. 同时,为该算法设计了合并的Winograd变换模式、DMA(direct memory access)双缓冲、片上存储的强化使用、输出数据块的弹性处理以及指令重排等优化方案. 最终的实验结果表明,在VGG网络模型的总体卷积测试中,该算法性能是传统Winograd卷积算法的7.8倍. 同时,抽取典型卷积神经网络模型中的卷积进行测试,融合Winograd卷积算法能够在所有的卷积场景中发挥明显高于传统Winograd卷积算法的性能. 其中,最大能够发挥申威26010处理器峰值性能的116.21%,平均能够发挥峰值性能的93.14%.

  相似文献   

3.
光电位置敏感传感器(PSD),特别是其B区存在非线性误差大、测量精度低的问题.针对现有神经网络校正方法的不足,提出一种基于思维进化计算(MEC)算法优化的神经网络校正模型.该方法首先应用MEC算法搜索最优神经网络初始权值和阈值,再利用LM算法训练BP神经网络,最后将训练好的神经网络用于PSD非线性校正.仿真实验结果表明,所提出的方法校正精度高,收敛速度快,泛化能力强,测试数据的平均误差被控制在0.005 mm以下.经过校正后的PSD在非线性区表现出与线性区相似的线性程度,提高了PSD的测量精度.  相似文献   

4.
强大的计算能力使得GPGPU在通用计算领域得到了广泛的应用。然而,GPGPU的SIMT(Single Instruction Multiple Threads)工作方式,使其执行效率受到应用中不一致分支行为(Branch Divergence)的严重影响。虽然人们提出了线程交换方法来减小分支带来的性能损失,但这种方法往往会引入额外的访存操作,不仅在一定程度上减少了线程交换优化的性能收益,还增加了功耗。首先举例说明线程交换范围对程序性能和功耗的影响;然后提出了一种减少线程交换所引入的额外访存操作的方法。实验表明,对于Reduction程序,当交换范围为256时,在性能平均损失为4%的情况下功耗降低幅度最大为7%;而对于Bitonic程序,当交换范围为256和512时,在没有功耗开销的情况下,性能分别最大提升了6.4%和5.3%。  相似文献   

5.
6.
提出一种基于矩阵转换的高效卷积计算优化方法MCFA。根据输出矩阵的宽度和卷积核大小对输入矩阵进行分块,通过im2col方法转换输入矩阵子块和核函数矩阵,利用计算统一设备架构中封装的矩阵-矩阵乘法加速库提升卷积计算的速度。在此基础上,将输出子块按序排列,最终得到完整的输出矩阵。实验结果证明,该方法相比im2col方法能节省61.25%的计算空间,相比MEC方法能提高20.57%的计算速度,且在分块情况下可以缓解大输入矩阵引起的缓存压力,提高缓存利用率。  相似文献   

7.
针对移动智能设备(SMD)的算力、内存和能量等无法满足计算密集型需求的问题,提出一种应用任务卸载到高性能边缘服务器的计算卸载。根据任务计算、传输等情况下的能耗和时延,构建出卸载决策系统模型;根据SMD和边缘服务器的计算能力等情况,降低SMD能耗为目标,将任务卸载决策问题描述为一个非线性约束优化问题;为对约束优化问题求解提出GA-BPSO算法,算法中将静态学习因子改为动态学习因子,将最优个体引入交叉操作中,扩大算法在解空间中的探索能力。通过实验验证GA-BPSO算法能在较短时间内收敛,实现了SMD较低的能量消耗。  相似文献   

8.
传统的缓存替换策略主要基于经验主义,近年来研究者们使用预测技术推测访存行为,提高缓存替换的准确性,预测技术的应用是当前缓存替换策略研究的热点.由于访存行为自身的复杂性,直接在缓存系统中预测访存行为是困难的,要面对很大的不确定性.当前已有的研究为了解决该问题,使用越来越复杂的预测算法来分析访存行为之间的关联.然而这种方式并未真正减小不确定性,同时现有的缓存替换策略很难避免乱序执行和缓存预取对访存行为分析过程的干扰.为了解决以上问题,提出了一种新的预测缓存访问序列的方法IFAPP(instruction flow access pattern prediction),根据分支预测技术推测程序指令流,定位指令流中的访存指令,进而对其中访存指令的行为逐一进行预测.通过访存序列计算每个替换候选项的重用距离,将重用距离最远的候选项踢出.该方法可以避免乱序执行和缓存预取的干扰,预测对象是行为简单的独立访存指令,减少预测过程中所面对的不确定性.实验结果表明,该算法在一级数据缓存上比LRU算法平均减少3.2%的缓存缺失.相比经典的基于缓存预测的BRRIP和BIP算法,该算法在一级数据缓存上分别减少12.3%和14.4%的缓存缺失.  相似文献   

9.
为实现国产飞腾DSP平台对底层图像库的支持,针对原始Canny边缘检测算法计算时间过长的问题,设计一种面向FT-M7002平台的Canny梯度计算并行算法.基于FT-M7002高性能处理架构,采用单指令流多数据流向量化方式增强DSP内核指令的并行处理能力,根据FT-M7002平台向量存储器的层次结构特征,分析Canny...  相似文献   

10.
针对TLD(Tracking-Learning-Detection)算法在光照变化不均、遮挡严重、跟踪目标模糊等情况下会出现跟踪失败的问题,提出一种基于卷积神经网络优化TLD运动手势跟踪算法。选取手势特征作正样本,其背景作负样本,获取手势HOG特征并投入到卷积神经网络中加以训练,得到手势检测分类器,从而确定目标手势区域,实现手势的自动识别;再利用TLD算法对手势进行跟踪与学习,对正负样本进行估计检测并实时校正,同时运用SURF特征匹配更新跟踪器。实验结果验证,该算法对比TLD经典算法跟踪精度提高了4.24%,增强了运动手势的跟踪效果,相比经典跟踪算法拥有更高鲁棒性。  相似文献   

11.
针对卷积神经网络对手写数字识别训练在卷积核随机初始化情况下收敛速度慢和识别率低的问题,提出一种主成分分析(PCA)初始化卷积核的卷积神经网络(CNN)手写数字识别算法。算法首先选取训练样本集并将其送入CNN,在相应层对Feature Map进行全覆盖取图像块处理,然后进行分层PCA学习,将学习到的特征向量做为对应卷积层的卷积核参数进行初始化,最后再用这些卷积核对原始图像进行卷积操作。实验结果表明,与随机初始化卷积核的CNN手写数字识别算法相比,改进的算法在应用MNIST数据库训练时不仅收敛,而且在产生相同均方误差的情况下迭代次数少,识别率高。  相似文献   

12.
李亚非  曹长虎 《计算机工程》2011,37(16):167-169
为充分发挥粒子群优化算法和遗传算法各自的优势,提出一种新的基于粒子群和遗传算法的协同进化算法,并将其应用于聚类分析。通过构建2个相互竞争的种群,采用相对适应度度量方法,在一个纯自举的过程中产生最优竞争个体。在现实世界数据集上的仿真实验表明,该算法在收敛精度方面优于基于遗传算法的聚类方法和基本粒子群优化聚类算法。  相似文献   

13.
大规模的数据存取是制约数字信号处理器系统效率的主要因素之一。在传像光纤束成像系统中,为提高出端光纤束在光纤中心定位过程中数据存取的效率,提出DM642平台下的光纤中心定位优化方法。在存储器配置方面,设置二级储存器缓存与片内随机存储器的模式,预取部分片外数据到片内随机存储器。在数据传输方面,设计数据存储动态偏移量,自适应迭代,避免重复读入。实验结果表明,优化后的算法实现了光纤中心的定位,时间开销降低了1/4,提高了系统的运行效率。  相似文献   

14.
内容分发网络中基于内容名的缓存算法会导致路由表规模随网络增长而膨胀,将严重影响网络路由效率和性能。针对该问题,提出一种基于相关内容吸引的节点缓存算法。利用本地缓存算法,通过节点已缓存内容对其他内容的吸引作用吸引主要特征内容,排斥具有次要特征内容,将缓存中不同特征内容的数量差异进行放大,使缓存内容表现出明显稳定的内容特征。同时设计相关内容生存时间相互增强的缓存策略,以减少路由通告信息量,提高内容分发网络的路由能力。实验结果表明,该算法在有效解决路由问题的同时,能增强缓存内容稳定性,提高路由可信度。  相似文献   

15.
黄凤琪  陈明  冯国富 《计算机工程》2021,47(10):269-275,282
针对YOLO目标检测算法存在边界框定位不准确及对小目标检测精度低的问题,提出一种改进的YOLO目标检测算法dcn-YOLO.使用k-means++算法聚类出更符合数据集尺寸的锚盒,以降低初始点对聚类结果的影响并加快网络训练收敛速度.构建残差可变形卷积模块res-dcn,分别采用将其嵌入YOLO第一特征提取头模块中和替换...  相似文献   

16.
毕晓君  盛磊  陈剑 《计算机工程》2011,37(23):149-151
采用传统方法设计的S盒性能较差,而常用智能设计方法又存在设计时间过长、容易陷入局部最优的缺点。为此,提出一种基于改变粒子群优化算法的S盒优化设计方法。通过改变惯性权重来提高搜索速度和精度,从而增大算法效率。实验结果表明,该方法可以快速地搜索到能有效抵抗差分密码分析和线性密码分析的S盒,改善其密码性能。  相似文献   

17.
介绍了目前最新的图形处理器(GPu)编程模型,以数字信号处理中最常用的卷积计算为例,分析了常规卷积算法的计算量和快速卷积算法的使用局限性,并在此基础上提出了基于GPU的分段卷积算法实现,通过与当前主流CPU平台进行实测对比,通过性能对比分析,探讨GPU编程技术应用在数字信号处理领域中的优势,及需要注意的主要问题。  相似文献   

18.
特征选择通过去除无关和冗余特征提高学习算法性能,本质是组合优化问题。黑寡妇算法是模拟黑寡妇蜘蛛生命周期的元启发式算法,在收敛速度、适应度值优化等方面具有诸多优势。针对黑寡妇算法不能进行特征选择的问题,设计五种优化策略:二进制策略“、或门”策略、种群限制策略、快速生殖策略以及适应度优先策略,提出黑寡妇特征选择算法(black widow optimization feature selection algorithm,BWOFS)和生殖调控黑寡妇特征选择算法(procreation controlled black widow optimization feature selection algorithm,PCBWOFS),从特征空间中搜索有效特征子集。在多个分类、回归公共数据集上验证新方法,实验结果表明,相较其他对比方法(全集、AMB、SFS、SFFS、FSFOA),BWOFS和PCBWOFS能找到预测精度更高的特征子集,可提供有竞争力、有前景的结果,而且与BWOFS相比,PCBWOFS计算量更小,性能更好。  相似文献   

19.
王新芳  张冰  冯友兵 《计算机工程》2012,38(1):90-92,95
针对无线传感器网络低成本、高精度的要求,在采用接收信号强度测距的基础上,提出一种基于粒子群优化的改进加权质心定位算法。该算法易于实现,可调参数少,通过多次选代寻优提高定位精度。采用锚节点之间相互测距和定位补偿测距误差和定位误差。仿真结果表明,该算法与质心算法和加权质心定位算法相比,节点定位精度得到显著提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号