首页 | 官方网站   微博 | 高级检索  
     

面向多核处理器的机器学习推理框架
引用本文:张潇,支天.面向多核处理器的机器学习推理框架[J].计算机研究与发展,2019,56(9):1977-1987.
作者姓名:张潇  支天
作者单位:中国科学院计算技术研究所 北京100190;中国科学院大学 北京100049;上海寒武纪信息科技有限公司 上海201306;中国科学院计算技术研究所 北京100190;上海寒武纪信息科技有限公司 上海201306
基金项目:国家重点研发计划;国家重点研发计划;国家重点研发计划;国家重点研发计划;国家自然科学基金;国家自然科学基金;国家自然科学基金;国家自然科学基金;国家自然科学基金;国家自然科学基金;国家自然科学基金;国家自然科学基金;国家自然科学基金;国家自然科学基金;国家自然科学基金;国家自然科学基金;国家自然科学基金;北京市自然科学基金;国家重点基础研究发展计划(973计划);核心电子器件;高端通用芯片;国家科技重大专项;中国科学院科技成果转移转化重点专项(弘光专项);中国科学院战略性先导科技专项
摘    要:近年来,深度神经网络被广泛应用于各个领域并取得了极大的成功.由于神经网络模型的尺寸和计算量的不断增加,为了能够高效迅速地完成神经网络的计算,包括GPU和专用加速器在内的很多新型硬件处理器被用于深度学习的计算.尽管如此,通用处理器作为目前最为常见和易于获得的计算平台,探究如何高效地在其上运行神经网络算法同样具有重要意义.多核处理器在训练阶段可以采用数据并行的方式来提高数据吞吐量,加快训练速度.然而在推理阶段,相比吞吐量场景,端到端的时延往往更加重要,因为这决定了处理器在某个场景下的可用性.传统的数据并行方案不能满足推理场景下对处理器小数据、低延迟的要求.因此,对于多核的处理器结构,需要在算子内部对计算进行拆分,才能够充分利用多核结构的硬件资源.考虑到处理器的计算特点,需要一种精细的方法来对计算图中的算子进行合理的拆分,才能真正有效地发挥出多核处理器的计算潜能.提出一种基于算子拆分的并行框架,可以用较小的开销实现处理器由单核向多核结构上的扩展,并且能够针对给定的网络和底层处理器特点给出一种高效的拆分方案.实验结果表明:该方法能有效降低各种网络在多核处理器上的端到端时延.

关 键 词:深度学习框架  多核处理器  低延迟推理  算子拆分  循环神经网络

Machine Learning Inference Framework on Multi-Core Processor
Zhang Xiao,Zhi Tian.Machine Learning Inference Framework on Multi-Core Processor[J].Journal of Computer Research and Development,2019,56(9):1977-1987.
Authors:Zhang Xiao  Zhi Tian
Affiliation:(Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190;University of Chinese Academy of Sciences, Beijing 100049;Cambricon Tech.Ltd., Shanghai 201306)
Abstract:Zhang Xiao;Zhi Tian(Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190;University of Chinese Academy of Sciences, Beijing 100049;Cambricon Tech.Ltd., Shanghai 201306)
Keywords:deep learning framework  multi-core processor  low-latency inference  operation splitting  recurrent neural network
本文献已被 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号