基于专用卷积神经网络加速器的编译器设计与实现 |
| |
引用本文: | 焦禹铭,吴凯,郭风祥,王昭,宋庆增.基于专用卷积神经网络加速器的编译器设计与实现[J].计算机应用,2022(S1):208-214. |
| |
作者姓名: | 焦禹铭 吴凯 郭风祥 王昭 宋庆增 |
| |
作者单位: | 1. 天津工业大学计算机科学与技术学院;2. 天津工业大学电气工程学院;3. 中国电子科技集团公司信息科学研究院 |
| |
摘 要: | 不同框架深度学习模型部署是人工智能落地的核心,然而模型计算量和参数量过大、编程模型未统一导致了各种新型的专用卷积神经网络(CNN)加速器层出不穷,增加了模型的部署难度。对模型压缩和编译工具链这两个方面进行了改进:在模型压缩方面,提出新的通道剪枝标准,结合了通道的相关性和影响性以及输出通道对应的激活值,在保证精度的同时可以极大地削减卷积神经网络的计算量和参数量;在编译工具链方面,设计了一套自动的端到端优化堆栈,提出了针对基于现场可编程门阵列(FPGA)的深度学习编译器设计方法,并在中间表示中添加了所提出的排序标准的剪枝算法。实验结果表明,所设计的编译器于舰船目标检测的任务中,在通用设备上,保证精度损失不超过1%的情况下取得了1.3倍的加速效果;在专用的CNN加速器上取得了1.6倍的加速效果,在部署中能够有效地针对卷积网络进行加速。
|
关 键 词: | 现场可编程门阵列 模型压缩 深度学习编译器 中间表示 目标检测 |
|
|