轻量级卷积神经网络的硬件加速方法 |
| |
作者姓名: | 吕文浩 支小莉 童维勤 |
| |
作者单位: | 1. 上海大学计算机工程与科学学院;2. 上海智能计算系统工程技术研究中心研发部 |
| |
基金项目: | 山东省自然科学基金项目(ZR2019LZH002); |
| |
摘 要: | 为提升轻量级卷积神经网络在硬件平台的资源利用效率和推理速度,基于软硬件协同优化的思想,提出一种面向FPGA平台的轻量级卷积神经网络加速器,并针对网络结构的特性设计专门的硬件架构。与多级并行策略结合,设计一种统一的卷积层计算单元。为降低模型存储成本、提高加速器的吞吐量,提出一种基于可微阈值的选择性移位量化方案,使计算单元能够以硬件友好的形式执行计算。实验结果表明,在Arria 10 FPGA平台上部署的MobileNetV2加速器能够达到311 fps的推理速度,相比CPU版本实现了约9.3倍的加速比、GPU版本约3倍的加速比。在吞吐量方面,加速器能够实现98.62 GOPS。
|
关 键 词: | 软硬件协同优化 现场可编程门阵列 轻量级卷积神经网络 移位量化 并行计算 硬件加速 开放式计算语言 |
|