期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

朱雪晨陈三林蔡刚黄志洪《计算机与现代化》2021,(9):83-89

针对卷积神经网络模型参数规模越来越大导致难以在计算与存储资源有限的嵌入式设备上大规模部署的问题,提出一种降低参数规模的卷积神经网络模型压缩方法。通过分析发现,卷积层参数量与输入输出特征图数量以及卷积核大小有关,而全连接层参数数量众多且难以大幅减少。通过分组卷积减少输入输出特征图数量,通过卷积拆分减小卷积核大小,同时采用全局平均池化层代替全连接层的方法来解决全连接层参数数量众多的问题。将上述方法应用于LeNet5和AlexNet进行实验,实验结果表明通过使用组合压缩方法对LeNet5模型进行最大压缩后,参数规模可减少97%,识别准确率降低了不到2个百分点,而压缩后的AlexNet模型参数规模可减少95%,识别准确率提高了6.72个百分点,在保证卷积神经网络精度的前提下,可大幅减少模型的参数量。相似文献

2.

卷积神经网络算法模型的压缩与加速算法比较

《信息与电脑》2019,(11)

随着深度学习网络的不断发展,卷积神经网络在图像识别与处理领域的正确率已达到甚至超越人类水平。但是,越来越复杂的网络结构导致庞大的计算模型体积和计算量,不利于模型的移植利用。基于此,分别介绍了网络压缩加速的典型方法并进行比较,在保证算法准确率损失最少的前提下,尽可能使算法具有可移植性,充分体现卷积神经网络算法的应用价值。相似文献

3.

面向多核向量加速器的卷积神经网络推理和训练向量化方法

陈杰李程刘仲《计算机工程与科学》2024,(4):580-589

随着以卷积神经网络为代表的深度学习得到广泛应用,神经网络模型中的计算量也急速增长,推动了深度学习加速器的发展。如何针对加速器硬件的体系结构特性进行加速和优化神经网络模型的性能成为研究热点。针对自主设计的多核向量加速器FT-M7004上的VGG网络模型推理和训练算法,分别提出了卷积、池化和全连接等核心算子的向量化映射方法,采用SIMD向量化、DMA双缓冲传输和权值共享等优化策略,充分发挥了向量加速器的体系结构优势,取得了较高的计算效率。实验结果表明,在FT-M7004平台上,卷积层推理和训练的平均计算效率分别达到了86.62%和69.63%;全连接层推理和训练的平均计算效率分别达到了93.17%和81.98%;VGG网络模型在FT-M7004上的推理计算效率超过GPU平台20%以上。相似文献

4.

基于中间图特征提取的卷积网络双标准剪枝

程小辉李钰康燕萍《计算机工程》2023,(3):105-112

卷积神经网络（CNN）在计算和存储上存在大量开销,为了使CNN能够在算力和存储能力较弱的嵌入式等端设备上进行部署和运行,提出一种基于中间图特征提取的卷积核双标准剪枝方法。在卷积层后插入中间图互信息特征提取框架,分析卷积核的特征提取能力,结合批量归一化层的缩放因子对卷积核的综合重要性进行评估,获取更为稀疏的CNN模型。针对全连接层存在大量冗余节点的问题,提出一种基于节点相似度与K-means++聚类的全连接层剪枝方法,聚类相似度较高的节点,并对剪枝后的连接层权重进行融合,在一定程度上弥补因剪枝所造成的精度损失。在CIFAR10和CIFAR100数据集上的实验结果表明,使用该剪枝方法对ResNet56网络进行剪枝,在损失0.19%分类精度的情况下能够剪掉48.2%的参数量以及46.7%的浮点运算量,对于VGG16网络,能够剪掉94.5%的参数量以及64.4%的浮点运算量,分类精度仅下降0.01%。与VCNNP、PF等剪枝方法相比,所提剪枝方法能够在保持模型准确率几乎不变的情况下,对CNN的参数量和计算量进行更大比例的裁剪。相似文献

5.

卷积神经网络的压缩研究

姜懿家《电子制作．电脑维护与应用》2019,(2)

尽管卷积神经网络(CNN)在计算机视觉、语音识别等领域取得了惊人的成绩,但过高的存储代价以及计算复杂度,严重制约了深度学习在嵌入式移动设备上的部署。因此,卷积神经网络的压缩和加速就变得尤为重要,当前常见的压缩方法有低秩近似、参数量化、剪枝与稀疏约束、二值网络等。本文详细介绍卷积神经网络的几种压缩方法并评估当前方法的特点与未来发展趋势。相似文献

6.

卷积神经网络模型剪枝结合张量分解压缩方法

巩凯强张春梅曾光华《计算机应用》2020,40(11):3146-3151

针对卷积神经网络（CNN）拥有巨大的参数量及计算量,限制了其在嵌入式系统等资源受限设备上应用的问题,提出了基于统计量的网络剪枝结合张量分解的神经网络压缩方法,其核心思想是以均值和方差作为评判权值贡献度的依据。首先,以Lenet5为剪枝模型,网络各卷积层的均值和方差分布以聚类方式分离出提取特征较弱的滤波器,而使用保留的滤波器重构下一层卷积层;然后,将剪枝方法结合张量分解对更快的区域卷积神经网络（Faster RCNN）进行压缩,低维卷积层采取剪枝方法,而高维卷积层被分解为三个级联卷积层;最后,将压缩后的模型进行微调,使其在训练集上重新达到收敛状态。在PASCAL VOC测试集上的实验结果表明,所提方法降低了Faster RCNN模型54%的存储空间而精确率仅下降了0.58%,同时在树莓派4B系统上达到1.4倍的前向计算加速,有助于深度CNN模型在资源受限的嵌入式设备上的部署。相似文献

7.

基于FPGA的量化CNN加速系统设计

巩杰赵烁何虎邓宁《计算机工程》2022,48(3):170-174+196

深度卷积神经网络（CNN）模型中卷积层和全连接层包含大量卷积操作,导致网络规模、参数量和计算量大幅增加,部署于CPU/GPU平台时存在并行计算性能差和不适用于移动设备环境的问题,需要对卷积参数做量化处理并结合硬件进行加速设计。现场可编程门阵列（FPGA）可满足CNN并行计算和低功耗的需求,并具有高度的灵活性,因此,基于FPGA设计CNN量化方法及其加速系统。提出一种通用的动态定点量化方法,同时对网络的各个层级进行不同精度的量化,以减少网络准确率损失和网络参数的存储需求。在此基础上,针对量化后的CNN设计专用加速器及其片上系统,加速网络的前向推理计算。使用ImageNet ILSVRC2012数据集,基于VGG-16与ResNet-50网络对所设计的量化方法和加速系统进行性能验证。实验结果显示,量化后VGG-16与ResNet-50的网络规模仅为原来的13.8%和24.8%,而Top-1准确率损失均在1%以内,表明量化方法效果显著,同时,加速系统在运行VGG-16时,加速效果优于其他3种FPGA实现的加速系统,峰值性能达到614.4 GOPs,最高提升4.5倍,能耗比达到113.99 GOPs/W,最高提升4.7倍。相似文献

8.

一种卷积神经网络的模型压缩算法

包志强程萍黄琼丹吕少卿《计算机与现代化》2021,(10):107-111

卷积神经网络的研究取得一系列突破性成果,其优秀表现是由深层结构支撑的。针对复杂的卷积神经网络在参数量及计算量上存在大量的冗余问题,提出一种简洁有效的网络模型压缩算法。首先,通过计算卷积核之间的皮尔逊相关系数判断相关性,循环删除冗余参数,从而压缩卷积层。其次,采用局部-全局的微调策略,恢复网络性能。最后,提出一种参数正交正则,促使卷积核之间的正交化,进而减少冗余特征。实验结果表明,在MNIST数据集上,该压缩算法能够在不损失测试精度的前提下,使AlexNet卷积层的参数量压缩率达到53.2%,浮点操作计算量可以减少42.8%,并且网络模型收敛后具有较小的误差。相似文献

9.

卷积神经网络模型剪枝结合张量分解压缩方法

巩凯强张春梅曾光华《计算机应用》2005,40(11):3146-3151

针对卷积神经网络（CNN）拥有巨大的参数量及计算量，限制了其在嵌入式系统等资源受限设备上应用的问题，提出了基于统计量的网络剪枝结合张量分解的神经网络压缩方法，其核心思想是以均值和方差作为评判权值贡献度的依据。首先，以Lenet5为剪枝模型，网络各卷积层的均值和方差分布以聚类方式分离出提取特征较弱的滤波器，而使用保留的滤波器重构下一层卷积层；然后，将剪枝方法结合张量分解对更快的区域卷积神经网络（Faster RCNN）进行压缩，低维卷积层采取剪枝方法，而高维卷积层被分解为三个级联卷积层；最后，将压缩后的模型进行微调，使其在训练集上重新达到收敛状态。在PASCAL VOC测试集上的实验结果表明，所提方法降低了Faster RCNN模型54%的存储空间而精确率仅下降了0.58%，同时在树莓派4B系统上达到1.4倍的前向计算加速，有助于深度CNN模型在资源受限的嵌入式设备上的部署。相似文献

10.

基于密集连接卷积神经网络的远程监督关系抽取

钱小梅刘嘉勇程芃森《计算机科学》2020,47(2):157-162

密集连接卷积神经网络(DenseNet)是一种新型深度卷积神经网络架构,通过建立不同层间的连接关系,来确保网络层与层间最大程度的信息传输。在文本远程监督关系抽取任务中,针对现有神经网络方法使用浅层网络提取特征的局限,设计了一种基于密集连接方式的深度卷积神经网络模型。该模型采用五层卷积神经网络构成的密集连接模块和最大池化层作为句子编码器,通过合并不同层次的词法、句法和语义特征,来帮助网络学习特征,从而获取输入语句更丰富的语义信息,同时减轻深度神经网络的梯度消失现象,使得网络对自然语言的表征能力更强。模型在NYT-Freebase数据集上的平均准确率达到了82.5%,PR曲线面积达到了0.43。实验结果表明,该模型能够有效利用特征,并提高远程监督关系抽取的准确率。相似文献

11.

基于统计分析的卷积神经网络模型压缩方法

杨扬蓝章礼陈巍《计算机系统应用》2018,27(8):49-55

针对卷积神经网络中卷积层参数冗余,运算效率低的问题,从卷积神经网络训练过程中参数的统计特性出发,提出了一种基于统计分析裁剪卷积核的卷积神经网络模型压缩方法,在保证卷积神经网络处理信息能力的前提下,通过裁剪卷积层中对整个模型影响较小的卷积核对已训练好的卷积神经网络模型进行压缩,在尽可能不损失模型准确率的情况下减少卷积神经网络的参数,降低运算量.通过实验,证明了本文提出的方法能够有效地对卷积神经网络模型进行压缩. 相似文献

12.

双通道卷积神经网络在静态手势识别中的应用

下载免费PDF全文

冯家文张立民邓向阳《计算机工程与应用》2018,54(14):148-152

针对静态手势识别任务中,传统基于人工提取特征方法耗时耗力,识别率较低,现有卷积神经网络依赖单一卷积核提取特征不够充分的问题,提出双通道卷积神经网络模型。输入手势图片通过两个相互独立的通道进行特征提取,双通道具有尺度不同的卷积核,能够提取输入图像中不同尺度的特征,然后在全连接层进行特征融合,最后经过softmax分类器进行分类。在Thomas Moeslund和Jochen Triesch手势数据库上进行实验验证,结果表明该模型提高了静态手势识别的准确率,增强了卷积神经网络的泛化能力。相似文献

13.

应用空洞卷积的神经网络轻量化方法#br#

下载免费PDF全文

马利刘新宇李皓宇段苛苛牛斌《计算机工程与应用》2022,58(5):85-93

为了深度卷积神经网络能够更好地应用于边缘设备,减少深度神经网络的模型参数量,降低网络复杂度,对于轻量化卷积神经网络的研究日益增多。将常用于多尺度融合的卷积——空洞卷积首次应用于神经网络轻量化领域研究。利用空洞卷积采样与扩大感受野的结构特性,实现了模型参数量的减少与计算复杂度的降低。将空洞卷积单纯作用于残差网络结构,达到轻量化目的,并进一步与逐点卷积结合,提高轻量化效果,形成改进型空洞卷积轻量化方法。为减少准确率衰减,将改进型空洞卷积与普通卷积相融合,提出一种融合型空洞卷积轻量化方法。实验结果表明,改进型空洞卷积轻量化方法具有最显著的轻量化效果,融合型空洞卷积轻量化方法使模型参数量减少同时具有最佳速度与精度的权衡。相似文献

14.

基于Winograd稀疏算法的卷积神经网络加速器设计与研究

徐睿马胜郭阳黄友李艺煌《计算机工程与科学》2019,41(9):1557-1566

随着卷积神经网络得到愈加广泛的应用,针对其复杂运算的定制硬件加速器得到越来越多的重视与研究。但是,目前定制硬件加速器多采用传统的卷积算法,并且缺乏对神经网络稀疏性的支持,从而丧失了进一步改进硬件,提升硬件性能的空间。重新设计一款卷积神经网络加速器,该加速器基于Winograd稀疏算法,该算法被证明有效降低了卷积神经网络的计算复杂性,并可以很好地适应稀疏神经网络。通过硬件实现该算法,本文的设计可以在减少硬件资源的同时,获得相当大的计算效率。实验表明,相比于传统算法,该加速器设计方案将运算速度提升了近4.15倍;从乘法器利用率的角度出发,相比现有的其他方案,该方案将利用率最多提高了近9倍。相似文献

15.

基于Octave卷积的混合精度神经网络量化方法

张文烨尚方信郭浩《计算机应用》2021,41(5):1299-1304

浮点数位宽的深度神经网络需要大量的运算资源,这导致大型深度神经网络难以在低算力场景（如边缘计算）上部署。为解决这一问题,提出一种即插即用的神经网络量化方法,以压缩大型神经网络的运算成本,并保持模型性能指标不显著下降。首先,基于Octave卷积将输入特征图的高频和低频成分进行分离;其次,分别对高低频分量应用不同位宽的卷积核进行卷积运算;第三,使用不同位宽的激活函数将高低频卷积结果量化至相应位宽;最后,混合不同精度的特征图来获得该层卷积结果。实验结果证实了所提方法压缩模型的有效性,在CIFAR-10/100数据集上,将模型压缩至1+8位宽时,该方法可保持准确率指标的下降小于3个百分点;在ImageNet数据集上,使用该方法将ResNet50模型压缩至1+4位宽时,其正确率指标仍高于70%。相似文献

16.

基于3D可扩展PE阵列CNN加速器的设计

苏梓培杨鑫陈弟虎粟涛《计算机工程与科学》2021,43(3):389-397

卷积神经网络具有参数大、运算量大的特点,当将其具体应用在移动端设备时,需要在满足帧率（速度）的前提下,尽量减少功耗与芯片面积。考虑满足现有移动端网络的兼容性、性能和面积等因素,设计一个基于3D可扩展PE阵列的CNN加速器。该加速器兼容3×3卷积、3×3深度可分离卷积、1×1卷积和全连接层,其PE阵列能根据具体应用的网络和硬件约束,设定3个维度上最优的并行度参数,以达到更优的性能。该CNN加速器在512个PE下运行yolo-v2达到76.52 GOPS、74.72%的性能效率,在512个PE下运行mobile-net-v1达到78.05 GOPS、76.22%的性能效率。最后应用CNN加速器构建了一个实时目标检测系统,将yolo-lite网络部署至XILINX Zynq-7000 SoC ZC706硬件开发平台上,其CNN运算性能达到了53.65 fps。相似文献

17.

改进Stacking集成学习的指纹识别算法

苏赋罗海波《计算机工程与科学》2022,44(12):2153-2161

针对传统卷积神经网络对多传感器指纹识别泛化能力降低、准确率不高的问题,提出改进的Stacking集成学习算法。首先将AlexNet进行改进,在AlexNet中引入深度可分离卷积减少参数量,加快训练速度;引入空间金字塔池化,提升网络获取全局信息的能力;引入批归一化,加快网络收敛速度,同时提升网络在测试集上的准确率;使用全局平均池化替代全连接层,防止过拟合。然后将DenseNet和改进的AlexNet 2种卷积神经网络作为Stacking的基学习器对指纹进行分类,获得预测结果。最后对相同基学习器训练得到的各个模型,根据预测精度对各预测结果赋权,得到的预测结果再由元分类器分类。改进的Stacking算法在多传感器指纹数据库上进行实验,最终识别准确率达98.43%,相对AlexNet提升了20.05%,相对DenseNet提升了4.25%。相似文献

18.

基于密集层和注意力机制的快速语义分割

程晓悦赵龙章胡穹史家鹏《计算机工程》2020,46(4):247-252,259

针对传统语义分割网络速度慢、精度低的问题,提出一种基于密集层和注意力机制的快速场景语义分割方法.在ResNet网络中加入密集层和注意力模块,密集层部分采用两路传播方式,以更好地获得多尺度目标,并使用分组卷积减少计算量.同时在特征提取网络中加入注意力模块,以减少精度损失.实验结果表明,该方法在保证分割精度的前提下提升了分割速度,在Cityscapes数据集上得到了81.5%的MIOU,速度为42.3 frame/s,在ADE20K数据集上得到了61.8%的MIOU,速度为27.9 frame/s. 相似文献