期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

李叶毛伊敏陈志刚《信息与控制》2023,(4):466-482

针对并行深度卷积神经网络算法在大数据环境下存在冗余特征计算过多、卷积运算性能不足和参数并行化合并效率低等问题,提出了基于Winograd卷积的并行深度卷积神经网络优化算法。首先,该算法提出基于余弦相似度与归一化互信息的特征过滤策略,通过先筛选后融合的方式消除了通道间对于冗余特征的计算,以此解决了冗余特征计算过多的问题;然后,结合MapReduce提出了并行Winograd卷积策略,通过使用并行化Winograd卷积运算替换传统卷积运算的方式来提升卷积运算的性能,以此解决了卷积运算性能不足的问题;最后,提出基于任务迁移的负载均衡策略,通过动态负载迁移的方式来均衡集群中各节点之间的负载,降低了集群总体的平均反应时长,以此解决了参数并行化合并效率低的问题。实验表明,WP-DCNN算法显著降低了DCNN在大数据环境下的训练代价,而且对并行DCNN的训练效率也有大幅提升。相似文献

2.

面向卷积神经网络的高能效比特稀疏加速器设计

肖航许浩博王颖李佳骏王郁杰韩银和《计算机辅助设计与图形学学报》2023,(7):1122-1131

为解决当前比特稀疏架构的性能瓶颈,提出高能效比特稀疏加速器设计.首先提出一种激活值编码方法和相应的电路来提高卷积神经网络的比特稀疏度,结合比特串行电路实时跳过激活值的零值比特来加速神经网络的计算;然后提出一种列共享同步机制,以解决比特稀疏架构的同步问题,并在较小的面积和功耗开销下大幅提高比特稀疏架构的计算性能.在SMIC40 nm工艺和1 GHz频率下,评估不同的比特稀疏架构在卷积神经网络上的能效.实验结果表明,与非稀疏加速器VAA和比特稀疏加速器LS-PRA相比,所提出的加速器AS-PRA分别提高了544%和179%的能效. 相似文献

3.

Winograd快速卷积相关研究综述

童敢黄立波《计算机科学与探索》2022,16(5):959-971

卷积神经网络(CNN)已经被广泛应用到各个领域并发挥了重要作用.卷积算子是卷积神经网络的基础组件,同时也是最耗时的部分.近年来,研究者提出了包括基于FFT和Winograd的若干种快速卷积算法.其中Winograd卷积因大幅减少了卷积中乘法操作且占用内存更小而迅速成为小卷积核的卷积算子上快速卷积实现的首选.但目前相关工... 相似文献

4.

基于FPGA的稀疏化卷积神经网络加速器

狄新凯杨海钢《计算机工程》2021,47(7):189-195,204

为消除卷积神经网络前向计算过程中因模型参数的稀疏性而出现的无效运算,基于现场可编程门阵列(FPGA)设计针对稀疏化神经网络模型的数据流及并行加速器.通过专用逻辑模块在输入通道方向上筛选出特征图矩阵和卷积滤波器矩阵中的非零点,将有效数据传递给由数字信号处理器组成的阵列做乘累加操作.在此基础上,对所有相关的中间结果经加法树... 相似文献

5.

基于Intel平台的Winograd快速卷积算法研究与优化

武铮安虹金旭迟孟贤吕国锋文可周鑫《计算机研究与发展》2019,56(4):825-835

随着深度学习的快速发展,其在语音处理、图像识别和自然语言理解等领域被广泛应用,为科研产业以及日常生活带去了巨大的变革.Intel紧跟深度学习的浪潮,推出了第2代Xeon Phi处理器KNL(knights landing),其后又发布了第3代Xeon Phi处理器KNM(knights mill),为深度学习的蓬勃发展带去了新的活力.通过在Intel平台上进行快速卷积算法Winograd的研究与优化,对比Intel MKL(math kernel library) DNN(deep neural network)中的卷积性能,推动Intel MKL DNN中深度神经网络接口的完善以及Intel平台上深度学习的发展.研究中结合Intel最新深度学习平台的AVX-512指令集、高速内存MCDRAM、多Memory/SNC模式、二维网格状内核结构等特性,并通过对内存分配、数据调度等情况的分析,设计优化Winograd算法,一方面选取典型的卷积神经网络(convolutional neural network, CNN)网络模型VGG19,测试对比Intel MKL DNN的卷积实现,最终取得了2倍多的性能加速比;另一方面,通过测试常用卷积类型,对比Intel MKL DNN和NVIDIA cuDNN,验证了实现的Winograd对于常用卷积类型具有很好的适用性且具有实际使用价值.该研究工作期望为Intel平台在深度学习领域的发展提供重要的指导意义. 相似文献

6.

基于FPGA的卷积神经网络并行加速器设计

王婷陈斌岳张福海《电子技术应用》2021,47(2):81-84

近年来,卷积神经网络在许多领域中发挥着越来越重要的作用,然而功耗和速度是限制其应用的主要因素.为了克服其限制因素,设计一种基于FPGA平台的卷积神经网络并行加速器,以Ultra96-V2为实验开发平台,而且卷积神经网络计算IP核的设计实现采用了高级设计综合工具,使用Vivado开发工具完成了基于FPGA的卷积神经网络加... 相似文献

7.

基于卷积神经网络的GFW加速调度算法

《软件》2019,(3):217-221

神经网络的广泛应用使得人们更加关注神经网络的训练,更高精度的要求给神经网络的训练带来了困难,因此加速神经网络的训练成为了研究的重点。对于神经网络的训练中卷积层占据了大部分的训练时间,所以加速卷积层的训练成为了加速神经网络的关键。本文提出了GFW加速调度算法,GFW算法通过对不同卷积图像的大小和卷积核的数量调用不同的卷积算法,以达到整体的最佳训练效果。实验中具体分析了9层卷积网络的加速训练,实验结果显示,相比于GEMM卷积算法,GFW算法实现了2.901倍的加速,相比于FFT算法GFW算法实现了1.467倍的加速,相比于Winograd算法,GFW算法实现了1.318倍的加速。相似文献

8.

面向飞腾多核处理器的Winograd快速卷积算法优化

王庆林李东升梅松竹赖志权窦勇《计算机研究与发展》2020,57(6):1140-1151

随着深度学习的快速发展,卷积神经网络已广泛应用于计算机视觉、自然语言处理等人工智能领域中.Winograd快速卷积算法因能有效降低卷积神经网络中卷积操作的计算复杂度而受到广泛关注.随着国防科技大学自主研制的飞腾多核处理器在智能领域的推广应用,对面向飞腾多核处理器的高性能卷积实现提出了强烈需求.针对飞腾多核处理器的体系结构特征与Wingorad快速卷积算法的计算特点,提出了一种高性能并行Winograd快速卷积算法.该算法不依赖通用矩阵乘库函数,由卷积核转换、输入特征图转换、逐元素乘、输出特征图逆变换等4个部分构成,融合设计了4个部分的数据操作,并设计了与之配套的数据布局、多级并行数据转换算法与多级并行矩阵乘算法,实现访存性能以及算法整体性能的提升.在两款飞腾多核处理器上的测试结果显示,与开源库ACL和NNPACK中的Winograd快速卷积实现相比,该算法分别能获得1.05~16.11倍与1.66~16.90倍的性能加速;集成到开源框架Mxnet后,该算法使得VGG16网络的前向计算获得了3.01~6.79倍的性能加速. 相似文献

9.

卷积稀疏自编码神经网络

牛玉虎《计算机与现代化》2017,(2):22

卷积神经网络是图像识别领域研究的热点。本文改进现有卷积自编码器,提出卷积稀疏自编码神经网络（Convolutional Sparse Autoencoder Neural Network,CSAENN）。首先替换解码器的反卷积方式,在输入特征图周围补充零值将图扩大,简化了实现方式,降低了反卷积操作复杂度,同时不影响卷积自编码器对样本特征的提取与重构。其次迭代训练时,采用权值转置技术,实现一组权值可以同时提取样本特征与重构样本信息。最后在编码器中使用种群稀疏、存在稀疏以及高分散性稀疏化技术,有效地稀疏化网络权值和输出,提升网络性能。在公共数据集MNIST及CIFAR10上,多组对比实验结果验证了CSAENN有较好的性能。  相似文献

10.

基于粗粒度数据流架构的稀疏卷积神经网络加速

吴欣欣欧焱李文明王达张浩范东睿《计算机研究与发展》2021,58(7):1504-1517

卷积神经网络(convolutional neural network, CNN)在图像处理、语音识别、自然语言处理等领域实现了很好的性能.大规模的神经网络模型通常遭遇计算、存储等资源限制,稀疏神经网络的出现有效地缓解了对计算和存储的需求.尽管现有的领域专用加速器能够有效处理稀疏网络,它们通过算法和结构的紧耦合实现高能效,却丧失了结构的灵活性.粗粒度数据流架构通过灵活的指令调度可以实现不同的神经网络应用.基于该架构,密集卷积规则的计算特性使不同通道共享相同的一套指令执行,然而稀疏网络中存在权值稀疏,使得这些指令中存在0值相关的无效指令,而现有的指令执行方式无法自动跳过它们从而产生无效计算.同时在执行不规则的稀疏网络时,现有的指令映射方法造成了计算阵列的负载不均衡.这些问题阻碍了稀疏网络性能的提升.基于不同通道共享一套指令的前提下,根据稀疏网络的数据和指令特征增加指令控制单元实现权值数据中0值相关指令的检测和跳过,同时使用负载均衡的指令映射算法解决稀疏网络中指令执行不均衡问题.实验表明：与密集网络相比稀疏网络实现了平均1.55倍的性能提升和63.77%的能耗减少.同时比GPU(cuSparse)和Cambricon-X实现的稀疏网络分别快2.39倍(Alexnet)、2.28倍(VGG16)和1.14倍(Alexnet)、1.23倍(VGG16). 相似文献

11.

面向云端FPGA的卷积神经网络加速器的设计及其调度

蔡瑞初余洋钟椿荣卢冶陈瑶《计算机应用研究》2020,37(1):172-177,182

卷积神经网络的高计算复杂性阻碍其广泛用于实时和低功耗应用,现有软件实现方案难以满足其对运算性能与功耗的要求,传统面向FPGA的卷积神经网络构造方式具有流程复杂、周期较长和优化空间较小等问题。针对该问题,根据卷积神经网络计算模式的特点,提出一种面向云端FPGA的卷积神经网络加速器的设计及其调度机制。通过借鉴基于HLS技术、引入循环切割参数和对卷积层循环重排的设计,采用模块化方式构造网络,并进行参数拓展以进一步优化加速器处理过程;通过分析系统任务和资源的特性总结调度方案,且从控制流和数据流两方面对其进行优化设计。与其他已有工作相比,提出的设计提供了一种同时具有灵活性、低能耗、高能效和高性能的解决方案,并且探讨了加速器的高效通用调度方案。实验结果表明,该加速器可在有效提高运算整速度的同时减少功耗。相似文献

12.

基于卷积神经网络的多尺度Logo检测算法

下载免费PDF全文

江玉朝吉立新高超李邵梅《网络与信息安全学报》2020,6(2):116-124

针对自然场景图像中多尺度Logo的检测需求,提出了一种基于卷积神经网络的多尺度Logo检测算法。该算法基于两阶段目标检测的实现思路,通过构建特征金字塔并采取逐层预测的方式实现多尺度候选区域的生成,通过融合卷积神经网络中的多层特征图以增强特征的表达能力。在FlickrLogos-32数据集上的实验结果显示,相比基线方法,所提算法能够提升生成候选区域的召回率,并且在保证大中尺度 Logo 检测精度的前提下,提升小尺度Logo的检测性能,验证了所提算法的优越性。相似文献

13.

基于深度卷积神经网络的小目标检测算法

李航朱明《计算机工程与科学》2020,42(4):649-657

针对YOLO目标检测算法在小目标检测方面存在的不足,以及难以在嵌入式平台上达到实时性的问题,设计出了一种基于YOLO算法改进的dense_YOLO目标检测算法。该算法共分为2个阶段:特征提取阶段和目标检测回归阶段。在特征提取阶段,借鉴DenseNet结构的思想,设计了新的基于深度可分离卷积的slim-densenet特征提取模块,增强了小目标的特征传递,减少了参数量,加快了网络的传播速度。在目标检测阶段,提出自适应多尺度融合检测的思想,将提取到的特征进行融合,在不同的特征尺度上进行目标的分类和回归,提高了对小目标的检测准确率。实验结果表明:在嵌入式平台上,针对小目标,本文提出的dense_YOLO目标检测算法相较原YOLO算法mAP指标提高了7%,单幅图像检测时间缩短了15 ms,网络模型大小减少了90 MB,明显优于原算法。相似文献

14.

基于三维卷积神经网络的湖泊提取算法

徐姗姗颜超高琳明《计算机应用》2019,39(12):3450-3455

针对现有分析湖泊几何信息算法的二维图像湖泊轮廓提取精度低的问题,提出了一种基于三维卷积神经网络的湖泊提取算法。首先,基于平整度信息从激光扫描点云中定位出候选湖泊并对输入的候选区域点云进行体素化组织,作为神经网络的输入;同时,通过深度学习技术,从候选区域中过滤非湖泊区域;然后,基于方向链码算法从点云中提取湖泊的边缘并分析其几何形状信息。实验结果表明,所提算法在提取激光扫描点云中的湖泊精度可达到96.34%,与当前在二维图像中的湖泊提取算法相比,可对目标湖泊形状信息进行计算与分析,从而为湖泊监测与管理提供方便。相似文献

15.

基于混合卷积神经网络和循环神经网络的入侵检测模型

方圆李明王萍江兴何张信明《计算机应用》2018,38(10):2903-2907

针对电力信息网络中的高级持续性威胁问题,提出一种基于混合卷积神经网络（CNN）和循环神经网络（RNN）的入侵检测模型。该模型根据网络数据流量的统计特征对当前网络状态进行分类。首先,获取日志文件中网络流量的各统计值,进行特征编码、归一化等预处理工作;然后,通过深度卷积神经网络中可变卷积核提取不同主机入侵流量之间空间相关特征;最后,将已经处理好的包含空间相关特征的数据在时间上错开排列,利用深度循环神经网络挖掘入侵流量的时间相关特征。实验结果表明,该模型相对于传统的机器学习模型在曲线下方的面积（AUC）上提升了7.5%~14.0%,同时误报率降低了83.7%~52.7%。所提模型能准确地识别网络流量的类别,大幅降低误报率。相似文献

16.

基于卷积神经网络的滚动轴承故障诊断方法

下载免费PDF全文

刘林密崔伟成李浩然桑德一《计算机测量与控制》2023,31(9):9-15

为了简单、准确地进行轴承故障诊断,结合深度学习理论,对基于卷积神经网络的滚动轴承故障诊断方法进行了研究;首先,选用了结构相对简单的LeNet5卷积神经网络;然后,对轴承振动信号原始数据进行截取和归一化处理后直接生成生成二维矩阵作为神经网络输入;接着,优选卷积核大小、批大小、学习率及迭代次数等网络模型参数;最后,应用sigmoid函数进行多标签分类;实验结果表明,该方法能有效识别正常状态及不同损伤程度下的内圈、外圈、滚动体故障状态,识别准确率达到99.50%以上水平;基于卷积神经网络的滚动轴承故障诊断方法不仅在一定程度上可以简化故障诊断的过程,而且可以充分利用卷积神经网络模型的优势实现高效准确地故障诊断。相似文献

17.

基于卷积神经网络的面罩语音识别

王霞杜桂明王光艳张艳《传感器与微系统》2017,36(10)

针对带噪面罩语音识别率低的问题,结合语音增强算法,对面罩语音进行噪声抑制处理,提高信噪比,在语音增强中提出了一种改进的维纳滤波法,通过谱熵法检测有话帧和无话帧来更新噪声功率谱,同时引入参数控制增益函数;提取面罩语音信号的Mel频率倒谱系数(MFCC)作为特征参数;通过卷积神经网络(CNN)进行训练和识别,并在每个池化层后经局部响应归一化(LRN)进行优化.实验结果表明:该识别系统能够在很大程度上提高带噪面罩语音的识别率. 相似文献

18.

基于FPGA的递归神经网络加速器的研究进展

下载免费PDF全文

高琛张帆《网络与信息安全学报》2019,5(4):1-13

递归神经网络(RNN)近些年来被越来越多地应用在机器学习领域,尤其是在处理序列学习任务中,相比CNN等神经网络性能更为优异。但是RNN及其变体,如LSTM、GRU等全连接网络的计算及存储复杂性较高,导致其推理计算慢,很难被应用在产品中。一方面,传统的计算平台CPU不适合处理RNN的大规模矩阵运算;另一方面,硬件加速平台GPU的共享内存和全局内存使基于GPU的RNN加速器的功耗比较高。FPGA 由于其并行计算及低功耗的特性,近些年来被越来越多地用来做 RNN 加速器的硬件平台。对近些年基于FPGA的RNN加速器进行了研究,将其中用到的数据优化算法及硬件架构设计技术进行了总结介绍,并进一步提出了未来研究的方向。相似文献

19.

基于特征整合的卷积神经网络草地分类算法

张猛钱育蓉杜娇范迎迎《计算机工程与科学》2019,41(7):1251-1256

为提高遥感影像草地分类的精度,分析了卷积神经网络中提取图像特征的特点,提出了一种基于特征整合深度神经网络的遥感影像特征提取算法。首先,将遥感影像数据进行PCA白化处理,降低数据之间的相关性,加快神经网络学习的速率;其次,将从卷积神经网络中提取到的浅层特征和深层特征进行双线性整合,使得整合后的新特征更加完善和优化;最后,对遥感数据进行训练,由于新特征中有效信息的增加,使得特征表达能力得到提高,达到提高草地分类准确率的目的。实验结果表明:该算法能够有效地提高草地分类的准确率,分类精度达到94.65%,相较于卷积神经网络、BP神经网络和基于SVM的分类算法分别提高了4.3%、10.39%和15.33%。相似文献

20.

基于多通道卷积神经网的实体关系抽取 总被引：1，自引：0，他引：1

肜博辉付琨黄宇王洋《计算机应用研究》2017,34(3)

针对实体关系抽取任务中,传统基于统计学习的方法构建特征费时费力、现有深度学习方法依赖单一词向量的表征能力的问题,提出多通道卷积神经网模型。首先使用不同的词向量将输入语句进行映射,作为模型不同通道的输入;然后使用卷积神经网自动提取特征;最后通过softmax分类器输出关系类型,完成关系抽取任务。和其他模型相比,该模型可以获取输入语句更丰富的语义信息,自动学习出更具有区分度的特征。在SemEval-2010 Task 8 数据集上的实验结果表明提出的多通道卷积神经网模型较使用单一词向量的模型更适合处理关系抽取任务。相似文献