首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
基于FPGA的二值卷积神经网络加速器研究大多是针对小尺度的图像输入,而实际应用主要以YOLO、VGG等大尺度的卷积神经网络作为骨干网络。通过从网络拓扑、流水线等层面对卷积神经网络硬件进行优化设计,从而解决逻辑资源以及性能瓶颈,实现输入尺度更大、网络层次更深的二值VGG神经网络加速器。采用CIFAR-10数据集对基于FPGA的VGG卷积神经网络加速器优化设计进行验证,实验结果表明系统实现了81%的识别准确率以及219.9 FPS的识别速度,验证了优化方法的有效性。  相似文献   

2.
为解决当前比特稀疏架构的性能瓶颈,提出高能效比特稀疏加速器设计.首先提出一种激活值编码方法和相应的电路来提高卷积神经网络的比特稀疏度,结合比特串行电路实时跳过激活值的零值比特来加速神经网络的计算;然后提出一种列共享同步机制,以解决比特稀疏架构的同步问题,并在较小的面积和功耗开销下大幅提高比特稀疏架构的计算性能.在SMIC40 nm工艺和1 GHz频率下,评估不同的比特稀疏架构在卷积神经网络上的能效.实验结果表明,与非稀疏加速器VAA和比特稀疏加速器LS-PRA相比,所提出的加速器AS-PRA分别提高了544%和179%的能效.  相似文献   

3.
人脸表情识别已成为人工智能领域的重要研究课题,但传统的卷积神经网络需要庞大的计算资源使得其应用受限,而二值化卷积神经网络可通过快速与或运算代替原本的浮点乘法运算,大大降低了算法对计算资源的需求。论文提出了一种基于数据增强和二值化卷积神经网络的人脸表情识别算法,通过均值估计,在FER2013数据集上达到了66.15%的识别率,超越了部分基于浮点乘积运算的卷积网络,为表情识别算法移植到小型设备中提供了可能。  相似文献   

4.
随着网络通信技术的快速发展和互联网信息资源的大规模扩张,信息过载问题日益严重,传统的信息服务使得这一问题得到缓解。但对具有海量条目的信息,用户要根据自己的喜欢找到想要的目标并不容易。为了解决该问题,提出一种融合径向基函数(RBF)的二值化卷积神经网络的推荐模型。该模型建立在卷积神经网络的基础上将输入数据预处理为0或1,极大节省数据存储空间并提高推荐效率。利用RBF建立可信任的亲属网络,根据亲属网络中的相似用户筛选出有用信息并进行分析做出相应推荐。针对电影推荐进行实验,实验结果表明该方法是有效可行的。  相似文献   

5.
二值化处理是文档图像OCR识别中非常重要的一个环节。针对目前主流Sauvola二值化算法存在参数需要人为确定、效果受设定的参数影响等问题,提出了基于Sauvola算法和神经网络的图像自适应二值化方法。在针对Sauvola算法的参数进行分析的基础上,阐述了开窗大小r与参数k对二值化结果的影响。使用SWT算法实现了开窗大小r的计算,将二值化视为对像素点的二分类问题,根据Sauvola算法的思想提取窗内的灰度均值、灰度标准差及当前像素点灰度值作为特征向量,并搭建全连接神经网络进行训练,训练后的神经网络可为每个窗生成特定的参数k,并判定各个像素点的二值化结果。实验结果表明,相较于使用人工精确调节的全局参数k的Sauvola算法,所提出的方法具有更好的自适应性和二值化效果,且具有较好的实用性和普适性。  相似文献   

6.
二值网络在速度、能耗、内存占用等方面优势明显,但会对深度网络模型造成较大的精度损失.为了解决上述问题,本文提出了二值网络的"分阶段残差二值化"优化算法,以得到精度更好的二值神经网络模型.本文将随机量化的方法与XNOR-net相结合,提出了两种改进算法"带有近似因子的随机权重二值化"和"确定权重二值化",以及一种全新的"分阶段残差二值化"的BNN训练优化算法,以得到接近全精度神经网络的识别准确率.实验表明,本文提出的"分阶段残差二值化"算法能够有效提升二值模型的训练精度,而且不会增加相关网络在测试过程中的计算量,从而保持了二值网络速度快、空间小、能耗低的优势.  相似文献   

7.
对非对称全连接二值神经网络的收敛性能进行了分析,给出了保证网络收敛的充分条件和收敛时间的计算公式,分析并指出了这些结论是对称情况的一种推广,因而更具普遍性,最后对网络实现的误差允许范围进行了讨论。  相似文献   

8.
深度卷积神经网络(DeepConvolutional Neural Networks, DCNNs)在各个领域的应用愈加广泛,而在实际应用中DCNN需要大量的计算和内存资源,在资源有限的移动设备上难以部署。因此提出了一种基于深度可分离卷积二值化网络的模型压缩与优化加速的方法,首先在深度卷积神经网络中使用深度可分卷积代替传统的卷积,其次将网络中的权重和激活值进行二值化,并通过教师网络引导训练,在最大限度的增加计算速度和减少内存资源占用的同时,保持网络的分类精度。实验结果表明,使用上述方法对花卉数据集进行分类识别,在精度仅下降2.2%的情况下,可大幅减少计算时间和内存资源的占用,有利于移动设备的部署。  相似文献   

9.
随着以卷积神经网络为代表的深度学习得到广泛应用,神经网络模型中的计算量也急速增长,推动了深度学习加速器的发展。如何针对加速器硬件的体系结构特性进行加速和优化神经网络模型的性能成为研究热点。针对自主设计的多核向量加速器FT-M7004上的VGG网络模型推理和训练算法,分别提出了卷积、池化和全连接等核心算子的向量化映射方法,采用SIMD向量化、DMA双缓冲传输和权值共享等优化策略,充分发挥了向量加速器的体系结构优势,取得了较高的计算效率。实验结果表明,在FT-M7004平台上,卷积层推理和训练的平均计算效率分别达到了86.62%和69.63%;全连接层推理和训练的平均计算效率分别达到了93.17%和81.98%;VGG网络模型在FT-M7004上的推理计算效率超过GPU平台20%以上。  相似文献   

10.
深度神经网络在高维数据的分类和预测中取得了巨大成功。训练深度神经网络是数据密集型的任务,需从多个数据源收集大规模的数据。这些数据中通常包含敏感信息时,使得深度神经网络的训练过程容易泄露数据隐私。针对训练过程中的数据隐私和通信代价问题,提出了一种深度神经网络的分布式训练方法,允许基于多个数据源共同训练深度神经网络。首先,提出了分布式训练架构,由1个计算中心和多个代理组成。其次,提出了基于多代理的分布式训练算法,允许代理在数据不出本地和减少通信代价的情况下,通过切割深度神经网络,实现分布式地共同训练模型。然后,分析了算法的正确性。最后,实验结果表明该方法是有效的。  相似文献   

11.
随着人们对深度神经网络的探索,网络性能不断提高的同时,模型的宽度和深度也在不断增加。这对神经网络硬件的存储资源与计算能力提出了很大挑战。同时,神经网络加速器的研发成本较高,如何在不损失性能的情况下使神经网络加速器支持更多的网络也是一个重要的研究方向。利用了重参数化网络模型结构上的特点,提出了一种资源利用率高、具有可配置性的硬件实现方案。通过提出的基于指令集操作、易缩放的加速器和一个能够进行指令生成与数据预处理的异构系统,结构重参数化网络可以快速进行实现。最终该方案在ARRIA10设备上加速RepVGG网络达到了单张图片延时1.36 ms的效果,为CPU耗时的4.3%。  相似文献   

12.
交通标识是交通基础设施的重要组成。智能交通系统中的自动驾驶车辆需要识别和理解交通标识,以确保其驾驶行为安全和遵守交通法规。目前,交通标识的识别大都采用深度神经网络方法,利用大量的训练样本对神经网络参数进行训练,获得对任务有利的特征表示,然而,海量的训练数据将带来较高的检索成本。针对以上问题,提出一种基于二值语义嵌入的大规模交通标识检索与识别方法 BETS,该方法将标签信息和成对相似性信息嵌入到二值语义空间中,同时使用深度神经网络来进行哈希学习。实验结果表明,该方法可以有效提升大规模交通标识检索与识别的精度和准确性。  相似文献   

13.
随着人工智能的快速发展,卷积神经网络(CNN)在很多领域发挥着越来越重要的作用。分析研究了现有卷积神经网络模型,设计了一种基于现场可编程门阵列(FPGA)的卷积神经网络加速器。在卷积运算中四个维度方向实现了并行化计算;提出了参数化架构设计,在三种参数条件下,单个时钟周期分别能够完成512、1024、2048次乘累加;设计了片内双缓存结构,减少片外存储访问的同时实现了有效的数据复用;使用流水线实现了完整的神经网络单层运算过程,提升了运算效率。与CPU、GPU以及相关FPGA加速方案进行了对比实验,实验结果表明,所提出的设计的计算速度达到了560.2 GOP/s,为i7-6850K CPU的8.9倍。同时,其计算的性能功耗比达到了NVDIA GTX 1080Ti GPU的3.0倍,与相关研究相比,所设计的加速器在主流CNN网络的计算上实现了较高的性能功耗比,同时不乏通用性。  相似文献   

14.
大多数基于卷积神经网络(CNN)的算法都是计算密集型和存储密集型的,很难应用于具有低功耗要求的航天、移动机器人、智能手机等嵌入式领域.针对这一问题,提出一种面向CNN的高并行度现场可编程逻辑门阵列(FPGA)加速器.首先,比较研究CNN算法中可用于FPGA加速的4类并行度;然后,提出多通道卷积旋转寄存流水(MCRP)结...  相似文献   

15.
本文提出了一种新的动态二值化算法,以实现从灰度点阵图象中提取其对象。通过分析象素和其所在的局部区和灰度值等数字特征,可以判断局部区的内是否存在对象,阈值和判断条件对应。  相似文献   

16.
为满足实际应用对卷积神经网络(CNN)推理的低时延、小体积和高吞吐率等要求,设计了一个采用如下优化方法的加速器:针对外存访问带宽限制,基于设计空间探索确定循环分块因子以最大化数据重用;针对CNN计算密度高,采用循环展开技术充分挖掘四种计算并行度;内存池、乒乓缓存和动态数据量化等技术用于管理片内外存储资源.将生成加速器流...  相似文献   

17.
18.
为了对条码内容进行识读解码,需要对条码图像进行二值化处理以求取出条码的条空序列.现行的二值化方法大多要么不能够获取到较好的条码二值化图像,要么二值化所需的处理时间太长不能够满足实时性需求.对此,提出一种使用积分图的基于Wellner自适应二值化算法的改进方法.实验结果表明,该方法对不同光照环境的图像都能够获取到较好的条码二值化图像,为条码识读解码提供较好的图像效果,从而提升条码识别成功率;此外,该方法所需处理时间较短,能够满足大多数条码识读应用对实时性的需求.  相似文献   

19.
图像二值化技术的研究   总被引:7,自引:0,他引:7  
图像二值化技术的应用中比较突出的问题是如何确定合理的门限来达到较理想的二值化效果。介绍了当前几种较为流行的二值化处理技术和确定门限、阈值的算法,并对这些技术和算法的效果进行了测试与比较。  相似文献   

20.
卷积神经网络的高计算复杂性阻碍其广泛用于实时和低功耗应用,现有软件实现方案难以满足其对运算性能与功耗的要求,传统面向FPGA的卷积神经网络构造方式具有流程复杂、周期较长和优化空间较小等问题。针对该问题,根据卷积神经网络计算模式的特点,提出一种面向云端FPGA的卷积神经网络加速器的设计及其调度机制。通过借鉴基于HLS技术、引入循环切割参数和对卷积层循环重排的设计,采用模块化方式构造网络,并进行参数拓展以进一步优化加速器处理过程;通过分析系统任务和资源的特性总结调度方案,且从控制流和数据流两方面对其进行优化设计。与其他已有工作相比,提出的设计提供了一种同时具有灵活性、低能耗、高能效和高性能的解决方案,并且探讨了加速器的高效通用调度方案。实验结果表明,该加速器可在有效提高运算整速度的同时减少功耗。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号