首页 | 官方网站   微博 | 高级检索  
文章检索
  按 检索   检索词:      
出版年份:   被引次数:   他引次数: 提示:输入*表示无穷大
  收费全文   10篇
  免费   4篇
  国内免费   5篇
工业技术   19篇
  2023年   2篇
  2022年   4篇
  2021年   4篇
  2020年   1篇
  2015年   1篇
  2013年   3篇
  2011年   3篇
  2010年   1篇
排序方式: 共有19条查询结果,搜索用时 15 毫秒
1.
宋庆增  顾军华 《计算机工程》2011,37(23):214-216
针对传统的通用处理器(GPP)平台上执行稀疏矩阵向量乘计算效率低的问题,提出一种基于可重构计算平台的SpMXV协处理器设计。方案采用二叉树结构高度流水的数据流、IEEE-754的32 bit浮点数数据格式和对角存储格式。数据通路以流水线方式进行组织,能够优化计算性能。仿真结果表明,与GPP平台上的软件实现相比,通过硬件实现的设计能达到最高2.69倍的性能加速。  相似文献   
2.
在水声信号分类应用中,由于保密或采集条件限制等原因,样本通常会不足,导致深度学习框架的分类精度不高.为解决小样本水声信号分类精度不高的问题,提出一种结合频谱变换和深度学习框架的方法.通过对各类频谱变换测试,发现LOFAR频谱变换能显著提高声音信号中的特征表现.使用GAN网络对频谱变换后的样本扩充,使用改进的CNN网络对频谱图进行分类.实验结果表明了上述框架可以生成高质量的样本,显著提高水声信号的分类精度.  相似文献   
3.
不同框架深度学习模型部署是人工智能落地的核心,然而模型计算量和参数量过大、编程模型未统一导致了各种新型的专用卷积神经网络(CNN)加速器层出不穷,增加了模型的部署难度。对模型压缩和编译工具链这两个方面进行了改进:在模型压缩方面,提出新的通道剪枝标准,结合了通道的相关性和影响性以及输出通道对应的激活值,在保证精度的同时可以极大地削减卷积神经网络的计算量和参数量;在编译工具链方面,设计了一套自动的端到端优化堆栈,提出了针对基于现场可编程门阵列(FPGA)的深度学习编译器设计方法,并在中间表示中添加了所提出的排序标准的剪枝算法。实验结果表明,所设计的编译器于舰船目标检测的任务中,在通用设备上,保证精度损失不超过1%的情况下取得了1.3倍的加速效果;在专用的CNN加速器上取得了1.6倍的加速效果,在部署中能够有效地针对卷积网络进行加速。  相似文献   
4.
基于压缩感知CS(Compressed Sensing)理论的稀疏磁共振图像MRI(Magnetic Resonance Imaging)重构算法包含大量的浮点运算,重构所花费的时间要远远大于傅里叶正反变换重构算法。针对该问题,利用图形处理器GPU(Graphic Processing Unit)强大的并行处理能力,在NVIDIA CUDA(Compute Unified Device Architecture)的框架上对正交匹配追踪OMP(Orthogonal Matching Pursuit)算法进行并行化的设计与实现。实验结果表明,基于GPU实现的算法具有较高的迭代重构速度,对1 0242大小的磁共振图像的重构仅为1.4秒,是CPU实现的24倍,可以满足实际应用对实时性的要求。  相似文献   
5.
改进的求解TSP问题文化蚁群优化方法   总被引:1,自引:0,他引:1       下载免费PDF全文
在文化算法基础上提出了一种改进的用于求解TSP问题的蚁群优化算法。改进算法采用新的双层进化机制对文化算法的种群空间与信念空间进行了重新设计,用最大最小蚁群系统(MMAS)构建种群空间,在信念空间中对当前最优解进行改进的3-OPT交叉变换操作,由于采用了这种双层进化机制,种群空间获得了更高的进化效率。通过仿真实验结果表明,改进算法比传统的蚁群算法(ACO)、文化蚁群算法(CACS)效果更好,收敛速度更快,精确度更高。  相似文献   
6.
为将参数量巨大的神经网络模型部署到资源有限、功耗要求极高的嵌入式端,以较好的速度运行,研究8 bit整型量化算法和神经网络前向推理过程在FPGA上的具体实现。通过8 bit整型量化,将模型的参数量从22.5 M缩减至5.7 M,模型参数量缩小近4倍,提高神经网络在嵌入式端部署的可行性。基于FPGA并行处理的特点,设计精简指令,优化卷积运算中输入输出和计算过程的并行处理。在实验中可以在较低功耗下加速神经网络前向推理过程。  相似文献   
7.
基于FPGA的Jacobi迭代求解器研究   总被引:1,自引:0,他引:1       下载免费PDF全文
针对特定的数值算法进行硬件加速是当前体系结构的趋势之一。Jacobi迭代是典型的数值迭代算法,针对软件Jacobi迭代求解器性能慢,实时性差的缺点,在FPGA硬件平台上设计和实现了硬件Jacobi迭代求解器。求解器采用高度并行、流水的数据通路和优化的归约电路设计,充分利用了Jacobi迭代本身固有的并行性和FPGA的并发式结构,有效地提升求解器的性能。实验结果表明,Jacobi求解器具有良好的可扩展性和较高的计算性能。  相似文献   
8.
不同框架深度学习模型部署是人工智能落地的核心,然而模型计算量和参数量过大、编程模型未统一导致了各种新型的专用卷积神经网络(CNN)加速器层出不穷,增加了模型的部署难度。对模型压缩和编译工具链这两个方面进行了改进:在模型压缩方面,提出新的通道剪枝标准,结合了通道的相关性和影响性以及输出通道对应的激活值,在保证精度的同时可以极大地削减卷积神经网络的计算量和参数量;在编译工具链方面,设计了一套自动的端到端优化堆栈,提出了针对基于现场可编程门阵列(FPGA)的深度学习编译器设计方法,并在中间表示中添加了所提出的排序标准的剪枝算法。实验结果表明,所设计的编译器于舰船目标检测的任务中,在通用设备上,保证精度损失不超过1%的情况下取得了1.3倍的加速效果;在专用的CNN加速器上取得了1.6倍的加速效果,在部署中能够有效地针对卷积网络进行加速。  相似文献   
9.
由于植物根茎交点目标较小,识别率低,且在使用嵌入式设备进行植物移植与栽培的过程中资源及功耗受限。针对这类问题,提出了一种基于改进YOLOv4的目标检测解决方法,并设置于本场景。采集8?629张植物叶茎数据集图像,并对这些植物叶茎数据集进行标注,利用生成对抗网络(generative adversarial network,GAN)进行数据增强预处理。改进YOLOv4目标检测算法,选取4个不同尺度的锚框,以获得更多植物叶茎交点信息,同时对网络的结构和损失函数进行局部优化,使得网络在训练过程中更易于拟合目标。将主干网络更改为GhostNet网络,大幅度减少参数量与计算量,更利于在移动设备上的轻量化模型部署。实验结果表明,优化后的YOLOv4-GhostNet轻量化网络在保证检测精度的前提下,检测速度提高到79.3?frame/s,较YOLOv4提高了36.45%,网络帧率提高了51.07%,模型参数量减小了36.06%,能够有效检测叶茎交点目标。  相似文献   
10.
现有基于深度学习的检测算法,虽然有效提高了高分辨率遥感图像中的舰船目标检测准确率,但是由于其网络结构非常复杂,导致计算量和参数量巨大.为了满足实际应用中的实时性要求,采用异构硬件加速,并进行了相应的算法优化.为了更好地贴合硬件,首先在YOLOV3算法的基础上,通过对主干网络进行改进,设计并实现了YOLOV3&MobileNetV3轻量化网络,这样可以极大地削减网络的参数规模和计算量.然后在现场可编程逻辑门阵列(FPGA)平台,通过设计卷积神经网络加速器,实现了高效的轻量化神经网络.最后实验结果表明,改进的神经网络在自主研发的FPGA加速架构上,在测试集中的船舰目标的检测达到了150帧每秒的检测速度以及0.872的F1值,能够更加快速并有效地检测船舰目标.  相似文献   
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号