首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 453 毫秒
1.
针对人机协作特殊场景中工人行为识别的问题,提出基于Transformer网络的视频人体行为识别模型,利用Transformer网络核心的自注意力机制,减少网络的结构复杂度,提升网络的性能.模型在提取图像空间特征的基础上,增加时间特征的分析,从空间和时间2个维度实现对视频数据的处理.在处理后的数据中提取分类向量传入分类模块,得到最终的识别结果.为了验证模型的有效性,分别在公开数据集UCF101和实验室采集的工人常规行为(自建)数据集上进行人体行为识别实验.实验结果显示,在UCF101上模型平均识别准确率为93.44%,在自建数据集上模型平均识别准确率为98.54%.  相似文献   

2.
为了解决在遥感图像语义分割任务中存在的目标物体之间巨大尺度差异和丢失空间细节信息导致分割精度下降的问题,提出多尺度互注意力与指导上采样网络.利用多尺度互注意力模块获得不同尺度图像之间的像素关系,平衡不同尺度物体的权重,提高小尺度物体的分割性能.编码指导上采样模块利用编码结构中的信息,指导图像上采样的过程,融合空间细节信息,提升目标物体边界像素的分类效果.在Potsdam数据集和Jiage数据集上的m IoU得分分别为85.52%和86.59%,较次优网络分别提升了1.32%和1.46%.  相似文献   

3.
为了从医疗图像中自动且准确地提取兴趣区域, 提出基于神经网络的分割模型MS2Net. 针对传统卷积操作缺乏获取长距离依赖关系能力的问题, 为了更好提取上下文信息, 提出融合卷积和Transformer的架构. 基于Transformer的上下文抽取模块通过多头自注意力得到像素间相似度关系, 基于相似度关系融合各像素特征使网络拥有全局视野, 使用相对位置编码使Transformer保留输入特征图的结构信息. 为了使网络适应兴趣区域形态的差异, 在MS2Net中应用解码端多尺度特征并提出多尺度注意力机制. 对多尺度特征图依次应用分组通道和分组空间注意力, 使网络自适应地选取合理的多尺度语义信息. MS2Net在数据集ISBI 2017和CVC-ColonDB上均取得较U-Net、CE-Net、DeepLab v3+、UTNet等先进方法更优的交并比指标, 有着较好的泛化能力.  相似文献   

4.
针对深度卷积神经网络重建磁共振图像存在的高频细节纹理丢失问题,本文提出一种注意力机制的多尺度特征融合磁共振成像(magnetic resonance imaging, MRI)重建。在U-Net模型基础上,采用参考图像的特征,约束低分辨磁共振图像的重建,并引入多尺度特征挤压注意力(multi-scale feature squeeze attention, MFSA)模块,建立跨通道信息交互,在通道维度上对多尺度特征层进行特征提取并融合,强化高频细节纹理的特征信息,提高磁共振图像重建的分辨率。同时,为验证所提注意力模块的有效性,保持其他参数不变,在测试集上分别对网络加入的注意力模块前后进行对比实验。实验结果表明,本文所提出的MFSA,能提高图像的重建质量,使图像获得更丰富的信息,各项指标均达到最优,重建结果纹理清晰,接近于真实图像,更能满足人类的视觉感受,而且网络在峰值信噪比和结构相似性等质量评价指标方面均得到较大改善,在定量评估上明显优于其他网络,而且通过不同尺度注意力相融合,使网络在小数据集上就可明显提升图像的感知质量。该研究具有较大的应用价值。  相似文献   

5.
现有的低光去雾算法因受图像光照强度低、光照不均匀等影响,其去雾后的图像存在细节丢失、色彩失真等现象。针对上述问题,提出一种融合上下文感知注意力的低光图像去雾网络(ACANet)。首先,在基准网络中引入层内上下文感知注意力模块,分别从通道维度和空间维度结合全局视角辨识和加权同一尺度下的重要特征,使网络突破局部视野的约束,更加高效地提取图像纹理信息;其次,引入层间上下文感知注意力模块,通过投影操作将高级特征映射到信号子空间,以实现不同层之间多尺度特征信息的高效融合,进一步提升对图像细节的重建;最后,引入CIEDE2000色偏损失函数,通过CIELAB色彩空间对图像色调进行约束,并与L2损失一起联合优化网络,使网络准确地学习图像色彩,以解决图像的严重色偏问题。实验结果表明,所提算法在多个数据集上的客观指标均优于现有去雾算法,其峰值信噪比指标较基准网络提高了8.8%,且主观去雾效果更彻底,恢复图像细节更丰富,色彩还原度更好,更接近于真实图像。  相似文献   

6.
微表情是人们试图隐藏自己真实情绪时不由自主泄露出来的面部表情,是近年来情感计算领域的热点研究领域.微表情是一种细微的面部运动,难以捕捉其细微变化的特征.本文基于交叉注意力多尺度ViT (CrossViT)在图像分类领域的优异性能以及能够捕捉细微特征信息的能力,将CrossViT作为主干网络,对网络中的交叉注意力机制进行改进,提出了DA模块(Dual Attention)以扩展传统交叉注意力机制,确定注意力结果之间的相关性,从而提升了微表情识别精度.本网络从三个光流特征(即光学应变、水平和垂直光流场)中学习,这些特征是由每个微表情序列的起始帧和峰值帧计算得出,最后通过Softmax进行微表情分类.在微表情融合数据集上,UF1和UAR分别达到了0.727 5和0.727 2,识别精度优于微表情领域的主流算法,验证了本文提出网络的有效性.  相似文献   

7.
针对带标注的肺CT图像数据匮乏而导致的深度学习模型训练困难,以及现有生成算法生成肺结节不同特征模糊、细节丢失的问题,提出了肺结节图像的数据增强RAU-GAN算法。首先,在生成器网络中嵌入残差注意力模块,该模块可以聚焦于局部不同的感兴趣区域,以实现肺结节与背景信息的独立生成,并且重新设计了注意力模块中的残差块来减少网络的深度和训练的复杂度。其次,将判别器设计为U-Net架构,可以给更新后的生成器反馈更多信息,以提高判别性能。最后,在数据集LUNA16和Deep Lesion上进行实验,结果与现有方法相比,在视觉效果和不同评价指标上均有提升,验证了生成图像包含了更丰富的细节信息。  相似文献   

8.
基于软注意力机制的图像描述算法,提出类激活映射-注意力机制的图像描述方法。利用类激活映射算法得到卷积特征包含定位以及更丰富的语义信息,使得卷积特征与图像描述具有更好的对应关系,解决卷积特征与图像描述的对齐问题,生成的自然语言描述能够尽可能完整的描述图像内容。选择双层长短时记忆网络改进注意力机制结构,使得新的注意力机制适合当前全局和局部信息的特征表示,能够选取合适的特征表示生成图像描述。试验结果表明,改进模型在诸多评价指标上优于软注意力机制等模型,其中在MSCOCO数据集上Bleu-4的评价指标相较于软注意力模型提高了16.8%。类激活映射机制可以解决图像空间信息与描述语义对齐的问题,使得生成的自然语言减少丢失关键信息,提高图像描述的准确性。  相似文献   

9.
针对水下图像颜色失真、关键信息模糊和细节特征丢失的问题,提出一种基于SK注意力残差网络的水下图像增强方法.该方法通过改进生成对抗网络中的生成器结构,引入残差模块,减少编码器和解码器之间的特征丢失,增强了图像细节和颜色.为了使网络能适应不同尺度的特征图提取图像关键信息,该方法在残差模块后添加SK注意力机制,采用参数修正线性单元来提高网络的拟合能力.将本文方法分别在真实和合成的水下图像数据集中进行验证,采用传统方法和深度学习的方法进行主客观评价.在主观效果分析中发现,本文方法增强后的图像颜色、关键信息和细节特征都有很大提升.在客观评价指标中发现,本文方法指标值均高于现有的水下图像增强算法,验证了该算法的有效性.  相似文献   

10.
遥感图像存在背景复杂、目标尺度差异大且密集分布等不足,为提高现有算法的检测效果提出联合多尺度与注意力机制的遥感图像目标检测算法. 改进空洞空间金字塔池化模块,增大不同尺寸图像的感受野;提出注意力模块用于学习特征图通道信息和空间位置信息,提升算法对复杂背景下遥感图像目标区域的特征提取能力;引入加权双向特征金字塔网络结构与主干网结合来增进多层次特征的融合;使用基于距离的非极大值抑制方法进行后处理,改善检测框易重叠的问题. 在DIOR和NWPUVHR-10数据集上的实验结果表明:所提算法的平均精度均值mAP分别达到71.6%和91.6%,相比于主流的YOLOv5s算法分别提升了2.9%和1.5%. 所提算法对复杂遥感图像取得了更好的检测效果.  相似文献   

11.
针对现有商标特征提取方法无法有效捕捉重点区域的关键信息和图像标注成本过高的问题,提出一种基于注意力机制的无监督商标检索方法。该方法基于实例区分算法,将注意力模块同时运用在神经网络特征映射层的空间维度和通道维度上,通过对各个通道进行权重的分配以及对空间变换参数的学习,增强无监督网络的特征表达能力。该方法在公开的商标数据集上进行了验证,实验表明检索效果优于传统的商标检索方法,甚至优于一些有监督商标检索方法。  相似文献   

12.
近来,视觉Transformer (vision transformer, ViT)在图像识别领域取得突破性进展,其自我注意力机制(self-attention mechanism, MSA)能够提取不同像素块的判别性标记信息进而提升图像分类精度,但其深层中的分类标记容易忽略层级之间的局部特征,此外,嵌入层将固定大小的像素块输入网络,不可避免地引入额外的图像噪声。为此,本文研究了一种基于数据增强的视觉 Transformer(data augmentation vision transformer, DAVT),并提出注意力裁剪的数据增强方法,以注意力权重为指导裁剪图像,提高网络学习关键特征的能力。其次,本文还提出层级注意力选择方法(hierarchical attention selection, HAS),它通过对层级之间标记进行筛选并融合,提升网络学习层级之间判别性标记的能力。实验结果表明,该方法在CUB-200-2011和Stanford Dogs两个通用数据集上的准确率优于现有的主流方法,其准确率比原始ViT分别提高1.4%和1.6%。  相似文献   

13.
人脸超分辨网络(FSRNet)使用人脸几何先验信息优化人脸超分辨率,可以从低分辨率人脸图像生成逼真的高分辨率人脸图像,但FSRNet生成的超分辨率图像存在伪影.对其关键模块进行了改进,并引入了新的损失函数.直接输入16×16像素的低分辨率图像,最后使用转置卷积函数放大图像,降低了计算复杂度,提升了粗略超分辨网络的性能.通过两步训练法,解决网络训练时调参困难的问题.引入热图损失、面部注意力损失和对抗性损失训练,提高超分辨率人脸图像的质量.实验结果证明,采用改进后的方法,可以生成面部细节更加清晰的高质量人脸图像.  相似文献   

14.
为了解决眼底血管分割中存在的分割效果不佳、数据过拟合和正负样本不均衡等问题,提出了一种转换器(Transformer)和多层感知机(MLP)结合的眼底血管分割算法。首先,为预防数据过拟合问题,训练图像在输入模型前会执行多种数据增强操作;其次,设计一个融合了卷积模块的Transformer组成多尺度编码器对图像进行特征提取,以此获得鲁棒的多级特征信息;最后,使用MLP结构的解码器对特征图完成像素级的分类。为解决正负样本不均衡的问题,引入了Tversky损失和二进制交叉熵损失的组合损失函数。所提算法在多个数据集上都取得了良好的实验结果,优于现有的其他网络模型算法。  相似文献   

15.
针对现有卷积神经网络在超分辨率重建的图像上存在部分细节特征不够突出、边缘模糊等问题,在现有模型三大模块的基础上对映射模块及损失函数进行细致剖析,提出了一种多映射卷积神经网络的超分辨率重建算法.该算法通过构建多映射网络,极大地丰富了图像在聚合高分辨图像时的特征维度.同时在重建模块的卷积层后引入全变分正则项,结合误差反向传播算法,可有效地对解空间约束,从而提取出精确、有效的特征,丰富重建图像的细节信息.在常用数据集上的实验结果表明,该算法生成的网络模型获得了更好的超分辨率结果,主观视觉评价和客观衡量指标有一定的改进,有效地提高了图像的分辨率.  相似文献   

16.
为了增加新闻推荐的辅助信息并提高预测精度,提出基于Transformer和知识图谱的新闻推荐方法.为了结合新闻语义信息和实体信息,利用自注意力机制获取新闻单词之间和新闻实体之间的联系,采用加法注意力机制捕捉单词和实体对新闻表示的影响.考虑到用户对新闻的偏好具有时序性特点,引入Transformer以捕捉用户点击新闻间的关联信息及用户兴趣随时间的变化情况.利用知识图谱中的高阶结构信息,融合候选新闻邻接实体,提升候选新闻嵌入向量所含信息的完整性.在2个版本的MIND新闻数据集上与5个典型推荐方法的对比实验表明,注意力机制、Transformer和知识图谱的引入提高了算法在新闻推荐方面的表现.  相似文献   

17.
为了提升关系网络图像分类的准确度,在网络中引入多尺度通道注意力机制,提出了一种新的小样本图像分类算法.由于多尺度通道注意力机制能够关注样本特征空间的重要信息,该方法能够提取图像更丰富的多尺度特征,并通过关系度量,改善了分类结果.实验结果表明,在MiniImageNet和Omniglot数据集上,该算法对图像分类精度有明显的提高.  相似文献   

18.
为了提高高光谱图像在有限训练样本下的分类性能,提出了一种基于双池化注意力机制的高光谱图像分类网络(DPAMN).首先,采用三维卷积提取高光谱图像的空间和光谱浅层信息.其次,为了增强网络的特征提取能力,在DPAMN中引入了一种双池化注意力机制.最后,在网络的深层引入三维卷积密集连接模块,该模块不仅能够充分提取高光谱图像的空间和光谱特征,同时还能提高特征的判别能力.实验结果表明,在Indian Pines、University of Pavia、Salinas以及Houston 2013数据集上分别取得95.45%、97.11%、95.30%以及93.71%的整体平均精度,与目前主流的已有先进方法相比,所提出的方法在4个数据集上均有较大提升,表明所提方法具有较强的泛化能力.  相似文献   

19.
雨纹分布和形状具有多样性,现有去雨算法在去雨的同时会产生图像背景模糊、泛化性能差等问题.因此,本文提出一种基于注意力机制的多尺度特征融合图像去雨方法.特征提取阶段由多个包含两个多尺度注意力残差块的残差组构成,多尺度注意力残差块利用多尺度特征提取模块提取及聚合不同尺度的特征信息,并通过坐标注意力进一步提高网络的特征提取能力.在组内进行局部特征融合,组间利用全局特征融合注意力模块更好地融合不同层次的特征,通过像素注意力使网络重点关注于雨纹区域.在仿真和真实雨像数据集上与其他现有图像去雨算法相比,本文方法的定量指标有着明显提高,去雨后的图像视觉效果较好且具有良好的泛化性.  相似文献   

20.
为了准确地评估VR视频引起不适的程度,提出基于3D双流卷积神经网络的VR病评估模型.模仿人类视觉系统的2条通路,建立外观流和运动流2个子网络;将2D-ResNet50模型改为3D模型,增加一个深度通道,用以学习视频中的时序信息.加入3D-CBAM注意力模块提高了各帧通道之间的空间关联,增强关键信息,去除冗余信息.采用后端融合的方法,实现2个子网络结果的融合.在公开视频数据集上进行实验验证,结果表明,通过3D-CBAM注意力模块引入注意力机制,使得外观流和运动流网络的VR病评估精度分别提升了1.7%和3.6%,与现有文献相比,融合的双流网络模型的精度得到了较大的提升,精度达到93.7%.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号