首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
复杂场景中的目标感知是深度学习在计算机视觉中最重要的研究领域之一,而复杂交通场景中的车辆检测与跟踪是当今众多学者研究的热点问题。在视频目标检测过程中由于运动物体的时间维度特征信息利用不充分,导致在长序列之间的时间特征极其容易被忽略,本文提出一种时空一致性的视频车辆的检测跟踪算法。该算法由双分支网络结构组成:分支一是由基于空间相关性的Transformer网络模块组成,该分支网络主要用于判断前后帧的相关性、感知相邻帧之间的一致性,预测目标车辆时空一致性的关联度;另一网络分支是由基于交叉特征金字塔融合的网络模块组成,该模块主要是提取检测对象的局部信息结合浅层的空间边缘信息和深层的语义特征信息,提取对象空间位置的特征信息。该网络结构将Transformer机制和交叉特征金字塔模块相结合,利用Transformer对长序列之间时间关联性敏感和特征金字塔网络模块对边缘信息敏感的特性,对视频帧对象进行检测和跟踪,确保相邻帧的长程相关性以及边缘和深层的特征信息深度融合。实验结果表明,本文设计的双分支网络结构在视频目标跟踪和检测中取得更好精度和更快的收敛速度;同时在显著性视频目标检测中,实验表明算法的...  相似文献   

2.
社交平台上文本和图像相结合的多模态谣言比纯文本谣言更易于误导用户,因此研究多模态的谣言检测方法具有重要意义。现有方法大多只是对各个模态特征直接进行向量拼接,忽略了模态间联系,不能充分利用多模态信息。为了解决上述问题,提出了一种基于双预训练Transformer和交叉注意力机制的多模态谣言检测模型:首先使用预训练的Transformer(BERT和ViT)分别提取文本单词和图像的特征,克服了训练样本小的局限性;然后使用交叉注意力机制将文本和视觉特征进行特征融合,充分地学习到两种模态间的潜在联系;最后将得到的多模态融合特征输入谣言检测模块进行分类。实验结果表明,该模型在Twitter和微博数据集上的检测性能均高于多模态基准模型,有效性和泛化性进一步提升。  相似文献   

3.
为了提高机器人在复杂的室内环境中场景识别的准确率,本文提出一种融合卷积神经网络(convolutional neural network, CNN)和视觉Transformer结构的机器人室内场景识别模型。本文模型利用CNN提取场景局部特征,然后使用视觉Transformer结构捕捉特征中远距离依赖关系,其中提出的视觉Transformer结构包括3个部分,分别是特征编码结构(Attention Embedding)、Encoder结构和一个将高层语义特征转化成像素级特征的结构(Attention Project)。本文研究的机器人场景识别模型利用CNN提高视觉Transformer局部细节特征的描述能力,同时通过视觉Transformer帮助CNN构建远距离特征的依赖关系,从而能够有效的表征和利用机器人工作场景图像的视觉特征。最后,通过机器人在实际工作环境中采集的数据集和开源的COLD数据集进行实验,验证了本文研究模型的有效性,场景识别精度更高。  相似文献   

4.
人体动作识别是计算机视觉领域的研究热点之一,在人机交互、视频监控等方面具有深远的理论研究意义。为了解决2D CNN无法有效获取时间关系等问题,利用Transformer在建模长期依赖关系上的优势,引入Transformer架构并将其与2D CNN相结合用于人体动作识别,以更好地捕获上下文时间信息。首先使用融合通道-空间注意力模块的2D CNN提取强化的帧内空间特征,其次利用Transformer捕捉帧间的时间特征,最后应用MLP Head进行动作分类。实验结果表明在HMDB-51数据集和UCF-101数据集上分别达到了69.4%和95.5%的识别准确度。  相似文献   

5.
针对感应电机多源监测数据利用率不高,难以有效融合多传感器信息进行电机故障的准确识别等问题,提出了一种多模态堆叠自动编码器模型(MSAE)。该模型直接从原始信号中获取其最为显著的特征向量,有效减少了手动提取特征指标造成的故障信息遗漏,并能学习到多源信号的共享表示实现多源融合的故障诊断,为融合多传感器信息的设备故障诊断提供了新思路。实验证明,与使用单一传感器信息的堆叠自动编码器模型、具有同样隐藏层结构的多层感知机以及使用手动提取特征的支持向量机相比,提出模型具有最高的诊断准确率(94.84%),并在振动信号被噪声损坏的情况下展现了良好的适应性。因此该方法可用于多传感器融合的感应电机故障诊断。  相似文献   

6.
针对现行电力巡检方法对于高似然目标区分能力较差、检测速度较慢等问题,提出TR-YOLOv5模型。在网络第0层引入卷积注意力机制模块(CBAM),加强网络对细粒度特征的提取能力,并在网络最深层借助Transformer注意力进行编码,加强语义信息的传递能力。对于模型残差结构中的3×3卷积进行秩分解,压缩模型的冗余参数量。在特征融合阶段提出GPAN结构,以GSPP控制各尺度的变换,提高特征融合对各尺度信息的融合。在主干网络与同尺度特征融合结构的连接中加强了语义信息的融合,提高模型的检测能力。在模型训练过程中,以边框回归损失函数(SIOU)和CrossEntropy Loss作为IOU和分类损失回归函数提高模型的定位、分类能力。将训练完成的模型采用PyQt进行封装,提高了人机交互体验。实验结果表明,TR-YOLOv5模型检测平均精度值(mAP)达到97.1%,模型浮点运算量减少到3.6 GFLOPs。消融实验与对比试验证明了TR-YOLOv5模型能有效解决电力巡检过程中的前述问题。  相似文献   

7.
为了避免因疲劳驾驶而导致交通事故的发生,维护城市道路交通和驾乘人员生命安全,该项目针对传统疲劳驾驶检测方法存在着精度低、参数复杂、泛化能力差等核心问题,采用MTCNN模型和基于红外的rPPG等理论,在光照变化、部分遮挡和头部偏转等复杂行车环境下精确提取驾驶员面部与生理信息;同时在深层挖掘多模态的特定疲劳信息后,结合多损失重构(MLR)的特征融合模块利用各模态间的互补信息,避免了单模态检测方法存在的局限性,进一步构建了多模态特征融合模型,增强模型的准确性与鲁棒性;最后考虑到疲劳的时序性,基于Bi-LSTM模型建立了疲劳驾驶检测模块。在自制数据集FAHD上展开实验,证明了红外生理特征提取模型的可靠性,多模态特征输入的有效性,同时与现有融合方法相比,本文方法融合后的预测结果与疲劳标定值间的相关系数提高了5.6%,均方根误差减少25%,疲劳检测系统准确率达到了96.7%,在推动智慧交通发展的同时对维护交通安全也有较好的积极意义。  相似文献   

8.
基于参考帧的多视点视频信息隐藏算法   总被引:1,自引:0,他引:1  
提出了一种用于多视点视频的信息隐藏算法。在多视点视频编码的运动估计和补偿过程中,通过调制编码块所采用的参考帧序号实现信息嵌入。为了保持最优参考帧概率分布规律不变,根据统计分析对参考帧进行了优化分组。优化分组还将相似的参考帧映射为不同的分组,从而降低了信息嵌入对编码码率的影响。提取嵌入信息时不需要原始视频。实验结果表明,算法保持了最优参考帧的概率分布规律,且能较好地保持视频质量,没有引起码率的显著增长。  相似文献   

9.
针对工业场景目标工件跟踪任务精度低、失败率高的问题,提出了多尺度Transformer在线更新的工件跟踪算法。首先,采用Transformer特征金字塔结构,融合多层次特征信息,以实现鲁棒的对目标表观建模;其次,使用Transformer模块对高级语义信息进行特征融合,使得网络模型专注于目标工件本身;然后,提出了基于排序的交并化(IoU)损失函数优化策略,有效地抑制干扰物对跟踪器影响;最后,设计一种在线更新策略更新目标模板,增强网络的鲁棒性。实验结果表明,在VOT-2018上准确率和失败率分别比基准跟踪器提高3.8%和4.1%,且能保持53 fps的实时跟踪速度;在LaSOT数据集上精度与成功率别为0.578和0.573,均优于基准跟踪器。通过CCD工业相机采集视频序列验证算法可以准确且鲁棒的跟踪目标工件。  相似文献   

10.
现有的视频描述生成方法提取的特征及特征组合的方式较为简单,导致模型丢失了部分与视频描述相关的重要语义信息,限制了对视频内容的准确描述和理解。分析存在的不足,提出了一种基于增强全局-局部特征融合的视频描述生成方法。首先采用不同特征提取器分别对视频片段提取局部特征和全局特征,为了建模不同级别特征(局部和全局)的相关性,利用特征融合增强网络进行特征融合,丰富模型的特征信息。解码器使用的双向长短期记忆网络,并在其后加入重构网络,重构经编码器处理得到的视频特征序列,最终经过长短期记忆网络生成视频的描述语句。在MSVD与MSR-VTT数据集上的实验结果表明,提出的模型可以显著提高生成的描述语句的准确性。  相似文献   

11.
为有效解决传统视频人脸表情识别通常只关注单张视频帧的空间特征,而忽略了相邻帧之间隐藏的时间特征的问题,提出一种结合边缘检测和递归神经网络的视频表情识别方法,利用梯度边缘检测准确地提取输入图像的纹理信息,同时提出一种分片交叉LSTM结构,提取出图像序列中隐藏的时空特征。实验在CK+和MMI视频库上进行,在OCNN-RNN网络中分别取得88.4%和69.7%的识别率,在GCNN-RNN网络中分别取得89.8%和73.6%的识别率,最终使用提出的加权随机搜索方法融合GCNN-RNN和OCNN-RNN两个网络之后,分别取得了94.6%和79.9%的识别率,均优于单流网络算法,证明了所提算法的有效性。  相似文献   

12.
不确定目标物自动识别是研发无人化智能起重装卸系统的关键,目前有效的技术是基于深度学习的实例分割。设计了一个融合CNN和Transformer的异构特征信息的模块,以解决当前实例分割主干网络存在的提取图像全局上下文特征信息的能力有限、卷积算子难以对感受野的长程相关性进行建模、以及识别纹理特征单一目标时缺乏足够的深度线索等问题。通过利用Transformer建模全局依赖关系,并与CNN提取局部信息的能力相融合;然后通过引入Dense RepPoints检测网络构建了针对不确定目标物的实例分割网络,实现准确分割且能分割其不同表面。应用实验结果表明本方法具有达到很好的实例分割效果,AP达到9882%、mIoU达到9189%,分别比目前同类的研究成果提升了495%和542%。  相似文献   

13.
针对电力监控视频有时分辨率不高问题,提出了一种基于深度学习的电力监控视频超分辨率重建方法。该方法首先采用卷积神经网络对输入视频帧进行特征提取,从输入视频帧序列两端按时间顺序将所有支持帧逐帧对齐到目标帧,并采用时间与空间自注意力机制将支持帧特征逐帧融合到目标帧。然后引入多尺度特征学习机制,对特征融合后的目标帧使用多分支特征选择重建网络进行超分辨率重建。最后采用公共数据集和电力视频数据集对该方法进行了训练。测试结果表明,所提方法的峰值信噪比与结构相似性指标均值分别达27.08和0.819,能有效提高电力监控视频的分辨率和视觉效果。  相似文献   

14.
带钢表面缺陷检测已成为保证带钢生产质量的重要环节之一。 针对当前带钢缺陷检测算法精度有待提高等问题,提出 了一种基于 YOLOv5 网络改进的算法模型 MT-YOLOv5。 首先在主干网络中引入 Transformer 自注意力机制,使主干网络更聚焦 于图像全局特征信息的提取;其次采用 T-BiFPN 网络结构,将 Transformer 层与 BiFPN 网络结构相结合,进一步增强了图像浅层 特征信息与深层特征信息的融合;然后引入改进后的轻量化网络 RepVGG 替换主干网络中的部分卷积层,增强主干网络的特征 提取能力;最后增加预测层,检测不同尺度的目标。 实验结果表明,MT-YOLOv5 算法在 NEU-DET 数据集上的均值平均精度 (mAP)达到了 82. 4%,较原 YOLOv5s 算法提高了 5. 3%,检测速度为 65. 4 fps,更好地均衡了检测速度与检测精度。  相似文献   

15.
针对跨模态行人重识别过程中,模态差异导致难以提取充分的辨别性身份特征的问题,提出一种颜色随机化数据增强算法,并设计了基于全相关注意力的双流多分支网络模型。模型以ResNet-50为骨干网络,首先,对输入样本进行颜色随机化处理,提高模型的颜色风格鲁棒性;采用双流网络,在网络浅层设置权重参数非共享模式,分别用于处理可见光图像和红外图像;其次,提出全相关注意力,从空间和通道维度获得不同像素的关联程度,提高模型对于结构信息的提取能力;最后,采用多分支结构提取多尺度全局特征和局部特征增强提取特征的判别性。实验结果表明,所提方法在SYSU-MM01数据集的全搜素测试模式下,Rank-1和平均精度均值(mAP)分别达到70.01%和67.40%,优于其他方法。  相似文献   

16.
及时发现并诊断变电站运行中设备存在的问题,是保障电网安全运行的关键手段之一.基于深度网络与知识图谱技术,提出一种关联变电站设备多模态信息的故障智能诊断方法.利用深度学习技术和知识图谱方法对采集的多模态数据进行知识提取和融合,构建一个多模态信息融合的语义知识图谱;使用YOLOv4算法对故障样本聚类并提取先验框参数;将多模...  相似文献   

17.
基于高密度遮挡下鸟巢识别正确率低的问题,提出一种基于Transformer技术改进的Yolov5变电站鸟巢识别算法模型。首先将现有Yolov5算法原本的Yolo预测头(Yolo Prediction Heads)替换为Transformer预测头(Transformer Prediction Heads,TPH),同时,为了提高对小物体的检测能力新增了一个预测头。然后嵌入卷积注意力模块(Convolutional Block Attention Module,CBAM),提取注意区域,以抵制干扰信息,关注有用的目标对象。最后利用CSPDarknet53结构设计思想,提取最终的特征图,经CSP模块将输出的特征图进行快速降维。实验结果表明,对比Yolov5算法,TPH-Yolov5算法的mAP(Meanaverage Precision)值提高了15.7%。  相似文献   

18.
负荷辨识技术可快速辨识电器类型,在家庭能量管理、危险用电预警、响应潜力评估等方面具有重要作用。针对现有负荷辨识方法多关注负荷长期或短期单尺度特征,导致特征表征能力不足而使模型识别精度和泛化性能受限的问题,提出一种基于多尺度特征融合的负荷辨识及其可解释交互增强方法。首先,从负荷采样数据中提取高频尺度的短期特征和中、低频尺度的长期特征,构建双塔结构的深层特征提取网络以利用网络的不同分支高效率挖掘各尺度深层特征。其次,设计自注意力与交叉注意力相结合的特征融合网络以实现负荷长、短期特征融合,提高模型的特征利用程度。然后,采用度量学习的训练方法,拉近同类型样本的特征距离,提升特征融合的效率和效果。最后,利用基于梯度的可解释分析方法量化特征的重要性,实现自适应的特征增强与结合专家交互的模型调优。实验结果说明所提模型识别精度与泛化能力均优于现有模型,且可解释分析验证了其有效性源于多尺度特征的充分利用。  相似文献   

19.
针对传统人体行为识别算法不能有效抑制空间背景信息,网络间缺乏信息交互,以及无法对全局时间相关性进行建模的问题,提出一种基于分割注意力的特征融合卷积神经网络-双向长短时记忆网络(CNN-Bi-LSTM)人体行为识别算法。首先以一定采样率采样30帧图像,通过分割注意力网络提取图像的深度特征,并引入特征融合机制增强不同卷积层间的信息交互;然后将深度特征输入到Bi-LSTM网络对人体动作的长时时间信息建模,最后使用Softmax分类器对识别结果进行分类。相较于传统双流卷积网络,该算法在UCF101和HMDB51数据集上的准确率分别提高了6.6%和10.2%,有效提高了识别准确率。  相似文献   

20.
针对当前网络流量瞬时涌现导致网络安全事故骤增、网络管理负担加重等问题,基于深度学习技术提出了ResNet和一维Vision Transformer并行的网络结构对网络流量进行识别并分类。其中ResNet可以提取到流量数据在空间上深层次的特征,能够保证流量识别的准确率;一维Vision Transformer可以提取到更具代表性的时序特征。利用注意力机制将两种特征进行自适应融合得到更全面的特征表示,以提高网络识别流量的能力。在ISCX VPN-nonVPN数据集上进行实验表明:所提方法在流量的应用程序分类实验中的准确率达到了99.5%,相较于单独的ResNet和一维Vision Transformer以及经典的一维CNN和CNN+长短时记忆网络分别提高了0.9%、3.6%、6.6%和3.3%。在USTC-TFC 2016数据集上,所提方法在能够轻松识别流量是否为恶意流量的基础上,实现了对13种应用程序的分类,且平均分类准确率达到了98.92%,证明了其具有识别恶意流量并完成细粒度分类任务的能力。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号