首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 468 毫秒
1.
目前基于分层图注意力网络的单标签文本分类任务存在2方面不足:一是不能较好地对文本特征进行提取;二是很少有研究通过文本与标签之间的联系进一步凸显文本特征。针对这2个问题,提出一种融合标签信息的分层图注意力网络文本分类模型。该模型依据句子关键词与主题关联性构建邻接矩阵,然后使用词级图注意力网络获取句子的向量表示。该模型是以随机初始化的目标向量为基础,同时利用最大池化提取句子特定的目标向量,使得获取的句子向量具有更加明显的类别特征。在词级图注意力层之后使用句子级图注意力网络获取具有词权重信息的新文本表示,并通过池化层得到文本的特征信息。另一方面利用GloVe预训练词向量对所有文本标注的标签信息进行初始化向量表示,然后将其与文本的特征信息进行交互、融合,以减少原有特征损失,得到区别于不同文本的特征表示。在R52、R8、20NG、Ohsumed及MR 5个公开数据集上的实验结果表明,该模型的分类准确率明显优于其它主流基线模型的。  相似文献   

2.
视频异常检测是计算机视觉领域的一个重要研究课题,广泛应用于道路监控、异常事件监测等方面。考虑到异常行为的外观、运动特征与正常行为存在明显差异,提出一种改进型时间分段网络,利用该网络学习视频中的外观和运动信息,从而对视频异常行为进行预测。为了提取更多的视频信息,将RGB图和RGB帧差图相融合作为输入,以提取RGB图中的外观信息并通过RGB帧差图获得更有效的运动特征。将卷积注意力机制模块加入到时间分段网络模型中,从空间和通道2个不同的维度学习注意力图,利用学习到的注意力权重区分异常和正常的视频片段,同时运用焦点损失函数降低大量简单负样本在训练过程中所占的权重,使得模型更专注于难分类的样本,从而解决视频异常检测中正负样本比例不平衡的问题。实验结果表明,改进型时间分段网络在UCF-Crime和CUHK Avenue数据集上的AUC值分别达到77.6%和83.3%,检测性能优于基准方法TSN(RGB流)以及ISTL、3D-ConvAE等方法。  相似文献   

3.
视频异常检测旨在检测视频中的表观异常和运动异常,多示例学习(Multiple Instance Learning, MIL)是目前较先进的弱监督视频异常检测方法,但是MIL提取的C3D特征不能同时描述视频中表观和运动信息,这导致异常检测性能较低.本文提出了利用注意力机制的多示例学习视频异常检测算法(A-MIL),首先提取视频数据的三维特征C3D和光流特征图,并利用Conv-AE提取光流图的特征向量,然后输入至3层全连接神经网络中得到每个示例每种特征的异常分数,接着通过注意力机制获取特征的权重参数,得到最终的示例分数,最后利用改进的MIL排序算法进行模型训练并设置阈值,测试时将异常分数与阈值相比较以判断异常.在公开数据集UCF-Crime上的实验结果表明,本文方法的AUC指标提升了2.79%.  相似文献   

4.
针对当前基于循环神经网络的异常流量检测方法无法并行利用全局流量数据包挖掘时序特征的问题,提出一种基于时空注意力特征的异常流量检测方法。将原始流量以会话为单元切分为网络流,网络流中的数据包均转换为灰度图并归一化;利用卷积网络层提取数据包的空间特征,进而通过多头自注意力机制对流中的全部数据包空间特征并行建模,计算数据包之间显著的时序关联特征表示;将该特征表示输入到全连接神经网络层和Softmax层,输出识别概率完成检测。在UNSW-NB15数据集上的实验结果表明该方法切实可行,相较于对比方法,在取得较高的准确率和精度的同时,保持了最低的误警率。  相似文献   

5.
针对复杂背景和运动条件下视频显著性区域检测准确度不高的问题,本文提出了一个新的时空一致性优化模型,并基于颜色空间分布和运动空间分布特征,结合时空一致性优化方法构建了一个新的时空显著性区域检测模型。首先对视频帧进行超像素分割,然后提取三种具有互补性质的超像素级颜色空间分布特征和两种运动空间分布特征,再利用时空一致性分别融合优化空间显著特征和时间显著特征得到空间显著图和时间显著图。在时空融合阶段,利用时空一致性模型融合空间显著度和时间显著度得到超像素级的时空显著图。为进一步提高检测的准确度和完整度,通过一个能量最小化模型得到更精确的像素级时空显著图。通过与最新的视频显著性模型进行比较,本文算法有更高的准确率,对复杂背景和运动条件有强的鲁棒性。  相似文献   

6.
在视频理解任务中,为了减少行为检测任务中的数据标注成本同时提高检测精度,本文提出一种基于骨骼数据的弱监督视频行为检测方法,使用视频级的类别标注对行为检测网络进行弱监督训练.本文以二维人体骨骼数据和RGB图像数据作为网络输入,利用循环神经网络从骨骼数据中提取时域信息并送入全连接层输出所需的特征.骨骼数据提取的特征与RGB数据提取的特征分别传入注意力网络生成相应的权重,用来生成加权特征与加权时序类别激活图值.最后根据加权特征与加权时序类别激活图值进行行为的分类与时域定位.实验结果表明,所提出的结合人体骨骼数据的算法比有监督算法少使用了数据的时间标注.算法在THUMOS14数据集和ActivityNet1.3数据集上能够提高检测准确率.  相似文献   

7.
为提高单目标多分类(Single Shot MultiBox Detector,SSD)网络模型对输电线防震锤的识别准确率,提出一种融合卷积注意力机制和SSD模型相结合的新方法。该算法采用残差网络ResNet作为骨干网络,引入卷积注意力机制将通道和空间注意力结合,通过压缩提取中间特征和利用权重系数更好地分辨出前景与背景,提高对输电线路中防震锤检测的精度和速度。训练时引入迁移学习策略,克服了模型训练困难问题。实验结果表明,提出的算法不仅提高了检测准确率,计算效率亦得到了提升。与经典SSD算法相比,输电线路的防震锤检测准确率提升了2.5%,检测速度达到了12fps识别效果明显提升,证明了新算法的有效性。  相似文献   

8.
现有的视频烟雾检测方法大多通过运动检测提取疑似烟区,并依据经验手工设计提取烟雾特征,在复杂场景中检测准确率不高。针对以上问题,提出了一种基于时空双路3D残差卷积网络的视频烟雾检测方法,基于混合高斯背景模型与原始视频帧的小波低频分量差进行疑似烟区提取,其次构造时空双路3D残差卷积神经网络,并引入注意力机制加权融合烟雾时空域特征,实现端对端的烟雾识别。实验结果表明,该方法可以得到更为完整的疑似烟区,尤其对于过于稀薄和浓厚的烟雾分割效果较好,且相比于传统的烟雾检测方法和2D的烟雾检测卷积网络,在烟雾检测准确率上得到了提高。  相似文献   

9.
为了解决语音情感识别中时空特征动态依赖问题,提出一种基于注意力机制的非线性时空特征融合模型。模型利用基于注意力机制的长短时记忆网络提取语音信号中的时间特征,利用时间卷积网络提取语音信号中的空间特征,利用注意力机制将时空特征进行非线性的融合,并将非线性融合后的高级特征输入给全连接层进行语音情感识别。实验在IEMOCAP数据集中进行评估,实验结果表明,该方法可以同时考虑时空特征的内在关联,相对于使用线性融合的方法,利用注意力机制进行非线性特征融合的网络可以有效地提高语音情感识别准确率。  相似文献   

10.
针对模拟电路的故障特征难以提取,导致模型计算量复杂、诊断准确率不够高的问题,提出一种基于注意力机制和卷积神经网络(CBAM-CNN)的模拟电路故障诊断方法.首先,利用卷积核提取输入层的图片特征,同时在每个卷积层后面连接一个矫正线性单元(ReLU),并添加批归一化层(BN)解决内部协变量偏移的问题,以提高非线性模型表达能力;然后,在批归一化层后添加注意力机制模块(CBAM),提取重要的特征后连接池化层,降低网络计算复杂度,提高网络的准确率与效率;最后,以Sallen-Key低通滤波器和二级四运放双二阶低通滤波器为研究对象进行故障诊断实验验证.结果表明,所提出方法能够有效提升诊断精度,实现所有故障的高难分类与定位.  相似文献   

11.
在执行视频行人重识别任务时,传统基于局部的方法主要集中于具有特定预定义语义的区域学习局部特征表示,在复杂场景下的学习效率和鲁棒性较差。通过结合全局特征和局部特征提出一种基于时空关注区域的视频行人重识别方法。将跨帧聚合的关注区域特征与全局特征进行融合得到视频级特征表示,利用快慢网络中的两个路径分别提取全局特征和关注区域特征。在快路径中,利用多重空间关注模型提取关注区域特征,利用时间聚合模型聚合所有采样帧相同部位的关注区域特征。在慢路径中,利用卷积神经网络提取全局特征。在此基础上,使用亲和度矩阵和定位参数融合关注区域特征和全局特征。以平均欧氏距离评估融合损失,并将三重损失函数用于端到端网络训练。实验结果表明,该方法在PRID 2011数据集上Rank-1准确率达到93.4%,在MARS数据集上mAP达到79.5%,识别性能优于SeeForst、ASTPN、RQEN等方法,并且对光照、行人姿态变化和遮挡具有很好的鲁棒性。  相似文献   

12.
人体关键点检测任务作为一种像素级别的检测任务,深度学习方法通常采用高分辨率特征图表征方法来回归关键点以增强检测效果。针对该方法由于始终采用高分辨率表征导致的参数量过大、运算复杂度要求过高的问题,提出了两种轻量型基础网络模块为Gattneck模块与Gattblock模块,以HRNet(High-Resolution Network)为基础框架,构建出一种轻量型人体关键点检测网络GattNet(Ghost-attention Network)。通过引入线性变换生成冗余特征图与通道注意力机制对通道权重进行重分配对HRNet进行轻量化改进,使用该方法网络参数量下降41.5%,运算复杂度降低36.7%。在MS COCO(Microsoft Common Objects in Context)2017数据集上进行验证,实验结果表明所提出GattNet网络在保留精度的前提下有效降低了参数量与运算复杂度。  相似文献   

13.
目前多数人体姿态估计方法聚焦于提升预测结果的准确性,从而造成了网络参数量大和运算复杂度高等问题。为缓解该矛盾,在高分辨率网络的基础上提出一种融入注意力和密集连接方式的轻量型人体姿态估计网络。重新设计高分辨率网络中的瓶颈模块,从而降低部分网络运算复杂度;改进引入的注意力机制并结合密集连接方式构建了轻量型模块,将其替换高分辨率网络的基础模块,使网络保持一定准确性的同时大幅缩减模型参数量和运算复杂度;利用多分辨率特征和反卷积重新设计网络输出的特征融合方式,最大程度提升模型预测精度。在公开数据集MPII和COCO上的实验结果表明,相比较于高分辨率网络,所提网络模型参数量减少了71.5%,在MPII验证集上,运算复杂度缩小了35.8%,在COCO验证集上,运算复杂度缩小了35.2%,平均准确率提升了0.6个百分点,即网络能在保证检测精度的基础上有效降低网络复杂度。  相似文献   

14.
YOLOv4计算复杂度高、空间金字塔池化模块仅一次增强特征融合网络的深层区域特征图的表征能力、检测头网络的特征图难以突出重要通道特征;针对以上问题,提出一种基于注意力机制和多空间金字塔池化的实时目标检测算法;该算法采用多空间金字塔池化,提取局部特征和全局特征,融合多重感受野,加强特征融合网络的浅、中、深层特征图的表征能力;引入压缩激励通道注意力机制,建模通道间的相关性,自适应调整特征图各个通道的权重,从而使网络更加关注重要特征;特征融合和检测头网络中使用深度可分离卷积,减少了网络参数量;实验结果表明,所提算法的均值平均精度均高于其他七种主流对比算法;与YOLOv4相比,参数量、模型大小分别减少了27.85 M和106.25 MB,所提算法在降低复杂度的同时,提高了检测准确度;且该算法的检测速率达到33.70 帧/秒,满足实时性要求。  相似文献   

15.
针对单模态特征条件下监控视频的场景识别精度与鲁棒性不高的问题,提出一种基于特征融合的半监督学习场景识别系统。系统模型首先通过卷积神经网络预训练模型分别提取视频帧与音频的场景描述特征;然后针对场景识别的特点进行视频级特征融合;接着通过深度信念网络进行无监督训练,并通过加入相对熵正则化项代价函数进行有监督调优;最后对模型分类效果进行了仿真分析。仿真结果表明,上述模型可有效提升监控场景分类精度,满足针对海量监控视频进行自动化结构化分析等公安业务需求。  相似文献   

16.
针对视频动作识别中的时空建模问题,在深度学习框架下提出基于融合时空特征的时序增强动作识别方法.首先对输入视频应用稀疏时序采样策略,适应视频时长变化,降低视频级别时序建模成本.在识别阶段计算相邻特征图间的时序差异,以差异计算结果增强特征级别的运动信息.最后,利用残差结构与时序增强结构的组合方式提升网络整体时空建模能力.实验表明,文中算法在UCF101、HMDB51数据集上取得较高准确率,并在实际工业操作动作识别场景下,以较小的网络规模达到较优的识别效果.  相似文献   

17.
视频场景识别是机器学习和计算机视觉一个重要的研究领域.但是当前对于视频场景识别的探索工作还远远不够,而且目前提出的模型大都使用视频级的特征信息,忽略了多粒度的视频特征关联.本文提出了一种基于多粒度的视频特征的注意力机制的模型架构,可以动态高效的利用各维度视频信息之间存在的丰富的语义关联,提高识别准确度.本文在中国多媒体大会(CCF ChinaMM 2019)最新推出的VideoNet数据集上进行了实验,实验结果表明基于多粒度的视频特征的注意力机制的模型与传统方法相比具有明显的优越性.  相似文献   

18.
二维卷积难以对视频数据进行有效的时间信息建模。针对这个问题,提出了一个高效的基于二维卷积的时间建模网络。该网络只需要RGB图像作为输入,避免了复杂的光流计算,在低计算复杂度的前提下,可以在行为识别任务中达到先进的准确性。网络主要由两个部分组成,即运动特征增强模块和时序聚集模块。具体来说,运动特征增强模块主要实现短期时序建模,它利用当前帧与相邻帧的差异信息对当前帧中的运动信息进行自适应性的增强,让网络能够了解图像中的哪一部分将要产生运动。时序聚集模块实现长期的时序建模,主要应用于网络的后期,通过二维卷积对时序上的信息进行信息聚合,让每一帧图像经过网络提取特征后,都能够结合时序上所有帧序列的信息。在三个常见的视频动作识别数据集(UCF101、HMDB51和Something-Something V1)上进行的大量实验表明,与大多数现有方法相比,所提出的时序建模网络可以获得先进的识别性能。  相似文献   

19.
为解决目前Transformer模型因其巨大的参数量和计算复杂度而无法应用在计算资源相对有限的移动设备中的问题,提出了一种适用于移动端的友好型轻量图像识别网络称为FuseNet。FuseNet利用卷积神经网络提取局部特征信息和自注意力机制擅长对全局信息进行建模的特性,将局部表示与全局表示两者的特性整合至一个特征提取模块,高效融合了两种不同结构的优点达到以较小的模型规模实现较高准确率的目的。实验证明不同参数规模的FuseNet可以在不进行预训练的情况下实现良好的性能,可以很好地应用在移动设备中。FuseNet-B在ImageNet-1K数据集上以14.8M的参数量实现了80.5%的准确率,性能表现超过了同体量的Transformer模型和卷积神经网络。  相似文献   

20.
石祥滨  李怡颖  刘芳  代钦 《计算机应用研究》2021,38(4):1235-1239,1276
针对双流法进行视频动作识别时忽略特征通道间的相互联系、特征存在大量冗余的时空信息等问题,提出一种基于双流时空注意力机制的端到端的动作识别模型T-STAM,实现了对视频关键时空信息的充分利用。首先,将通道注意力机制引入到双流基础网络中,通过对特征通道间的依赖关系进行建模来校准通道信息,提高特征的表达能力。其次,提出一种基于CNN的时间注意力模型,使用较少的参数学习每帧的注意力得分,重点关注运动幅度明显的帧。同时提出一种多空间注意力模型,从不同角度计算每帧中各个位置的注意力得分,提取多个运动显著区域,并且对时空特征进行融合进一步增强视频的特征表示。最后,将融合后的特征输入到分类网络,按不同权重融合两流输出得到动作识别结果。在数据集HMDB51和UCF101上的实验结果表明T-STAM能有效地识别视频中的动作。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号