首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 187 毫秒
1.
方面级多模态情感分类任务的一个关键是从文本和视觉两种不同模态中准确地提取和融合互补信息, 以检测文本中提及的方面词的情感倾向. 现有的方法大多数只利用单一的上下文信息结合图片信息来分析, 存在对方面和上下文信息、视觉信息的相关性的识别不敏感, 对视觉中的方面相关信息的局部提取不够精准等问题, 此外, 在进行特征融合时, 部分模态信息不全会导致融合效果一般. 针对上述问题, 本文提出一种注意力融合网络AF-Net模型去进行方面级多模态情感分类, 利用空间变换网络STN学习图像中目标的位置信息来帮助提取重要的局部特征; 利用基于Transformer的交互网络对方面和文本以及图像之间的关系进行建模, 实现多模态交互; 同时补充了不同模态特征间的相似信息以及使用多头注意力机制融合多特征信息, 表征出多模态信息, 最后通过Softmax层取得情感分类的结果. 在两个基准数据集上进行实验和对比, 结果表明AF-Net能获得较好的性能, 提升方面级多模态情感分类的效果.  相似文献   

2.
在网络购物平台上,简洁、真实、有效的产品摘要对于提升购物体验至关重要。网上购物无法接触到产品实物,产品图像所含信息是除产品文本描述外的重要视觉信息,因此融合包括产品文本和产品图像在内的多模态信息的产品摘要对于网络购物具有重要的意义。针对融合产品文本描述和产品图像的问题,提出一种融合多模态信息的产品摘要抽取模型。与一般的产品摘要任务的输入只包含产品文本描述不同,该模型引入了产品图像作为一种额外的信息来源,使抽取产生的摘要更丰富。具体来说,首先对产品文本描述和产品图像分别使用预训练模型进行特征表示,从产品文本描述中提取每个句子的文本特征表示,从产品图像中提取产品整体的视觉特征表示;然后使用基于低阶张量的多模态融合方法将每个句子的文本特征和整体视觉特征进行模态融合,得到每个句子的多模态特征表示;最后将所有句子的多模态特征表示输入摘要生成器中以生成最终的产品摘要。在CEPSUM (Chinese E-commerce Product SUMmarization) 2.0数据集上进行对比实验,在CEPSUM 2.0的3个数据子集上,该模型的平均ROUGE-1比TextRank高3.12个百分点,...  相似文献   

3.
针对可见光模态与热红外模态间的差异问题和如何充分利用多模态信息进行行人检测,本文提出了一种基于YOLO的多模态特征差分注意融合行人检测方法.该方法首先利用YOLOv3深度神经网络的特征提取主干分别提取多模态特征;其次在对应多模态特征层之间嵌入模态特征差分注意模块充分挖掘模态间的差异信息,并经过注意机制强化差异特征表示进而改善特征融合质量,再将差异信息分别反馈到多模态特征提取主干中,提升网络对多模态互补信息的学习融合能力;然后对多模态特征进行分层融合得到融合后的多尺度特征;最后在多尺度特征层上进行目标检测,预测行人目标的概率和位置.在KAIST和LLVIP公开多模态行人检测据集上的实验结果表明,提出的多模态行人检测方法能有效解决模态间的差异问题,实现多模态信息的充分利用,具有较高的检测精度和速度,具有实际应用价值.  相似文献   

4.
探索高效的模态表示和多模态信息交互方法一直是多模态虚假新闻检测领域的热门话题,提出了一项新的虚假新闻检测技术(MAM)。MAM方法使用结合位置编码的自注意力机制和预训练的卷积神经网络分别提取文本和图像特征;引入混合注意力机制模块进行文本与图像特征交互,该模块使用了层级特征处理方法来减少多模态交互时产生的冗余信息,又使用了双向的特征融合手段保证训练信息的完整性;加权融合多模态特征并将其输入全连接网络中进行真假新闻分类。对比实验结果表明:相比现有的多模态基准模型,该方法几乎在各个分类指标上都提高3个百分点左右,此外,可视化实验发现混合注意力机制获得的多模态特征具有更强的泛化能力。  相似文献   

5.
针对机械臂抓取检测任务中对未知物体抓取位姿检测精度低、耗时长等问题,提出一种融入注意力机制多模特征抓取位姿检测网络.首先,设计多模态特征融合模块,在融合多模态特征同时对其赋权加强;然后,针对较浅层残差网络提取重点特征能力较弱的问题,引入卷积注意力模块,进一步提升网络特征提取能力;最后,通过全连接层对提取特征直接进行回归拟合,得到最优抓取检测位姿.实验结果表明,在Cornell公开抓取数据集上,所提出算法的图像拆分检测精度为98.9%,对象拆分检测精度为98.7%,检测速度为51FPS,对10类物体的100次真实抓取实验中,成功率为95%.  相似文献   

6.
近年来,社交媒体常会以漫画的形式隐喻社会现象并倾述情感,为了解决漫画场景下多模态多标签情感识别存在的标签歧义问题,文中提出基于双流结构的多模态多标签漫画情感检测方法.使用余弦相似度对比模态间信息,并结合自注意力机制,交叉融合图像特征和文本特征.该方法主干为双流结构,使用Transformer模型作为图像的主干网络提取图像特征,利用Roberta预训练模型作为文本的主干网络提取文本特征.基于余弦相似度结合多头自注意力机制(COS-MHSA)提取图像的高层特征,最后融合高层特征和COS-MHSA多模态特征.在EmoRecCom漫画数据集上的实验验证文中方法的有效性,并给出方法对于情感检测的可视化结果.  相似文献   

7.
目的 受光照变化、拍摄角度、物体数量和物体尺寸等因素的影响,室内场景下多目标检测容易出现准确性和实时性较低的问题。为解决此类问题,本文基于物体的彩色和深度图像组,提出了分步超像素聚合和多模态信息融合的目标识别检测方法。方法 在似物性采样(object proposal)阶段,依据人眼对显著性物体观察时先注意其色彩后判断其空间深度信息的理论,首先对图像进行超像素分割,然后结合颜色信息和深度信息对分割后的像素块分步进行多阈值尺度自适应超像素聚合,得到具有颜色和空间一致性的似物性区域;在物体识别阶段,为实现物体不同信息的充分表达,利用多核学习方法融合所提取的物体颜色、纹理、轮廓、深度多模态特征,将特征融合核输入支持向量机多分类机制中进行学习和分类检测。结果 实验在基于华盛顿大学标准RGB-D数据集和真实场景集上将本文方法与当前主流算法进行对比,得出本文方法整体的检测精度较当前主流算法提升4.7%,运行时间有了大幅度提升。其中分步超像素聚合方法在物体定位性能上优于当前主流似物性采样方法,并且在相同召回率下采样窗口数量约为其他算法的1/4;多信息融合在目标识别阶段优于单个特征和简单的颜色、深度特征融合方法。结论 结果表明在基于多特征的目标检测过程中本文方法能够有效利用物体彩色和深度信息进行目标定位和识别,对提高物体检测精度和检测效率具有重要作用。  相似文献   

8.
随着社交网络平台的发展,社交网络已经成为人们获取信息的重要来源。然而社交网络的便利性也导致了虚假谣言的快速传播。与纯文本的谣言相比,带有多媒体信息的网络谣言更容易误导用户以及被传播,因此对多模态的网络谣言检测在现实生活中有着重要意义。研究者们已提出若干多模态的网络谣言检测方法,但这些方法都没有充分挖掘出视觉特征和融合文本与视觉的联合表征特征。为弥补这些不足,提出了一个基于深度学习的端到端的多模态融合网络。该网络首先抽取出图片中各个兴趣区域的视觉特征,然后使用多头注意力机制将文本和视觉特征进行更新与融合,最后将这些特征进行基于注意力机制的拼接以用于社交网络多模态谣言检测。在推特和微博公开数据集上进行对比实验,结果表明,所提方法在推特数据集上F1值有13.4%的提升,在微博数据集上F1值有1.6%的提升。  相似文献   

9.
近年来,利用计算机技术实现基于多模态数据的情绪识别成为自然人机交互和人工智能领域重要 的研究方向之一。利用视觉模态信息的情绪识别工作通常都将重点放在脸部特征上,很少考虑动作特征以及融合 动作特征的多模态特征。虽然动作与情绪之间有着紧密的联系,但是从视觉模态中提取有效的动作信息用于情绪 识别的难度较大。以动作与情绪的关系作为出发点,在经典的 MELD 多模态情绪识别数据集中引入视觉模态的 动作数据,采用 ST-GCN 网络模型提取肢体动作特征,并利用该特征实现基于 LSTM 网络模型的单模态情绪识别。 进一步在 MELD 数据集文本特征和音频特征的基础上引入肢体动作特征,提升了基于 LSTM 网络融合模型的多 模态情绪识别准确率,并且结合文本特征和肢体动作特征提升了上下文记忆模型的文本单模态情绪识别准确率, 实验显示虽然肢体动作特征用于单模态情绪识别的准确度无法超越传统的文本特征和音频特征,但是该特征对于 多模态情绪识别具有重要作用。基于单模态和多模态特征的情绪识别实验验证了人体动作中含有情绪信息,利用 肢体动作特征实现多模态情绪识别具有重要的发展潜力。  相似文献   

10.
融合文本和图像的多模态信息相对于单模态可以提升灾害事件分析准确率。但是已有的工作多数将文本特征和图片特征进行简单的融合,在提取、融合特征的时候造成特征的冗余,同时忽略了模态之间的联系,没有考虑到图像和文本之间特征的相关性。为此,本文分析和研究目前流行的多模态融合算法,提出一种拥抱融合的多模态灾害事件分析算法。首先将文本特征和图像的特征向量互相对比,考虑文本和图像特征之间的相关性。然后基于多项抽样,剔除冗余的特征,融合文本特征和图像特征。实验结果表明,拥抱融合在CrisisMMD2.0数据集上实验1的2个任务的分类效果准确率分别高达88.2%、85.1%,都明显优于其他多模态融合模型,表明了该模型的有效性。同时第2个实验也验证了拥抱模型对于不同文本和图像深度学习模型的适用性。  相似文献   

11.
谣言会对社会生活造成不利影响,同时具有多种模态的网络谣言比纯文字谣言更容易误导用户和传播,这使得对多模态的谣言检测不可忽视。目前关于多模态谣言检测方法没有关注词与图片区域对象之间的特征融合,因此提出了一种基于注意力机制的多模态融合网络AMFNN应用于谣言检测,该方法在词-视觉对象层面进行高级信息交互,利用注意力机制捕捉与关键词语相关的视觉特征;提出了基于自注意力机制的自适应注意力机制Adapive-SA,通过增加辅助条件来约束内部的信息流动,使得模态内的关系建模更有目标性和多样性。在两个多模态谣言检测数据集上进行了对比实验,结果表明,与目前相关的多模态谣言检测方法相比,AMFNN能够合理地处理多模态信息,从而提高了谣言检测的准确性。  相似文献   

12.
局部特征信息在图像分割中扮演着重要角色,然而基于文本的实例分割任务具有对输入文本表达式的依赖性,无法直接从原始的输入图像中提取局部特征信息。针对这一问题,提出了一种具体的名词引导局部特征提取的深度神经网络模型(NgLFNet),NgLFNet模型可根据输入文本表达式中的关键名词来自动挖掘待分割对象的局部特征信息。具体地,该模型首先通过语句分析得到关键名词;其次通过文本和图像编码器提取相应特征,并利用关键名词通过多头注意力机制获取高关注区域局部特征;然后逐步融合多模态特征;最后在解码修正模块利用得到的局部特征对预测掩膜进行更细致的修正,从而得到最终结果。将该方法与多种主流基于文本的实例分割方法进行对比,实验结果表明该方法提升了分割效果。  相似文献   

13.
目前,基于深度学习的自然场景文本检测在复杂的背景下取得很好的效果,但难以准确检测到小尺度文本.本文针对此问题提出了一种基于特征融合的深度神经网络,该网络将传统深度神经网络中的高层特征与低层特征相融合,构建一种高级语义的神经网络.特征融合网络利用网络高层的强语义信息来提高网络的整体性能,并通过多个输出层直接预测不同尺度的文本.在ICDAR2011和ICDAR2013数据集上的实验表明,本文的方法对于小尺度的文本,定位效果显著.同时,本文所提的方法在自然场景文本检测中具有较高的定位准确性和鲁棒性,F值在两个数据集上均达到0.83.  相似文献   

14.
目前,在基于文档信息的推荐任务中,传统基于文档的混合推荐算法仍依赖于浅层的线性模型,当评分数据变得庞大且复杂时,其推荐性能往往不太理想。针对此问题,提出一种深度融合模型(DeepFM),该模型能够在完全捕获文本信息的同时也能很好地处理复杂且稀疏的评分数据。DeepFM由两个并行的神经网络组成,其中一路神经网络使用多层感知器提取评分矩阵的行向量信息从而获得用户的潜在特征向量,另一路则使用MLP和卷积神经网络(CNN)共同建模从而提取额外有关项目的文本信息得到项目潜在特征向量。最后,通过构建融合层将用户特征向量和项目特征向量进行融合得出预测评分。实验结果表明,DeepFM在MovieLens数据集和亚马逊数据集上的性能优于主流的推荐模型。  相似文献   

15.
刘辉  曾鹏飞 《控制与决策》2021,36(9):2170-2178
现有的基于深度学习的自然场景文本检测方法一般采用大型深度神经网络作为主干网络进行特征提取,虽然效果显著但检测模型十分庞大,检测效率较低,若直接将主干网络换成轻量型网络则不能提取出足够的特征信息,直接导致检测效果大幅降低.为了降低文本检测模型的规模以及更为高效地检测文本,提出基于双分支特征融合的场景文本检测方法,在采用相对轻量级的主干网络EfficientNet-b3的基础上,使用双路分支进行特征融合进而检测场景文本.一路分支使用特征金字塔网络,融合不同层级的特征;另一路分支使用空洞卷积空间金字塔池化结构,扩大感受野,然后融合两个分支的特征,在小幅增加计算量的同时获取更多的特征,弥补小型网络提取特征不足的问题.在3个公开数据集上的实验结果显示,所提出方法在保持较高检测水平的情况下,可以大幅度降低模型的参数量,大幅度提升检测速度.  相似文献   

16.
针对单模态行人检测在光照条件较差、目标部分遮挡、目标多尺度时检测效果较差的问题,提出了一种基于可见和红外双模态特征金字塔融合的行人检测算法。使用深度卷积神经网络代替传统的手工设计特征方式分别自动从可见模态及红外热模态的图片中提取单模态特征,根据ResNet(Residual Net)的阶段性特征图谱搭建特征金字塔网络,生成每个模态的特征金字塔,并将两个模态的特征金字塔进行逐层融合。选择深度学习通用目标检测算法--Faster R-CNN作为后续的目标定位与分类算法来解决多模态行人检测问题。在特征金字塔融合阶段,针对级联融合和较大值融合容易忽略弱特征,无法有效融合互补特征的问题,提出了一种锐化特征的特征金字塔融合方法,根据阈值强化突出强特征,互补叠加弱特征,有效利用每个模态的特征,进一步提高模型的检测效果。实验结果表明,特征金字塔聚合的多模态行人检测算法可以有效解决多模态行人检测问题,在KAIST数据集上的检测效果超过了目前该数据集上的最佳模型。  相似文献   

17.
针对深度学习网络在特征提取过程中运用上采样操作而致使细节纹理等高频特征缺失的问题,提出一种金字塔频率特征融合目标检测网络.网络由3个深度学习金字塔网络构成,输入图像经初级金字塔提取深度特征后,分别通过高频、低频增强金字塔形成不同的频率特征,利用特征融合来凸显深度学习网络在信息逐层传递过程中对细节信息的保护能力,提高目标...  相似文献   

18.
伪装目标检测(COD)旨在精确且高效地检测出与背景高度相似的伪装物体, 其方法可为物种保护、医学病患检测和军事监测等领域提供助力, 具有较高的实用价值. 近年来, 采用深度学习方法进行伪装目标检测成为一个比较新兴的研究方向. 但现有大多数COD算法都是以卷积神经网络(CNN)作为特征提取网络, 并且在结合多层次特征时, 忽略了特征表示和融合方法对检测性能的影响. 针对基于卷积神经网络的伪装目标检测模型对被检测目标的全局特征提取能力较弱问题, 提出一种基于Transformer的跨尺度交互学习伪装目标检测方法. 该模型首先提出了双分支特征融合模块, 将经过迭代注意力的特征进行融合, 更好地融合高低层特征; 其次引入了多尺度全局上下文信息模块, 充分联系上下文信息增强特征; 最后提出了多通道池化模块, 能够聚焦被检测物体的局部信息, 提高伪装目标检测准确率. 在CHAMELEON、CAMO以及COD10K数据集上的实验结果表明, 与当前主流的伪装物体检测算法相比较, 该方法生成的预测图更加清晰, 伪装目标检测模型能取得更高精度.  相似文献   

19.
PD (Parkinson’s disease) 的运动障碍会累及口、咽、腭肌以及面部肌肉,引起声带震颤和面部运动迟缓,为利用声纹和面部特征识别PD患者提供了可能。为了有效利用以上两种特征以提高PD 识别率,提出了基于多尺度特征与动态注意力机制的多模态循环融合模型对患者进行识别检测。首先,设计了多尺度特征提取网络,将高、低层级特征的语义信息融合以得到完整的特征信息;其次,在多尺度特征融合过程中为了充分考虑模态间的相关性和互补性,提出了以不同模态信息互为辅助条件生成注意力特征图的动态注意力机制算法,降低特征融合时信息的冗余;最后设计了多模态循环融合模型,通过计算循环矩阵的每个行向量与特征向量间的哈达玛积得到更有效的融合特征,提高了模型性能。在自建数据集上进行的多组实验结果表明,提出的方法识别准确率高达96.24%,优于当前流行的单模态和多模态识别算法,可以有效区分PD患者和HP (healthy people),为高效识别PD患者奠定了基础。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号