首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
章荪  尹春勇 《计算机应用》2021,41(6):1631-1639
针对时序多模态情感分析中存在的单模态特征表示和跨模态特征融合问题,结合多头注意力机制,提出一种基于多任务学习的情感分析模型。首先,使用卷积神经网络(CNN)、双向门控循环神经网络(BiGRU)和多头自注意力(MHSA)实现了对时序单模态的特征表示;然后,利用多头注意力实现跨模态的双向信息融合;最后,基于多任务学习思想,添加额外的情感极性分类和情感强度回归任务作为辅助,从而提升情感评分回归主任务的综合性能。实验结果表明,相较于多模态分解模型,所提模型的二分类准确度指标在CMU-MOSEI和CMU-MOSI多模态数据集上分别提高了7.8个百分点和3.1个百分点。该模型适用于多模态场景下的情感分析问题,能够为商品推荐、股市预测、舆情监控等应用提供决策支持。  相似文献   

2.
为了提高大数据中多模态信息的检索效果,提出一种基于深度神经网络的多模态信息检索算法.设计深度自编码器,将不同模态的数据投影到一个相同的广义子空间内;利用稀疏编码技术降低共同特征向量的维度,过滤冗余特征和噪声特征;通过去卷积操作和上采样操作对数据进行重建.基于公开模态识别数据集的实验结果表明,该算法能够有效地学习和泛化多...  相似文献   

3.
针对单模态行人检测在光照条件较差、目标部分遮挡、目标多尺度时检测效果较差的问题,提出了一种基于可见和红外双模态特征金字塔融合的行人检测算法。使用深度卷积神经网络代替传统的手工设计特征方式分别自动从可见模态及红外热模态的图片中提取单模态特征,根据ResNet(Residual Net)的阶段性特征图谱搭建特征金字塔网络,生成每个模态的特征金字塔,并将两个模态的特征金字塔进行逐层融合。选择深度学习通用目标检测算法--Faster R-CNN作为后续的目标定位与分类算法来解决多模态行人检测问题。在特征金字塔融合阶段,针对级联融合和较大值融合容易忽略弱特征,无法有效融合互补特征的问题,提出了一种锐化特征的特征金字塔融合方法,根据阈值强化突出强特征,互补叠加弱特征,有效利用每个模态的特征,进一步提高模型的检测效果。实验结果表明,特征金字塔聚合的多模态行人检测算法可以有效解决多模态行人检测问题,在KAIST数据集上的检测效果超过了目前该数据集上的最佳模型。  相似文献   

4.
研究多模态生物特征的分数层融合算法,提出一种新颖的基于最小二乘法的分数层融合算法(LSMSF),利用融合函数获取融合分数,并采用最小二乘法确定融合函数中的参数,给出两种不同形式的融合函数:幂级数函数,多项式函数,其次,采用交叉验证的方法,对分数层融合算法进行了全面的评估,评估了分数归一化、数据集划分、单模态性能对分数层融合算法正确接收率的影响,并评估了各种方法的正确接受率和时间开销,开集测试表明,LSMSF算法优于传统的分数层融合算法,其时间开销满足多模态生物特征识别系统实时性的需求.  相似文献   

5.
情绪分析一直是自然语言处理领域的研究热点,而多模态情绪分析是当前该领域的一个挑战。已有研究在上下文信息和不同模态时间序列信息交互方面存在不足,该文提出了一个新颖的多层LSTM融合模型(Multi-LSTMs Fusion Model,MLFN),通过分层LSTM分别设置单模态模内特征提取层、双模态和三模态模间融合层进行文本、语音和图像三个模态之间的深度融合,在考虑模态内部信息特征的同时深度捕获模态之间的交互信息。实验结果表明,基于多层LSTM多模态融合网路能够较好地融合多模态信息,大幅度提升多模态情绪识别的准确率。  相似文献   

6.
针对术前无创准确判断肝细胞癌(HCC)病理分化程度这一问题,提出了一种基于影像组学的肝细胞癌病理分级方法。该方法结合多模态融合及AdaBoost算法构建模型。首先,基于影像组学方法提取磁共振成像(MRI)的影像组学特征,通过特征递归消除等算法进行特征筛选和降维后进行多模态融合;然后,采用过采样方法解决数据类别不平衡问题优化模型性能;最后,基于Adaboost算法建模对HCC进行病理分化等级细分类。实验结果表明,所提方法在相同数据集的F1值比现有的加权融合方法、基于支持向量机(SVM)算法的方法相比均要高5个百分点。对比基于单模态构建的F1值最优模型,使用的多模态融合方法的F1值提高了7个百分点。  相似文献   

7.
为解决目标跟踪中目标遮挡、背景复杂等问题,提出一种基于多模态数据的目标跟踪算法。首先对各个模态数据进行像素级融合,以减少单模态数据中信息不足对跟踪结果的影响。然后对融合后的图像提取不同的特征进行滤波,接着将滤波得到的响应图进行决策级融合,以解决因单个模型漂移导致的模型跟踪失败问题。最后根据融合后的响应图的峰值得到跟踪结果。此外,在跟踪过程中加入遮挡检测模块,进一步增强模型鲁棒性。在普林斯顿跟踪基准上对算法进行评估,结果表明,与其他主流算法相比,基于多模态数据的目标跟踪算法在目标遮挡类视频上跟踪精度提升了8.4%,重合成功率提升了3.3%,具有较好的抗遮挡效果。  相似文献   

8.
针对可见光模态与热红外模态间的差异问题和如何充分利用多模态信息进行行人检测,本文提出了一种基于YOLO的多模态特征差分注意融合行人检测方法.该方法首先利用YOLOv3深度神经网络的特征提取主干分别提取多模态特征;其次在对应多模态特征层之间嵌入模态特征差分注意模块充分挖掘模态间的差异信息,并经过注意机制强化差异特征表示进而改善特征融合质量,再将差异信息分别反馈到多模态特征提取主干中,提升网络对多模态互补信息的学习融合能力;然后对多模态特征进行分层融合得到融合后的多尺度特征;最后在多尺度特征层上进行目标检测,预测行人目标的概率和位置.在KAIST和LLVIP公开多模态行人检测据集上的实验结果表明,提出的多模态行人检测方法能有效解决模态间的差异问题,实现多模态信息的充分利用,具有较高的检测精度和速度,具有实际应用价值.  相似文献   

9.
近年来,利用计算机技术实现基于多模态数据的情绪识别成为自然人机交互和人工智能领域重要 的研究方向之一。利用视觉模态信息的情绪识别工作通常都将重点放在脸部特征上,很少考虑动作特征以及融合 动作特征的多模态特征。虽然动作与情绪之间有着紧密的联系,但是从视觉模态中提取有效的动作信息用于情绪 识别的难度较大。以动作与情绪的关系作为出发点,在经典的 MELD 多模态情绪识别数据集中引入视觉模态的 动作数据,采用 ST-GCN 网络模型提取肢体动作特征,并利用该特征实现基于 LSTM 网络模型的单模态情绪识别。 进一步在 MELD 数据集文本特征和音频特征的基础上引入肢体动作特征,提升了基于 LSTM 网络融合模型的多 模态情绪识别准确率,并且结合文本特征和肢体动作特征提升了上下文记忆模型的文本单模态情绪识别准确率, 实验显示虽然肢体动作特征用于单模态情绪识别的准确度无法超越传统的文本特征和音频特征,但是该特征对于 多模态情绪识别具有重要作用。基于单模态和多模态特征的情绪识别实验验证了人体动作中含有情绪信息,利用 肢体动作特征实现多模态情绪识别具有重要的发展潜力。  相似文献   

10.
多模态机器学习是一种新的人工智能范式,结合各种模态和智能处理算法以实现更高的性能.多模态表示和多模态融合是多模态机器学习的2个关键任务.目前,多模态表示方法很少考虑样本间的协同,导致特征表示缺乏鲁棒性,大部分多模态特征融合方法对噪声数据敏感.因此,在多模态表示方面,为了充分学习模态内和模态间的交互,提升特征表示的鲁棒性,提出一种基于样本内和样本间多模态协同的表示方法.首先,分别基于预训练的BERT,Wav2vec 2.0,Faster R-CNN提取文本特征、语音特征和视觉特征;其次,针对多模态数据的互补性和一致性,构建模态特定和模态共用2类编码器,分别学习模态特有和共享2种特征表示;然后,利用中心矩差异和正交性构建样本内协同损失函数,采用对比学习构建样本间协同损失函数;最后,基于样本内协同误差、样本间协同误差和样本重构误差设计表示学习函数.在多模态融合方面,针对每种模态可能在不同时刻表现出不同作用类型和不同级别的噪声,设计一种基于注意力机制和门控神经网络的自适应的多模态特征融合方法.在多模态意图识别数据集MIntRec和情感数据集CMU-MOSI,CMU-MOSEI上的实验结果表明,...  相似文献   

11.
社交网络的发展为情感分析研究提供了大量的多模态数据。结合多模态内容进行情感分类可以利用模态间数据的关联信息,从而避免单一模态对总体情感把握不全面的情况。使用简单的共享表征学习方法无法充分挖掘模态间的互补特征,因此提出多模态双向注意力融合(Multimodal Bidirectional Attention Hybrid, MBAH)模型,在深度模型提取的图像和文本特征基础上,利用双向注意力机制在一个模态下引入另一个模态信息,将该模态的底层特征与另一模态语义特征通过注意力计算学习模态间的关联信息,然后联结两种模态的高层特征形成跨模态共享表征并输入多层感知器得到分类结果。此外MBAH模型应用后期融合技术结合图文单模态自注意力模型搜寻最优决策权值,形成最终决策。实验结果表明,MBAH模型情感分类结果相较于其他方法具有明显的提升。  相似文献   

12.
目前家装客服系统中主要依靠人工方式进行装修案例检索,导致该系统不能满足用户对咨询服务快捷、及时的需求而且人力成本高,故提出一种基于特征融合的装修案例跨模态检索算法。针对多模态数据的语义信息挖掘不充分,模型检索精度低等问题,对现有的风格聚合模块进行改进,在原始模块中引入通道注意力机制,以此来为每组装修案例中不同图片的特征向量添加合适的权重,从而增强包含更多有用信息的重要特征并削弱其他不重要的特征。同时,为充分利用多模态信息,设计一种适用于检索场景下的多模态特征融合模块,该模块能够自适应地控制2种不同模态的特征向量进行一系列的融合操作,以实现跨模态数据间的知识流动与共享,从而生成语义更丰富、表达能力更强的特征向量,进一步提升模型的检索性能。在自建的装修案例多模态数据集上将该方法与其他方法进行比较,试验结果表明本文方法在装修案例检索上具有更优越的性能。  相似文献   

13.
施政  毛力  孙俊 《计算机工程》2021,47(8):234-242
在夜间光照不足、目标被遮挡导致信息缺失以及行人目标多尺度的情况下,可见光单模态行人检测算法的检测效果较差。为了提高行人检测器的鲁棒性,基于YOLO提出一种可见光与红外光融合的行人检测算法。使用Darknet53作为特征提取网络,分别提取2个模态的多尺度特征。对传统多模态行人检测算法所使用的concat融合方式进行改进,设计结合注意力机制的模态加权融合层,以加强对融合特征图的模态选择。在此基础上,使用多尺度的融合特征进行行人检测。实验结果表明,模态加权融合较concat融合有较大的精度提升,且该算法在夜间光照不足、目标遮挡和目标多尺度情况下检测效果良好,在KAIST数据集上的检测精度优于HalFusion和Fusion RPN+BDT等算法,检测速度也有较大提升。  相似文献   

14.
面向深度学习的多模态融合技术是指机器从文本、图像、语音和视频等领域获取信息实现转换与融合以提升模型性能,而模态的普遍性和深度学习的热度促进了多模态融合技术的发展。在多模态融合技术发展前期,以提升深度学习模型分类与回归性能为出发点,阐述多模态融合架构、融合方法和对齐技术。重点分析联合、协同、编解码器3种融合架构在深度学习中的应用情况与优缺点,以及多核学习、图像模型和神经网络等具体融合方法与对齐技术,在此基础上归纳多模态融合研究的常用公开数据集,并对跨模态转移学习、模态语义冲突消解、多模态组合评价等下一步的研究方向进行展望。  相似文献   

15.
融合文本和图像的多模态信息相对于单模态可以提升灾害事件分析准确率。但是已有的工作多数将文本特征和图片特征进行简单的融合,在提取、融合特征的时候造成特征的冗余,同时忽略了模态之间的联系,没有考虑到图像和文本之间特征的相关性。为此,本文分析和研究目前流行的多模态融合算法,提出一种拥抱融合的多模态灾害事件分析算法。首先将文本特征和图像的特征向量互相对比,考虑文本和图像特征之间的相关性。然后基于多项抽样,剔除冗余的特征,融合文本特征和图像特征。实验结果表明,拥抱融合在Crisis MMD2.0数据集上实验1的2个任务的分类效果准确率分别高达88.2%、85.1%,都明显优于其他多模态融合模型,表明了该模型的有效性。同时第2个实验也验证了拥抱模型对于不同文本和图像深度学习模型的适用性。  相似文献   

16.
耿亮 《信息与电脑》2023,(19):158-160
针对城中村社会治理中信息分散、决策不准确等问题,提出一种基于多模态数据融合的大数据模型构建方法。采用多模态数据融合策略,将不同类型的数据进行融合和关联,以获取更全面、准确的城中村社会治理信息。为了实现数据融合,引入了卷积神经网络(Convolutional Neural Networks,CNN)和长短时记忆网络(Long Short-Term Memory,LSTM)等深度学习方法,通过对不同数据模态进行特征提取和表示学习,进一步增强模型的表达能力和泛化能力。实验结果表明,与传统的方法相比,所提出的模型和算法能够更准确地预测社会问题,优化资源配置,提高城中村社会治理的效能和效果。  相似文献   

17.
大数据时代,随着多源异构数据的爆炸式增长,多模态数据融合问题备受研究者的关注,其中视觉问答因需要图文协同处理而成为当前多模态数据融合研究的热点。视觉问答任务主要是对图像和文本两类模态数据进行特征关联与融合表示,最后进行推理学习给出结论。传统的视觉问答模型在特征融合时容易缺失模态关键信息,且大多数方法停留在数据之间浅层的特征关联表示学习,较少考虑深层的语义特征融合。针对上述问题,提出了一种基于图文特征跨模态深度交互的视觉问答模型。该模型利用卷积神经网络和长短时记忆网络分别获取图像和文本两种模态数据特征,然后利用元注意力单元组合建立的新型深度注意力学习网络,实现图文模态内部与模态之间的注意力特征交互式学习,最后对学习特征进行多模态融合表示并进行推理预测输出。在VQA-v2.0数据集上进行了模型实验和测试,结果表明,与基线模型相比,所提模型的性能有明显提升。  相似文献   

18.
随着计算机与大数据技术在医学领域中的迅速应用以及医疗信息存储标准的逐渐完善,医学数据呈爆炸式增长。医学数据由于其自身特点而呈现出多模态形式,且这些多模态数据往往同时出现、互相补充,因此实现多模态数据间的相互检索具有重要的临床价值。回顾了近年来多模态检索在医学领域的实现方法,将其归纳为基于文本、基于内容以及基于融合信息的多模态检索,基于内容的多模态检索可进一步划分为基于传统特征的检索和基于深度特征的检索。针对多模态检索算法的性能,介绍了准确率、召回率以及平均精度均值等常用的评价指标。分析了当前医学领域多模态检索所面临的挑战,并对未来医学领域多模态检索的研究发展进行了展望。  相似文献   

19.
近年来多模态情绪识别获得广泛关注,模态间的特征融合决定了情绪识别的效果,现有基于图的情绪特征融合方法多基于二元关系图,在处理三种及以上模态数据时难以实现有效的模态间特征融合,限制了多模态情绪识别的效果.为解决该问题,本文提出基于超图的多模态情绪识别模型(Multi-modal Emotion Recognition Based on Hypergraph,MORAH),引入超图来建立多模态的多元关系,以此替代现有图结构采用的多个二元关系,实现更加充分、高效的多模态特征融合.具体来说,该模型将多模态特征融合分为两个阶段:超边构建阶段和超图学习阶段.在超边构建阶段,通过胶囊网络实现对序列中每个时间步的信息聚合,并建立单模态的图,然后使用图卷积进行第二次信息聚合,并以此作为下一阶段建立超图的基础,得益于图胶囊聚合方法的加入,MORAH可以同时处理对齐数据和未对齐数据,无需手动对齐;在超图学习阶段,模型建立同一样本不同模态节点之间的关联,以及同类样本所有模态之间的关联,同时,在超图卷积过程中,使用分层多级超边来避免过于平滑的节点嵌入,并使用简化的超图卷积方法来融合模型之间的高级特征,以确保所有...  相似文献   

20.
在多模态深度学习发展前期总结当前多模态深度学习,发现在不同多模态组合和学习目标下,多模态深度学习实现过程中的共有问题,并对共有问题进行分类,叙述解决各类问题的方法。具体来说,从涉及自然语言、视觉、听觉的多模态学习中考虑了语言翻译、事件探测、信息描述、情绪识别、声音识别和合成以及多媒体检索等方面研究,将多模态深度学习实现过程中的共有问题分为模态表示、模态传译、模态融合和模态对齐四类,并对各类问题进行子分类和论述,同时列举了为解决各类问题产生的神经网络模型。最后论述了实际多模态系统、多模态深度学习研究中常用的数据集和评判标准,并展望了多模态深度学习的发展趋势。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号