期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

孙强王姝玉《电子与信息学报》2024,(2):588-601

大多数多模态情感识别方法旨在寻求一种有效的融合机制,构建异构模态的特征,从而学习到具有语义一致性的特征表示。然而,这些方法通常忽略了模态间情感语义的差异性信息。为解决这一问题,提出了一种多任务学习框架,联合训练1个多模态任务和3个单模态任务,分别学习多模态特征间的情感语义一致性信息和各个模态所含情感语义的差异性信息。首先,为了学习情感语义一致性信息,提出了一种基于多层循环神经网络的时间注意力机制(TAM),通过赋予时间序列特征向量不同的权重来描述情感特征的贡献度。然后,针对多模态融合,在语义空间进行了逐语义维度的细粒度特征融合。其次,为了有效学习各个模态所含情感语义的差异性信息,提出了一种基于模态间特征向量相似度的自监督单模态标签自动生成策略(ULAG)。通过在CMU-MOSI,CMU-MOSEI, CH-SIMS 3个数据集上的大量实验结果证实,提出的TAM-ULAG模型具有很强的竞争力：在分类指标(Acc2,F 1)和回归指标(MAE, Corr)上与基准模型的指标相比均有所提升;对于二分类识别准确率,在CMUMOSI和CMU-MOSEI数据集上分别为87.2%和85.8%,而在C... 相似文献

2.

全局卷积与亲和度融合的多模态特征蒸馏情感识别方法

下载免费PDF全文

赵子平高天王欢《信号处理》2023,39(4):667-677

为提升人机交互时的用户体验以及满足多元化用途的需求,交互设备正逐步引入情感智能技术,其中,实现产业和技术有效融合的前提是可以对人类情感状态进行正确的识别,然而,这仍然是一个具有挑战性的话题。随着多媒体时代的快速发展,越来越多可利用的模态信息便逐步被应用到情感识别系统中。因此,本文提出一种基于特征蒸馏的多模态情感识别模型。考虑到情感表达往往与音频信号的全局信息密切相关,提出了适应性全局卷积（Adaptive Global Convolution, AGC）来提升有效感受野的范围,特征图重要性分析（Feature Map Importance Analysis,FMIA）模块进一步强化情感关键特征。音频亲和度融合（Audio Affinity Fusion, AAF）模块通过音频-文本模态间的内在相关性建模亲和度融合权重,使两种模态的情感信息得到有效融合。此外,为了提升模型泛化能力,有效利用教师模型中概率分布所携带的隐藏知识,帮助学生模型获取更高级别的语义特征,提出了在多模态模型上使用特征蒸馏。最后,在交互式情感二元动作捕捉（Interactive Emotional Dyadic Mot... 相似文献

3.

基于音视频的情感识别方法研究

下载免费PDF全文

林淑瑞张晓辉郭敏张卫强王贵锦《信号处理》2021,37(10):1889-1898

近年来,情感计算逐渐成为人机交互发展突破的关键,而情感识别作为情感计算的重要部分,也受到了广泛的关注。本文实现了基于ResNet18的面部表情识别系统和基于HGFM架构的语音情感识别模型,通过调整参数,训练出了性能较好的模型。在此基础上,通过特征级融合和决策级融合这两种多模态融合策略,实现了包含视频和音频信号的多模态情感识别系统,展现了多模态情感识别系统性能的优越性。两种不同融合策略下的音视频情感识别模型相比视频模态和音频模态,在准确率上都有一定的提升,验证了多模态模型往往比最优的单模态模型的识别性能更好的结论。本文所实现的模型取得了较好的情感识别性能,融合后的音视频双模态模型的准确率达到了76.84%,与现有最优模型相比提升了3.50%,在与现有的音视频情感识别模型的比较中具有性能上的优势。相似文献

4.

多模态自适应特征融合的目标检测

高小强常侃凌铭阳银梦雨《激光与光电子学进展》2023,(24):108-117

随着深度学习的发展，基于卷积神经网络（CNN）的目标检测方法取得巨大成功。现有的基于CNN的目标检测模型通常采用单一模态的RGB图像进行训练和测试，但在低光照环境下，检测性能显著下降。为解决此问题，提出了一种基于YOLOv5构建的多模态目标检测网络模型，将RGB图像和热红外图像相结合，以充分利用多模态特征融合信息，从而提升目标检测精度。为了实现多模态特征信息的有效融合，提出了一种多模态自适应特征融合（MAFF）模块。该模块通过自适应地选择不同模态特征并利用各模态间的互补信息，实现多模态特征融合。实验结果表明：所提算法能有效融合不同模态的特征信息，从而显著提高检测精度。相似文献

5.

基于多模态深度学习的虚假类新闻检测

娄焕邱天《信息技术》2023,(2):75-80

针对目前网络中有些新闻存在虚假性，缺乏真实性等问题，根据假新闻所包含的数据特征进行分析，选取不同的特征提取方法来针对不同模态数据进行特征提取，并进行特征融合，提出了基于多模态特征融合的检测算法MMDM。首先基于外部信息的文本模态特征提取，然后融合图片物理及语义信息进行特征提取，最后对两个模块特征融合。实验结果表明，多模态特征融合算法检测性能优于其他方法。相似文献

6.

基于多模态的人体动作识别研究

丁川崔爱浩齐林帖云《人工智能》2021,(1):50-58

动作识别是计算机视觉领域的重要研究方向。在动作识别的研究中,可以用来识别动作类别的数据模式包括RGB数据、深度图像和骨骼点数据。不同的模态提供不同形式的信息,这些信息很有可能与其他信息互补。在此理论基础上,本文提出了一种基于运动能量的多模态信息互补网络模型架构。该网络同时利用RGB数据提供的丰富的外观特征信息和深度数据提供的深度信息,以及对亮度、观察角度鲁棒性的特点。通过两种模态的信息互补特性完成多模态的融合。此外,为了更好地对长范围时间结构建模,同时考虑到具有子动作共享现象的动作类别,采用了能量引导的视频分割方法。而在特征融合阶段,又提出了跨模态的十字融合方式,通过连接多个卷积层的特征图谱,使得卷积网络不仅在浅层中可以共享两个模态的局部特征,还可以在深层次的卷积层中获得全局特征的融合。最后,该模型在NTU-RGB+D数据集上证明了出色的性能。相似文献

7.

基于BOOSTING框架的视觉语音多模态情感识别检测方法

《现代电子技术》2017,(23):59-63

情感识别技术是智能人机交互的重要基础,它涉及计算机科学、语言学、心理学等多个研究领域,是模式识别和图像处理领域的研究热点。鉴于此,基于Boosting框架提出两种有效的视觉语音多模态融合情感识别方法:第一种方法将耦合HMM(coupled HMM)作为音频流和视频流的模型层融合技术,使用改进的期望最大化算法对其进行训练,着重学习难于识别的(即含有更多信息的)样本,并将Ada Boost框架应用于耦合HMM的训练过程,从而得到Ada Boost-CHMM总体分类器;第二种方法构建了多层Boosted HMM(MBHMM)分类器,将脸部表情、肩部运动和语音三种模态的数据流分别应用于分类器的某一层,当前层的总体分类器在训练时会聚焦于前一层总体分类器难于识别的样本,充分利用各模态特征数据间的互补特性。实验结果验证了两种方法的有效性。相似文献

8.

多层次时空特征自适应集成与特有-共享特征融合的双模态情感识别

孙强陈远《电子与信息学报》2024,(2):574-587

在结合脑电(EEG)信号与人脸图像的双模态情感识别领域中,通常存在两个挑战性问题：(1)如何从EEG信号中以端到端方式学习到更具显著性的情感语义特征;(2)如何充分利用双模态信息,捕捉双模态特征中情感语义的一致性与互补性。为此,提出了多层次时空特征自适应集成与特有-共享特征融合的双模态情感识别模型。一方面,为从EEG信号中获得更具显著性的情感语义特征,设计了多层次时空特征自适应集成模块。该模块首先通过双流结构捕捉EEG信号的时空特征,再通过特征相似度加权并集成各层次的特征,最后利用门控机制自适应地学习各层次相对重要的情感特征。另一方面,为挖掘EEG信号与人脸图像之间的情感语义一致性与互补性,设计了特有-共享特征融合模块,通过特有特征的学习和共享特征的学习来联合学习情感语义特征,并结合损失函数实现各模态特有语义信息和模态间共享语义信息的自动提取。在DEAP和MAHNOB-HCI两种数据集上,采用跨实验验证和5折交叉验证两种实验手段验证了提出模型的性能。实验结果表明,该模型取得了具有竞争力的结果,为基于EEG信号与人脸图像的双模态情感识别提供了一种有效的解决方案。相似文献

9.

多视角判别分析的情感识别

下载免费PDF全文

李超赵文萍赵子平《信号处理》2018,34(8):998-1007

自主神经系统（ANS）活动在情感表达上的客观性,使得基于生理信号的情感识别引起了研究者的广泛关注。然而,情感表达是多模态的,仅使用单一模态或简单地对多模态情感数据进行拼接不能保证情感识别的精度。因此,本文提出使用多视角判别分析方法（Multi-view Discriminant Analysis Method ,MDAM）进行情感识别,将多个模态的情感生理数据看作情感表达的多个视角,通过最大化所有模态下情感数据的类间散度矩阵和类内散度矩阵之比,找到多组投影,使得投影后的情感数据位于一个具有判别性的通用空间中,在此空间中,同类情感样本的类内距离最小,而异类样本间的距离最大,从而为多模态情感识别提供有效的情感判别特征。实验结果表明,相较于传统情感识别方法,本文的方法在公开的情感数据集DEAP dataset上取得了很好的识别效果。相似文献

10.

基于BiGRU模型的多模态网络舆情情感分析

张晋敏李旭芳樊弟军《智能计算机与应用》2024,(1):191-193+199

情感分析可以挖掘社会热点事件网络舆情的矛盾冲突,加强对多模态信息的分析处理,对网络舆情管理具有重要意义。本文基于BiGRU模型构建多模态网络舆情情感分析框架,运用word2vec提取文本特征,卷积神经网络提取图像特征,采用线性融合进行特征融合实现情感分析。与基线模型相比,本文的多模态网络舆情情感分析方法准确率、宏平均F1和加权平均F1的结果更优,对现实生活产生的舆情事件具有较好的情感识别效果。相似文献

11.

基于嵌入注意力机制层级LSTM的音视频情感识别

刘天宝张凌涛于文涛魏东川范轶军《激光与光电子学进展》2021,(2):175-182

对于语音的情感识别,针对单层长短期记忆(LSTM)网络在解决复杂问题时的泛化能力不足,提出一种嵌入自注意力机制的堆叠LSTM模型,并引入惩罚项来提升网络性能。对于视频序列的情感识别,引入注意力机制,根据每个视频帧所包含情感信息的多少为其分配权重后再进行分类。最后利用加权决策融合方法融合表情和语音信号,实现最终的情感识别。实验结果表明,与单模态情感识别相比,所提方法在所选数据集上的识别准确率提升4%左右,具有较好的识别结果。相似文献

12.

CCFNet: Cross-Complementary fusion network for RGB-D scene parsing of clothing images

《Journal of Visual Communication and Image Representation》2023

Schemes to complement context relationships by cross-scale feature fusion have appeared in many RGB-D scene parsing algorithms; however, most of these works conduct multi-scale information interaction after multi-modal feature fusion, which ignores the information loss of the two modes in the original coding. Therefore, a cross-complementary fusion network (CCFNet) is designed in this paper to calibrate the multi-modal information before feature fusion, so as to improve the feature quality of each mode and the information complementarity ability of RGB and the depth map. First, we divided the features into low, middle, and high levels, among which the low-level features contain the global details of the image and the main learning features include texture, edge, and other features. The middle layer features contain not only some global detail features but also some local semantic features. Additionally, the high-level features contain rich local semantic features. Then, the feature information lost in the coding process of low and middle level features is supplemented and extracted through the designed cross feature enhancement module, and the high-level features are extracted through the feature enhancement module. In addition, the cross-modal fusion module is designed to integrate multi-modal features of different levels. The experimental results verify that the proposed CCFNet achieves excellent performance on the RGB-D scene parsing dataset containing clothing images, and the generalization ability of the model is verified by the dataset NYU Depth V2. 相似文献

13.

基于Sinc-Transformer模型的原始语音情感识别

下载免费PDF全文

俞佳佳金赟马勇姜芳艽戴妍妍《信号处理》2021,37(10):1880-1888

考虑传统语音情感识别任务中,手动提取声学特征的繁琐性,本文针对原始语音信号提出一种Sinc-Transformer（SincNet Transformer）模型来进行语音情感识别任务。该模型同时具备SincNet层及Transformer模型编码器的优点,利用SincNet滤波器从原始语音波形中捕捉一些重要的窄带情感特征,使其整个网络结构在特征提取过程中具有指导性,从而完成原始语音信号的浅层特征提取工作;利用两层Transformer模型编码器进行二次处理,以提取包含全局上下文信息的深层特征向量。在交互式情感二元动作捕捉数据库（IEMOCAP）的四类情感分类中,实验结果表明本文提出的Sinc-Transformer模型准确率与非加权平均召回率分别为64.14%和65.28%。同时与基线模型进行对比,所提模型能有效地提高语音情感识别性能。相似文献

14.

用于跨库语音情感识别的DBN特征融合方法

下载免费PDF全文

张昕然巨晓正宋鹏查诚赵力《信号处理》2017,33(5):649-660

跨数据库语音情感识别中,将不同尺度上提取的情感特征进行融合是目前的技术难点。本文利用深度学习领域的深度信念模型,提出了基于深度信念网络的特征层融合方法。将语音频谱图中隐含的情感信息作为图像特征,与传统情感特征融合。研究解决了跨数据库语音情感识别中,将不同尺度上提取的情感特征进行融合的技术难点。利用STB/Itti模型对语谱图进行分析,从颜色、亮度、方向三个角度出发,提取了新的语谱图特征;然后研究改进的DBN网络模型并对传统声学特征与新提取的语谱图特征进行了特征层融合,增强了特征子集的尺度,提升了情感表征能力。通过在ABC数据库和多个中文数据库上的实验验证,特征融合后的新特征子集相比传统的语音情感特征,其跨数据库识别结果获得了明显提升。相似文献

15.

Combining SVM and CHMM classifiers for porno video recognition

ZHAO Zhi-cheng 《中国邮电高校学报(英文版)》2012,19(3):100-106

Porno video recognition is important for Internet content monitoring.In this paper,a novel porno video recognition method by fusing the audio and video cues is proposed.Firstly,global color and texture... 相似文献

16.

Human emotion recognition by optimally fusing facial expression and speech feature

《Signal Processing: Image Communication》2020

Emotion recognition is a hot research in modern intelligent systems. The technique is pervasively used in autonomous vehicles, remote medical service, and human–computer interaction (HCI). Traditional speech emotion recognition algorithms cannot be effectively generalized since both training and testing data are from the same domain, which have the same data distribution. In practice, however, speech data is acquired from different devices and recording environments. Thus, the data may differ significantly in terms of language, emotional types and tags. To solve such problem, in this work, we propose a bimodal fusion algorithm to realize speech emotion recognition, where both facial expression and speech information are optimally fused. We first combine the CNN and RNN to achieve facial emotion recognition. Subsequently, we leverage the MFCC to convert speech signal to images. Therefore, we can leverage the LSTM and CNN to recognize speech emotion. Finally, we utilize the weighted decision fusion method to fuse facial expression and speech signal to achieve speech emotion recognition. Comprehensive experimental results have demonstrated that, compared with the uni-modal emotion recognition, bimodal features-based emotion recognition achieves a better performance. 相似文献

17.

Video description method based on multidimensional and multimodal information

Enjie DING Zhongyu LIU Yafeng LIU Wanli YU 《通信学报》2020,41(2):36-43

相似文献