共查询到20条相似文献,搜索用时 46 毫秒
1.
2.
3.
提出了一种基于LS-SVM的情感语音识别方法。即先提取实验中语音信号的基频,能量,语速等参数为情感特征,然后采用LS-SVM方法对相应的情感语音信号建立模型,进行识别。实验结果表明,利用LS-SVM进行基本情感识别时,识别率较高。 相似文献
4.
5.
语音发声过程的物理过程对于理解语音情感的表达机制具有重要意义。本文研究了声门波信号作为语音激励源在语音情感表达中的贡献。本文采用对比研究的方式,从完整语音信号与声门波中提取相同定义的特征,并使用相同的机器学习算法进行情感识别实验。实验结果表明,声门波信号能够携带语音信号中的大部分情感信息,尤其在唤醒度方向对语音情感能够较充分地表达;而声门波在语音情感的价效度方向有明显的信息缺失,需要依赖声道特性对情感价效进行表达。 相似文献
6.
语音情感识别是实现自然人机交互不可缺失的部分,是人工智能的重要组成部分。发音器官的调控引起情感语音声学特征的差异,从而被感知到不同的情感。传统的语音情感识别只是针对语音信号中的声学特征或听觉特征进行情感分类,忽略了声门波和声道等发音特征对情感感知的重要作用。在我们前期工作中,理论分析了声门波和声道形状对感知情感的重要影响,但未将声门波与声道特征用于语音情感识别。因此,本文从语音生成的角度重新探讨了声门波与声道特征对语音情感识别的可能性,提出一种基于源-滤波器模型的声门波和声道特征语音情感识别方法。首先,利用Liljencrants-Fant和Auto-Regressive eXogenous(ARX-LF)模型从语音信号中分离出情感语音的声门波和声道特征;然后,将分离出的声门波和声道特征送入双向门控循环单元(BiGRU)进行情感识别分类任务。在公开的情感数据集IEMOCAP上进行了情感识别验证,实验结果证明了声门波和声道特征可以有效的区分情感,且情感识别性能优于一些传统特征。本文从发音相关的声门波与声道研究语音情感识别,为语音情感识别技术提供了一种新思路。 相似文献
7.
藏语语音情感识别是语音情感识别在少数民族语音处理上的应用,语音情感识别是人机交互的重要研究方向,提取最能表征语音情感的特征并构建具有较强鲁棒性和泛化性的声学模型是语音情感识别的重要研究内容。基于此,为了构建具有高效性和针对性的藏语语音情感识别模型,文中构建了一种藏语语音情感数据集(TBSEC001),并提出一种适合于藏语的手工语音情感特征集(TPEFS),该特征集是在藏语与其他语言的共性和特性的基础上手工提取得到的,TPEFS特征集在支持向量机(SVM)、多层感知机(MLP)、卷积神经网络(CNN)、长短时记忆网络(LSTM)这些经典网络中都取得了不错的效果。所提出的方法在藏语语音数据集(TBSEC001)上取得了88.4%的识别结果,以及在EMODB、RAVDESS、CASIA数据库上分别取得了84.1%、74.3%以及82.5%的识别结果。实验结果表明,该特征集在保证识别率的情况下,对藏语语音情感识别具有一定针对性。 相似文献
8.
语音情感识别是利用计算机建立语音信息载体与情感度量之间的关系,并赋予计算机识别、理解人类情感的能力,语音情感识别在人机交互中起着重要作用,是人工智能领域重要发展方向。本文从语音情感识别在国内外发展历史以及开展的一系列会议、期刊和竞赛入手,分别从6个方面对语音情感识别的研究现状进行了梳理与归纳:首先,针对情感表达从离散、维度模型进行了阐述;其次,针对现有的情感数据库进行了统计与总结;然后,回顾了近20年部分代表性语音情感识别发展历程,并分别阐述了基于人工设计的语音情感特征的情感识别技术和基于端到端的语音情感识别技术;在此基础之上,总结了近几年的语音情感识别性能,尤其是近两年在语音领域的重要会议和期刊上的语音情感识别相关工作;介绍了语音情感识别在驾驶、智能交互领域、医疗健康,安全等领域的应用;最后,总结与阐述了语音情感识别领域仍面临的挑战与未来发展方向。本文旨在对语音情感识别相关工作进行深入分析与总结,为语音情感识别相关研究者提供有价值的参考。 相似文献
9.
语音情感识别的研究进展 总被引:11,自引:0,他引:11
情感在人类的感知、决策等过程扮演着重要角色.长期以来情感智能研究只存在于心理学和认知科学领域,近年来随着人工智能的发展,情感智能跟计算机技术结合产生了情感计算这一研究课题,这将大大的促进计算机技术的发展.情感自动识别是通向情感计算的第一步.语音作为人类最重要的交流媒介,携带着丰富的情感信息.如何从语音中自动识别说话者的情感状态近年来受到各领域研究者的广泛关注.本文从语音情感识别所涉及的几个重要问题出发,包括情感理论及情感分类、情感语音数据库、语音中的情感特征和语音情感识别算法等,介绍了当前的研究进展,并讨论了今后研究的几个关键问题. 相似文献
10.
11.
高光谱图像分类是近年来的研究热点。其数据的 高维性引发了“维度灾难”问 题。数据降维成为解决问题的关键。针对高光谱数据有标记训练样本点匮乏的特点, 提出用无监督的特征选择方法对高光谱数据进行降维。该方法能够同时保持原始高光 谱数据的判别能力和局部几何结构。为了保持判别能力,用所选特征对原始高光谱数 据进行重构,利用重构误差最小化将特征选择问题转化为优化问题。为了保持局部几 何结构,建立近邻图,并将其转化为正则项加入目标函数中。通过迭代梯度下降方法 解此优化问题,得出优选特征子集参与高光谱图像分类识别任务。在真实数据集上的 实验表明,新方法能够提高分类识别的精度。 相似文献
12.
13.
Given several related tasks, multi-task feature selection determines the importance of features by mining the correlations between them. There have already many efforts been made on the supervised multi-task feature selection. However, in real-world applications, it’s noticeably time-consuming and unpractical to collect sufficient labeled training data for each task. In this paper, we propose a novel feature selection algorithm, which integrates the semi-supervised learning and multi-task learning into a joint framework. Both the labeled and unlabeled samples are sufficiently utilized for each task, and the shared information between different tasks is simultaneously explored to facilitate decision making. Since the proposed objective function is non-smooth and difficult to be solved, we also design an efficient iterative algorithm to optimize it. Experimental results on different applications demonstrate the effectiveness of our algorithm. 相似文献
14.
15.
This paper introduces an approximate nuclear norm based matrix regression projection (ANMRP) model, an adaptive graph embedding method, for feature extraction of hyperspectral images. The ANMRP utilizes an approximate NMR model to construct an adaptive neighborhood map between samples. The globally optimal weight matrix is obtained by optimizing the approximate NMR model using fast alternating direction method of multipliers (ADMM). The optimal projection matrix is then determined by maximizing the ratio of the local scatter matrix to the total scatter matrix, allowing for the extraction of discriminative features. Experimental results demonstrate the effectiveness of ANMRP compared to related methods. 相似文献
16.
Emotion recognition is a hot research in modern intelligent systems. The technique is pervasively used in autonomous vehicles, remote medical service, and human–computer interaction (HCI). Traditional speech emotion recognition algorithms cannot be effectively generalized since both training and testing data are from the same domain, which have the same data distribution. In practice, however, speech data is acquired from different devices and recording environments. Thus, the data may differ significantly in terms of language, emotional types and tags. To solve such problem, in this work, we propose a bimodal fusion algorithm to realize speech emotion recognition, where both facial expression and speech information are optimally fused. We first combine the CNN and RNN to achieve facial emotion recognition. Subsequently, we leverage the MFCC to convert speech signal to images. Therefore, we can leverage the LSTM and CNN to recognize speech emotion. Finally, we utilize the weighted decision fusion method to fuse facial expression and speech signal to achieve speech emotion recognition. Comprehensive experimental results have demonstrated that, compared with the uni-modal emotion recognition, bimodal features-based emotion recognition achieves a better performance. 相似文献
17.
18.
19.
从语音情感特征的提取和分类建模出发,以混合卷积神经网络模型为基础,改进特征提取中的 Itti模型,包括:增加通过局部二值模式提取的纹理特征;结合听觉敏感度权重提取情感强相关特征。然后提出通过特征约束条件提取标定权重特征的约束挤压和激励网络结构;最后形成以 VGGnet 和长短时记忆网络混合网络为基础的微调模型,进一步提升了情感表征能力。通过在自然情感数据库和柏林德语数据库上进行验证,该模型在情感识别率上有明显的上升,相较于基准模型提升了 8. 43%,同时对比了本模型在自然数据库(FAU-AEC)和柏林数据库(EMO-DB)上的识别效果,实验结果证明模型具有良好的泛化性。 相似文献
20.
本文采用的是一种自适应多阈值的去噪方法。即根据不同子带和不同方向的多尺度阈值因子,自适应地确定图像去噪阈值的去噪方法。经过大量的仿真实验,可以证明:和传统的软、硬阈值去噪方法相比,该方法能够有效去除高斯白噪声,在改善图像质量即提高去噪后图像信噪比的同时,也使图像更加清晰,且能较好地保留图像的细节部分,更符合人眼的视觉特性。 相似文献