共查询到20条相似文献,搜索用时 93 毫秒
1.
2.
主要内容是建立一种基于RBF神经网络的语音识别系统,探讨RBF神经网络在语音识别中的应用.利用有序聚类算法对语音信号进行时间归整,构建一个RBF神经网络,采用自适应的方法确定网络隐节点的个数,用线性最小二乘法确定隐层到输出层的权值,用语音信号的LPCC参数的训练和识别.在Matlab中完成实验,语音信号的识别率达到85%,并且还有很大的提升空间.实验表明RBF神经网络在语音识别中有发展的前景. 相似文献
3.
4.
一种基于HMM和ANN的语音情感识别分类器 总被引:2,自引:0,他引:2
针对在语音情感识别中孤立使用隐马尔科夫模型(HMM)固有的分类特性较差的缺点,本文提出了利用隐马尔科夫模型和径向基函数神经网络(RBF)对惊奇,愤怒,喜悦,悲伤,厌恶5种语音情感进行识别的方法。该方法借助HMM规整语音情感特征向量,并用RBF作为最终的决策分类器。实验结果表明在本文的实验条件下此方法和孤立HMM相比具有更好的性能,厌恶的识别率有了较大改进。 相似文献
5.
针对传统ECT流型辨识方法效率低的问题,提出了一种基于特征提取和径向基函数神经网络相结合的ECT图像流型辨识的方法,该方法通过对各种特征参数的定义,完成对ECT系统测得的电容值进行特征提取,然后将提取的特征值作为RBF神经网络的输入完成流型辨识。仿真和实验结果表明,与基于BP神经网络的图像流型辨识方法相比,该方法具有识别速度快和效率高等优点,为ECT图像流型识别的研究提供了一个新的思路。 相似文献
6.
研究目的就是通过深入分析各种语音情感特征,找出其中对情感识别有较大贡献的特征,并寻找适合的模型将有效特征加以利用。分析和研究了多位科学家在进行语音情感分析过程中采用的方法和技术,通过总结和创新建立了语音情感语料库,并成功地提取了相关的语音信号的特征。研究了基音频率、振幅能量和共振峰等目前常用的情感特征在语音情感识别中的作用,重点研究了MFCC和?驻MFCC,实验发现特征筛选后系统的识别效果有着一定程度的提高。将处理后的频谱特征参数同原有的BP人工神经网络模型有效地结合起来,形成完整的语音情感识别系统,取得了较为满意的识别结果。 相似文献
7.
以RBF网络为识别模型,采用竞争算法,提出了一种基于RBF网络的数字识别方法,仿真结果表明此方法具有识别率高,识别速度快的优点,具有广阔的应用前景 相似文献
8.
9.
10.
动态情感特征是说话人独立语音情感识别中的重要特征。由于缺乏对语音中时频信息的充分挖掘,现有动态情感特征表征能力有限。为更好地提取语音中的动态情感特征,提出一种动态卷积递归神经网络语音情感识别模型。基于动态卷积理论构建一种动态卷积神经网络提取语谱图中的全局动态情感信息,使用注意力机制分别从时间和频率维度对特征图关键情感区域进行强化表示,同时利用双向长短期记忆网络对谱图进行逐帧学习,提取动态帧级特征及情感的时序依赖关系。在此基础上,利用最大密度散度损失对齐新个体特征与训练集特征分布,降低个体差异性对特征分布产生的影响,提升模型表征能力。实验结果表明,该模型在CASIA中文情感语料库、Emo-db德文情感语料库及IEMOCAP英文情感语料库上分别取得59.50%、88.01%及66.90%的加权平均精度,相较HuWSF、CB-SER、RNN-Att等其他主流模型识别精度分别提升1.25~16.00、0.71~2.26及2.16~8.10个百分点,验证了所提模型的有效性。 相似文献
11.
人类的语音情感变化是一个抽象的动态过程,难以使用静态信息对其情感交互进行描述,而人工智能的兴起为语音情感识别的发展带来了新的契机。从语音情感识别的概念和在国内外发展的历史进程入手,分别从5个方面对近些年关于语音情感识别的研究成果进行了归纳总结。介绍了语音情感特征,归纳总结了各种语音特征参数对语音情感识别的意义。分别对语音情感数据库的分类及特点、语音情感识别算法的分类及优缺点、语音情感识别的应用以及语音情感识别现阶段所遇到的挑战进行了详细的阐述。立足于研究现状对语音情感识别的未来研究及其发展进行了展望。 相似文献
12.
This paper presents and discusses an analysis of multilingual emotion recognition from speech with database-specific emotional features. Recognition was performed on English, Slovenian, Spanish, and French InterFace emotional speech databases. The InterFace databases included several neutral speaking styles and six emotions: disgust, surprise, joy, fear, anger and sadness. Speech features for emotion recognition were determined in two steps. In the first step, low-level features were defined and in the second high-level features were calculated from low-level features. Low-level features are composed from pitch, derivative of pitch, energy, derivative of energy, and duration of speech segments. High-level features are statistical presentations of low-level features. Database-specific emotional features were selected from high-level features that contain the most information about emotions in speech. Speaker-dependent and monolingual emotion recognisers were defined, as well as multilingual recognisers. Emotion recognition was performed using artificial neural networks. The achieved recognition accuracy was highest for speaker-dependent emotion recognition, smaller for monolingual emotion recognition and smallest for multilingual recognition. The database-specific emotional features are most convenient for use in multilingual emotion recognition. Among speaker-dependent, monolingual, and multilingual emotion recognition, the difference between emotion recognition with all high-level features and emotion recognition with database-specific emotional features is smallest for multilingual emotion recognition—3.84%. 相似文献
13.
A probabilistic radial basis function network (P-RBFN)is presented for face recognition. Each P-RBFN isonly responsible for the recognition of one class. To a given face pattern to be identified, the probability of the givenface pattern belonging to every class is calculated by corresponding P-RBFN and the final recognition result is the fu-sion of all P-RBFN‘s outputs. This method combines the statistic theory and neural network technology and can easi-ly be applied in distributed mode. Experiments are implemented on ORL, and an error rate 4% has been got. Com-parison between P-RBFN and other methodologies such as Eigenface, SOM CN and HMM has been done and the advantages of the P-RBFN are demonstrated. 相似文献
14.
15.
针对情绪脑电信号提出一种网络图特征学习与情绪识别算法。首先,利用情绪脑电数据构建对应的情绪脑电网络;其次,在由情绪脑电网络尺度定义的高维空间构建脑电网络样本间的局部邻接关系图以挖掘样本集的分布特性,进而得到样本集的图拉普拉斯矩阵;在此基础上,进一步利用谱图理论对情绪脑电网络的最优低维空间映射进行求解,在保留原始样本局部邻接关系的前提下实现对情绪脑电网络的降维与重新表达,并将每个情绪脑电网络样本表示成1组脑电网络特征集;最后利用提取到的情绪脑电网络特征集,结合支持向量机分类学习算法,针对情绪识别任务进行识别模型的训练和学习,实现对情绪状态的准确解码与识别。在国际公开情绪脑电数据集的实验结果表明:相较于传统情绪识别算法,本文所提方法能有效提升情绪识别准确率,在基于公开数据集的多类情绪识别任务中分别达到91.85%(SEED数据集, 3类)、79.36%(MAHNOB-HCI数据集,3类)和79%(DEAP数据集,4类)的稳健识别效果。 相似文献
16.
语音情感识别是计算机理解人类情感最直接的方式,是实现人机交互智能化的重要渠道,但识别模型的性能需要进一步提升。为实现这一目标,提出一种基于循环卷积神经网络的语音情感识别模型ARCNN-GAP。其中,循环卷积层具有弹性路径,在确保网络深度的同时能保证优化时的梯度回传,提取更加有效的情感特征;全局平均池化运算可以在减少计算复杂度的同时降低过拟合风险;而注意力机制能够使模型更多关注情感相关特征。使用韵律特征和谱特征的融合特征在CASIA和EMO-DB数据库上进行研究,分别取得了83.29%和75.28%的识别率。实验结果表明:ARCNN-GAP具有更好的识别性能和泛化性。 相似文献
17.
基于粒子群优化神经网络的语音情感识别 总被引:1,自引:0,他引:1
提出了一种基于粒子群优化算法的人工神经网络,并把它应用到语音情感识别系统中。依据情感的维度空间模型,分别提取了韵律特征与音质特征,研究了谐波噪声比特征随情感类别的变化。利用粒子群优化算法(PSO)训练随机产生的初始数据,优化神经网络的连接权值和阈值,快速地实现网络的收敛。在实验中比较了BP神经网络、RBF神经网络与PSO神经网络分别用于语音情感识别的识别率,PSO神经网络的平均识别率高于BP神经网络6.7%,高于RBF神经网络5.4%。结果显示,粒子群优化神经网络用于语音情感识别提高了识别性能。 相似文献
18.
语音情感识别是语音处理领域中一个具有挑战性和广泛应用前景的研究课题。探索了语音情感识别中的关键问题之一:生成情感识别的有效的特征表示。从4个角度生成了语音信号中的情感特征表示:(1)低层次的声学特征,包括能量、基频、声音质量、频谱等相关的特征,以及基于这些低层次特征的统计特征;(2)倒谱声学特征根据情感相关的高斯混合模型进行距离转化而得出的特征;(3)声学特征依据声学词典进行转化而得出的特征;(4)声学特征转化为高斯超向量的特征。通过实验比较了各类特征在情感识别上的独立性能,并且尝试了将不同的特征进行融合,最后比较了不同的声学特征在几个不同语言的情感数据集上的效果(包括IEMOCAP英语情感语料库、CASIA汉语情感语料库和Berlin德语情感语料库)。在IEMOCAP数据集上,系统的正确识别率达到了71.9%,超越了之前在此数据集上报告的最好结果。 相似文献
19.
人机交互离不开情感识别,目前无论是单模态的情感识别还是多生理参数融合的情感识别都存在识别率低,鲁棒性差的问题.为了克服上述问题,故提出一种基于两种不同类型信号的融合情感识别系统,即生理参数皮肤电信号和文本信息融合的双模态情感识别系统.首先通过采集与分析相应情感皮肤电信号特征参数和文本信息的情感关键词特征参数并对其进行优化,分别设计人工神经网络算法和高斯混合模型算法作为单个模态的情感分类器,最后利用改进的高斯混合模型对判决层进行加权融合.实验结果表明,该种融合系统比单模态和多生理参数融合的多模态情感识别精度都要高.所以,依据皮肤电信号和文本信息这两种不同类型的情感特征可以构建出识别率高,鲁棒性好的情感识别系统. 相似文献
20.
情感识别是多学科交叉的研究方向,涉及认知科学、心理学、信号处理、模式识别、人工智能等领域的研究热点,目的是使机器理解人类情感状态,进而实现自然人机交互.首先,从心理学及认知学角度介绍了语音情感认知的研究进展,详细介绍了情感的认知理论、维度理论、脑机制以及基于情感理论的计算模型,旨在为语音情感识别提供科学的情感理论模型;然后,从人工智能的角度,系统地总结了目前维度情感识别的研究现状和发展,包括语音维度情感数据库、特征提取、识别算法等技术要点;最后,分析了维度情感识别技术目前面临的挑战以及可能的解决思路,对未来研究方向进行了展望. 相似文献