首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 78 毫秒
1.
随着人工智能发展,语音情感识别技术的应用范围越来越广。该文以语音情感识别为出发点,介绍了语音信号特征提取方法和语音情感分类模型训练过程中中权值和参数更新的算法,并在tensorflow框架中进行试验设计和试验,通过试验分析激活函数、中间层层数、训练轮次对模型训练结果的影响。试验结果表明,当训练轮次为1 000轮、中间层层数为6个且激活函数选择elu时判定准确率较高。  相似文献   

2.
传统的语音情感识别方式采用的语音特征具有数据量大且无关特征多的特点,因此选择出与情感相关的语音特征具有重要意义。通过提出将注意力机制结合长短时记忆网络(Long Short Term Memory, LSTM),根据注意力权重进行特征选择,在两个数据集上进行了实验。结果发现:(1)基于注意力机制的LSTM相比于单独的LSTM模型,识别率提高了5.4%,可见此算法有效提高了模型的识别效果;(2)注意力机制是一种有效的特征选择方法。采用注意力机制选择出了具有实际物理意义的声学特征子集,此特征集相比于原有公用特征集在降低了维数的情况下,提高了识别准确率;(3)根据选择结果对声学特征进行分析,发现有声片段长度特征、无声片段长度特征、梅尔倒谱系数(Mel-Frequency Cepstral Coefficient, MFCC)、F0基频等特征与情感识别具有较大相关性。  相似文献   

3.
朱敏  姜芃旭  赵力 《声学技术》2021,40(5):645-651
语音情感识别是人机交互的热门研究领域之一。然而,由于缺乏对语音中时频相关信息的研究,导致情感信息挖掘深度不够。为了更好地挖掘语音中的时频相关信息,提出了一种全卷积循环神经网络模型,采用并行多输入的方式组合不同模型,同时从两个模块中提取不同功能的特征。利用全卷积神经网络(Fully Convolutional Network,FCN)学习语音谱图特征中的时频相关信息,同时,利用长短期记忆(Long Short-Term Memory,LSTM)神经网络来学习语音的帧级特征,以补充模型在FCN学习过程中缺失的时间相关信息,最后,将特征融合后使用分类器进行分类,在两个公开的情感数据集上的测试验证了所提算法的优越性。  相似文献   

4.
邓帅  吴筝 《中国标准化》2024,(8):241-244
在人工智能时代下,深度学习技术逐渐融入教育研究领域的各个方面。教师教学语言是课堂教学的主要方式,教学情感作为教学评价的主要评估方式,深刻影响着教师的教学效果。本文基于卷积神经网络模型对教师语音情感进行识别,以语音情感描述模型和情感教学理论作为理论基础,按照“数据库建立—模型搭建—实践应用”的研究路径开展教师标准课堂教学语音情感的研究,建立教师课堂语音数据库,构建教师语音情感评价量表,还原真实课堂的精准采集、助力教师评价的高效开展,以此优化教师教学语音情感,赋能教学改进。  相似文献   

5.
6.
针对语音情感识别中无法对关键的时空依赖关系进行建模,导致识别率低的问题,提出一种基于自身注意力(self-attention)时空特征的语音情感识别算法,利用双线性卷积神经网络、长短期记忆网络和多组注意力(multi-head attention)机制去自动学习语音信号的最佳时空表征.首先提取语音信号的对数梅尔(log...  相似文献   

7.
简述线性预测倒谱系数(LPCC)、Teager能量算子(TEO)、梅尔频率倒谱系数(MFCC)和过零峰值幅度(ZCPA)特征提取方法,并将这四种方法应用于情感识别。设计两种实验,第一种是使用TYUT和Berlin语料库的单语言实验,这种实验证明,以上四种特征在单一的语料库单一语言条件下均能够有效地表征语音的情感特征,其中MFCC特征对情感的识别率最高。第二种实验是混合语料库的单一语言实验。之前大多数关于情感特征的研究都是基于某一种语料库中某种特定语言的,但在实际中,说话人的背景环境总是多种多样。因此,对特征的混合语料库研究是有现实意义的。第二种实验证明这四种特征都是语料库依赖性的,其中 ZCPA特征的识别率下降最少。  相似文献   

8.
金赟  赵艳  黄程韦  赵力 《声学技术》2010,29(1):63-68
为了研究耳语音情感识别,制定了耳语音情感数据库的制作流程和制作规范,设计并建立了一个包含4000个单词、5000条语句和600个段落的耳语音情感数据库。利用模糊数学中的隶属度函数和层次分析法对语句的有效性进行了检验,得到一个满足研究要求的耳语音情感数据库。利用库中的语料进行初步的耳语音情感识别,得知正常音语音情感识别所用的音长、能量等参数,在耳语音中仍然可以使用;而正常音的其它涉及基音的一些参数,不适用于耳语音,需要进行改进或者提取新的特征参数。  相似文献   

9.
针对语音情感识别任务中特征提取单一、分类准确率低等问题,提出一种3D和1D多特征融合的情感识别方法,对特征提取算法进行改进.在3D网络,综合考虑空间特征学习和时间依赖性构造,利用双线性卷积神经网络(Bilinear Convolutional Neural Network,BCNN)提取空间特征,长短期记忆网络(Sho...  相似文献   

10.
储有亮  李梁 《声学技术》2021,40(6):815-821
为了解决人们在强噪声环境下,通过空气途径传递的语音信号会严重失真的问题,提出了一种基于深层双向长短期记忆-深度卷积神经网络(Deep Bidirectional Long and Short Term Memory-Deep Convolutional Neural Network,DBLSTM-DCNN)的骨导语音转...  相似文献   

11.
研究了基于自主研发的手部康复训练系统的康复手势识别方法。针对现有手势识别算法识别手势过于单一、不具备针对性的问题,通过对手部功能障碍患者的手部运动及控制力的分析,提出了一种新的基于虚拟试验箱的康复手势识别算法。该算法的核心是利用摄像头捕捉不同的康复手势,并通过辅助训练标志板来实现手和辅助康复器械定位。基于改进的形状上下文识别算法的处理器实现了康复手势识别功能,并进一步控制虚拟场景中的物体做出相应的反应。该算法可以完成推、拉、悬垂、托举、二指捏等典型康复手势的准确识别,并与现有的手势识别算法进行了准确的对比。实验结果表明,该算法在识别率上有一定的提高,并且在识别的手势上更具有针对性。  相似文献   

12.
陈雷  杨俊安  王龙  李晋徽 《声学技术》2016,35(2):146-154
大词汇量连续语音识别系统中,为了增强现有声学模型的表征能力、防止模型过拟合,提出一种基于遗失策略(Dropout)修正线性深度置信网络的声学模型构建方法。该方法使用修正线性函数代替传统Logistic函数进行深度置信网络训练,修正线性函数更接近生物神经网络的工作方式,增强了模型的表征能力;同时引入Dropout策略对修正线性深度置信网络进行调整,避免节点之间的协同作用,防止网络出现过拟合。文章利用公开语音数据集进行了实验,实验结果证明了所提出的声学模型构建方法相对于传统方法的优越性。  相似文献   

13.
将人脸表情变化作为一种生物识别特征用于身份识别.首次在三维人脸数据上进行了表情变化的身份信息提取,提出了将表情运动方向和运动距离两种新的特征用于身份识别.针对人类普遍存在的六种表情,采用三种不同的特征,以及五种不同的融合策略进行身份识别.在BU-3 DFE数据库上进行了系统的实验,分析比较了不同表情、不同特征以及不同的融合策略的识别性能.实验结果表明将表情变化作为一种生物识别特征是可接受的,并可作为其他生物识别特征的一种有益补充.  相似文献   

14.
鲁棒语音识别技术在人机交互、智能家居、语音翻译系统等方面有重要应用。为了提高在噪声和语音干扰等复杂声学环境下的语音识别性能,基于人耳听觉系统的掩蔽效应和鸡尾酒效应,利用不同声源的空间方位,提出了基于双耳声源分离和丢失数据技术的鲁棒语音识别算法。该算法首先根据目标语音的空间方位信息,在双耳声信号的等效矩形带宽(Equivalent Rectangular Bandwidth,ERB)子带内进行混合语音信号的分离,从而得到目标语音的数据流。针对分离后目标语音在频域存在频谱数据丢失的问题,利用丢失数据技术修正基于隐马尔科夫模型的概率计算,再进行语音识别。仿真实验表明,由于双耳声源分离方法得到的目标语音数据去除了噪声和干扰的影响,所提出的算法显著提高了复杂声学环境下的语音识别性能。  相似文献   

15.
单通道语音信号在信噪比较大的环境下经过增强后再识别,能表现出较高的识别率。但是在低信噪比环境下,增强后语音信号的识别率急剧下降。针对此种情况,提出了一种用在识别系统前端的语音增强算法,该增强算法将采集到的带噪语音信号先使用对数最小均方误差(Logarithmic Minimum Mean Square Error,Log MMSE)提高其信噪比,然后再利用改进的维纳滤波去除噪声残留并提升语音可懂度,最后用梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCC)和隐马尔科夫模型(Hidden Markov Model,HMM)对增强后的语音信号做特征提取并识别。实验分析结果表明,该方法能有效地抑制背景噪声并减少噪声残留,显著提升低信噪比环境下语音识别的准确性。  相似文献   

16.
水声目标智能识别是水声装备智能化的重要组成部分,深度学习则是实现水声目标智能识别的重要技术手段之一。当前水声目标智能识别经常面临数据集较小带来的训练样本量不足的情况,针对小数据集识别中存在的因过拟合导致模型泛化能力不足,以及输入的水声信号二维谱图样式不统一的问题,文章提出了一种基于VGGish神经网络模型的水声目标识别方法。该方法以VGGish网络作为特征提取器,并在VGGish网络前部加入了信号预处理模块,同时设计了一种基于传统机器学习算法的联合分类器,通过以上措施解决了过拟合问题和二维谱图样式不统一问题。实验结果显示,该方法应用在ShipsEar数据集上得到了94.397%的识别准确率,高于传统预训练-微调法得到的最高90.977%的准确率,并且在相同条件下该方法的模型训练耗时仅为传统预训练-微调方法的0.5%左右,有效提高了识别准确率和模型训练速度。  相似文献   

17.
一种新型的语音分析编辑合成系统   总被引:1,自引:1,他引:0  
作者根据语音研究的需要,研制了一套集语音采集,分析,合成,修改,比较,放音、调整为一体。通过参数修正,中值平滑,Hanning窗滤波,鼠标画线式,数值直接修改参数的语音分析,编辑,合成系统。该系统对语音研究来说,可以大大地缩短分析合成时间,提高效率,探导各种参数的作用,各种分析合成方法的优劣,对整个语音的研究有其使用价值。本文通过语音分析编辑合成系统的结构,功能,应用3个部分来介绍这套系统。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号