共查询到18条相似文献,搜索用时 234 毫秒
1.
基于动静态组合特征参数的语音识别 总被引:1,自引:0,他引:1
基于语音信号的时变特性,本文提出了动静态特征参数结合的语音信号识别方法,首先在特征参数提取中引入了小波包变换,借助MFCC(Mel-Frequency Cepstrum Coefficient)参数的提取方法,用小波包变换代替傅立叶变换和Mel滤波器组,提取了新的静态特征参数DWPTMFCC(Discrete Wavelet Packet Transform Mel-Frequency Coefficient),然后把它与一阶DWPTMFCC差分参数相结合成一个向量,作为一帧语音信号的参数,通过试验和仿真,此参数具有很高的识别率,是一种很好的语音特征参数.并且把混沌特性引入到神经元,构成混沌神经网络,把这种神经网络用于语音识别,并与常用的BP神经网络识别方法进行了比较.试验结果表明,混沌神经网络的平均识别率要高于同等条件下常用的神经网络方法的识别率. 相似文献
2.
王彪 《计算机与数字工程》2012,40(4):19-21
为了提高语音识别率,提出了一种改进的MFCC参数提取方法。该方法应用小波包变换高分辨率的特点和语音高频加权的功能,在传统MFCC参数的基础上提取了一种新特征参数。新参数能对语音信号频率进行更加精细的划分,能够更稳定地减小频谱失真,且在一定程度上降低了信号的噪声。最后采用高斯混合模型(GMM)进行说话人语音识别,实验表明新特征参数取得了较好的识别率。 相似文献
3.
应用小波包变换提取说话人识别的特征参数 总被引:10,自引:2,他引:8
论文研究了小波包变换,分析了MFCC参数的提取,比较了MEL滤波器组频带划分和小波包分解的频带划分,提取出了基于小波包变换的特征参数(DBWPTC),实验结果表明通过小波包变换提取的语音特征参数DBWPTC优于通过傅立叶变换提取的特征参数MFCC。 相似文献
4.
在说话人识别系统中,语音特征参数的提取是影响系统性能的关键因素之一。在研究了MFCC参数的基础上,结合MFCC参数在信号的低频部分具有高频率分辨率以及小波包变换可以对信号的高频部分进行分解以提高高频部分的频率分辨率的优点,将二者结合,将Teager能量算子引入到信号高频部分的能量参数求解,构造了一种新的混合特征参数,采用支持向量机实现说话人的分类识别。实验结果表明,该特征参数有效提高了说话人辨识系统的识别率。 相似文献
5.
6.
针对传统语音短时分析技术容易出现丢失信息的现状,提出了一种基于临界带宽的小波包变换算法,该算法借鉴传统倒谱特征参数(MFCC)提取的过程并在该过程中引入临界带宽(Critical Bandwidth)的概念。在基于高斯混合模型的说话人识别系统中进行实验,结果表明在选取不同小波包函数的情况下,该算法所取得的识别率较MFCC参数均有提高。 相似文献
7.
利用小波多分辨率的理论对语音信号进行信号分解,结合其发声特性,分析高低频段对说话人识别的贡献大小,根据识别结果的分析,提取出了可以综合识别时间和识别效率的特征参数。实验结果表明,一层分解后的小波细节系数识别率为94.4%,比原信号MFCC提高7%,而数据个数却比原信号降低了一半,二次分解后的高频段语音依然得到了较高识别率,提取出的较低频信号也可以达到70.8%的识别率。 相似文献
8.
声纹识别技术实现的关键点在于从语音信号中提取语音特征参数,此参数具备表征说话人特征的能力。基于GMM-UBM模型,通过Matlab实现文本无关的声纹识别系统,对主流静态特征参数MFCC、LPCC、LPC以及结合动态参数的MFCC,从说话人确认与说话人辨认两种应用角度进行性能比较。在取不同特征参数阶数、不同高斯混合度和使用不同时长的训练语音与测试语音的情况下,从理论识别效果、实际识别效果、识别所用时长、识别时长占比等多个方面进行了分析与研究。最终结果表明:在GMM-UBM模式识别方法下,三种静态特征参数中MFCC绝大多数时候具有最佳识别效果,同时其系统识别耗时最长;识别率与语音特征参数的阶数之间并非单调上升关系。静态参数在结合较佳阶数的动态参数时能够提升识别效果;增加动态参数阶数与提高系统识别效果之间无必然联系。 相似文献
9.
人在不同情感下的语音信号其非平稳性尤为明显,传统的MFCC只能反映语音信号的静态特征,经验模态分解能够精细地刻画语音信号的非平稳特性。为提取情感语音的非平稳特征,用经验模态分解将情感语音信号分解为一系列固有模态函数分量,通过Mel滤波器后取其对数能量,进行DCT反变换后得到改进的MFCC作为情感识别的新特征,采用支持向量机对高兴、生气、厌烦和恐惧等四种语音情感识别。仿真实验结果表明:改进的MFCC识别率达到77.17%,在不同的信噪比下,识别率最大可提高3.26%。 相似文献
10.
关于生物特征识别问题,人耳的听觉识别精度很重要.识别研究难点在于如何选取有效的耐噪特征参数,以提高识别率,传统的特征参数都将语音视为一种平稳信号进行处理,不能很好的反映语音信号的动态特性,故不能得到较好的识别率.针对提高抗噪声性能和识别声信精度,提出了一种新的特征参数(DWP-MFCC),用在感知倒谱分析(Mel-Cepstrum)的基础上引入多分辨率小波包分析技术,通过提高时频分辨率,增强语音动态信息,克服了原有单一线性分析的不足,并基于矢量量化(VQ)系统进行说话人识别实验.实验证明,与LPCC和MFCC参数相比采用新方法使系统的识别率得到显著的提高. 相似文献
11.
Mel频率倒谱系数(MFCC)与线性预测倒谱系数(LPCC)融合算法只能反映语音静态特征,且LPCC对语音低频局部特征描述不足。为此,提出将希尔伯特黄变换(HHT)倒谱系数与相对光谱一感知线性预测倒谱系数(RASTA—PLPCC)融合,得到一种既反映发声机理又体现人耳感知特性的说话人识别算法。HHT倒谱系数体现发声机理,能反映语音动态特性,并更好地描述信号低频局部特征,可改进LPCC的不足。PLPCC体现人耳感知特性,识别性能强于MFCC,用3种融合算法对两者进行融合,将融合特征用于高斯混合模型进行说话人识别。仿真实验结果表明,该融合算法较已有的MFCC与LPCC融合算法识别率提高了8.0%。 相似文献
12.
通过MFFC计算出的语音特征系数,由于语音信号的动态性,帧之间有重叠,噪声的影响,使特征系数不能完全反映出语音的信息。提出一种隐马尔可夫模型(HMM)和小波神经网络(WNN)混合模型的抗噪语音识别方法。该方法对MFCC特征系数利用小波神经网络进行训练,得到新的MFCC特征系数。实验结果表明,在噪声环境下,该混合模型比单纯HMM具有更强的噪声鲁棒性,明显改善了语音识别系统的性能。 相似文献
13.
14.
工程机械强噪音环境下的噪声源较多,导致电话语音通话无法进行,且强噪声造成无效数据占用带宽。为此,提出基于隐马尔科夫模型(HMM)和支持向量机(SVM)的语音活动检测算法。该算法将提取的美尔频率倒谱系数特征向量输入到HMM识别器中,并通过Viterbi算法得到N维最佳识别结果,将其转换为SVM特征向量输入到SVM分类器中进行分类判别,得到判决结果。实验结果表明,该算法在机械工作噪音的情况下,语音检测率较静态统计类算法平均提高9%,比小波支持向量机方法提高11%,在驾驶室噪音的情况下比小波SVM方法有较小幅度的提高,但其增长速度较快,且比传统的统计类算法提高9%。 相似文献
15.
为了解决传统径向基(Radial basis function,RBF)神经网络在语音识别任务中基函数中心值和半径随机初始化的问题,从人脑对语音感知的分层处理机理出发,提出利用大量无标签数据初始化网络参数的无监督预训练方式代替传统随机初始化方法,使用深度自编码网络作为语音识别的声学模型,分析梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)和基于Gammatone听觉滤波器频率倒谱系数(Gammatone Frequency Cepstrum Coefficient,GFCC)下非特定人小词汇量孤立词的抗噪性能。实验结果表明,深度自编码网络在MFCC特征下较径向基神经网络表现出更优越的抗噪性能;而与经典的MFCC特征相比,GFCC特征在深度自编码网络下平均识别率相对提升1.87%。 相似文献
16.
随着微电子技术的高速发展,基于片上系统SOC的关键词识别系统的研究已成为当前语音处理领域的研究热点和难点。运用Xilinx公司ViterxII Pro开发板作为硬件平台,结合ISE10.1集成开发环境,完成了语音帧输出、MFCC、VQ和HMM等子模块的设计;提出了一种语音帧压缩模块架构,有效实现了语音帧信息到VQ标号序列的压缩,实现了由语音帧压缩模块和HMM模块构建的FPGA关键词识别系统。仿真实验结果表明,该系统具有较高的识别率和实时性,为关键词识别系统的FPGA硬件电路的实现研究提供了实例。 相似文献
17.
一种适用于说话人识别的改进Mel滤波器 总被引:1,自引:0,他引:1
Mel倒谱系数(MFcc)侧重提取语音信号的低频信息,对语音信号的频谱分布特性描述不充分,不能有效区分说话人个性信息。为此,通过分析语音信号各频段所含说话人个性信息的不同,结合Mel滤波器和反Mel滤波器在高低频段的不同特性,提出一种适于说话人识别的改进Mel滤波器。实验结果表明,改进Mel滤波器提取的新特征能够获得比传统Mel倒谱系数以及反Mel倒谱系数(IMFCC)更好的识别效果,并且基本不增加说话人识别系统训练和识别的时间开销。 相似文献
18.
现今关于驾驶员路怒情绪识别方法中语音特性分析相对较少,该研究以路怒情绪为研究对象,利用模拟驾驶系统建立数据集,通过分析驾驶员语音的频谱特征,将时域中短时能量及短时过零率特征参数和改进Mel频率倒谱系数(Mel frequency cepstral coefficients,MFCC)特征参数融合构成特征参数向量,利用萤火虫算法(firefly algorithm,FA)优化PNN神经网络(probabilistic neural networks)并构建识别模型,实现驾驶员路怒情绪的识别。实验结果表明,在相同神经网络下,改进MFCC融合特征提取方法相比传统MFCC特征提取方法具有更好的抗噪性。同时,FA-PNN模型的识别准确率为93.0%,相比传统PNN模型提高了11个百分点;F1-Score值为0.932 8,提高了0.104 7。该研究论证了语音信号处理技术对驾驶员路怒情绪识别的可行性,为汽车主动安全驾驶预警研究提供了新方法。 相似文献