共查询到20条相似文献,搜索用时 171 毫秒
1.
重音是语言交流中不可或缺的部分,在语言交流中扮演着非常重要的角色。本文基于ASCCD朗读语篇语料库,提取每个语音段基于子段拼接的短时谱信息,分别构建基于MFCC算法的短时谱特征集和基于RASTA-PLP算法的短时谱特征集;并选用NaiveBayes分类器对这两类基于子段拼接的特征集进行建模,这种分类方法充分利用了当前语音段的相关语音特性;基于子段拼接的MFCC短时谱特征组和基于子段拼接的RASTA-PLP短时谱特征组在ASCCD上能够分别得到82.1%和80.8%的汉语重音检测正确率。实验结果证明,基于子段拼接特征规整方法可以用于汉语重音检测研究中。 相似文献
2.
重音是语言交流中不可或缺的部分,在语言交流中扮演着非常重要的角色。本文基于ASCCD朗读语篇语料库,使用MFCC算法提取每个语音段的融合上下文子段拼接短时谱信息,构建基于MFCC算法的上下文短时谱特征集;并选用NaiveBayes分类器对这类特征集进行建模,而且将具有最大后验概率的类作为该对象所属的类,这种分类方法充分利用了当前语音段的相关语音特性;融合上下文的MFCC短时谱特征组在ASCCD上能够得到83.6%的汉语重音检测正确率。实验结果证明,融合上下文子段拼接特征规整方法可以用于汉语重音检测研究中。 相似文献
3.
4.
5.
6.
语音中存在加性噪声降低了MFCC参数的鲁棒性,使得说话人确认系统性能下降。多窗谱MFCC引入了多窗谱估计技术在增强 MFCC 特征的噪声鲁棒性上取得了一定效果,但改善的程度有限。为了使 MFCC 参数对噪声具有更强的鲁棒性,提出了一种改进的多窗谱 MFCC 提取算法。改进算法在多窗谱 MFCC 的基础上引入谱减思想,谱减法(Spectral Subtraction, SS)能够增强语音并降低噪音的干扰。因此,采用了Multitaper+SS组合的改进算法融合了两者的优势,具备了更好的性能。仿真结果表明,当测试语音中含有加性噪声时,与多窗谱 MFCC提取算法相比,采用改进的多窗谱 MFCC 的说话人确认系统性能在等错误率 EER 和最小检测代价函数值minDCF两项评测指标上都取得了更好的结果。 相似文献
7.
基于SVM模型的自然环境声音的分类 总被引:1,自引:0,他引:1
提出了一种基于支持向量机(SVM)模型对自然环境声音进行分类的方法。首先,提取Mel频率倒谱系数(MFCCs)来分析声音信号;其次,对自然环境的声音基于MFCC特征集建立SVM模型;最后,使用交叉验证的测试方法得到基于SVM算法的分类结果。使用SVM模型对50类自然环境中的声音进行分类的正确率可达99.5704%,分类效果明显优于K最近邻(KNN)和二分嵌套整合(END)这两种算法。 相似文献
8.
线性预测倒谱参数(LPCC)能很好的体现人的声道特性,而梅尔倒谱参数(MFCC)能很好的模拟人耳的听觉效应。针对MFCC在不同频率段的识别精度不一致和LPCC不能准确模拟人的听觉系统问题,将MFCC参数和IMFCC参数分别作为语音不同频率段的特征参数,结合线性预测参数(LPCC),均衡滤波器的分布,完整覆盖到整个频率段范围。将梅尔倒谱参数和线性预测参数结合起来作为语音识别的特征提取参数。实验结果表明,改进之后的算法从效率上和识别率上都有不同程度的提高。 相似文献
9.
在上下文无关的说话人识别应用中,针对传统MFCC特征参数在语音预处理方面不足以及三角滤波器组的缺陷,提出一种改进的MFCC特征参数提取方法.一方面在传统算法上加入端点检测,去除与说话人语音特征无关的静音段;另一方面用高斯滤波器组(Gaussian shaped filters GF)代替三角滤波器组进行频率到Mel频率的转换,提高识别准确率.说话人识别模型使用流行的高斯混合模型(GMM).实验结果显示,高斯滤波器组的引入相比于传统三角滤波器组识别率有4.45%的提升,本文改进后的MFCC特征参数相比于传统方法识别率也提升了6.43%,能更好的代表说话人的语音特征. 相似文献
10.
随着语音技术的发展,以回放语音为代表的各种仿冒语音给声纹认证系统及音频取证技术带来了极大挑战。针对回放语音对声纹认证系统的攻击问题,提出一种基于修正倒谱特征的检测算法。首先,采用变异系数来分析原始语音和回放语音在频域上的差异;然后,有针对性地将提取梅尔倒谱系数(MFCC)过程中的Mel滤波器组换成由linear滤波器和逆Mel滤波器组合的新滤波器组,进而得到基于新滤波器组的修正倒谱特征;最后,使用高斯混合模型(GMM)作为分类器进行分类判别。实验结果表明,修正的倒谱特征能够有效地检测回放语音,其等错误率约为3.45%。 相似文献
11.
针对深度信念网络(Deep Believe Network,DBN)模型泛化能力较弱,导致语音增强效果不佳的问题,提出了一种特征联合优化的回归DBN语音增强算法。该算法对语音和噪声不做任何假设。该算法分别提取语音信号的LMPS(Log-Mel frequency Power Spectrum)和MFCC(Mel-Frequency Cepstral Coefficients)特征。LMPS用于直接重构增强语音,保证了语音听觉质量,MFCC作为辅助次级特征。将两种特征联合输入到DBN体系中对网络参数进行优化。这种联合优化在对LMPS的直接预测中加入MFCC限制,提升了模型对LMPS估计的泛化能力,更加准确地重构增强语音。仿真结果表明,在不同的信噪比环境下,与LPS(Log Power Spectrum)和LMPS单特征优化相比,LMPS和MFCC联合优化使增强语音获得了较高的PESQ和SNR,提高了语音质量和可懂度。 相似文献
12.
现今关于驾驶员路怒情绪识别方法中语音特性分析相对较少,该研究以路怒情绪为研究对象,利用模拟驾驶系统建立数据集,通过分析驾驶员语音的频谱特征,将时域中短时能量及短时过零率特征参数和改进Mel频率倒谱系数(Mel frequency cepstral coefficients,MFCC)特征参数融合构成特征参数向量,利用萤火虫算法(firefly algorithm,FA)优化PNN神经网络(probabilistic neural networks)并构建识别模型,实现驾驶员路怒情绪的识别。实验结果表明,在相同神经网络下,改进MFCC融合特征提取方法相比传统MFCC特征提取方法具有更好的抗噪性。同时,FA-PNN模型的识别准确率为93.0%,相比传统PNN模型提高了11个百分点;F1-Score值为0.932 8,提高了0.104 7。该研究论证了语音信号处理技术对驾驶员路怒情绪识别的可行性,为汽车主动安全驾驶预警研究提供了新方法。 相似文献
13.
通过MFFC计算出的语音特征系数,由于语音信号的动态性,帧之间有重叠,噪声的影响,使特征系数不能完全反映出语音的信息。提出一种隐马尔可夫模型(HMM)和小波神经网络(WNN)混合模型的抗噪语音识别方法。该方法对MFCC特征系数利用小波神经网络进行训练,得到新的MFCC特征系数。实验结果表明,在噪声环境下,该混合模型比单纯HMM具有更强的噪声鲁棒性,明显改善了语音识别系统的性能。 相似文献
14.
通过对MFCC算法的研究,发现其中的FFT在整个时频空间使用固定的分析窗,这不符合语音信号的特性,而小波变换具有多分辨率特性,更符合人耳的听觉特性。提出了动静态特征参数结合的语音信号识别方法,首先在特征参数提取中引入了小波包变换,借助MFCC参数的提取方法,用小波包变换代替傅里叶变换和Mel滤波器组,提取了新的静态特征参数DWPTMFCC,然后把它与一阶DWPTMFCC差分参数相结合成一个向量,作为一帧语音信号的参数。仿真实验证明:基于新特征的识别率比原来MFCC的识别率有了很大提高,特别是在低信噪比情况下。 相似文献
15.
16.
基于特征选择的语音特征获取用于说话人识别是目前较为有效的方式。但是,最优语音特征随着具体应用环境的变化而不同。因此,提出了基于四类型语音特征封装式遗传特征选择算法(FSF-WrGAF),该算法提取了四种类型的语音特征参数,通过链式智能体遗传算法和GMM-UBM进行封装式动态特征选择,获取高精度的识别准确率。采用了多种指标完成该算法的性能测试。实验结果表明,该算法具体实现过程简便,改进效果明显,较同类算法在多项指标(识别率,EER,DET曲线)上都有显著提高。 相似文献
17.
为了解决传统径向基(Radial basis function,RBF)神经网络在语音识别任务中基函数中心值和半径随机初始化的问题,从人脑对语音感知的分层处理机理出发,提出利用大量无标签数据初始化网络参数的无监督预训练方式代替传统随机初始化方法,使用深度自编码网络作为语音识别的声学模型,分析梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)和基于Gammatone听觉滤波器频率倒谱系数(Gammatone Frequency Cepstrum Coefficient,GFCC)下非特定人小词汇量孤立词的抗噪性能。实验结果表明,深度自编码网络在MFCC特征下较径向基神经网络表现出更优越的抗噪性能;而与经典的MFCC特征相比,GFCC特征在深度自编码网络下平均识别率相对提升1.87%。 相似文献
18.
Mel频率倒谱系数(MFCC)与线性预测倒谱系数(LPCC)融合算法只能反映语音静态特征,且LPCC对语音低频局部特征描述不足。为此,提出将希尔伯特黄变换(HHT)倒谱系数与相对光谱一感知线性预测倒谱系数(RASTA—PLPCC)融合,得到一种既反映发声机理又体现人耳感知特性的说话人识别算法。HHT倒谱系数体现发声机理,能反映语音动态特性,并更好地描述信号低频局部特征,可改进LPCC的不足。PLPCC体现人耳感知特性,识别性能强于MFCC,用3种融合算法对两者进行融合,将融合特征用于高斯混合模型进行说话人识别。仿真实验结果表明,该融合算法较已有的MFCC与LPCC融合算法识别率提高了8.0%。 相似文献
19.
20.
一种适用于说话人识别的改进Mel滤波器 总被引:1,自引:0,他引:1
Mel倒谱系数(MFcc)侧重提取语音信号的低频信息,对语音信号的频谱分布特性描述不充分,不能有效区分说话人个性信息。为此,通过分析语音信号各频段所含说话人个性信息的不同,结合Mel滤波器和反Mel滤波器在高低频段的不同特性,提出一种适于说话人识别的改进Mel滤波器。实验结果表明,改进Mel滤波器提取的新特征能够获得比传统Mel倒谱系数以及反Mel倒谱系数(IMFCC)更好的识别效果,并且基本不增加说话人识别系统训练和识别的时间开销。 相似文献