首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 187 毫秒
1.
稀疏表示以其出色的分类性能成为说话人确认研究的热点,其中过完备字典的构建是关键,直接影响其性能。为了提高说话人确认系统的鲁棒性,同时解决稀疏表示过完备字典中存在噪声及信道干扰信息的问题,提出一种基于i-向量的主成分稀疏表示字典学习算法。该算法在高斯通用背景模型的基础上提取说话人的i-向量,并使用类内协方差归一化技术对i-向量进行信道补偿;根据信道补偿后的说话人i-向量的均值向量估计其信道偏移空间,在该空间采用主成分分析方法提取低维信道偏移主分量,用于重新计算说话人i-向量,从而达到进一步抑制i-向量中信道干扰的目的;将新的i-向量作为字典原子构建高鲁棒性稀疏表示过完备字典。在测试阶段,测试语音的i-向量在该字典上寻找其稀疏表示系数向量,根据系数向量对测试i-向量的重构误差确定目标说话人。仿真实验表明,该算法具有良好的识别性能。  相似文献   

2.
为了提高信道变化下说话人确认系统的识别率和鲁棒性,提出一种基于i-向量和加权线性判别分析的稀疏表示分类算法。首先借助于加权线性判别分析的信道补偿和降维性能,消除i-向量中信道干扰信息并降低i-向量的维数;紧接着在i-向量集上构建训练语音样本过完备字典矩阵,采用MAP算法求解测试语音在字典矩阵上的稀疏系数向量,最后利用稀疏系数向量重构测试语音样本,根据重构误差确定目标说话人。仿真实验结果验证了该算法的有效性和可行性。  相似文献   

3.
为了充分提取语音中的个人特征信息,类比矢量量化,提出了一种基于K-均值奇异值分解(K-SVD)的说话人识别方法。利用K-SVD训练得到的字典可较好地保存语音信号中的个人特征信息。利用这一特性,通过K-SVD从训练数据中提取包含说话人个人特征信息的字典,利用该字典实现说话人识别。相对于传统方法,该方法能够更好地利用语音的稀疏性保存语音中的个人特征信息并减小重构误差。实验仿真结果表明,与基于矢量量化的说话人识别方法相比,该方法在多说话人的情况下具有更好的识别率,具有更高的实用价值。  相似文献   

4.
建立一种非参数模型来刻画说话人的特征分布,并采用地面移动距离来度量分布之间的相似性.该方法能有效地利用有限的数据表达说话人的身份信息,直接计算特征分布与测试语音分布之间的距离,与传统的矢量量化和高斯混合模型相比,不需要通过对所有语音帧计算总平均失真误差和最小相似度,计算简单,主要能够降低系统对数据量的依赖性.并且通过自适应直方图均衡化方法对原始语音特征进行修正,使得噪声环境下获得的语音特征经过修正后更符合真实分布,增强了特征的抗噪性.实验表明,本文提出的方法在噪声环境下的短语音说话人识别系统中表现出较强的优势.  相似文献   

5.
基于说话人聚类和支持向量机的说话人确认研究   总被引:3,自引:1,他引:3  
说话人确认系统需要用目标说话人和背景模型说话人的语音数据对模型进行训练。背景模型说话人可随机选取或选取与目标说话人相近的说话人。采用说话人聚类的方法可以有效地解决说话人背景模型的选取问题。支持向量机用作说话人确认模型来训练目标说话人和背景说话人的语音数据。实验表明该方法对与文本无关的说话人确认问题是有效的。  相似文献   

6.
低信噪比非稳态噪声环境中的语音增强仍是一个开放且具有挑战性的任务. 为了提高传统的基于非负矩阵分解(nonnegative matrix factorization, NMF)的语音增强算法性能, 同时考虑到语音信号的时频稀疏特性和非稳态噪声信号的低秩特性, 本文提出了一种基于多重约束的非负矩阵分解语音增强算法(multi-constraint nonnegative matrix factorization speech enhancement, MC–NMFSE). 在训练阶段, 采用干净语音训练数据集和噪声训练数据集分别构建语音字典和噪声字典. 在语音增强阶段, 在非负矩阵分解目标函数中增加语音分量的稀疏性约束和噪声信号的低秩性约束条件, MC–NMFSE能够更好地从带噪语音中获得语音分量的表示, 从而提高语音增强效果. 通过实验表明, 在大量不同非平稳噪声条件和不同信噪比条件下, 与传统的基于NMF的语音增强方法相比, MC–NMFSE能获得较低的语音失真和更好的非稳态噪声抑制能力.  相似文献   

7.
基于说话人聚类和支持向量的说话人确认研究   总被引:2,自引:0,他引:2  
侯风雷 《计算机应用》2002,22(10):33-35
说话人确认系统需要用目标说话人和背景模型说话人的语音数据对模型进行训练。背景模型说话人可随机选或选取与目标说话人相近的说话人,采用说话人聚类的方法可以有效地解决说话人背景模型的选取问题。支持向量机用作说话人确认模型来训练目标说话人和背景说话人的语音数据,实验表明该方法地与文本无关的说话人确认问题是有效的。  相似文献   

8.
针对非负矩阵分解稀疏性不够,通过引入平滑矩阵调节字典矩阵和系数矩阵的稀疏性,提出基于非平滑非负矩阵分解语音增强算法。算法通过语音和噪声的先验字典学习构造联合字典矩阵;然后通过非平滑非负矩阵分解更新带噪语音在联合字典矩阵下的投影系数实现语音增强;同时通过滑动窗口法实时更新先验噪声字典。仿真结果表明,该算法相对非负矩阵分解语音增强算法和MMSE算法具有更好的抑制噪声能力。  相似文献   

9.
低信噪比非稳态噪声环境中的语音增强仍是一个开放且具有挑战性的任务.为了提高传统的基于非负矩阵分解(nonnegative matrix factorization,NMF)的语音增强算法性能,同时考虑到语音信号的时频稀疏特性和非稳态噪声信号的低秩特性,本文提出了一种基于多重约束的非负矩阵分解语音增强算法(multi-constraint nonnegative matrix factorization speech enhancement,MC–NMFSE).在训练阶段,采用干净语音训练数据集和噪声训练数据集分别构建语音字典和噪声字典.在语音增强阶段,在非负矩阵分解目标函数中增加语音分量的稀疏性约束和噪声信号的低秩性约束条件,MC–NMFSE能够更好地从带噪语音中获得语音分量的表示,从而提高语音增强效果.通过实验表明,在大量不同非平稳噪声条件和不同信噪比条件下,与传统的基于NMF的语音增强方法相比,MC–NMFSE能获得较低的语音失真和更好的非稳态噪声抑制能力.  相似文献   

10.
在噪声环境下的语音识别率将会受到严重的影响.语音增强是解决噪声污染的有效方法.在语音增强技术中,语音识别和说话人识别是很重要的.因此.识别装置通常工作在环境噪声下.语音增强不仅与信号处理技术相关,并涉及到人的听觉感知和语音认知.由于噪声的来源有很多,在不同的应用场合,其特点也各不相同.因此很难确定一个通用的适用于各种环境噪声的语音增强算法.根据不同的噪声,采用不同的语音增强策略.  相似文献   

11.
为了提高噪声中的说话人识别率,根据各维倒谱系数鉴别能力的不同,在识别过程中对GMM(Gauss mixture model)模型的各维分量直接加权,提出了直接倒谱加权的GMM模型,并且研究了在噪声情况下衡量各维特征鉴别能力的新方法。将该方法与MMSE(Minimum mean square error)相融合,对白噪声和地铁噪声进行实验,得到基线系统和MMSE增强系统在不同噪声情况下最优的加权窗函数。试验结果表明,直接倒谱加权GMM能显著提高系统识别精度。  相似文献   

12.
Noise robustness and Arabic language are still considered as the main challenges for speech recognition over mobile environments. This paper contributed to these trends by proposing a new robust Distributed Speech Recognition (DSR) system for Arabic language. A speech enhancement algorithm was applied to the noisy speech as a robust front-end pre-processing stage to improve the recognition performance. While an isolated Arabic word engine was designed, and developed using HMM Model to perform the recognition process at the back-end. To test the engine, several conditions including clean, noisy and enhanced noisy speech were investigated together with speaker dependent and speaker independent tasks. With the experiments carried out on noisy database, multi-condition training outperforms the clean training mode in all noise types in terms of recognition rate. The results also indicate that using the enhancement method increases the DSR accuracy of our system under severe noisy conditions especially at low SNR down to 10 dB.  相似文献   

13.
为了提高说话人识别抗噪系统的性能,提出了将RLS自适应滤波器作为语音信号去噪的预处理器,进一步提高语音信号的信噪比,再通过Gammatone滤波器组,对去噪后的说话人语音信号进行处理,提取说话人语音信号的特征参数GFCC,进而将特征参数GFCC用于说话人识别系统中。仿真实验在高斯混合模型识别系统中进行。实验结果表明,采用这种方法应用于说话人识别抗噪系统,系统的识别率及鲁棒性都有明显的提高。  相似文献   

14.
在连续语音识别系统中,针对复杂环境(包括说话人及环境噪声的多变性)造成训练数据与测试数据不匹配导致语音识别率低下的问题,提出一种基于自适应深度神经网络的语音识别算法。结合改进正则化自适应准则及特征空间的自适应深度神经网络提高数据匹配度;采用融合说话人身份向量i-vector及噪声感知训练克服说话人及环境噪声变化导致的问题,并改进传统深度神经网络输出层的分类函数,以保证类内紧凑、类间分离的特性。通过在TIMIT英文语音数据集和微软中文语音数据集上叠加多种背景噪声进行测试,实验结果表明,相较于目前流行的GMM-HMM和传统DNN语音声学模型,所提算法的识别词错误率分别下降了5.151%和3.113%,在一定程度上提升了模型的泛化性能和鲁棒性。  相似文献   

15.
王娜  郑德忠  刘海龙 《控制工程》2007,14(5):495-498
干净语音环境下识别率很高的说话人识别系统,在有噪声语音环境下识别性能显著降低。针对这一问题,将小波语音增强算法应用于说话人识别系统,提出一种结点阈值去噪新方法。语音增强主要目的是从带噪语音中尽可能地提取纯净的原始语音。在不同信噪比条件下进行实验,结果表明,提出的方法比传统的阈值法能更好地提高语音质量。  相似文献   

16.
提出一种噪声下的多数据流子带语音识别方法。传统的子带特征方法虽然能提高噪声下的语音识别性能,但通常会使无噪声情况下的识别性能下降。新方法提取感知线性预测(PLP)特征和子带特征,分别进行识别,然后在识别概率层将两者相结合。通过E-Set在NoiseX92下的白噪声的识别实验表明,新方法不仅具有更好的抗噪性能,而且同时能提高无噪声情况下的识别性能。  相似文献   

17.
提出一种基于交替方向乘子法的(Alternating Direction Method of Multipliers,ADMM)稀疏非负矩阵分解语音增强算法,该算法既能克服经典非负矩阵分解(Nonnegative Matrix Factorization,NMF)语音增强算法存在收敛速度慢、易陷入局部最优等问题,也能发挥ADMM分解矩阵具有的强稀疏性。算法分为训练和增强两个阶段:训练时,采用基于ADMM非负矩阵分解算法对噪声频谱进行训练,提取噪声字典,保存其作为增强阶段的先验信息;增强时,通过稀疏非负矩阵分解算法,从带噪语音频谱中对语音字典和语音编码进行估计,重构原始干净的语音,实现语音增强。实验表明,该算法速度更快,增强后语音的失真更小,尤其在瞬时噪声环境下效果显著。  相似文献   

18.
提出了一种适应复杂环境下的高效的实时语音端点检测算法,给出了每帧声信号在滤波中的噪声功率谱的推算方法。先将每帧语音的频谱进行迭代维纳滤波,再将它划分成若干个子带并计算出每个子带的频谱熵,然后把相继若干帧的子带频谱熵经过一组中值滤波器获得每帧的频谱熵,根据频谱熵的值对输入的语音进行分类。实验结果表明,该算法能够有效地区分语音和噪声,可以显著地提高语音识别系统的性能,在不同的噪声环境条件下具有鲁棒性。该算法计算代价小,简单易实现,适合实时语音识别系统的应用。  相似文献   

19.
Noise estimation and detection algorithms must adapt to a changing environment quickly, so they use a least mean square (LMS) filter. However, there is a downside. An LMS filter is very low, and it consequently lowers speech recognition rates. In order to overcome such a weak point, we propose a method to establish a robust speech recognition clustering model for noisy environments. Since this proposed method allows the cancelation of noise with an average estimator least mean square (AELMS) filter in a noisy environment, a robust speech recognition clustering model can be established. With the AELMS filter, which can preserve source features of speech and decrease the degradation of speech information, noise in a contaminated speech signal gets canceled, and a Gaussian state model is clustered as a method to make noise more robust. By composing a Gaussian clustering model, which is a robust speech recognition clustering model, in a noisy environment, recognition performance was evaluated. The study shows that the signal-to-noise ratio of speech, which was improved by canceling environment noise that kept changing, was enhanced by 2.8 dB on average, and recognition rate improved by 4.1 %.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号