首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 171 毫秒
1.
DSP嵌入式说话人识别系统的设计与实现   总被引:1,自引:1,他引:0  
洪家高  俞一彪 《现代电子技术》2009,32(22):203-206,209
介绍一种基于浮点型数字信号处理器(TMS320C6713),并通过语音识别说话人身份的实用系统。为构建一个稳定实用的基于DSP说话人识别系统。以Mel倒谱系数作为特征参数,采用高斯混合模型作为识别模型,模型参数采用FLASH ROM存储,并实现自举运行。经过调试,实现了系统的自举运行,自举运行时可选择系统的训练和识别功能,并可方便地选择参加训练和识别的说话人,识别的范围为10人,识别的速度在3 s之内,准确率达98%以上。达到了系统设计的目的要求。与其他系统相比,该系统在实现算法上加以一定的改进,保证了识别率,并实现自举运行同时充分考虑可操作性,具有更大的实用价值。  相似文献   

2.
黄伟  戴蓓蒨  李辉 《电子与信息学报》2004,26(10):1607-1612
该文提出了一种基于分类高斯混合模型和神经网络融合(FS-GMM/NN)的说话人识别方法,通过对特征矢量进行聚类分析,将说话人的训练语音分成若干类。然后根据各个类中含特征矢量的多少采用不同的模型混合度,训练建立分类高斯混合模型。并采用神经网络实现各个分类高斯混合模型输出的融合。在100个男性话者的与文本无关的说话人识别实验中,基于分类高斯混合模型和神经网络融合的方法在识别性能及噪声鲁棒性上都优于不分类的GMM识别系统,并具有较高的模型训练效率,且可以有效地降低话者模型的混合度和测试语音长度。  相似文献   

3.
为了进一步提升i-vector说话人识别模型的系统性能,探讨了基于i-vector的说话人识别系统中训练时长、男女比例和高斯混合度对系统识别性能的影响。针对训练时长、男女比例和高斯混合度设置了一组实验,结合目前最流行的语音识别工具Kaldi进行验证,得出i-vector说话人识别算法的最佳参数,为以后的基于i-vector说话人识别算法研究提供数据依据。  相似文献   

4.
李聪  葛洪伟 《信号处理》2018,34(7):867-875
由于环境噪声的影响,实际应用中说话人识别系统性能会出现急剧下降。提出了一种基于高斯混合模型-通用背景模型和自适应并行模型组合的鲁棒性语音身份识别方法。自适应并行模型组合是一种噪声鲁棒性的特征补偿算法,能够有效减少训练环境与测试环境之间的不匹配现象,从而提高系统识别准确率和抗噪性能。首先,算法从测试语音中估计出噪声特征,然后用一个单高斯模型对噪声特征进行拟合得到噪声均值和协方差。最后,根据得出的噪声均值和协方差,调整训练好的高斯混合模型均值向量和协方差矩阵,使其尽可能地匹配测试环境。实验结果表明,该方法可以准确地重构干净语音的高斯混合模型参数,并且能够显著提高说话人识别的准确率,特别是在低信噪比情况下。   相似文献   

5.
针对源说话人与目标说话人之间声学差异过大影响语音转换效果的问题,提出一种基于声道归一化调整的语音转换方法。该方法通过STRAIGHT分析-合成模型提取说话人的个性化特征参数。在频谱训练阶段,对已提取的Mel频率倒谱系数利用声道归一化和高斯混合模型的方法进行训练映射。主观听音测试证明,该方法的转换效果优于传统的不使用声道归一化的高斯混合模型。  相似文献   

6.
张昊慧 《通信技术》2010,43(12):144-146
为了提高说话人识别中语音特征参数的鲁棒性,提取了新的特征参数DWT-MFCC,在提取该参数时利用了新构造的阈值函数,并基于高斯混合模型的说话人识别系统进行实验。实验结果表明,相对于传统的MEL倒谱系数(MFCC)参数,在相同的噪声环境下,DWT-MFCC参数具有更高的说话人识别率。  相似文献   

7.
说话人识别是信息技术和生物学的新一代身份验证方式,在说话人识别的研究中,特征参数的提取直接影响到识别系统最终的识别效率.通过对Mel频率倒谱系数特征参数进行分析研究,基于Mel频率倒谱系数改进加权函数,将体现个人语音特性的加权特征参数与反映语音帧间变化的差分Mel频率倒谱系数进行维度筛选,再进行参数混合.实验结果表明,通过改进加权函数提取得到的特征参数与差分Mel频率倒谱系数的混合参数在矢量量化的说话人识别系统中,码本容量为16和32时可以达到100%的识别率.  相似文献   

8.
介绍了一种基于连续M元高斯混合密度的隐马尔可夫模型(HMM)的非特定人孤立词语音识别仿真系统。通过研究模型状态数、训练时间以及特征参数选取对语音识别率的影响,得出HMM状态数取4,训练次数为20次,特征参数选取48维LPCC和MFCC的混合参数,可使语音识别系统对于汉语孤立词的识别率达到90%。  相似文献   

9.
韦国刚  周萍 《电子世界》2014,(6):61-61,99
模仿者蓄意模仿说话人的语音,当相似度较高时,说话人识别系统就有可能被模仿者欺骗。语音特征参数作为说话人识别系统的关键组成部分,直接影响系统的性能。Mel系数是语音识别领域最成熟的特征参数之一,但是,MFCC特征参数在语音识别中对中、高频段的识别精度较低。为了解决上述问题,融合Mid-MFCC和IMFCC,采用增减分量法,提出了MMI-MFCC特征参数。实验结果表明,新的MMI-MFCC特征参数比传统的MFCC特征参数更有效的区分模仿语音的相似度。  相似文献   

10.
王彪 《电子设计工程》2012,20(6):29-30,33
为了提高语音信号的识别率。提出了一种改进的LPCC参数提取方法。该方法先对语音信号进行预加重、分帧加窗处理。然后进行小波分解,在此基础上提取LPCC参数,从而构成新向量作为每帧信号的特征参数。最后采用高斯混合模型(GMM)进行说话人语音识别,实验表明新特征参数取得了较好的识别率。  相似文献   

11.
张涛涛  陈丽萍  戴礼荣 《信号处理》2016,32(10):1213-1219
在说话人确认中,特征端因子分析(Acoustic Factor Analysis, AFA)利用MPPCA(Mixtures of Probabilistic Principal Component Analyzers, MPPCA)算法在通用背景模型(Universal Background Model, UBM)的每个高斯上分别对特征降维以去除语音特征中文本、信道和噪声等信息的干扰,获得增强的说话人信息并用于提升说话人确认的性能。但是通用背景模型属于无监督的聚类方法,其每个高斯成分物理意义不够明确,不能区分不同说话人发不同音素时的情况。为解决这一问题,本文利用语音识别中的声学模型深度神经网络(Deep Neural Network, DNN)取代传统的通用背景模型并结合特征端因子分析分别对不同音素上的语音特征进行降维提取出说话人信息,进而提取DNN i-vector用于说话人确认。在RSR2015数据库PartIII上的实验结果表明该方法相对于基于UBM的特征端因子分析方法在男女测试集上等错误率(Equal Error Rate, EER)分别下降13.49%和22.43%.   相似文献   

12.
受到模型规模大和计算量大的限制,经典的基于高斯混合模型的说话人识别方法不适合于资源有限的PDA平台实时说话人自动识别要求。以Mel倒谱系数为说话人特征,运用主成分分类技术,结合定点数计算技术实现实时说话人自动识别。在19个用户的语音库上进行系统识别实验,此新型分类技术的训练时间缩短为基线系统的1/50,测试时间缩短为1/12,模型规模缩小为1/6,同时识别性能达到94.7%。  相似文献   

13.
车滢霞  俞一彪 《电子学报》2016,44(9):2282-2288
提出一种约束条件下的结构化高斯混合模型及非平行语料语音转换方法.从源与目标说话人的原始非平行语料中提取出少量相同音节,在结构化高斯混合模型的训练过程中,利用这些相同音节包含的语义信息及声学特征对应关系对K均值聚类中心进行约束,并在(Expectation Maximum,EM)迭代过程中对语音帧属于模型分量的后验概率进行修正,得到基于约束的结构化高斯混合模型(Structured Gaussian Mixture Model with Constraint condition,C-SGMM).再利用全局声学结构(Acoustic Universal Structure,AUS)原理对源和目标说话人的约束结构化高斯混合模型的高斯分布进行匹配对准,推导出短时谱转换函数.主观和客观评价实验结果表明,使用该方法得到的转换后语音在谱失真,目标倾向性和语音质量等方面均优于传统的结构化模型语音转换方法,转换语音的平均谱失真仅为0.52,说话人正确识别率达到95.25%,目标语音倾向性指标ABX平均为0.82,性能更加接近于基于平行语料的语音转换方法.  相似文献   

14.
林丽 《电子器件》2020,43(2):466-470
研究提出了一种基于声发射源特征识别的矿井旋转机组碰摩故障检测方法。为了能对矿井旋转机组实时远程监控并实现分布式网络化管理,设计了一种基于ARM嵌入式系统的矿井旋转机组振动监测系统。针对高斯混合模型在建模时需要较多的训练数据的缺陷,提出了一种基于模糊矢量量化混合模型的声发射识别方法,该方法综合考虑了模糊集理论、矢量量化和高斯混合模型的优点,通过用模糊矢量量化误差尺度取代传统高斯混合模型的输出概率函数,减少了建模时对训练数据量的要求,提高了模型精度和识别速度。通过实验观察上位机输出结果,验证了监测数据的实时性和准确性,达到了对旋转机组运行的状态信息实时监测和故障诊断的要求。  相似文献   

15.
杜先娜  俞一彪 《信号处理》2016,32(9):1101-1107
针对文本无关非特定说话人年龄识别,本文提出了一种基于有效频带多分辨率特征的统计分析识别方法。输入语音,通过小波包变换进行有效频带分解,然后将各有效频带的小波包系数连接构成一个整体计算美尔频率倒谱系数,得到有效频带多分辨率特征参数WPMFC(Wavelet Packet Mel-Frequency Cepstrum),说话人按年龄划分为儿童、青年、中年和老年四个阶段,并进一步按性别训练各年龄段语音得到8个高斯混合模型。测试语音依据最大似然准则进行识别判决。实验对本文提出的方法与传统的短时谱统计分析方法进行了比较,结果显示本文提出的方法有较好的识别性能,集内平均识别率达到65.17%。同时,实验结果也说明相对语音文本变化的影响,不同说话人发音特征的变化对识别性能的影响更大。   相似文献   

16.
《Signal Processing, IET》2009,3(3):189-204
This work demonstrates the usefulness of multiple frame size and rate (MFSR) analysis for speaker recognition under limited data condition. Present day speaker recognition systems assume the availability of sufficient data for modelling and testing. Owing to this, speech signals are analysed with fixed frame size and rate, which may be termed as single frame size and rate (SFSR) analysis. In the limited data condition available training and testing data is small. If we use SFSR analysis, then it may not provide sufficient feature vectors to train and test the speaker. Further, insufficient feature vectors lead to poor speaker modelling during training and may not yield reliable decision during testing. As part of analysis, we demonstrate the use of multiple frame size (MFS), multiple frame rate (MFR) and MFSR analysis techniques for speaker recognition under limited data condition. These techniques are specifically useful to mitigate the sparseness of limited feature vectors during training and testing. These techniques produce relatively more number of feature vectors. This helps in better modelling and testing under limited data conditions. The experimental results show that use of MFS, MFR and MFSR analysis improves the performance significantly compared to SFSR analysis. The MFSR analysis even outperforms the Gaussian mixture model-universal background model (GMM-UBM) performance, the most widely used modelling technique.  相似文献   

17.
在语音识别中,MFCC 参数是说话人识别中常用的特征参数之一。文中针对说话人识别速度较慢以及占用资源较大的问题,提出了一种 MFCC 计算的有效方案。利用 MFCC 滤波器的频率响应函数的三角形结构,改进了 Mel 滤波器的设计方法。实验结果表明,文中所提方案在单帧内存访问时间上减少了 83.6%,在保证识别准确率不降低的情况下,使识别速度大幅度提高,降低了说话人识别计算的复杂性。  相似文献   

18.
随着计算机技术的发展,人们对和谐人机交互的要求不断提高,这就要求计算机能理解说话人的情感信息,即能进行语音情感识别。本文提出了一种基于支持向量机(SVM)的语音情感识别方法,主要对人类的6种基本情感:高兴、惊奇、愤怒、悲伤、恐惧、平静进行研究。首先对自建语音情感数据库的情感语句提取特征,然后运用序列前向选择(SFS)算...  相似文献   

19.
赵振东  张静  李圆  胡喜梅 《通信技术》2009,42(10):192-193
提出了基于高斯混合模型(GMM)说话人分类的分级说话人识别系统,同时将小波神经网络(WNN)引入到子识别系统中。分别对未分级说话人识别系统和分级说话人识别系统进行了比较。仿真实验结果表明,分级网络在保证正确识别率的同时,不仅改善了网络训练速度,亦大大提高了识别响应速度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号