首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 156 毫秒
1.
针对用于隐马尔科夫模型(HMM)训练的经典Baum Welch算法容易陷入局部最优解这一问题,提出基因克隆的Baum Welch算法。该算法在Baum Welch算法迭代计算到10-3以内不再改变的情况下,在当前已获得局部最优参数B矩阵的基础上,执行基因克隆算子,获得优化的HMM的B参数,进一步提升Baum Welch算法语音模板的输出概率。实验结果表明:该算法模板计算概率大于经典的Baum Welch算法,获得了比Baum Welch算法更优的训练模板。  相似文献   

2.
针对Baum—Welch算法依赖于初始值的选取而容易陷入局部最优解的问题,基于全局优化的思想,提出了一种改进的HMM语音识别算法。该算法将遗传算法应用到HMM模型训练中,得到了全局最优解。实验结果表明,所提出的算法使用有效,识别率显著提高。  相似文献   

3.
郝杰  李星 《计算机工程与应用》2001,37(11):24-25,100
文章分析了经典隐马尔可夫模型(Hidden Markov Model,HMM)齐次假设的理论缺陷,以及两种非齐次HMM。语音识别对比实验表明,经验性的惩罚概率法是稳健的、且更有效的补偿方法。实验结果还指出在最优惩罚概率下,经典HMM达到了与非齐次的基于段长分布的HMM(Duration Distribution Based HMM,DDBHMM)几乎相同的识别率,证明了齐次假设并不影响经典HMM在实用中的重要性。文章提出了一种改进Baum-Welch重估算法的初值的经验方法,用于HMM参数的估计,在汉语连续语音识别实验中一致性地降低了音节误识率。  相似文献   

4.
针对用BaumWelch算法训练隐马尔可夫模型用于序列比对算法的搜索空间有限性容易陷入局部最优点的缺陷,提出一种用量子粒子群优化算法训练隐马尔可夫模型的生物多序列比对新方法。该方法克服了BaumWelch算法在收敛性能上的缺陷,在整个可行解空间中进行搜索。从BaliBASE数据库中选取测试例子进行数值实验,实验结果表明,所提算法优于BaumWelch算法,对标准例子进行的实验证明了算法的有效性。  相似文献   

5.
针对传统EM算法训练GMM不能充分利用训练数据所属高斯分量信息, 从而在一定程度上影响说话人识别性能的缺陷, 采用RPEM (竞争惩罚EM)算法训练GMM, 并引入批处理RPEM算法解决RPEM算法运算量大、收敛速度慢的问题, 同时针对RPEM和批处理RPEM算法训练时方差优化存在的问题进行了改进, 提出了改进的批处理RPEM算法。在Chains 说话人识别数据库上的实验表明, 改进的批处理RPEM算法取得了相对于传统EM、RPEM以及批处理RPEM算法更好的性能, 还极大地提高了训练效率, 减小了运算量, 说明了提出的改进批处理RPEM算法用于说话人识别时的有效性。  相似文献   

6.
许允喜  陈方 《计算机应用》2008,28(6):1546-1548
为了解决传统高斯混合模型(GMM)对初值敏感,在实际训练中极易得到局部最优参数的问题,提出了一种采用微粒群算法优化GMM参数的新方法。该方法将最大似然估计融入到微粒群算法迭代过程中,形成了新的混合算法。它利用微粒群算法的全局优化性及最大似然估计的局部寻优性求解高斯混合模型的参数,以提高参数精度。说话人辨认实验表明,与传统的方法相比,新方法可以得到更优的模型参数,使得系统的识别率进一步提高。  相似文献   

7.
矢量量化在语音识别中占有重要的地位,传统的LBG算法虽然收敛速度快,但极易陷入局部最优点。论文利用混沌运动固有的随机性与轨道遍历性等优良性质,提出了一种基于混沌寻优的Hopfield神经网络模型,并将其运用于语音识别中的矢量量化。该算法不仅收敛速度快,而且能够获得全局最优解,且初始解对算法的影响很小。实验结果表明该算法综合性能指标优于传统算法,具有较高的应用价值。  相似文献   

8.
针对传统支持向量机(SVM)在说话人识别中运算量过大的问题,提出了VQ-MAP和SVM融合的说话人识别系统。它应用仅自适应均值向量的最大后验概率矢量量化过程(VQ-MAP),来得到自适应的说话人模型,用此模型中的参数向量作为支持向量应用于SVM来进行说话人识别。用Matlab进行仿真实验,结果表明,基于VQ-MAP和SVM融合的说话人识别系统大大降低了运算量,SVM训练时间短,且具有较高的识别率。  相似文献   

9.
计算非中心t分布分位数要花费大量的时间。为了节省运算量,对初值的选取就显得极其重要。初值选得好,迭代过程收敛得快。初值选得差,不仅增加迭代次数,而且还有可能导致选代过程发散,无法求出真解。非中心t分布分位数有许多种近似公式,它们都是α(显著水平)、v(自由度)、λ(参数)的函数。用解析方法来区分这些初值的优劣有较大的困难。本文在对非中心t分布分位数进行了大量计算的基础上,对初值公式的相  相似文献   

10.
《电子技术应用》2017,(11):47-50
温度漂移是影响传感器可靠性、精度和使用效能的关键因素,是制约加速度计精度提高的瓶颈。提出一种基于传感器温度补偿的双指数函数拟合算法,一方面采用双指数函数对非线性的温度系数曲线进行补偿,另一方面在双指数函数拟合的算法中,提出一种具有高精度初值的交替迭代法。该方法首先利用四组数据点计算出高精度的初值,再使用交替迭代法优化计算结果,明显改善了传统交替迭代法拟合在初值选取不当时造成的迭代不收敛、精度较低、迭代次数较多的问题。此外双指数函数模型可以采用CORDIC算法集成到硬件中,因此具有工程实用价值。  相似文献   

11.
基于生物特征的身份认证已得到学术界及企业的高度重视,指纹、人脸识别应用已非常普遍,但对于非现场身份认证,语音相对其他生物特征,具有用户接受程度高、拾音设备简单、随时随地可用、数据量小、计算复杂度低等优势,因此基于声纹的身份认证系统应用越来越广泛。另一方面,由于录音回放攻击简单易行,不需要任何专业知识,且随着廉价、高质量的录音/播放装置的日益增多,回放录音与原始音的相似度越来越高,已成为声纹认证系统最主要的攻击手段之一,因此如何识别录音回放等攻击成为说话人认证系统必须面对的问题。本文对录音回放检测方法进入了全面的介绍,通过对各种方法的分析,表明其研究尚处于起步阶段,但需求日益旺盛。  相似文献   

12.
基于MFCC和加权矢量量化的说话人识别系统   总被引:14,自引:4,他引:14  
文章介绍的说话人识别系统,采用能够反映人对语音的感知特性的Mel频率倒谱系数(Mel-FrequencyCeptralCoefficients,MFCC)作为特征参数,同时考虑到特征参数各维分量对于不同说话人的区分程度,采用加权的办法进行矢量量化。取得了很好的结果,系统训练和识别计算量和存储量都比较低。  相似文献   

13.
The fine spectral structure related to pitch information is conveyed in Mel cepstral features, with variations in pitch causing variations in the features. For speaker recognition systems, this phenomenon, known as "pitch mismatch" between training and testing, can increase error rates. Likewise, pitch-related variability may potentially increase error rates in speech recognition systems for languages such as English in which pitch does not carry phonetic information. In addition, for both speech recognition and speaker recognition systems, the parsing of the raw speech signal into frames is traditionally performed using a constant frame size and a constant frame offset, without aligning the frames to the natural pitch cycles. As a result the power spectral estimation that is done as part of the Mel cepstral computation may include artifacts. Pitch synchronous methods have addressed this problem in the past, at the expense of adding some complexity by using a variable frame size and/or offset. This paper introduces Pseudo Pitch Synchronous (PPS) signal processing procedures that attempt to align each individual frame to its natural cycle and avoid truncation of pitch cycles while still using constant frame size and frame offset, in an effort to address the above problems. Text independent speaker recognition experiments performed on NIST speaker recognition tasks demonstrate a performance improvement when the scores produced by systems using PPS are fused with traditional speaker recognition scores. In addition, a better distribution of errors across trials may be obtained for similar error rates, and some insight regarding of role of the fundamental frequency in speaker recognition is revealed. Speech recognition experiments run on the Aurora-2 noisy digits task also show improved robustness and better accuracy for extremely low signal-to-noise ratio (SNR) data.  相似文献   

14.
GMM与RVM融合的话者辨识方法   总被引:1,自引:0,他引:1       下载免费PDF全文
相关向量机(RVM)分类法使用概率输出克服了支持向量机(SVM)识别速率低的缺点,并且具有更好的稀疏性。但在与文本无关的话者辨别中,大量训练样本数据体现了RVM在模型训练时计算量与内存需求过大的缺点。针对以上特点,提出基于GMM统计特征参数与RVM融合的与文本无关的语者辨别系统,既有效地提取话者特征信息,解决大样本数据下的RVM训练问题,又结合统计模型鲁棒性高和分辨模型辨别效果好的优点。实验结果证明,该系统比基本的GMM系统具有更优的错误辨别率,比GMM/SVM系统具有更高的稀疏性。  相似文献   

15.
UniLite系统以DSP为核心,集成了片内存储器、AD/DA通道和多种的输入输出端口,有效控制了系统的成本和功耗,在有限的RAM空间上实现了高性能非特定人语音识别以及语音编解码的功能。系统采用连续隐含马尔科夫(CHMM)算法,运用了分阶段提取特征、束搜索等策略,在保证系统识别性能的同时大大降低了内存消耗,提高了识别速度,识别率在98.5%以上,识别时间在0.5倍实时 以下。  相似文献   

16.
为了提高说话人识别系统的识别效率,提出一种基于说话人模型聚类的说话人识别方法,通过近似KL距离将相似的说话人模型聚类,为每类确定类中心和类代表,构成分级说话人识别模型。测试时先通过计算测试矢量与类中心或类代表之间的距离选择类,再通过计算测试矢量与选中类中的说话人模型之间对数似然度确定目标说话人,这样可以大大减少计算量。实验结果显示,在相同条件下,基于说话人模型聚类的说话人识别的识别速度要比传统的GMM的识别速度快4倍,但是识别正确率只降低了0.95%。因此,与传统GMM相比,基于说话人模型聚类的说话人识别能在保证识别正确率的同时大大提高识别速度。  相似文献   

17.
基于最小二乘向量机的说话人识别研究   总被引:1,自引:0,他引:1  
说话人识别系统在说话人模板的建立过程中由于说话人的语音帧数量太多,往往要进行筛选,通常这种选择是一种基于枚举的大量反复的提取过程,复杂费时且结果往往并不是最优的。而基于统计学习理论的支持向量机(SVM)方法正好克服了这方面的不足。讨论了一种改进的SVM即最小二乘向量机(LSSVM)的方法进行说话人识别研究。研究表明,基于LSSVM的说话人识别比传统的SVM说话人识别计算复杂度小、效率更高、对说话人识别有很强的适应性。  相似文献   

18.
提出在与文本无关说话人确认中采用模型间马氏(Mahalanobis)距离的夹角作为测试算法,在混合高斯模型(Gaussian ixture Model)的情况下,采用这种算法在保持识别率与传统的对数似然度算法相近的前提下,可以大大降低运算量,对于说话人确认或识别的实时实现有很大的帮助.另外,推荐的算法与传统的对数似然度算法的结果可以融合,可以将说话人确认的等错误率降低12~15%.  相似文献   

19.
In this paper, Texas Instruments TMS320C6713 DSP based real-time speech recognition system using Modified One Against All Support Vector Machine (SVM) classifier is proposed. The major contributions of this paper are: the study and evaluation of the performance of the classifier using three feature extraction techniques and proposal for minimizing the computation time for the classifier. From this study, it is found that the recognition accuracies of 93.33%, 98.67% and 96.67% are achieved for the classifier using Mel Frequency Cepstral Coefficients (MFCC) features, zerocrossing (ZC) and zerocrossing with peak amplitude (ZCPA) features respectively. To reduce the computation time required for the systems, two techniques – one using optimum threshold technique for the SVM classifier and another using linear assembly are proposed. The ZC based system requires the least computation time and the above techniques reduce the execution time by a factor of 6.56 and 5.95 respectively. For the purpose of comparison, the speech recognition system is also implemented using Altera Cyclone II FPGA with Nios II soft processor and custom instructions. Of the two approaches, the DSP approach requires 87.40% less number of clock cycles. Custom design of the recognition system on the FPGA without using the soft-core processor would have resulted in less computational complexity. The proposed classifier is also found to reduce the number of support vectors by a factor of 1.12–3.73 when applied to speaker identification and isolated letter recognition problems. The techniques proposed here can be adapted for various other SVM based pattern recognition systems.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号