首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 125 毫秒
1.
汉语是一种有调语言,因此在汉语语音识别中,调型信息起着非常关键的作用。在现有的隐马尔可夫模型(Hidden Markov Model)框架下,如何有效地利用调型信息是有待研究的问题。现有的汉语语音识别系统中主要采用两种方式来使用调型信息 一种是基于Embedded Tone Model,即将调型特征向量与声学特征向量组成一个流去训练模型;一种是Explicit Tone Model,即将调型信息单独建模,再利用此模型优化原有的解码网络。该文将两种方法统一起来,首先利用Embedded Tone Model采用双流而非单流建模得到Nbest备选,再利用Explicit Tone Model对调进行左相关建模并对Nbest得分重新修正以得到识别结果,从而获得性能提升。与传统的无调模型相比,该文方法的识别率的平均绝对提升超过了3.0%,在第三测试集上的绝对提升达到了5.36%。  相似文献   

2.
基于统计方法的汉语连续语音中声调模式的研究   总被引:4,自引:0,他引:4  
曹阳  黄泰翼  徐波 《自动化学报》2004,30(2):191-198
提出采用决策树的数据驱动方法,结合专家知识.从大规模语料中统计学习出连续语 音中声调模式的分布.在建立决策树的过程中,除了相邻音节的声调外.还考虑了多种可能影响 声调模式的因素,如音节声韵母发音特点的分类、音节在词中的位置等.决策树建立后,共得到 28种声调模式.通过对结果的分析发现,除了上下文的声调外,其它因素对连续语音中声调模 式的变化也有一定的影响.声调识别实验的结果证明了该方法的有效性.  相似文献   

3.
汉语是一种带声调的语言,声调信息在汉语语音识别中具有非常重要的意义。提出了emt}eaaea声调模型与explicit声调模型相结合的方法用以识别汉语连续语音的声调。该方法能够将逐帧的基频信息和较强时长的基频信息相结合来识别声调。在“863-Test”和“TestCorpus98"测试集上的实验表明,该方法分别能够达到96. 12%和93.78 %的声调识别正确率。  相似文献   

4.
基于韵律信息的连续语流调型评测研究   总被引:2,自引:2,他引:0  
汉语连续语流中的调型评测是汉语语音评测的一个重要环节,利用连续语流中韵律耦合效应和韵律结构紧密相关这一特性,以韵律词为基本建模单元,建立基于多空间概率分布的HMM调型模型(MSD-HMM),使得汉语普通话水平评测系统针对标准连续语流的调型识别率从82.0% 提升至84.6%;针对有方言背景的非标准发音,机器评分与专家评分的相关度绝对提升超过3.0%。  相似文献   

5.
三字词音节声调模式具有连续语音中音节声调模式的特征,声调的提取和识别远较孤立字困难。采用小波变换方法提取语音基音,用Fuzzy ARTMAP神经网络进行声调识别,获得了比BP网络更好的实验结果。分析了仿真参数对识别结果的影响,讨论了Fuzzy ARTMAP神经网络中的过拟合问题,给出了一种基于Fuzzy ARTMAP神经网络的三字词声调识别方法。  相似文献   

6.
提出基于发音特征的声调建模改进方法,并将其用于随机段模型的一遍解码中。根据普通话的发音特点,确定了用于区别汉语元音、辅音信息的7种发音特征,并以此为目标值利用阶层式多层感知器计算语音信号属于发音特征的35个类别后验概率,将该概率作为发音特征与传统的韵律特征一起用于声调建模。根据随机段模型的解码特点,在两层剪枝后对保留下来的路径计算其声调模型概率得分,加权后加入路径总的概率得分中。在“863-test”测试集上进行的实验结果显示,使用了新的发音特征集合中声调模型的识别精度提高了3.11%;融入声调信息后随机段模型的字错误率从13.67%下降到12.74%。表明了将声调信息应用到随机段模型的可行性。  相似文献   

7.
支持向量机的汉语连续语音声调识别方法   总被引:2,自引:1,他引:1  
声调信息在汉语语音识别中具有非常重要的意义。采用支持向量机对连续汉语连续语音进行声调识别实验,首先采用基于Teager能量算子和过零率的两级判别策略对连续语音进行浊音段提取,然后建立了适合于支持向量机分类模型的等维声调特征向量。使用6个二类SVM模型对非特定人汉语普通话的4种声调进行分类识别,与BP神经网络相比,支持向量机具有更高的识别率。  相似文献   

8.
Pronunciation variations in spontaneous speech can be classified into complete changes and partial changes. A complete change is the replacement of a canonical phoneme by another alternative phone, such as 'b' being pronounced as 'p'. Partial changes are variations within the phoneme such as nasalization, centralization and voiced. Most current work in pronunciation modeling for spontaneous Mandarin speech remains at the phone level and can model only complete changes, not partial changes. In this paper, we show that partial changes are much less clear-cut than previously assumed and cannot be modelled by mere representation by alternate phone units. We present a solution for modeling both complete changes and partial changes in spontaneous Mandarin speech. In order to model complete changes, we adapted the decision tree-based pronunciation modeling from English to Mandarin to predict alternate pronunciations. To solve the data sparseness problem, we used cross-domain data to estimate pronunciation variability. To discard the unreliable alternative pronunciations, we proposed a likelihood ratio test as a confidence measure to evaluate the degree of phonetic confusions. In order to model partial changes, we proposed partial change phone models (PCPM) with acoustic model reconstruction. PCPMs are regarded as extended units of standard phoneme or initial/final subword units, and can be used efficiently to represent partial changes. In order to avoid model confusion, we generated auxiliary decision trees for PCPM triphones, and used decision tree merge to perform acoustic model reconstruction. The effectiveness of these approaches was evaluated on the 1997 Hub4NE Mandarin Broadcast News corpus with different styles of speech. Our phone level pronunciation modeling provided an absolute 0.9% syllable error rate reduction, and the acoustic model reconstruction approach was more efficient than that to cover pronunciation variations, yielding a significant 2.39% absolute reduction in syllable error rate for spontaneous speech. In addition, our proposed method deals with partial changes at the acoustic model level and can be applied to any automatic speech recognition system based on subword units.  相似文献   

9.
郝杰  李星 《计算机工程与应用》2001,37(11):24-25,100
文章分析了经典隐马尔可夫模型(Hidden Markov Model,HMM)齐次假设的理论缺陷,以及两种非齐次HMM。语音识别对比实验表明,经验性的惩罚概率法是稳健的、且更有效的补偿方法。实验结果还指出在最优惩罚概率下,经典HMM达到了与非齐次的基于段长分布的HMM(Duration Distribution Based HMM,DDBHMM)几乎相同的识别率,证明了齐次假设并不影响经典HMM在实用中的重要性。文章提出了一种改进Baum-Welch重估算法的初值的经验方法,用于HMM参数的估计,在汉语连续语音识别实验中一致性地降低了音节误识率。  相似文献   

10.
汉语连续语音中声调识别的特殊性研究   总被引:1,自引:0,他引:1  
大词汇连续语识别是当前语音识别研究的主流,探讨其中声调识别的特殊是一项有意义的工作,本文从声调获取,语音分割,声调模式和声调识别等进行了研究,通过对现有研究成果的分析和总结,并结合自己的研究工作,得出了若干结论,提出了基于音节的连续语音声调识别思想。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号