共查询到19条相似文献,搜索用时 343 毫秒
1.
汉语是一种有调语言,因此在汉语语音识别中,调型信息起着非常关键的作用。在现有的隐马尔可夫模型(Hidden Markov Model)框架下,如何有效地利用调型信息是有待研究的问题。现有的汉语语音识别系统中主要采用两种方式来使用调型信息 一种是基于Embedded Tone Model,即将调型特征向量与声学特征向量组成一个流去训练模型;一种是Explicit Tone Model,即将调型信息单独建模,再利用此模型优化原有的解码网络。该文将两种方法统一起来,首先利用Embedded Tone Model采用双流而非单流建模得到Nbest备选,再利用Explicit Tone Model对调进行左相关建模并对Nbest得分重新修正以得到识别结果,从而获得性能提升。与传统的无调模型相比,该文方法的识别率的平均绝对提升超过了3.0%,在第三测试集上的绝对提升达到了5.36%。 相似文献
2.
3.
4.
语音合成中的韵律关联模型 总被引:4,自引:2,他引:4
基于大规模语音数据库的文语转换系统(Text-to-Speech , TTS)中,如何选取合适的语音基元是提高合成语音自然度的重要因素。本文研究了连续语流中的韵律关联现象,提出了包含韵律关联参数的汉语韵律特征参数集,基于数据挖掘中的关联规则模型(Association Rules Model)建立韵律关联模型,并将该模型应用于基元选取。实验表明,该方法有效地利用了语音基元的韵律及关联信息,符合人耳的知觉感受,使得合成语音自然度的主观评测MOS(Mean Opinion Score)得分与不考虑韵律关联时的结果相比提高了12.22%(3.49/3.11)。 相似文献
5.
6.
现代越南语是一种拼音化文字,采用“声、韵、调”标记其音节。采用基于HMM的可训练语音合成方法实现越南语语音合成。针对越南语的特点收集语料、录音、标注、确定音素列表、设计上下文属性集和问题集。在HTS平台下构建越南语的STRAIGHT语音合成器。对合成语音进行主观评测。初步评测结果表明,可懂度基本接近100%,自然度还处在“可以接受”和“比较自然”之间。 相似文献
7.
该文介绍了第七届全国机器翻译研讨会(CWMT2011)机器翻译评测的具体情况。本次评测重点关注各种语言到汉语的翻译,除了汉英、英汉、日汉三个语言对以外,评测还新增了五种民族语言(藏语、蒙古语、维吾尔语、哈萨克语、柯尔克孜语)到汉语的翻译评测。共有19家国内外单位的165个系统参加此次评测。除了介绍评测项目的设置、评测数据的准备、评测流程、参评单位等,本文还重点介绍了CWMT2011的评测结果,并对评测结果进行了分析,用实例说明了与评测结果相关的几个因素 源语言与目标语言是否相似、评测领域是否集中、测试集与训练及开发集语料是否相似、训练语料的规模、参评系统的技术和成熟度等。 相似文献
8.
9.
基于结构助词驱动的韵律短语界定的研究 总被引:10,自引:5,他引:5
提高合成语音的自然度是汉语文语转换系统(CTTS)的核心任务,而韵律短语的界定扮演着重要的角色。本文通过分析虚词的特征,研究了结构助词在连续语流中的特点、地位,以及在韵律短语界定中的作用,得到了一组相应的规则和结论。 相似文献
10.
11.
12.
13.
普通话已经走过了近百年的历程,目前还很少有人对普通话的历时语音变化及其韵律特征进行系统的实验研究。以2005年颇具代表性的广播电视谈话体语料为基准数据,选取《现代汉语普通话数字化样本库》中20世纪50年代和70年代拍摄的同名电影语料,对其中主要人物对白的音高、时长等语音特征进行历时的对比研究。经过分析发现:在广播电视及影视等有声媒体中,70年代语音的音节时长均值要长于50年代,其中阴平调表现尤为明显;在音高方面,高音点和低音点也都高于50年代,音域也较宽。这说明70年代的语音在发音上显得较夸张、不自然,这与六七十年代那段特殊的历史时期有关。 相似文献
14.
声调在普通话中起着构词辨义的作用,声调的准确程度是决定普通话水平的重要因素。声调的客观评测是普通话水平客观评测系统的重要子系统之一。在分析普通话声调特点的基础上,提出了能消除语速影响和音节间相互影响的建模方法。选择了能反映声调特点的5个基频比值与归一化的基频共同作为声调评测参数,利用高斯混合模型对60人的实测语音数据进行了测试,结果表明:客观测试同主观测试的符合率达到88.24%。 相似文献
15.
提出基于发音特征的声调建模改进方法,并将其用于随机段模型的一遍解码中。根据普通话的发音特点,确定了用于区别汉语元音、辅音信息的7种发音特征,并以此为目标值利用阶层式多层感知器计算语音信号属于发音特征的35个类别后验概率,将该概率作为发音特征与传统的韵律特征一起用于声调建模。根据随机段模型的解码特点,在两层剪枝后对保留下来的路径计算其声调模型概率得分,加权后加入路径总的概率得分中。在“863-test”测试集上进行的实验结果显示,使用了新的发音特征集合中声调模型的识别精度提高了3.11%;融入声调信息后随机段模型的字错误率从13.67%下降到12.74%。表明了将声调信息应用到随机段模型的可行性。 相似文献
16.
利用语音信号与噪声信号具有不同相关特性的特点,提出了一种新的加权自相关基频检测算法,该方法可以提高噪声环境下基音检测的准确性。在分类器设计方面,通过引入支持矢量机,进一步提高低信噪比下的汉语声调识别率。实验结果表明,新方法对提高噪声环境下的声调识别效果是十分有效的。 相似文献
17.
利用语音信号与噪声信号具有不同相关特性的特点,提出了一种新的加权自相关基频检测算法,该方法可以提高噪声环境下基音检测的准确性。在分类器设计方面,通过引入支持矢量机,进一步提高低信噪比下的汉语声调识别率。实验结果表明,新方法对提高噪声环境下的声调识别效果是十分有效的。 相似文献
18.
提出了一种适用于母语非汉语学习者(Learner with Mandarin as a second language,ML2)学习汉语的自动发音评分(Automatic Pronunciation Evaluation,APE)方法。引入双语料语音库,将发音评分分为发音方式和发音效果两部分评分,提取各部分相应的特征参数,提出一种 双语音动态时间规整(Bilingual Dynamic Time Warping,BDTW)的方法来匹配比较得到语音相似度,通过评分机制得到最后的评分结果。通过实验验证了该方法的有效性。 相似文献