期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

张巍吴晓如刘江王仁华《计算机学报》2007,30(11):2017-2024

大量使用不定长是大语料库语音合成质量的一个重要保证,而语音库裁剪方法通常会导致不定长的损失.针对这一关键性问题,该文构建了NuClustering-VPA算法:对不同粒度的不定长变体进行聚类,根据高阶聚类结果调整低阶变体的聚类,使得低阶聚类中心有所偏向.NuClustering-VPA算法保留了最重要的不定长,从而有效减小了裁剪对不定长的破坏.测听实验表明,利用NuClustering-VPA算法,即使在语音库裁减率为39.63%时,合成自然度下降较小,仍然保持在较高的水平.这一技术已被应用在科大讯飞公司的实际语音产品中. 相似文献

2.

基于韵律特征和语法信息的韵律边界检测模型 总被引：2，自引：2，他引：2

吴晓如王仁华刘庆峰《中文信息学报》2003,17(5):49-55

韵律短语边界的自动检测,对语音合成中语料库的韵律标注以及语音识别中韵律短语的自动划分都有重要意义。本文通过对影响韵律短语边界的声学、韵律等参量的分析,得到和韵律短语边界关联性较大的一组声学特征参数、韵律环境参数和语法信息;同时引入语音合成中的韵律预测思想,在假定所有音节边界均为非韵律短语边界时,预测每个音节的基频。最后使用决策树模型,将音节边界处的韵律环境信息、语法信息以及预测结果作为决策树的输入,利用决策树综合判定当前音节边界是否为韵律短语的边界。实验表明,这种方法对于基于确定性文本(text-dependent)的语音韵律短语边界的检测,具有较好效果,同时可以显著提高语音合成中语料库的标注效率和标注结果的一致性。相似文献

3.

数据驱动方法的语音库裁剪研究

张巍吴晓如王仁华《高技术通讯》2008,18(1):26-32

为解决语音库裁剪会造成不定长损失的问题,首先提出了 NuClustering-VPA 算法,该算法对不同粒度的不定长变体进行递阶聚类,根据高阶聚类结果调整低阶变体的聚类,从而保留在声韵上最为重要的变体.接着提出了虚拟不定长替换的概念,意图弥补不定长的损失,并结合合成使用变体的频度,给出了可以任意比例裁剪语音库的StaRp-VPA算法.大规模测听表明,两种算法在裁剪率小于50%时,合成自然度几乎没有下降;当裁剪率大于50%时,StaRp-VPA给出的音库合成自然度也不会严重降低.两种裁剪在合成系统的移植中得到了很好的应用. 相似文献

4.

普通话焦点声学特征的实验研究

杨金辉易中华吴晓如王煦法《模式识别与人工智能》2005,18(2)

以自然语流中出现的焦点为对象,对汉语中焦点的声学特征表现进行了研究.研究结果表明:(1)焦点对音节韵律特征的影响与音节所在的高层韵律环境(上下文相关信息)密切相关.处于不同高层韵律环境的音节,其韵律特征受焦点影响改变的幅度和方向是不同的.(2)焦点的轻重感知一定程度上可以通过线性调节语音声学参数增量来表现出来.(3)在语音合成中,焦点的韵律特征可分为两步来进行预测.实验证实,在焦点位置已知的情况下该方法能够合成自然度很高的汉语语句焦点. 相似文献

5.

基于虚拟不定长的语音库裁剪方法

张巍吴晓如赵志伟王仁华《软件学报》2006,17(5):983-990

语音库裁剪或语音库去冗余,是大语料库语音合成技术的一个重要问题.提出了虚拟不定长替换的概念,以弥补不定长的损失.结合合成使用变体的频度,构建了语音库裁剪算法StaRp-VPA.该算法能够以任意比例裁剪语音库.实验表明:当裁剪率小于50%时,合成自然度几乎没有下降;当裁剪率大于50%时,合成自然度也不会严重降低. 相似文献

6.

分类问题的一种可伸缩特征选择算法 总被引：4，自引：0，他引：4

张巍邹翔吴晓如《计算机学报》2005,28(7):1223-1229

特征选择是数据挖掘分类中的一个重要问题．该文推导出一种新的衡量特征与类别相关度的测度SCD即描述特征取值序列类分布的CV系数,利用该测度给出一种线性的可伸缩特征选择算法StaFSOS,并证明了在类别数为2时,SCD测度满足分支界限法的单调性;给出了StaFSOS的一个完备形式——BBStaFS．在12个标准数据集中,StaFSOS算法得出的结果和目标集几乎一致,而StaFSOS的效率高于其它算法;而在另1个中,BBStaFS算法得出了准确结果．在用1000个样本20个特征的真实数据进行的测试中,StaFSOS运行时间是目前较快的GRSR的1／2,得出的特征集准确有效．相似文献

7.

基于决策树和条件概率的基频预测模型

吴晓如王仁华胡郁《模式识别与人工智能》2004,17(2)

介绍了一种基于决策树和条件概率的基频预测模型(FO Prediction with Integrated Decision Tree and Condi-tional Probability Model,IDBCPM).基频是一种重要的韵律特征参数,高精度的基频预测模型是高质量合成语音系统的必要保证.基频模型是根据从文本分析得到的信息预测相应于当前文本的合理基频曲线.IDBCPM一定程度上避免了其它基频模型预测时,在相邻音节处的预测结果不匹配问题.这种不匹配产生于预测当前音节基频时不能有效考虑相邻音节的预测结果.IDBCPM充分利用决策树的输出信息,包含决策树的输出类别和类别相应的概率,另外IDBCPM可以有效应用从训练数据中得到的先验条件概率,消除决策树输出的不合理结果.实验证明这种方法的预测精度比单纯决策树预测精度有明显提高. 相似文献