期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

张扬赵晓群王缔罡《计算机应用》2016,36(5):1410-1414

研究汉语自然语音音节切分方法具有明显现实意义,比较准确的自然语音切分方法可以代替人工对一些拥有参照文本的语音进行标注。然而至今为止并没有完全准确的汉语语音音节切分方法。依据相同发音环境下汉语语音音节时间长度服从某种高斯分布和相邻语音音节之间存在短时能量波谷两个假设,提出了基于音节时间长度高斯拟合的汉语音节切分方法。对算法进行分析,根据初步切分短时能量波谷分散到各分语音段的特性,提出了简化算法,有效降低了该音节切分方法的时间复杂度。实验结果表明,音节切分准确度(与人工标注切分时间距离平方的均值)达到小数点后3位,在台式机Matlab环境下运算时间均不超过1 s,可以达到应用要求。相似文献

2.

基于动态贝叶斯网络的音视频连续语音识别和音素切分

吕国云蒋冬梅蒋晓悦赵荣椿侯云舒孙阿利 H. Sahli W. Verhelst 《计算机应用》2007,27(7):1670-1673

构造了两个单流单音素的动态贝叶斯网络（DBN）模型，以实现基于音频和视频特征的连续语音识别，并在描述词和对应音素具体关系的基础上，实现对音素的时间切分。实验结果表明，在基于音频特征的识别率方面：在低信噪比（0~15dB）时，DBN模型的识别率比HMM模型平均高12.79%；而纯净语音下，基于DBN模型的音素时间切分结果和三音素HMM模型的切分结果很接近。对基于视频特征的语音识别，DBN模型的识别率比HMM识别率高2.47%。实验最后还分析了音视频数据音素时间切分的异步关系，为基于多流DBN模型的音视频连续语音识别和确定音频和视频的异步关系奠定了基础。相似文献

3.

基于时频二维能量特征的汉语音节切分方法

张扬赵晓群王缔罡《计算机应用》2016,36(11):3222-3228

较准确的语音切分方法可以极大提高语料标注等工作的效率,有助于语音识别等应用中语音与模型的对齐。利用汉语语音在时频二维的能量特征设计了一种新的汉语语音音节切分方法。用传统方法判断静音帧,用相同时间不同频率的二维能量判断清音帧,用不同时间特定频段的0-1二维能量判断浊音帧及有话帧,综合4种判断结果给出音节切分位置。实验结果表明,该方法切分准确度优于基于归并的音节切分自动机（MBSDA）和高斯拟合法,其音节切分误差为0.0297 s,音节切分偏差率为7.93%。相似文献

4.

基于条件随机场的泰语音节切分方法

赵世瑜线岩团郭剑毅余正涛洪玄贵王红斌《计算机科学》2016,43(3):54-56, 83

音节是泰语构词和读音的基本单位,泰语音节切分对泰语词法分析、语音合成、语音识别研究具有重要意义。结合泰语音节构成特点,提出基于条件随机场(Conditional Random Fields)的泰语音节切分方法。该方法结合泰语字母类别和字母位置定义特征,采用条件随机场对泰语句子中的字母进行序列标注,实现泰语音节切分。在InterBEST 2009泰语语料的基础上,标注了泰语音节切分语料。针对该语料的实验表明,该方法能有效利用字母类别和字母位置信息实现泰语音节切分,其准确率、召回率和F值分别达到了99.115%、99.284%和99.199%。相似文献

5.

说话人识别中语音切分算法的研究

何致远胡起秀徐光祜《计算机工程与应用》2003,39(6):55-58

论文针对说话人识别中语音能量变化和噪声对提取有效语音数据的影响,在传统时域语音切分算法犤1,3犦的基础上,提出了三种孤立词的精确切分算法和一种连续语音的非精确切分算法。实验表明,新算法较好地克服了语音能量变化对切分的影响,在原始语音具有较高信噪比(≥10dB)的情况下,能够切除某些短时噪声和白噪声犤2犦。相似文献

6.

基于帧间相关特性和汉语音节组成规则的连接数字串的音节切分

陈雁翔戴蓓蒨周曦李辉《模式识别与人工智能》2003,16(3)

本文提出了一种基于帧间相关特性的连续语音流的音节切分方法,采用反映相邻帧间LPC系数相关程度的帧间相关特性及其参数,进行连续语音流的分段切分,并通过时域参数对切分出的各个语音段进行音索性质标记,再根据汉语音节组成规则最后确定出音节切分及其边界.汉语数字串语音流的音节切分实验表明了该方法的有效性. 相似文献

7.

基于声学特征的腭裂语音声韵母切分

下载免费PDF全文

王熙月黄毅鹏钱佳慧何凌黄华尹恒《计算机工程与应用》2018,54(8):123-130

设计了一种腭裂语音的声韵母切分算法。通过主观的波形测试和客观的F检验及t检验,证明了腭裂语音与正常语音具有显著性差异。定义声母具有清音音素特性的音节为I类音节,声母具有浊音音素特性的音节为II类音节。首先基于层次聚类模型自动判别I类、II类音节,然后定义类浊音权重函数和类清音概率函数,实现I类音节的声韵母一级切分,再通过短时自相关函数峰值个数的一阶微分实现I类音节声韵母的二级切分。基于声韵母波形差异性,检测短时自相关函数的能量跳变点,实现II类音节的声韵母切分。通过大样本实验,结果表明提出的腭裂语音声韵母自动判别算法具有较高的正确率,I类音节的正确率达到90.72%,II类音节的正确率为92.90%。相似文献

8.

基于BTSM和DBN模型的唇读和视素切分研究

下载免费PDF全文

吕国云赵荣椿蒋冬梅蒋晓悦侯云舒H.Sahli 《计算机工程与应用》2007,43(14):21-24

为实现文本/语音驱动的说话人头部动画,本文提出基于贝叶斯切线形状模型的口形轮廓特征提取方法和基于动态贝叶斯网络（Dynamic Bayesian Network, DBN）模型的唇读系统。在描述词与它的组成视素关系的基础上,得到视素时间切分序列。为比较性能,音素DBN模型和HMM的音素识别结果被影射成视素序列。在评价准则上,提出绝对视素切分正确性和基于图像与嘴唇几何特征两种相对视素切分正确性的评价标准。实验表明,DBN模型识别性能优于HMM,而基于视素的DBN模型能为说话人头部动画提供最好的口形。相似文献

9.

英语语音合成中基于约束树的音节切分算法

王永生柴佩琪曾令平《微型电脑应用》2005,21(11):15-20

在基于单元选择的英语语音合成中，音节切分是非常重要的一环。这主要是因为英语词汇的无限性，且存在大量的多音节词，因而许多情况下，我们不得不从音节的角度来合成语音。为此，本文提出了一种基于约束树的音节切分算法，通过应用形态规则约束、韵律规则约束及音位规则约束，从而最终切分出所有音节。在实施音位规则约束时，我们提出了一种基于音位结构树的子算法。训练样本和测试样本的切分正确率分别为99． 13%和98． 55%。相似文献

10.

用于汉语语音信号端点检测与切分的有效方法 总被引：8，自引：3，他引：5

郭巧张立伟陆际联《计算机工程与应用》2000,36(5):92-94

文章给出了计算机辅助汉语教学系统中语音端点信号的检测和清浊音信号的切分方法：采用短时相对能频积对汉语语音信号的端点进行检测;采用短时相对能频比的方法对语音信号的清浊音进行切分。这两种方法的使用与现有方法相比可以有效地提高汉语语音信号切分的成功率,实验结果表明正确率可达到９５％以上。文中通过实验验证了所提出的汉语语音信号切分方法是有效的和可行的。它基本上能够满足计算机辅助汉语教学系统在线切分汉语语音信号的需要,比已有的语音信号切分方法的切分效果有显著提高,为下一步提高语音信号的识别率奠定了基础。相似文献

11.

自动交互图像分割中的贝叶斯网络模型构建

李鹏李玲李敏《计算机应用研究》2013,30(4):1240-1243

由于贝叶斯模型和各种图像测量结果,置信传播会更新每个节点的相关概率,提出了在自动交互图像分割过程中应用的新型贝叶斯网络模型。从过度分割模型中的超级像素点区域、边区域、顶点和测量结果之间的统计相关性来构造多层贝叶斯网络模型。除了自动图像分割,贝叶斯网络模型也可用于交互式图像分割中,现有交互分割往往被动地依靠用户提供的准确调整,提出新型主动输入选择方式作为准确调整。实验采用Weizmann数据集和VOC 2006图像集来评估,实验结果表明贝叶斯网络模型可以进行效果更好的自动分割,主动输入选择可以提高整体分割精度。相似文献

12.

Using LSTM neural networks for cross-lingual phonetic speech segmentation with an iterative correction procedure

Zdeněk Hanzlíček Jindřich Matoušek Jakub Vít 《Computational Intelligence》2024,40(2):e12602

This article describes experiments on speech segmentation using long short-term memory recurrent neural networks. The main part of the paper deals with multi-lingual and cross-lingual segmentation, that is, it is performed on a language different from the one on which the model was trained. The experimental data involves large Czech, English, German, and Russian speech corpora designated for speech synthesis. For optimal multi-lingual modeling, a compact phonetic alphabet was proposed by sharing and clustering phones of particular languages. Many experiments were performed exploring various experimental conditions and data combinations. We proposed a simple procedure that iteratively adapts the inaccurate default model to the new voice/language. The segmentation accuracy was evaluated by comparison with reference segmentation created by a well-tuned hidden Markov model-based framework with additional manual corrections. The resulting segmentation was also employed in a unit selection text-to-speech system. The generated speech quality was compared with the reference segmentation by a preference listening test. 相似文献

13.

一种基于HMM的动态语音模式时间归一化方法

邓伟赵翊兰《数据采集与处理》2003,18(3):277-281

研究了利用隐马尔可夫模型(HMM)对动态语音模式进行时间归一化的方法。引入了借助于HMM对语音基元观测序列所做的一种分段，这种分段被称之为语音基元观测序列的HMM全状态分段，并且定义了HMM全状态分段的符合度。根据HMM全状态分段的符合度确定了语音基元观测序列的最优HMM全状态分段，通过最优HMM全状态分段把语音基元观测序列转换为固定维数的向量，从而实现了动态语音模式的时间归一化。将动态语音模式的这一时间归一化方法在结合HMM和人工神经网络(ANN)的混合语音识别方法中进行了应用，实验结果表明这一时间归一化方法的有效性。相似文献

14.

Acoustic classification and segmentation using modified spectral roll-off and variance-based features

Marko Kos Zdravko Kačič Damjan Vlaj 《Digital Signal Processing》2013,23(2):659-674

相似文献

15.

面向语音合成的藏语单音素与三音素自动切分算法研究

张金溪李永宏单广荣李照耀江静《计算机应用研究》2013,30(11):3272-3275

在构建藏语语料库时要对语音进行音素切分, 采用了两种方法, 即基于单音素HMM模型的自动切分方法和基于三音素HMM模型的自动切分方法。通过实验分析了这两种HMM模型的自动切分结果的准确率程度, 其中单音素、三音素总的平均切分准确度分别为80. 69%、88. 74%。实验结果表明, 三音素HMM模型的自动切分方法的准确率明显高于单音素HMM模型的切分率, 提高了语音语料库标注信息的精确度和一致性。相似文献

16.

文本分割综述 总被引：1，自引：0，他引：1

石晶《计算机工程与应用》2006,42(35):155-159,171

文本分割在信息提取、文摘生成、语篇解析及其他多个领域有着极为重要的应用。文本分割的对象包括静态书面文本、语音文本以及动态文本等;分割的粒度因分割的目的不同而有所区别;分割的准确性不仅需要直接评测,更需要间接评测。在大量文献的基础上,对目前常用的分割方法及评测手段进行了全面的归纳和总结,分析了文本分割技术的研究现状,指出尚存在的问题并展望研究前景。相似文献

17.

阈值自适应语音自动分割系统模型

张俊星石立新王都生《计算机工程与设计》2010,31(8)

针对有声出版物语音分割系统,提出了一种阈值自适应加相似度判决的系统分割模型,基于脚本中的先验知识提出了能量阈值自适应分割算法.对于传统的端点检测算法无法排除的干扰,为提高系统的抗干扰能力以增强其适用性,提出了基于语音单元相似性进行分析判决的新方法.测试结果表明,无干扰时,系统分割的正确率100%,每个语音文件包含两个人为干扰信号时,系统分割正确率98.8%,能够满足有声出版物语音自动分割的需要. 相似文献

18.

Phonetic segmentation using multiple speech features

Iosif Mporas Todor Ganchev Nikos Fakotakis 《International Journal of Speech Technology》2008,11(2):73-85

In this paper we propose a method for improving the performance of the segmentation of speech waveforms to phonetic units. The proposed method is based on the well known Viterbi time-alignment algorithm and utilizes the phonetic boundary predictions from multiple speech parameterization techniques. Specifically, we utilize the most appropriate, with respect to boundary type, phone transition position prediction as initial point to start Viterbi time-alignment for the prediction of the successor phonetic boundary. The proposed method was evaluated on the TIMIT database, with the exploitation of several, well known in the area of speech processing, Fourier-based and wavelet-based speech parameterization algorithms. The experimental results for the tolerance of 20 milliseconds indicated an improvement of the absolute segmentation accuracy of approximately 0.70%, when compared to the baseline speech segmentation scheme. 相似文献

19.

基于多尺度上下文的图像标注算法 总被引：1，自引：0，他引：1

周全王磊周亮郑宝玉《自动化学报》2014,40(12):2944-2949

提出了一种在层次化分割框架下,通过结合图像的底层局部特征以及高层的上下文特征,进行图像自动语义标注的新算法. 该算法的核心思想在于对较大的图像区域的识别结果有利于对其包含的较小图像区域进行识别.算法首先对每层分割后的图像区域进行识别, 然后利用贝叶斯定理将各层区域识别的结果通过线性加权的方式进行融合,从而达到对整幅图像进行自动语义标注的目的.与现有的图像标注算法相比,仿真实验表明本文算法获得了最好的标注精度以及最快的标注速度. 相似文献