共查询到20条相似文献,搜索用时 363 毫秒
1.
重音是语音合成、语音识别、语音情感识别中表征韵律信息的一个重要参数,对提高语音合成系统的自然度、语音识别系统的准确率、语音情感识别系统的正确率等有着重要的作用.基于汉语双模情感语音数据库(ChineseDual-mode Emotional Speech Database,CDESD),采用改进的双门限判决法对连续语音进行音节分割,将音节的声学相关特征作为输入,数据库中人工标注的重音信息作为监督,建立了基于神经网络以及支持向量机(Support Vector Machine,SVM)的两种重音预测模型.实验表明,基于SVM的重音预测模型具有更好的分类效果,在CDESD能够获得82.89%的识别率. 相似文献
2.
汉语数字语音之间的高混淆性直接影响了汉语数字语音识别的效果,传统的语音识别方法很难对易混淆的语音做出有效的区分。本文提出了一种多参数、多级识别策略,先采用MEL谱参数基于HMM进行初级数字语音识别,然后对易混淆的数字对采用一种新的群延时谱参数——RRCGD-CC(Reflected Roots Chirp Group Delay-Cepstral Coefficients)基于SVM进行二次分类。实验结果表明,通过多参数多级识别方法,数字“2”和“8”的识别率提高了8%,数字识别系统的整体识别率提高了2.3%。这一结果充分说明了本文提出的多参数多级识别方法有利于提高汉语数字语音识别系统的识别性能,同时也说明了RRCGD-CC在易混淆数字语音的识别上是有效的。 相似文献
3.
本文给出了一个高性能汉语数码串非特定人连续语音识别系统,其声学模型基于Mel倒谱系数和连续HMM,识别时采用多候选帧同步搜索算法,并采用了MCE算法进行训练以提高系统的区分能力,实验证明该系统的识别率为94.8%(不定长数字串)和96.8%(定长数字串).为增强系统的实用性,本文还研究了基于MAP算法的说话人自适应算法和基于置信度的拒识算法.在进行自适应后,误识率可相对下降40%以上,在拒绝掉5%的正确语音时,系统识别率可以上升到96.9%(不定长数字串)和98.7%(定长数字串). 相似文献
4.
研究了一种汉语数字语音识别方案,首先提取汉语数字语音线性预测倒谱系数(LPCC)和梅尔频率倒谱系数(MFCC)及其一阶差分,并组合成新特征。通过求取其系数矩阵的均值和方差的方式进行一次降维,然后采用基于关联规则的特征选择算法进行二次降维,并采用C4.5决策树算法进行识别。通过实验表明本文提出的方法能够有效降低特征维度,去除了无用的冗余信息,提高了语音识别率。 相似文献
5.
6.
7.
一种改进的线性区分分析方法及其在汉语数码语音识别上的应用 总被引:1,自引:0,他引:1
尽管汉语数码语音识别只涉及十个数字,但由于不同数字的发音存在相同或相似的声母或韵母,造成汉语数码语音之间的混淆性很大.采用通常的隐含马尔科夫模型(HMM)作为汉语数码语音识别模型难以得到很高的识别率.为了解决汉语数码之间的混淆问题,提高汉语数码语音识别性能,本文在隐含马尔科夫模型的状态层次上采用线性区分分析方法,将不同状态之间容易混淆的特征样本构成混淆模式类,针对混淆模式类进行线性区分分析.通过线性区分变换,在变换特征空间中仅保留那些能够有效区分该混淆类别的特征参数.这种基于状态的线性区分分析有效地提高了模型对混淆数码的区分能力.实验表明即使采用状态数很少的粗糙识别模型,也能很大幅度提高模型的识别性能;经过线性区分变换优化后的汉语数码识别模型,孤立汉语数码语音识别率可以达到99.32%. 相似文献
8.
汉语语音变换技术的目的是将汉语语音中源说话人的语音特征转换为目标说话人语音特征。提出的适用于汉语说话人的变换算法分为3个部分:前两部分用高斯混合模型实现了语音的谱包络(线性预测编码)及其激励(残差)的转换;第三部分采用支持向量回归算法实现语音的韵律变换规则建模,结合汉语语音特点利用基音同步叠加算法实现语音的超音段特征调整。与现有的语音变换算法进行比较,算法针对汉语语音超音段发音特点进行韵律调整,有效实现了汉语语音变换并得到高自然度合成语音,是一种有效的汉语语音变换算法。 相似文献
9.
本文提出了一种新的用于片上的语音识别多级搜索算法.该算法以连续隐含马尔可夫模型(Continuous Density HMM,CDHMM)为基本识别框架.在保证识别率基本不变的前提下,大大降低了片内存储空间的占用量,减少了识别搜索时间.在第二级识别候选词条的选取准则上,提出一种基于置信度的选择方法,更进一步改善了识别速度,增强了识别的稳健性.在200个语音命令的识别任务下,系统的识别率为98.83%.而当识别词条增加到600条时,该算法也具有良好的识别性能. 相似文献
10.
结合维吾尔语的语音特征和语义信息,在大量电话语音语料库的基础上,以建立维吾尔语连续音素识别平台为目标,通过构建隐马尔科夫模型工具HTK(Hidden Markov Model Toolkit)工具实现了维吾尔语连续音素识别算法:首先根据具体技术指标完成了较大规模电话语音语料库的录制和标注工作;确定音素为基元,通过训练获得了每个音素的HMM(Hidden Markov Model)声学模型,随后对输入的语音进行识别,声学模型在不同的高斯混合数目下,得出了识别结果;统计了32个音素的识别率并对它进行分析,为了进一步提高识别率奠定了基础。 相似文献
11.
12.
The author presents a study of large-vocabulary continuous Mandarin speech recognition based on a segmental probability model (SPM) approach. The SPM was found to be very suitable for recognition of isolated Mandarin syllables especially considering the monosyllabic structure of the Chinese language. To extend the application of the model to continuous Mandarin speech recognition, a concatenated syllable matching (CSM) algorithm in place of the conventional Viterbi search algorithm is first introduced. Also, to utilise the available training material efficiently, a training procedure is proposed to re-estimate the SPM parameters using the maximum a posteriori (MAP) algorithm. A few special techniques integrating acoustic and linguistic knowledge are developed further to improve the performance step by step. Preliminary experimental results show that the final achievable rate is as high as 91.62%, which indicates a 18.48% error rate reduction and more than three times faster than the well studied subsyllable-based CHMM 相似文献
13.
互信息匹配模型依据互信息理论而提出,在语音识别中已经显示了良好的性能,文章在互信息匹配理论的现有成果的基础上,提出了基于互信息估计的连续语音识别算法MIM_LB算法,实验表明提出的算法简单有效.优于传统的LB算法。 相似文献
14.
将语音识别技术应用于拨号系统,在嵌入式平台上实现了一款针对非特定人的数字语音拨号系统。语音识别算法中选择梅尔频率倒谱系数为特征参数,连续隐马尔科夫模型。为训练和识别过程模型,利用Qt界面对识别过程进行控制,系统针对非特定人数字语音识别进行实验。结果表明,系统针对非特定人识别率达到了98%,识别时间为3.55S。识别率和实时性都满足语音拨号的需求。 相似文献
15.
基于MI_OneStage算法的连续数字语音识别 总被引:1,自引:0,他引:1
语音识别的互信息匹配模型是依据互信息理论而提出的。在互信息匹配理论的现有成果的基础上,提出了基于互信息估计的连续语音识别算法—MI_OneStage算法,实验表明所提出的算法简单有效,优于传统的OneStage算法。 相似文献
16.
A segment-based speech recognition scheme is proposed. The basic idea is to model explicitly the correlation among successive frames of speech signals by using features representing contours of spectral parameters. The speech signal of an utterance is regarded as a template formed by directly concatenating a sequence of acoustic segments. Each constituent acoustic segment is of variable length in nature and represented by a fixed dimensional feature vector formed by coefficients of discrete orthonormal polynomial expansions for approximating its spectral parameter contours. In the training, an automatic algorithm is proposed to generate several segment-based reference templates for each syllable class. In the testing, a frame-based dynamic programming procedure is employed to calculate the matching score of comparing the test utterance with each reference template. Performance of the proposed scheme was examined by simulations on multi-speaker speech recognition for 408 highly confusing isolated Mandarin base-syllables. A recognition rate of 81.1% was achieved for the case using 5-segment, 8-reference template models with cepstral and delta-cepstral coefficients as the recognition features. It is 4.5% higher than that of a well-modelled 12-state, 5-mixture CHMM method using cepstral, delta cepstral, and delta-delta cepstral coefficients 相似文献
17.
Wu C.-H. Chen Y.-J. Yan G.-L. 《Vision, Image and Signal Processing, IEE Proceedings -》2000,147(1):55-61
Mandarin speech is known for its tonal characteristic, and prosodic information plays an important role in Mandarin speech recognition. Driven by this property, phonetic and prosodic information are integrated and used for Mandarin telephone speech keyword spotting. A two-stage strategy, with recognition followed by verification, is adopted. For keyword recognition, 132 subsyllable models, two general acoustic filler models and one background/silence model are separately trained and used as the basic recognition units. For utterance verification, 12 anti-subsyllable models, 175 context-dependent prosodic models and five anti-prosodic models are constructed. A keyword verification function combining phonetic-phase and prosodic-phase verification is investigated. Using a test set of 3088 conversational speech utterances from 33 speakers (20 males and 13 females) and a vocabulary of 2583 faculty names, at 8.5% false rejection, the proposed verification method results in an 18.3% false alarm rate. Furthermore, this method is able correctly to reject 90.9% of non-keywords. Comparison with a baseline system without prosodic-phase verification shows that prosodic information can benefit the verification performance 相似文献
18.
19.
为了提高海洋哺乳动物声音识别算法的识别率和鲁棒性,提出了一种将梅尔倒谱系数MFCC、线性倒谱系数LFCC和时域特征融合作为特征参数进行声音识别的方法。该方法通过融合不同倒谱系数以增强对不同频段的表征能力,通过融合时域特征来更全面地描述声音信息。声音样本通过基于海洋环境下的预处理、特征提取与融合后,用支持向量机进行分类识别。相对于传统算法只针对一种或几种哺乳动物进行识别,该方法在包含61种海洋哺乳动物声音的样本库中进行测试。测试结果显示该算法较传统的梅尔倒谱系数在识别率上提升了5.5%,且在海洋低信噪比环境下有更好的识别表现。 相似文献
20.