期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

陈立江王柯柯《电声技术》2017,(11):88-94

重音是语音合成、语音识别、语音情感识别中表征韵律信息的一个重要参数,对提高语音合成系统的自然度、语音识别系统的准确率、语音情感识别系统的正确率等有着重要的作用.基于汉语双模情感语音数据库(ChineseDual-mode Emotional Speech Database,CDESD),采用改进的双门限判决法对连续语音进行音节分割,将音节的声学相关特征作为输入,数据库中人工标注的重音信息作为监督,建立了基于神经网络以及支持向量机(Support Vector Machine,SVM)的两种重音预测模型.实验表明,基于SVM的重音预测模型具有更好的分类效果,在CDESD能够获得82.89％的识别率. 相似文献

2.

群延时谱参数在汉语数字语音识别中的应用

下载免费PDF全文

周峰俞一彪《信号处理》2017,33(9):1215-1220

汉语数字语音之间的高混淆性直接影响了汉语数字语音识别的效果，传统的语音识别方法很难对易混淆的语音做出有效的区分。本文提出了一种多参数、多级识别策略，先采用MEL谱参数基于HMM进行初级数字语音识别，然后对易混淆的数字对采用一种新的群延时谱参数——RRCGD-CC(Reflected Roots Chirp Group Delay-Cepstral Coefficients)基于SVM进行二次分类。实验结果表明，通过多参数多级识别方法，数字“2”和“8”的识别率提高了8%，数字识别系统的整体识别率提高了2.3%。这一结果充分说明了本文提出的多参数多级识别方法有利于提高汉语数字语音识别系统的识别性能，同时也说明了RRCGD-CC在易混淆数字语音的识别上是有效的。相似文献

3.

高性能汉语数码串语音识别 总被引：9，自引：0，他引：9

下载免费PDF全文

李虎生刘加刘润生《电子学报》2001,29(5):595-599

本文给出了一个高性能汉语数码串非特定人连续语音识别系统,其声学模型基于Mel倒谱系数和连续HMM,识别时采用多候选帧同步搜索算法,并采用了MCE算法进行训练以提高系统的区分能力,实验证明该系统的识别率为94.8%(不定长数字串)和96.8%(定长数字串).为增强系统的实用性,本文还研究了基于MAP算法的说话人自适应算法和基于置信度的拒识算法.在进行自适应后,误识率可相对下降40%以上,在拒绝掉5%的正确语音时,系统识别率可以上升到96.9%(不定长数字串)和98.7%(定长数字串). 相似文献

4.

基于多特征组合优化的汉语数字语音识别研究

下载免费PDF全文

赵力《电子器件》2013,36(2)

研究了一种汉语数字语音识别方案,首先提取汉语数字语音线性预测倒谱系数（LPCC）和梅尔频率倒谱系数（MFCC）及其一阶差分,并组合成新特征。通过求取其系数矩阵的均值和方差的方式进行一次降维,然后采用基于关联规则的特征选择算法进行二次降维,并采用C4.5决策树算法进行识别。通过实验表明本文提出的方法能够有效降低特征维度,去除了无用的冗余信息,提高了语音识别率。相似文献

5.

结合音质特征和韵律特征的语音情感识别

张石清赵知劲雷必成杨广映《电路与系统学报》2009,14(4)

为了提高语音情感的正确识别率,在情感语音韵律特征的基础上,提出情感语音音质特征的提取.结合音质特征参数和韵律特征参数,采用支持向量机分类器实现汉语普通话生气、高兴、悲伤和惊奇四种主要情感类型语音的情感识别.实验结果表明,语音音质特征参数和韵律特征参数相结合取得的情感平均正确识别率为88.1%,比单独使用韵律特征参数高出6%.可见,语音音质特征是一种较有效的情感特征参数. 相似文献

6.

汉语连续语音识别结果评价算法研究

下载免费PDF全文

刘刚陈伟郭军《中国通信》2010,7(2):132-138

在汉语语音识别中,由于汉语构词的特点,使得基于词的汉语语音识别结果评价不准确。论文对于传统连续语音识别结果评价算法进行了改进,提出了一种基于字词混合的汉语连续语音识别结果评价算法,可以有效完成基于词的识别结果评价,同时也将识别结果评价由四种情况(正确、替代、插入、删除)扩展到六种情况(增加了插入式替代和删除式替代),可以为语音识别的后处理提供更多有用的信息。实验表明,本文所提算法可以有效降低传统评价算法带来的虚假错相似文献

7.

一种改进的线性区分分析方法及其在汉语数码语音识别上的应用 总被引：1，自引：0，他引：1

史媛媛刘加刘润生《电子学报》2002,30(7):959-963

尽管汉语数码语音识别只涉及十个数字,但由于不同数字的发音存在相同或相似的声母或韵母,造成汉语数码语音之间的混淆性很大.采用通常的隐含马尔科夫模型(HMM)作为汉语数码语音识别模型难以得到很高的识别率.为了解决汉语数码之间的混淆问题,提高汉语数码语音识别性能,本文在隐含马尔科夫模型的状态层次上采用线性区分分析方法,将不同状态之间容易混淆的特征样本构成混淆模式类,针对混淆模式类进行线性区分分析.通过线性区分变换,在变换特征空间中仅保留那些能够有效区分该混淆类别的特征参数.这种基于状态的线性区分分析有效地提高了模型对混淆数码的区分能力.实验表明即使采用状态数很少的粗糙识别模型,也能很大幅度提高模型的识别性能;经过线性区分变换优化后的汉语数码识别模型,孤立汉语数码语音识别率可以达到99.32%. 相似文献

8.

一种汉语语音变换技术

孙卓岳振军《电声技术》2007,31(6):37-40

汉语语音变换技术的目的是将汉语语音中源说话人的语音特征转换为目标说话人语音特征。提出的适用于汉语说话人的变换算法分为3个部分:前两部分用高斯混合模型实现了语音的谱包络(线性预测编码)及其激励(残差)的转换;第三部分采用支持向量回归算法实现语音的韵律变换规则建模,结合汉语语音特点利用基音同步叠加算法实现语音的超音段特征调整。与现有的语音变换算法进行比较,算法针对汉语语音超音段发音特点进行韵律调整,有效实现了汉语语音变换并得到高自然度合成语音,是一种有效的汉语语音变换算法。相似文献

9.

语音识别片上系统中的多级搜索算法 总被引：7，自引：0，他引：7

下载免费PDF全文

朱璇陈一宁刘加刘润生《电子学报》2004,32(1):150-153

本文提出了一种新的用于片上的语音识别多级搜索算法.该算法以连续隐含马尔可夫模型(Continuous Density HMM,CDHMM)为基本识别框架.在保证识别率基本不变的前提下,大大降低了片内存储空间的占用量,减少了识别搜索时间.在第二级识别候选词条的选取准则上,提出一种基于置信度的选择方法,更进一步改善了识别速度,增强了识别的稳健性.在200个语音命令的识别任务下,系统的识别率为98.83％.而当识别词条增加到600条时,该算法也具有良好的识别性能. 相似文献

10.

基于电话语料的维吾尔连续音素识别

米日古力·阿布都热素艾克白尔·帕塔尔艾斯卡尔·艾木都拉《通信技术》2012,45(7):54-56

结合维吾尔语的语音特征和语义信息,在大量电话语音语料库的基础上,以建立维吾尔语连续音素识别平台为目标,通过构建隐马尔科夫模型工具HTK(Hidden Markov Model Toolkit)工具实现了维吾尔语连续音素识别算法:首先根据具体技术指标完成了较大规模电话语音语料库的录制和标注工作;确定音素为基元,通过训练获得了每个音素的HMM(Hidden Markov Model)声学模型,随后对输入的语音进行识别,声学模型在不同的高斯混合数目下,得出了识别结果;统计了32个音素的识别率并对它进行分析,为了进一步提高识别率奠定了基础。相似文献

11.

基于FVQ/HMM的无教师说话人自适应

赵力邹采荣吴镇扬《电子学报》2002,30(7):967-969

本文提出了一种新的语音识别方法,它综合了VQ、HMM和无教师说话人自适应算法的优点,在每个状态通过用矢量量化误差值取代传统HMM的输出概率值来建立FVQ/HMM,同时采用基于模糊矢量量化的无教师自适应算法,来改变FVQ/HMM的各状态的码字,从而实现对未知说话人的码本适应.本文通过非特定人汉语数码(孤立和连续数码)语音识别实验,把该新的组合方法同基于CHMM的自适应和识别方法进行了比较,实验结果表明该方法的自适应和识别效果优于基于CHMM的方法. 相似文献

12.

Continuous Mandarin speech recognition for Chinese language withlarge vocabulary based on segmental probability model

Shen J.-L. 《Vision, Image and Signal Processing, IEE Proceedings -》1998,145(5):309-315

The author presents a study of large-vocabulary continuous Mandarin speech recognition based on a segmental probability model (SPM) approach. The SPM was found to be very suitable for recognition of isolated Mandarin syllables especially considering the monosyllabic structure of the Chinese language. To extend the application of the model to continuous Mandarin speech recognition, a concatenated syllable matching (CSM) algorithm in place of the conventional Viterbi search algorithm is first introduced. Also, to utilise the available training material efficiently, a training procedure is proposed to re-estimate the SPM parameters using the maximum a posteriori (MAP) algorithm. A few special techniques integrating acoustic and linguistic knowledge are developed further to improve the performance step by step. Preliminary experimental results show that the final achievable rate is as high as 91.62%, which indicates a 18.48% error rate reduction and more than three times faster than the well studied subsyllable-based CHMM 相似文献

13.

基于MIM_LB算法的连续数字语音识别

徐华俞一彪《微电子学与计算机》2004,21(5):33-36

互信息匹配模型依据互信息理论而提出，在语音识别中已经显示了良好的性能，文章在互信息匹配理论的现有成果的基础上，提出了基于互信息估计的连续语音识别算法MIM_LB算法，实验表明提出的算法简单有效．优于传统的LB算法。相似文献

14.

嵌入式数字语音拨号系统的研究与实现

李芬兰马小月《电声技术》2012,36(1):46-50

将语音识别技术应用于拨号系统,在嵌入式平台上实现了一款针对非特定人的数字语音拨号系统。语音识别算法中选择梅尔频率倒谱系数为特征参数,连续隐马尔科夫模型。为训练和识别过程模型,利用Qt界面对识别过程进行控制,系统针对非特定人数字语音识别进行实验。结果表明,系统针对非特定人识别率达到了98％,识别时间为3．55S。识别率和实时性都满足语音拨号的需求。相似文献

15.

基于MI_OneStage算法的连续数字语音识别 总被引：1，自引：0，他引：1

徐华俞一彪《通信技术》2003,(3):1-3

语音识别的互信息匹配模型是依据互信息理论而提出的。在互信息匹配理论的现有成果的基础上,提出了基于互信息估计的连续语音识别算法—MI_OneStage算法,实验表明所提出的算法简单有效,优于传统的OneStage算法。相似文献

16.

Isolated Mandarin syllable recognition using segmental features

Chang S. Chen S.-H. 《Vision, Image and Signal Processing, IEE Proceedings -》1995,142(1):59-64

A segment-based speech recognition scheme is proposed. The basic idea is to model explicitly the correlation among successive frames of speech signals by using features representing contours of spectral parameters. The speech signal of an utterance is regarded as a template formed by directly concatenating a sequence of acoustic segments. Each constituent acoustic segment is of variable length in nature and represented by a fixed dimensional feature vector formed by coefficients of discrete orthonormal polynomial expansions for approximating its spectral parameter contours. In the training, an automatic algorithm is proposed to generate several segment-based reference templates for each syllable class. In the testing, a frame-based dynamic programming procedure is employed to calculate the matching score of comparing the test utterance with each reference template. Performance of the proposed scheme was examined by simulations on multi-speaker speech recognition for 408 highly confusing isolated Mandarin base-syllables. A recognition rate of 81.1% was achieved for the case using 5-segment, 8-reference template models with cepstral and delta-cepstral coefficients as the recognition features. It is 4.5% higher than that of a well-modelled 12-state, 5-mixture CHMM method using cepstral, delta cepstral, and delta-delta cepstral coefficients 相似文献

17.

Integration of phonetic and prosodic information for robustutterance verification

Wu C.-H. Chen Y.-J. Yan G.-L. 《Vision, Image and Signal Processing, IEE Proceedings -》2000,147(1):55-61

Mandarin speech is known for its tonal characteristic, and prosodic information plays an important role in Mandarin speech recognition. Driven by this property, phonetic and prosodic information are integrated and used for Mandarin telephone speech keyword spotting. A two-stage strategy, with recognition followed by verification, is adopted. For keyword recognition, 132 subsyllable models, two general acoustic filler models and one background/silence model are separately trained and used as the basic recognition units. For utterance verification, 12 anti-subsyllable models, 175 context-dependent prosodic models and five anti-prosodic models are constructed. A keyword verification function combining phonetic-phase and prosodic-phase verification is investigated. Using a test set of 3088 conversational speech utterances from 33 speakers (20 males and 13 females) and a vocabulary of 2583 faculty names, at 8.5% false rejection, the proposed verification method results in an 18.3% false alarm rate. Furthermore, this method is able correctly to reject 90.9% of non-keywords. Comparison with a baseline system without prosodic-phase verification shows that prosodic information can benefit the verification performance 相似文献

18.

一种引入帧间相关信息的HMM语音识别方法 总被引：2，自引：0，他引：2

赵力邹采荣吴镇扬《电子与信息学报》2001,23(4):327-331

该文提出了一种基于复数帧段输入HMM的语音识别方法,它采用相继的复数帧组成的特征参数向量作为语音识别HMM的输入,能有效地在语音识别HMM中引入帧间相关信息。为了进一步改善复数帧段输入HMM的输出概率分布函数,作者还提出了用MGDF和RBF函数作为复数帧段输入HMM的输出概率分布函数的方法。通过对非特定人汉语孤立数字和连续数字语音识别试验,证实了该文提出的引入帧间相关信息方法的有效性。相似文献

19.

基于特征融合的海洋哺乳动物声音识别

钟鸣拓蔡文郁《电子科技》2019,32(5):32-37

为了提高海洋哺乳动物声音识别算法的识别率和鲁棒性,提出了一种将梅尔倒谱系数MFCC、线性倒谱系数LFCC和时域特征融合作为特征参数进行声音识别的方法。该方法通过融合不同倒谱系数以增强对不同频段的表征能力,通过融合时域特征来更全面地描述声音信息。声音样本通过基于海洋环境下的预处理、特征提取与融合后,用支持向量机进行分类识别。相对于传统算法只针对一种或几种哺乳动物进行识别,该方法在包含61种海洋哺乳动物声音的样本库中进行测试。测试结果显示该算法较传统的梅尔倒谱系数在识别率上提升了5.5%,且在海洋低信噪比环境下有更好的识别表现。相似文献

20.

鲁棒性话者辨识中的一种改进的马尔科夫模型 总被引：5，自引：0，他引：5

下载免费PDF全文

刘鸣戴蓓倩李辉陆伟李霄寒《电子学报》2002,30(1):46-48

为了提高话者识别系统的噪声鲁棒性,本文对CHMM 进行了改进,将每帧特征参数之间的差分参数来对应状态之间的转移,从而使帧间信息在模型中得到了体现.利用改进后的CHMM模型对不同的特征参数携带的信息进行信息融合.使得在强噪环境下,鲁棒性好的特征参数起主导作用,而在噪声比较小的环境下,精细度高的特征参数起主导作用.实验证明,这种改进的马尔可夫模型明显提高语音识别系统的鲁棒性能,这种技术具有良好的发展和应用前景. 相似文献