首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 375 毫秒
1.
为实现中英文民航陆空通话语音识别,提出一种基于深度学习的跨语种民航陆空通话语音识别方法.基于共享隐层的卷积深度神经网络(CDNN)建立一个跨语种声学模型;将中文音素和英文音素(CMU)融合用于构建混合语言模型;在此基础上将CMU标准英文音素映射为TIMIT标准英文音素重构语言模型用于识别;为了缩短训练和解码的时间,在提取特征阶段加入低帧率.实验结果表明,卷积深度神经网络声学模型可较好地应用于民航陆空通话领域;音素映射方法能够进一步提高识别性能;加入低帧率后有效缩短了训练时间且使词错误率下降到4.28%.  相似文献   

2.
在基于音素识别的语种辨识系统中,特定的一段语音,音素识别的结果会受到说话人和信道等干扰因素的影响。对此,文中基于音素搭配关系对每段语音构建相应的特征向量表示。在向量空间中,利用因子分析建立噪声子空间的数学描述模型,并在语言模型的训练和识别过程加以消除。在NISTLRE2007的测试任务中,相对于基于音素识别的语种辨识基线系统,该方法可有效提高系统性能。在30s时长测试中,基于音素识别的语言模型和基于音素识别的支持向量机模型的等错误率分别相对降低14。4%和12。9%。  相似文献   

3.
该文针对短语音(语段时长小于等于1s)和易混淆语音的语种识别进行研究。选取东方多语种识别竞赛数据集为实验数据集,对比了音素对数似然比特征、梅尔频率倒谱系数特征、深度瓶颈层特征(DBF)在短语音及易混淆语种识别中的性能,证明DBF在两种识别任务中均具有较好的性能。为提升识别准确率提出DBF-I-VECTOR语种识别改进系统,该系统分别将基线DBF-I-VECTOR系统的短语音识别等错误率最优结果从12.26%降低为10.55%,易混淆语音识别等错误率(EER)最优结果从5.53%降低为2.86%。在对比改进系统后端的余弦距离(CDS)、概率线性判别分析(PLDA)、支持向量机(SVM)、极端梯度提升(XGBoost)、随机森林(RF)分类性能时发现RF在短语音任务中分类效果最好,SVM在易混淆任务中分类效果最好。  相似文献   

4.
本文介绍了一种基于词图的并行音素识别方法的自动语种识别系统,基于词图的并行音素识别方法是并行音素识别方法的一个扩展,它用识别产生的词图来描述声学候选结果空间,比并行音素识别方法中用最佳路径音子序列包含更丰富的信息。通过真实环境广播语音测试表明,该方法比并行音素识别方法识别性能提升了约6%,在每个语种约4小时的训练数据下,跟其他的几种语种识别方法也有可比的性能。  相似文献   

5.
从给定语音中提取有效语音段表示是语种识别的关键点。近年来深度学习在语种识别应用中有重要的进展,通过深度神经网络可以提取音素相关特征,并有效提升系统性能。基于深度学习的端对端语种识别系统也表现出其优异的识别性能。本文针对语种识别任务提出了基于卷积神经网络的端对端语种识别系统,利用神经网络强大的特征提取能力及区分性建模能力,提取具有语种区分性的基本单元,再通过池化层得到有效语音段表示,最后输入全连接层得到识别结果。实验表明,在NIST LRE 2009数据集上,相比于现阶段国际主流语种识别系统,提出的系统在30 s,10 s和3 s等语音段上错误率分别相对下降了1.35%,12.79%和29.84%,且平均错误代价在3种时长上均相对下降30%以上。  相似文献   

6.
在语种识别领域,语音所含说话人的差异会影响系统识别性能。基于此,对能够实现说话人无关的锚模型进行研究。根据其在语种识别中的应用原理,结合快速区分性训练思想,提出一种语种区分性的锚模型训练算法。实验结果表明,锚模型的引入能提高系统识别性能,加入语种区分性的锚模型能进一步降低系统等错误率。  相似文献   

7.
一种改进的PRSVM语种识别方法   总被引:1,自引:0,他引:1  
传统的PRSVM方法存在以下问题:音素识别器的符号化结果与原语音存在不一致;向量空间维数高,稀疏.针对以上问题,先改用更适合噪声环境下连续电话语音的音素识别器,并采用词图结构改善解码效果,再分别用全局和局部两种隐含语义分析策略改进区分性训练问题.实验表明,本方法不但有效,而且大大减少了运算量.在NIST2007语种识别评测30秒、10秒和3秒任务中,本方法比基线系统性能有显著提高,等错误率分别相对降低了22.3%、14.7%和12.2%.  相似文献   

8.
GMM与SVM的建模和识别性能具有较好的互补性,因此GMM-SVM在语种识别中得到广泛使用,以其为基础的GMM-MMI-SVM已成为语种识别的主流研究方法.但是SVM在判别时仅仅使用了训练样本中的一些特殊样本即支持向量,并没有使用全部样本,从而影响了系统识别性能的进一步提高.针对上述问题,提出一种基于核Fisher判别的分类算法-GMM-MMI-KFD.该算法的核心思想是用核Fisher准则(KFD)替代SVM分类准则,从语音片段中提取出特征向量序列,分别通过GMM-MMI分类器与GMM-KFD分类器进行判决打分.相对SVM,KFD更注重语音数据非线性分布的特点,并且将样本向高维空间H上投影后可以最大限度地增大类间距,减小类内距.实验数据表明,GMM-MMI-KFD方法在语种识别中具有更高的识别率.  相似文献   

9.
改进的跨语种语音合成模型自适应方法   总被引:1,自引:0,他引:1  
统计参数语音合成中的跨语种模型自适应主要应用于目标说话人语种与源模型语种不同时,使用目标发音人少量语音数据快速构建具有其音色特征的源模型语种合成系统。本文对传统的基于音素映射和三音素模型的跨语种自适应方法进行改进,一方面通过结合数据挑选的音素映射方法以提高音素映射的可靠性,另一方面引入跨语种的韵律信息映射以弥补原有方法中三音素模型在韵律表征上的不足。在中英文跨语种模型自适应系统上的实验结果表明,改进后系统合成语音的自然度与相似度相对传统方法都有了明显提升。  相似文献   

10.
在针对电话语音的语种识别系统中,训练语音和测试语音之间存在不同说话人的个性差异带来的干扰,是影响系统识别性能的一个重要因素.基于此,本文首先对当前语种识别系统中消除此影响的方法进行研究,对比分析它们各自的优缺点,选择将锚模型方法引入语种识别系统中,该方法将语料映射至说话人无关的锚超矩阵进而消除说话人相关信息.针对锚超矩阵的选择存在语种混淆和信息冗余等问题,本文并提出一种结合支持向量机的锚模型训练算法,该方法下得到的锚超矩阵更具语种区分性,并去除了混淆信息的影响,增强了矩阵的紧致性.实验结果表明,新方法下的锚模型映射方法能有效提高基线系统的识别性能,并降低了语种识别系统训练和识别时的计算量.  相似文献   

11.
近年来大词汇量连续语音识别技术得到了迅速的发展,国内外研究机构加大了对汉语和英语语音识别技术的研究,然而,维吾尔语语音识别技术的研究工作最近才起步。建立了面向大词汇量的维吾尔语语音语料库,研究了维吾尔语声学模型和语言模型建模技术、解码技术,进行了面向大词汇量的维吾尔语连续语音识别实验。对维吾尔语大词汇量连续语音识别技术进一步发展中存在的问题进行了讨论。  相似文献   

12.
基于后验概率解码段模型的汉语语音数字串识别   总被引:4,自引:0,他引:4  
唐赟  刘文举  徐波 《计算机学报》2006,29(4):635-641
通过对语音解码的分析指出了基于似然概率解码的连续语音识别的局限性,并给出了三种基于后验概率段模型(Segment Model,SM)的语音解码方法.这三种方法成功地运用于随机段模型(Stochastic Segment Model,SSM),使误识率比基线系统下降了11%;与此同时还给出了段模型的快速算法,使算法的计算复杂度降到了与隐马尔可夫模型(Hidden Markov Model,HMM)相同的数量级,满足了实用要求.  相似文献   

13.
为了统一地补偿电话语音受加性噪声和卷积通道响应的影响,本文提出了矢量分段多 项式近似(VPP)算法.并把此算法成功地应用到稳态噪声和非稳态噪声环境.对于稳态噪声环 境,在log谱域采用Batch EM(B EM)方法;对于非稳态噪声环境,在倒谱域采用递归EM(R EM)方法.这两种方法都是基于最小均方误差估计(MMSE)准则的特征补偿.实验结果表明,受 背景噪声和电话通道(包括固定电话和GSM)影响的大词汇量连续语音识别应用此算法误识率 可以降低约18%.  相似文献   

14.
本文研究了汉语连续语音识别音字转换中的容错算法, 以纠正声学识别的替代、插入、删除错误。为了解决容错算法的计算量问题, 本文提出了两种快速算法。一是针对单独出现错误的快速容错算法;二是针对关键词的快速容错算法。快速算法有效地限制了容错算法的搜索空间, 提高了计算效率。快速容错算法应用在电话对话系统中, 字正确率从78.97%提高到86.68%, 关键词检测正确率从80.56%提高到88.52%,并且算法运算时间满足实时性要求。  相似文献   

15.
当前的语音识别模型在英语、法语等表音文字中已取得很好的效果。然而,汉语是一种典型的表意文字,汉字与语音没有直接的对应关系,但拼音作为汉字读音的标注符号,与汉字存在相互转换的内在联系。因此,在汉语语音识别中利用拼音作为解码时的约束,可以引入一种更接近语音的归纳偏置。该文基于多任务学习框架,提出一种基于拼音约束联合学习的汉语语音识别方法,以端到端的汉字语音识别为主任务,以拼音语音识别为辅助任务,通过共享编码器,同时利用汉字与拼音识别结果作为监督信号,增强编码器对汉语语音的表达能力。实验结果表明,相比基线模型,该文提出的方法取得了更优的识别效果,词错误率降低了2.24%。  相似文献   

16.
循环神经网络语言模型能够克服统计语言模型中存在的数据稀疏问题,同时具有更强的长距离约束能力,是一种重要的语言模型建模方法。但在语音解码时,由于该模型使词图的扩展次数过多,造成搜索空间过大而难以使用。本文提出了一种基于循环神经网络语言模型的N-best重打分算法,利用N-best引入循环神经网络语言模型概率得分,对识别结果进行重排序,并引入缓存模型对解码过程进行优化,得到最优的识别结果。实验结果表明,本文方法能够有效降低语音识别系统的词错误率。  相似文献   

17.
Tone study is very important for Mandarin speech recognition. In this paper, a Mixture Stochastic Polynomial Tone Model (MSPTM) is proposed for tone modeling in continuous Mandarin speech. In this model the pitch contour, main representative of tone pattern, is described as a mixed stochastic trajectory. The mean trajectory is represented by a polynomial function of normalized time while the variance is time varying. Effective training and tone recognition algorithms were developed. The experimental results based on the proposed MSPTM showed 40.7% tone recognition error rate reduction relative to the traditional Hidden Markov Model (HMM) tone model. We also present a decision tree based approach to learning the tone pattern variation in continuous speech. The phonetic and linguistic factors that may affect the tone patterns were taken into consideration while constructing the tree. After the tree was established, 28 different tone patterns were obtained. We found that in addition to the tone of the neighboring syllable, Consonant/Vowel type of the syllable and the position of the syllable in the utterance also made important contributions to tone pattern variations in continuous speech. Finally, a new approach of integrating tone information into the search process at word level is discussed. Experiments on continuous Mandarin speech recognition showed that the new tone model and tone information integration method were efficient, achieving a 16.2% relative character error rate reduction.  相似文献   

18.
众所周知中文普通话被众多的地区口音强烈地影响着,然而带不同口音的普通话语音数据却十分缺乏。因此,普通话语音识别的一个重要目标是恰当地模拟口音带来的声学变化。文章给出了隐式和显式地使用口音信息的一系列基于深度神经网络的声学模型技术的研究。与此同时,包括混合条件训练,多口音决策树状态绑定,深度神经网络级联和多级自适应网络级联隐马尔可夫模型建模等的多口音建模方法在本文中被组合和比较。一个能显式地利用口音信息的改进多级自适应网络级联隐马尔可夫模型系统被提出,并应用于一个由四个地区口音组成的、数据缺乏的带口音普通话语音识别任务中。在经过序列区分性训练和自适应后,通过绝对上 0.8% 到 1.5%(相对上 6% 到 9%)的字错误率下降,该系统显著地优于基线的口音独立深度神经网络级联系统。  相似文献   

19.
秦春香  黄浩 《计算机工程》2012,38(23):177-180
采用传统谱特征作为输入进行语音识别通常会受到声学环境差异的影响。为此,提出汉语和维语音素和音位的对应规则,并将这种规则应用于基于发音特征的语音识别系统。训练神经网络多层感知器,获取语音信号各类发音特征的后验概率,将其与美尔频率倒谱系数(MFCC)拼接后送入隐马尔科夫模型进行声学模型训练。将不同发音特征分别与传统MFCC特征进行组合并给出测试结果。实验结果表明,当汉语声带状况和送气发音特征与传统MFCC组合时,以及维语的发音方式和声带状况特征与MFCC组合之后,系统误识率较低。  相似文献   

20.
李伟  吴及  吕萍 《计算机应用》2010,30(10):2563-2566
为了克服语音识别中单遍解码词图生成算法速度较慢的缺点,提出一种基于前后向语言模型的两遍快速解码算法。两遍解码分别采用前向与后向语言模型,同时通过优化以减少前后向语言模型不匹配对识别结果造成的影响。实验证明,该算法在保持识别准确率的基础上有效地提升了解码速度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号