首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 140 毫秒
1.
结合高斯混合模型(GMM)和嗓音起始时间(VOT)特征的普通话音素发音错误检测,提出了一种结合语音声道特征信息和音源特征信息的发音错误检测方法。其中GMM用于反映声道特征信息的MFCC参数的建模与评测,并直接对大部分音素的发音质量直接进行错误检测。对于少数通过MFCC参数和GMM难于检测区分的辅音音素,则通过反映VOT信息的音源特征参数进行区分。实验表明,该方法在训练数据有限的情况下取得了较好的性能,非常适合用于聋人语言康复的计算机辅助训练。  相似文献   

2.
基于小波分析的梅尔频率倒谱参数?   总被引:1,自引:0,他引:1  
采用HMM模型和MFCC参数的语音识别器对普通话中声母音素的区分度不够理想,而在基于识别的计算机辅助发音教学系统中的辅音的识别具有特别重要的意义.考虑到相同发音位置不同发音方式的声母音素变化较快且高频信息较多,本文将小波分析的方法引入到提取梅尔频率倒谱参数(MFCC)的过程当中,来提高信号高频部分的时域分辨率,提出了基于小波分析的梅尔倒谱参数MFCC_Wavelet.结合高低频不同分帧方式的MFCC_Wavelet参数与HMM模型的语音识别器,本文测试了MFCC和MFCC_Wavelet两种参数在4类发音中的区分性,实验结果表明,在相同发音位置不同发音方式、塞音与不塞音、送气音与不送气音及擦音与不擦音4类发音错误中,MFCC_Wavelet的总体效果好于MFCC.  相似文献   

3.
利用语音识别技术,依英语发音的特有性,搭建完整合理的计算机辅助英语发音评测系统。整个系统包括3个部分:语音段验证、语音信号切割和发音评测。其中语音段验证利用置信度评估的技术,并依据置信度阀值对评测语音内容是否需要评测做出判断;语音信号切割是以预先训练好的英语发音声学模型为切割依据,通过强制对位的方式切割出正确的发音区段;英语发音评测是系统的核心,使用的评测方式是比较评测语音和标准语音的相似度,采用4个评测特征:发音完整度、韵律性、语速和准确度进行发音相似度评测。针对不同的特征参数设计合理的评测机制,并对4个特征参数进行加权运算,以建立一个完整合理的英语发音评测系统。实验证明,系统能够给出比较客观的评分,达到预期设计目标。  相似文献   

4.
语音是由混沌的自然音素组成的,而分形可以很好地为成混沌状态的自然音素建模.语音波形具有分形特征,将分形用于改善语音识别技术越来越受到重视.语音的特性决定了每一个音素展现其固有模式,因此相邻音素之间的分维值不同.通常求取语音波形的分维值轨迹可把人的发音分割成句子、词、甚至音素.实验证明,该方法在语音分割中取得了很好的效果.  相似文献   

5.
汉语孤立词声韵分割算法的研究   总被引:2,自引:0,他引:2  
文章从汉语语音评价系统设计的需要出发,针对DTW算法和汉语音节的特点,研究并实现了汉语音节中声母和韵母分割的两种算法,算法依据的基础都是依据不同类语音段数据相异的原理.在实际系统测试中,发现基于段间距离的分割算法取得了良好的实验结果,可以作为汉语语音评价系统中的声韵分割算法.  相似文献   

6.
汉语语音音素分割的一种新方法   总被引:3,自引:0,他引:3  
音素分割在大词汇量连续语音识别的过程中起着重要的作用 .该文提出了一种简单实用的音素分割方法 ,比较好地解决了这个问题 ,并在大词汇量汉语语音识别中得到了应用 ,取得了较好的结果  相似文献   

7.
田阳县那坡镇粤语共有21个声母(含零声母),50个韵母(包括自成音节的[η]在内)和8个声调(不合轻声).在归纳出声韵调系统的基础上概括说明其语音特点.  相似文献   

8.
在比较各种汉语语音识别基元的基础上,结合汉语语音和随机轨迹模型的特色,提出了以音素类单元作为汉语连续语音识别系统的识别基元,基于音素基随机轨迹模型的汉语连续语音识别系统的实验结果表明,该方案可行。  相似文献   

9.
汉语连续语音识别中上下文相关的声韵母建模   总被引:8,自引:1,他引:8  
声学建模是汉语连续语音识别中的关键步骤之一。根据汉语语音的特点,采用扩展声韵母(XIF)作为识别基元,并针对XIF基元设计了相应的问题集,利用基于决策树的状态共享策略建立上下文相关声韵模型(Tri-XIF)。将Tri-XIF模型与上下文相关音素模型(Tri-phone)、上下文无关音节模型进行了对比。提出了几种方法用于改善标注、改进问题集和降低模型规模。实验结果表明,Tri-XIF模型与Tri-phone模型、音节模型相比,识别性能有了很大提高,其音节误识率分别降低了24.53%和41.65%。采用了所提出的优化策略后,模型规模降低20%以上,而性能下降很少。  相似文献   

10.
对于基于Gauss混合模型-通用背景模型(Gaussianmixure model-universal background model,GMM-UBM)方法的文本无关说话人识别,当测试语音时长缩短到很短时,识别率会严重下降。为了充分利用文本内容信息,该文提出了一种基于K-top多音素类模型混合(KPCMMM)的建模方法。在音素识别阶段,利用语音识别得到训练语音的音素序列,在说话人识别阶段利用音素序列对每个说话人训练多个音素类模型,测试语音则在最相近的音素类模型上进行打分判决,K是选取的相近音素类数。由于音素类定义的不同,KPCMMM方法分为基于专家知识和数据驱动这两类。实验结果显示选择合适的K值可以得到更好的识别结果。不同的音素类定义方法的比较实验结果显示:当测试语音时长小于2s时,对比GMM-UBM基线系统,该方法的等错误率(EER)相对下降38.60%。  相似文献   

11.
基于音素的发音质量评价算法   总被引:6,自引:0,他引:6  
面对广大的外语学习者,计算机辅助语言学习系统已经成为一种最佳的口语学习方式。该文提出了一种新的应用于计算机辅助语言学习系统的面向英语学习人群的发音质量评价算法,名为PASS(phone-basedautomaticscoreforl2speechquality)。PASS算法以基于隐含Markov模型的语音识别和口音自适应技术为基础,考察了音素发音的准确性和流利性信息,定义了音素级的发音质量分数,从而可以综合得到整句的评分结果。在实验室自行采集和精细标注的非母语语音库上与其他评分算法进行比较实验,PASS与专家评分的句子级相关性达到了0.66,优于其他算法。目前PASS算法已经被成功地应用于清华大学出版社的互动式语言学习系统中。  相似文献   

12.
基于多尺度分形维数的汉语语音声韵切分   总被引:10,自引:0,他引:10  
针对低信噪比环境 ,提出一种汉语语音声韵母切分新方法。以语音信号非线性产生机制中存在混沌特性为依据 ,将普通分形维数扩展为多尺度分形维数 ,用于考察语音信号在不同最大观测分辨率下的局部自相似性。利用稳定声韵母段及其之间过渡段在多尺度分形维数上的不同特性能较好地区分二者。由此针对汉语音节“声母 +韵母”的结构特点设计了一种简单而高效的汉语语音声韵母切分方法。在干净语音测试集下测试 ,切分正确率为 95 .2 % ;在信噪比为10 d B的噪声环境下 ,正确率达到 82 .3%。  相似文献   

13.
一种特定人声道频率响应的精确的提取方法   总被引:2,自引:2,他引:0  
提出了一种在浊音中切取相当基音长度的一段波形,用傅里叶变换求出谱线,多次填充构造精确声道频率响应函数的新方法.经过实验,证实此方法特别适合特定人的语音识别,也能较好合成出模仿特定人的语音.  相似文献   

14.
从基于言语知觉特性的声母区别特征出发,观察MFCC和美尔能量取值在区别特征有无上的表现差异,修正了声母区别特征的客观参数特性,与修正前的结果相比更合理。定义含有区别特征参数特性的语音帧为有效帧,在自然音节中通过能量确定出声母初判范围位置的基础上,利用该范围内有效帧的含量Para作为检测探针,实现自然音节状态下声母区别特征检测。正检率在80%左右。  相似文献   

15.
语音质量评价始终是语音处理系统研发中极为关心和重视的问题。要对日益庞杂的语音系统进行测评,研制灵活、方便、快捷、可靠的语音质量评价系统极其必要。通过介绍语音音质客观评价方法的基本原理,分析ITU—T最新建议标准P.862中的PESQ算法,最终提出了基于PESQ算法的语音音质客观评价系统的软硬件实现方案,并重点介绍了系统各部分的设计思想、实现难点以及解决策略。  相似文献   

16.
一种有效的语音基音周期提取算法   总被引:2,自引:0,他引:2  
语音信号处理中精确提取特定语音的基音周期有重要的意义.采用了一种有效方法,即在浊音中用段内位移匹配的方法提取出基音周期,有效地防止由于一个周期内的2段相似波形被误判为两个周期的情况,同时也防止取到倍周期的可能.实验证实,此方法提取出的基音周期准确,能较好地合成出特定人的语音来.  相似文献   

17.
基于倒谱距离的语音端点检测改进算法   总被引:5,自引:1,他引:5       下载免费PDF全文
在讨论传统倒谱距离语音端点检测算法不足的基础上,提出了一种改进方案,该方法首先估计短时信噪比,然后由统计方法确定短时信噪比与门限的关系,进而完成正确的语音端点判决。通过对3种典型噪声环境下信噪比从-5 dB到20 dB的带噪语音信号进行的仿真实验结果表明,所提方法能更为准确地检测到语音端点。  相似文献   

18.
为了对高速列车车内强噪声环境下的语言清晰度进行定量分析,利用最新语言传输指数间接测量方法及其与汉语语言清晰度的关系,得到不同运行速度和语音声级下车内不同位置的语言清晰度.结果表明,受电弓下部车内位置语言清晰度状况最差;该位置的语言清晰度随速度呈线性规律变化,随语音声级呈二次非线性规律变化.采用多元非线性回归分析,建立以语音声级和列车运行速度为自变量的车内语言清晰度的关系式.试验测试结果与计算结果的标准差为1.75%,拟合优度为0.963,表明该关系式可以较好地模拟三者之间的相关关系.与基于语言清晰度指数的评价方法相比较,该评价方法所需的客观参量测量更简单,更具应用价值.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号