首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 109 毫秒
1.
在吸收听觉生理学研究成果基础上,建立了一个模拟外国听觉系统和部分中枢听觉神经系统功能的听觉模型,以该模型作为前端处理来提取特征参数,后处理采用模式匹配的方法,进一步研究了听觉模型用于语音识别的抗噪声问题。根据听觉生理特点提出了几个抗噪声方案,实验结果表明,基于文中的听觉模型和所提抗噪声方案的语音识别系统,在噪声环境下具有很好的鲁棒性(Robustness)。  相似文献   

2.
针对说话时发音和口形的异步问题,提出了一个多流异步动态贝叶斯网络(DynamicBayesian Network,DBN)模型,以实现基于音视频特征的连续语音识别,在这个模型中,音频流和视频流在词节点同步,而在词节点之间,音视频流有各自独立的拓扑结构以及节点变量之间的条件依赖关系,同时词转移节点变量由音视频流共同确定,模型在词级别上体现了音视频流的异步性.采用连续数字音视频数据库的实验结果表明,在信噪比为O~30 dB的测试环境下,比较单流DBN模型和多流隐马尔可夫模型,平均识别率分别提高了8.68%和10.07%.  相似文献   

3.
一种基于MASM的口形轮廓特征提取方法及听视觉语音识别   总被引:1,自引:0,他引:1  
提出了一种用于听视觉语音识别的基于MASM的口形轮廓提取方法,这种方法只需要少量的训练数据就可以实现对大量口形轮廓的准确提取。还引入了一种口形轮廓的平滑修正方法,该方法利用口形连续变化的特点,对错误轮廓进行修正。实验证明,利用该方法提取轮廓的准确率比常规ASM模型高出20个百分点;将该口形轮廓特征引入到听视觉语音识别中,可以有效地提高噪音环境下的识别率。  相似文献   

4.
神经振荡器网络模型运用振荡元相关进行听觉场景分析,不同声源所激励的振荡元形成异步流,而同一声源激励的振荡元是同步的。在该模型的组合层中,引入阈值,可有效保留语音信息,提高了信噪比,最后合成的语音信息是可理解的。  相似文献   

5.
为了改进以正弦信号合成的电子耳蜗听觉仿真模型在仿真电子耳蜗植入患者所感知的语音信息的缺陷,建立了增加电极位置信息的正弦信号合成的听觉仿真模型.通过大样本量的不同汉语语言材料的听觉仿真实验,其中包括按元音、辅音、数字、音调和单字词等5种汉语语言材料,研究了基于连续交叉采样算法的不同实验条件下电极位置对言语识别率的影响,得出了汉语元音和单字词对植入深度更加敏感的结论.为进一步将这一仿真模型应用到电子耳蜗研究上奠定了基础.  相似文献   

6.
词袋模型是计算机识别领域中有效且稳定的视觉物体识别方法。针对家居环境下的物体识别为特定场景和有限类别条件下的物体识别的特点,提出了一种基于词袋模型的贝叶斯分类方法,实现家居环境下的物体识别。借助语音合成技术,将识别结果转化为语音并输出,最终帮助盲人实现视觉到听觉的感知替代。以家居环境4类典型物体识别为例,设计实验结果证明了方案的有效性。  相似文献   

7.
一个新的基于时间Petri网的多媒体同步模型   总被引:1,自引:0,他引:1  
多媒体同步是多媒体应用的一个重要需求,本提出了一种基于时间Petri网的多媒体同步模型,以对具有时间的约束关系的多媒体合成进行抽象和形式化描述,并给出了处理异步用户的交互的算法。  相似文献   

8.
针对目前语音语料人工标注效率低的问题,提出了一种朝鲜语连续语音语料的音节自动切分方法.该方法首先采用Seneff听觉模型提取音频的包络检测响应和广义同步检测响应等特征参数,其次结合朝鲜语发音特点确定音节的候选边界位置,最后通过静音段和摩擦音检测消除虚假边界,以提高边界检测的准确率.实验结果表明,该朝鲜语语音语料音节自动切分方法的准确率(93.56%)比传统的基于Seneff听觉模型的分割算法提高了14.59%,召回率(86.43%)比传统的基于Seneff听觉模型的分割算法降低了1.69%; 因此,本文算法总体优于传统的基于Seneff听觉模型的分割算法.  相似文献   

9.
为了在可视语音合成中获得更具有真实感的口型动画,提出了一种基于双重学习模型的合成方法.通过隐马尔可夫模型和遗传算法相结合的方法,可以更好地学习出语音特征与可视特征间的映射关系.该模型能去除传统语音识别领域在对大样本语音空间提取语音特征时的冗余信息,达到更好的可视语音预测效果.另外,在口型特征的表示上提出了一种基于面部动画参数特征点的几何特征表示,不仅对在不一致的光照条件下获得的训练样本有较好的鲁棒性,能更好地表征口型本身变化,而且与传统的主成分分析特征相比,具有较小的向量维数,提高了训练和合成速度.  相似文献   

10.
美尔倒谱系数(MFCC)基于人耳的听觉特性,在语音识别实际应用中可取得较高的识别率.介绍了MFCC的基本原理以及提取MFCC的过程和方法,给出了一种硬件实现模型,并详细描述了各个子模块的设计方法.以VerilogHDL作为设计语言,在ISE、Modelsim开发工具下完成综合与仿真,最后在Xlinx Spartan-3e FPGA目标板上实现设计.  相似文献   

11.
基于HMM/ANN混合模型的带噪语音识别   总被引:1,自引:0,他引:1  
对于含噪语音信号的有效特征提取是语音识别至关重要的一步.该文提出了利用小波调制尺度对语音进行特征提取,结合隐马尔可夫和人工神经网络混合模型进行识别的方法,可进一步反映语音信号的动态特性、增强抗干扰能力和提高识别率.实验证明,该模型适合于对噪声背景下的语音进行识别,同传统的HMM模型相比,具有更好的抗噪鲁棒性,在信噪比较低情况下,识别率比传统的HMM模型有明显的提高.  相似文献   

12.
The perception of human languages is inherently a multi-modal process, in which audio information can be compensated by visual information to improve the recognition performance. Such a phenomenon in English, German, Spanish and so on has been researched, but in Chinese it has not been reported yet. In our experiment, 14 syllables (/ba, bi, bian, biao, bin, de, di, dian, duo, dong, gai, gan, gen, gu/), extracted from Chinese audiovisual bimodal speech database CAVSR-1.0, were pronounced by 10 subjects. The audio-only stimuli, audiovisual stimuli, and visual-only stimuli were recognized by 20 observers. The audio-only stimuli and audiovisual stimuli both were presented under 5 conditions: no noise, SNR 0 dB, - 8 dB, - 12 dB, and - 16 dB. The experimental result is studied and the following conclusions for Chinese speech are reached. Human beings can recognize visual-only stimuli rather well. The place of articulation determines the visual distinction. In noisy environment, audio information can remarkably  相似文献   

13.
语音识别技术可以为要求双手同时作业的操作人员和残疾人提供一种便捷的控制方法。作者在文中提出了一种通过结合二阶频率滤波和RASTA技术来增强语音识别鲁棒性的方法,并将这种方法成功应用于机器人化护理床的控制系统中,增强了识别系统在医院、工厂等非稳定噪声环境下语音识别的鲁棒性。通过将HMM/GMM混合模型的传统Mel频率倒谱系数为特征值的识别系统与HMM/GMM混合模型的RASTA-FF2为特征值的识别系统进行比较,并分别在纯语音和带噪语音条件下进行测试,发现经过二阶频率滤波后的FF2特征值再经过RASTA滤波器滤波,特别是在非稳定噪声环境下,以RASTA-FF2为特征值的识别系统比传统的识别系统的识别率更高,这表明FF2特征值与RASTA滤波器技术相结合,一个作用于频域,一个作用于时间域,可以有效地消除语音信号中的不同噪声成份。  相似文献   

14.
为了解决可视语音合成中语音与口型多对多的对应关系,本文提出基于两层隐马尔可夫模型的可视语音合成,该模型有效结合了语音和口型的上下文相关性,解决了语音与口型多对多的对应问题,合成出了准确率高、连贯、自然的口型序列,该方法具有完全自动化的特点.  相似文献   

15.
针对现有关键词识别系统采用很难用硬件电路准确描述的连续隐马尔可夫模型CHMM作为识别模型,提出用离散隐马尔可夫模型DHMM作为系统的识别模型,研究了适用于硬件实现的状态机端点检测算法,并通过引入VQ矢量量化模块来保证离散关键词识别系统的识别率和识别速度;根据关键词训练模型,分析所采集语音信息中是否存在指定的关键词并进行准确识别。实验结果表明,该算法在便于硬件实现的基础上,具有良好的识别率和实时性,为关键词识别系统的FPGA硬件电路实现研究提供了参考。  相似文献   

16.
提出了一个在噪声环境下高效的语音识别系统。针对端点检测,提出了基于平滑函数的检测方法,从而提高了利用短时能量算法的检测精度。运行频谱滤波器方法在能量频谱和对数频谱用了两次带通滤波器减少噪声,在对数频谱内用倒谱均值相减的方法去除卷积噪声,从而减少了计算量。对于普:i~DTW(DynamicTimeWarpin)算法得到某个测试语音与该语音所有的参考语音相似值,应用一个非线性中值滤波器取中间某个值的方法来进行识别,从而提高了DTW算法的识别精度。利用少量参考语音,实现了高于HMM的识别精度同时又减少了训练的花费时间。  相似文献   

17.
In order to overcome defects of the classical hidden Markov model (HMM), Markov family model (MFM), a new statistical model was proposed. Markov family model was applied to speech recognition and natural language processing. The speaker independently continuous speech recognition experiments and the part-of-speech tagging experiments show that Markov family model has higher performance than hidden Markov model. The precision is enhanced from 94.642% to 96.214% in the part-of-speech tagging experiments, and the work rate is reduced by 11.9% in the speech recognition experiments with respect to HMM baseline system.  相似文献   

18.
为提高语音识别系统的实用性与实时性,该文采用缺失特征分量的方法研究了美尔频率倒谱系数静态特征及其一阶差分各分量对识别率的影响.在不同信噪比情况下,分别对含白噪声、粉红噪声、车载噪声和工厂噪声这四种典型噪声的语音进行了实验研究,结果表明:在保证系统有较高识别率的情况下,在低信噪比时,含白噪声的语音信号缺失美尔频率倒谱系数...  相似文献   

19.
为解决语音识别过程中的抗噪声及抗干扰问题,提高系统的识别精度,利用隐马尔可夫模型HMM优异的时序建模能力及小波变换可以对信号进行多尺度分析并有效提取信号的局部信息的特点,建立了混合语音识别模型.考虑到在语音信号识别过程中信号的非平稳性,采用并行的识别方法分别获取分类信息,根据混合模型的识别算法做出识别决策,减小了系统对环境的依赖性,提高了其自适应能力.仿真实验结果表明,混合模型识别结果比单一HMM模型或小波模型识别结果更佳,提高了整体的识别速度和识别率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号