首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
研究一种适合医疗仪器的语音识别算法,采用带噪声端点检测算法、美尔频标倒谱系数(MFCC)特征参数提取算法和整体路径约束DTW算法即ADTW算法,能有效地提高识别率和稳健性。在此为噪声环境下的语音识别提供了理论分析与仿真实验数据。实验结果表明:这种语音识别算法不仅有很高的识别率,而且能减小或者消除噪声所带来的训练模型和测试语音之间的失配。它完全满足医疗仪器对语音识别率的要求。  相似文献   

2.
郭昕 《电子世界》2013,(19):92-93
本文提出了一种基于HMM和匹配追踪的多参数语音识别新算法。首先构建局部余弦基表示语音信号,对其进行匹配追踪(MP)分解。然后,应用改进后的算法对语音信号进行特征提取,得到余弦基原子参数和魏格纳-维利(WVD)分布,并结合语音信号的美尔频率倒谱系数(MFCC)一起作为该信号的特征向量,通过隐马尔科夫模型(HMM)进行识别。最后通过实验验证了方法的有效性,仿真实验表明,改进后的多参数语音识别算法比仅使用MFCC作为特征向量的HMM算法,提高了语音识别的速度和准确度。  相似文献   

3.
季伟  王力 《通信技术》2013,(12):15-18
语音识别系统中,语音的特征提取是语音识别的关键技术之一。通过对语音的系统研究,提出一种全新的基于流形学习的特征提取方法。流形算法是近些年才发展起来的非线性降维方法,在人脸识别领域已取得较好效果,但在语音识别领域一直处于空白。现提出的基于流形学习LPP算法的语音特征提取方案,是一次重大的尝试,可以为以后深入研究语音识别技术提供较好参考。仿真实验结果表明,该算法与传统特征提取LPCC、MFCC算法相比,可以取得较好的识别率。  相似文献   

4.
针对传统特定人语音识别过程中存在的算法复杂、所占存储空间大等问题,提出了一种改进的基于动态时间规整算法(DTW)的特定人语音识别系统.在对参数提取方法进行详细对比之后,提取美尔频率倒谱系数(MFCC)作为本系统的语音识别参数,有效的解决了人耳响应不同信号灵敏度不同的问题.利用MATLAB环境下语音工具箱Voice Box实现了对若干数字的孤立词识别,识别速度提高了约30%,识别成功率达到95%以上.仿真结果证明,该系统在算法简单,识别成功率高,是一种简单有效的语音识别方法.  相似文献   

5.
《现代电子技术》2017,(18):20-22
藏语语音参数提取是藏语语音识别的关键技术之一,参数提取的精确度直接影响语音识别的效果。线性预测系数(LPC)是语音信号的重要频域参数,是目前语音信号处理过程中比较重要的处理技术,广泛应用于语音压缩、语音声学建模、语音合成、语音识别等过程中。首先介绍了线性预测算法原理,然后提出了藏语语音LPC参数提取的方案,最后在Matlab平台上实现了藏语语音LPC参数的提取和仿真分析,研究结果对完善藏语语音合成技术和提高藏语语音识别效率有一定的研究参考价值。  相似文献   

6.
基于DTW改进算法的孤立词识别系统的仿真与分析   总被引:5,自引:0,他引:5  
林波  吕明 《信息技术》2006,30(4):56-59
传统的DTW算法在进行孤立词语音识别时着重于时间规整和语音测度的计算,而没有对数据的可靠性和有效性进行分析。本文提出了一种改进的端点检测算法,并采用一种改进的DTW算法,在计算机上进行了仿真。实验结果表明采用改进后的DTW算法有效的降低了识别时间和存储数据量,提高了系统性能。  相似文献   

7.
针对快速发展的语音情感识别技术,归纳总结了机器学习算法在语音情感识别领域的发展过程并预测语音情感识别技术的发展方向.首先针对语音情感的离散描述模型,总结语音情感识别模型训练和识别算法的一般过程;然后,根据机器学习算法的发展阶段,分别对比分析传统机器学习算法,深度神经网络、卷积神经网络、循环神经网络等深度学习算法与语音情...  相似文献   

8.
一种基音周期估计方法   总被引:4,自引:0,他引:4  
基音是语音信号中一个极为重要的参数。基音周期的估计在语音编码、语音合成和语音识别中有着广泛的应用,本文介绍了一种极为重要的SIFT(Simplified inverse filter tracking简化逆滤波跟踪)基音周期估计算法,并对该算法进行了仿真,仿真结果表明,SIFT基因周期估计算法具有较好的估计性能。  相似文献   

9.
针对在低信噪比环境下语音识别率较低的问题,提出了一种基于FastIca和MMSE-LSA相结合的算法。首先,用FastIca对低信噪比语音进行语音提取,再使用MMSE-LSA方法处理得到信噪比改善的语音信号。用0~9十个数字做孤立词语音识别。仿真实验证明,用本算法增强后的语音识别率达到80%以上,可以有效地提高低信噪比环境下语音识别率。  相似文献   

10.
基于EMD和改进双门限法的语音端点检测   总被引:3,自引:0,他引:3  
语音端点检测的准确与否直接影响到语音识别系统的计算复杂度和识别能力,在基于短时能量和过零率的端点检测算法中,能量计算方法不尽合理而且在低信噪比下检测效果大大降低。对此提出了一种基于经验模式分解和改进双门限法的语音端点检测算法,仿真结果表明在低信噪比情况下本文算法有更好的端点检测能力,显示了算法的优越性。  相似文献   

11.
基于电话用户交换机的语音识别系统研究   总被引:3,自引:0,他引:3  
本论文对电话用户交换机研制了一个声控语音命令交换系统,该系统能够实现与特定人无关中小词汇量连续命令语音自动识别,研究中统计了用和命令语句,生成相应识别文法网络,识别系统的训练采用由子词模型构成的复合模型进行强化训练,识别采用令牌传递式改进Viterbi算法,提高系统的识别性能,论文比较了不同语音特征参数以及隐含马尔可夫模型状态数对电话语音识别精度的影响,研究中还开发识别系统拒识系统,在无拒识情况下  相似文献   

12.
应用于语音识别片上系统的语音检测算法   总被引:2,自引:0,他引:2  
语音识别技术的研究已经进入实用化阶段,而实用化语音识别系统中的一个关键技术就是可靠的语音检测。本文提出了一种基于有限状态机模型的实时语音检测算法(FSM-SD)。采用对数最大似然判决帧能量检测器和过零率检测器控制各状态之间的跳转关系。针对语音识别中的MFCC(Mel频标倒谱系数)和LPCC(线性预测倒谱参数)特征提取过程,分别得到两种不同的帧能量计算方法。将FSM-SD应用到在OAK DSP上实现的小词表汉语语音识别系统,通过实验验证了其对系统识别性能和噪声稳健性的有效保证。  相似文献   

13.
由于受识别率较低和计算量大的限制,语音识别的应用一直难以推广。根据楼宇控制系统的特点,文中提出了一种用DSP实现的数字连接词的语音识别实时系统,并结合BACnet协议,把系统设计成BACnet设备的一个嵌入式系统,从而把语音识别应用到楼宇控制系统中。  相似文献   

14.
In this paper, a low-power, low-voltage speech processing system is presented. The system is intended to he used in remote speech recognition applications where feature extraction is performed on terminal and high-complexity recognition tasks and moved to a remote server accessed through a radio link. The proposed system is based on a CMOS feature extraction chip for speech recognition that computes 15 cepstrum parameters, each 8 ms, and dissipates 30 μW at 0.9-V supply. Single-cell battery operation is achieved. Processing relies on a novel feature extraction algorithm using 1-bit A/D conversion of the input speech signal. The chip has been implemented as a gate array in a standard 0.5-μm, three-metal CMOS technology. The average energy required to process a single word of the TI46 speech corpus is 10 μJ. It achieves recognition rates over 98% in isolated-word speech recognition tasks  相似文献   

15.
There has been progress in improving speech recognition using a tightly-coupled modality such as lip movement; and using additional input interfaces to improve recognition of commands in multimodal human? computer interfaces such as speech and pen-based systems. However, there has been little work that attempts to improve the recognition of spontaneous, conversational speech by adding information from a loosely?coupled modality. The study investigated this idea by integrating information from gaze into an automatic speech recognition (ASR) system. A probabilistic framework for multimodal recognition was formalised and applied to the specific case of integrating gaze and speech. Gaze-contingent ASR systems were developed from a baseline ASR system by redistributing language model probability mass according to the visual attention. These systems were tested on a corpus of matched eye movement and related spontaneous conversational British English speech segments (n = 1355) for a visual-based, goal-driven task. The best performing systems had similar word error rates to the baseline ASR system and showed an increase in keyword spotting accuracy. The core values of this work may be useful for developing robust speech-centric multimodal decoding system functions.  相似文献   

16.
黄文娜  彭亚雄 《电声技术》2016,40(11):44-47
为了改善发声力度变化对说话人识别系统性能的影响.针对不同发声力度下语音信号的分析,提出了使用发声力度最大后验概率(Vocal Effort Maximum A Posteriori,VEMAP)自适应方法更新基于高斯混合模型-通用背景模型(Gaussian Mixture Model-Universal Background Model,GMM-UBM)的说话人识别系统模型.实验表明,所提出的方法使不同发声力度下系统EER%降低了88.45%与85.16%,有效解决了因发声力度变化引起的训练语音与测试语音音量失配,从而导致说话人识别性能降低的问题,改善说话人识别系统性能效果显著.  相似文献   

17.
The authors describe an architecture and search organization for continuous speech recognition. The recognition module is part of the Siemens-Philips-Ipo project on continuous speech recognition and understanding (SPICOS) system for the understanding of database queries spoken in natural language. The goal of this project is a man-machine dialogue system that is able to understand fluently spoken German sentences and thus to provide voice access to a database. The recognition strategy is based on Bayes decision rule and attempts to find the best interpretation of the input speech data in terms of knowledge sources such as a language model, pronunciation lexicon, and inventory of subword units. The implementation of the search has been tested on a continuous speech database comprising up to 4000 words for each of several speakers. The efficiency and robustness of the search organization have been checked and evaluated along many dimensions, such as different speakers, phoneme models, and language models  相似文献   

18.
语音识别系统在语音识别中自我判定识别结果,并从错误中自动获取经验改正错误实现知识的自我完善具有重要意义。采用人工神经网络可以有效学习与更新知识,人工神经网络与语音识别结果自动检验方法结合实现一种新的有效学习与更新系统。在该系统中采用基于LEA判别法的梯度牛顿有效结合神经网络快速学习方法。该系统实现在语音识别实践中能够自学习并提高识别率,具有一定的智能。文中给出系统原理图和实验结果。  相似文献   

19.
本文从语音状态驻留长度分布出发,建立了一个非齐次隐含马尔可夫(Markov)语音识别模型。这个模型更接近语音信号物理实际,训练和识别的时间、空间复杂性比经典的HMM模型有很大的改进。文中描述了新模型的训练和识别算法,介绍了根据这一模型所设计的一个汉语孤立字全字表的实时识别和理解系统。  相似文献   

20.
详细介绍一种基于神经网络的自学习非特定人语音识别方法,首次介绍一种语音识别知识的自动检验方法——LVV法,给出系统原理图和知识库的自动完善原理;介绍一种LEA判别法,实现梯度牛顿有效结合神经网络快速学习方法,并给出了实验结果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号