首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 109 毫秒
1.
研究表明,增强后的语音与纯净语音相比,会存在两种不同类型的畸变:放大畸变和衰减畸变,而放大畸变对语音可懂度的影响较大。传统的语音增强算法大多不能有效提高语音增强后的可懂度,因为这些算法仅使用最小均方误差的方法来限制这两种畸变,从而抑制噪声,提高语音的质量,但忽略了不同的畸变类型对可懂度的影响不同。提出一种基于子空间的提高可懂度的语音增强算法,使用先验信噪比及增益矩阵来判断语音畸变的类型。同时注意到,在估计先验信噪比时会存在估计误差:高估和低估,而高估会产生放大畸变,对可懂度造成较大的影响。先对高估先验信噪比(小于-10 dB)的增益矩阵进行修正,然后再对幅度谱畸变大于0 dB及6.02 dB的语音进行不同的限制。实验表明,所提出的算法能够有效增强语音的可懂度。  相似文献   

2.
具有高可懂度的改进的维纳滤波的语音增强算法   总被引:1,自引:0,他引:1  
提出一种具有较高可懂度的基于维纳滤波的语音增强算法。相比于其他语音增强算法,维纳滤波法可以明显提高语音质量且含有较少的音乐噪声,但是它和其他现有语音增强算法一样,都无法有效提高语音可懂度。因为维纳滤波法和其他现有算法都过多注重噪声减少,却忽略了SNR(信噪比)的估计误差和不同的语音幅度谱畸变对可懂度有更重要的影响。为改进这些缺点,此研究依据于先验SNR和增益函数来判定SNR估计误差和语音畸变区域,然后对先验SNR小于-10 d B区域的增益函数进行修正,以及幅度谱畸变大于6.02 d B区域语音进行限制。实验证明,该算法能有效提升增强后语音可懂度NCM(归一化协方差方法)的评测值。  相似文献   

3.
刘鹏 《计算机系统应用》2018,27(12):187-191
提出了低信噪比下高可懂度的基于分段信噪比相对均方根(RMS)的语音增强子空间算法.现有的多数语音增强算法在低信噪比的恶劣条件下,改善带噪语音质量的同时通常会伴有语音可懂度的降低.一个重要原因是这些算法大都仅基于最小均方误差(MMSE)来抑制语音失真,却忽略了语音增强算法所导致的语音失真对差异类型语音分段的可懂度影响程度不同.为了改进这一缺点,提出了基于短时信噪比RMS对语音分段进行分类,然后调整处于信噪比中均方根语音分段的增益矩阵分量,来减小语音失真对增强语音可懂度的影响.客观评价实验说明,改进算法可以改善增强语音可懂度归一化协方差评价法(NCM)的评测值.主观试听实验说明,改进算法的确提升了增强后语音的可懂度.  相似文献   

4.
基于听觉掩蔽效应的MMSE语音增强算法   总被引:2,自引:2,他引:0       下载免费PDF全文
针对MMSE语音增强算法低信噪比时产生较大的语音畸变的缺点,提出了一种结合人耳听觉掩蔽效应的MMSE语音增强算法。该算法利用掩蔽阈值来调整MMSE算法中的增益值,使得增强后的语音信号残留噪声和语音畸变较小。通过计算机仿真对增强前后语音信号的信噪比分析以及主观试听表明:改进的MMSE语音增强算法不仅提高了语音信号的信噪比,而且减少了语音畸变,提高了语音的可懂度。  相似文献   

5.
依据带噪语音中不同类型语音分段(segment)对语音整体的可懂度影响不同,提出了一种基于语音分段来分类训练深度降噪自编码器(DDAE)的语音增强算法.该算法使得DDAE模型在尽可能减小Dropout所引入的扰动对带噪语音噪声特性破坏的同时,提高了对带噪语音可懂度关键分段(中均方根分段)语音特性学习的鲁棒性,提高了增强语音的可懂度.实验结果表明,该算法较现有方法提高了增强语音可懂度的NCM值.  相似文献   

6.
针对频域受限子空间语音增强在构造增强矩阵时,采用固定拉格朗日乘子,使得减小语音畸变和提高语音可懂度的过程中,有音乐噪声残留,提出一种变拉格朗日乘子的算法。利用听觉特性中较强的频率成分对噪声进行掩蔽,通过掩蔽阈值的频率域与子空间特征值之间的变换算法,用变量控制子空间拉格朗日乘子计算增益函数的对角矩阵。对比实验和试听结果表明,提出算法增强的语音信号不仅信噪比有较大提高,语音质量主观感知度也有明显改善。  相似文献   

7.
传统的语音评价算法,如SNR,存在语音的可懂度相关性不高的问题.有研究表明,语音的不同部分对可懂度的贡献不同,语音的浊音起始段对可懂度的影响较大.提出一种可懂度相关性相对较高的语音评价算法.在计算分段SNR之前,对语音段进行选择,选出起始段.所提出方法的可懂度计算结果与主观得分进行比较,实验结果表明,结合语音起始段(speech onset)检测算法,能够将可懂度与主观评价的相关值分别提高0.11(辅音)和0.06(句子),这也从一个侧面验证了语音的起始段对可懂度有较大影响这一研究结论.  相似文献   

8.
提出一种与主观评价相关性较高的可懂度客观评价算法。传统的基于频域分段信噪比的可懂度评价算法与主观评价的相关性不高,原因在于没有分别计算谱衰减畸变和谱放大畸变这两种畸变。为了克服这一缺点,提出将增强语音分解为衰减畸变、放大倍数小于6.02 dB的放大畸变、放大倍数大于6.02 dB的放大畸变三部分,分别计算其频域信噪比,用多线性回归方法综合这三种畸变值,使其与主观可懂值的相关值达到最高。实验结果表明,用这种方法对句子的可懂度评价结果与主观评价的相关值达到0.91。  相似文献   

9.
为了有效克服传统谱减法引起语音畸变的问题,提出了相邻帧修正和增益平滑的改进谱减法.针对残余音乐噪声的产生,分析了传统谱减法的缺点以及音乐噪声形成的原因,利用对语音帧分解子帧和对增益函数递归平滑处理的方法,对传统谱减法进行了改进.最后对采集的带噪语音数据进行实验,将传统谱减法与改进后的谱减法做了对比和分析.实验结果表明,改进后的谱减法有效地降低了音乐噪声,提高了增强后语音的可懂度.  相似文献   

10.
为了减小传统谱减法引入的音乐噪声,提出了一种将多频带谱减和听觉掩蔽效应相结合的语音增强算法.用加权递归平滑的方法估计噪声的功率谱,对带噪的语音信号进行多频带谱减,计算听觉掩蔽阈值,再根据掩蔽阈值动态地调节谱减因子,通过增益函数得到增强后语音信号的频谱.仿真实验结果表明,与传统的谱减法相比,该算法在信噪比较低情况下,背景噪声和残余噪声得到了有效的抑制,语音信号的清晰度和可懂度也有了明显提升.  相似文献   

11.
The Diplomat rapid-deployment speech-translation systemis intended to allow naï ve users to communicate across a languagebarrier, without strong domain restrictions, despite the error-pronenature of current speech and translation technologies. In addition,it should be deployable for new languages an order of magnitude morequickly than traditional technologies. Achieving this ambitious setof goals depends in large part on allowing the users to correct recognition and translation errors interactively. We present the Multi-Engine Machine Translation (MEMT) architecture, describing how it is well suited for such an application. We then discuss ourapproaches to rapid-deployment speech recognition and synthesis.Finally we describe our incorporation of interactive error correctionthroughout the system design. We have already developed workingbidirectional Croatian English and Spanish English systems, and have Haitian Creole English and Korean English versions under development.  相似文献   

12.
为了促进语音识别技术在实际中的应用,利用文音相似度的概念,提出了基于文音相似度的语音查号系统的设计开发方法。实验表明,这种方法可以大幅提高语音查号系统的查询成功率。  相似文献   

13.
随着语音识别研究的深入,提高通用识别引擎的精度变得越来越困难。但对具体的语音识别任务,结合相应的背景,采取相应的措施,有可能达到很理想的识别精度。在已知语音输入为某有限集元素之一的情形,利用文本在发音上的相似度可以大大提高识别的精度。本文首先介绍了文音相似度的概念,然后给出了利用文音相似度设计开发语音查询系统的过程和例子。  相似文献   

14.
在分析回顾现有话音编码方案基础上提出话音编码系统的五层结构模型以及“在收端利用边信息获取激励码”的概念。  相似文献   

15.
Realization of an intelligent human-machine interface requires us to investigate human mechanisms and learn from them. This study focuses on communication between speech production and perception within human brain and realizing it in an artificial system. A physiological research study based on electromyographic signals (Honda, 1996) suggested that speech communication in human brain might be based on a topological mapping between speech production and perception, according to an analogous topology between motor and sensory representations. Following this hypothesis, this study first investigated the topologies of the vowel system across the motor, kinematic, and acoustic spaces by means of a model simulation, and then examined the linkage between vowel production and perception in terms of a transformed auditory feedback (TAF) experiment. The model simulation indicated that there exists an invariant mapping from muscle activations (motor space) to articulations (kinematic space) via a coordinate consisting of force-dependent equilibrium positions, and the mapping from the motor space to kinematic space is unique. The motor-kinematic-acoustic deduction in the model simulation showed that the topologies were compatible from one space to another. In the TAF experiment, vowel production exhibited a compensatory response for a perturbation in the feedback sound. This implied that vowel production is controlled in reference to perception monitoring.  相似文献   

16.
17.
精准的语音识别系统通常使用大量的有标注语音数据训练得到,但现有的开源大规模数据集只包含一些广泛使用的语言,诸多小语种则面临着训练数据不足的问题。声学模型共享方法给出了这个问题的一种解决方法,它利用不同语种间的相似性,可以实现不需要小语种语音数据的语音识别。本文将声学模型共享方法扩展到韩语语音识别上,利用汉语声学模型构建韩语和汉语之间的音素映射关系。在不使用任何韩语语音数据的情况下构建的语音识别系统在Zeroth测试集上的字错误率达到了27.33%。同时本文还测试了不同映射方式之间的差异,结果表明这种共享模型的音素映射应当采用将目标语言词汇映射为源语言音素的方式。  相似文献   

18.
深度语音信号与信息处理:研究进展与展望   总被引:1,自引:0,他引:1  
论文首先对深度学习进行简要的介绍,然后就其在语音信号与信息处理研究领域的主要研究方向,包括语音识别、语音合成、语音增强的研究进展进行了详细的介绍。语音识别方向主要介绍了基于深度神经网络的语音声学建模、大数据下的模型训练和说话人自适应技术;语音合成方向主要介绍了基于深度学习模型的若干语音合成方法;语音增强方向主要介绍了基于深度神经网络的若干典型语音增强方案。论文的最后我们对深度学习在语音信与信息处理领域的未来可能的研究热点进行展望。  相似文献   

19.
本文介绍了智能工具机(YH-ITM)的语音子系统的结构及实现技术。该子系统是在IBM-PC机的TI语音卡的基础上开发而成的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号