首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
为了在语音识别中增强对不同语音单元之间的相关性的利用,该文基于空间相关性变换(Spatial Correlation Transformation,SCT)框架,提出一种新的模型训练算法,在说话人无关模型的训练中利用训练数据中的空间相关性进行模型参数重估。该算法对所有训练数据进行空间相关性变换,削弱数据间的空间相关性,使重估的模型更不依赖训练数据,以改善模型的性能。实验表明,基于空间相关性变换框架的模型训练方法与基于该框架的特征变换方法相结合,使系统的平均错误率相对基线系统下降了18%。  相似文献   

2.
3.
吕乾坤  高勇 《电声技术》2014,38(12):50-54
针对传统语音增强方法在非平稳噪声环境下增强效果不理想的问题,提出了一种基于稀疏约束的概率潜分量分析(PLCA)和谱掩蔽的语音增强算法。该算法分为训练和增强两个阶段。训练阶段用稀疏约束的PLCA(SPLCA)和无约束的PLCA分别对语音谱和噪声谱建模成意义清晰的边缘分布,并用期望最大(EM)算法求其最优边缘分布,得到语音字典和噪声字典。增强阶段固定训练的字典,利用SPLCA推导出对应的语音编码矩阵和噪声编码矩阵,初步重构出语音和噪声,最后利用谱掩蔽得到增强语音。实验结果表明,该算法在抑制噪声、提高信噪比和减少语音失真方面要优于传统方法。  相似文献   

4.
目前的语音重放攻击检测系统中,绝大部分性能良好的系统采用的特征和网络模型的数据量都很大,训练速度慢、对设备要求高.因此本文提出了一种基于CQT(Constant Q Transform)变换的时间帧压缩方法,以减小特征尺寸和网络模型参数量,从而加快训练速度、降低设备要求.首先,将语音信号的CQT谱在时间帧维度上压缩,得到一维特征,成百倍地减少特征数据量;其次,对应设计一维小型残差网络模型,以辅助进一步减少数据量;最后,在ASVspoof2019挑战赛的PA数据集上训练并测试网络模型性能.实验结果表明,本文的特征提取算法和网络模型,相比挑战赛的基线系统以及其他特征-模型的性能有明显提升,t-DCF为0.1051,EER为3.74%,并且训练速度快、设备要求低.  相似文献   

5.
语音增强是消除噪声干扰的主要手段,在语音处理系统中得到广泛应用。传统语音增强算法认为相邻帧语音幅度谱之间是相互独立的,而研究表明语音幅度谱时频点之间存在相互依赖关系。缺乏对邻域时频结构信息的利用使得传统增强算法的性能难以进一步提高。本文首次将数据场引入到对语音的听觉感知领域,用数据场对语音的时频依赖性进行建模,提出一种新的基于数据场的语音增强算法。该算法通过最小化势场分布的熵确定了时频点之间的相互作用力程,在带噪语音数据场中估计噪声的最小统计量得到二值时频掩蔽值,最后利用二值时频掩蔽消除噪声干扰。实验测试表明,与Martin算法相比,基于数据场的语音增强算法在提高去噪效果的同时能有效减少语音的失真。   相似文献   

6.
基于多元Laplace语音模型的语音增强算法   总被引:1,自引:0,他引:1  
传统的短时谱估计语音增强算法通常假设语音谱分量相互独立,没有考虑语音谱分量间的相关性。针对这一问题,该文提出一种新的基于多元Laplace分布模型的短时谱估计算法。首先,假设语音的离散余弦变换(DCT)系数服从多元Laplace分布,以此利用谱分量间的相关性;在此基础上,利用多元随机矢量的高斯尺度混合模型表示,推导得到语音DCT系数矢量的最小均方误差(MMSE)估计的解析表达式;并进一步推导了基于该分布模型的语音存在概率,对最小均方误差估计子进行修正。实验结果表明,该算法在抑制背景噪声和减少语音失真等方面优于传统的语音增强方法。  相似文献   

7.
徐向华  朱杰  郭强 《信号处理》2004,20(5):497-500
针对汉语语音单音节结构的特点,考虑音节间协同发音的现象,本文提出了一种对三音子模型进行分级聚类的方法。与传统的基于决策树的状态聚类算法相比,该方法通过对稀少三音子模型聚类,更充分地利用训练数据,减少稀少三音子对状态聚类的影响,从而提高声学模型的鲁棒性。实验结果表明:大词汇量连续语音识别器采用这种分级聚类方法,不仅可以大大减少模型及其参数的数量,还可使系统识别率有所提高,其中误识率相对于传统的决策树状态聚类系统降低了4.93%。  相似文献   

8.
为了解决在受阻塞干扰的跳频信道上语音质量受影响严重的问题,对以传输语音为主的数字跳频系统采用CVSD(连续可变斜率增量调制)编码时的编码算法进行了优化研究。在传统CVSD编码基本原理的基础上,提出了一种新的CVSD编码优化算法,并给出了数字跳频系统中语音质量衡量准则和基于优化算法的数字跳频系统CVSD基带仿真模型,具体分析了在部分频带噪声干扰下优化算法对系统接收语音信号恶化量的影响。仿真结果表明,优化算法较之传统CVSD编码算法能有效地控制接收语音信号恶化量,即使在受阻塞干扰十分严重的情况下也能获得较好的语音质量。  相似文献   

9.
针对非对称语音库情况下的语音转换,该文提出一种新的改进的语音转换训练算法ILNCA。与原有的训练算法INCA不一样的是,ILNCA首先利用高斯混合模型(GMM)分别对源、目标语音特征参数空间进行分类。然后根据KullbackLeibler(KL)距离最小原则对源、目标GMM模型的子空间进行匹配,最后利用最近邻准则在相对应的子空间中进行源、目标语音特征参数矢量的对齐。客观测试和主观听觉实验都表明由于该文算法采用了更加精确的矢量对齐方法,能取得比INCA算法更优异的转换性能。  相似文献   

10.
文章主要介绍了语音干扰评估系统,重点研究了干扰评估系统中数据拟合部分算法的性能,引入了BP神经网络作为新的数据拟合算法,使用多组语音文件,进行干扰系统评估,并对BP神经网络与最小二乘算法的拟合结果进行比较。证明BP神经网络在语音干扰评估系统中的实用性以及性能提升,该模型可以在语音干扰系统中实际应用。  相似文献   

11.
For the acoustic models of embedded speech recognition systems, hidden Markov models (HMMs) are usually quantized and the original full space distributions are represented by combinations of a few quantized distribution prototypes. We propose a maximum likelihood objective function to train the quantized distribution prototypes. The experimental results show that the new training algorithm and the link structure adaptation scheme for the quantized HMMs reduce the word recognition error rate by 20.0%.  相似文献   

12.

The paper presents a system for monitoring and assessment the speech quality in the IP telephony infrastructures using modular probes. The probes are placed at key nodes in the network where aggregating packet loss data. The system dynamically measures speech quality and results are collected on a central server. For data analysis we applied four-state Markov model for modeling the impact of network impairments on speech quality, afterwards, the resilient back propagation (Rprop) algorithm was used to train a neural network. Information about the speech quality are displayed in the form of automatically generated graphs and tables. The proposed solution has been tested with selected codecs and further generalizes the already presented concepts of the speech quality estimation in the IP environment.

  相似文献   

13.
基于长时信息的自适应话音激活检测   总被引:1,自引:0,他引:1       下载免费PDF全文
语音信号的长时信息应用于话音激活检测中表现优越.利用三种听觉滤波器组,对语音信号进行非线性的谱分解,本文提出了六种基于听觉滤波器组的长时信息,并提出了基于长时信息的自适应话音激活检测算法.该算法无需训练数据,根据多种长时信息,直接在待测信号中挑选出类别明确的信号,然后利用这些信号训练分类模型,对待测信号按帧进行语音-非语音分类.在TIMIT语音库和NOISEX-92噪声库上的实验表明,该算法在极低信噪比环境下,仍表现出更高的准确性和更强的稳健性.同时,在线实验表明,算法在实时处理中仍能取得优异的性能.  相似文献   

14.
传统BP网络在语音识别应用中存在训练时间长,容易陷入局部极小值等问题,针对上述问题,本文建立一种基于ELM的语音识别系统。ELM是一种快速的单隐层前馈神经网络(SLFN)训练算法,将该算法与单隐层BP网络进行实验比较。实验中对提取的特征矩阵采用主成分分析(PCA)算法进行降维,该算法有效地提取了语音信号的主要成分。实验结果表明在训练时间上,ELM明显优于BP算法,在识别率上,ELM优于BP算法。  相似文献   

15.
马振  张雄伟  杨吉斌 《信号处理》2013,29(4):513-519
本文在深入研究语音个人特征信息有效表示的基础上,从信息分离角度,提出一种新的利用个人特征信息分离和替换实现语音转换的方法。该方法主要利用语音的稀疏性和K -均值奇异值分解(K-SVD)来实现。由于这种基于K-SVD的字典训练方法可以较好地保存语音信号中的个人特征信息,因此可以利用K-SVD的字典训练方法把语音个人特征信息进行分离并替换,再和语言内容等信息重构出目标语音。相对于传统方法,本方法能够更好地利用语音的稀疏性保存语音个人特征信息,从而可以克服参数映射带来的转换后语音个人特征相似度不高和语音质量下降的问题。实验仿真及主观评价结果表明,与基于高斯混合模型、人工神经网络的语音转换方法相比,该方法具有更好的转换语音质量和转换相似度以及抗噪性。   相似文献   

16.
采用特征分类直方图均衡化的鲁棒性语音识别   总被引:1,自引:0,他引:1  
姜莹  俞一彪 《信号处理》2011,27(6):896-900
大部分噪声会引起语音倒谱域特征参数的非线性失真,导致识别系统性能下降。直方图均衡化方法是一种非线性补偿变换技术,较传统的基于线性变换技术的抗噪声方法进一步提高了系统的鲁棒性。但实际识别系统中,除了噪声引起语音特征的非线性失真外,还存在训练和测试数据的语音特征类分布不一致问题,从而难以保证传统的直方图均衡化方法发挥其优势。本文提出一种基于特征分类的直方图均衡化方法,首先对初步均衡化后的含噪语音特征矢量进行K均值分类,然后对各类别下的特征矢量再进行直方图均衡变换。实验结果表明,低信噪比时无论在平稳噪声还是非平稳噪声环境下,与传统的直方图均衡化方法相比都进一步增强了识别系统的鲁棒性。   相似文献   

17.
为提高自动发音错误检测性能,提出一种区分性特征补偿训练算法.该方法将高斯后验概率矢量经过线性变换后作为偏移量补偿至传统的谱特征.将经过正确度标注的语音数据库上的发音错误检测F1值的最大化作为变换参数的训练准则.推导了目标函数对变换参数的偏导数公式,并利用无约束参数优化例程L-BFGS更新变换参数.发音错误检测实验表明该方法能够有效增大训练和测试集的F1值.并且训练和测试集的精确度、召回率也都有明显提高.在特征优化的基础上进行模型参数训练,检错性能较单独的区分性特征训练、单独的区分性模型训练都有进一步改进.  相似文献   

18.
噪声环境下语音分形特征的提取和分析   总被引:1,自引:0,他引:1  
该文针对目前的分维计算方法盒维、关联维等精度虽高,但计算复杂,Katz维计算简单、抗噪性能好、但精度不高的现状,提出了一种改进的基于波形的算法IBW-FD,分析了对分形布朗曲线、含噪语音(高斯白噪声,三种非平稳噪声)的性能。理论分析和实验结果表明: IBW-FD算法具有更强区分高斯白噪声和语音信号的能力;IBW-FD算法抗平稳和非平稳噪声能力要普遍好于盒维和Katz维。结果表明IBW-FD算法在复杂度、精确度和抗噪性能方面均优于现有的分维算法,是一种比较好的分维计算方法,不仅可以应用在语音处理中,而且也可应用于其它信号处理中。  相似文献   

19.
应力影响下的变异语音(由于说话人受到重力加速度变化而产生)可以用动态时间规正与差别子空间相结合的方法进行识别,但是该方法空间开销很大,而且训练算法极为复杂。针对该方法提出特征矢量替换法和特征矢量求平均法两种基于聚类思想的简单在线训练方法,取一个较小的初始训练集,然后用在线训练的方法使系统识别率达到最大。实验结果表明,其中特征矢量求平均的在线训练方法非常有效,保证系统整体识别率的同时,大大减小了系统的空间开销,适合于训练数据有限的变异语音识别。  相似文献   

20.
As a kind of statistical method, the technique of Hidden Markov Model (HMM) is widely used for speech recognition. In order to train the HMM to be more effective with much less amount of data, the Subspace Distribution Clustering Hidden Markov Model (SDCHMM), derived from the Continuous Density Hidden Markov Model (CDHMM), is introduced. With parameter tying, a new method to train SDCHMMs is described. Compared with the conventional training method, an SDCHMM recognizer trained by means of the new method achieves higher accuracy and speed. Experiment results show that the SDCHMM recognizer outperforms the CDHMM recognizer on speech recognition of Chinese digits.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号