首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 265 毫秒
1.
传统的利用话者的一个时期的语音作为训练语音,进行语者码本训练的方法,识别系统往往不够稳定。为了适应话者自身语音的时变性,文中提出了利用话者不同时期的语音进行训练话者的模型,每个语者具有多个码本。这些码本是采用逐渐减小误识率的优化过程得到的。为了补偿不同信道对系统识别性能的影响,文中给出了一种信道补偿方法。  相似文献   

2.
针对信道失配和统计模型区分性不足而导致话者确认性能下降问题,文中提出一种将因子分析信道失配补偿与支持向量机模型相结合的文本无关话者确认方法。在SVM话者模型前端采用高斯混合模型-背景模型(GMM-UBM)方法对语音特征参数进行聚类和升维,并利用因子分析(FA)方法,对聚类获得的超矢量进行信道补偿后作为基于SVM话者确认的输入特征,从而有效解决SVM用于文本无关话者确认的大样本、升维问题,以及信道失配对性能影响问题。在NIST 06数据库上实验结果表明,文中方法比未做失配补偿的GMM-UBM系统、GMM-SVM系统在等误识率上有50%以上的改善,比做了FA失配补偿的GMM-UBM系统也有15。8%的改善。  相似文献   

3.
话音识别系统的时间鲁棒性是影响话者识别系统实用化的关键问题之一。为了提高系统的时间鲁棒性,文章提出了基于子带矢量量化(SBVQ)的话者模型。该话者模型由对应语音文本不同频段的各个子带上的矢量量化码本(SBVQ码本)构成。SBVQ话者模型反映了不同频段对话者识别系统性能的不同影响,并可将时间间隔等因素对系统性能的影响局限在某个子带内从而提高模型的时间鲁棒性。识别时,利用BP型人工神经网络(BPNN)对训练数据在各个子带上的量化误差进行拟合可进一步提升系统的性能。实验表明,文章提出的SBVQ话者模型具有较好的时间鲁棒性。  相似文献   

4.
一种具有强分类能力的离散HMM训练算法   总被引:6,自引:0,他引:6  
方绍武  戴蓓倩  李霄寒 《软件学报》2001,12(10):1540-1543
提出了一种具有强分类能力的离散HMM(hiddenMarkovmodels)训练算法.该算法利用矢量量化技术将来自不同话者的训练数据进行混合训练,以生成包含各个话者特征的话者特征图案.用该特征图案代替经典的离散HMM中的VQ码本,可以提高观察值符号序列的模式辨识能力,从而提高了离散HMM的分类能力.给出了该方法用于文本有关的话者识别的实验结果,表明该算法可提高系统的识别性能,并要降低HMM对训练集大小的依赖程度,且识别时计算量明显小于经典HMM训练算法,具有较大的实用价值.  相似文献   

5.
为了克服低速率声码器因清浊音硬判决、粗判决而导致解码语音有帧过渡等不自然感的缺陷,在分析比较目前主流声码器编码算法中激励参数提取和量化算法的基础上,将模糊数学中的隶属度概念引入语音子带清浊音描述中,提出了5维的浊音隶属度矢量概念,用于精细描述语音丰富的激励信息;介绍了浊音隶属度矢量的提取算法;提出了矢量量化码本的模糊聚类与LBG级联训练算法(F-LBG);用提取算法提取、建立了浊音隶属度码本的训练样本集,用F-LBG训练了浊音隶属度码本;将提取算法和F-LBG法训练得到的浊音隶属度码本分别应用于正弦激励声码器、混合激励声码器和同态声码器进行语音编、解码仿真;结果表明,用浊音隶属度矢量描述和合成语音激励信号的算法,具有较高的准确性和较强的噪声鲁棒性。  相似文献   

6.
基于话者特征图案的BPNN话者模型   总被引:1,自引:0,他引:1  
该文提出了一种用于说话人识别的基于话者特征图案的BPNN话者模型,该话者模型解决了语音信号的时长变化与神经网络输入层结点数固定不变之间的矛盾。利用VQ技术对所有话者的语音样本训练出话者特征图案,再将语音样本对该特征图案进行映射,在映射域解决了语音样本的时间规正问题。同时,该方法还提高了映射域参数的模式分类能力。  相似文献   

7.
基于方差归一化失真测度的改进的LBG算法   总被引:3,自引:1,他引:2  
矢量量化(VQ)技术在话者识别系统中得到了广泛的应用。 VQ码本的产生通常采用 LBG算法,失真测度则为对矢量的各分量等权重的欧氏距离。在话者识别系统中特征矢量的各个分量的分布是有差别的,且对于不同的话者,这种差别的程度又是不一样的。由于不同分布的各维参数对话者识别的有效性各不相同,因此,文章提出了一种能反映这种有效性差别的失真测度,即:方差归一化失真测度。以该失真测度为基础,并结合时序相关的初始码本设计方法及有效的零胞腔处理技术,文章提出了改进的LBG算法,同时利用该算法训练出改进的VQ话者模型,并进行了话者识别实验。  相似文献   

8.
针对蓝牙语音信号加密后失去语音特征而不能通过语音信道传输的问题,建立蓝牙语音加密数据传输模型,提出一种面向蓝牙语音加密传输的波形码本生成算法。该算法以子载波调制生成初始调制码本,训练数据得到解调码本,通过设计末位淘汰机制的粒子对算法寻找最优码本。仿真分析表明该码本生成算法具有收敛速度快的优势,能够生成不同比特传输速率和符号错误率低的波形码本。实验结果表明,在蓝牙中使用该波形码本传输数据具有较低的符号错误率。  相似文献   

9.
改进的LBG算法及浊音隶属度码本的训练   总被引:1,自引:0,他引:1  
为了改善MELP声码器解码端混合激励信号的性能,提出了五维浊音隶属度矢量的概念及其提取算法,用其提取并建立了浊音隶属度码本的训练样本集;用改进的LBG算法训练了浊音隶属度码本;将此码本运用到混合激励声码器中。仿真实验表明,解码语音的质量较之LPC声码器有显著的提高。  相似文献   

10.
语音识别中基于SFCM模糊聚类的矢量量化方法   总被引:4,自引:1,他引:3  
模糊聚类分析算法用隶属度确定样本所属类别,因其良好的效果而被广泛用于语音识别领域。文中提出了一种模糊聚类分析算法SFCM,并将其用于语音特征的矢量量化,最终形成码本尺寸为128的码本,用SFCM算法得到的码本分布合理,没有空类。采用此码本的误音识别实验表明了这种量化方法对语音识别的有效性。  相似文献   

11.
基于改进VQ算法的文本无关的说话人识别   总被引:5,自引:2,他引:3  
基于矢量量化的说话人识别,因其运算过程简单等特点,在文本无关的说话人识别领域有着广泛的应用。论文根据说话人识别中训练语音的特点并结合快速搜索算法,对矢量量化的码书形成算法进行了改进,提出了一种基于改进算法的与文本无关的说话人识别方法。经实验结果证明,论文的方法加快了码书的形成,减少了码书形成的计算量,改善了码本的性能,提高了说话人识别的识别率。  相似文献   

12.
屈微  刘贺平 《计算机应用》2005,25(10):2401-2403
使用独立分量分析(ICA)来提取说话人特征并与矢量量化(VQ)判决方法相结合,实现了一个高性能的基于ICA特征的VQ (ICA VQ)说话人识别系统。通过ICA变换得到说话人语音特征基函数系数用于生成VQ码书,并导出包含能量失真的ICA VQ码书失真测度和质心确定条件,生成最终的判决。仿真实验中ICA提取的特征分别用于不同系统实现说话人确认任务,各系统的DET曲线对比验证了VQ方法用于ICA特征分类判决的优势,同时不同码书尺寸下的等差率(EER)对比证明了VQ码书设计的有效性。  相似文献   

13.
针对实时性问题提出了一种以FPGA为硬件平台的说话人识别系统解决方案。该方案以MFCC为语音特征,采用了基于矢量量化的说话人识别算法。系统主要包括语音信号采集、端点检测、特征提取和识别判断4个部分。经测试证明,该系统完成了设计所需的基本功能。在实验室条件下,当系统时钟为50 MHz时,完成一次4码的识别耗时15.932 ms,对12码的识别率为93.3%。  相似文献   

14.
马继涌  高文 《计算机学报》1999,22(11):1127-1132
研究了随机提示文本的话者确认技术中的几个关键技术,包括确认算法的训练和识别速度、话者确认文本和说话方式的选择,测试文本长度的选择、阈值的设定及话者语音的中长期变异的自适应处 提高训练和识别速度,该文提出了快速动态高斯混合话者模型,讨论了音素对话者确认系统的影响及测试文本长度对话者确认系统性能的影响。提出话者语音假性的中长期变异性的自适应增量学习的方法,同时文中详细地分析了一次和多次测试时话者的弃真  相似文献   

15.
为解决采用矢量量化的方法进行说话人识别时出现的失真问题,根据汉语语音的发音特性,提出了将矢量量化与语音特征的聚类技术相结合的方法,在进行矢量量化码书训练之前,先对特征矢量进行聚类筛选。实验结果表明,当测试语音片段长度为4 s时,在保持95%左右识别率下,采用普通矢量量化方法需64码本数,而采用该文方法只需8码本数,降低了8倍。结果说明该方法不但在一定程度上解决了因训练样本不足而引起的失真问题,而且通过方法的改进,实现了采用较低码字数产生较好的识别结果,从而提高识别效率。  相似文献   

16.
说话人识别就是从说话人的一段语音中提取出说话人的个性特征,通过对这些个人特征的分析和识别,从而达到对说话人进行辨认或者确认的目的。神经网络是一种基于非线性理论的分布式并行处理网络模型,具有很强的模式分类能力及对不完全信息的鲁棒性,为说话人识别技术提供了一种独特的方法。BP(Back-propagation Neural Network)是一种非循环多级网络训练算法,有输入层,输出层和N个隐含层组成。首先概述了语音识别技术,介绍了BP神经网络训练过程的7个步骤及其模型,如何建立BP神经网络模型。同时介绍了与其相关的特征参数的提取,神经网络的训练和识别过程,最后,通过编程在Linux系统下实现说话人身份的识别。  相似文献   

17.
线性预测系数倒谱(LPCC)是说话人辨认系统中较为有效的特征参数之一,但是该参数的抗噪性能不好,当语音中含有噪声时,系统的识别率明显下降。基于MATLAB软件,建立了一高斯混合模型(GMM)的说话人辨认系统,提出了特征参数加权窗口的方法。通过对多种加权窗口的正确识别率比较,发现对LPCC低阶参数的加窗提升,可以改善系统的噪声鲁棒性。MATLAB仿真结果显示,采用加窗后的系统识别率得到了明显改善。  相似文献   

18.
Speaker variability is known to have an adverse impact on speech systems that process linguistic content, such as speech and language recognition. However, speech production changes in individuals due to stress and emotions have similarly detrimental effect also on the task of speaker recognition as they introduce mismatch with the speaker models typically trained on modal speech. The focus of this study is on the analysis of stress-induced variations in speech and design of an automatic stress level assessment scheme that could be used in directing stress-dependent acoustic models or normalization strategies. Current stress detection methods typically employ a binary decision based on whether the speaker is or not under stress. In reality, the amount of stress in individuals varies and can change gradually. Using speech and biometric data collected in a real-world, variable-stress level law enforcement training scenario, this study considers two methods for stress level assessment. The first approach uses a nearest neighbor clustering scheme at the vowel token and sentence levels to classify speech data into three levels of stress. The second approach employs Euclidean distance metrics within the multi-dimensional feature space to provide real-time stress level tracking capability. Evaluations on audio data confirmed by biometric readings show both methods to be effective in assessment of stress level within a speaker (average accuracy of 55.6?% in a 3-way classification task). In addition, an impact of high-level stress on in-set speaker recognition is evaluated and shown to reduce the accuracy from 91.7?% (low/mid stress) to 21.4?% (high level stress).  相似文献   

19.
Whispered speech speaker identification system is one of the most demanding efforts in automatic speaker recognition applications. Due to the profound variations between neutral and whispered speech in acoustic characteristics, the performance of conventional speaker identification systems applied on neutral speech degrades drastically when compared to whisper speech. This work presents a novel speaker identification system using whispered speech based on an innovative learning algorithm which is named as extreme learning machine (ELM). The features used in this proposed system are Instantaneous frequency with probability density models. Parametric and nonparametric probability density estimation with ELM was compared with the hybrid parametric and nonparametric probability density estimation with Extreme Learning Machine (HPNP-ELM) for instantaneous frequency modeling. The experimental result shows the significant performance improvement of the proposed whisper speech speaker identification system.  相似文献   

20.
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号