首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 328 毫秒
1.
基于高斯混合模型(GMM)的语音帧谱包络转换算法容易导致转换后的语音谱包络过平滑、语音细节特征受损。通过对GMM中协方差的准确性与谱包络过平滑现象的研究,提出了一种基于预测谱偏移的自适应GMM建模方法。该方法采用平滑加权算法对目标谱的偏移进行建模,并根据语音帧信息自适应调节预测谱偏移项的比例系数,结合高斯混合模型共同实现对谱包络的转换。实验结果表明,该建模方法能够有效抑制转换后语音谱包络的失真现象,提高转换后语音的清晰度、自然度和可懂度。  相似文献   

2.
高斯混合模型(GMM)在语音转换中得到了广泛应用,但其最大缺点在于进行谱包络转换时存在过平滑问题.研究了过平滑现象主要由转换函数中的均值项造成.因此提出一种替换均值法,在各均值项所对应的高斯混合模型类内,使用后验概率与均值项的后验概率最接近的特征来代替转换函数中的均值项.实验表明,采用该方法的语音转换算法能有效缓解过平滑现象,改善转换语音的听觉感知特性.  相似文献   

3.
说话人辨认是语音信号研究中的一个重要组成部分。本文根据掌上电脑录音的语音数据库进行说话人辨认的实验。当高斯混合模型(GMM)用于说话人辨认,而特征矢量的协方差矩阵取不同形式时,比较用EM算法对模型参数进行估计的收敛性以及对说话人辨认的影响。实验表明,当特征矢量参数协方差矩阵为满矩阵时,EM算法能更有效估计GMM参数,有效提高识别率。  相似文献   

4.
抽取短时声学特征参数如MFCC、PLP,使用高斯混合模型(GMM)估计特征参数对应音素的概率分布的隐马尔可夫模型(HMM)在大词汇连续语音识别系统(LVCSR)已取得了良好识别效果.但短时特征却不能有效反应连续帧之间的相关特性,因此运用神经网络多层感知器(MLP)产生两类差异特征用于描述该帧的音素后验概率,并将其与传统特征复合为新的特征参数流,利用新特征流对GMHMM模型进行重构.对比实验结果表明,采用该混合声学特征的LVCSR系统其错字率(CER)有了3%~7%的改善.  相似文献   

5.
作者讨论了人工神经网络矢量量化在多带激励语音压缩编码算法中的实际应用。采用Kohonen自组织特征映射神经网络技术对语音参数中的谱包络参数进行量化,利用Kohonen自组织特征映射神经网络具有的聚类特性,提出一种初始码本抽取和码本训练的实际算法,训练出具有明显拓扑结构和码本。利用语音的帧间相关性和训练网络的结构特性,提出一种称为“邻域搜索法”的快速码字搜索算法。实验表明,这种矢量量化算法使码卡搜索  相似文献   

6.
为了研究模糊聚类算法在高斯混合模型(GMM)参数获取方面的应用,采用模糊C均值算法(FCM)进行语音特征矢量的聚类,并结合Tabu搜索算法得到全局最优的聚类结果,进一步用EM算法得到GMM模型参数.使用TIMIT数据库中的语音进行测试,开集和闭集说话人辨认实验都表明,该方法获取的GMM参数比普通EM算法获得的GMM模型参数性能更优,能有效降低说话人辨认系统的误识率.  相似文献   

7.
针对传统的特征参数Mel频域倒谱系数MFCC难以满足语音信号的非平稳性问题,提出一种基于小波分析的新特征参数FPBW的提取方法.为了提高训练速度,采用正交高斯混和模型,将正交变换改到最大期望EM算法之前进行,从而减少训练时间.实验结果表明,新的特征参数FPBW优于特征参数MFCC,并且采用正交高斯混合模型进一步提高了识别性能和训练速度.  相似文献   

8.
为了有效地减少语音编码的比特数、降低量化误差以及提高解码语音质量,提出了一种二级矢量量化的LPC声码器算法.该算法在模糊聚类与LBG级联的VQ算法的基础上,进一步采用二级矢量量化算法对特征参数矢量进行量化.特征参数为语音的两个特征值:基音周期与增益.第一级码本为矢量码本;第二级码本为误差码本.将该算法应用于LPC声码器中进行仿真实验,结果表明:该算法能有效地降低量化比特数并且减少了量化误差,从而使解码语音质量得到改善.  相似文献   

9.
一种新的高斯混合模型参数估计算法   总被引:3,自引:0,他引:3  
该文提出了一种高斯混合模型(GMM)参数估计的改进算法.原始的特征向量先经Schmidt正交化消除各维间的相关性,再用数学形态学方法估计出各维概率分布中混合分量的真实个数,最后按真实的混合分量个数用EM算法对各维分别作标量GMM参数估计.该方法能缓解GMM传统参数估计算法引起的“不易扩展”的不便.实验结果表明,将其应用于说话人辨认,能在较大幅度提高训练速度的基础上相对传统GMM参数估计方法获得更高的识别率.  相似文献   

10.
研究了与文本无关的说话人辨认系统中一种新的使用基音周期方法。在说话人辨认系统中将矢量量化(VQ)、高斯混合模型(GMM)分类器结合,使用升正弦窗函数加权的线性预测倒谱系数(LPCC)。在训练时为训练集中的每个说话人估计一个一维高斯形式的基音周期概率密度函数;在识别时,将测试语音中提取的基音周期在训练集说话人基音周期概率模型中得到的基音周期概率密度对VQ、GMM分类器的似然测度加权,形成新的似然测度。实验结果表明,使用新的似然测度进行与文本无关的说话人辨认比VQ、GMM分类器的辨认率有较大的提高,码字个数为8,测试时间为8s时,辨认率相对VQ提高约13%。  相似文献   

11.
考察了特征波形内插(CWI)算法对于宽带语音编码的扩展能力.分析宽带特征波序列的性质表明,直接使用传统的特征波形内插算法并不适于增强宽带语音的编码效率及对计算复杂度的兼顾,可引入频带扩展(BWE)技术单独处理高频段.宽带语音的高、低频分别由特征波形内插编码和频带扩展算法恢复,由此形成了5.15 kbit/s的低速率宽带语音编码器,增强了语音真实感、辅音的辨析度及对话者的识别度,宽带语音编码质量接近AMR-WB的6.6 kbit/s结果.  相似文献   

12.
为了实现高质量低速率语音编码,提出了高效线性预测Gauss混合模型(Gaussianmixturemodel,GMM)线谱频率参数量化算法(LP-GMM-LSFQA)。线谱频率(linearspectralfrequency,LSF)参数先去均值,经过一阶线性预测,得到残差信号,将残差用协方差矩阵为对角阵GMM量化算法进行量化。在此基础上,利用反量化后参数自适应更新GMM的加权系数和均值,进一步提出了预测自适应GMM-LSF量化算法(LP-AGMM-LSFQA)。实验表明LP-GMM-LSFQA在20b/帧时量化性能超过预测分裂矢量量化22b/帧时的量化性能,节约2b/帧;LP-AGMM-LSFQA量化性能优于LP-GMM-LSFQA。  相似文献   

13.
为了实现高质量低速率的语音编码,提出了高效线性预测Gauss混合模型(Gaussian mixture model,GMM)线谱频率参数量化算法(LP-GMM-LSFQA)。线谱频率(linear spectral frequency,LSF)参数先去均值,经过一阶线性预测,得到残差信号,将残差用协方差矩阵为对角阵GMM量化算法进行量化。在此基础上,利用反量化后参数自适应更新GMM的加权系数和均值,进一步提出了预测自适应GMM-LSF量化算法(LP-AGMM-LSFQA)。实验表明:LP-GMM-LSFQA在20 b/帧时量化性能超过预测分裂矢量量化22 b/帧时的量化性能,节约2b/帧;LP-AGMM-LSFQA量化性能优于LP-GMM-LSFQA。  相似文献   

14.
应用模糊数学理论,在限定条件下,从训练矢量的空间分布出发,对训练矢量空间进行胞腔划分,通过动态控制λ截集水平,调整截集数量和相应胞腔大小,然后求出相应的形心作为代表矢量构成一个优良的初始码书。采用该初始码书作为LBG矢量量化算法的叠代初值比分裂法、随机法更优。  相似文献   

15.
基于码字特征的多模式多级矢量量化算法   总被引:1,自引:0,他引:1  
为提高声码器中线谱频率参数多级矢量量化的性能,提出了一种根据码字特征进行分模式量化的算法。该算法首先根据下一级量化误差最小化的准则,通过训练得到本级代表模式信息的码字(码字数目为模式数目);然后统计与各个码字相对应的输入矢量占总矢量的比重,继而得到各模式码字所分化的码字个数;最后根据该分化方案训练得到本级所有码字并确定码字与模式的对应关系,从而进行分模式量化。测试结果表明:相比于根据本级码字索引平均进行模式分配的简单方案,该算法可以使平均谱失真(ASD)降低0.05 dB,而平均意见得分(MOS)提高0.02左右。  相似文献   

16.
为克服低速率声码器因清浊音硬判决、粗判决而导致解码语音有帧过渡等不自然感的缺陷,在分析比较目前主流声码器编码算法中激励参数提取和量化算法的基础上,将模
糊数学中的隶属度概念引入语音子带清浊音描述。提出了五维的浊音隶属度矢量概念,用于精细描述语音丰富的激励信息;阐述了浊音隶属度矢量的提取算法;提出了矢量量化码本的模糊聚类与LBG级联训练算法(F-LBG:Fuzzy-LBG);采用提取算法提取、建立了浊音隶属度码本的训练样本集,采用F-LBG训练了浊音隶属度码本;将提取算法和F-LBG法训练得到的浊音隶属度码本分别应用于正弦激励声码器、混合激励声码器和同态声码器的语音编、解码仿真。结果表明,用浊音隶属度矢量描述合成语音激励信号的算法,具有较高的准确性和较强的噪声鲁棒性。  相似文献   

17.
统计语音合成使用隐Markov模型(HMM)作为声学特征的统计模型。提出了一种利用声学模型空间距离进行HMM的大尺度压缩的量化方法,通过对矢量量化码本进行的优选迭代步骤,减小压缩后的声道谱模型与原模型之间的声学距离,使通过量化模型合成的语音更加接近未量化模型。主观和客观测试结果显示:使用该方法进行声道谱模型的压缩,在压缩至原模型大小的0.06左右时,仍有约90%的评价得分认为合成语音的质量没有明显下降。  相似文献   

18.
分组网络环境下的实时语音质量客观评价   总被引:1,自引:0,他引:1  
提出了一种利用前馈随机神经网络在分组网络中进行实时语音质量评价的新方法.从接收到的语音分组中提取美尔频率倒谱系数向量,利用实时传输控制协议计算语音分组传输过程中的丢包率、延迟和抖动,构成网络传输参数向量.将随机神经元组织成具有1个输入层、1个隐含层和1个输出层的3层前馈网络结构,再以上述2种向量作为输入的多类别信号,以相应的主观平均意见(MOS)评分值作为输出对网络进行训练,从而获得稳定的权值矩阵.利用训练过的网络进行多类别信号的语音质量评分映射,并将映射结果与MOS进行二次多项式拟合,得到最终的语音质量评分值.实验表明,所提算法与主观评价之间的平均相关度可达到0.881.  相似文献   

19.
矢量泰勒级数是一种有效的抗噪声鲁棒语音识别算法.然而在对数谱域,美尔滤波器组的不同通道之间有较强的相关性,因而难以从含噪语音中准确估计噪声的方差.提出了一种基于矢量泰勒级数的倒谱域特征补偿算法.该算法在倒谱域,用一个高斯混合模型描述语音倒谱特征的分布,通过矢量泰勒级数从含噪语音中估计噪声的均值和方差.实验结果表明,此算法能明显提高语音识别系统的性能,优于基于矢量泰勒级数的对数谱域特征补偿算法.  相似文献   

20.
基于正交混合Gauss模型的脱机手写数字识别   总被引:6,自引:0,他引:6  
在基于统计方法的脱机手写数字识别中 ,为更加有效地描述特征的类条件概率分布 ,设计出性能优良的 Bayes分类器 ,采用了混合 Gauss模型。为减少模型的参数 ,通常假设各 Gauss分量的协方差矩阵为对角阵。由于各维特征之间统计相关 ,因此需要大量的 Gauss分量才能较好地描述特征的类条件概率分布 ,使得混合模型的阶数较高。为降低模型的阶数 ,采用了正交混合 Gauss模型 ,即先对各类别的特征分别进行 KL 变换 ,再将变换后的特征用混合 Gauss模型来表示。其中混合 Gauss模型的参数可以通过 EM算法进行估计。最后 ,在 NIST (National Institute of Standards andTechnology)手写数字样本集上对该方法的识别性能进行了验证  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号