首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 253 毫秒
1.
采用STRAIGHT语音分析一合成模型,提取源说话人和目标说话人的基频和光滑声道谱作为表征语音特征的参数。在频谱训练阶段,把声道谱转换成MFCC参数,采用人工神经网络算法对源一目标说话人的MFCC参数进行训练映射。主观和客观试验结果表明,该方法能取得较好的转换效果,转换语音和目标语音较接近,易于理解。  相似文献   

2.
为了将源说话人的语音特征进行转换,使得听起来像是目标说话人的语音,本文提出了一种同语种的说话人转换算法。算法分为两个部分,一是利用高斯混合模型进行谱包络的转换,采用改进的方法对模型进行训练,去除语音数据时间对齐不准确的影响;二是基于高斯混合模型分类器和残差码本对残差信号预测。算法还对转换语音进行了后续处理,增强了语音的自然度。非正式的听觉测试表明,在利用时间不长的语音数据训练后,此算法可以进行说话人的转换,转换语音明显带有目标说话人的特征,且具有较高的可懂度。  相似文献   

3.
车滢霞  俞一彪 《电子学报》2016,44(9):2282-2288
提出一种约束条件下的结构化高斯混合模型及非平行语料语音转换方法.从源与目标说话人的原始非平行语料中提取出少量相同音节,在结构化高斯混合模型的训练过程中,利用这些相同音节包含的语义信息及声学特征对应关系对K均值聚类中心进行约束,并在(Expectation Maximum,EM)迭代过程中对语音帧属于模型分量的后验概率进行修正,得到基于约束的结构化高斯混合模型(Structured Gaussian Mixture Model with Constraint condition,C-SGMM).再利用全局声学结构(Acoustic Universal Structure,AUS)原理对源和目标说话人的约束结构化高斯混合模型的高斯分布进行匹配对准,推导出短时谱转换函数.主观和客观评价实验结果表明,使用该方法得到的转换后语音在谱失真,目标倾向性和语音质量等方面均优于传统的结构化模型语音转换方法,转换语音的平均谱失真仅为0.52,说话人正确识别率达到95.25%,目标语音倾向性指标ABX平均为0.82,性能更加接近于基于平行语料的语音转换方法.  相似文献   

4.
李力  俞一彪 《信号处理》2012,28(2):289-294
传统的语音转换方法往往着重于语音的声道特征和基频的转换,而忽视了其他的超音段韵律特征,这导致转换后的语音目标倾向性不够明显,合成语音自然度不高,不能很好地反应说话人个性化特征。本文在短时谱包络转换的基础上,加入了基频、语速、停顿、重音等多种超音段韵律特征进行转换处理,以提高语音转换性能。其中,采用基频目标模型对基音频率建模,然后运用高斯混合模型(GMM)训练得到转换规则,而语速、停顿、重音则采用基于单高斯统计分析的最大似然估计方法训练得到转换规则。实验结果表明,在加入超音段韵律特征转换之后,系统非常明显地提高了转换语音的目标倾向性和自然度。   相似文献   

5.
基于高斯混合模型和残差预测的说话人转换系统   总被引:1,自引:1,他引:0  
说话人转换是将源说话人的语音特征转换成目标说话人的特征,使得听起来像是目标说话人的语音。提出的说话人转换系统分为2个部分,第一部分利用高斯混合模型进行谱包络的转换,训练采用时间对齐的源说话人和目标说话人的语音数据进行。第二部分基于一个分类器和残差码本对残差信号预测。该系统在现有的说话人转换系统的基础上做了一些改进,改进后不再需要说话人模仿别人的语调,并且在某些性能上超过了现有的系统。  相似文献   

6.
宋鹏  王浩  赵力 《信号处理》2013,29(10):1294-1299
针对非对称语音库情况下的语音转换,提出了一种有效的基于模型自适应的语音转换方法。首先,通过最大后验概率(Maximum A Posteriori,MAP)方法从背景模型分别自适应训练得到源说话人和目标说话人的模型;然后,通过说话人模型中的均值向量训练得到频谱特征的转换函数;并进一步与传统的INCA转换方法相结合,提出了基于模型自适应的INCA语音转换方法,有效实现了源说话人频谱特征向目标说话人频谱特征的转换。通过客观测试和主观测听实验对提出的方法进行评价,实验结果表明,与INCA语音转换方法相比,本文提出的方法可以取得更低的倒谱失真、更高的语音感知质量和目标倾向度;同时更接近传统基于对称语音库的高斯混合模型(Gaussian Mixture Model,GMM)的语音转换方法的效果。   相似文献   

7.
黄伟  戴蓓蒨  李辉 《电子与信息学报》2004,26(10):1607-1612
该文提出了一种基于分类高斯混合模型和神经网络融合(FS-GMM/NN)的说话人识别方法,通过对特征矢量进行聚类分析,将说话人的训练语音分成若干类。然后根据各个类中含特征矢量的多少采用不同的模型混合度,训练建立分类高斯混合模型。并采用神经网络实现各个分类高斯混合模型输出的融合。在100个男性话者的与文本无关的说话人识别实验中,基于分类高斯混合模型和神经网络融合的方法在识别性能及噪声鲁棒性上都优于不分类的GMM识别系统,并具有较高的模型训练效率,且可以有效地降低话者模型的混合度和测试语音长度。  相似文献   

8.
李聪  葛洪伟 《信号处理》2018,34(7):867-875
由于环境噪声的影响,实际应用中说话人识别系统性能会出现急剧下降。提出了一种基于高斯混合模型-通用背景模型和自适应并行模型组合的鲁棒性语音身份识别方法。自适应并行模型组合是一种噪声鲁棒性的特征补偿算法,能够有效减少训练环境与测试环境之间的不匹配现象,从而提高系统识别准确率和抗噪性能。首先,算法从测试语音中估计出噪声特征,然后用一个单高斯模型对噪声特征进行拟合得到噪声均值和协方差。最后,根据得出的噪声均值和协方差,调整训练好的高斯混合模型均值向量和协方差矩阵,使其尽可能地匹配测试环境。实验结果表明,该方法可以准确地重构干净语音的高斯混合模型参数,并且能够显著提高说话人识别的准确率,特别是在低信噪比情况下。   相似文献   

9.
高斯混合模型采用固定混合数结构的建模方法并不符合说话人语音特征分布的多样性,从而出现过拟合或者欠拟合的情况并影响系统的识别性能。提出一种混合数可变的自适应高斯混合模型并将其应用于说话人识别。模型训练中根据说话人语音特征参数分布的聚类特性,采用吸收合并与分裂机制动态调整混合数以获得更加精确的拟合性能,提高系统识别率。实验结果显示,在特征参数MFCC和BFCC(Bilinear Frequency Cepstrum Coefficients)下相对误识率分别下降了41.41%和22.21%。  相似文献   

10.
徐宁  杨震  张玲华 《电子学报》2010,38(3):646-653
语音转换是一项改变说话人声音特征的技术,该领域主流方法——基于高斯混合模型的全频带参数映射,会导致转换后的语音频谱产生帧间不连续性。本文针对以上问题提出了改进方案:首先引入状态空间模型来模拟语音动态变化特性,其次利用离散小波变换对语音低频和高频部分的参数分为子频带处理。文章最后用主观和客观实验对提出的算法进行的实验仿真和验证。  相似文献   

11.
For any given mixed-language text, a multilingual synthesizer synthesizes speech that is intelligible to human listener. However, as speech data are usually collected from native speakers to avoid foreign accent, synthesized speech shows speaker switching at language switching points. To overcome this, the multilingual speech corpus can be converted to a polyglot speech corpus using cross-lingual voice conversion, and a polyglot synthesizer can be developed. Cross-lingual voice conversion is a technique to produce utterances in target speaker’s voice from source speaker’s utterance irrespective of the language and text spoken by the source and the target speakers. Conventional voice conversion technique based on GMM tokenization suffer from degradation in speech quality as the spectrum is oversmoothed due to statistical averaging. The current work focuses on alleviating the oversmoothing effect in GMM-based voice conversion technique, using (source) language-specific mixture weights in a multi-level GMM followed by selective pole focusing in the unvoiced speech segments. The continuity between the frames of the converted speech is ensured by performing fifth-order mean filtering in the cepstral domain. For the current work, cross-lingual voice conversion is performed for four regional Indian languages and a foreign language namely, Tamil, Telugu, Malayalam, Hindi, and Indian English. The performance of the system is evaluated subjectively using ABX listening test for speaker identity and using mean opinion score for quality. Experimental results demonstrate that the proposed method effectively improves the quality and intelligibility mitigating the oversmoothing effect in the voice-converted speech. A hidden Markov model-based polyglot text-to-speech system is also developed, using this converted speech corpus, to further make the system suitable for unrestricted vocabulary.  相似文献   

12.
说话人识别的关键在于如何为集合中的每一个人建立一个能表征该说话人个性特征的声学模型,建模方法将会严重影响系统的性能。基于当今与文本无关的话者识别的主流模型——高斯混合模型(Gaussian Mixture Model,GMM)的基础上,从声学的角度剖析了男女发音的差别,以增加说话人之间的差异性为出发点,引入竞争性思想和通用背景模型(Universal Background Model,UBM),提出了具有区分性的GMM的建模方法,克服了传统GMM需要大量训练样本的局限性和UBM将说话人强制服从统一分布的弱点。最后实验的对比结果表明,具有区分性的GMM相比传统的高斯混合模型在识别率上有所提高。  相似文献   

13.
四种超磁致伸缩材料特性测量方法的比较   总被引:1,自引:0,他引:1  
超磁致伸缩材料在传感器应用中起到越来越重要的作用,材料的磁致伸缩性质对传感器的设计和性能起到十分关键的作用。根据超磁致伸缩材料的特性,对国内外测量磁致伸缩系数实验中常用的4种方法(电阻应变片法、差动电容法、微位移传递法以及光杠杆法)进行试验方法介绍和实验结果对比,得到了4种测量方法的优缺点。通过比较这4种方法的优缺点,可以在实验中根据实验条件选择不同的方法测量,比较数据可得到更准确的结果。  相似文献   

14.
本文介绍了一种基于液晶空间光调制器(LCSLM)相位调制特性的波面转换方法,可将入射光变换成任意波面。测量了液晶空间光调制器相位调制特性,得到相位和灰度的对应关系;分别以几何理论和G-S算法为基础计算出衍射光学元件(DOE)的表面相位分布;将DOE表面的相位分布转换为灰度分布显示在LCSLM上,使得LCSLM具有波面实时转换功能;并以高斯激光为入射光对其进行波面转换实验,实验结果证明了设计方法的准确性及可行性。  相似文献   

15.
因传统矢量量化方法进行语音转换时的量化误差会引起特征空间的不连续性,使转换后语音的效果不理想,故采用模糊矢量量化技术提出一种新的、有效的语音转换方法。通过实验验证,基于模糊矢量量化技术的语音转换可以有效实现不同人之间的语音转换,转换后的各项指标均较为理想。  相似文献   

16.
基于维特比算法的语声转换   总被引:2,自引:0,他引:2       下载免费PDF全文
简志华  杨震 《电子学报》2009,37(7):1470-1475
 本文提出了一种基于Viterbi搜索的语声转换算法,利用目标语音帧的转移概率矩阵来描述语音帧的时序信息,通过Viterbi搜索算法来寻找每帧语音的最佳GMM分量,它避免了传统的基于GMM的语声转换算法因丢失语音帧的时序信息所造成的频谱帧间不连续,同时也减少了因加权求平均所带来的语音频谱过于平滑,增强了共振峰.客观评测和主观测试的实验结果都表明,本文算法改善了传统的基于GMM的语声转换算法的性能.  相似文献   

17.
针对基于截获雷达脉冲特征参数的辐射源识别问题,通过建立一个高斯混合模型(GMM),采用最大化期望(EM)方法对模型参数进行训练,构建了一个输入为截获雷达脉冲特征参数,输出为雷达辐射源类型的分类器。同时,为实现对分类识别性能对比,进一步提出基于神经网络方法构建雷达辐射源类型分类器。仿真试验结果表明,基于GMM和神经网络构建的两种分类器均能实现对雷达辐射源的在线识别,且当用于训练的样本比例不低于10%时,均能获得90%以上的分类正确率。  相似文献   

18.
吴则诚  飞龙  张晖  王海波 《信号处理》2021,37(10):1825-1834
语音转换技术在保持语义内容不变的前提下将源说话人的语音音色转换为目标说话人。目前,蒙古语语音转换面临语料匮乏、蒙古语字词在发音上韵律变化丰富等问题。针对这些问题,本文提出一种基于细粒度韵律建模和条件CycleGAN的非平行蒙古语语音转换方法。该方法首先使用连续小波变换提取细粒度的语音韵律特征,然后向CycleGAN中加入说话人向量构建条件CycleGAN,最后使用条件CycleGAN得到源说话人和目标说话人之间稳定的韵律转换。实验结果表明,该方法与传统CycleGAN语音转换方法相比能够有效提升蒙古语语音转换效果,在语音自然度和说话人相似度的MOS评分上分别提升了0.1和0.2。   相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号