首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
加性噪声条件下鲁棒说话人确认   总被引:1,自引:0,他引:1       下载免费PDF全文
张二华  王明合  唐振民 《电子学报》2019,47(6):1244-1250
基于非负矩阵分解的语音去噪,在提高语音信号信噪比的同时,也会引起语音失真,从而导致噪声环境下说话人确认系统性能下降.本文提出基于分区约束非负矩阵分解的语音去噪方法(Nonnegative Matrix Factorization with Partial Constrains,PCNMF),目的是在未知和非平稳噪声条件下提高话人确认系统的鲁棒性.PCNMF在满足分区约束条件的基础上分别构建语音字典和噪声字典.考虑到传统语音训练产生的语音字典往往含有一定的噪声成分,PCNMF通过数学模型产生基音及泛音频谱,在此基础上利用该频谱模仿人声的共振峰结构来合成字典,从而保证语音字典纯净性.另一方面,为了克服传统噪声字典构建方法带来的部分噪声信息丢失问题,PCNMF对在线分离出的噪声样本进行分帧和短时傅里叶变换,然后以帧为单位线性组合生成噪声字典.性能评估实验引入了多种噪声类型,实验结果表明PCNMF可有效提高说话人确认系统的鲁棒性,特别是在未知和非平稳噪声条件下其等错率相比基线系统(Multi-Condition)平均降低了5.2%.  相似文献   

2.
说话人识别系统研究   总被引:1,自引:0,他引:1  
张东阳  张国杰 《通信技术》2007,40(11):356-358
说话人识别是指通过说话人的语音来自动识别出说话人的身份.这种识别系统在许多领域内有着良好的应用前景.文中回顾了说话人识别技术的发展历史,阐述了说话人识别技术的基本原理以及与语音识别技术的区别,介绍了识别技术的几种分类.文中重点介绍了说话人识别的相关技术:特征提取和模式匹配.描述了特征提取和模式匹配各自的任务和特点,强调了它们在说话认识别系统中的关键性作用.  相似文献   

3.
提出了一种基于改进GMM模型和韵律联合短时谱的说话人转换方法.通过在训练阶段引入改进的GMM模型,克服传统GMM模型造成的转换语音过平滑现象,并将线谱对频率LSF和基音频率联合起来组成韵律联合短时谱,更准确地刻画说话人的短时频域特征和声腔的共振特性.实验表明,这种方法能够有效地捕捉说话人的个性化特征和韵律特征.另外,在保证变换语音目标倾向性的同时,一定程度上克服了过平滑现象,提高了变换语音的音质.  相似文献   

4.
基于高斯混合模型和残差预测的说话人转换系统   总被引:1,自引:1,他引:0  
说话人转换是将源说话人的语音特征转换成目标说话人的特征,使得听起来像是目标说话人的语音。提出的说话人转换系统分为2个部分,第一部分利用高斯混合模型进行谱包络的转换,训练采用时间对齐的源说话人和目标说话人的语音数据进行。第二部分基于一个分类器和残差码本对残差信号预测。该系统在现有的说话人转换系统的基础上做了一些改进,改进后不再需要说话人模仿别人的语调,并且在某些性能上超过了现有的系统。  相似文献   

5.
基于多特征有效组合的说话人识别   总被引:1,自引:0,他引:1  
通过分析当今说话人识别系统中常用的一些特征参数,以提高说话人识别的识别率为目的,在Matlab 6.5软件环境下提出了将Mel频率倒谱(MFCC)、线性预测倒谱(LPCC)及他们的一阶差分和基音周期等多种特征有效结合进行说话人识别的方法。采用短时自相关法提取基音周期,在识别过程中采用改进的动态规整算法,将模板的匹配过程与检验量的计算分离开,每帧给出一个说话人辨认结果,最后综合各帧的辨认结果,得出最佳匹配结果。经过多次实验证明,采用以上方法使用多特征有效结合比单个使用各种特征效果要好,能在一定程度上提高系统区分说话人的能力。  相似文献   

6.
基于概率DP匹配法的噪声环境下说话人识别方法的研究   总被引:1,自引:0,他引:1  
王吉林  赵力  邹采荣 《电声技术》2005,(8):47-49,66
提出了一种在噪声环境下利用复数语音帧段主分量特征输入的概率DP匹配的说话人识别算法。通过对噪吉环境下与文本无关的说话人识别实验,验证了这种方法的有效性。  相似文献   

7.
汉语语音正弦模型特征分析和听觉辨识   总被引:1,自引:0,他引:1  
张毅楠  肖熙 《电声技术》2011,35(8):38-41
为了研究汉语语音的声学特征,将语音信号的正弦模型应用于语音的特征提取和分析,通过对语音的模型参数应用峰值匹配算法,得到了基于正弦模型的语谱图.该语谱图能直观地反映出语音信号中基音频率及共振峰的细节及其变化规律,为语音信号的分析提供了可视化的工具.在此基础上,对汉语单韵母音节的前两个共振峰进行了分析,在控制使用少数几个主...  相似文献   

8.
为了将源说话人的语音特征进行转换,使得听起来像是目标说话人的语音,本文提出了一种同语种的说话人转换算法。算法分为两个部分,一是利用高斯混合模型进行谱包络的转换,采用改进的方法对模型进行训练,去除语音数据时间对齐不准确的影响;二是基于高斯混合模型分类器和残差码本对残差信号预测。算法还对转换语音进行了后续处理,增强了语音的自然度。非正式的听觉测试表明,在利用时间不长的语音数据训练后,此算法可以进行说话人的转换,转换语音明显带有目标说话人的特征,且具有较高的可懂度。  相似文献   

9.
基于说话人分类技术的分级说话人识别研究   总被引:3,自引:0,他引:3       下载免费PDF全文
刘文举  孙兵  钟秋海 《电子学报》2005,33(7):1230-1233
识别正确率和抗噪性能固然是说话人识别的研究重点,但识别响应速度也是决定系统实用化的关键所在.本文成功地提出了基于说话人分类技术的分级说话人辨识方法,极大地提高了系统运行速度,随着注册说话人数的增多,较之传统的说话人辨识方法,其优势更加明显.同时在说话人确认中,该方法的使用,进一步提高了确认的正确率,有效地降低了错误接受和错误拒绝率.本文提出的可信度打分方法,也一定程度上改进了系统的性能.实验表明:基于说话人分类技术的说话人辨识方法使系统的运行速度平均提高了3.5倍,对说话人确认等误识率和最小误识率平均下降了53.75%.  相似文献   

10.
赵振东  张静  李圆  胡喜梅 《通信技术》2009,42(10):192-193
提出了基于高斯混合模型(GMM)说话人分类的分级说话人识别系统,同时将小波神经网络(WNN)引入到子识别系统中。分别对未分级说话人识别系统和分级说话人识别系统进行了比较。仿真实验结果表明,分级网络在保证正确识别率的同时,不仅改善了网络训练速度,亦大大提高了识别响应速度。  相似文献   

11.
彭柏  许刚 《电声技术》2007,31(1):39-43
在研究频谱搬移方法和分析语音共振峰性质及变化规律的基础上,提出了利用频谱搬移调整共振峰的算法,能有效控制共振峰轨迹合成声道模型。讨论了语音转换的实现流程,并将合成的声源模型应用于男、女声之间的转换,实验结果和分析表明,该方法可实现对共振峰的灵活控制,使语音转换具有更高的融合度。  相似文献   

12.
李力  俞一彪 《信号处理》2012,28(2):289-294
传统的语音转换方法往往着重于语音的声道特征和基频的转换,而忽视了其他的超音段韵律特征,这导致转换后的语音目标倾向性不够明显,合成语音自然度不高,不能很好地反应说话人个性化特征。本文在短时谱包络转换的基础上,加入了基频、语速、停顿、重音等多种超音段韵律特征进行转换处理,以提高语音转换性能。其中,采用基频目标模型对基音频率建模,然后运用高斯混合模型(GMM)训练得到转换规则,而语速、停顿、重音则采用基于单高斯统计分析的最大似然估计方法训练得到转换规则。实验结果表明,在加入超音段韵律特征转换之后,系统非常明显地提高了转换语音的目标倾向性和自然度。   相似文献   

13.
车滢霞  俞一彪 《电子学报》2016,44(9):2282-2288
提出一种约束条件下的结构化高斯混合模型及非平行语料语音转换方法.从源与目标说话人的原始非平行语料中提取出少量相同音节,在结构化高斯混合模型的训练过程中,利用这些相同音节包含的语义信息及声学特征对应关系对K均值聚类中心进行约束,并在(Expectation Maximum,EM)迭代过程中对语音帧属于模型分量的后验概率进行修正,得到基于约束的结构化高斯混合模型(Structured Gaussian Mixture Model with Constraint condition,C-SGMM).再利用全局声学结构(Acoustic Universal Structure,AUS)原理对源和目标说话人的约束结构化高斯混合模型的高斯分布进行匹配对准,推导出短时谱转换函数.主观和客观评价实验结果表明,使用该方法得到的转换后语音在谱失真,目标倾向性和语音质量等方面均优于传统的结构化模型语音转换方法,转换语音的平均谱失真仅为0.52,说话人正确识别率达到95.25%,目标语音倾向性指标ABX平均为0.82,性能更加接近于基于平行语料的语音转换方法.  相似文献   

14.
接收机上接收到的信号容易被广播电台的语音噪声所干扰.而且随着广播电台的繁荣发展,语音干扰的能量越来越大,易造成误码从而严重影响信号的传输速度和质量.由于语音噪声的非平稳性,传统的消噪方法难以取得较好的效果.本文提出一种基于小波变换的语音噪声消除算法,对短波信道上的实际接收到的BPSK信号进行消噪处理.接收信号上的加性语音噪声被大幅度削减,系统的误码率性能得到很大提升,验证了算法具有良好的消噪能力.  相似文献   

15.
徐宁  杨震  张玲华 《电子学报》2010,38(3):646-653
语音转换是一项改变说话人声音特征的技术,该领域主流方法——基于高斯混合模型的全频带参数映射,会导致转换后的语音频谱产生帧间不连续性。本文针对以上问题提出了改进方案:首先引入状态空间模型来模拟语音动态变化特性,其次利用离散小波变换对语音低频和高频部分的参数分为子频带处理。文章最后用主观和客观实验对提出的算法进行的实验仿真和验证。  相似文献   

16.
基于维特比算法的语声转换   总被引:2,自引:0,他引:2       下载免费PDF全文
简志华  杨震 《电子学报》2009,37(7):1470-1475
 本文提出了一种基于Viterbi搜索的语声转换算法,利用目标语音帧的转移概率矩阵来描述语音帧的时序信息,通过Viterbi搜索算法来寻找每帧语音的最佳GMM分量,它避免了传统的基于GMM的语声转换算法因丢失语音帧的时序信息所造成的频谱帧间不连续,同时也减少了因加权求平均所带来的语音频谱过于平滑,增强了共振峰.客观评测和主观测试的实验结果都表明,本文算法改善了传统的基于GMM的语声转换算法的性能.  相似文献   

17.
声音转换技术的研究与进展   总被引:20,自引:0,他引:20       下载免费PDF全文
左国玉  刘文举  阮晓钢 《电子学报》2004,32(7):1165-1172
声音转换是一项改变说话人声音特征的技术,可以将一人的语音模式转换为与其特性不同的另一人语音模式.声音转换算法的目标是确定一个什么样的模式转换规则,使转换语音保持第一个说话人原有语音信息内容不变,而具有第二个说话人的声音特点.本文介绍了当前声音转换技术领域的研究状态,主要分析现有声音转换技术中各种转换算法的实现原理,描述声音转换系统性能的各种评估方法,最后给出了对声音转换技术的简要评述和展望.  相似文献   

18.
针对变频正弦混沌神经网络寻优精度与收敛速度无法兼顾的问题,通过分析暂态混沌神经网络的优化机制和现有的退火策略,提出了一种基于自适应模拟退火策略的变频正弦混沌神经网络模型.该模型可以根据混沌神经元的Lyapunov指数来确定合适的自反馈连接权值.给出了混沌神经元的倒分岔图、Lyapunov指数及不同退火函数的时间演化图,证明了自适应模拟退火策略能够自主选择合适的退火速度,更有效的利用混沌全局搜索能力,并加快非混沌态的演化时间.为了证明该模型的有效性,将其应用于函数优化和组合优化问题中.仿真实验表明:(1)对于该模型退火速度的选择,自适应模拟退火策略比现有的几种退火方法更具有灵活性和适应性;(2)该模型在寻优精度和速度上比暂态混沌神经网络及其他改进模型具有更好的兼顾性.  相似文献   

19.
频谱包络转换是语音转换中的一项重要内容,基于双线性转换函数进行频谱搬移的方法可以有效地进行谱包络转换,而且在基于小语料库进行训练时仍能得到稳定的转换谱包络.本文基于LPC分析,提出用反傅里叶变换的方法来求解频谱搬移后的系统单位冲激响应,以此来实现频谱包络的变换,并取得了较好的效果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号