首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 859 毫秒
1.
南兆营 《电声技术》2021,45(2):23-27,31
传统的法庭说话人识别方法存在对语音数据建模能力差、特征提取难以及容易受噪声干扰影响等问题,为了改进这些问题,提出一种基于卷积神经网络的法庭说话人识别方法.该方法以AlexNet网络为基础进行参数调整,为了弥补ReLU函数作为激活函数时易出现神经元坏死和偏移的现象,融合Tanh和ReLU函数的特性,构造一种新的TR函数作为网络的激活函数.同时,为了避免人工提取语音特征的主观性和不全面性,在实验中将语音转换成声纹图作为网络输入.实验结果表明,激活函数为TR函数时,该方法在法庭说话人识别数据集的准确率达到了92.24%,在花朵图像公开数库的准确率达到了96.13%,效果均好于Tanh和ReLU函数.  相似文献   

2.
听觉特性和语谱特性在说话人识别中的应用   总被引:1,自引:1,他引:0  
大多数说话人识别系统当由实验室走向实际应用时,环境噪声的存在会造成其识别性能下降。为了提高噪声环境下说话人识别系统的识别性能,将基于听觉特性和语谱特性的语音增强技术作为预处理器,首先对语音信号进行降噪处理,提高输入信号的信噪比。实验证明,经过降噪处理的语音信号送入说话人识别系统,提高了系统的识别性能。  相似文献   

3.
噪声环境下说话人识别的组合特征提取方法   总被引:1,自引:0,他引:1  
芮贤义  俞一彪 《信号处理》2006,22(5):673-677
针对在干净语音环境下识别率很高的说话人识别系统,在噪声环境下识别率显著降低的缺点,本文结合具有多分辨率分析特点的小波变换技术,提出一种基于小波变换的组合特征提取算法,以提高说话人识别系统在噪声环境下的识别性能。对40个说话人的语音库SUDA2002-D2,在噪声环境下进行的识别实验结果表明,本文提出的组合特征提取算法可以在噪声环境下有效地提高说话人识别系统的识别性能。  相似文献   

4.
姚晨伟  高勇 《通信技术》2023,(3):276-281
针对传统说话人辨认任务中相位特征容易被人忽视的情况,对说话人辨认任务提出了结合幅度和相位特性的短时傅里叶变换(Short-Time Fourier Transform,STFT)+基于相位的谱根倒谱系数(Phase-based Spectral Root Cepstral Coefficients,PSRCC)特征融合方案,并且将轻量级卷积神经网络模型MobilenetV3与CA注意力机制融合作为后端分类器。通过5种不同特征选择方案进行说话人辨认对比实验,得到相应准确率。结果表明,所提出的说话人识别模型在开源声纹识别数据集VOXCELEB-1的测试集上取得了83.23%的准确率,该模型在超越VGGVOX基线系统81.82%测试准确率的同时,模型大小和参数量分别减少了75.98%和76.32%。  相似文献   

5.
基于小波变换的鲁棒型特征提取及说话人识别   总被引:4,自引:0,他引:4  
说话人识别系统在实际应用中面临的主要困难之一是鲁棒性问题,干净语音环境下识别率很高的说话人识别系统,在有噪语音环境下识别性能显著降低。解决这一问题的方法之一是寻找具有鲁棒性的特征参数。本文结合具有多分辨率分析特点的小波变换技术,提出一种基于小波变换的鲁棒型特征提取算法,以提高说话人识别系统在噪声环境下的识别性能。对40个说话人的语音库SUDA2002-D2,在加性高斯白噪声环境下进行的识别实验结果表明,本文提出的特征提取算法可以有效地提高说话人识别系统在噪声环境下的识别性能。  相似文献   

6.
黄文娜  彭亚雄 《电声技术》2016,40(11):44-47
为了改善发声力度变化对说话人识别系统性能的影响.针对不同发声力度下语音信号的分析,提出了使用发声力度最大后验概率(Vocal Effort Maximum A Posteriori,VEMAP)自适应方法更新基于高斯混合模型-通用背景模型(Gaussian Mixture Model-Universal Background Model,GMM-UBM)的说话人识别系统模型.实验表明,所提出的方法使不同发声力度下系统EER%降低了88.45%与85.16%,有效解决了因发声力度变化引起的训练语音与测试语音音量失配,从而导致说话人识别性能降低的问题,改善说话人识别系统性能效果显著.  相似文献   

7.
为了提高说话人识别系统的性能,提出基于改进语谱图的深度学习说话人识别算法。语谱图当中包含了语音的内容、情绪、语种以及说话人身份等多种信息,在以往的说话人识别算法中,往往没有考虑到说话人身份特性,采用直接提取语音中的语谱图作为网络输入,而说话人识别系统中需要提取语谱图中表征身份的信息,因此需要在原始语谱图的基础上进行改进。在语谱图中,基音频率以及共振峰等信息最能表现说话人的身份特征,从而提出根据语音信号中每一帧的基音频率进行自适应梳状滤波,得到改进后的语谱图,再通过卷积神经网络提取说话人特征,从而达到提升识别准确率的效果。网络模型采用MobileNetv2神经网络,该网络模型具有模型参数少、收敛速度快、识别速度快等优点,有利于实际应用。在对照实验结果中,该方法相对于原始语谱图的准确率分别提高了2.3%、5.2%、3%。  相似文献   

8.
说话人识别综述   总被引:2,自引:0,他引:2  
在分析说话人识别原理和方法的基础上,对近年来说话人识别技术的发展进行了综述。分析了当前说话人识别技术中使用的多种特征和模式识别方法,并对其今后的研究前景和发展方向进行了展望。  相似文献   

9.
肜娅峰  陈晨  陈德运  何勇军 《电子学报》2021,49(11):2186-2194
身份-矢量(identity-vector,i-vector)方法作为说话人确认领域中的主流方法之一,能够通过学习总变化空间来获取有效的低维说话人特征——i-vector特征.但是当开发集数据不充足时,会导致学习到的总变化空间模型误差较大;同时,还无法有效确认此时的总变化空间是否因为预先设置的维度过高而学到了冗余信息.为此,本文将贝叶斯主成分分析(Bayesian Principal Component Analysis,BPCA)引入总变化空间的学习过程中,利用其来为总变化空间引入更多的先验信息,从而对开发集数据中包含的信息进行补充,并在先验信息的约束下削弱总变化空间中无效维的影响.实验结果表明,当开发集数据不充足时,相比于传统的总变化空间学习方法,BPCA方法能够有效提升说话人确认系统的识别性能.  相似文献   

10.
基于多特征有效组合的说话人识别   总被引:1,自引:0,他引:1  
通过分析当今说话人识别系统中常用的一些特征参数,以提高说话人识别的识别率为目的,在Matlab 6.5软件环境下提出了将Mel频率倒谱(MFCC)、线性预测倒谱(LPCC)及他们的一阶差分和基音周期等多种特征有效结合进行说话人识别的方法。采用短时自相关法提取基音周期,在识别过程中采用改进的动态规整算法,将模板的匹配过程与检验量的计算分离开,每帧给出一个说话人辨认结果,最后综合各帧的辨认结果,得出最佳匹配结果。经过多次实验证明,采用以上方法使用多特征有效结合比单个使用各种特征效果要好,能在一定程度上提高系统区分说话人的能力。  相似文献   

11.
当前基于预训练说话人编码器的语音克隆方法可以为训练过程中见到的说话人合成较高音色相似性的语音,但对于训练中未看到的说话人,语音克隆的语音在音色上仍然与真实说话人音色存在明显差别。针对此问题,本文提出了一种基于音色一致的说话人特征提取方法,该方法使用当前先进的说话人识别模型TitaNet作为说话人编码器的基本架构,并依据说话人音色在语音片段中保持不变的先验知识,引入一种音色一致性约束损失用于说话人编码器训练,以此提取更精确的说话人音色特征,增加说话人表征的鲁棒性和泛化性,最后将提取的特征应用端到端的语音合成模型VITS进行语音克隆。实验结果表明,本文提出的方法在2个公开的语音数据集上取得了相比基线系统更好的性能表现,提高了对未见说话人克隆语音的音色相似度。  相似文献   

12.
在基于GMM的与文本无关说话人识别系统中考虑性别差异,提出了把不同性别的说话人特征参数归成不同的两个子集,识别时先判断待识别说话人特征是属于哪个性别子集后,再在相应的子集中进行识别的方法。实验结果表明,该方法能改善基于GMM的与文本无关说话人识别系统的识别率。  相似文献   

13.
本文在基于GMM的与文本无关说话人识别系统中考虑性别差异,提出了把不同性别的说话人特征参数归成不同的两个子集,识别时先判断待识别说话人特征是属于哪个性别子集后,再在相应的子集中进行识别的方法。实验结果表明该方法能够改善基于GMM的与文本无关说话人识别系统的识别率。  相似文献   

14.
说话人识别就是从说话人的一段语音中提取出说话人的个性特征,通过对这些个人特征的分析和识别,从而达到对说话人进行辨认或者确认的目的。神经网络是一种基于非线性理论的分布式并行处理网络模型,具有很强的模式分类能力及对不完全信息的鲁棒性,为说话人识别技术提供了一种独特的方法。BP(Back-propagation Neural Network)是一种非循环多级网络训练算法,有输入层,输出层和N个隐含层组成。首先概述了语音识别技术,介绍了BP神经网络训练过程的7个步骤及其模型,如何建立BP神经网络模型。同时介绍了与其相关的特征参数的提取,神经网络的训练和识别过程,最后,通过编程在Linux系统下实现说话人身份的识别。  相似文献   

15.
介绍了一个基于GMM实时说话人识别系统的设计与实现,系统具有实时说话人辨认和实时说话人确认功能。在实验室条件下,对不同的高斯混合密度个数及采样率进行了测试,测试了模型的自适应性能。实验表明系统具有较好的识别准确率。  相似文献   

16.
基于概率DP匹配法的噪声环境下说话人识别方法的研究   总被引:1,自引:0,他引:1  
王吉林  赵力  邹采荣 《电声技术》2005,(8):47-49,66
提出了一种在噪声环境下利用复数语音帧段主分量特征输入的概率DP匹配的说话人识别算法。通过对噪吉环境下与文本无关的说话人识别实验,验证了这种方法的有效性。  相似文献   

17.
提取特征参数在说话人识别系统内是非常重要的步骤,说话人语音的很多特有个性信息包含于特征参数内,例如发声特征或者语义特征,利用特征提取的方法一方面可以去掉声音里没用的冗余信息,剩下有用的体现说话人个性不同的特征信息,特别是可以有效减少计算量、模板数目以及存储空间。选用的特征参数的会直接关系到整个系统的工作性能,良好的特征参数需要拥有好的稳定性和好的独立性,一方面可以不受到外界情况的干扰,不容易为其他的声音所替代,另一方面,能够较好的辨别不同说话人,说明说话人之间的差异。  相似文献   

18.
随着人工智能时代的到来,语音信号处理已经成为热门的研究方向之一。基于并行化的说话人识别方法,利用拾音器阵列采集多路语音信号,传输到嵌入式GPU系统,在嵌入式GPU系统内依次进行预处理、并行化特征提取和特征匹配并把输出结果进行显示。针对现在大数据量的语音信号进行处理,对说话人识别算法进行了并行化改进,优化了语音信号处理等过程,提高说话人识别系统的效率和准确率,增强了说话人识别系统的鲁棒性。  相似文献   

19.
基于可区分性加权的模糊核说话人识别   总被引:2,自引:1,他引:1       下载免费PDF全文
林琳  王树勋  陈建 《电子学报》2008,36(7):1446-1450
 针对训练和识别语音数据较少的情况,本文提出了一种新的说话人识别算法.通过核映射,在高维特征空间对说话人的语音特征进行模糊矢量量化.为了增加说话人之间的可区分性,提出了一种基于高维特征空间的码字矢量的权值分配方法,对具有较强区分性的码字矢量分配较大的权值,并将产生的权值和说话人的码书一起形成说话人数据库.识别时,提出一种模糊核加权最近邻近分类器,在高维特征空间中对说话人进行匹配.实验表明,该算法在训练语音少于8s,识别语音为1s时,能够得到较好的识别结果.  相似文献   

20.
为了挖掘说话人识别领域中人脸和语音的相关性,该文设计多模态生成对抗网络(GAN),将人脸特征和语音特征映射到联系更加紧密的公共空间,随后利用3元组损失对两个模态的联系进一步约束,拉近相同个体跨模态样本的特征距离,拉远不同个体跨模态样本的特征距离。最后通过计算公共空间特征的跨模态余弦距离判断人脸和语音是否匹配,并使用Softmax识别说话人身份。实验结果表明,该方法能有效地提升说话人识别准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号