期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

韦国刚周萍《电子世界》2014,(6):61-61,99

模仿者蓄意模仿说话人的语音,当相似度较高时,说话人识别系统就有可能被模仿者欺骗。语音特征参数作为说话人识别系统的关键组成部分,直接影响系统的性能。Mel系数是语音识别领域最成熟的特征参数之一,但是,MFCC特征参数在语音识别中对中、高频段的识别精度较低。为了解决上述问题,融合Mid-MFCC和IMFCC,采用增减分量法,提出了MMI-MFCC特征参数。实验结果表明,新的MMI-MFCC特征参数比传统的MFCC特征参数更有效的区分模仿语音的相似度。相似文献

2.

基于VQ的与文本无关的说话人确认系统

陈明义周昆湘曾理文《信息技术》2007,31(3):97-98,127

通过介绍说话人确认系统，采用能够反映人对语音的感知特性的Mel频率倒谱系数（MFCC）作为特征参数，同时提出了用训练得到的码本以及平均失真作为表征说话人的模型，对说话人确认系统中距离测度做出了相应的改动。实验结果表明系统具有较好的性能。相似文献

3.

一种具有鲁棒性能的说话人确认系统研究

《信息技术》2017,(8):16-20

与文本无关的说话人确认系统在纯净语音环境下具有较高的识别率,而在嘈杂的噪声环境下识别率会发生显著降低的现象。针对此问题,文中对系统的两个方面进行了改进:在前端处理方面使用了由多窗谱估计的谱减法和子空间法组成的二级去噪系统,在特征提取方面对梅尔倒谱系数(MFCC)特征参数添加了基音周期的一维特征信息并且对融合后的特征参数进行规整处理。实验结果表明,文中构建的说话人确认系统在噪声环境下的识别率有了很大的提升。相似文献

4.

基于听觉特性的声纹识别系统的研究

白燕燕胡晓霞郑三婷《电子设计工程》2015,23(4)

声纹识别技术,形象的说法就是说话人识别技术.它是根据人在说话时产生的波形,以及波形中反映人类心理和生理的特征参数来判断说话人的身份的技术.本文所研究的是与文本有关的说话人确认系统.比较了基于声道的线性预测倒谱系数(LP CC)和基于听觉特性的MEL频率倒谱系数(MFCC)参数特征,得出MFCC对环境存在更高的鲁棒性.并运用了隐形马尔可夫模型(HMM)在MATLAB上实现了语音数字的识别仿真.本实验系统的识别率达到了90％,验证了HMM模型识别的准确性. 相似文献

5.

一种融合IB准则特征的说话人分段聚类方法

下载免费PDF全文

张力张连海许友亮《太赫兹科学与电子信息学报》2013,11(1):136-141

针对说话人分段与聚类算法中先验知识不足的问题,利用基于信息瓶颈(IB)准则和基于隐马尔科夫模型(HMM)/高斯混合模型(GMM)方法间的互补性,提出了一种基于特征层融合的说话人分段与聚类算法。该算法将基于IB准则算法的输出结果进行对数变换和降维处理;然后利用变换后的特征与传统梅尔频率倒谱系数(MFCC)特征分别训练说话人GMM模型,并在得分域对说话人类别的得分进行加权融合;根据融合的得分,进行基于HMM/GMM模型的说话人分段与聚类。实验表明,融合后的特征可以为系统提供更多的先验信息,比传统方法的误配率降低了1.2%。相似文献

6.

基于小波包变换的说话人语音特征参数及其在说话识别中的应用

屈百达蒋纯纲王月徐保国《中国新通信》2008,10(1):40-44

在说话人识别系统中,能够反映说话人个性的语音特征参数是系统的关键问题之一。本文提出了一种新的说话人识别方法：在小波变换的基础上,借鉴MFCC特征参数的提取,基于GMM模型,用小波包变换代替傅立叶变换,提取新的特征参数DWPTMFCC,实验结果表明,该方法简单可靠,有效可行,具有较高的识别率,与已有方法相比,具有广泛的实用性。相似文献

7.

人脸语音动画中语音特征参数提取算法研究 总被引：1，自引：1，他引：0

林睿樊养余《现代电子技术》2011,34(6):74-77

人脸语音动画是虚拟现实领域的热点,语音特征参数提取是实现语音同步动画的前提和关键所在。为了能够提取鲁棒性更好的语音特征参数,在小波变换的理论基础上,借鉴MFCC特征参数的提取方法,运用表征语音动态特征的特征差分算法,提出了一种基于离散小波变换的语音特征参数（DWTMFCC）提取方法,并与反映语音情感特征的韵律参数相结合。通过基于LGB算法的VQ模型进行说话人语音识别,可以得到组合特征参数的识别率较高。相似文献

8.

基于小波包分析特征参数的说话人识别系统 总被引：5，自引：0，他引：5

李战明王贞《电声技术》2005,(6):46-49,55

介绍了说话人识别系统,研究MFCC提取原理与小波包分析的基础上,提出了一种基于小波包分析的新型语音特征参数WPDC。在研究了WPDC提取算法的基础上,建立了一个神经网络模型的说话人识别系统,实验比较了MFCC与WPDC的识别性能,验证WPDC了具有很高的识别率,是一种很好的语音特征参数。相似文献

9.

一种新的声纹确认的片上系统

毛鹏飞刘加《电声技术》2009,33(11):56-59

实现了一个高性能、低成本、低功耗的声纹确认片上系统（SOC）。系统核心算法采用基于高斯混合模型以及通用背景模型（GMM—UBM）建模的说话人确认算法,采用了Mel倒谱系数（MFCC）作为说话人特征。此SOC系统不仅可进行声纹确认,而且包含说话人模型的训练,可实时更新说话人的人数和模型。系统的平均EER达到了0．0342。相似文献

10.

一种汉语语音变换技术

孙卓岳振军《电声技术》2007,31(6):37-40

汉语语音变换技术的目的是将汉语语音中源说话人的语音特征转换为目标说话人语音特征。提出的适用于汉语说话人的变换算法分为3个部分:前两部分用高斯混合模型实现了语音的谱包络(线性预测编码)及其激励(残差)的转换;第三部分采用支持向量回归算法实现语音的韵律变换规则建模,结合汉语语音特点利用基音同步叠加算法实现语音的超音段特征调整。与现有的语音变换算法进行比较,算法针对汉语语音超音段发音特点进行韵律调整,有效实现了汉语语音变换并得到高自然度合成语音,是一种有效的汉语语音变换算法。相似文献

11.

关键词识别在媒体资产管理中的应用

张海越杨庆涛《电声技术》2008,32(3):59-61

详细介绍了一种基于EBF神经网络的特定人语音识别方法。提出了该语音识别方法在媒体资产管理系统上的应用并给出详细的工作流程图。采用LPC和MFCC2种特征分别建立系统,并对2个系统的识别性能作比较后进行融合。相似文献

12.

利用韵律信息的CHMM连续数字语音识别

张静亚俞一彪《电子工程师》2006,32(12):43-46

提出了一种结合韵律信息的高性能汉语连续数字语音识别算法,该识别算法基于CHMM(连续隐马尔可夫模型),采用MFCC(MEL频率倒谱系数)为主要语音特征参数,结合韵律信息进行连续数字精确分割,能够有效区分易混数字。算法采用两级识别框架来提高语音识别率,其中,第1级对连续数字分割,在此基础上进行数字语音识别,输出各候选结果,第2级在候选结果中确定易混数字对,并运用韵律信息进一步选择正确结果。实验表明,最终汉语连续数字语音识别率有很大提高。相似文献

13.

Cooperative Transmissions in 5G Large-scale Relay Systems: How to Keep a Balance Between Performance and Complexity?

Zhongyuan Zhao Mugen Peng Yingna Ma Yong Li Yang Changqing Yong Wu 《Journal of Signal Processing Systems》2016,82(2):207-215

This paper presents a generalized i-vector representation framework with phonetic tokenization and tandem features for text independent as well as text dependent speaker verification. In the conventional i-vector framework, the tokens for calculating the zero-order and first-order Baum-Welch statistics are Gaussian Mixture Model (GMM) components trained from acoustic level MFCC features. Yet besides MFCC, we believe that phonetic information makes another direction that can benefit the system performance. Our contribution in this paper lies in integrating phonetic information into the i-vector representation by several extensions, forming a more generalized i-vector framework. First, the tokens for calculating the zero-order statistics is extended from the MFCC trained GMM components to phonetic phonemes, trigrams and tandem feature trained GMM components, using phoneme posterior probabilities. Second, given the zero-order statistics (posterior probabilities on tokens), the feature used to calculate the first-order statistics is also extended from MFCC to tandem feature, and is not necessarily the same feature employed by the tokenizer. Third, the zero-order and first-order statistics vectors are then concatenated and represented by the simplified supervised i-vector approach followed by the standard Probabilistic Linear Discriminant Analysis (PLDA) back-end. We study different token and feature combinations, and we show that the feature level fusion of acoustic level MFCC features and phonetic level tandem features with GMM based i-vector representation achieves the best performance for text independent speaker verification. Furthermore, we demonstrate that the phonetic level phoneme constraints introduced by the tandem features help the text dependent speaker verification system to reject wrong password trials and improve the performance dramatically. Experimental results are reported on the NIST SRE 2010 common condition 5 female part task and the RSR 2015 part 1 female part task for text independent and text dependent speaker verification, respectively. For the text independent speaker verification task, the proposed generalized i-vector representation outperforms the i-vector baseline by relatively 53 % in terms of equal error rate (EER) and norm minDCF values. For the text dependent speaker verification task, our proposed approach also reduced the EER significantly from 23 % to 90 % relatively for different types of trials. 相似文献

14.

基于特征融合的海洋哺乳动物声音识别

钟鸣拓蔡文郁《电子科技》2019,32(5):32-37

为了提高海洋哺乳动物声音识别算法的识别率和鲁棒性,提出了一种将梅尔倒谱系数MFCC、线性倒谱系数LFCC和时域特征融合作为特征参数进行声音识别的方法。该方法通过融合不同倒谱系数以增强对不同频段的表征能力,通过融合时域特征来更全面地描述声音信息。声音样本通过基于海洋环境下的预处理、特征提取与融合后,用支持向量机进行分类识别。相对于传统算法只针对一种或几种哺乳动物进行识别,该方法在包含61种海洋哺乳动物声音的样本库中进行测试。测试结果显示该算法较传统的梅尔倒谱系数在识别率上提升了5.5%,且在海洋低信噪比环境下有更好的识别表现。相似文献

15.

高阶MFCC的话者识别性能及其噪声鲁棒性 总被引：6，自引：0，他引：6

李霄寒戴蓓倩方绍武刘鸣《信号处理》2001,17(2):124-129

在一个以MFCC为特征参数的语音识别系统中,人们通常采用低阶的MFCC系数作为语音帧的特征矢量.本文对MFCC的高、低阶系数在与文本有关的话者识别中体现出的识别性能和噪声鲁棒性分别进行了实验分析,发现高阶的MFCC系数在干净环境下对于话者识别而言具有与低阶MFCC系数相当的识别性能,并且当环境信噪比恶劣时,高阶的MFCC系数表现出比低阶MFCC系数更强的噪声鲁棒性.基于这个结果,本文将高阶系数的取值范围进一步向低阶拓展,只滤除最易受噪声影响的几个系数,并与Delta参数相结合形成新的特征矢量.实验证明,这种经过适当选取的MFCC系数同时具有良好的话者识别性能和噪声鲁棒性. 相似文献

16.

基于MFCC0的语音端点检测方法

舒倩李银国《通信技术》2007,40(11):374-375,378

MFCC是语音识别中常用的特征参数，根据MFCC分量对语音端点的敏感性，提出利用平常舍去的识别特征参数分量MFCC0作为语音端点检测的参量．接着根据MFCC0的特性设计了一种新的端点检测方法，该方法简单且无需增加额外的计算量．实验结果表明，基于该方法的语音识别系统不仅可以通过端点检测大大压缩数据量，而且提高了系统的识别率．相似文献

17.

一种基于多尺度特征融合的目标检测算法

张涛张乐《激光与光电子学进展》2021,(2):286-292

基于深度学习的目标检测器RetinaNet和Libra RetinaNet均是使用特征金字塔网络融合多尺度特征,但上述两个检测器存在特征融合不充分的问题。鉴于此,提出一种多尺度特征融合算法。该算法是在Libra RetinaNet的基础上进一步扩展,通过建立两条自底向上的路径构建两个独立的特征融合模块,并将两个模块产生的结果与原始预测特征融合,以此提高检测器的精度。将多尺度特征融合模块与Libra RetinaNet结合构建目标检测器并在不同的数据集上进行实验。实验结果表明,与Libra RetinaNet检测器相比,加入模块后的检测器在PASCAL VOC数据集和MSCOCO数据集上的平均精度分别提高2.2个百分点和1.3个百分点。相似文献

18.

基于变换域多合成规则的双色中波红外图像融合

下载免费PDF全文

杨风暴蔺素珍《红外与激光工程》2014,43(11):3663-3669

为了综合多个合成规则的优点,取得更好的双色中波红外图像融合效果,提出了基于变换域多合成规则的融合方法.采用支持度变换分别获得两个中波细分波段图像的低频成分图像和支持度图像序列;根据像素值最大法、区域特征最大法、区域特征加权法等合成规则的特点,提出了低频成分图像三个合成规则的组合方法;根据支持度图像的能量最大法、区域特征加权法等合成规则的特点,提出了支持度图像序列两个合成规则的组合方法.与单一合成规则的方法相比,融合后的图像局部标准偏差、局部粗糙度和融合质量参数分别提高了6.77%、4.86%和9.59%,实验结果证明了该融合方法的有效性. 相似文献

19.

基于多特征融合的人脸识别算法

苏饶李菲菲陈虬《电子科技》2019,32(7):43-48

针对局部二值模式描述子提取的纹理信息以及梯度幅值量化算子提取的边缘特征无法有效且全面地描述人脸信息的问题,文中提出一种基于马尔可夫稳态特征模型的多特征融合算法。首先,将通过GMQ算子提取的边缘特征以及通过LBP描述子提取的纹理特征分别与马尔可夫稳态特征模型进行融合,然后再将两者进行有效地线性加权融合。最后,在ORL数据集上进行的实验显示,文中提出算法的识别精度可达到 95.83%。与单一的特征提取算法以及常见的人脸识别算法对比结果表明了该方法的有效性。相似文献

20.

基于正交多项式变换的图像融合算法

徐杰锋李爱国覃征《微电子学与计算机》2006,23(11):93-95

将1维的OPT推广为2维OPT,在此基础上提出了一种基于正交多项式变换的图像融合算法.正交多项式变换将图像的主要特征映射到时域特征空间,而将图像的细节特征映射为白噪声.融合处理在特征空间中进行.实验结果表明,在降噪方面该算法优于离散小波变换方法、拉普拉斯金字塔方法和Morphological金字塔方法. 相似文献