期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

茅正冲王正创龚熙《计算机应用与软件》2014,(12)

为了提高低信噪比下说话人识别系统的性能,提出一种Gammatone滤波器组与改进谱减法的语音增强相结合的说话人识别算法。将改进的谱减法作为预处理器,进一步提高语音信号的信噪比,再通过Gammatone滤波器组,对增强后的说话人语音信号进行处理,提取说话人语音信号的特征参数GFCC,进而将特征参数GFCC用于说话人识别算法中。仿真实验在高斯混合模型识别系统中进行。实验结果表明,采用这种算法应用于说话人识别系统,系统的识别率及鲁棒性都有明显的提高。相似文献

2.

基于GFCC与RLS的说话人识别抗噪系统研究

茅正冲王正创黄芳《计算机工程与应用》2015,51(10):215-218

为了提高说话人识别抗噪系统的性能,提出了将RLS自适应滤波器作为语音信号去噪的预处理器,进一步提高语音信号的信噪比,再通过Gammatone滤波器组,对去噪后的说话人语音信号进行处理,提取说话人语音信号的特征参数GFCC,进而将特征参数GFCC用于说话人识别系统中。仿真实验在高斯混合模型识别系统中进行。实验结果表明,采用这种方法应用于说话人识别抗噪系统,系统的识别率及鲁棒性都有明显的提高。相似文献

3.

语音信号特征参数的分析和选取

《信息与电脑》2018,(5)

在与文本有关的说话人识别系统中,既需要识别说话人的身份,又需要识别语音文本的内容。语音信号特征参数的选取对系统来说至关重要。目前,在传统语音识别系统的研究中,主要采用MFCC参数作为特征参数进行识别。笔者对语音信号特征参数进行分析,对不同的语音特征参数组合进行实验。实验结果证明,在该系统中,MFCC参数与基音参数的组合提高了系统的识别率。相似文献

4.

基于GMM的说话人识别算法的研究与应用

吴慧玲杜成东毛鹤《现代计算机》2014,(5):31-35

说话人识别是根据检测到的语音进行说话人身份的认证．是将待识别语音与数据库中的说话人语音进行匹配的过程。设计基于高斯混合模型（GMM）说话人识别系统,提取输入语音的Mel倒谱系数作为观察向量,用GMM算法进行说话人语音模型训练和识别。同时设计基于TMS320DM3730DSP的嵌入式硬件平台,并在该平台上实现所设计的说话人识别系统。为进行性能测试,自行录制相应的语音材料库,录音的人数为38人,其中男19人,女19人。经测试表明,在正常环境下．该设计的说话人系统识别率可达到95％以上。相似文献

5.

低速率信道环境下鲁棒的说话人确认

石如亮王波李弼程高新建《计算机应用》2007,27(4):919-921

研究了多种低速率信道环境下，语音编码对与文本无关说话人确认的影响。针对训练和测试语音匹配和不匹配的两种情况下，分别提出了两种方法来提高系统的鲁棒性。在前者中，通过分析语音编码对LPCC参数的影响，提出了一种基于编码失真的 LPCC 加权参数。在后者中，采用了基于高斯混合模型（GMM）的语音编码检测器，通过判别测试语音的编码类型，选择不同的说话人确认模型。实验结果表明，这两种方法提高了说话人确认系统在多信道条件下的鲁棒性。相似文献

6.

一种结合支持向量机训练的锚模型语种识别方法

常振超张兴明杨镇西张丽《小型微型计算机系统》2013,34(4)

在针对电话语音的语种识别系统中,训练语音和测试语音之间存在不同说话人的个性差异带来的干扰,是影响系统识别性能的一个重要因素.基于此,本文首先对当前语种识别系统中消除此影响的方法进行研究,对比分析它们各自的优缺点,选择将锚模型方法引入语种识别系统中,该方法将语料映射至说话人无关的锚超矩阵进而消除说话人相关信息.针对锚超矩阵的选择存在语种混淆和信息冗余等问题,本文并提出一种结合支持向量机的锚模型训练算法,该方法下得到的锚超矩阵更具语种区分性,并去除了混淆信息的影响,增强了矩阵的紧致性.实验结果表明,新方法下的锚模型映射方法能有效提高基线系统的识别性能,并降低了语种识别系统训练和识别时的计算量. 相似文献

7.

说话人自适应技术在维吾尔语语音识别中的应用研究

努尔麦麦提·尤鲁瓦斯张力文吾守尔·斯拉木《中文信息学报》2016,30(3):79-84

该文针对维吾尔语说话人之间的发音差异会在一定程度上影响维吾尔语语音识别系统的性能这一情况研究了说话人自适应技术,将目前较为常用的MLLR和MAP以及MLLR和MAP相结合的自适应方法应用于维吾尔语连续语音识别的声学模型训练中,并用这三种方法自适应后的声学模型分别在测试集上进行识别实验。实验结果表明MLLR、MAP以及MAP+MLLR自适应方法使基线识别系统的单词错误识别率分别降低了0.6%、2.34%和2.57%。
相似文献

8.

说话人识别中语速鲁棒性研究

《微型机与应用》2016,(7):54-56

如今,说话人识别技术已经比较成熟,但依然有很多因素影响说话人识别系统的稳定性。本文针对说话速度对说话人识别的影响进行了一系列的研究工作。通过模型空间分布可视化和语音频谱观察两方面来分析不同语速语音的差距。然后,提出了最大似然线性回归(MLLR)和Constraint MLLR(CMLLR)的方法对模型和特征进行变换,使训练端和测试端的语音特征互相接近匹配。通过实验发现,MLLR和CMLLR能较好地提高说话人识别系统中语速鲁棒性。相似文献

9.

低速率语音压缩编码对语音识别系统的影响

程强崔慧娟唐昆《计算机应用研究》2003,20(9):22-25,28

通过窄带信道将语音信号传输到远端的识别系统，从而实现远距离的人机对话，具有重要的现实意义。在2．4kbps的速率下，语音编码算法依然可以合成出可懂度非常高的语音，但是这样的语音信号与原始语音相比还是有巨大的损失。低速率语音编码算法对于语音识别产生的影响是巨大的，因此必须想办法减轻这种损失对于识别的损害。在此选择了三种不同的低速率语音编码器，分别使用LPC(Linear Pledictive Coding，线性预测)算法、MELP(Mixed Excitation Linear Prediction，混合激励线性预测)算法和IMBE(Improved Multiband Excitation，增强多带激励)算法，都在2．4kbps的速率下工作，将其对语音识别系统的影响进行了比较。对于特定人连续语音识别系统和非特定人连接词识别系统，在使用不同的特征矢量时，不同编码器产生的识别效果有比较大的差异。实验结果表明，语音编码器和语音识别系统的结构有很重要的联系，尽量采用相近的结构有助于获得良好的识别结果。另外，改变提取语音识别特征参数的方式也会有利于提高语音识别系统的性能。相似文献

10.

语音识别中神经网络声学模型的说话人自适应研究

《计算机应用与软件》2018,(2)

针对语音识别系统中测试的目标说话人语音和训练数据的说话人语音存在较大差异时,系统识别准确率下降的问题,提出一种基于深度神经网络DNN(Deep Neural Network)的说话人自适应SA(Speaker Adaptation)方法。它是在特征空间上进行的说话人自适应,通过在DNN声学模型中加入说话人身份向量I-Vector辅助信息来去除特征中的说话人差异信息,减少说话人差异的影响,保留语义信息。在TEDLIUM开源数据集上的实验结果表明,该方法在特征分别为fbank和f MLLR时,系统单词错误率WER(Word Error Rate)相对基线DNN声学模型提高了7.7%和6.7%。相似文献

11.

G．729A语音编解码算法的优化

仲伟峰段双军《自动化技术与应用》2010,29(1):23-26

本文主要是对G．729A语音编解码算法和定点数字信号处理芯片TMS320C55x的研究,提出了简化算法和优化代码的方案。结果表明,得到了预期的8Kb／s的低码速率、较低的算法延时和极高的语音音质。相似文献

12.

基于分布特征统计的说话人识别 总被引：2，自引：2，他引：0

下载免费PDF全文

李邵梅郭云飞卫红权《计算机工程与应用》2009,45(34):118-120

给出了基于公共码书的说话人分布特征的定义。提出了基于分布特征统计的说话人识别算法,根据所有参考说话人的训练语音建立公共码书,实现对语音特征空间的分类,统计各参考说话人训练语音的在公共码字上的分布特征进行建模。识别中引入双序列比对方法进行识别语音的分布特征统计与参考说话人模型间的相似度匹配,实现对说话人的辨认。实验表明,该方法保证识别率的情况下,进一步提高了基于VQ的说话人识别的速度。相似文献

13.

基于独立分量分析和矢量量化的说话人识别

屈微刘贺平《计算机应用》2005,25(10):2401-2403

使用独立分量分析（ICA）来提取说话人特征并与矢量量化（VQ）判决方法相结合,实现了一个高性能的基于ICA特征的VQ （ICA VQ）说话人识别系统。通过ICA变换得到说话人语音特征基函数系数用于生成VQ码书,并导出包含能量失真的ICA VQ码书失真测度和质心确定条件,生成最终的判决。仿真实验中ICA提取的特征分别用于不同系统实现说话人确认任务,各系统的DET曲线对比验证了VQ方法用于ICA特征分类判决的优势,同时不同码书尺寸下的等差率（EER）对比证明了VQ码书设计的有效性。相似文献

14.

基于T矩阵归一化PLDA的说话人确认

缑新科王跃《计算机与现代化》2017,(10):53

利用i-vector/PLDA模型进行说话人确认时,对于不定时间的语音,由于将长度归一化后的i-vector转化到PLDA模型时,伴随着不确定性的扭曲和缩放,影响识别率。本文通过对全变量空间矩阵T的列向量执行归一化,代替在PLDA模型上对i-vector进行长度归一化,避免因在i-vector上执行长度归一化,导致转移到PLDA模型上产生不良的扭曲。实验结果表明,该方法得到和长度归一化相似的效果,部分效果要优于长度归一化。相似文献

15.

Extraction of Speaker Features from Different Stages of DSR Front-Ends for Distributed Speaker Verification

Man-Wai?Mak Email author Chin-Hung?Sit Sun-Yuan?Kung 《International Journal of Speech Technology》2005,8(1):67-77

The ETSI has recently published a front-end processing standard for distributed speech recognition systems. The key idea of the standard is to extract the spectral features of speech signals at the front-end terminals so that acoustic distortion caused by communication channels can be avoided. This paper investigates the effect of extracting spectral features from different stages of the front-end processing on the performance of distributed speaker verification systems. A technique that combines handset selectors with stochastic feature transformation is also employed in a back-end speaker verification system to reduce the acoustic mismatch between different handsets. Because the feature vectors obtained from the back-end server are vector quantized, the paper proposes two approaches to adding Gaussian noise to the quantized feature vectors for training the Gaussian mixture speaker models. In one approach, the variances of the Gaussian noise are made dependent on the codeword distance. In another approach, the variances are a function of the distance between some unquantized training vectors and their closest code vector. The HTIMIT corpus was used in the experiments and results based on 150 speakers show that stochastic feature transformation can be added to the back-end server for compensating transducer distortion. It is also found that better verification performance can be achieved when the LMS-based blind equalization in the standard is replaced by stochastic feature transformation. 相似文献

16.

言语信息处理的进展 总被引：1，自引：0，他引：1

蔡莲红贾珈郑方《中文信息学报》2011,25(6):137-142

该文介绍了言语信息处理的进展,特别提到汉语言语处理的现状。言语信息处理涉及到言语识别、说话人识别、言语合成、言语知觉计算等。带口音和随意发音的言语识别有力的支持了语言学习与口语水平测评等应用;跨信道、环境噪音、多说话人、短语音、时变语音等因素存在的情况下提高识别正确率,是说话人识别的研究热点;言语合成主要关注多语言合成、情感言语合成、可视言语合成等;言语知觉计算开展了言语测听、噪声抑制算法、助听器频响补偿方法、语音信号增强算法等研究。将言语处理技术与语言、网络有效结合,促进了更加和谐的人机言语交互。相似文献

17.

基于声纹嵌入的语音增强算法

高戈曾邦王霄尹文兵陈怡《计算机应用研究》2022,39(3):688-692

频域语音增强算法在高信噪比的条件下有明显的降噪效果,而在低信噪比条件下频域语音增强算法的性能会大幅下降。针对这个问题,将基于声纹的掩码应用到频域语音增强网络,利用声纹的先验信息,提升网络对说话人和噪声的区分度。另外,为了进一步改善频域语音算法在低信噪比条件下的性能,提出基于映射的声纹嵌入语音增强算法,避免了可能因采用掩模方案造成的语音失真问题。实验结果表明,在引入相同声纹信息时,基于映射的声纹嵌入语音增强网络在低信噪比条件下的增强性能表现更好,特别是在改善语音失真方面优势明显。相较于基于掩模的声纹掩码网络,基于映射的声纹嵌入网络在PESQ、STOI和SSNR这三项指标上分别实现了6.40%、1.46%和24.84%的相对提升。相似文献

18.

基于基音周期的语音MFCC参数提取

陈迪龚卫国杨利平《计算机应用》2007,27(5):1217-1219

提出了一种可用于改善说话人识别效果的基于基音周期的可变窗长语音MFCC参数提取方法。基本原理是将原始的语音分解为当前基音周期整数倍长度以内部分及其以外部分，并保留前者舍去后者，以减小训练语音与测试语音的频谱失真。通过文本无关的说话人确认实验，验证了该方法能有效提高说话人确认的识别率，并能提高短时语音的稳定性。相似文献

19.

基于矢量量化技术的钢水连铸下渣检测方法的研究 总被引：1，自引：0，他引：1

李培玉邹福星《计算机测量与控制》2005,13(6):514-516

在钢水浇注后期,为了提高钢材质量,需要判断钢水浇铸是否下渣。矢量量化技术作为一种非参数的模式识别方法,已经成功应用于语音编码、语音合成、语音识别和说话人识别方面。在分析大量浇铸机构振动信号的基础上,创造性地把矢量量化技术引入钢水浇铸的下渣识别中。实验结果表明,这种方法是有效的。相似文献

20.

Modeling, estimating, and compensating low-bit rate coding distortion in speech recognition

《IEEE transactions on audio, speech, and language processing》2006,14(1):246-255

A solution to the problem of speech recognition with signals distorted by low-bit rate coders is presented in this paper. A model for the coding-decoding distortion, a HMM compensation method to include this model, and an EM-based adaptation algorithm to estimate this distortion are proposed here. Medium vocabulary continuous-speech speaker-independent recognition experiments with 8 kbps G.729(CS-CELP), 13 kbps RPE-LTP (GSM), 5.3 kbps G723.1, 4.8 kbps FS-1016 and 32 kbps G.726(ADPCM) coders show that the approach described in this paper is able to dramatically reduce the effect of the coding distortion and, in some cases, gives a word accuracy higher than the baseline system with uncoded speech. Finally, the EM estimation algorithm requires only one adapting utterance and the approach described is certainly suitable for dialogue systems where just a few adapting utterances are available. 相似文献