期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

Utterance Verification Using Search Confusion Rate and Its N‐Best Approach

Kyuhong Kim Hoirin Kim Minsoo Hahn 《ETRI Journal》2005,27(4):461-464

Recently, a variety of confidence measures for utterance verification has been studied to improve speech recognition performance by rejecting out‐of‐vocabulary inputs. Most of the conventional confidence measures for utterance verification are based primarily on hypothesis testing or an approximated posterior probability, and their performances depend on the robustness of an alternative hypothesis or the prior probability. We introduce a novel confidence measure called a search confusion rate (SCR), which does not require an alternative hypothesis or the approximation of posterior probability. Our confusion‐based approach shows better performance in additive noise‐corrupted speech as well as in clean speech. 相似文献

2.

ZHAO Jian DONG Yuan ZHAO Xian-yu YANG Hao WANG Hai-la 《中国邮电高校学报(英文版)》2008,15(2):130-134

Speaker adaptive test normalization （ATnorm） is the most effective approach of the widely used score normalization in text-flldependent speaker verification, which selects speaker adaptive impostor cohorts with an extra development corpus in order to enhance the recognition performance. In this paper, an improved implementation of ATnorm that can offer overall significant advantages over the original ATnorm is presented. This method adopts a novel cross similarity measurement in speaker adaptive cohort model selection without an extra development corpus. It can achieve a comparable performance with the original ATnorm and reduce the computation complexity moderately. With the full use of the saved extra development corpus, the overall system performance can be improved significantly. The results are presented on NIST 2006 Speaker Recognition Evaluation data corpora where it is shown that this method provides significant improvements in system performance, with relatively 14.4% gain on equal error rate （EER） and 14.6% gain on decision cost function （DCF） obtained as a whole. 相似文献

3.

Fast speaker adaptation using extended diagonal linear transformation for deep neural networks

Donghyun Kim Sanghun Kim 《ETRI Journal》2019,41(1):109-116

This paper explores new techniques that are based on a hidden‐layer linear transformation for fast speaker adaptation used in deep neural networks (DNNs). Conventional methods using affine transformations are ineffective because they require a relatively large number of parameters to perform. Meanwhile, methods that employ singular‐value decomposition (SVD) are utilized because they are effective at reducing adaptive parameters. However, a matrix decomposition is computationally expensive when using online services. We propose the use of an extended diagonal linear transformation method to minimize adaptation parameters without SVD to increase the performance level for tasks that require smaller degrees of adaptation. In Korean large vocabulary continuous speech recognition (LVCSR) tasks, the proposed method shows significant improvements with error‐reduction rates of 8.4% and 17.1% in five and 50 conversational sentence adaptations, respectively. Compared with the adaptation methods using SVD, there is an increased recognition performance with fewer parameters. 相似文献

4.

基于GMM的实时说话人识别系统

胡益平蔡骏洪青阳《电声技术》2007,31(6):53-55

介绍了一个基于GMM实时说话人识别系统的设计与实现,系统具有实时说话人辨认和实时说话人确认功能。在实验室条件下,对不同的高斯混合密度个数及采样率进行了测试,测试了模型的自适应性能。实验表明系统具有较好的识别准确率。相似文献

5.

基于GMM-UBM模型的说话人辨识研究

周国鑫高勇《无线电工程》2014,(12):14-17

为了进一步提高基于传统的GMM模型的说话人辨识的识别率,引入了GMM-UBM模型,并且在特征提取方面采用多种特征参数组合来代替单一特征参数,以提高有效特征维数来弥补特征样本的不足,同时在说话人辨识的端点检测部分,用基于MFCC相似度和谱熵的端点检测方法来代替传统的基于短时能量和过零点的方法,以解决其对含噪语音检测不准确而影响说话人辨识的问题。实验表明,与传统的GMM模型相比,GMM-UBM模型能够有效地提高说话人辨识的性能,并且使用组合特征参数和利用基于MFCC相似度和谱熵的端点检测方法都可以进一步提高说话人辨识的性能。相似文献

6.

基于支持向量机的说话人辨认研究 总被引：10，自引：0，他引：10

侯风雷王炳锡《通信学报》2002,23(6):61-67

支持向量机是统计学理论的一个重要的学习方法，也是解决模式识别问题的一个有力的工具，本文提出了用支持向量机来解决说话人辨认问题。结合语音信号的特点，解决了大数据量情况下支持向量机的训练问题。支持向量机对两类的分类问题有着突出的优势，本文用两种判决规则将两类问题应用到多类的识别问题。用支持向量机实现了一个与文本无关的说话人辨认系统，实验表明，本方法有良好的效果。相似文献

7.

应用说话人聚类技术改善语言辨识系统识别率

张强屈丹侯风雷王炳锡《电声技术》2007,31(3):44-48

说话人差异是影响语言辨识系统性能的一个重要方面.采用说话人聚类技术对训练数据进行了预分类,以此为基础训练各种语言模型,得到聚类后的语言辨识系统.高斯混合模型、高斯混合模型-全局背景模型和遍历隐马尔可夫模型3种语言模型的实验证明,这种方法是有效的,它普遍地减小了说话人差异对语言辨识的影响,提高了语言辨识率. 相似文献

8.

金属器件对手机内置单极天线性能的影响 总被引：1，自引：0，他引：1

黄宏春《电子科技》2010,23(3):62-64

提出一种常规的平面双频单极天线,在折叠手机闭合模式下,重点从天线的谐振频率、带宽和增益3个参数角度出发,分别研究了金属器件:扬声器、电池与该平面双频单极天线的相对位置关系,以及对天线性能的影响。并利用HFSS软件优化功能,寻找出扬声器和电池板对平面单极天线性能影响最小的位置组合关系。最后制作了实际模型,与测试验证的仿真结果基本吻合。相似文献

9.

基于说话人分类技术的分级说话人识别研究 总被引：3，自引：0，他引：3

下载免费PDF全文

刘文举孙兵钟秋海《电子学报》2005,33(7):1230-1233

识别正确率和抗噪性能固然是说话人识别的研究重点,但识别响应速度也是决定系统实用化的关键所在.本文成功地提出了基于说话人分类技术的分级说话人辨识方法,极大地提高了系统运行速度,随着注册说话人数的增多,较之传统的说话人辨识方法,其优势更加明显.同时在说话人确认中,该方法的使用,进一步提高了确认的正确率,有效地降低了错误接受和错误拒绝率.本文提出的可信度打分方法,也一定程度上改进了系统的性能.实验表明:基于说话人分类技术的说话人辨识方法使系统的运行速度平均提高了3.5倍,对说话人确认等误识率和最小误识率平均下降了53.75%. 相似文献

10.

基于EBF网络的非线性特征映射器及其在鲁棒话者识别中的应用

李昕郑宇费敏锐《信号处理》2003,19(3):256-261

话者识别系统的性能在实际环境中往往会有很大程度的降低。本文中提出了一种新的基于EBF神经网络的特征映射器,试图克服上述问题。本文通过训练EBF神经网络来构建一个映射器,以失真的语音特征和未失真的语音特征分别作为其输入和相应的理想输出。也就是说,网络将在以失真倒频谱为输入的情况下,给出未失真的倒频谱。在特征恢复阶段,将失真的语音特征通过该特征映射器即可复原成未失真语音特征。这些复原后的语音特征就可以作为未失真语音来对话者模型进行测试。本文通过包含有258个话者的TIMIT和NTIMIT语音集对上述思路进行了试验,实验表明该特征映射器可以显著地改善识别性能。相似文献

11.

Text‐Independent Speaker Verification Using Variational Gaussian Mixture Model

Mohammad Hossein Moattar Mohammad Mehdi Homayounpour 《ETRI Journal》2011,33(6):914-923

This paper concerns robust and reliable speaker model training for text‐independent speaker verification. The baseline speaker modeling approach is the Gaussian mixture model (GMM). In text‐independent speaker verification, the amount of speech data may be different for speakers. However, we still wish the modeling approach to perform equally well for all speakers. Besides, the modeling technique must be least vulnerable against unseen data. A traditional approach for GMM training is expectation maximization (EM) method, which is known for its overfitting problem and its weakness in handling insufficient training data. To tackle these problems, variational approximation is proposed. Variational approaches are known to be robust against overtraining and data insufficiency. We evaluated the proposed approach on two different databases, namely KING and TFarsdat. The experiments show that the proposed approach improves the performance on TFarsdat and KING databases by 0.56% and 4.81%, respectively. Also, the experiments show that the variationally optimized GMM is more robust against noise and the verification error rate in noisy environments for TFarsdat dataset decreases by 1.52%. 相似文献

12.

基于稀疏组LASSO约束的本征音子说话人自适应

屈丹张文林《通信学报》2015,36(9):47-54

本征音子说话人自适应方法在自适应数据量不足时会出现严重的过拟合现象,提出了一种基于稀疏组LASSO约束的本征音子说话人自适应算法。首先给出隐马尔可夫—高斯混合模型下本征音子说话人自适应的基本原理;然后将稀疏组LASSO正则化引入到本征音子说话人自适应,通过调整权重因子控制模型的复杂度,并通过一种加速近点梯度的数学优化算法来实现;最后将稀疏组LASSO约束的自适应算法与当前多种正则化约束的自适应方法进行比较。汉语连续语音识别的说话人自适应实验表明,引入稀疏组LASSO约束后,本征音子说话人自适应方法的性能得到了明显提高,且稀疏组LASSO约束方法优于l1、l2和弹性网正则化方法。相似文献

13.

基于STM32的扬声器功率测试仪实现

周静雷乔站仙王仔鸣《黑龙江电子技术》2013,(12):61-63

扬声器功率测试是电声企业对其生产的扬声器性能评估的一项重要的基本测试项目,是评判扬声器实际功率是否符合标称的额定功率的一项重要依据.文中结合业内公认的扬声器功率测试标准,介绍了扬声器功率测试的基本原理及方法,以及从硬件方面给出一种详细的具体的实现方法,并简单阐述了上位机软件的实现. 相似文献

14.

基于本征音子说话人子空间的说话人自适应算法

屈丹张文林《电子与信息学报》2015,37(6):1350-1356

本征音子说话人自适应算法在自适应数据量充足时可以取得很好的自适应效果,但在自适应数据量不足时会出现严重的过拟合现象。为此该文提出一种基于本征音子说话人子空间的说话人自适应算法来克服这一问题。首先给出基于隐马尔可夫模型-高斯混合模型(HMM-GMM)的语音识别系统中本征音子说话人自适应的基本原理。其次通过引入说话人子空间对不同说话人的本征音子矩阵间的相关性信息进行建模;然后通过估计说话人相关坐标矢量得到一种新的本征音子说话人子空间自适应算法。最后将本征音子说话人子空间自适应算法与传统说话人子空间自适应算法进行了对比。基于微软语料库的汉语连续语音识别实验表明,与本征音子说话人自适应算法相比,该算法在自适应数据量极少时能大幅提升性能,较好地克服过拟合现象。与本征音自适应算法相比,该算法以较小的性能牺牲代价获得了更低的空间复杂度而更具实用性。相似文献

15.

Delta特征用于说话人识别的研究

张凯朱立新金家宝《电声技术》2009,33(4):52-55

多数说话人识别方法采用的都是基于对语音信号的静态特征进行分析,忽略了语音信号动态特征对识别性能的影响。而Delta特征是反映语音信号帧间动态特征的重要特征,对LPC和它的Delta特征进行了具体实例求解,并对计算结果进行了分析,探讨了将它用于说话人识别系统的有效性和可行性。相似文献

16.

基于话者因子评分的说话人确认

周毓李辉刘青松《电子技术》2011,38(7)

针对基于因子分析模型的说话人确认系统评分的复杂性以及需要较大运算量的问题,文章直接利用话者因子的余弦距离相似度来计算评分。首先在训练阶段和测试阶段分别用因子分析的方法从语音中估计出话者因子,然后直接利用话者因子评分。对比SVM和其它的JFA-GMM-UBM话者确认系统,本文中所采用的系统训练阶段和测试阶段的流程相同,并且目标话者模型只需要存储话者因子,存储量少。在NIST2008数据库上的实验结果表明,余弦距离评分对比其它因子分析模型的评分方法,更加简单,并且话者确认系统的性能也有提高。相似文献

17.

一种GMM对数似然得分变换方法

冷自强王金明《电子质量》2009,(1):8-9

基于高斯混合模型（GMM）的说话人识别方法通常采用对数似然得分作为测试时判定目标说话人的依据。文章在分析对数似然得分特点的基础上,提出了一种改进方法,提高了测试语音帧对于目标模型和非目标模型得分的相对差值。基于TIMIT数据库的实验证明了采用变换后似然得分的说话人识别系统比采用对数似然得分的系统具有更好的识别性能和抗噪声性能。相似文献

18.

基于支持向量机的说话人识别研究 总被引：1，自引：0，他引：1

赵虹韦丽华《现代电子技术》2007,30(6):125-127

说话人识别技术的研究是智能信息处理的研究热点问题之一。支持向量机是统计学习理论的一个重要学习方法,也是解决模式识别问题的一个有力工具。介绍了模式识别的分类原理,提出基于支持向量机的说话人识别模型。通过把所得到的结果与原有VQ模型的试验结果相比较,表明该方法具有较高的识别准确率。相似文献

19.

基于高斯相似度分析的插值自适应算法

下载免费PDF全文

吕萍王作英陆大《电子学报》2001,29(Z1):1759-1761

快速说话人自适应算法在非特定人连续语音识别的应用中有重要意义.现在流行的自适应算法多数只考虑均值的自适应.本文提出的自适应算法可以快速的对协方差矩阵进行自适应.该算法是用高斯相似度度量协方差矩阵间的距离,并由此测度建立了反映协方差矩阵结构关系的二叉决策树.树的每个中间节点包含一个类质心.在决策树基础上,训练多个与特定人模型相关的类质心.自适应时,通过对这些类质心进行线性插值得到自适应的协方差矩阵.实验结果表明,该方法能够在仅有一句自适应数据的情况下,使系统误识率由29.49%下降到27.55%. 相似文献

20.

具有环境自学习机制的鲁棒说话人识别算法

张靖俞一彪《通信技术》2020,(3):618-624

说话人识别系统实际应用时,一旦应用环境和训练环境不一致,系统的性能会急剧下降。由于环境噪声的多变性,系统训练时无法预测实际应用中的环境噪声。因此,引入环境自学习和自适应思想,通过改进的矢量泰勒级数(Vector Taylor Series,VTS)刻画环境噪声模型和说话人语音模型之间的统计关系,提出一种具有环境自学习能力的鲁棒说话人识别算法。系统应用中每当环境变化时利用语音输入前采集到的环境噪声信号来迭代更新环境噪声模型参数,进一步基于VTS确立的统计关系,将说话人语音模型自适应到实际应用环境来补偿环境失配的影响。说话人辨认实验结果表明,提出的方法在低信噪比条件下对于不同种类的噪声都能显著提升系统的识别性能。相似文献