首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
针对存在情感差异性语音情况下说话人识别系统性能急剧下降以及缺乏充足情感语音训练说话人模型的问题,提出一种基于基频的情感语音聚类的说话人识别方法,能有效利用系统可获取的少量情感语音.该方法通过对男女说话人设定不同的基频阈值,根据阈值,对倒谱特征进行聚类,为每个说话人建立不同基频区间的模型.在特征匹配时,选用最大似然度的基频区间模型的得分作为该说话人的得分.在中文情感语音库上的测试结果表明,与传统的基于中性训练语音的高斯混合模型说话人识别方法和结构化训练方法相比,该方法具有更高的识别率.  相似文献   

2.
论文针对说话人识别中语音能量变化和噪声对提取有效语音数据的影响,在传统时域语音切分算法犤1,3犦的基础上,提出了三种孤立词的精确切分算法和一种连续语音的非精确切分算法。实验表明,新算法较好地克服了语音能量变化对切分的影响,在原始语音具有较高信噪比(≥10dB)的情况下,能够切除某些短时噪声和白噪声犤2犦。  相似文献   

3.
本文提出一种基于词格信息的置信度计算方法,估计自适应语音识别结果的可靠性,将不可靠的语音从自适应训练集中去掉,从而减小无监督自适应与有监督自适应间的性能差异,提高无监督自适应的性能。  相似文献   

4.
在说话人空间中,存在语音特征随句子和时间差异而变化的问题。这个变化主要是由语音数据中的语音信息和说话人信息的变化引起的。如果把这两种信息彼此分离就能实现鲁棒的说话人识别。在假设大的说话人变量的空间为“语音空间”和小的说话人变量的空间为“说话人空间”的情况下,通过子空间方法分离语音信息和说话人信息,提出了说话人辨认和说话人确认方法。结果显示:通过相对于传统方法的比较试验,能用小量训练数据建立鲁棒说话人模型。  相似文献   

5.
语音识别/说话人识别中的高效算法   总被引:1,自引:0,他引:1  
通过对硬件平台特点的研究,采用了多帧同步搜索算法、马氏距离并行内积化和并行指令集的技术对语音识别和说话人识别进行了优化,识别速度提高了3倍。在P41.4GHz的机器上,可以同时完成120路的说话人识别任务。  相似文献   

6.
考勤是高校教育管理制度的重要手段之一,传统的人工点名方法耗时耗力效率低下,然而现有的新技术点名系统难于实现、不便于推广或准确率不高。针对上述问题,设计一种基于说话人识别及语音数字识别技术协同决策、基于VC与Matlab混合编程开发技术的电子点名系统,易于实现及应用推广、自动化和实用性强,且通过实验表明,该系统具有高准确率。  相似文献   

7.
基于矢量量化的说话人识别研究   总被引:7,自引:0,他引:7  
说话人识别可以看作语音识别的一种,是当前研究的热点之一。阐明了说话人识别的基本概念、发展状况以及原理和方法,并介绍了一种基于矢量量化的且与文本无关的说话人识别系统。  相似文献   

8.
基于高斯语音滤波的稳健文本无关说话人识别   总被引:5,自引:1,他引:4  
基于高斯模型,提出一种去除实际电话录音中噪音、静音等非语音信号的新方法。与传统的语音检测器方法相比,基于高斯语音滤波的方法在不同信道条件下都可以自动进行,更好地保留了与说话人身份有关的信息。实验结果表明,采用该方法的系统的等错误率比传统方法最多下降了21.2%。  相似文献   

9.
基于Fisher准则与SVM的分层语音情感识别   总被引:1,自引:0,他引:1  
针对说话人无关的语音情感识别,提出一个分层语音情感识别模型,由粗到细识别悲伤、愤怒、惊奇、恐惧、喜悦和厌恶6种情感.每层采用Fisher比率从288个备选特征中选择适合该层分类的特征,同时将Fisher比率作为输入参数训练该层的支持向量机分类器.基于北京航空航天大学情感语音数据库和德国柏林情感语音数据库,设计4组对比实验,实验结果表明,Fisher准则在两两分类特征选择上优于PCA,SVM在说话人无关的语音情感识别推广方面优于人工神经网络(ANN).在两个数据库的基础上得到类似结果,说明文中分类模型具有一定的跨文化适应性.  相似文献   

10.
语音是人机交互方式之一,语音识别技术是人工智能的重要组成部分.近年来神经网络技术在语音识别领域的应用快速发展,已经成为语音识别领域中主流的声学建模技术.然而测试条件中目标说话人语音与训练数据存在差异,导致模型不适配的问题.因此说话人自适应(SA)方法是为了解决说话人差异导致的不匹配问题,研究说话人自适应方法成为语音识别领域的一个热门方向.相比传统语音识别模型中的说话人自适应方法,使用神经网络的语音识别系统中的自适应存在着模型参数庞大,而自适应数据量相对较少等特点,这使得基于神经网络的语音识别系统中的说话人自适应方法成为一个研究难题.首先回顾说话人自适应方法的发展历程和基于神经网络的说话人自适应方法研究遇到的各种问题,其次将说话人自适应方法分为基于特征域和基于模型域的说话人自适应方法并介绍对应原理和改进方法,最后指出说话人自适应方法在语音识别中仍然存在的问题及未来的发展方向.  相似文献   

11.
The shapes of speakers' vocal organs change under their different emotional states, which leads to the deviation of the emotional acoustic space of short-time features from the neutral acoustic space and thereby the degradation of the speaker recognition performance. Features deviating greatly from the neutral acoustic space are considered as mismatched features, and they negatively affect speaker recognition systems. Emotion variation produces different feature deformations for different phonemes, so it is reasonable to build a finer model to detect mismatched features under each phoneme. However, given the difficulty of phoneme recognition, three sorts of acoustic class recognition--phoneme classes, Gaussian mixture model (GMM) tokenizer, and probabilistic GMM tokenizer--are proposed to replace phoneme recognition. We propose feature pruning and feature regulation methods to process the mismatched features to improve speaker recognition performance. As for the feature regulation method, a strategy of maximizing the between-class distance and minimizing the within-class distance is adopted to train the transformation matrix to regulate the mismatched features. Experiments conducted on the Mandarin affective speech corpus (MASC) show that our feature pruning and feature regulation methods increase the identification rate (IR) by 3.64% and 6.77%, compared with the baseline GMM-UBM (universal background model) algorithm. Also, corresponding IR increases of 2.09% and 3.32% can be obtained with our methods when applied to the state-of-the-art algorithm i-vector.  相似文献   

12.
探索在不同的情感状态下的基音特征变化规律.通过对含有生气、高兴、悲伤情感语音信号进行分析,总结了情感语音基频的变化规律,确定了用于情感识别的12维的基频的基本特征以及扩展特征,运用混合高斯模型进行情感识别,并作了识别实验,获得了较好的结果.  相似文献   

13.
随着说话人模型数量的增加,说话人识别系统的识别速度下降,不能满足实时性要求。针对这个问题,提出了基于分层识别模型的快速说话人识别方法。将变分法求解的KL散度的近似值作为模型间的相似性度量准则,并设计了说话人模型聚类的方法。结果表明,本文方法能够保证说话人模型聚类结果的有效性,在系统识别率损失很小的情况下,使系统的识别速度得到大幅度提升。  相似文献   

14.
为了探讨高斯混合模型在说话人识别中的作用,设计了一个基于GMM的说话人识别系统。整个系统由音频信号预处理,语音活动检测,说话人模型建立以及音频信号识别4个模块组成。前三个模块构成了系统的模型训练部分,最后一个模块构成了系统的语音识别部分。包含在第二个模块中的由GMM模型搭建的语音活动检测器是研究的创新之处。利用增强的多方互动会议语料库中的视听会议对系统中的部分可调参数以及系统的识别错误率进行了测试。仿真结果表明,在语音活动检测器和若干滤波算法的帮助下,系统对包含重叠语音的音频信号的识别准确率可以达到83.02%。  相似文献   

15.
说话人身份识别是一项重要的生物识别技术,多种基于深度卷积神经网络(DNN)的模型结构表现出越来越强的特征表达能力,并形成了统一的端到端说话人识别系统,取得了优于传统识别模型的性能。其中聚合模型聚合的话语级特征是影响说话人识别系统准确率的关键因素之一。目前大多数的方法是使用self-attention pooling(SAP)聚合模型。然而SAP聚合模型经常会无法准确地进行帧选择,聚合出的话语级特征不准确、鲁棒性弱。在SAP聚合模型的聚合方式上进行了改进,通过引入平均向量方法,构建了一种改进的聚合模型mSAP。它以一种更细粒化和更稳定的工作方式,将变长的输入序列聚合为话语级特征,可以更有效地捕捉输入序列的长期变化。实验表明,mSAP模型的等错误率(EER)相较于TAP、SAP、NetVLAD聚合模型分别有7.4、1.75和0.24的下降,而DCF值相较于这三种聚合模型分别有0.018、0.137和0.242的下降。改进的mSAP聚合模型能够聚合出鲁棒性更强、更准确的话语级特征,有效地提高了端到端说话人识别模型的性能。  相似文献   

16.
基于最小二乘向量机的说话人识别研究   总被引:1,自引:0,他引:1       下载免费PDF全文
说话人识别系统在说话人模板的建立过程中由于说话人的语音帧数量太多,往往要进行筛选,通常这种选择是一种基于枚举的大量反复的提取过程,复杂费时且结果往往并不是最优的。而基于统计学习理论的支持向量机(SVM)方法正好克服了这方面的不足。讨论了一种改进的SVM即最小二乘向量机(LSSVM)的方法进行说话人识别研究。研究表明,基于LSSVM的说话人识别比传统的SVM说话人识别计算复杂度小、效率更高、对说话人识别有很强的适应性。  相似文献   

17.
I-vector说话人识别系统常用距离来衡量说话人语音间的相似度。加权成对约束度量学习算法(WPCML)利用成对训练样本的加权约束信息训练一个用于计算马氏距离的度量矩阵。该度量矩阵表示的样本空间中,同类样本间的距离更小,非同类样本间的距离更大。在美国国家标准技术局(NIST)2008年说话人识别评测数据库(SRE08)的实验结果表明,WPCML算法训练度量矩阵用于马氏距离相似度打分,比用余弦距离相似度打分的性能更好。选择训练样本对方法用于构造度量学习训练样本集能进一步提高系统实验性能,并优于目前最流行的PLDA分类器。  相似文献   

18.
语音情感识别研究进展*   总被引:4,自引:1,他引:4  
首先介绍了语音情感识别系统的组成,重点对情感特征和识别算法的研究现状进行了综述,分析了主要的语音情感特征,阐述了代表性的语音情感识别算法以及混合模型,并对其进行了分析比较。最后,指出了语音情感识别技术的可能发展趋势。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号