首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 125 毫秒
1.
深度语音信号与信息处理:研究进展与展望   总被引:1,自引:0,他引:1  
论文首先对深度学习进行简要的介绍,然后就其在语音信号与信息处理研究领域的主要研究方向,包括语音识别、语音合成、语音增强的研究进展进行了详细的介绍。语音识别方向主要介绍了基于深度神经网络的语音声学建模、大数据下的模型训练和说话人自适应技术;语音合成方向主要介绍了基于深度学习模型的若干语音合成方法;语音增强方向主要介绍了基于深度神经网络的若干典型语音增强方案。论文的最后我们对深度学习在语音信与信息处理领域的未来可能的研究热点进行展望。  相似文献   

2.
鸡尾酒会问题与相关听觉模型的研究现状与展望   总被引:2,自引:0,他引:2  
近些年,随着电子设备和人工智能技术的飞速发展,人机语音交互的重要性日益凸显.然而,由于干扰声源的存在,在鸡尾酒会等复杂开放环境下的语音交互技术远没有达到令人满意的程度.现阶段,开发一个具备较强自适应性和鲁棒性的听觉计算系统仍然是一件极具挑战性的任务.因此,鸡尾酒会问题的深入探索对智能语音处理领域中的说话人识别、语音识别、关键词唤醒等一系列重要任务都具有非常重要的研究意义和应用价值.本文综述了鸡尾酒会问题相关听觉模型研究的现状与展望.在简要介绍了听觉机理的相关研究,并概括了解决鸡尾酒会问题的多说话人语音分离相关计算模型之后,本文还讨论了受听觉认知机理启发的听觉注意建模方法,认为融入声纹记忆和注意选择的听觉模型在复杂的听觉环境下具有更好的适应性.之后,本文简单回顾了近期的多说话人语音识别模型.最后,本文讨论了目前各类计算模型用于处理鸡尾酒会问题时遇到的困难和挑战,并对未来的研究方向进行了展望.  相似文献   

3.
编码环境失配是影响说话人识别准确率的重要因素之一。在说话人识别系统上,对码速率在5.15~128 Kb/s之间的语音编码进行了实验分析,结果表明,高速率语音编码对说话人识别系统的影响不大,低速率语音编码使系统性能急剧下降。针对这一问题,采用基于UBM的说话人模型合成算法对低速率语音编码的说话人模型进行补偿,在NIST 2002单说话人识别数据库上的实验表明,此方法能显著提高系统识别率。  相似文献   

4.
但志平  郑胜 《微机发展》2007,17(5):30-32
说话人识别是语音识别的一种,是当前的研究热点之一。而基于统计学习理论的支持向量机(SVM)方法是一种新的机器学习算法,已成为机器学习研究的热点。讨论了一种改进的SVM即最小二乘向量机(LS-SVM)的方法进行说话人识别研究。研究表明,基于LS-SVM的说话人识别比传统的SVM说话人识别计算复杂度小、效率更高、对说话人识别有很强的适应性。  相似文献   

5.
相对解码重建后的语音进行说话人识别,从VoIP的语音流中直接提取语音特征参数进行说话人识别方法具有便于实现的优点,针对G.729编码域数据,研究基于DTW算法的快速说话人识别方法。实验结果表明,在相关的说话人识别中,DTW算法相比GMM在识别正确率和效率上有了很大提高。  相似文献   

6.
基于改进VQ算法的文本无关的说话人识别   总被引:5,自引:2,他引:3  
基于矢量量化的说话人识别,因其运算过程简单等特点,在文本无关的说话人识别领域有着广泛的应用。论文根据说话人识别中训练语音的特点并结合快速搜索算法,对矢量量化的码书形成算法进行了改进,提出了一种基于改进算法的与文本无关的说话人识别方法。经实验结果证明,论文的方法加快了码书的形成,减少了码书形成的计算量,改善了码本的性能,提高了说话人识别的识别率。  相似文献   

7.
说话人识别是语音识别的一种,是当前的研究热点之一。而基于统计学习理论的支持向量机(SVM)方法是一种新的机器学习算法,已成为机器学习研究的热点。讨论了一种改进的SVM即最小二乘向量机(LS-SVM)的方法进行说话人识别研究。研究表明,基于LS—SVM的说话人识别比传统的SVM说话人识别计算复杂度小、效率更高、对说话人识别有很强的适应性。  相似文献   

8.
该文提出了一种新的与文本无关的说话人识别算法。这种算法使用了能处理说话人交叉变量的语音信号频谱变化的模型。使用了两种不同音质的语音,即″纯净音质″和″电话音质″来测试这一算法,得到了很好的实验结果。  相似文献   

9.
利用语音传递信息是人类最常用,最方便,最快捷的一种方式。人类最常用的传递信息的方式就是声音,随着现代信息化时代的不断发展,人们更加深入的研究语音信号的处理技术,并且由于语音的特殊作用及其重要性,还有其对人们生活的不断深入的影响,使得其十分受关注。语音识别技术就是将说话人的语言转变为计算机可以听懂的语言,语音识别技术的涉及面极广,它涉及到多个学术领域,如计算机科学、语言学、神经生理学、信号处理以及人工智能等。  相似文献   

10.
该文根据云南境内少数民族同胞说普通话时明显带有民族口音的语言使用现状,介绍了一个以研究非母语说话人汉语连续语音识别为目的的云南少数民族口音汉语普通话语音数据库,并在其基础上开展了发音变异规律、说话人自适应和非母语说话人口音识别研究,是汉语语音识别中用户多样性研究的重要补充。  相似文献   

11.
在说话人空间中,存在语音特征随句子和时间差异而变化的问题。这个变化主要是由语音数据中的语音信息和说话人信息的变化引起的。如果把这两种信息彼此分离就能实现鲁棒的说话人识别。在假设大的说话人变量的空间为“语音空间”和小的说话人变量的空间为“说话人空间”的情况下,通过子空间方法分离语音信息和说话人信息,提出了说话人辨认和说话人确认方法。结果显示:通过相对于传统方法的比较试验,能用小量训练数据建立鲁棒说话人模型。  相似文献   

12.
该文针对维吾尔语说话人之间的发音差异会在一定程度上影响维吾尔语语音识别系统的性能这一情况研究了说话人自适应技术,将目前较为常用的MLLR和MAP以及MLLR和MAP相结合的自适应方法应用于维吾尔语连续语音识别的声学模型训练中,并用这三种方法自适应后的声学模型分别在测试集上进行识别实验。实验结果表明MLLR、MAP以及MAP+MLLR自适应方法使基线识别系统的单词错误识别率分别降低了0.6%、2.34%和2.57%。
  相似文献   

13.
智能语音技术包含语音识别、自然语言处理、语音合成三个方面的内容,其中语音识别是实现人机交互的关键技术,识别系统通常需要建立声学模型和语言模型。神经网络的兴起使声学模型数量急剧增加,基于神经网络的声学模型与传统识别模型相结合的方式,极大地推动了语音识别的发展。语音识别作为人机交互的前端,具有许多研究方向,文中着重对语音识别任务中的文本识别、说话人识别、情绪识别三个方向的声学模型研究现状进行归纳总结,尽可能对语音识别技术的演化进行细致介绍,为以后的相关研究提供有价值的参考。同时对目前语音识别的主流方法进行概括比较,介绍了端到端的语音识别模型的优势,并对发展趋势进行分析展望,最后提出当前语音识别任务中面临的挑战。  相似文献   

14.
该文报告了组合LPC参数以及基频F0的高斯混合模型(GMM)电话语音说话人自动识别技术的实验研究结果。该研究在基线试验中GMM使用16混合共分散对角矩阵,特征量为LPC倒谱系数。而在开发系统测试中分别利用语音的全发话区间和有声区间两部分参数增加基频参数进行试验,并给出实验比较结果。在50人电话通话开放集自动切分语音流实验中正确识别率为76.97%,而提案方法为80.29%,改善率为3.32%。接近人工切分语音流时的识别率82.34%。  相似文献   

15.
为了解决语言障碍者与健康人之间的交流障碍问题,提出了一种基于神经网络的手语到情感语音转换方法。首先,建立了手势语料库、人脸表情语料库和情感语音语料库;然后利用深度卷积神经网络实现手势识别和人脸表情识别,并以普通话声韵母为合成单元,训练基于说话人自适应的深度神经网络情感语音声学模型和基于说话人自适应的混合长短时记忆网络情感语音声学模型;最后将手势语义的上下文相关标注和人脸表情对应的情感标签输入情感语音合成模型,合成出对应的情感语音。实验结果表明,该方法手势识别率和人脸表情识别率分别达到了95.86%和92.42%,合成的情感语音EMOS得分为4.15,合成的情感语音具有较高的情感表达程度,可用于语言障碍者与健康人之间正常交流。  相似文献   

16.
语音是人机交互的重要载体,语音中既包含语义信息,还包含性别、年龄、情感等附属信息.深度学习的发展使得各类语音处理任务的性能得到了显著提升,智能语音处理的产品已应用于移动终端、车载设备以及智能家居等场景.语音信息被准确地识别是人与设备实现可信交互的重要基础,语音传递过程中的安全问题也受到了广泛关注.对抗样本攻击是最近几年...  相似文献   

17.
多用途汉语方言语音数据库的设计   总被引:1,自引:0,他引:1       下载免费PDF全文
建立了一个多用途汉语方言语音数据库,用于说话人信息处理、方言特征词识别、语音识别等领域的研究。以多通道的方式采集时长106小时的语音数据,包括七种主要的汉语方言区语音,对数据进行预处理。在此基础上提出了汉语方言数据库的设计标准以及实施方案,有助于推动汉语语音库特别是方言语音库的建立。  相似文献   

18.
从理论及实验两个方面出发,以短时自关函数作为语音特征的特定人、孤立词、中小词汇量的汉语语音识别系统,计算方法简单,硬件处理容易,且具有较高的识别率。在语音信号处理中,常用短时自关函数进行短时基音周期估计,作为语音特征应用于语音识别中系率先进入该领域的应用,其首选正确识别率达99%  相似文献   

19.
提出了一种基于情感语音的差异检测与剔除的说话人识别方法,克服了前人的方法中需要在训练时提供测试说话人的情感语音或者需要在测试时提供测试语音的情感状态信息给系统的使用带来的不便性,并在识别性能上比传统的ASR系统提高4.7%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号