首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 593 毫秒
1.
深度语音信号与信息处理:研究进展与展望   总被引:1,自引:0,他引:1  
论文首先对深度学习进行简要的介绍,然后就其在语音信号与信息处理研究领域的主要研究方向,包括语音识别、语音合成、语音增强的研究进展进行了详细的介绍。语音识别方向主要介绍了基于深度神经网络的语音声学建模、大数据下的模型训练和说话人自适应技术;语音合成方向主要介绍了基于深度学习模型的若干语音合成方法;语音增强方向主要介绍了基于深度神经网络的若干典型语音增强方案。论文的最后我们对深度学习在语音信与信息处理领域的未来可能的研究热点进行展望。  相似文献   

2.
低资源语音识别是当今语音界研究的热点问题之一,也是多语言小语种语音识别技术在实际应用中所面临的重要挑战之一。本文回顾并总结了低资源语音识别的 发展历史和研究现状,重点介绍了低资源语音识别在声学特征、声学模型和语言模型方面的若干关键技术研究进展。具体内容包括发音特征、多语言瓶颈特征、子空间高斯混合模型、卷积神经网络声学模型和递归神经网络语言模型,然后介绍了针对低资源语音识别的公开关键词搜索(Open keyword search,OpenKWS)评测,最后对低资源语音识别进行了总结和展望。  相似文献   

3.
Transformer作为一种新的深度学习算法框架,得到了越来越多研究人员的关注,成为目前的研究热点.Transformer模型中的自注意力机制受人类只关注于重要事物的启发,只对输入序列中重要的信息进行学习.对于语音识别任务来说,重点是把输入语音序列的信息转录为对应的语言文本.过去的做法是将声学模型、发音词典和语言模型组成语音识别系统来实现语音识别任务,而Transformer可以将声学、发音和语言模型集成到单个神经网络中形成端到端语音识别系统,解决了传统语音识别系统的强制对齐和多模块训练等问题.因此,探讨Transformer在语音识别任务中存在的问题是非常有必要的.首先介绍Transformer的模型结构,并且从输入语音序列、深层模型结构和模型推理过程三方面对语音识别任务面临的问题进行分析;其次对现阶段解决语音识别中Transformer模型存在输入语音序列、深层模型结构和模型推理过程的问题进行方法总结和简要概述;最后对Transformer在语音识别任务中的应用方向进行总结和展望.  相似文献   

4.
语音是人机交互方式之一,语音识别技术是人工智能的重要组成部分.近年来神经网络技术在语音识别领域的应用快速发展,已经成为语音识别领域中主流的声学建模技术.然而测试条件中目标说话人语音与训练数据存在差异,导致模型不适配的问题.因此说话人自适应(SA)方法是为了解决说话人差异导致的不匹配问题,研究说话人自适应方法成为语音识别领域的一个热门方向.相比传统语音识别模型中的说话人自适应方法,使用神经网络的语音识别系统中的自适应存在着模型参数庞大,而自适应数据量相对较少等特点,这使得基于神经网络的语音识别系统中的说话人自适应方法成为一个研究难题.首先回顾说话人自适应方法的发展历程和基于神经网络的说话人自适应方法研究遇到的各种问题,其次将说话人自适应方法分为基于特征域和基于模型域的说话人自适应方法并介绍对应原理和改进方法,最后指出说话人自适应方法在语音识别中仍然存在的问题及未来的发展方向.  相似文献   

5.
语音识别是人机交互的重要方式,针对传统语音识别系统对含噪语音识别性能较差、特征选择不恰当的问题,提出一种基于迁移学习的深度自编码器循环神经网络模型。该模型由编码器、解码器以及声学模型组成,其中,声学模型由堆栈双向循环神经网络构成,用于提升识别性能;编码器和解码器均由全连接层构成,用于特征提取。将编码器结构及参数迁移至声学模型进行联合训练,在含噪Google Commands数据集上的实验表明本文模型有效增强了含噪语音的识别性能,并且具有较好的鲁棒性和泛化性。  相似文献   

6.
为提高中文语音识别系统的识别准确率,研究在卷积神经网络的基础上提出了一种中文语音识别人机交互系统。在该系统中的声学模型中融入了残差网络和maxout函数,以此提高声学模型的性能。对研究提出的基于链接时序分类准则的深度卷积网络模型进行性能对比发现,该模型的绝对误差值为3.6%,低于其他对比模型。该结果说明,优化后的CTC-DCNN(maxout)模型的识别性能更好。故利用该模型作为中文语音识别系统的声学模型可以有效地提高系统的识别准确率,保证其人机互动的准确性,为中文语音识别领域提供新的方法。  相似文献   

7.
为了实现基于人机交互增强算法的便携语言翻译机系统,提出了一种基于傅里叶门控卷积神经网络的语音增强模型与一种基于FSMN+Transformer语音识别模型用于便携语言翻译机。首先,对便携语言翻译机系统进行了整体设计;然后,对系统的关键部分即语音增强模型和语音识别模型分别进行了设计,其中,语音增强模型选择傅里叶门控卷积神经网络优化算法来构建;语音识别模型中,选择矢量型FSMN作为声学模型的基础结构,并引入门控单元和残差网络对其进行优化,同时选择添加交互算法的Transformer算法构建语言模型,共同构成基于FSMN+Transformer的语音识别模型;最后,分别对语音增强模型、语音识别模型以及便携语言翻译机系统进行实验验证。结果表明:基于傅里叶门控卷积神经网络的语音增强模型更具优越性,FSMN+Transformer的语音识别模型的正确率最高,基于提出的语音增强与语音识别模型的便携语言翻译机系统对原始语音的翻译准确率都达到了99%以上。  相似文献   

8.
基于深度学习的语音识别技术现状与展望   总被引:1,自引:0,他引:1  
首先对深度学习的发展历史以及概念进行简要的介绍。然后回顾最近几年基于深度学习的语音识别的研究进展。这一部分内容主要分成以下5点进行介绍:声学模型训练准则,基于深度学习的声学模型结构,基于深度学习的声学模型训练效率优化,基于深度学习的声学模型说话人自适应和基于深度学习的端到端语音识别。最后就基于深度学习的语音识别未来可能的研究方向进行展望。  相似文献   

9.
针对高斯混合模型在蒙古语语音识别声学建模中不能充分描述蒙古语声学特征之间相关性和独立性假设的问题,开展了使用深度神经网络模型进行蒙古语声学模型建模的研究。以深度神经网络为基础,将分类与语音特征内在结构的学习紧密结合进行蒙古语声学特征的提取,构建了DNN-HMM蒙古语声学模型,结合无监督预训练与监督训练调优过程设计了训练算法,在DNN-HMM蒙古语声学模型训练中加入dropout技术避免过拟合现象。最后,在小规模语料库和Kaldi实验平台下,对GMM-HMM和DNN-HMM蒙古语声学模型进行了对比实验。实验结果表明,DNN-HMM蒙古语声学模型的词识别错误率降低了7.5%,句识别错误率降低了13.63%;同时,训练时加入dropout技术可以有效避免DNN-HMM蒙古语声学模型的过拟合现象。  相似文献   

10.
随着计算机技术的发展,人工智能产品已经开始广泛地应用在各个领域。利用地区方言与人工智能产品进行交流成为了人机交互技术领域一个重要的研究方向。地处西南的重庆市为国家定位的国际大都市,世界各种文化伴随着人流汇聚于此。承载着重庆本土文化的重庆话作为重庆地区的主要交流语言,研究重庆话语音识别在推动人工智能产品本土化有着积极的作用。本文以重庆话为研究对象,建立了重庆话和重庆话口音的普通话小语料库,搭建了以HMM为声学模型的语音识别系统,分别以重庆话和重庆话口音的普通话作为声学模型去分别识别重庆话和带重庆话口音的普通话。实验表明,重庆话和重庆话口音的普通话声学模型去识别对应语音的正确识别率均为100%;重庆话声学模型识别重庆口音的普通话的正确识别率达到78.89%,重庆话口音的普通话声学模型去识别重庆话的正确识别率达到91.67%。  相似文献   

11.
语音识别是实现人机交互的一种重要途径,是自然语言处理的基础环节,随着人工智能技术的发展,人机交互等大量应用场景存在着流式语音识别的需求。流式语音识别的定义是一边输入语音一边输出结果,它能够大大减少人机交互过程中语音识别的处理时间。目前在学术研究领域,端到端语音识别已经取得了丰硕的研究成果,而流式语音识别在学术研究以及工业应用中还存在着一些挑战与困难,因此,最近两年,端到端流式语音识别逐渐成为语音领域的一个研究热点与重点。从端到端流式识别模型与性能优化等方面对近些年所展开的研究进行全面的调查与分析,具体包括以下内容:(1)详细分析和归纳了端到端流式语音识别的各种方法与模型,包括直接实现流式识别的CTC与RNN-T模型,以及对注意力机制进行改进以实现流式识别的单调注意力机制等方法;(2)介绍了端到端流式语音识别模型提高识别准确率与减少延迟的方法,在提高准确率方面,主要有最小词错率训练、知识蒸馏等方法,在降低延迟方面,主要有对齐、正则化等方法;(3)介绍了流式语音识别一些常用的中英文开源数据集以及流式识别模型的性能评价标准;(4)讨论了端到端流式语音识别模型的未来发展与展望。  相似文献   

12.
资源稀缺蒙语语音识别研究   总被引:1,自引:1,他引:0  
张爱英  倪崇嘉 《计算机科学》2017,44(10):318-322
随着语音识别技术的发展,资源稀缺语言的语音识别系统的研究吸引了更广泛的关注。以蒙语为目标识别语言,研究了在资源稀缺的情况下(如仅有10小时的带标注的语音)如何利用其他多语言信息提高识别系统的性能。借助基于多语言深度神经网络的跨语言迁移学习和基于多语言深度Bottleneck神经网络的抽取特征可以获得更具有区分度的声学模型。通过搜索引擎以及网络爬虫的定向抓取获得大量的网页数据,有助于获得文本数据,以增强语言模型的性能。融合多个不同识别结果以进一步提高识别精度。与基线系统相比,多种系统融合的识别绝对错误率减少12%。  相似文献   

13.
人工智能技术是当前计算机科学的研究热点,人机通信是人工智能技术的重要组成之一。作为人机通信主要方法之一的语音交互也一直是科学家的研究热点,语音交互技术的关键是语音识别。而目前大多语音识别软件要么功能单一,要么价格昂贵,Kaldi作为新兴的开源语音识别工具,凭借其强大的功能和简单的获取渠道逐渐流行。该文介绍了语音识别技术的发展历程,Kadli软件的基本架构和其所具有的独特优势,语音识别的一般处理流程,多层神经网络的基本结构以及多层神经网络在语音识别当中的应用。对基于Kaldi软件当中的HMM-DNN模型,使用中文数据集训练该模型,搭建一个完整的语音识别系统。通过该系统,不仅能展现出Kaldi软件丰富强大的功能,同时也为语音识别研究人员选择合适的工具提供了新的思路。  相似文献   

14.
随着大数据时代的到来,深度学习技术已经成为当前人工智能领域的一个研究热点,其已在图像识别、语音识别、自然语言处理、搜索推荐等领域展现出了巨大的优势,并且仍在继续发展变化.为了能够及时跟踪深度学习技术的最新研究进展,把握深度学习技术当前的研究热点和方向,本文针对深度学习技术的相关研究内容进行综述.首先介绍了深度学习技术的应用背景、应用领域,指出研究深度学习技术的重要性;其次介绍了当前重要的几种神经网络模型及两种常用大规模模型训练并行方案,其目的在于从本质上理解深度学习的模型架构和及其优化技巧;接着对比分析了当下主流的深度学习软件工具和相关的工业界研究平台,旨在为神经网络模型的实际使用提供借鉴;最后详细介绍了当下几种主流的深度学习硬件加速技术和最新研究现状,并对未来研究方向进行了展望。  相似文献   

15.
语音辨识技术是人机交互的重要方式。随着深度学习的不断发展,基于深度学习的自动语音辨识系统也取得了重要进展。然而,经过精心设计的音频对抗样本可以使得基于神经网络的自动语音辨识系统产生错误,给基于语音辨识系统的应用带来安全风险。为了提升基于神经网络的自动语音辨识系统的安全性,需要对音频对抗样本的攻击和防御进行研究。基于此,分析总结对抗样本生成和防御技术的研究现状,介绍自动语音辨识系统对抗样本攻击和防御技术面临的挑战和解决思路。  相似文献   

16.
多模态人机交互旨在利用语音、图像、文本、眼动和触觉等多模态信息进行人与计算机之间的信息交换。在生理心理评估、办公教育、军事仿真和医疗康复等领域具有十分广阔的应用前景。本文系统地综述了多模态人机交互的发展现状和新兴方向,深入梳理了大数据可视化交互、基于声场感知的交互、混合现实实物交互、可穿戴交互和人机对话交互的研究进展以及国内外研究进展比较。本文认为拓展新的交互方式、设计高效的各模态交互组合、构建小型化交互设备、跨设备分布式交互、提升开放环境下交互算法的鲁棒性等是多模态人机交互的未来研究趋势。  相似文献   

17.
语音识别赋予了计算机能够识别出语音内容的功能,是人机交互技术领域的重要研究内容。随着计算机技术的发展,语音识别已经得到了成熟的发展。但是关于方言的语音识别还有很大的发展空间。中国是一个幅员辽阔、人口众多的国家,因此方言种类繁多,其中有3000多万人交流使用的重庆方言就是其中之一。采集了重庆方言的部分词语的文本文件和对应的语音文件建立语料库,根据重庆方言的发音特点,选取重庆方言的声韵母作为声学建模基元,选取隐马尔可夫模型(Hidden Markov Model, HMM)为声学模型设计了一个基于HMM的重庆方言语音识别系统。在训练过程利用语料库中训练集语料对声学模型进行训练,形成HMM模型库;在识别过程利用语料库中的测试集语料进行识别测试。实验结果表明,该系统能够实现重庆方言的语音识别,并且识别的正确率为100%。  相似文献   

18.
语音是人机交互的重要载体,语音中既包含语义信息,还包含性别、年龄、情感等附属信息.深度学习的发展使得各类语音处理任务的性能得到了显著提升,智能语音处理的产品已应用于移动终端、车载设备以及智能家居等场景.语音信息被准确地识别是人与设备实现可信交互的重要基础,语音传递过程中的安全问题也受到了广泛关注.对抗样本攻击是最近几年...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号