共查询到19条相似文献,搜索用时 62 毫秒
1.
近年来深度学习尤其是神经网络的发展,对语音识别这类复杂的模式分类问题提供了新的解决思路.为加强对我国方言语种的保护工作、提高方言语种识别的准确率以及丰富语音识别的前处理模块,首先采用目前语音识别领域应用最广泛的LSTM模型搭建单任务方言语种识别模型SLNet作为基线系统.其次,针对中国方言的多样性、复杂性特点,基于多任务学习的参数共享机制,通过多任务神经网络模型发现不同语种间的隐含相关特性,提出基于多语种任务的方言语种识别模型MTLNet.进一步根据中国方言的区域特点,采用基于参数硬共享的多任务学习模式,构建基于辅助任务的多任务学习神经网络ATLNet.经实验验证表明:相比于单任务神经网络方言语种识别,MTLNet和ATLNet将识别准确率可提升至80.2%,弥补了单任务模型的单一性和弱泛化性. 相似文献
2.
郝焕香 《自动化与仪器仪表》2022,(4):48-51
为了提高方言语音识别效果,提出一种基于深度学习的方言语音识别模型。首先结合CTC和Attention架构的互补特点,构建基于端到端的混合CTC/Attention语音识别模型;其次构建多样化的方言数据库作为训练和测试数据,然后在特征提取基础上,利用混合CTC/Attention语音模型对方言进行识别。结果表明,该模型无论是在识别准确率、错误率,还是在模型收敛性和整体识别结果上,基于混合CTC/Attention语音识别模型的识别效果更好。 相似文献
3.
引言:随着计算机计算能力的提升,如何让计算机更多的替代人类脑力资源,让计算机能具有学习能力变成了最为前沿的领域.这种计算机自我学习的方式被称为深度学习,而将深度学习与多媒体技术结合则是当前最有价值的研究领域之一.本文着重介绍了计算机基于卷积神经网络的深度学习在语音识别方面的价值与趋势分析. 相似文献
4.
6.
智能语音技术包含语音识别、自然语言处理、语音合成三个方面的内容,其中语音识别是实现人机交互的关键技术,识别系统通常需要建立声学模型和语言模型。神经网络的兴起使声学模型数量急剧增加,基于神经网络的声学模型与传统识别模型相结合的方式,极大地推动了语音识别的发展。语音识别作为人机交互的前端,具有许多研究方向,文中着重对语音识别任务中的文本识别、说话人识别、情绪识别三个方向的声学模型研究现状进行归纳总结,尽可能对语音识别技术的演化进行细致介绍,为以后的相关研究提供有价值的参考。同时对目前语音识别的主流方法进行概括比较,介绍了端到端的语音识别模型的优势,并对发展趋势进行分析展望,最后提出当前语音识别任务中面临的挑战。 相似文献
7.
8.
基于深度学习的语音识别技术现状与展望 总被引:1,自引:0,他引:1
首先对深度学习的发展历史以及概念进行简要的介绍。然后回顾最近几年基于深度学习的语音识别的研究进展。这一部分内容主要分成以下5点进行介绍:声学模型训练准则,基于深度学习的声学模型结构,基于深度学习的声学模型训练效率优化,基于深度学习的声学模型说话人自适应和基于深度学习的端到端语音识别。最后就基于深度学习的语音识别未来可能的研究方向进行展望。 相似文献
9.
10.
11.
语音识别赋予了计算机能够识别出语音内容的功能,是人机交互技术领域的重要研究内容。随着计算机技术的发展,语音识别已经得到了成熟的发展。但是关于方言的语音识别还有很大的发展空间。中国是一个幅员辽阔、人口众多的国家,因此方言种类繁多,其中有3000多万人交流使用的重庆方言就是其中之一。采集了重庆方言的部分词语的文本文件和对应的语音文件建立语料库,根据重庆方言的发音特点,选取重庆方言的声韵母作为声学建模基元,选取隐马尔可夫模型(Hidden Markov Model, HMM)为声学模型设计了一个基于HMM的重庆方言语音识别系统。在训练过程利用语料库中训练集语料对声学模型进行训练,形成HMM模型库;在识别过程利用语料库中的测试集语料进行识别测试。实验结果表明,该系统能够实现重庆方言的语音识别,并且识别的正确率为100%。 相似文献
12.
随着计算机技术的发展,人工智能产品已经开始广泛地应用在各个领域。利用地区方言与人工智能产品进行交流成为了人机交互技术领域一个重要的研究方向。地处西南的重庆市为国家定位的国际大都市,世界各种文化伴随着人流汇聚于此。承载着重庆本土文化的重庆话作为重庆地区的主要交流语言,研究重庆话语音识别在推动人工智能产品本土化有着积极的作用。本文以重庆话为研究对象,建立了重庆话和重庆话口音的普通话小语料库,搭建了以HMM为声学模型的语音识别系统,分别以重庆话和重庆话口音的普通话作为声学模型去分别识别重庆话和带重庆话口音的普通话。实验表明,重庆话和重庆话口音的普通话声学模型去识别对应语音的正确识别率均为100%;重庆话声学模型识别重庆口音的普通话的正确识别率达到78.89%,重庆话口音的普通话声学模型去识别重庆话的正确识别率达到91.67%。 相似文献
13.
14.
针对PCA没有有效利用样本的类别信息而导致方言识别率低的问题,采用PCA和LDA组合方法进行特征提取。首先用PCA对普通话、上海话、广东话和闽南话四种方言进行降维,然后在降维后的空间中用LDA进一步特征提取,最后将该特征向量送入BP神经网络进行辨识。仿真实验结果表明,基于PCA和LDA的方言识别的平均识别率高达85%。 相似文献
15.
方言的差异性在语音层面上反映在时间序列结构的不同。传统的语音建模方法只能建立稳定的时间序列结构,而方言语音是典型的动态时变时间序列结构。为了更好地提取方言时间序列结构,文中采用动态贝叶斯网路(DBN)进行建模分析,并对DBN的构建方法进行了研究,这种结构与常用于语音识别中的隐马尔可夫模型的不同之处在于它揭示多个时间片内的节点之间的影响。文中探索了不同结构和参数对识别效果的影响。文中的研究表明动态贝叶斯网络对汉语方言的识别比传统方法要好,识别率达到了98.9%。 相似文献
16.
由于可扩展处理器能够在设计周期、灵活性、性能以及功耗等方面提供良好的折中,近年来,可扩展处理器大量地在嵌入式系统和电子设备中使用.自定义指令自动识别是可扩展处理器设计的关键.针对自定义指令自动识别问题,提出并实现了从给定的应用程序代码中自动识别最大凸自定义指令(maximal convex subgraphs, MCSs)的迭代设计流程.提出的设计流程解决了2个关键问题:MCSs自动枚举问题和MCSs自动选择问题.针对MCSs枚举问题,提出了一种夹心方式枚举所有候选最大凸自定义指令,该算法结合了自下而上和自顶向下方式的优点.与最新算法相比,提出的算法可以实现数量级的加速.针对MCSs选择问题,提出了一种利用候选指令之间的重叠关系建立兼容图,并应用非重叠规则来修剪大量的搜索空间的精确选择算法.实验结果表明:利用提出的精确算法,在大多数情况下可以找到用于最大化提升性能的MCSs. 相似文献
17.
该文提出了一种新的汉语方言辨识方法,来解决在总多辨识系统中存在的较弱辨识能力的问题,这种新方法运用高斯混合模型和N元语言模型,来产生一个全局的语言特征,然后使用聚类支持矢量机来做最后的分类。实验结果表明该方法不仅可以提高正确的辨识率,而且可以提高系统的鲁棒性。 相似文献
18.
牟连佳 《计算机测量与控制》2008,16(10):1366-1370
由局域和广域网以及有线和无线通信系统组成的异构网络将发挥日益重要的作用;然而,需要的不仅只是实时、安全和保密的通信,渴望的情境感知也将通向基于现场的通信服务;因此,这些功能性将越来越多的影响自动化领域通信方法的复杂性;由于目前现场总线系统已在工厂自动化领域达到一个稳定阶段,所以将主要探讨在自动化领域内使用以太网和异构网络的近期发展情况,并指出未来的分布式自动化系统需要使用更多的机制以便于适应自动化功能的地理分布。 相似文献