首页 | 官方网站   微博 | 高级检索  
     

基于CNN-CTC的蒙古语层迁移语音识别模型
引用本文:吕浩田,马志强,王洪彬,谢秀兰.基于CNN-CTC的蒙古语层迁移语音识别模型[J].中文信息学报,2022,36(6):52-60.
作者姓名:吕浩田  马志强  王洪彬  谢秀兰
作者单位:1.内蒙古工业大学 数据科学与应用学院,内蒙古 呼和浩特 010080;
2.内蒙古自治区基于大数据的软件服务工程技术研究中心,内蒙古 呼和浩特 010080
基金项目:国家自然科学基金(61762070,61862048);内蒙古自治区自然科学基金(2019MS06004);内蒙古自治区科技重大专项(2019ZD015);内蒙古自治区关键技术攻关计划(2019GG273)
摘    要:针对蒙古语语音识别模型训练时语料资源匮乏,导致的低资源语料无法满足深度网络模型充分训练的问题。该文基于迁移学习提出了层迁移方法,针对层迁移设计了多种迁移策略构建基于CNN-CTC(卷积神经网络和连接时序分类器)的蒙古语层迁移语音识别模型,并对不同的迁移策略进行探究,从而得到最优模型。在10 000句英语语料数据集和5 000句蒙古语语料数据集上开展了层迁移模型训练中学习率选择实验、层迁移有效性实验、迁移层选择策略实验以及高资源模型训练数据量对层迁移模型的影响实验。实验结果表明,层迁移模型可以加快训练速度,且可以有效降低模型的WER;采用自下向上的迁移层选择策略可以获得最佳的层迁移模型;在有限的蒙古语语料资源下,基于CNN-CTC的蒙古语层迁移语音识别模型比普通基于CNN-CTC的蒙古语语音识别模型的WER降低10.18%。

关 键 词:语音识别  低语料资源  层迁移  

CNN-CTC Based Layer Transfer Model for Mongolian Speech Recognition
LYU Haotian,MA Zhiqiang,WANG Hongbin,XIE Xiulan.CNN-CTC Based Layer Transfer Model for Mongolian Speech Recognition[J].Journal of Chinese Information Processing,2022,36(6):52-60.
Authors:LYU Haotian  MA Zhiqiang  WANG Hongbin  XIE Xiulan
Affiliation:1.College of Data Science and Application, Inner Mongolia University of Technology, Hohhot, Inner Mongolia 010080, China;
2.Inner Mongolia Autonomous Region Engineering and Technology Research Center of Big Data Based Software Service, Hohhot, Inner Mongolia 010080, China
Abstract:Focused on the low-resource corpus for the training of Mongolian speech recognition models, this paper proposes a layer transfer method based on transfer learning, and describes a variety of transfer strategies for Mongolian speech recognition based on CNN-CTC(Convolutional Neural Networks and Connectionist Temporal Classification). Using the English corpus with 10,000 sentences and the Mongolian corpus with 5000 sentences, we conducted an empirical study on the selection of learning rate in the model training, the verification of the effectiveness of layer transfer, the selection of the best transfer layer strategy, and the impact of high-resource model training data on the layer transfer model. The experimental results show that the layer transfer model can accelerate the training speed, and the bottom-up transfer layer selection strategy can achieve, under the limited Mongolian corpus resources, 10.18% lower WER than the ordinary Mongolian speech recognition model based on CNN-CTC.
Keywords:acoustic model  low corpus resources  layer transfer  
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号