首页 | 官方网站   微博 | 高级检索  
     

面向口语统计语言模型建模的自动语料生成算法
引用本文:司玉景, 肖业鸣, 徐及, 潘接林, 颜永红. 面向口语统计语言模型建模的自动语料生成算法. 自动化学报, 2014, 40(12): 2808-2814. doi: 10.3724/SP.J.1004.2014.02808
作者姓名:司玉景  肖业鸣  徐及  潘接林  颜永红
作者单位:1.中国科学院声学研究所语言声学与内容理解重点实验室 北京 100190
基金项目:国家高技术研究发展计划(863计划)(2012AA012503),国家自然科学基金(10925419,90920302,61072124,11074275,11161140319,91120001,61271426),中国科学院战略性先导科技专项(XDA06030100,XDA06030500),中国科学院重点部署项目(KGZD-EW-103-2)资助
摘    要:在资源相对匮乏的自动语音识别(Automatic speech recognition, ASR)领域, 如面向电话交谈的语音识别系统中, 统计语言模型(Language model, LM)存在着严重的数据稀疏问题. 本文提出了一种基于等概率事件的采样语料生成算法, 自动生成领域相关的语料, 用来强化统计语言模型建模. 实验结果表明, 加入本算法生成的采样语料可以缓解语言模型的稀疏性, 从而提升整个语音识别系统的性能. 在开发集上语言模型的困惑度相对降低7.5%, 字错误率(Character error rate, CER)绝对降低0.2个点; 在测试集上语言模型的困惑度相对降低6%, 字错误率绝对降低0.4点.

关 键 词:自动语音识别   资源匮乏   语言模型   等概率事件   语料生成算法
收稿时间:2013-12-18
修稿时间:2014-06-03

Automatic Text Corpus Generation Algorithm towards Oral Statistical Language Modeling
SI Yu-Jing, XIAO Ye-Ming, XU Ji, PAN Jie-Lin, YAN Yong-Hong. Automatic Text Corpus Generation Algorithm towards Oral Statistical Language Modeling. ACTA AUTOMATICA SINICA, 2014, 40(12): 2808-2814. doi: 10.3724/SP.J.1004.2014.02808
Authors:SI Yu-Jing  XIAO Ye-Ming  XU Ji  PAN Jie-Lin  YAN Yong-Hong
Affiliation:1. The Key Laboratory of Speech Acoustics and Content Understanding, Institute of Acoustics, Chinese Academy of Sciences, Beijing 100190
Abstract:Data sparseness is a serious issue for language model (LM) in automatic speech recognition (ASR) towards resource-lack domains, e.g. the telephone conversation speech recognition task. In this paper, an event of equal probability based text corpus generation algorithm is proposed in order to alleviate the sparseness of language model. Experimental results show that 7.5% relative reduction in perplexity and a 0.2% absolute reduction in character error rate (CER) can be obtained on the develop set. And, a 6% relative reduction in perplexity and a 0.4% absolute reduction in CER can be obtained on the test set.
Keywords:Automatic speech recognition (ASR)  resource-lack  language model (LM)  equality probability event  text corpus generation
本文献已被 CNKI 等数据库收录!
点击此处可从《自动化学报》浏览原始摘要信息
点击此处可从《自动化学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号