藏语口语语音语料库的设计与研究

doi:10.3778/j.issn.1002-8331.1702-0269

计算机工程与应用 ›› 2018, Vol. 54 ›› Issue (13): 231-235.DOI: 10.3778/j.issn.1002-8331.1702-0269

藏语口语语音语料库的设计与研究

黄晓辉1，2，李京1，马睿2，3

1.中国科学技术大学计算机科学与技术学院，合肥 230026
2.解放军外国语学院工程系，河南洛阳 471003
3.中央民族大学藏学研究院，北京 100081

出版日期:2018-07-01 发布日期:2018-07-17

Design and research of Tibetan spoken speech corpus

HUANG Xiaohui1，2, LI Jing1, MA Rui2，3

1. School of Computer Science and Technology, University of Science and Technology of China, Hefei 230026, China
2. Department of Engineering, PLA University of Foreign Language, Luoyang, Henan 471003, China
3. Institute of Tibetology, Minzu University of China, Beijing 100081, China

Online:2018-07-01 Published:2018-07-17

摘要/Abstract

摘要： 基于对普通语音语料库构建方法的研究与分析，结合自然口语语音识别研究相关需求以及藏语自然口语语音的基本特点，研究设计了适用于藏语语音识别的口语语音语料库建设方案以及相应的标注规范，并据此构建了时长50小时，包含音素、半音节、音节、藏文字以及语句共5层标注信息的藏语拉萨话口语语音语料库。统计结果显示，该语料库在保留口语语音自然属性的同时，对音素、半音节等常用语音建模单元也有均衡的覆盖，为基于藏语口语语音数据的语音识别技术研究提供了可靠的数据支撑。

关键词: 语音语料库, 口语语音, 语音识别, 标注规范, 藏语拉萨话

Abstract: Based on the research and analysis of the construction method of traditional phonological corpus, combined with the related needs of natural spoken speech recognition and the characteristics of Tibetan natural spoken language, the construction scheme and annotation standard of spoken language corpus suitable for Tibetan speech recognition is designed. A 50-hour Tibetan Lhasa spoken corpus with five layers of annotation including phonemes, semitone, syllables, Tibetan word and sentences is also constructed. The statistic characteristics show that this corpus retains the natural properties of spoken language, and also has a balanced coverage of commonly used modeling units such as phonemes, semitone, so it is able to provide reliable data support for speech recognition technology based on Tibetan spoken speech data.

Key words: speech corpus, spoken speech, speech recognition, annotation standard, Tibetan Lhasa words

黄晓辉1，2，李京1，马睿2，3. 藏语口语语音语料库的设计与研究[J]. 计算机工程与应用, 2018, 54(13): 231-235.

HUANG Xiaohui1，2, LI Jing1, MA Rui2，3. Design and research of Tibetan spoken speech corpus[J]. Computer Engineering and Applications, 2018, 54(13): 231-235.

[1]	娄英丹，徐静林，黄丽霞，张雪英. MLLR和MAP在远场噪声混响下的语音识别研究[J]. 计算机工程与应用, 2020, 56(10): 122-126.
[2]	赵悦，李要嫱，徐晓娜，吴立成. 临近最优主动学习的藏语语音识别方法研究[J]. 计算机工程与应用, 2018, 54(22): 156-159.
[3]	宋春晓，孙颖. 面向情感语音识别的非线性几何特征提取算法[J]. 计算机工程与应用, 2017, 53(20): 128-133.
[4]	常静雅，张晓俊，顾玲玲，袁悦，顾济华，陶智. 小波域能量谱和非线性降维的病理嗓音识别[J]. 计算机工程与应用, 2017, 53(2): 166-171.
[5]	黄丽霞1，王亚楠1，张雪英1，王洪翠2. 基于深度自编码网络语音识别噪声鲁棒性研究[J]. 计算机工程与应用, 2017, 53(13): 49-54.
[6]	赵彩光，张树群，雷兆宜. 基于并行回火改进的GRBM的语音识别[J]. 计算机工程与应用, 2016, 52(8): 125-129.
[7]	达吾勒·阿布都哈依尔，努尔买买提·尤鲁瓦斯，刘艳. 面向哈萨克语LVCSR的语言模型构建方法研究[J]. 计算机工程与应用, 2016, 52(24): 178-181.
[8]	晁浩，宋成，薛霄，刘志中. 基于模型自适应的声效鲁棒性语音识别算法[J]. 计算机工程与应用, 2016, 52(2): 156-160.
[9]	晁浩. 融合音素串编辑距离的随机段模型解码算法[J]. 计算机工程与应用, 2015, 51(6): 208-211.
[10]	王路露1，夏旭2，冯璐1，刘光灿1. 基于频谱方差和谱减法的语音端点检测新算法[J]. 计算机工程与应用, 2014, 50(8): 194-197.
[11]	晁浩，宋成，刘志中. 语音识别中基于发音特征的声调集成算法[J]. 计算机工程与应用, 2014, 50(23): 21-25.
[12]	包希日莫1，高光来1，张璟2. 基于遗传算法的声学模型拓扑结构优化[J]. 计算机工程与应用, 2014, 50(14): 5-8.
[13]	努尔麦麦提·尤鲁瓦斯，吾守尔·斯拉木. 面向大词汇量的维吾尔语连续语音识别研究[J]. 计算机工程与应用, 2013, 49(9): 115-119.
[14]	贺元元1，张雪英1，刘晓峰2. 多类分类预选取的SVM在语音识别中的应用[J]. 计算机工程与应用, 2013, 49(7): 115-118.
[15]	郭超1，张雪英1，刘晓峰2. 支持向量机在低信噪比语音识别中的应用[J]. 计算机工程与应用, 2013, 49(5): 213-215.

藏语口语语音语料库的设计与研究

Design and research of Tibetan spoken speech corpus

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics