首页 | 官方网站   微博 | 高级检索  
     

基于卷积神经网络的缅甸语分词方法
引用本文:林颂凯,毛存礼,余正涛,郭剑毅,王红斌,张家富.基于卷积神经网络的缅甸语分词方法[J].中文信息学报,2018,32(6):62.
作者姓名:林颂凯  毛存礼  余正涛  郭剑毅  王红斌  张家富
作者单位:昆明理工大学 信息工程与自动化学院,云南 昆明 650500
基金项目:国家自然科学基金(61662041);云南省自然科学基金(2016FB101);云南省教育厅基金(2015Z022);昆明理工大学引进人才科研启动基金(KKSY201503007)
摘    要:音节是缅甸语的最小构词单位。当前主流的基于统计的分词方法效果严重依赖于预先标注的训练样本集规模及人工方式选取特征的质量,然而,缅甸语属于稀缺资源语言,分词语料标注及特征选取面临较大困难。该文提出一种基于卷积神经网络的缅甸语分词方法,首先将缅甸语音节结构特征应用于缅甸语音节词向量特征分布式表示,然后基于卷积神经网络将音节及其上下文的特征进行融合,得到有效的特征表示,并通过深层网络的逐层特征优化自动学习到缅甸语分词的有效特征向量,最后利用softmax分类器来对构成缅甸语词汇的音节序列标记进行预测。实验结果表明,该方法取得了较好的效果。

关 键 词:分词  缅甸语  卷积神经网络  巴克斯范式  词向量  

A Method of Myanmar Word Segmentation Based on Convolution Neural Network
Lin Songkai,Mao Cunli,Yu Zhengtao,Guo Jianyi,Wang Hongbin,Zhang Jiafu.A Method of Myanmar Word Segmentation Based on Convolution Neural Network[J].Journal of Chinese Information Processing,2018,32(6):62.
Authors:Lin Songkai  Mao Cunli  Yu Zhengtao  Guo Jianyi  Wang Hongbin  Zhang Jiafu
Affiliation:School of Information Engineering and Automation, Kunming University of Science and Technology, Kunming, Yunnan 650500, China
Abstract:In this paper, we propose a Burmese word segmentation method based on convolution neural network. Firstly, we apply the syllable structure features of Burmese to the distributed representation of the word vector feature of Burmese syllable words. Then,based on convolutional neural networks,we fuse the features of syllable and syllable's context to obtain effective feature representation. And the effective feature vectors of Burma word segmentation are automatically studied by using layer by layer feature optimization of deep network. Finally,we use softmax classifiers to predict syllable sequence markers. The experimental results show that the segmentation method proposed in this paper achieves good results.
Keywords:word segmentation  Myanmar  convolutional neural network  BNF  word embedding  
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号