首页 | 官方网站   微博 | 高级检索  
     

基于CRF的蒙古文人名自动识别研究*
引用本文:吴金星,那顺乌日图,杨振新.基于CRF的蒙古文人名自动识别研究*[J].计算机应用研究,2016,33(7).
作者姓名:吴金星  那顺乌日图  杨振新
作者单位:内蒙古大学 蒙古学学院 呼和浩特,010021,内蒙古大学,中国科学院合肥智能机械研究所
基金项目:国家自然科学基金资助项目
摘    要:摘要:该研究以蒙古文人名识别为目的,实现了基于条件随机场模型的人名自动识别。首先从蒙古语黏着性特点分析入手,研究了蒙古语语料库中人名的存在形式以及各类人名的特点,针对蒙古语语料库中人名的特点,在词汇特征、词性特征和指示词特征等基本特征基础上引入了汉语姓氏特征、人名词典特征、兼类人名特征以及双词根特征。以内蒙古大学开发的100万词规模的标注语料库为训练数据,该模型的人名识别性能达到了94.56%的准确率,90.60%的召回率和92.54%的F值。该方法比起以往的基于的规则的系统取得了较好的结果。

关 键 词:蒙古文人名  识别  CRF  特征
收稿时间:2015/3/15 0:00:00
修稿时间:2015/5/26 0:00:00

Recognition Method of Mongolian Person Names Based on Conditional Random Fields
Wu Jin Xing,Nasun-urtu and YANG Zhen-Xin.Recognition Method of Mongolian Person Names Based on Conditional Random Fields[J].Application Research of Computers,2016,33(7).
Authors:Wu Jin Xing  Nasun-urtu and YANG Zhen-Xin
Affiliation:Inner Mongolia university,Inner Mongolia university,Institute of Intelligent Machine, Chinese Academy of Science
Abstract:Abstract: The paper presents a method to recognize Mongolian names based on conditional random fields (CRF). According to the characteristics of the Mongolian person names, we selected lexical features, part of speech, designation words, Chinese surname, names dictionary, category names and double roots as the features of the model. Using the 3rd-level annotated corpus with about 1000,000 words as the training data, this model achieves a accuracy of 94.56%, the recall rate of 90.60%, F score of 92.54%.the method had achieved good results compared with the previous rule based system.
Keywords:Mongolian Person Name  Recognition  CRF model  Feature
点击此处可从《计算机应用研究》浏览原始摘要信息
点击此处可从《计算机应用研究》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号