首页 | 官方网站   微博 | 高级检索  
     

中文维基百科的实体分类研究
引用本文:徐志浩,惠浩添,钱龙华,朱巧明.中文维基百科的实体分类研究[J].中文信息学报,2015,29(5):91-98.
作者姓名:徐志浩  惠浩添  钱龙华  朱巧明
作者单位:1. 苏州大学 自然语言处理实验室,江苏 苏州 215006;
2. 苏州大学 计算机科学与技术学院,江苏 苏州 215006
基金项目:国家自然科学基金(61373096,90920004),江苏省高校自然科学研究重大项目(11KJA520003)
摘    要:维基百科实体分类对自然语言处理和机器学习具有重要的作用。该文采用机器学习的方法对中文维基百科的条目进行实体分类,在利用维基百科页面中半结构化信息和无结构化文本作为基本特征的基础上,结合中文的特点使用扩展特征和语义特征来提高实体分类性能。在人工标注的语料库上的实验表明,这些额外特征有效地提高了ACE分类体系上的实体分类性能,总体F1值达到96%,同时在扩展实体分类上也取得了较好的效果,总体F1值达95%。


关 键 词:维基百科  实体分类  半结构化信息  信息框  

Classifying Named Entities on Chinese Wikipedia
XU Zhihao,HUI Haotian,QIAN Longhua,ZHU Qiaoming.Classifying Named Entities on Chinese Wikipedia[J].Journal of Chinese Information Processing,2015,29(5):91-98.
Authors:XU Zhihao  HUI Haotian  QIAN Longhua  ZHU Qiaoming
Affiliation:1.Natural Language Processing Lab of Soochow University,Suzhou,Jiangsu 215006,China;
2. School of Computer Science & Technology,Soochow University,Suzhou,Jiangsu 215006,China
Abstract:Classifying Wikipedia Entities is of great significance to NLP and machine learning. This paper presents a machine learning based method to classify the Chinese Wikipedia articles. Besides using semi-structured data and non-structured text as basic features, we also extend to use Chinese-oriented features and semantic features in order to improve the classification performance. The experimental results on a manually tagged corpus show that the additional features significantly boost the entity classification performance with the overall F1-measure as high as 96% on the ACE entity type hierarchy and 95% on the extended entity type hierarchy.
Keywords:Wikipedia  named entities classification  semi-structured data  Infobox  
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号