中文维基百科的实体分类研究 |
| |
作者姓名: | 徐志浩 惠浩添 钱龙华 朱巧明 |
| |
作者单位: | 1. 苏州大学 自然语言处理实验室,江苏 苏州 215006; 2. 苏州大学 计算机科学与技术学院,江苏 苏州 215006 |
| |
基金项目: | 国家自然科学基金(61373096,90920004),江苏省高校自然科学研究重大项目(11KJA520003) |
| |
摘 要: | 维基百科实体分类对自然语言处理和机器学习具有重要的作用。该文采用机器学习的方法对中文维基百科的条目进行实体分类,在利用维基百科页面中半结构化信息和无结构化文本作为基本特征的基础上,结合中文的特点使用扩展特征和语义特征来提高实体分类性能。在人工标注的语料库上的实验表明,这些额外特征有效地提高了ACE分类体系上的实体分类性能,总体F1值达到96%,同时在扩展实体分类上也取得了较好的效果,总体F1值达95%。
|
关 键 词: | 维基百科 实体分类 半结构化信息 信息框 |
|
| 点击此处可从《中文信息学报》浏览原始摘要信息 |
|
点击此处可从《中文信息学报》下载全文 |
|