基于CRF和半监督学习的维吾尔文命名实体识别 |
| |
作者姓名: | 王路路 艾山·吾买尔 买合木提·买买提 卡哈尔江·阿比的热西提 吐尔根·依布拉音 |
| |
作者单位: | 1.新疆大学 信息科学与工程学院,新疆 乌鲁木齐 830046; 2.新疆大学 新疆多语种信息技术实验室,新疆 乌鲁木齐 830046 |
| |
基金项目: | 国家973计划(2014CB340506);国家自然科学基金(61462083,61262060,61662077,61331011);新疆多语种信息技术实验室开放课题(2016D03023) |
| |
摘 要: | 目前,维吾尔文命名实体识别研究主要集中在单类实体,且没有引入半监督学习方法,从而无法利用未标注语料的无监督语义和结构信息。该文以条件随机场为基本框架,提出了一种基于半监督学习的维吾尔文命名实体识别方法。通过引入词法特征、词典特征、以及基于词向量的无监督学习特征,对比不同特征对识别的影响,并对模型进行优化。实验表明,CRF模型融合多种特征时维吾尔文命名实体识别的F值达到87.43%,说明词法特征和无监督学习特征的有机结合,可以大大减少人工选取特征的工作量,同时也可提高维吾尔文命名实体识别的性能;CRF模型相比于神经网络模型,更适合用于实际应用中。
|
关 键 词: | 维吾尔文命名实体识别 条件随机场 半监督学习 |
|
| 点击此处可从《中文信息学报》浏览原始摘要信息 |
|
点击此处可从《中文信息学报》下载全文 |
|