首页 | 官方网站   微博 | 高级检索  
     

基于CRF和半监督学习的维吾尔文命名实体识别
作者姓名:王路路  艾山·吾买尔  买合木提·买买提  卡哈尔江·阿比的热西提  吐尔根·依布拉音
作者单位:1.新疆大学 信息科学与工程学院,新疆 乌鲁木齐 830046;
2.新疆大学 新疆多语种信息技术实验室,新疆 乌鲁木齐 830046
基金项目:国家973计划(2014CB340506);国家自然科学基金(61462083,61262060,61662077,61331011);新疆多语种信息技术实验室开放课题(2016D03023)
摘    要:目前,维吾尔文命名实体识别研究主要集中在单类实体,且没有引入半监督学习方法,从而无法利用未标注语料的无监督语义和结构信息。该文以条件随机场为基本框架,提出了一种基于半监督学习的维吾尔文命名实体识别方法。通过引入词法特征、词典特征、以及基于词向量的无监督学习特征,对比不同特征对识别的影响,并对模型进行优化。实验表明,CRF模型融合多种特征时维吾尔文命名实体识别的F值达到87.43%,说明词法特征和无监督学习特征的有机结合,可以大大减少人工选取特征的工作量,同时也可提高维吾尔文命名实体识别的性能;CRF模型相比于神经网络模型,更适合用于实际应用中。

关 键 词:维吾尔文命名实体识别  条件随机场  半监督学习  
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号

京公网安备 11010802026262号