首页 | 官方网站   微博 | 高级检索  
     

基于词典和字形特征的中文命名实体识别
作者姓名:于舒娟  毛新涛  张昀  黄丽亚
作者单位:南京邮电大学电子与光学工程学院&柔性电子(未来技术)学院
基金项目:国家自然科学基金(61977039);
摘    要:命名实体识别是自然语言处理中的一项基础任务。通过基于词典的方法增强词内语义和词边界信息是中文命名实体识别的主流做法。然而,汉字由象形字演变而来,汉字字形中包含着丰富的实体信息,这些信息在该任务中却很少被使用。该文提出了一个基于词典和字形特征的中文命名实体识别模型,将词信息和结构信息统一地结合起来,提高了实体匹配的准确性。该文首先通过SoftLexicon方法丰富语义信息,并使用改进的部首级嵌入优化字符表示;然后通过门卷积网络加强了对潜在词和上下文信息的提取;最后在四个基准数据集上实验,结果表明与传统模型和最新模型相比,基于词典和字形特征的模型取得了显著的性能提升。

关 键 词:中文命名实体识别  词典  字形特征
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号