首页 | 官方网站   微博 | 高级检索  
     

面向中文文学作品的长文本人物关系抽取
引用本文:曹碧薇,曹玖新,桂杰,陶蕊,管鑫,高庆清.面向中文文学作品的长文本人物关系抽取[J].中文信息学报,2023(5):88-100.
作者姓名:曹碧薇  曹玖新  桂杰  陶蕊  管鑫  高庆清
作者单位:东南大学网络空间安全学院
摘    要:实体关系抽取作为信息抽取领域内的重要研究方向,其目的是把无结构或半结构的自然语言文本中所蕴含的实体之间的语义关系抽取成结构化的关系三元组。人物关系抽取是实体关系抽取的细粒度分支,以往的实体关系抽取研究多针对来自新闻或百科的英文短句语料,对于中文文学作品的人物关系抽取的研究刚刚起步。该文针对中长篇中文文学作品的特点,首先引入对抗性学习框架来训练句子级的噪声分类器以降低数据集中人物关系数据噪声,并在此基础上构建了人物关系的分类模型MF-CRC。分类模型首先基于预训练模型BERT抽取文本内容的基本语义特征,并采用BiLSTM模型进行深层语义特征的获取,然后根据中文用语习惯抽取了中文人物姓氏、性别与关系指示特征并进行嵌入表示,最后基于多维特征融合完成了人物关系分类模型的训练。该文选用名著《平凡的世界》《人生》和《白鹿原》为研究对象,首次构建了三个通用的面向中文文学作品的人物关系标签数据集,并在这些数据集上进行对比实验及消融实验。结果表明,该文MF-CFC模型效果高于其他对比模型,分别在Micro-F1和Macro-F1指标上比SOTA模型高出1.92...

关 键 词:实体关系抽取  中文文学作品  人物关系抽取
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号