基于词汇增强和表格填充的中文命名实体识别 |
| |
引用本文: | 褚天舒,唐球,梁军学,徐睿,王明阳,刘涛.基于词汇增强和表格填充的中文命名实体识别[J].电子技术应用,2024(2):23-29. |
| |
作者姓名: | 褚天舒 唐球 梁军学 徐睿 王明阳 刘涛 |
| |
作者单位: | 1. 华北计算机系统工程研究所;2. 中国人民解放军93216部队 |
| |
摘 要: | 中文命名实体识别主要包括中文平面命名实体识别和中文嵌套命名实体识别两个任务,其中中文嵌套命名实体识别任务难度更大。提出了一个基于词汇增强和表格填充的统一模型TLEXNER,该模型能够同时处理上述任务。该模型首先针对中文语料分词困难的问题,使用词典适配器将词汇信息融合到BERT预训练模型,并且将字符与词汇组的相对位置信息集成到BERT的嵌入层中;然后通过条件层归一化和双仿射模型构造并预测字符对表格,使用表格建模字符与字符之间的关系,得到平面实体与嵌套实体的统一表示;最后根据字符对表格上三角区域的数值判断实体类别。提出的模型在平面实体的公开数据集Resume和自行标注的军事领域嵌套实体数据集上F1分别是97.35%和91.96%,证明了TLEXNER模型的有效性。
|
关 键 词: | 词汇增强 中文命名实体识别 表格填充 |
|
|