基于预训练模型的中文电子病历实体识别 |
| |
引用本文: | 李晓林,胡泽荣.基于预训练模型的中文电子病历实体识别[J].计算机工程与设计,2023(2):535-540. |
| |
作者姓名: | 李晓林 胡泽荣 |
| |
作者单位: | 武汉工程大学计算机科学与工程学院 |
| |
基金项目: | 十三五国家重点研发计划课题基金项目(2017YFB0503701); |
| |
摘 要: | 为提升传统中文电子病历实体识别预训练模型的语义特征提取能力并增强中文隐含特征表示,提出基于改进预训练语言模型的医疗命名实体识别方法。提出动态词长的逆向最大匹配算法对病历文本进行标注歧义处理,在此基础上构建用户自定义医疗实体字典辅助PKU分词,提高预训练模型掩码效果。输入向量层加入字向量,引入注意力机制学习字向量的全局语义特征。改进预训练模型mask策略和机制并去掉下一句预测,提升词向量语义表征能力。实验结果表明,该方法有效提高了医疗实体的识别效果,F1值达到90.57%。
|
关 键 词: | 中文电子病历 命名实体识别 预训练模型 标注歧义 注意力机制 逆向最大匹配算法 医疗实体字典 |
|
|