基于知识图谱与BERT的安全领域汉字文本纠错模型期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于知识图谱与BERT的安全领域汉字文本纠错模型

作者姓名：	王子斌张全谢聪余沛余泓江李沣庭

作者单位：	1. 南京中新赛克科技有限责任公司;2. 重庆市公安局

摘要：	针对安全领域所涉及的文本中存在大量人为混淆的文字的问题，提出一种基于汉字知识图谱的BERT(Bidirectional Encoder Representation from Transformers)预训练模型，表征汉字的读音、字形、语义三个维度的特征，构建纠错算法。首先，构建汉字知识图谱刻画汉字的读音、字形拆解、繁简转换、汉字与数字转换等属性和关系，并基于汉字知识图谱中的读音属性和node2vec模型训练得到汉字读音向量；其次，基于知识图谱中字形关系构建node2vec模型，得到node2vec字形向量，并结合卷积神经网络（CNN）方法训练字形向量，两者之和作为最终的字形向量；最后，基于BERT预训练模型，融合读音、字形、语义三维度的向量，并在不同维度间使用自注意力机制加权求和，发现错误字位置并选择正确的候选字。为验证所提模型的有效性，在安全领域诈骗短信数据集上，将所提模型与FASpell、SpellGCN、Soft-Masked BERT进行了对比。实验结果表明，所提模型的正确率和召回率比FASpell分别提升了24.7、21.6个百分点，比SpellGCN分别提升了22.2、1...
关键词：	自然语言处理知识图谱汉字文本纠错图神经网络 node2vec BERT 预训练模型

设为首页 | 免责声明 | 关于勤云 | 加入收藏