基于神经网络的个人信息自动化抽取方法 |
| |
引用本文: | 吴杰,邱星煜,易宗权,齐伟钢.基于神经网络的个人信息自动化抽取方法[J].通信技术,2023(6):778-785. |
| |
作者姓名: | 吴杰 邱星煜 易宗权 齐伟钢 |
| |
作者单位: | 中电科网络安全科技股份有限公司 |
| |
摘 要: | 随着数据存储和数据处理技术的不断进步,个人信息广泛存在于各类文档之中,个人信息保护已成为目前科研界和工业界亟待解决的重要问题,而个人信息抽取是个人信息保护的前提和核心概念之一。针对内容复杂,格式多样,不确定性高的各类复杂文档进行个人信息抽取,本文提出了一种基于神经网络的个人信息自动化抽取的统一方法。该方法整合了流式文档和版式文档的信息抽取能力,同时结合了正则匹配和深度学习神经网络模型来输出个人信息抽取结果。此外,方法中的个人信息抽取模型通过改造输入数据的方式来融合文档的布局信息进行训练,并在训练过程中采取了迭代标注和扩展训练数据的方法,以此提高模型训练的效率和效果。
|
关 键 词: | 个人信息保护 信息抽取 神经网络 自然语言处理 |
|
|