面向网络虚假医疗信息的识别模型构建研究——一种基于预训练的BERT模型 |
| |
作者姓名: | 赵月华 朱思成 苏新宁 |
| |
作者单位: | 南京大学信息管理学院,江苏 南京 210023;江苏省数据工程与知识服务重点实验室,江苏 南京 210023;南京大学信息管理学院,江苏 南京 210023 |
| |
基金项目: | 教育部人文社会科学研究项目;国家自然科学基金;南京大学大学生创新训练计划项目 |
| |
摘 要: | 【 目的/意义】解决获取虚假网络医疗信息数据集时专业知识不足的问题,帮助在小样本领域构建虚假网络医疗信息识别模型。【方法/过程】本文提出一种基于权威辟谣信息转化提取构建网络虚假医疗信息数据集的思路,并依次构建传统机器学习模型、CNN模型和BERT模型进行分类识别。【结果/结论】结果表明,基于辟谣信息能够实现以较低成本、不依赖专家标注构建虚假医疗信息数据集。通过对比实验发现,基于微博数据预训练的 BERT模型准确率为 95.91%,F1值为 94.57%,相比于传统机器学习模型和 CNN模型提升分别接近 6%和 4%,表明本文构建的基于预训练的BERT模型在网络虚假医疗信息识别任务上取得了更好的效果。【创新/局限】本文提出的方法能以较低成本建立专业领域的虚假信息数据集,所构建的BERT虚假医疗信息识别模型在小样本领域也具有实用价值,但在数据集规模、深度学习模型对比、模型性能评价指标等方面还有待拓展与延伸。
|
关 键 词: | 虚假信息识别 虚假医疗信息 BERT模型 深度学习 在线医疗信息 |
本文献已被 万方数据 等数据库收录! |
| 点击此处可从《情报科学》浏览原始摘要信息 |
|
点击此处可从《情报科学》下载免费的PDF全文 |