首页 | 官方网站   微博 | 高级检索  
     

面向多文档的机器阅读理解模型
引用本文:李春豹.面向多文档的机器阅读理解模型[J].信息技术与信息化,2023(6):110-113.
作者姓名:李春豹
作者单位:中国电子科技集团公司第十研究所
摘    要:机器阅读理解是自然语言处理领域中基础且重要的研究课题,其目标是让机器具备从文本数据中获取知识或回答给定问题的能力。近年来,研究人员已经提出了多种面向单文档的机器阅读理解模型,并取得了一定的效果。然而,在实际应用场景中,通常是先提出问题,然后再根据大规模非结构化文本数据对问题进行作答;此外,针对同一答案,不同用户提问时的问题描述也不相同,这对模型的泛化能力提出了较高的要求。针对上述问题,提出了一种面向多文档的机器阅读理解模型。模型遵循先检索后阅读的思想。在检索阶段,提出了一种基于规则和最长公共子串的排序方法,从文档库中选出前N个最相关的文档;在阅读阶段,基于Bert预训练模型提取的特征,结合文本语义特征和注意力机制提高问题核心词在问题特征、问题-篇章交互特征中的权重,采用指针网络预测每篇文档中的答案跨度,并综合考虑文档检索得分和预测答案得分,给出评分最高的答案。在中文阅读理解数据集CMRC上,该模型达到76.29%的EM分数和89.77%的F1分数,获得较好实验效果。

关 键 词:机器阅读理解  最长公共子串  Bert预训练模型  语义相似度特征  注意力机制
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号