首页 | 官方网站   微博 | 高级检索  
     

一种面向长文本小数据集自动摘要任务的数据增强策略
引用本文:皮洲,奚雪峰,崔志明,周国栋.一种面向长文本小数据集自动摘要任务的数据增强策略[J].中文信息学报,2022,36(9):46-56.
作者姓名:皮洲  奚雪峰  崔志明  周国栋
作者单位:1.苏州科技大学 电子与信息工程学院,江苏 苏州 215009;
2.苏州市虚拟现实智能交互及应用技术重点实验室,江苏 苏州 215000;
3.苏州大学 计算机科学与技术学院, 江苏 苏州 215000
基金项目:国家自然科学基金(61876217,62176175);江苏省“六大人才高峰”高层次人才项目(XYDXX-086);苏州市科技计划项目(SGC2021078)
摘    要:当前长文本自动摘要任务缺乏充足的数据集,限制了该领域相关算法、模型的研究。数据增强是在不直接补充训练数据的情况下增加训练数据的方法。针对上述长文本自动摘要数据缺乏问题,基于CogLTX框架,该文提出了一种面向长文本自动摘要任务的数据增强方法EMDAM(Extract-Merge Data Augmentation Method)。EMDAM主要分为抽取和归并两个核心环节。首先,从原有长文本数据集中“抽取”得到若干短句;其次,将抽取出的短句按照定义顺序“归并”为长文本;最终形成满足限定条件的新增长文本数据集。与基线模型相比较,该文在PubMED_Min、CNN/DM_Min、news2016zh_Min数据集上采用增强策略能明显提高基线模型的性能;而在SLCTDSets上使用该文的数据集增强策略,最终的Rouge得分相比未使用增强策略的模型提高了近两个百分点。上述实验结果表明,EMDAM可以在小数据集上进行扩展,为文本摘要研究提供数据支持。

关 键 词:数据增强  TextRank  Seq2Seq  生成式摘要  
收稿时间:2021-12-12

A Data Augmentation Method for Long Text Automatic Summarization
PI Zhou,XI Xuefeng,CUI Zhiming,ZHOU Guodong.A Data Augmentation Method for Long Text Automatic Summarization[J].Journal of Chinese Information Processing,2022,36(9):46-56.
Authors:PI Zhou  XI Xuefeng  CUI Zhiming  ZHOU Guodong
Affiliation:1.School of Electronics and Information Technology, Suzhou University of Science and Technology, Suzhou, Jiangsu 215009, China;2.Suzhou Key Laboratory of Virtual Reality Intelligent Interaction and Application Technology, Suzhou, Jiangsu 215000, China;3.School of Computer Science and Technology, Soochow University, Suzhou, Jiangsu 215000, China
Abstract:Data augmentation is a method to increase the training data without directly supplementing the training data. To address the lack of data issue, this paper proposes an EMDAM (Extract-Merge Data Augmentation Method) data augmentation method based on the CogLTX framework for long-text automatic summarization. EMDAM is mainly divided into two core parts: extracting and merging. First, short sentences are extracted from the original long text data set. Secondly, these short sentences are combined into long text in the order of the definition, which are the augmented data set. Compared with the baseline model, this enhancement strategy significantly improves the performance of the baseline model on the PubMED_Min , CNN/DM_Min , and news2016zh_Min datasets. And on the SLCTDSets, the final Rouge score is improved by nearly 2 points compared to the model without the enhancement strategy.
Keywords:data augmentation  TextRank  Seq2Seq  text abstract summarization  
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号