首页 | 官方网站   微博 | 高级检索  
     

面向冗余度控制的中文多文档自动文摘
引用本文:王红玲,周国栋,朱巧明. 面向冗余度控制的中文多文档自动文摘[J]. 中文信息学报, 2012, 26(2): 92-97
作者姓名:王红玲  周国栋  朱巧明
作者单位:苏州大学 计算机科学与技术学院,江苏 苏州 215006
基金项目:国家自然科学基金资助项目(60873150,60970056);江苏省高校自然科学基金资助项目(10KJB520016)
摘    要:多文档自动文摘能够帮助人们自动、快速地获取信息,是目前的一个研究热点。相比于单文档自动文摘,多文档自动文摘需要更多考虑文档之间的相关性,以及文档信息之间的冗余性。因此如何控制信息冗余是多文档自动文摘的一个关键所在。该文在考虑文摘特性的基础上提出了一个冗余度控制模型,该模型通过计算文本单元在主题概率分布之间的相似度来决定句子的选择,从而达到控制冗余的目的。实验结果表明,该方法能够有效降低冗余度,且总体性能优于现有的自动文摘系统。

关 键 词:冗余度控制  多文档自动文摘  中文自动文摘  

Chinese Multi-document Summarization Based on Redundancy Control
WANG Hongling , ZHOU Guodong , ZHU Qiaoming. Chinese Multi-document Summarization Based on Redundancy Control[J]. Journal of Chinese Information Processing, 2012, 26(2): 92-97
Authors:WANG Hongling    ZHOU Guodong    ZHU Qiaoming
Affiliation:School of Computer Science & Technology Soochow University, Suzhou, Jiangsu 215002, China
Abstract:Multi-document summarization can help people to access information automatically and fast.Compared to single-document summarization,multi-document lays more emphasis on the correlation and redundancy between documents.Therefore,how to control information redundancy is a key problem to multi-document summarization.This paper proposes a model of redundancy control based on the features of summary.In this model,various similarities among the text units over topic’s probability distribution are used to determine the choice of a sentence.Experimental results show that this method can reduce redundancy effectively,and produce better overall performance than existing systems.
Keywords:reduandancy control  multi-document summarization  Chinese automatic summarization
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号