首页 | 官方网站   微博 | 高级检索  
     

主题信息的中文多文档自动文摘系统
引用本文:王红玲,张明慧,周国栋. 主题信息的中文多文档自动文摘系统[J]. 计算机工程与应用, 2012, 48(25): 132-136
作者姓名:王红玲  张明慧  周国栋
作者单位:1.苏州大学 计算机科学与技术学院,江苏 苏州 2150022.苏州大学 江苏省计算机信息处理技术重点实验室,江苏 苏州 215002
基金项目:国家自然科学基金(No.60873150);江苏省高校自然科学重大基础研究项目(No.08KJA520002)
摘    要:多文档自动文摘能够帮助人们自动、快速地获取信息,使用主题模型构建多文档自动文摘系统是一种新的尝试,其中主题模型采用浅层狄利赫雷分配(LDA)。该模型是一个多层的产生式概率模型,能够检测文档中的主题分布。使用LDA为多文档集合建模,通过计算句子在不同主题上的概率分布之间的相似度作为句子的重要度,并根据句子重要度进行文摘句的抽取。实验结果表明,该方法所得到的文摘性能优于传统的文摘方法。

关 键 词:中文自动文摘  浅层狄利赫雷分配(LDA)  主题模型  多文档  

Chinese multi-document summarization system based on topic information
WANG Hongling , ZHANG Minghui , ZHOU Guodong. Chinese multi-document summarization system based on topic information[J]. Computer Engineering and Applications, 2012, 48(25): 132-136
Authors:WANG Hongling    ZHANG Minghui    ZHOU Guodong
Affiliation:1.School of Computer Science and Technology, Soochow University, Suzhou, Jiangsu 215002, China2.Jiangsu Provincial Key Laboratory of Computer Information Processing Technology, Soochow University, Suzhou, Jiangsu 215002, China
Abstract:Multi-document summarization can help people access to information automatically and fast.Chinese multi-document summarization based on topic model is a new attempt.The LDA(Latent Dirichlet Allocation)model is a multi-level generative probabilistic model,can detect the topic distribution of the document.In the method,it models the document using LDA,then calculates the distance between a sentence and the given multi-documents via their topic probability distributions as the weight of the sentence.The paper extracts sentences according to the weight of the sentence.Experimental results show that the performance is a clear superiority over the traditional method under the proposed evaluation scheme.
Keywords:automatic document summarization  Latent Dirichlet Allocation(LDA)  topic model  multi-document
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《计算机工程与应用》浏览原始摘要信息
点击此处可从《计算机工程与应用》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号