首页 | 官方网站   微博 | 高级检索  
     

基于主题模型与信息熵的中文文档自动摘要技术研究
引用本文:李然,张华平,赵燕平,商建云.基于主题模型与信息熵的中文文档自动摘要技术研究[J].计算机科学,2014,41(Z2).
作者姓名:李然  张华平  赵燕平  商建云
作者单位:1. 北京理工大学计算机学院 北京100081
2. 北京理工大学管理与经济学院 北京100081
3. 北京理工大学软件学院 北京100081
摘    要:提出了一种基于LDA模型以及信息熵的文档自动摘要技术,即通过LDA模型对文档进行浅层语义分析,得到文档的主题分布以及不同主题下的词语分布;通过对主题的分析,可以得到最能代表文档中心思想的主题,以及该主题下的词语分布。同时,提出了一种新的基于信息熵的度量句子重要性的方法,并将该方法应用于文档的关键句抽取过程中。该方法将文档中句子的出现看成一个随机变量,通过对随机变量建模并度量它的信息熵来选取文档中的关键性语句。实验结果表明,应用主题模型与信息熵摘取的文档摘要能有效地从文档中摘出中心句。

关 键 词:摘要  LDA模型  主题  信息熵

Automatic Text Summarization Research Based on Topic Model and Information Entropy
LI Ran,ZHANG Hua-ping,ZHAO Yan-ping,SHANG Jian-yun.Automatic Text Summarization Research Based on Topic Model and Information Entropy[J].Computer Science,2014,41(Z2).
Authors:LI Ran  ZHANG Hua-ping  ZHAO Yan-ping  SHANG Jian-yun
Abstract:
Keywords:Summarization  LDA  Topic  Information entropy
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号