首页 | 官方网站   微博 | 高级检索  
     

基于LDA的新闻话题子话题划分方法
引用本文:赵爱华,刘培玉,郑燕.基于LDA的新闻话题子话题划分方法[J].小型微型计算机系统,2013,34(4).
作者姓名:赵爱华  刘培玉  郑燕
作者单位:山东师范大学信息科学与工程学院,济南250014;山东省分布式计算机软件新技术重点实验室,济南250014
基金项目:国家自然科学基金项目,山东省自然科学基金项目,山东省教育厅科技项目,山东省高新自主创新专项工程项目
摘    要:针对目前网络热点新闻话题中存在的难以区分一个话题下的多个子话题现象,提出一种基于LDA模型的子话题划分方法.首先应用LDA模型对新闻文档进行建模,采用贝叶斯标准方法确定最优主题个数,使LDA模型拟合文档性能达到最佳;其次针对子话题间文本相似度较高的特点,引入主题特征词相关性分析,采用改进的KL距离公式,计算新闻文档之间相似度,有效区分了文档内容相似但话题重点不同的报道;最后通过single-pass增量聚类算法进行文档聚类,实现子话题划分.实验验证了改进后的相似度计算方法的有效性,实验结果表明该方法能够有效地提高热点新闻话题子话题划分的准确率.

关 键 词:潜在狄利克雷分布(LDA)  子话题划分  主题特征词  KL距离  相似度计算

Subtopic Division in News Topic Based on Latent Dirichlet Allocation
ZHAO Ai-hua , LIU Pei-yu , ZHENG Yan.Subtopic Division in News Topic Based on Latent Dirichlet Allocation[J].Mini-micro Systems,2013,34(4).
Authors:ZHAO Ai-hua  LIU Pei-yu  ZHENG Yan
Abstract:
Keywords:
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号