首页 | 官方网站   微博 | 高级检索  
     

基于分层狄利克雷过程模型的文本分割
引用本文:李天彩,王波,席耀一,张佳明.基于分层狄利克雷过程模型的文本分割[J].数据采集与处理,2017,32(2):408-416.
作者姓名:李天彩  王波  席耀一  张佳明
作者单位:解放军信息工程大学信息系统工程学院,郑州,450002
摘    要:文本分割在文本摘要、信息检索等诸多领域都有重要的应用。主题模型是该领域研究中的重要方法,但目前基于主题模型的方法普遍依赖于主题个数的人工设置。针对此问题,本文提出了一种基于分层狄利克雷过程(Hierarchical Dirichlet process,HDP)模型的文本分割方法。首先使用HDP模型获取文本在主题空间的向量表示,然后将主题向量用于C99分割算法实现文本分割,最后使用两种优化策略对结果进行优化。实验结果表明,基于HDP模型的方法能够摆脱对人工设置主题个数的依赖,有效提高了文本分割的性能。

关 键 词:主题模型  文本分割  分层狄利克雷过程  CRF构造

Text Segmentation Based on Hierarchical Dirichlet Processes
Li Tiancai,Wang Bo,Xi Yaoyi,Zhang Jiaming.Text Segmentation Based on Hierarchical Dirichlet Processes[J].Journal of Data Acquisition & Processing,2017,32(2):408-416.
Authors:Li Tiancai  Wang Bo  Xi Yaoyi  Zhang Jiaming
Affiliation:Institute of Information and System Engineering, PLA Information Engineering University, Zhengzhou, 450002, China
Abstract:
Keywords:topic model  text segmentation  hierarchical Dirichlet process  Chinese restaurant franchise(CRF) process
点击此处可从《数据采集与处理》浏览原始摘要信息
点击此处可从《数据采集与处理》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号