首页 | 官方网站   微博 | 高级检索  
     

一种基于主题的概率文档相关模型
引用本文:贾西平,彭宏,郑启伦,石时需.一种基于主题的概率文档相关模型[J].中国药品标准,2008(10).
作者姓名:贾西平  彭宏  郑启伦  石时需
基金项目:广东省自然科学基金,广东省科技攻关计划
摘    要:现有文档关系分析模型难以从主题层次上判别文档相关性.为此,提出了一个基于主题的概率文档相关模型(TPDC).TPDC借助Latent Dirichlet Allocation模型学习文档的主题结构;在计算出主题后验概率和主题相似度的基础上推导出文档后验概率;基于文档后验概率构建文档相关性分析模型.实验结果证明,TPDC模型在文档检索精度和文档压缩程度两方面优于向量空间模型,因而更能胜任实际应用中的文档检索任务.

关 键 词:主题  主题相似性  文档相关性  文本挖掘

Topic-based Probabilistic Document Correlation Model
Authors:JIAXi-ping  PENG Hong  ZHENG Qi-lun  SHI Shi-xu
Abstract:
Keywords:
点击此处可从《中国药品标准》浏览原始摘要信息
点击此处可从《中国药品标准》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号