首页 | 官方网站   微博 | 高级检索  
     

基于HMM的主题爬虫研究
引用本文:谢治军,杨武,李稚楹,宋静静.基于HMM的主题爬虫研究[J].重庆工商大学学报(自然科学版),2012,29(2):66-72.
作者姓名:谢治军  杨武  李稚楹  宋静静
作者单位:1. 重庆理工大学计算机科学与工程学院,重庆,400054
2. 重庆理工大学信息与教育技术中心,重庆,400054
摘    要:主题爬虫是垂直搜索引擎的核心组成部分,它为面向主题的用户查询准备数据资源;提出了一种基于HMM的主题爬虫方法,方法不仅分析网页内容,而且还考虑网页的上下文链接结构,首先将当前网页的聚类结果作为观察状态、将当前网页到目标网页的链接距离作为隐含状态,然后通过HMM模型学习用户的主题浏览模式并利用它采集更多的主题网页;实验结果表明:方法能采集大量与指定主题相关的高质量网页,主题爬行效率优于Best-First主题爬虫。

关 键 词:主题爬虫  隐马尔科夫模型  向量空间模型  主题相关度  垂直搜索引擎

Research on Focused Crawler Based on HMM
XIE Zhi-jun;YANG Wu;LI Zhi-ying;SONG Jing-jing.Research on Focused Crawler Based on HMM[J].Journal of Chongqing Technology and Business University:Natural Science Edition,2012,29(2):66-72.
Authors:XIE Zhi-jun;YANG Wu;LI Zhi-ying;SONG Jing-jing
Affiliation:1(1.School of Computer Science and Engineering,Chongqing University of Technology,Chongqing 400054,China; 2.Information and Education Technology Center,Chongqing University of Technology,Chongqing 400054,China)
Abstract:
Keywords:focused crawler  Hidden Markov Model  Vector Space Model  topic correlativity  VerticalSearch Engine
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《重庆工商大学学报(自然科学版)》浏览原始摘要信息
点击此处可从《重庆工商大学学报(自然科学版)》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号