首页 | 官方网站   微博 | 高级检索  
     

融合本体和改进禁忌搜索策略的气象灾害主题爬虫方法
引用本文:刘景发,顾瑶平,刘文杰.融合本体和改进禁忌搜索策略的气象灾害主题爬虫方法[J].计算机应用,2020,40(8):2255-2261.
作者姓名:刘景发  顾瑶平  刘文杰
作者单位:1. 南京信息工程大学 计算机与软件学院, 南京 210044;2. 广东外语外贸大学 信息科学与技术学院, 广州 510006
基金项目:国家社会科学基金重大招标项目(16ZDA047);江苏省自然科学基金资助项目(BK20181409);广州市基础与应用基础研究项目。
摘    要:针对传统主题爬虫方法容易陷入局部最优和主题描述不足的问题,提出一种融合本体和改进禁忌搜索策略(On-ITS)的主题爬虫方法。首先利用本体语义相似度计算主题语义向量,基于超级文本标记语言(HTML)网页文本特征位置加权构建网页文本特征向量,然后采用向量空间模型计算网页的主题相关度。在此基础上,计算锚文本主题相关度以及链接指向网页的PR值,综合分析链接优先度。另外,为了避免爬虫陷入局部最优,设计了基于ITS的主题爬虫,优化爬行队列。以暴雨灾害和台风灾害为主题,在相同的实验环境下,基于On-ITS的主题爬虫方法比对比算法的爬准率最多高58%,最少高8%,其他评价指标也很好。基于On-ITS的主题爬虫方法能有效提高获取领域信息的准确性,抓取更多与主题相关的网页。

关 键 词:主题爬虫  禁忌搜索  本体  主题相关度  气象灾害  
收稿时间:2020-01-07
修稿时间:2020-03-10

Focused crawler method combining ontology and improved Tabu search for meteorological disaster
LIU Jingfa,GU Yaoping,LIU Wenjie.Focused crawler method combining ontology and improved Tabu search for meteorological disaster[J].journal of Computer Applications,2020,40(8):2255-2261.
Authors:LIU Jingfa  GU Yaoping  LIU Wenjie
Affiliation:1. School of Computer and Software, Nanjing University of Information Science and Technology, Nanjing Jiangsu 210044, China;2. School of Information Science and Technology, Guangdong University of Foreign Studies, Guangzhou Guangdong 510006, China
Abstract:
Keywords:focused crawler                                                                                                                        Tabu search                                                                                                                        ontology                                                                                                                        topic relevance                                                                                                                        meteorological disaster
本文献已被 万方数据 等数据库收录!
点击此处可从《计算机应用》浏览原始摘要信息
点击此处可从《计算机应用》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号