首页 | 官方网站   微博 | 高级检索  
     

定题爬虫的设计及其关键技术实现
引用本文:郑健珍,林坤辉,钱毅.定题爬虫的设计及其关键技术实现[J].计算机与现代化,2007(1).
作者姓名:郑健珍  林坤辉  钱毅
基金项目:面向21世纪教育振兴行动计划(985计划)
摘    要:定题搜索引擎是新一代搜索引擎的发展方向之一,而定题爬虫是定题搜索引擎的构建关键.本文提出了一个定题爬虫系统的设计框架,详细介绍了其实现的关键技术.针对传统主题过滤算法Hopfield网页分析算法的不足,提出了自主学习的网页分析算法,提高链接于不相关页面后的相关页面被搜索的机会,同时提出了简单高效的镜像页面检测算法,最后, 用原型系统FC测试表明系统有较好的性能.

关 键 词:定题爬虫  自主学习网页分析算法  镜像页面检测算法  定题  爬虫  设计框架  Key  Technology  Implementation  Crawler  性能  测试  原型系统  检测算法  镜像  搜索引擎  相关页面  高链  自主学习  分析算法  网页  Hopfield  过滤算法  传统主题

Design of Focused Crawler and Implementation of Its Key Technology
ZHENG Jian-zhen,LIN Kun-hui,QIAN Yi.Design of Focused Crawler and Implementation of Its Key Technology[J].Computer and Modernization,2007(1).
Authors:ZHENG Jian-zhen  LIN Kun-hui  QIAN Yi
Abstract:
Keywords:
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号