首页 | 官方网站   微博 | 高级检索  
     

一种基于敏感站点处理的Web信息检索系统
引用本文:屈强,魏鑫,梁延华.一种基于敏感站点处理的Web信息检索系统[J].微计算机信息,2006,22(27):56-58.
作者姓名:屈强  魏鑫  梁延华
作者单位:450001,河南,郑州,解放军信息工程大学
摘    要:本文设计实现了一种Web信息检索系统,面向有特定需求的特殊用户群,采用基于web站点处理的情报采集策略。先对各站点页面随机采样,提取出包含敏感信息页面的web站点,再采集敏感站点中的相关页面生成本地敏感资源库,并对库中的文本页面用改进的TFIDF算法分析处理,以满足用户的查询。该系统能够提高Web页面信息的检索精确度和检测更新率,并可据某一专题方向对Web站点进行简单的自动分类。

关 键 词:信息检索  敏感站点
文章编号:1008-0570(2006)09-3-0056-03
修稿时间:2006年1月25日

Web Information Retrieval System Based on Sensitive Site Processing
Qu,Qiang,Wei,xin,Liang,Yanhua.Web Information Retrieval System Based on Sensitive Site Processing[J].Control & Automation,2006,22(27):56-58.
Authors:Qu  Qiang  Wei  xin  Liang  Yanhua
Abstract:The paper studies a Web information retrieval system facing the special users, which applies a sensitive- site- processing policy. Firstly the system randomly copies pages from a group of Web sites using sampling, analyses the URLs from the pages which include the sensitive information, secondly it crawls the sensitive Web sites and copies the relevant pages to a local cache. The sys- tem analyses the pages using a TFIDF algorithm for the user' s query. The system could effectively improve the precision of infor- mation retrieval and maintains the pages up- to- date. It could try automatically and alternatively classify the Web sites.
Keywords:Wen  TFIDF
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号