首页 | 官方网站   微博 | 高级检索  
     

基于HTML标记和长句提取的网页去重算法
引用本文:刘四维,章轶,夏勇明,钱松荣.基于HTML标记和长句提取的网页去重算法[J].微型电脑应用,2009,25(8):30-32.
作者姓名:刘四维  章轶  夏勇明  钱松荣
作者单位:复旦大学通信工程系,上海,200433
摘    要:提出了一种高效的算法来去除互联网上的重复网页。该算法利用HTML标记过滤网页中的干扰信息,然后提取出能表征一张网页的长句作为网页的特征。通过分析两张网页所共享长句的数量,来判断两张网页是否重复。该算法还利用红黑树对网页的长句进行索引,从而把网页去重过程转换为一个搜索长句的过程,减小了算法的时间复杂度。实验结果表明该算法能够高效,准确地去除重复的网页。

关 键 词:网页去重  页面去杂  长句  红黑树

Duplicate Web Page Elimination Based on HTML and Extraction of Long Sentence
LIU Si-wei,ZHANG Yi,XIA Yong-ming,QIAN Song-rong.Duplicate Web Page Elimination Based on HTML and Extraction of Long Sentence[J].Microcomputer Applications,2009,25(8):30-32.
Authors:LIU Si-wei  ZHANG Yi  XIA Yong-ming  QIAN Song-rong
Abstract:
Keywords:
本文献已被 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号