首页 | 官方网站   微博 | 高级检索  
     

基于Bloom Filter的网页去重算法
引用本文:徐娜,刘四维,汪翔,倪卫明.基于Bloom Filter的网页去重算法[J].微型电脑应用,2011,27(3):48-51,6.
作者姓名:徐娜  刘四维  汪翔  倪卫明
作者单位:复旦大学;
摘    要:现在的互联网中存在网页重复的问题,这些问题将会使数据挖掘,搜索的复杂度加大。现有技术一些不足之处,针对互联网中的重复网页采用基于Bloom Filter的网页去重算法。使用了现有的网页去杂算法,对网页进行预处理,同时利用Bloom Filter结构大大降低了网页去重算法的时间复杂度和空间复杂度。从网页中提炼出表示网页特征的一些长句,从而把网页去重过程转换为一个搜索长句的过程,使用Bloom Filter减小了算法的时间复杂度。

关 键 词:Bloom  filter  网页去重  长句  Hash函数

Duplicate Web Page Elimination Based on Bloom Filter
Xu Na,Liu Siwei,Wang Xiang,Ni WeiMing.Duplicate Web Page Elimination Based on Bloom Filter[J].Microcomputer Applications,2011,27(3):48-51,6.
Authors:Xu Na  Liu Siwei  Wang Xiang  Ni WeiMing
Affiliation:复旦大学,200433
Abstract:There are many duplicated web pages in the internet, which will make data mining and information retrieval more difficult. In this paper, we analysis the disadvantage of current algorithm, and propose a new algorithm to eliminate duplicated web pages based on Bloom Filter. We use existed refining algorithm to pre-process the web pages, and reduce the running time and stored space using Bloom Filter to process duplicated web pages. This paper use long sentences to represent features of web pages, and change ...
Keywords:Bloom Filter  Elimination of Web Pages  Long Sentence  Hash Function  
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号