基于HTML标记和长句提取的网页去重算法 Duplicate Web Page Elimination Based on HTML and Extraction of Long Sentence期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于HTML标记和长句提取的网页去重算法

引用本文：	刘四维,章轶,夏勇明,钱松荣.基于HTML标记和长句提取的网页去重算法[J].微型电脑应用,2009,25(8):30-32.

作者姓名：	刘四维章轶夏勇明钱松荣

作者单位：	复旦大学通信工程系,上海,200433

摘要：	提出了一种高效的算法来去除互联网上的重复网页。该算法利用HTML标记过滤网页中的干扰信息,然后提取出能表征一张网页的长句作为网页的特征。通过分析两张网页所共享长句的数量,来判断两张网页是否重复。该算法还利用红黑树对网页的长句进行索引,从而把网页去重过程转换为一个搜索长句的过程,减小了算法的时间复杂度。实验结果表明该算法能够高效,准确地去除重复的网页。
关键词：	网页去重页面去杂长句红黑树
Duplicate Web Page Elimination Based on HTML and Extraction of Long Sentence

LIU Si-wei,ZHANG Yi,XIA Yong-ming,QIAN Song-rong.Duplicate Web Page Elimination Based on HTML and Extraction of Long Sentence[J].Microcomputer Applications,2009,25(8):30-32.

Authors:	LIU Si-wei ZHANG Yi XIA Yong-ming QIAN Song-rong

Abstract:

Keywords:
本文献已被维普万方数据等数据库收录！