基于特征串的网页文本并行去重算法期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于特征串的网页文本并行去重算法

引用本文：	谢瑶兵.基于特征串的网页文本并行去重算法[J].微电子学与计算机,2015(2):69-72.

作者姓名：	谢瑶兵

作者单位：	同济大学电子与信息工程学院

基金项目：	国家自然科学基金项目(71170148);国家科技计划课题(2012BAD35B01)

摘要：	针对海量网页文本去重效率不高问题,提出了一种高效的并行网页去重算法.该算法利用Hadoop框架的Map/Reduce机制,通过对网页文本提取特征串,使用Google的Simhash算法对提取的特征串进行哈希映射得到相应的哈希码,然后对产生的哈希码进行海明距离比较,从而得到重复的网页数据.实验表明,与相关去重算法相比,所提算法有效地提高了文本去重计算效率.
关键词：	搜索引擎特征串网页去重 Simhash Map/Reduce
本文献已被 CNKI 等数据库收录！