基于特征串的网页文本并行去重算法 |
| |
引用本文: | 谢瑶兵.基于特征串的网页文本并行去重算法[J].微电子学与计算机,2015(2):69-72. |
| |
作者姓名: | 谢瑶兵 |
| |
作者单位: | 同济大学电子与信息工程学院 |
| |
基金项目: | 国家自然科学基金项目(71170148);国家科技计划课题(2012BAD35B01) |
| |
摘 要: | 针对海量网页文本去重效率不高问题,提出了一种高效的并行网页去重算法.该算法利用Hadoop框架的Map/Reduce机制,通过对网页文本提取特征串,使用Google的Simhash算法对提取的特征串进行哈希映射得到相应的哈希码,然后对产生的哈希码进行海明距离比较,从而得到重复的网页数据.实验表明,与相关去重算法相比,所提算法有效地提高了文本去重计算效率.
|
关 键 词: | 搜索引擎 特征串 网页去重 Simhash Map/Reduce |
本文献已被 CNKI 等数据库收录! |
|