首页 | 官方网站   微博 | 高级检索  
     

基于特征串的网页文本并行去重算法
引用本文:谢瑶兵.基于特征串的网页文本并行去重算法[J].微电子学与计算机,2015(2):69-72.
作者姓名:谢瑶兵
作者单位:同济大学电子与信息工程学院
基金项目:国家自然科学基金项目(71170148);国家科技计划课题(2012BAD35B01)
摘    要:针对海量网页文本去重效率不高问题,提出了一种高效的并行网页去重算法.该算法利用Hadoop框架的Map/Reduce机制,通过对网页文本提取特征串,使用Google的Simhash算法对提取的特征串进行哈希映射得到相应的哈希码,然后对产生的哈希码进行海明距离比较,从而得到重复的网页数据.实验表明,与相关去重算法相比,所提算法有效地提高了文本去重计算效率.

关 键 词:搜索引擎  特征串  网页去重  Simhash  Map/Reduce
本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号