基于Simhash算法的大规模文档去重技术研究 |
| |
引用本文: | 余意,张玉柱,胡自健.基于Simhash算法的大规模文档去重技术研究[J].信息通信,2015(2):28-29. |
| |
作者姓名: | 余意 张玉柱 胡自健 |
| |
作者单位: | 重庆邮电大学通信与信息工程学院,重庆,400065 |
| |
摘 要: | 随着互联网的发展,重复的网络信息越来越多,所以,大规模的文档去重技术研究逐渐成为热点。文中对基于Simhash算法的大规模文档去重技术进行了研究,并且以Simhash算法为文档去重的核心算法作基础对该算法获取文档特征的过程进行改进,将单词词义和词长作为衡量单词权重的考量因素。通过理论分析以及相应的实验数据表明,文章提出的改进方法实现了在大规模文档数据基础上对相似文档的快速检测。
|
关 键 词: | 相似文本检测 Simhash 指纹计算 |
本文献已被 CNKI 万方数据 等数据库收录! |
|