首页 | 官方网站   微博 | 高级检索  
     

改进的Simhash算法在文本查重中的研究及应用
引用本文:庞宇,张倩,韩凯,肖彬.改进的Simhash算法在文本查重中的研究及应用[J].数字通信世界,2020(1):203-204.
作者姓名:庞宇  张倩  韩凯  肖彬
作者单位:北方工业大学信息学院
基金项目:大学生科研训练项目,编号:218051360019XN003
摘    要:传统Simhash算法是由Google公司提出以实现大规模文本去重的方法,其优势在于处理高效,且准确度高。当前,Simhash算法在文本检测、异常检测等领域有诸多应用。但传统Simhash算法的权值计算方式容易造成信息丢失,导致准确性降低。针对此问题,本文提出一种使用TF-IDF算法来计算权值的方式,并进行了系统设计与实现。结果表明,利用改进的Simhash算法实现的文本查重系统,其准确率、效率均优于传统方法。

关 键 词:Simhash  TF-IDF  相似度计算  DJANGO
本文献已被 维普 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号