改进的Simhash算法在文本查重中的研究及应用 |
| |
引用本文: | 庞宇,张倩,韩凯,肖彬.改进的Simhash算法在文本查重中的研究及应用[J].数字通信世界,2020(1):203-204. |
| |
作者姓名: | 庞宇 张倩 韩凯 肖彬 |
| |
作者单位: | 北方工业大学信息学院 |
| |
基金项目: | 大学生科研训练项目,编号:218051360019XN003 |
| |
摘 要: | 传统Simhash算法是由Google公司提出以实现大规模文本去重的方法,其优势在于处理高效,且准确度高。当前,Simhash算法在文本检测、异常检测等领域有诸多应用。但传统Simhash算法的权值计算方式容易造成信息丢失,导致准确性降低。针对此问题,本文提出一种使用TF-IDF算法来计算权值的方式,并进行了系统设计与实现。结果表明,利用改进的Simhash算法实现的文本查重系统,其准确率、效率均优于传统方法。
|
关 键 词: | Simhash TF-IDF 相似度计算 DJANGO |
本文献已被 维普 等数据库收录! |
|