基于语义指纹和LCS的文本去重方法 |
| |
引用本文: | 陈露,吴国仕,李晶.基于语义指纹和LCS的文本去重方法[J].软件,2014(11):25-30. |
| |
作者姓名: | 陈露 吴国仕 李晶 |
| |
作者单位: | 北京邮电大学软件学院 |
| |
摘 要: | 为了解决传统中文文本去重准确率低的问题,本文提出了一种基于语义指纹和LCS的文本去重方法。针对中文文本,预处理后抽取出文本摘要,然后使用tf-idf算法分别得出文本内容特征向量和摘要特征向量,分别将这两个向量作为simhash算法的输入,计算得到文章的内容指纹和摘要指纹。计算两个文本对应的两个指纹的汉明距离,代入本文公式,最终得到这两文本的指纹距离;使用指纹对文本对进行初步筛选,对判定为相似的两个文本使用LCS算法进行进一步对比,避免误判,最终实现中文文本快速去重。实验过程中,通过与LCS算法、simhash算法等多种算法的结果进行对比,可以体现该方法在算法精确度方面的优势,同时,该方法的运行速度优势也能较好地支持大数据量文本的去重操作。
|
关 键 词: | 理论计算机科学 语义指纹 simhash LCS 文本去重 |
本文献已被 维普 等数据库收录! |
|