数据清洗中文本相似度算法的比较与优化 |
| |
引用本文: | 李鲲程,刘秋月,范春梅.数据清洗中文本相似度算法的比较与优化[J].通信管理与技术,2021(5):16-18. |
| |
作者姓名: | 李鲲程 刘秋月 范春梅 |
| |
作者单位: | 中国信息通信研究院;北京邮电大学 |
| |
摘 要: | 重复数据和相似数据的处理是数据清洗的一项重要内容.针对招投标项目公告数据集存在大量重复信息的情况,结合该数据集为中文字符集且内容组织结构相对固定等特点,分析编辑距离、余弦相似和Simhash相似三种相似度算法的执行效率和有效性,并利用增加权重值、词袋预处理、编码预处理和分段保存比较等方法对算法进行持续优化.经测试,选择优化后的编辑距离算法对招投标项目公告数据中的相似(重复)数据进行清洗.
|
关 键 词: | 编辑距离 余弦相似 Simhash 文本相似度 数据清洗 |
本文献已被 万方数据 等数据库收录! |
|