数据清洗中文本相似度算法的比较与优化期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

数据清洗中文本相似度算法的比较与优化

引用本文：	李鲲程,刘秋月,范春梅.数据清洗中文本相似度算法的比较与优化[J].通信管理与技术,2021(5):16-18.

作者姓名：	李鲲程刘秋月范春梅

作者单位：	中国信息通信研究院;北京邮电大学

摘要：	重复数据和相似数据的处理是数据清洗的一项重要内容.针对招投标项目公告数据集存在大量重复信息的情况,结合该数据集为中文字符集且内容组织结构相对固定等特点,分析编辑距离、余弦相似和Simhash相似三种相似度算法的执行效率和有效性,并利用增加权重值、词袋预处理、编码预处理和分段保存比较等方法对算法进行持续优化.经测试,选择优化后的编辑距离算法对招投标项目公告数据中的相似(重复)数据进行清洗.
关键词：	编辑距离余弦相似 Simhash 文本相似度数据清洗
本文献已被万方数据等数据库收录！