首页 | 官方网站   微博 | 高级检索  
     

数据清洗中文本相似度算法的比较与优化
引用本文:李鲲程,刘秋月,范春梅.数据清洗中文本相似度算法的比较与优化[J].通信管理与技术,2021(5):16-18.
作者姓名:李鲲程  刘秋月  范春梅
作者单位:中国信息通信研究院;北京邮电大学
摘    要:重复数据和相似数据的处理是数据清洗的一项重要内容.针对招投标项目公告数据集存在大量重复信息的情况,结合该数据集为中文字符集且内容组织结构相对固定等特点,分析编辑距离、余弦相似和Simhash相似三种相似度算法的执行效率和有效性,并利用增加权重值、词袋预处理、编码预处理和分段保存比较等方法对算法进行持续优化.经测试,选择优化后的编辑距离算法对招投标项目公告数据中的相似(重复)数据进行清洗.

关 键 词:编辑距离  余弦相似  Simhash  文本相似度  数据清洗
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号