首页 | 官方网站   微博 | 高级检索  
     

一种检测汉语相似重复记录的有效方法
引用本文:程国达,苏杭丽.一种检测汉语相似重复记录的有效方法[J].计算机应用,2005,25(6):1362-1365.
作者姓名:程国达  苏杭丽
作者单位:南京财经大学,信息工程学院,江苏,南京,210003
摘    要:消除重复记录可以提高数据质量。提出了按字段值种类数选择排序字段的方法。在相似重复记录的检测中,用第1个排序字段建立存储相似重复记录的二维链表,然后再用第2、第3个排序字段对二维链表中的记录进行排序—比较,以提高检测效果。为了正确地匹配汉字串,研究了由于缩写所造成的不匹配和读音、字型相似造成的输入错误。通过查找“相似汉字表”解决部分输入错误的问题,计算相似度函数判断被比较的记录是否是重复记录。实验表明,提出的方法能有效的检测汉语相似重复记录。

关 键 词:汉语相似重复记录  排序字段  二维链表
文章编号:1001-9081(2005)06-1362-04

Efficient approach for identifying approximately duplicate Chinese database records
CHENG Guo-da,SU Hang-li.Efficient approach for identifying approximately duplicate Chinese database records[J].journal of Computer Applications,2005,25(6):1362-1365.
Authors:CHENG Guo-da  SU Hang-li
Abstract:
Keywords:approximately duplicate Chinese records  sorting field  2-D-linked list
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号