排序方式: 共有97条查询结果,搜索用时 218 毫秒
1.
2.
相似重复记录检测对于提高数据质量有着重要意义。为了减少检测代价和提高运行效率,基于传统的窗口技术和分块技术,提出一种相似重复记录检测算法。该算法利用关键字段将数据集进行排序和分块,并利用滑动窗口技术限制分块间比对。设计一种多字段排序改进算法,对不同字段的分块共同聚类,优先比较重复密度大的分块对,摒弃聚类较差的分块。该算法减少了检测过程中的数据比较次数,并降低了字段好坏对算法速度的影响。理论和实验分析表明,该算法能有效地提高相似重复记录检测的准确率和时间效率。 相似文献
3.
4.
为了提高数据库的数据质量,需要对相似重复记录进行清洗,基本邻近排序算法是目前常用的清洗算法之一. 针对判重过程中属性权值计算主观性过强的问题,提出通过多用户综合评判确定属性权值的方法,该方法能更客观地评判属性的重要性程度. 在此基础上,结合属性权值计算两条记录的长度比例,排除不可能构成相似重复的记录,减少了比较次数,提高了检测效率. 实验结果表明改进算法在查全率、查准率及时间效率等方面均有所提高 相似文献
5.
关系数据库中近似重复记录的识别 总被引:5,自引:0,他引:5
数据清理转换是数据仓库中的一个重要研究领域,其技术难点之一是重复记录的识别。介绍了与重复记录识别相关的字符串匹配方法,详细讨论了识别重复记录的分区式优先队列算法、多趟邻近排序法以及邻近连接法,最后给出了实验结果。 相似文献
6.
随着Web数据库数量和其蕴含数据量飞速的增长,对Deep Web数据的集成越来越成为研究领域关注的问题.然而由于Web上的信息以半结构化及无结构化的数据信息居多,导致了抽取的结果中包含诸多的不确定性.如有噪音数据、重复字符、简写与全称混合等问题.这给识别重复记录带来了很大不便,导致传统的去重算法无法达到很好的效果.为此,提出了一种面向deep Web结果整合的重复记录识别模型.在该模型中,提出了一种基于编辑距离的改进算法,基于该算法实现字符串匹配;通过构建属性匹配图,并采用二次确认机制实现识别重复记录.应用该模型,既提高了识别效率又保证了识别精确度,并通过实验证明了提出的算法和模型的可行性. 相似文献
7.
针对多数据源集成中存在的相似重复记录的问题,提出了一种基于用户兴趣度分组的模糊匹配识别方法。首先通过用户兴趣度方法来计算属性的权值,然后按照数据分组思想,选择权值大的属性将数据集分割成不相交的小数据集,最后在各小数据集中用模糊匹配算法进行相似重复记录的识别,为了提高识别效率,可选择余下权值大的属性进行多次分组和识别。理论和实践表明,该方法有较高的识别效率,能有效解决数据集成中相似重复记录的识别问题。 相似文献
8.
曹小峰 《计算机工程与设计》2009,30(23)
目前已有的重复记录检测方法大多数基于"排序&合并"的思想,其检测精度不高、执行检测的代价过大.针对这些问题,提出了一种分组模糊聚类的特征优选方法.该方法首先进行分组记录的属性处理,以有效降低记录属性的维数,并获得分组中的代表性记录,然后采用一种相似度比较计算方法进行组内相似重复记录的检测.理论分析和实验结果表明,该方法有较高的识别精度和检测效率,能较好地解决大数据集中相似重复记录的识别问题. 相似文献
9.
10.
基于QPSO-LSSVM的数据库相似重复记录检测算法 总被引:1,自引:0,他引:1
针对大规模数据库的相似重复记录的检测问题,提出了一种量子群优化算法(QPSO)与最小二乘支持向量
机(LSSVM)相结合的相似重复记录检测方法(QPSC}LSSVM)。首先计算记录字段的相似度值;然后利用QPSO对
LSSVM参数进行优化,构建相似重复记录检测模型;最后通过具体数据集进行仿真测试实验。仿真结果表明,QPSCL
LSSVM不仅提高了重复记录检测准确率,而且提高了检测效率,是一种有效的相似重复记录检测算法。 相似文献