首页 | 官方网站   微博 | 高级检索  
     

基于划分的集合相似连接
引用本文:荣垂田,徐天任,杜小勇.基于划分的集合相似连接[J].计算机研究与发展,2012,49(10):2066-2076.
作者姓名:荣垂田  徐天任  杜小勇
作者单位:1. 教育部数据工程与知识工程重点实验室(中国人民大学) 北京 100872;中国人民大学信息学院 北京100872
2. 中国人民大学信息学院 北京100872;民族教育信息化教育部重点实验室(云南师范大学) 昆明 650500
基金项目:中央高校基本科研业务费专项基金项目
摘    要:集合相似连接(set similarity join)是指在给定的数据集中,按照基于集合间覆盖关系的相似度计算方法来衡量数据之间的相似度、并找出所有相似度不小于给定阈值的数据对的操作.集合相似连接作为一种新的基本操作在很多领域中有重要应用.随着社会网络、移动应用以及在线服务的发展,使得数据收集的效率和规模得到了很大的提高,同时给相似连接操作带来新的挑战.根据集合相似的必要条件,提出了相似集合之间的差异度.利用差异度和鸽巢原理,提出了一种新颖的基于数据划分的集合相似连接计算方法,该方法对集合进行自适应的均衡划分,并利用基于划分块的过滤方法来提高过滤的效率.为了进一步提高过滤的效果和相似连接的效率,利用划分块的位置信息提出了增强的过滤方法.针对提出的方法,在不同的环境下进行了实验,实验结果表明,该方法与已有的方法相比可以有效地提高相似连接的效率.

关 键 词:相似连接  集合相似连接  集合划分  前缀过滤  划分块过滤

Partition-Based Set Similarity Join
Rong Chuitian , Xu Tianren , Du Xiaoyong.Partition-Based Set Similarity Join[J].Journal of Computer Research and Development,2012,49(10):2066-2076.
Authors:Rong Chuitian  Xu Tianren  Du Xiaoyong
Affiliation:1, 2 1 ( Key Laboratory of Data Engineering and Knowledge Engineering ( Renmin University of China ), Ministry of Education , Beijing100872 ) 2 ( School of Information , Renmin University of China , Beijing100872 ) 3 ( Key Laboratory of Education Information for Nationalities ( Yunnan Normal University ), Ministry of Educaiton , Kunming650500 )
Abstract:
Keywords:
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号