首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到15条相似文献,搜索用时 125 毫秒
1.
一种基于密度的快速聚类算法   总被引:52,自引:0,他引:52  
聚类是数据挖掘领域中的一个重要研究方向,聚类技术在统计数据分析、模式识别、图像处理等领域有广泛应用,迄今为止人们提出了许多用于大规模数据库的聚类算法。基于密度的聚类算法DBSCAN就是一个典型代表。以DBSCAN为基础,提出了一种基于密度的快速聚类算法。新算法以核心对象领域中所有对象的代表对象为种子对象来扩展类,从而减少区域查询次数,降低I/O开销,实现快速聚类,对二维空间数据测试表明:快速算法能够有效地对大规模数据库进行聚类,速度上数倍于已有DBSCAN算法。  相似文献   

2.
提出了一种基于密度的快速聚类算法IF-DBSCAN。该算法在不丢失对象的基础上,选取核心对象邻域中的代表对象来扩展类,从而提高算法的时间性能。重点介绍了基于邻接表的IF-DBSCAN算法的详细实现过程,实验结果表明,IF-DBSCAN算法是正确和高效的。  相似文献   

3.
张蓉  袁宏 《计算机工程》2002,28(8):88-89,110
把求解数据聚类问题转换为一个图形分割寻优问题,提出一种基于快速分解模拟退火算法的数据聚类算法。实验结果表明,快速分解模拟退火算法退火时间短、收敛速度快, 磁盘I/O开销小,把它应用于数据聚类中,可以获得较好的聚类结果。  相似文献   

4.
改进的快速DBSCAN算法   总被引:2,自引:2,他引:2  
针对DBSCAN算法时间性能低效的问题,分析快速聚类过程中丢失对象的原因,提出一种新的改进算法IF-DBSCAN.该算法在不丢失对象的基础上,通过选取核心对象邻域中的代表对象来扩展类,从而减少邻域查询次数,提高了算法的时间性能.实验结果表明,IF-DBSCAN算法是正确和高效的.  相似文献   

5.
基于数据交叠分区的并行DBSCAN算法   总被引:3,自引:0,他引:3  
DBSCAN是基于密度的聚类算法的一个典型代表,它对空间数据库聚类有很好的性能。然而,在对大规模数据库聚类时,DBSCAN需要大量内存支持并伴随着I/O开销。随着高性能计算机的发展,特别是集群式计算机的出现,提供了一种解决DBSCAN算法缺陷的方法。测试表明,它极大地降低了DBSCAN对时间和空间的需要。  相似文献   

6.
基于数据分区的并行DBSCAN算法   总被引:1,自引:0,他引:1  
DBSCAN是基于密度的聚类算法的一个典型代表算法,它对空间数据库聚类有很好的性能.然而,在对大规模数据库聚类时,DBSCAN需要大量内存支持并伴随着I/O开销.随着高性能计算机的发展,特别是集群式计算机出现,给我们提供了一种解决DBSCAN算法缺陷的方法,本文提出一种建立在集群式高性能计算机上基于数据分区并行DBSCAN算法.测试结果表明,它极大地降低了DBSCAN对时间和空间的需要.  相似文献   

7.
基于数据分区的DBSCAN算法   总被引:33,自引:1,他引:33  
数据聚类在数据挖掘、模式识别、图像处理和数据压缩等领域有着广泛的应用。DBSCAN是一种基于密度的空间聚类算法,在处理空间数据时具有快速、有效处理噪声点和发现任意形状的聚类等优点,但由于直接对数据库进行操作,在数据量大的时间就需要较多的内存和I/O开销;此外,当数据密度和聚类间的距离不均匀时聚类质量较差,为此,在分析DBSCAN算法不足的基础上,提出了一个基于数据分区的DBSCAN算法,测试结果表  相似文献   

8.
蔡永旺  杨炳儒 《计算机工程》2008,34(10):190-192
提出一种适用于公交站点聚类的DBSCAN改进算法,缩小搜索半径ε,从而提高聚类正确度,同时通过共享对象判定连接簇的合并,防止簇的过分割,减少噪声点,有效地屏蔽了算法对输入参数的敏感性,提高聚类结果的质量,减少密度差距对聚类结果的影响。保持DBSCAN算法的高执行效率,并应用在智能公交换乘查询引擎中公交站点聚类,聚类准确率提高了16%,验证了新算法的有效性。  相似文献   

9.
基于数据取样的DBSCAN算法   总被引:13,自引:1,他引:13  
取类是数据挖掘领域中的一个重要研究课题。聚类技术在许多领域有着广泛的应用,基于密度的聚类算法DBSCAN是一种有效的空间聚类算法,它能够发现任意形状的类并且有效地处理噪声,用户只需输入一个参数就可以进行聚类分析,但是,DBSCAN算法在对大规模空间数据库进行聚类分析时需要较大的内存支持和I/O消耗。本文在分析DBSCAN算法不足的基础上,提出一种基于数据取样的DBSCAN算法,使之能够有效地处理大规模空间数据库。二维空间数据测试结果表明本文算法是可行、有效的。  相似文献   

10.
目前犯罪组织的严密性和隐蔽性日益增强,电子邮件的广泛应用更为犯罪分子的分散隐匿提供了便利条件.为了解决重点监控对象选择问题,设计了电子邮件地址聚类系统.系统根据电子邮件地址之间的收发关系,构建出电子邮件地址的相似度测量属性,利用基于密度聚类方法中的DBSCAN算法,对电子邮件地址关系紧密程度进行划分,找出较为活跃的电子邮件地址,缩小了电子邮件地址查阅范围,提高了电子邮件信息分析处理的针对性和有效性.  相似文献   

11.
Approaches for scaling DBSCAN algorithm to large spatial databases   总被引:7,自引:0,他引:7       下载免费PDF全文
The huge amount of information stored in datablases owned by coporations(e.g.retail,financial,telecom) has spurred a tremendous interest in the area of knowledge discovery and data mining.Clustering.in data mining,is a useful technique for discovering intersting data distributions and patterns in the underlying data,and has many application fields,such as statistical data analysis,pattern recognition,image processsing,and other business application,s Although researchers have been working on clustering algorithms for decades,and a lot of algorithms for clustering have been developed,there is still no efficient algorithm for clustering very large databases and high dimensional data,As an outstanding representative of clustering algorithms,DBSCAN algorithm shows good performance in spatial data clustering.However,for large spatial databases,DBSCAN requires large volume of memory supprot and could incur substatial I/O costs because it operates directly on the entrie database,In this paper,several approaches are proposed to scale DBSCAN algorithm to large spatial databases.To begin with,a fast DBSCAN algorithm is developed.which considerably speeeds up the original DBSCAN algorithm,Then a sampling based DBSCAN algorithm,a partitioning-based DBSCAN algorithm,and a parallel DBSCAN algorithm are introduced consecutively.Following that ,based on the above-proposed algorithms,a synthetic algorithm is also given,Finally,some experimental results are given to demonstrate the effectiveness and efficiency of these algorithms.  相似文献   

12.
基于数据场的改进DBSCAN聚类算法   总被引:1,自引:0,他引:1  
DBSCAN(density based spatial clustering of applications with noise)算法是一种典型的基于密度的聚类算法。该算法可以识别任意形状的类簇,但聚类结果依赖于参数Eps和MinPts的选择,而且对于一些密度差别较大的数据集,可能得不到具有正确类簇个数的聚类结果,也可能将部分数据错分为噪声。为此,利用数据场能较好描述数据分布,反映数据关系的优势,提出了一种基于数据场的改进DBSCAN聚类算法。该算法引入平均势差的概念,在聚类过程中动态地确定每个类的Eps和平均势差,从而能够在一些密度相差较大的数据集上得到较好的聚类结果。实验表明,所提算法的性能优于DBSCAN算法。  相似文献   

13.
基于DBSCAN聚类算法的研究与实现   总被引:18,自引:0,他引:18  
高密度聚类作为数据挖掘中聚类算法的一种分析方法,它能找到样本比较密集的部分,并且概括出样本相对比较集中的类。文中分析了传统的聚类算法及局限性,讨论了一个基于高密度聚类算法的实现过程,使得算法可自动发现高维子空间,处理高维数据表格,得到较快的聚类速度和最佳的聚类效果。  相似文献   

14.
针对DBSCAN聚类算法随着数据量增大,耗时越发非常严重的问题,提出一种基于KD树改进的DBSCAN算法(以下简称KD-DBSCAN).通过KD树对数据集进行划分,构造邻域对象集,提前区分出噪声点和核心点,避免聚类过程中对噪声的邻域集计算以及加快了核心点对象的邻域集查询速度.文中以浮动车GPS数据为实验数据,对比传统D...  相似文献   

15.
连续属性离散化是数据分析中重要的预处理过程,而基于粗糙集理论的数据分析要求离散化的结果能够最大程度地保持原信息系统的分辨关系。论文提出了一种新的离散化算法,此算法以决策信息系统中决策属性对条件属性集合的依赖度作为评价函数动态调整DBSCAN聚类算法的参数,直至离散化决策属性对条件属性集合的依赖度达到预先指定的阈值为止。算法分析和实验证明,算法是切实可行的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号