首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
基于Web-Log Mining的Web文档聚类   总被引:22,自引:0,他引:22  
苏中  马少平  杨强  张宏江 《软件学报》2002,13(1):99-104
速度和效果是聚类算法面临的两大问题.DBSCAN(density based spatial clustering of applications with noise)是典型的基于密度的一种聚类方法,对于大型数据库的聚类实验显示了它在速度上的优越性.提出了一种基于密度的递归聚类算法(recursive density based clustering algorithm,简称RDBC),此算法可以智能地、动态地修改其密度参数.RDBC是基于DBSCAN的一种改进算法,其运算复杂度和DBSCAN相同.通过在Web文档上的聚类实验,结果表明,RDBC不但保留了DBSCAN高速度的优点,而且聚类效果大大优于DBSCAN.  相似文献   

2.
针对传统FCM(Fuzzy C-means)算法中初始聚类中心选取的随机性以及对初始值敏感的问题,提出一种基于进化策略的色彩空间加权的FCM聚类算法.通过在RGB(Red Green Blue)色彩空间矢量中设置加权矩阵来补偿各色彩的非均匀性,并采用一种类内最小距离最大的统计聚类算法来初始化聚类中心.实验结果表明,该算法能有效减少颜色量化后的均方差值,保持重建图像的整体层次和局部特征细节,对研究图像处理技术有较强的实际意义.
Abstract:
Aiming at a defect on randomness of the initial clustering center choosing and sensitivity of initial value in tradition FCM(fuzzy C-means) algorithm, a clustering algorithm about FCM of weighted color space based on evolutionary strategy is proposed. By interposing weighted matrix in RGB(Red Green Blue) color space, the color's inhomogeneous is compensated. And by using a statistics clustering algorithm of minimal maximal distance, clustering center is initiated. The experimental results show that the algorithm can decrease effectively the mean square deviation of color quantization, keep overall arrangement of ideas and part characteristic detail in image reconstruction, and has practical value to the study of the image process technology.  相似文献   

3.
Approaches for scaling DBSCAN algorithm to large spatial databases   总被引:7,自引:0,他引:7       下载免费PDF全文
The huge amount of information stored in datablases owned by coporations(e.g.retail,financial,telecom) has spurred a tremendous interest in the area of knowledge discovery and data mining.Clustering.in data mining,is a useful technique for discovering intersting data distributions and patterns in the underlying data,and has many application fields,such as statistical data analysis,pattern recognition,image processsing,and other business application,s Although researchers have been working on clustering algorithms for decades,and a lot of algorithms for clustering have been developed,there is still no efficient algorithm for clustering very large databases and high dimensional data,As an outstanding representative of clustering algorithms,DBSCAN algorithm shows good performance in spatial data clustering.However,for large spatial databases,DBSCAN requires large volume of memory supprot and could incur substatial I/O costs because it operates directly on the entrie database,In this paper,several approaches are proposed to scale DBSCAN algorithm to large spatial databases.To begin with,a fast DBSCAN algorithm is developed.which considerably speeeds up the original DBSCAN algorithm,Then a sampling based DBSCAN algorithm,a partitioning-based DBSCAN algorithm,and a parallel DBSCAN algorithm are introduced consecutively.Following that ,based on the above-proposed algorithms,a synthetic algorithm is also given,Finally,some experimental results are given to demonstrate the effectiveness and efficiency of these algorithms.  相似文献   

4.
一种新型的基于密度和栅格的聚类算法*   总被引:2,自引:1,他引:1  
针对网格和密度方法的聚类算法存在效率和质量问题,给出了密度和栅格相结合的聚类挖掘算法,即基于密度和栅格的聚类算法DGCA(density and grid based clustering algorithm)。该算法首先将数据空间划分为栅格单元,然后把数据存储到栅格单元中,利用DBSCAN密度聚类算法进行聚类挖掘;最后进行聚类合并和噪声点消除,并将局部聚类结果映射到全局聚类结果。实验通过人工数据样本集对该聚类算法进行理论上验证,表明了该算法在时间效率和聚类质量两方面都得到了提高。  相似文献   

5.
基于数据场的改进DBSCAN聚类算法   总被引:1,自引:0,他引:1  
DBSCAN(density based spatial clustering of applications with noise)算法是一种典型的基于密度的聚类算法。该算法可以识别任意形状的类簇,但聚类结果依赖于参数Eps和MinPts的选择,而且对于一些密度差别较大的数据集,可能得不到具有正确类簇个数的聚类结果,也可能将部分数据错分为噪声。为此,利用数据场能较好描述数据分布,反映数据关系的优势,提出了一种基于数据场的改进DBSCAN聚类算法。该算法引入平均势差的概念,在聚类过程中动态地确定每个类的Eps和平均势差,从而能够在一些密度相差较大的数据集上得到较好的聚类结果。实验表明,所提算法的性能优于DBSCAN算法。  相似文献   

6.
一种改进的基于密度的抽样聚类算法   总被引:1,自引:0,他引:1  
基于密度的聚类算法DBSCAN是一种有效的空间聚类算法,它能够发现任意形状的聚类并且有效地处理噪声。然而,DBSCAN算法也有一些缺点,例如,①在聚类时只考虑空间属性没有考虑非空间属性;②在对大规模空间数据库进行聚类分析时需要较大的内存支持和I/O消耗。为此,在分析DBSCAN算法不足的基础上,提出了一种改进的基于密度的抽样聚类(improved density-based spatial clustering algorithm with sampling,IDBSCAS)算法,使之能够有效地处理大规模空间数据库,并且它不仅考虑了空间属性也考虑了非空间属性。2维空间数据的测试结果表明,该算法是可行、有效的。  相似文献   

7.
针对现有的基于密度的聚类算法存在参数敏感,处理非球面数据和复杂流形数据聚类效果差的问题,提出一种新的基于密度峰值的聚类算法。该算法首先根据自然最近邻居的概念确定数据点的局部密度,然后根据密度峰局部密度最高并且被稀疏区域分割来确定聚类中心,最后提出一种新的类簇间相似度概念来解决复杂流形问题。在实验中,该算法在合成和实际数据集中的表现比DPC(clustering by fast search and find of density peaks)、DBSCAN(density-based spatial clustering of applications with noise)和K-means算法要好,并且在非球面数据和复杂流形数据上的优越性特别大。  相似文献   

8.
一种基于密度的快速聚类方法   总被引:2,自引:1,他引:1  
具有噪声的基于密度的聚类方法(Density based spatial clustering of applications with noise, DBSCAN)在数据规模上的扩展性较差。本文在其基础 上提出一种改进算法——具有噪声的基于密度的快速聚类方法(Fast density based spat ial clustering of applications with noise, F DBSCAN),对核心对象邻域中的对象只 作标记,不再进行扩展检查,通过判断核心对象邻域中是否存在已标记对象来实现簇合并,对 边界对象判断其邻域中是否存在核心对象来确认是否为噪声。此方法避免了原始算法中对重叠区域 的重复操作,在不需创建空间索引的前提下,其时间复杂度为O(nlogn)。通过实验数据集和 真实数据集,验证其聚类效果及算法效率。实验表明F DBSCAN算法不仅保证了有良好的聚 类效果及算法效率,并且在数据规模上具有良好的扩展性。  相似文献   

9.
一种处理障碍约束的聚类算法   总被引:1,自引:0,他引:1  
根据障碍约束空间聚类问题的特点,利用图论的相关知识,提出了一种分阶段的基于图的聚类的算法。首先,通过最小生成树聚类算法,在不考虑障碍约束的情况下对空间对象进行聚类;然后,引入障碍物对上一步的聚类结果进行分割;最后,根据被障碍物分割后形成的各个类之间的障碍距离,将距离较近的两个类合并,形成最终的聚类结果。最后通过实验验证了算法的效果,而且输入参数少,时间复杂度低。  相似文献   

10.
针对基于密度的噪声应用空间聚类算法(density based spatial clustering of applications with noise,DBSCAN)计算复杂度较高以及无法聚类多密度数据集等问题,提出了一种网格聚类算法和DBSCAN相结合的融合聚类算法(G_FDBSCAN)。利用网格划分技术将数据集划分为稀疏区域和密集区域,分而治之,降低计算的时间复杂度和采用全局参数引起的聚类误差;改进传统的DBSCAN聚算法得到FDBSCAN,将密集区域中网格聚类的结果作为一个整体参与后续的聚类,在网格划分基础上进行邻域检索,减少邻域检索和类扩展过程中对象的无效查询和重复查询,进一步减少时间开销。理论分析和实验测试表明,改进后的算法与DBSCAN算法、DPC算法、KMEANS算法、BIRCH算法和CBSCAN算法相比,在聚类结果接近或达到最优的情况下,聚类效率分别平均提升了24倍、11倍、2倍、3倍和1倍。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号