首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 937 毫秒
1.
聚类分析算法已广泛地应用于数据挖掘。文章总结了大型数据库数据挖掘对聚类算法的基本要求,介绍了广泛应用于大型数据库的三种聚类算法,并对它们进行了性能比较;结果表明,不同的聚类方法,对于相同的记录集合可能有不同的聚类结果,因此应根据实际需要采用相应的聚类分析算法。  相似文献   

2.
数据挖掘过程中的模糊聚类方法   总被引:6,自引:0,他引:6  
在研究数据挖掘过程中常见的数据聚类方法的基础上,在数据挖掘中引入了模糊聚类分析的方法,分析了该方法在数据挖掘过程中的特性,讨论了其在大型数据库中的应用方法。  相似文献   

3.
快速发现任意形状的聚类   总被引:2,自引:0,他引:2  
提出FFCAS(Fast Finding the Clusters of Arbitrary Shape)聚类算法,用于快速发现任意形状的聚类,先将每个对象分配到很小的ε-邻域,即原子聚类,然后找出高浓度的核心原子聚类,再消除所有的冗余原子聚类,仅用边界来表示聚类,大大减小了存储空间。因为ε是一个很小的值,原子聚类能自然地描述聚类。该算法最坏时间复杂度为O(n log n)(n为数据库中的对象个数),只需访问一次数据库,实验表明,FFCAS运行时间与数据库中的对象数目成线性关系,能发现任意形状的聚类,对异类的敏感性低,对大型、高维数据库也有效。  相似文献   

4.
利用广义细胞自动机实现的智能数据聚类   总被引:2,自引:0,他引:2  
现有的数据聚类方法仍存在着各种不足,聚类速度和结果的质量不能满足大型、高维数据库上的聚类需求。本文提出了一种新的基于广义细胞自动机的数据聚类算法,利用细胞自动机的自组织能力对数据进行聚类分析。聚类结果的质量不受聚类大小和聚类形状的影响,可以通过随机抽样应用于大数据集。文章在细胞结构及细胞动力学规则中引入了细胞核的概念,让细胞自动机利用自身的演化找出数据中的聚类信息。文章通过分析证明了本文方法的有效性,并通过模拟软件对算法性能进行了详细的实验,证明了算法的实用性和高效性。  相似文献   

5.
聚类分析是一种无监督的机器学习方法,聚类结果完全取决于所用聚类算法,不同的算法会得到不同的聚类结果,因此面对待挖掘数据选择合适的算法很重要。如何判断哪个聚类算法最合适,或者哪个算法的聚类结果最优,就需要用到聚类评价方法。本文选择各类聚类算法中的经典算法对某汽车4S店顾客消费数据进行聚类分析,最后用两种评价指标对各聚类结果进行评价进而选择出最优的聚类算法。  相似文献   

6.
随着传感器数据、互联网数据、金融数据(股票价格等)、在线拍卖以及事务日志(网站访问日志、电话记录日志)等的不断产生,数据流成为了主要的数据形式。流挖掘是数据库领域的研究热点,有很大的应用前景。本文首先简单介绍了数据流与聚类分析的概念,阐述了数据流中的聚类分析及其要求,详细说明了主要传统聚类方法的演变及各自代表性流数据聚类算法,并对其进行总结。在本文的最后,对流数据挖掘的前景做出展望。  相似文献   

7.
聚类分析技术能使人脸识别系统了解人脸特征数据的分布方式,并为人脸数据库建立适当的索引结构.目前缺乏对真实人脸数据进行聚类分析的工作,为弥补不足,此文探索了Cure聚类算法在人脸识别中的应用.在分析过各种影响聚类效果的因素,如高维人脸特征数据对聚类效果的影响、Cure算法的缺点等,对Cure算法提出了若干改进.  相似文献   

8.
图的聚类是数据聚类的一种很重要的变体,一方面通常可以用图来表示数据集中数据的相似度;另一方面对大型复杂网络的分析也引起人们越来越多地关注;而且对图进行聚类分析可以增强图的可视性,有助于可视化的分析、观测和导航。将最大最小方法的基本思想应用于非加权图的聚类,提出一种无向连通非加权图的快速聚类方法,该方法具有简单、聚类时间短、运行效率高、对于大型静态图的聚类具有良好的适应性等特点。  相似文献   

9.
随着传感器数据、互联网数据、金融数据(股票价格等)、在线拍卖以及事务日志(网站访问日志、电话记录日志)等的不断产生,数据流成为了主要的数据形式.流挖掘是数据库领域的研究热点,有很大的应用前景.本文首先简单介绍了数据流与聚类分析的概念,阐述了数据流中的聚类分析及其要求,详细说明了主要传统聚类方法的演变及各自代表性流数据聚类算法,并对其进行总结.在本文的最后,对流数据挖掘的前景做出展望.  相似文献   

10.
聚类分析技术是数据挖据中的一种重要技术。本文介绍了数据挖掘对聚类的典型要求和聚类方法的分类,研究分析了聚类的主要算法.并从多个方面对这些算法的性能进行比较。  相似文献   

11.
数据挖掘中聚类算法研究进展   总被引:6,自引:0,他引:6  
聚类分析是数据挖掘中重要的研究内容之一,对聚类准则进行了总结,对五类传统的聚类算法的研究现状和进展进行了较为全面的总结,就一些新的聚类算法进行了梳理,根据样本归属关系、样本数据预处理、样本的相似性度量、样本的更新策略、样本的高维性和与其他学科的融合等六个方面对聚类中近20多个新算法,如粒度聚类、不确定聚类、量子聚类、核聚类、谱聚类、聚类集成、概念聚类、球壳聚类、仿射聚类、数据流聚类等,分别进行了详细的概括。这对聚类是一个很好的总结,对聚类的发展具有积极意义。  相似文献   

12.
模糊聚类算法是一种有效的聚类手段,介绍了最大树模糊聚类算法。在商务网站中,以Web日志中数据为依据,基于访问模式对商品及用户进行模糊聚类处理,给出算法实现的步骤,讨论了实现的关键技术,并介绍了未来工作的发展方向。  相似文献   

13.
数据挖掘中聚类方法比较研究   总被引:4,自引:0,他引:4  
王鑫  王洪国  王珺  王金枝 《微机发展》2006,16(10):20-22
数据挖掘是近年来信息产业界非常热门的研究方向,聚类分析是数据挖掘中的核心技术。聚类算法已被广泛深入地研究,其间产生了许多不同的适用于数据挖掘的聚类算法,但这些算法仅适用于特定的问题及用户。为了更好地使用这些算法,文中对数据挖掘领域的聚类分析方法及代表算法进行了分析,提出了数据挖掘对聚类的典型要求,并基于这些要求对数据挖掘中常用的聚类算法作了比较,以便于人们更容易、更快速地选择一种适用于具体问题的聚类算法。  相似文献   

14.
Discovering interesting patterns or substructures in data streams is an important challenge in data mining. Clustering algorithms are very often applied to identify single substructures although they are designed to partition a data set. Another problem of clustering algorithms is that most of them are not designed for data streams. This paper discusses a recently introduced procedure that deals with both problems. The procedure explores ideas from cluster analysis, but was designed to identify single clusters without the necessity to partition the whole data set into clusters. The new extended version of the algorithm is an incremental clustering approach applicable to stream data. It identifies new clusters formed by the incoming data and updates the data space partition. Clustering of artificial and real data sets illustrates the abilities of the proposed method.  相似文献   

15.
章永来  周耀鉴 《计算机应用》2019,39(7):1869-1882
大数据时代,聚类这种无监督学习算法的地位尤为突出。近年来,对聚类算法的研究取得了长足的进步。首先,总结了聚类分析的全过程、相似性度量、聚类算法的新分类及其结果的评价等内容,将聚类算法重新划分为大数据聚类与小数据聚类两个大类,并特别对大数据聚类作了较为系统的分析与总结。此外,概述并分析了各类聚类算法的研究进展及其应用概况,并结合研究课题讨论了算法的发展趋势。  相似文献   

16.
蚁群聚类算法综述   总被引:18,自引:0,他引:18  
数据聚类是重要的数据挖掘技术,在工程和技术等领域具有广泛的应用背景。蚁群算法作为一种新型的优化方法,具有很强的鲁棒性和适应性。文章着重介绍蚁群聚类算法的研究情况,阐述当今流行的蚁群聚类算法的基本原理及其特性,旨在为蚁群聚类算法的发展提供引导作用。  相似文献   

17.
不同的聚类算法用于设计各自的策略,然而,每种技术在执行特定数据集时都有一定的局限性。选择恰当的识别信息方法(DIM)可确保文档聚类的进行。针对这些问题提出一种基于共识和分类的文档聚类(DCCC)的DIM。首先,选择识别信息最大化聚类(CDIM)作为数据集生成初始聚类的解决方法,并使用两种不同的CDIM方法生成两个初始聚集;其次,使用不同的参数方法对两初始聚集再进行初始化,通过簇标签信息间的关系建立共识,最大限度地提高文档的识别数总和;最后,选择识别文本权重分类(DTWC)作为文本分类器给共识分配新的簇标签,通过训练文本分类器更改基础分区,并根据预报标签信息生成最后的分区。采用8个网络数据集进行实验,选择BCubed的精度和召回率指标进行聚类验证。实验结果表明,所提出的共识分类方法的聚类结果优于对比方法的聚类结果。  相似文献   

18.
针对密度峰值聚类算法(DPC)不能自动确定聚类中心,并且聚类中心点与非聚类中心点在决策图上的显示不够明显的问题,设计了一种自动确定聚类中心的比较密度峰值聚类算法(ACPC)。该算法首先利用距离的比较量来代替原距离参数,使潜在的聚类中心在决策图中更加突出;然后通过二维区间估计方法进行对聚类中心的自动选取,从而实现聚类过程的自动化。仿真实验结果表明,在4个合成数据集上ACPC取得了更好的聚类效果;而在真实数据集上的Accuracy指标对比表明,在Iris数据集上,ACPC聚类结果可达到94%,与传统的DPC算法相比提高了27.3%,ACPC解决了交互式选取聚类中心的问题。  相似文献   

19.
聚类是数据挖掘研究领域的一种重要数据预处理方法,其目的是从无标签数据集中获得有价值数据集的内在分布结构,进而简化数据集的描述.历经几十年的研究,针对不同应用和数据特性己出现了千余种不同的聚类算法,但不同的聚类算法都有其特定的适用范围和不足.传统的聚类算法大致可分为划分聚类方法、层次聚类方法、密度聚类方法、网格聚类方法、模型聚类方法等.通过对传统聚类方法的回顾和总结,文章重点介绍了近年来出现的同步聚类算法、信念传播聚类算法和密度峰值聚类算法,并针对以上聚类算法的应用及发展方向进行了论述.  相似文献   

20.
聚类分析是数据挖掘中的核心技术,利用相关的可视化方法显示聚类结果,将数据分布以直观、形象的图形方式呈现给决策者,使得决策者可以直观地分析数据。I-Miner是一个企业级的数据挖掘工具,利用I-Miner软件进行聚类分析,并用多种方法将聚类结果可视化。通过S语言拓展软件功能,编程实现了K-Medoid算法、SOM算法、SOM与K-Medoids结合的聚类组合算法,尤其是在高维数据的可视化上,实现了星图法和SOM之U矩阵法,弥补软件中聚类和可视化模块较少的不足。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号