首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
章永来  周耀鉴 《计算机应用》2019,39(7):1869-1882
大数据时代,聚类这种无监督学习算法的地位尤为突出。近年来,对聚类算法的研究取得了长足的进步。首先,总结了聚类分析的全过程、相似性度量、聚类算法的新分类及其结果的评价等内容,将聚类算法重新划分为大数据聚类与小数据聚类两个大类,并特别对大数据聚类作了较为系统的分析与总结。此外,概述并分析了各类聚类算法的研究进展及其应用概况,并结合研究课题讨论了算法的发展趋势。  相似文献   

2.
聚类算法研究   总被引:165,自引:1,他引:165  
对近年来聚类算法的研究现状与新进展进行归纳总结.一方面对近年来提出的较有代表性的聚类算法,从算法思想、关键技术和优缺点等方面进行分析概括;另一方面选择一些典型的聚类算法和一些知名的数据集,主要从正确率和运行效率两个方面进行模拟实验,并分别就同一种聚类算法、不同的数据集以及同一个数据集、不同的聚类算法的聚类情况进行对比分析.最后通过综合上述两方面信息给出聚类分析的研究热点、难点、不足和有待解决的一些问题.上述工作将为聚类分析和数据挖掘等研究提供有益的参考.  相似文献   

3.
针对传统聚类算法难以高效进行海量数据聚类分析的问题,提出一种基于MapReduce框架的K-means聚类集成算法。利用K-means算法生成不同聚簇数目的基聚类结果,改进共协关系矩阵,依据数据点对出现次数进行集成,自动得出最终聚类结果。实验结果表明,该算法能够有效地改善聚类质量,具有良好的扩展性,适用于海量数据的聚类分析。  相似文献   

4.
聚类分析就是按照数据间的相似程度,依据特定的准则将数据划分成不同种类.目前聚类分析算法普遍存在对初始参数敏感,难以找到最优聚类以及聚类有效性等问题.人工鱼群算法作为一种新型仿生优化算法,具有良好的克服局部极值和获得全局极值的能力.引入聚类数学模型,结合现有人工鱼群算法的特点和聚类算法理论,通过模拟鱼群的智能行为进行聚类分析,提出了一种基于人工鱼群算法的聚类挖掘方法.对空间数据的实验和蚁群算法的对比研究表明,该算法具有良好的聚类效果.  相似文献   

5.
评判聚类结果的有效性是一个复杂问题.文中提出一种基于决策树的模糊聚类评价算法,证明了决策树过程实际上就是一种模糊聚类评价过程,因此能够使用决策树算法来评价聚类结果的好坏,并在此基础上提出一个新的定理.通过UCI中已经有准确聚类个数的数据来验证算法有效性,在实验中首先使用K-means聚类算法得到不同聚类结果,再使用决策树中的C5.0算法来评价各种聚类结果,得到的最优聚类结果与UCI数据原有的聚类结果接近,证明了算法的实用性.最后给出算法在证券行业客户细分中的应用实例.  相似文献   

6.
针对高分辨率天文图像中的星点聚类研究中存在的 2 个问题:①天文图像的分辨率 较高,且图像处理速度较慢;②选取何种聚类算法对天文图像中的星点进行聚类分析效果较好。 在研究中,问题 1 采用图像分块的方法提高图像的处理速度;问题 2 提出了一种改进的 K 均值聚 类算法,以解决传统的 K 均值聚类算法的聚类结果易受到 k 值和初始聚类中心随机选择影响的问 题。该算法首先在用 K 均值聚类算法对数据初步聚类的基础上确定合适的 k 值,其次用层次聚类 对数据聚类确定初始聚类中心,最后在此基础上再采用 K 均值聚类算法进行聚类。通过 MATLAB 仿真实验的结果表明,该算法的聚类结果与效率优于其他聚类算法。  相似文献   

7.
为了更好地评价无监督聚类算法的聚类质量,解决因簇中心重叠而导致的聚类评价结果失效等问题,对常用聚类评价指标进行了分析,提出一个新的内部评价指标,将簇间邻近边界点的最小距离平方和与簇内样本个数的乘积作为整个样本集的分离度,平衡了簇间分离度与簇内紧致度的关系;提出一种新的密度计算方法,将样本集与各样本的平均距离比值较大的对象作为高密度点,使用最大乘积法选取相对分散且具有较高密度的数据对象作为初始聚类中心,增强了K-medoids算法初始中心点的代表性和算法的稳定性,在此基础上,结合新提出的内部评价指标设计了聚类质量评价模型,在UCI和KDD CUP 99数据集上的实验结果表明,新模型能够对无先验知识样本进行有效聚类和合理评价,能够给出最优聚类数目或最优聚类范围.  相似文献   

8.
基于k-means聚类算法的研究   总被引:4,自引:0,他引:4  
分析研究聚类分析方法,对多种聚类分析算法进行分析比较,讨论各自的优点和不足,同时针对原k-means算法的聚类结果受随机选取初始聚类中心的影响较大的缺点,提出一种改进算法.通过将对数据集的多次采样,选取最终较优的初始聚类中心,使得改进后的算法受初始聚类中心选择的影响度大大降低;同时,在选取初始聚类中心后,对初值进行数据标准化处理,使聚类效果进一步提高.通过UCI数据集上的数据对新算法Hk-means进行检测,结果显示Hk-means算法比原始的k-means算法在聚类效果上有显著的提高,并对相关领域有借鉴意义.  相似文献   

9.
基于k最相似聚类的子空间聚类算法   总被引:3,自引:2,他引:1       下载免费PDF全文
子空间聚类是聚类研究领域的一个重要分支和研究热点,用于解决高维聚类分析面临的数据稀疏问题。提出一种基于k最相似聚类的子空间聚类算法。该算法使用一种聚类间相似度度量方法保留k最相似聚类,在不同子空间上采用不同局部密度阈值,通过k最相似聚类确定子空间搜索方向。将处理的数据类型扩展到连续型和分类型,可以有效处理高维数据聚类问题。实验结果证明,与CLIQUE和SUBCLU相比,该算法具有更好的聚类效果。  相似文献   

10.
数据挖掘中聚类方法比较研究   总被引:4,自引:0,他引:4  
王鑫  王洪国  王珺  王金枝 《微机发展》2006,16(10):20-22
数据挖掘是近年来信息产业界非常热门的研究方向,聚类分析是数据挖掘中的核心技术。聚类算法已被广泛深入地研究,其间产生了许多不同的适用于数据挖掘的聚类算法,但这些算法仅适用于特定的问题及用户。为了更好地使用这些算法,文中对数据挖掘领域的聚类分析方法及代表算法进行了分析,提出了数据挖掘对聚类的典型要求,并基于这些要求对数据挖掘中常用的聚类算法作了比较,以便于人们更容易、更快速地选择一种适用于具体问题的聚类算法。  相似文献   

11.
朱二周  孙悦  张远翔  高新  马汝辉  李学俊 《软件学报》2021,32(10):3085-3103
聚类分析是统计学、模式识别和机器学习等领域的研究热点.通过有效的聚类分析,数据集的内在结构与特征可以被很好地发掘出来.然而,无监督学习的特性使得当前已有的聚类方法依旧面临着聚类效果不稳定、无法对多种结构的数据集进行正确聚类等问题.针对这些问题,首先将K-means算法和层次聚类算法的聚类思想相结合,提出了一种混合聚类算法K-means-AHC;其次,采用拐点检测的思想,提出了一个基于平均综合度的新聚类有效性指标DAS(平均综合度之差,difference of average synthesis degree),以此来评估K-means-AHC算法聚类结果的质量;最后,将K-means-AHC算法和DAS指标相结合,设计了一种寻找数据集最佳类簇数和最优划分的有效方法.实验将K-means-AHC算法用于测试多种结构的数据集,结果表明:该算法在不过多增加时间开销的同时,提高了聚类分析的准确性.与此同时,新的DAS指标在聚类结果的评价上要优于当前已有的常用聚类有效性指标.  相似文献   

12.
聚类算法是人工智能领域的重要组成部分,选择合适的聚类评价指标对于聚类结果的正确评估具有重要意义。选择常用的3个聚类内部评价指标在不同分布数据集下的不同算法聚类结果进行对比实验,基于极差比和变异系数对聚类评价指标的波动性进行对比。实验结果表明,Silhouette Coefficien (SC)指数值波动最小;Davies-Bouldin (DB)指数值波动最大。评价指标在各数据集中的聚类性能排名方面,SC指数和Calinski-Harabasz (CH)指数具有一致性。这3个指标在团状数据集上聚类效果最好;在同心圆数据集上聚类效果最差。通过对聚类评价指标在数据集上相关性的分析发现,每个聚类评价指标对不同数据集具有特定的倾向性。  相似文献   

13.
数据挖掘中聚类方法比较研究   总被引:5,自引:1,他引:5  
数据挖掘是近年来信息产业界非常热门的研究方向,聚类分析是数据挖掘中的核心技术。聚类算法已被广泛深入地研究,其间产生了许多不同的适用于数据挖掘的聚类算法,但这些算法仅适用于特定的问题及用户。为了更好地使用这些算法,文中对数据挖掘领域的聚类分析方法及代表算法进行了分析,提出了数据挖掘对聚类的典型要求,并基于这些要求对数据挖掘中常用的聚类算法作了比较,以便于人们更容易、更快速地选择一种适用于具体问题的聚类算法。  相似文献   

14.
网格聚类算法   总被引:3,自引:0,他引:3  
聚类分析有广泛的应用,是数据挖掘中非常重要的方法。聚类分析算法有多种分类,每种方法在不同领域发挥了不同的作用。以研究网格聚类算法为目的,介绍了聚类分析算法的要求以及常见的聚类算法;针对基于网格方法的聚类算法进行专门研究,比较分析了传统的和改进的基于网格方法的聚类算法。介绍的各种网格聚类算法都有自身的优点和不足。通过对这些网格聚类算法的学习便于深入研究网格聚类算法,以便将其与实际问题相结合,设计更好的算法。  相似文献   

15.
基于类间距离参数估计的文本聚类评价方法   总被引:1,自引:0,他引:1  
郑军  王巍  杨武  杨永田 《计算机工程》2009,35(9):37-39,4
文本聚类评价算法运用统计学当中的参数估计方法,根据类间距离信息对其分布规律中的数字特征进行参数估计。基于估计的结果确定类间距离合理的取值范围,将不合理的聚类进行调整,并通过聚类有效性判断函数最终确认调整结果。该算法有效地提高聚类结果的准确性,井为聚类算法的选择与分析提供一种可行的方法。实验结果证明了其可行性与有效性。  相似文献   

16.
由于当今的网络数据是海量的,因此科研人员对某些问题进行研究时需要将不同属性的数据从中提取出来,然而在提取这些数据之前需要将相同数据进行聚类。数据聚类的过程,也就是寻找数据最优属性的过程,然而人工蚁群就是一种寻找问题最优解的算法,因此在本文中再次将蚁群算法在聚类中进行应用。由本文提出的聚类算法可以分为两个部分,第一部分是:通过相似性算法来衡量数据之间的相似度,第二部分是:根据第一部分的计算结果,再采用蚁群算法为需要聚类的数据选择不同的聚类中心,从而对不同属性的数据进行聚类,经过以上两个过程的计算,可以实现对数据的聚类。在本文中进行数据聚类时采用的相似性度量来代替距离的计算,是本文创新点之一,采用蚁群算法在聚类过程中来选择聚类中心也是本文的创新所在。  相似文献   

17.
聚类有效性评价综述*   总被引:11,自引:3,他引:8  
在聚类分析应用中,迫切需要一种客观公正的质量评价方法来评判聚类结果的有效性。为此,从外部评价法、内部评价法和相对评价法三个方面,归纳综述了常用的聚类有效性评价方法,并讨论了模糊聚类评价法和聚类最佳类别数的自动确定问题。  相似文献   

18.
针对目前聚类算法对大数据集的聚类分析中存在时间花费过大的问题,提出了一种基于最近邻相似性的数据集压缩算法。通过将若干个相似性最近邻的数据点划分成一个数据簇并随机选择簇头构成新的数据集,大大缩减了数据的规模。然后分别采用k-means算法和AP算法对压缩后的数据集进行聚类分析。实验结果表明,压缩后的数据集与原始数据集的聚类分析相比,在保证聚类准确率基本一致的前提下有效降低了聚类的花费时长,提高了算法的聚类性能,证明该数据集压缩算法在聚类分析中的有效性与可靠性。  相似文献   

19.
针对层次聚类方法与K-Means聚类方法的一些不足,提出了一种基于密度偏差抽样的改进聚类分析算法DS-Ward,该算法能够自动获得中心点和聚类数,能够在计算量减少的情况下得到较为可靠的结果。通过基于该方法的卖方信用聚类分析模型对实际数据进行分析,以发现不同类别卖方的销售信用特点。  相似文献   

20.
聚类分析在数据挖掘领域中是一个非常重要的研究课题,该文阐述了聚类算法的基本原理和性能要求,并依据算法思想的不同把聚类算法分为五类,详细介绍了每一类的算法思想、优缺点及典型算法,有利于用户对聚类算法的选择和研究者对聚类算法的改进研究,最后探讨了聚类算法今后的发展趋势。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号