首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 130 毫秒
1.
针对高维数据在聚类过程中存在迭代次数多、运算耗时长等问题,提出一种改进的聚类算法,首先采用谱聚类对样本降维,再选取k个首尾相连且距离乘积最大的数据对象作为初始聚类中心,在簇中心更新过程中,选取与簇均值距离最近的数据对象作为簇中心,并将其他数据对象按最小距离划分至相应簇中,反复迭代,直至收敛。实验结果表明,新算法的Rand指数、Jaccard系数和Adjusted Rand Index等聚类指标全部优于K-means算法及其他3种改进聚类算法,在运行效率方面,新算法的聚类耗时更短、迭代次数更少。  相似文献   

2.
周鹿扬  程文杰  徐建鹏  徐祥 《计算机科学》2016,43(Z6):454-456, 484
针对k-means算法采用单一的聚类中心描述一个类簇,一般不能有效适用于任意形状簇的缺陷,在研究k-means算法以及初始聚类中心优化算法的基础上,考虑将数据集中较大或延伸状的簇分割成若干球状簇,而后合并这些小簇。该算法首先选取一组分布于高密度区域的聚类中心,将聚类中心周围的对象划分到离其最近的聚类中心形成子簇,再根据子簇之间的连通性完成子簇合并。实验证明,该算法能有效适应任意形状簇,并保持了k-means算法简单的优点。  相似文献   

3.
k中心点聚类算法在层次数据的应用   总被引:2,自引:0,他引:2  
探讨了近年来提出的聚类概念与聚类过程、k中心点聚类的算法,在此基础上提出了一种基于层次数据模型的k中心聚类的改进算法.该算法一方面针对层次变量提出了相关的中值点概念;另一方面对传统k中心点算法进行了改进.最后对改进算法的复杂度进行了分析,由分析结果得出改进算法要比传统k中心点算法每次迭代耗费时间略少,但在总耗费时间上远远小于k中心点算法,大幅度提高了算法的整体性能.  相似文献   

4.
针对K-Means算法所存在的问题,提出了一种改进的K-Means算法,该方法通过选取相互距离最远的数据点作为初始聚类中心,能够很好地排除随机选取初始聚类中心点的影响.通过实验验证,相对于传统K-Means算法,改进K-Means算法能够获得更好的聚类效果.  相似文献   

5.
针对快速K-me doids聚类算法所选初始聚类中心可能位于同一类簇的缺陷,以及基于粒计算的K-medoids算法构造样本去模糊相似矩阵时需要主观给定阈值的缺陷,提出了粒计算优化初始聚类中心的K-medoids聚类算法。该算法结合粒计算与最大最小距离法,优化K-medoids算法初始聚类中心的选取,选择处于样本分布密集区域且相距较远的K个样本作为初始聚类中心;使用所有样本的相似度均值作为其构造去模糊相似矩阵的阈值。人工模拟数据集和UCI机器学习数据库数据集的实验测试表明,新K-medoids聚类算法具有更稳定的聚类效果,其准确率和Adjusted Rand Index等聚类结果评价指标值优于传统K-medoids聚类算法、快速K-medoids聚类算法和基于粒计算的K-medoids聚类算法。  相似文献   

6.
聚类分析是数据挖掘领域的重要组成部分之一,而度量学习是聚类分析中的关键性步骤。传统聚类算法中通常使用欧氏距离进行距离度量,但是欧氏距离只关注两两样本之间的距离关系,并没有顾及数据的全局性分布结构。考虑到数据的全局性结构信息,提出了一种新的具有全局性的度量方法——有效距离度量(effective distance metric),其主要思想是通过稀疏重构的方法计算数据样本之间的有效距离。进一步地,将有效距离应用到K-means、K-medoids和FCM(fuzzy C-means)3种经典聚类算法中开发了3种基于有效距离的聚类算法,即EK-means,EK-medoids和EFCM聚类算法。通过与传统聚类算法在UCI标准数据集上的实验结果进行比较,验证了基于有效距离的聚类算法能显著提高聚类效果。  相似文献   

7.
针对标准的竞争学习算法(rival penalized competitive learning,RPCL)在问题规模较大情况下,算法收敛速度较慢以及无法精确找到聚类中心的问题,通过引入聚类中心计数值和全局距离向量的方法,提高了RPCL算法对于问题全局最优解的搜索能力,提出了一个基于聚类中心计数值和全局距离向量的RPCL算法改进。通过理论证明验证了该RPCL算法可以有效提高RPCL算法对于全局最优聚类中心的搜索能力以及聚类结果的准确性,实验结果表明了理论推导的正确性以及该算法的可行性。  相似文献   

8.
初始聚类中心优化选取的核C-均值聚类算法   总被引:4,自引:1,他引:3  
在通常的核C-均值聚类算法中,聚类结果对初始聚类中心敏感,随机选取初始聚类中心时,会使得迭代次数较多、分类结果不稳定.针对该问题提出一种优化选取仞始聚类中心的算法.该方法采用一种改进的最大最小距离算法对原始空间中的数据进行粗分类,将粗分类结果中每类类心作为初始聚类中心,再运用核C-均值聚类算法进行分类.仿真实验结果表明方法能有效减少迭代次数,使分类结果更加稳定,分类识别率也有一定程度的提高.  相似文献   

9.
初始中心优化的K—Means聚类算法   总被引:22,自引:1,他引:22  
1.引言聚类分析(clustering)是人工智能研究的重要领域。聚类方法被广泛研究并应用于机器学习、统计分析、模式识别以及数据库数据挖掘与知识发现等不同的领域。各种聚类方法中,基于目标函数的K-Means聚类方法应用极为广泛,根据聚类结果的表达方式又可分为硬K-Means(HCM)算法、模糊K-Means算法(FCM)和概率K-Means算法(PCM)。各种K-Means算法都以确定的目标函数来测度聚类的效果,最佳的聚类效果对应于目标函数的极值点。由于目标函数局部极小值点的存在以及算法的贪心性,导致聚类结果对初始中心敏感,往往达不到全局最优。  相似文献   

10.
基于全局K-Means的谱聚类算法   总被引:3,自引:1,他引:2  
谢皝  张平伟  罗晟 《计算机应用》2010,30(7):1936-1937
谱聚类算法是近年来研究得比较多的一种聚类算法。但谱聚类是对初始化敏感的,针对这种缺陷,提出一种基于全局K-means的谱聚类算法(GKSC),引入对初值不敏感的全局K-means算法来改善。通过仿真实验表明:GKSC与传统谱聚类算法相比更能得到稳定的聚类结果和更高的聚类精确度。  相似文献   

11.
优化初始聚类中心的K-means聚类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
针对传统K-means算法对初始中心十分敏感,聚类结果不稳定问题,提出了一种改进K-means聚类算法。该算法首先计算样本间的距离,根据样本距离找出距离最近的两点形成集合,根据点与集合的计算公式找出其他所有离集合最近的点,直到集合内数据数目大于或等于[α]([α]为样本集数据点数目与聚类的簇类数目的比值),再把该集合从样本集中删除,重复以上步骤得到K(K为簇类数目)个集合,计算每个集合的均值作为初始中心,并根据K-means算法得到最终的聚类结果。在Wine、Hayes-Roth、Iris、Tae、Heart-stalog、Ionosphere、Haberman数据集中,改进算法比传统K-means、K-means++算法的聚类结果更稳定;在Wine、Iris、Tae数据集中,比最小方差优化初始聚类中心的K-means算法聚类准确率更高,且在7组数据集中改进算法得到的轮廓系数和F1值最大。对于密度差异较大数据集,聚类结果比传统K-means、K-means++算法更稳定,更准确,且比最小方差优化初始聚类中心的K-means算法更高效。  相似文献   

12.
针对传统K—means聚类算法对初始聚类中心的敏感性和随机性,造成容易陷入局部最优解和聚类结果波动性大的问题,结合密度法和最大化最小距离的思想,提出基于最近高密度点间的垂直中心点优化初始聚类中心的K—means聚类算法。该算法选取相互间距离最大的K对高密度点,并以这足对高密度点的均值作为聚类的初始中心,再进行K—means聚类。实验结果表明,该算法有效排除样本中含有的孤立点,并且聚类过程收敛速度快,聚类结果有更好的准确性和稳定性。  相似文献   

13.
陈侃  李彬  田联房 《计算机科学》2012,39(2):302-304
肺部疾病通常以肺结节的形式表现出来。为了对肺部疾病进行诊断治疗,需要对肺结节进行准确的检测。提出了基于局部阈值和聚类中心迭代的肺结节检测算法。首先,对肺实质图像采用局部阈值算法,提取感兴趣区域(ROIs),并且计算ROIs的形态特征、灰度特征和纹理特征;其次,结合规则、聚类中心迭代和欧式距离,对ROIs进行分类。实验结果表明,所提算法能够较好地检测出孤立性结节、低对比度结节和粘连肺壁结节。  相似文献   

14.
王宏杰  师彦文 《计算机科学》2017,44(Z11):457-459, 502
为了提高传统K-Means聚类算法的聚类准确性,提出一种结合初始中心优化和特征加权的改进K-Means聚类算法。首先,根据样本特征对聚类的贡献程度获得初始特征权重,构建一种加权距离度量。其次,利用提出的初始聚类中心选择方法获得k个初始聚类中心,并结合初始特征权重进行初步聚类。然后,根据聚类精度来调整特征权重并再次执行聚类过程。重复执行上述过程直到聚类精度不再变化,获得最终的聚类结果。在UCI数据库上的实验结果表明,与现有相关K-Means聚类算法相比,该算法具有较高的聚类准确性。  相似文献   

15.
针对传统K-均值聚类算法初始聚类中心和聚类数目确定困难的问题,提出了基于密度统计法和最大距离乘积法的聚类中心选取方法.该方法通过对样本空间网格化,选出局部包含样本最多的网格,并对这些局部最优网格内的样本点进行ε邻域密度统计,然后取邻域密度最大且相距最远的两个样本点为聚类中心进行一次聚类.计算每个样本点到各个聚类中心的距离的积,取距离积最大的样本点为下一个聚类中心,并以此循环聚类.仿真实验表明,该方法在聚类精度上具有明显优势.  相似文献   

16.
聚类是数据挖掘中的一种重要数据分析方法,K-means是一种基于划分的聚类算法。针对K-means算法中每次调整簇中心后确定新的簇中心需要大量的距离计算,提出一种利用簇中心的变化信息来确定新簇中心的方法,通过从动态簇中心集中选取候选集的方法减少了过滤算法的计算复杂度。理论分析表明,此算法在每一个迭代阶段能有效的减少距离计算数和计算时间。当数据集越大,维度越高时,算法的优越性越显著。  相似文献   

17.
全局K-均值聚类算法需要随机选取初始的聚类中心,本文基于K中心点算法的思想,将其作为全局K-均值聚类算法的初始聚类中心,并对全局K-均值聚类算法进行改进。依托人工模拟数据和学习库中的数据分析,对比两种算法的性能,得出改进算法聚类时间短,鲁棒性强的结论。  相似文献   

18.
随着互联网应用的普及和深入,涌现了许多新的应用场景和数据类型,导致许多经典的聚类算法不能有效地适应新的发展形势,成为数据挖掘中的棘手问题和研究热点,为此提出一种新颖的基于类中心与边界自寻优的数据聚类算法.该算法引入数据点“距离半径”分布矩阵R及其“距离半径累计”分布矩阵ΣR概念表征数据聚合度,并依据广度优先原则自寻优R与ΣR中皆为最小的数据点作为类中心;同时,提出“距离半径偏导”分布矩阵R’,描述簇类之间的松散度,并采用广度优先原则自寻优矩阵R’中的突变跃迁增长点,作为簇类之间的分界.通过经典的Aggregation聚类数据集的仿真实验测试,表明该算法能够有效地对多种形状、大小和不同密度分布的数据集进行聚类分析,能较好地识别出孤立点和噪声,具有较高的鲁棒性和分析精度.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号