首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
优化初始聚类中心的K-means聚类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
针对传统K-means算法对初始中心十分敏感,聚类结果不稳定问题,提出了一种改进K-means聚类算法。该算法首先计算样本间的距离,根据样本距离找出距离最近的两点形成集合,根据点与集合的计算公式找出其他所有离集合最近的点,直到集合内数据数目大于或等于[α]([α]为样本集数据点数目与聚类的簇类数目的比值),再把该集合从样本集中删除,重复以上步骤得到K(K为簇类数目)个集合,计算每个集合的均值作为初始中心,并根据K-means算法得到最终的聚类结果。在Wine、Hayes-Roth、Iris、Tae、Heart-stalog、Ionosphere、Haberman数据集中,改进算法比传统K-means、K-means++算法的聚类结果更稳定;在Wine、Iris、Tae数据集中,比最小方差优化初始聚类中心的K-means算法聚类准确率更高,且在7组数据集中改进算法得到的轮廓系数和F1值最大。对于密度差异较大数据集,聚类结果比传统K-means、K-means++算法更稳定,更准确,且比最小方差优化初始聚类中心的K-means算法更高效。  相似文献   

2.
针对传统K-means算法对初始聚类中心敏感的问题,提出了基于数据样本分布情况的动态选取初始聚类中心的改进K-means算法。该算法根据数据点的距离构造最小生成树,并对最小生成树进行剪枝得到K个初始数据集合,得到初始的聚类中心。由此得到的初始聚类中心非常地接近迭代聚类算法收敛的聚类中心。理论分析与实验表明,改进的K-means算法能改善算法的聚类性能,减少聚类的迭代次数,提高效率,并能得到稳定的聚类结果,取得较高的分类准确率。  相似文献   

3.
邵伦  周新志  赵成萍  张旭 《计算机应用》2018,38(10):2850-2855
K-means算法是被广泛使用的一种聚类算法,传统的K-means算法中初始聚类中心的选择具有随机性,易使算法陷入局部最优,聚类结果不稳定。针对此问题,引入多维网格空间的思想,首先将样本集映射到一个虚拟的多维网格空间结构中,然后从中搜索出包含样本数最多且距离较远的子网格作为初始聚类中心网格,最后计算出各初始聚类中心网格中所包含样本的均值点来作为初始聚类中心。此法选择出来的初始聚类中心与实际聚类中心拟合度高,进而可据此初始聚类中心稳定高效地得到最终的聚类结果。通过使用计算机模拟数据集和UCI机器学习数据集进行测试,结果表明改进算法的迭代次数和错误率比较稳定,且均小于传统K-means算法测试结果的平均值,能有效避免陷入局部最优,并且聚类结果稳定。  相似文献   

4.
传统K-means算法随机选取初始聚类中心,容易导致聚类结果不稳定,而优化初始聚类中心的K-means算法需要一定的参数选择,也会使聚类结果缺乏客观性。为此,根据样本空间分布紧密度信息,提出利用最小方差优化初始聚类中心的K-means算法。该算法运用样本空间分布信息,通过计算样本空间分布的方差得到样本紧密度信息,选择方差最小(即紧密度最高)且相距一定距离的样本作为初始聚类中心,实现优化的K-means聚类。在UCI机器学习数据库数据集和含有噪音的人工模拟数据集上的实验结果表明,该算法不仅能得到较好的聚类结果,且聚类结果稳定,对噪音具有较强的免疫性能。  相似文献   

5.
基于邻域模型的K-means初始聚类中心选择算法   总被引:3,自引:0,他引:3  
曹付元  梁吉业  姜广 《计算机科学》2008,35(11):181-184
传统的K-means算法由于其方法简单,在模式识别和机器学习中被广泛讨论和应用。但由于K—means算法随机选择初始聚类中心,而初始聚类中心的选择对最终的聚类结果有着直接的影响,因此算法不能保证得到一个唯一的聚类结果。利用邻域模型中对象邻域的上下近似,定义了对象邻域耦合度和分离度的概念,给出了对象在初始聚类中心选择中的重要性,提出了一种初始聚类中心的选择算法。另外,分析了邻域模型中三种范数对聚类精度的影响,并和随机选择初始聚类中心、CCIA选择初始聚类中心算法进行了比较,实验结果表明,该算法是有效的。  相似文献   

6.
一种优化初始中心的K-means粗糙聚类算法   总被引:3,自引:0,他引:3       下载免费PDF全文
针对K-means算法的不足,提出了一种优化初始中心的聚类算法。首先,采用密度敏感的相似性度量来计算对象的密度,基于对象之间的距离和对象的邻域,选择相互距离尽可能远的数据点作为初始聚类中心。然后,采用基于粗糙集的K-means聚类算法处理边界对象,同时利用均衡化函数自动生成聚类数目。实验表明,算法具有较好的聚类效果和综合性能。  相似文献   

7.
传统的K-means算法选取初始聚类中心时的不确定性会导致聚类结果不稳定。论文提出了基于相异度的邻域及其结构系数的概念,从最小的结构系数开始,按照其递增顺序寻找初始聚类中心;随后采用依次缩小邻域的技巧逐步探索,直到找到K个初始聚类中心。该方法同时得到li(i=0,1,2,…,q)个初始聚类中心及其对应的数据分类结果。实验证明,对比于以往的算法,新算法具有更高的分类准确率以及更少的迭代次数。  相似文献   

8.
张嘉龙 《计算机时代》2021,(8):57-59,62
针对传统K-means算法的聚类不稳定性,提出一种基于相异度与邻域的初始聚类中心选择算法.该算法首先构造相异度矩阵,建立每个样本点的邻域,选取K个相互距离较远且邻域内样本点较密集的初始聚类中心.采用K-means算法思想,利用UCI中的三种数据集进行实验.结果表明,相比传统K-means算法,新算法有稳定的聚类结果,且...  相似文献   

9.
K-means++算法在K-means基础上提出了对距离通过概率选择的方法获得下一个初始聚类中心,针对过程中迭代次数和时间消耗,本文提出了一种高斯混合分布下基于最大期望算法估算初始样本中心的算法(EMK-means++)。算法定义适当瞭望样本并获取瞭望样本下的整体样本距离,利用最大期望一次估算全部初始聚类中心位置,在后续迭代求解过程中有效减少迭代次数,降低时间开销,提高了整体聚类效果。  相似文献   

10.
传统的K-means算法随机选取初始聚类中心,聚类结果不稳定,容易陷入局部最优解。针对聚类中心的敏感性,提出一种优化初始聚类中心的K-means算法。此算法利用数据集样本的分布特征计算样本点的密度并进行分类,在高密度区域中选择K个密度最大且相互距离超过某特定阈值的点作为初始聚类中心,并对低密度区域的噪声点单独处理。实验证明,优化后的算法能取得更好的聚类效果,且稳定性增强。  相似文献   

11.
模糊c均值聚类算法是目前聚类分析中最受欢迎的算法之一,但其聚类效果往往受初始参数的影响.针对这一问题,提出一种基于网格和密度的模糊c均值聚类初始化方法.以网格和密度为工具提取聚类样本的类聚类中心,以此来初始化模糊c均值聚类算法的初始参数,从而弥补原算法的不足.实验证明方法是可行的、有效的.  相似文献   

12.
结合粗糙集和模糊聚类方法的属性约简算法   总被引:5,自引:2,他引:5  
本文针对粗糙集理论的属性约简算法进行了研究。结合模糊聚类方法,提出了一个新的属性约简算法,用户可以根据实际决策需要和领域知识更改阈值λ,从而得到用户满意的属性约简结果。最后利用该文的算法给出了一个实例的约筒结果。  相似文献   

13.
KNN及其改进算法进行分类时,如样本集中、样本过少或各类样本的密度差异较大,都将会影响最后的分类精度。提出一种基于聚类技术的小样本集KNN分类算法。通过聚类和剪理,形成各类的样本密度接近的新的样本集,并利用该新样本集对类标号未知数据对象进行类别标识。通过使用标准数据集的测试,发现该算法能够提高KNN的分类精度,取得了较满意的结果。  相似文献   

14.
基于图论的彩色图像快速分割方法研究   总被引:1,自引:0,他引:1  
基于图论的图像分割方法作为一种全局的分割方法,当图像的信息量增大时,问题求解将非常耗时.提出一种基于图论的彩色图像快速分割方法,该方法首先用区域生长法将彩色图像划分为内部相似的一些区域,再用最小支撑树MST(Minimum spanning tree)方法在这些区域之间进行分割,产生最终的分割图像.以彩色图像作为研究对象,实验结果表明,相对于传统的MST图论分割方法,该方法在取得较好分割效果的同时,提高了分割速度.  相似文献   

15.
研究图聚类的算法问题。在基于划分的图聚类中,重点比较点与点之间距离的计算方法及其对聚类结果的影响。由于社会关系网络图中点没有坐标值,所以不能使用欧几里得距离和曼哈坦距离。使用k-medoids聚类算法时,分别采用最短距离和随机漫步距离算法,将DBLP数据集构成的社会关系网络图分类成各个子图,通过实验数据验证两种算法的优劣。实验证明最短距离算法获得聚类效果更为理想,达到了较好的分类效果。  相似文献   

16.
基于改进遗传算法的网格任务调度算法   总被引:1,自引:0,他引:1  
网格任务调度是一个NP完全问题,它关注大规模的资源和任务调度,要求采用的调度算法能够具有高效性.遗传算法被证明是解决这类小规模问题的有效算法,随着任务数和资源数的增加,遗传算法表现出慢速收敛的缺点.为了克服其缺点,提出将Min-min算法与遗传算法相结合的改进遗传算法,从而设计出很好的选择和交叉算子,提高了算法搜索能力和收敛速度.仿真结果表明该算法能更有效解决网格任务调度问题.  相似文献   

17.
K均值算法是一种常用的基于原型的聚类算法。但该算法要求用户随机选择初始质心,使得K均值算法受初始化影响较大。二分K均值算法虽然改善了这个问题,但仍然要求用户指定聚类个数,影响了聚类效果。用层次聚类对二分法进行改进,解决了二分K均值算法受用户指定的聚类个数的影响的问题。并结合Chameleon算法,合并划分过细簇,优化聚类结果。仿真实验证明改进的聚类算法的抱团性和分离性优于二分K均值聚类算法。  相似文献   

18.
传统的K-均值算法聚类虽然速度快,在文本聚类中易于实现,但其同量地依赖于所有变量,聚类效果往往不尽如人意.为了克服这一缺点,提出一种改进的K-均值文本聚类算法,它在K-均值聚类过程中,向每一个聚类簇中的关键词自动计算添加一个权重,重要的关键词赋予较大的权重.经过实验测试,获得了一种基于子空间变量自动加权的适合文本数据聚类分析的改进算法,它不仅可以在大规模、高维和稀疏的文本数据上有效地进行聚类,还能够生成质量较高的聚类结果.实验结果表明基于子空间变量自动加权的K-均值文本聚类算法是有效的大规模文本数据聚类算法.  相似文献   

19.
k-means聚类算法的有效性依赖于初始中心的选择。提出一种利用样本点空间分布的邻域密度来选择合理的初始中心的算法。提出的算法是对DK算法[2]的一种改进。有两方面改进:一是通过合理地选择距离阈值来静态地选择初始聚类中心,称为DK-Ⅱ-S算法;二是通过对选择样本点计算密度与已选择聚类中心最小距离的加权,使得该点被选择为初始中心点的概率与这个加权成正比,动态地选择初始聚类中心,称为DK-Ⅱ-D算法。在一个实际文本数据集上进行实验计算,证实算法改进的效果良好。  相似文献   

20.
分布式密度和中心点数据流聚类算法的研究   总被引:1,自引:0,他引:1  
分析分布式数据流聚类算法的基本框架结构,针对CluStream算法对非球形聚类效果不佳提出一种基于密度和中心点的分布式数据流聚类算法DDCS-Clustering(Distributed Density and Centers Stream Clustering)。该算法应用密度、中心点与衰减时间窗口,在分布式环境下对数据流进行聚类。实验结果表明,DDCS-Clustering算法具有较高的聚类质量与较低的通信代价。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号