首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
一种改进的k-means初始聚类中心选取算法   总被引:3,自引:0,他引:3       下载免费PDF全文
在传统的k-means聚类算法中,聚类结果会随着初始聚类中心点的不同而波动,针对这个缺点,提出一种优化初始聚类中心的算法。该算法通过计算每个数据对象的密度参数,然后选取k个处于高密度分布的点作为初始聚类中心。实验表明,在聚类类别数给定的情况下,通过用标准的UCI数据库进行实验比较,发现采用改进后方法选取的初始类中心的k-means算法比随机选取初始聚类中心算法有相对较高的准确率和稳定性。  相似文献   

2.
一种新的聚类有效性函数   总被引:3,自引:1,他引:2       下载免费PDF全文
聚类有效性函数是用于评价聚类结果优劣的指标,准确地给出初始聚类类别数将使得聚类结果趋于合理化。根据模糊不确定性理论及聚类问题的基本特性,引入了新的紧密度度量指标DiU;c),在此基础上提出了一个旨在寻求最优聚类类别数的有效性函数。该函数基于数据集的紧密度与分离度特征,综合考虑了数据成员的隶属度及数据集的几何结构。实验结果表明该有效性函数能够发现最优的聚类类别数,对于分类结构较为明确的数据集表现出良好的性能,并且对于权重系数具有良好的鲁棒性。  相似文献   

3.
粗糙聚类是不确定聚类算法中一种有效的聚类算法,这里通过分析粗糙k-means算法,指出了其中3个参数wl,wu和ε设置时存在的缺点,提出了一种自适应粗糙k-means聚类算法,该算法能进一步优化粗糙k-means的聚类效果,降低对“噪声”的敏感程度,最后通过实验验证了算法的有效性。  相似文献   

4.
王治和  王淑艳  杜辉 《计算机工程》2021,47(5):88-96,103
模糊C均值(FCM)聚类算法无法识别非凸数据,算法中基于欧式距离的相似性度量只考虑数据点之间的局部一致性特征而忽略了全局一致性特征。提出一种利用密度敏感距离度量创建相似度矩阵的FCM算法。通过近邻传播算法获取粗类数作为最佳聚类数的搜索范围上限,以解决FCM算法聚类数目需要人为预先设定和随机选定初始聚类中心造成聚类结果不稳定的问题。在此基础上,改进最大最小距离算法,得到具有代表性的样本点作为初始聚类中心,并结合轮廓系数自动确定最佳聚类数。基于UCI数据集和人工数据集的实验结果表明,相比经典FCM、K-means和CFSFDP算法,该算法不仅具有识别复杂非凸数据的能力,而且能够在保证聚类性能和稳定性的前提下加快收敛速度。  相似文献   

5.
张妨妨  钱雪忠 《计算机应用》2012,32(9):2476-2479
针对传统GK聚类算法无法自动确定聚类数和对初始聚类中心比较敏感的缺陷,提出一种改进的GK聚类算法。该算法首先通过基于类间分离度和类内紧致性的权和的新有效性指标来确定最佳聚类数;然后,利用改进的熵聚类的思想来确定初始聚类中心;最后,根据判定出的聚类数和新的聚类中心进行聚类。实验结果表明,新指标能准确地判断出类间有交叠的数据集的最佳聚类数,且改进后的算法具有更高的聚类准确率。  相似文献   

6.
针对高分辨率天文图像中的星点聚类研究中存在的 2 个问题:①天文图像的分辨率 较高,且图像处理速度较慢;②选取何种聚类算法对天文图像中的星点进行聚类分析效果较好。 在研究中,问题 1 采用图像分块的方法提高图像的处理速度;问题 2 提出了一种改进的 K 均值聚 类算法,以解决传统的 K 均值聚类算法的聚类结果易受到 k 值和初始聚类中心随机选择影响的问 题。该算法首先在用 K 均值聚类算法对数据初步聚类的基础上确定合适的 k 值,其次用层次聚类 对数据聚类确定初始聚类中心,最后在此基础上再采用 K 均值聚类算法进行聚类。通过 MATLAB 仿真实验的结果表明,该算法的聚类结果与效率优于其他聚类算法。  相似文献   

7.
分类数和初始聚类中心的选取对红外图像的分割结果有较大的影响。传统的模糊C均值算法的分类数和聚类中心往往设定为经验值。为获得最佳的分类数,提出采用轮廓指标确定出较理想的分类数。针对传统的模糊C均值聚类算法对初始聚类中心比较敏感的问题,提出了基于直方图灰度值的最小最大距离法来确定初始聚类中心。实验结果表明该方法有效可行。  相似文献   

8.
传统尽均值聚类算法虽然收敛速度快,但存在聚类数后无法预先确定,并且算法对初始中心点敏感的缺点。针对上述缺点,提出了基于密度期望和聚类有效性Silhouette指标的K-均值优化算法。给出了基于密度期望的初始中心点选取方案,将处于密度期望区间内相距最远的石个样本作为初始聚类中心。该方案可有效降低尽均值算法对初始中心点的依赖,从而获得较高的聚类质量。在此基础上,可进一步通过选择合适的聚类有效性指标Silhouette4指标分析不同后值下的每次聚类结果,确定最佳聚类数,则可有效改善k-值无法预先确定的缺点。实验及分析结果验证了所提出方案的可行性和有效性。  相似文献   

9.
基于图的K-均值聚类法中初始聚类中心选择   总被引:6,自引:1,他引:5  
聚类分析在信息检索和数据挖掘等领域都有很广泛的应用,K均值聚类算法是一个比较简洁和快速的聚类算法,但是它存在着初始类簇中心须事先设定,而初始类簇中心的选择严重影响聚类的结果;为了改善K均值聚类算法的聚类效果,针对以往K均值聚类算法中采用随机指定初始类簇中心的方法.提出了一种基于图论的连通分支来进行初始类簇中心的选取算法,并用随机样本发生器生成的模拟数据进行测试,通过与常规的随机选取方法的比较,该算法具有更好的性能和健壮性.  相似文献   

10.
一种基于类间距阈值的模糊聚类算法   总被引:1,自引:0,他引:1  
针对模糊C-均值(Fuzzy C-Means,FCM)算法需要事先设定聚类数C,若设定不当,容易导致错分类的问题,提出了一种利用类间距阈值搜索聚类数的方法来确定最佳聚类数.算法可以自适应确定最佳聚类数,仿真结果表明了利用类间距阈值方法确定聚类数的有效性.  相似文献   

11.
针对传统K-means算法初始聚类中心选择的随机性可能导致迭代次数增加、陷入局部最优和聚类结果不稳定现象的缺陷,提出一种基于隐含狄利克雷分布(LDA)主题概率模型的初始聚类中心选择算法。该算法选择蕴含在文本集中影响程度最大的前m个主题,并在这m个主题所在的维度上对文本集进行初步聚类,从而找到聚类中心,然后以这些聚类中心为初始聚类中心对文本集进行所有维度上的聚类,理论上保证了选择的初始聚类中心是基于概率可确定的。实验结果表明改进后算法聚类迭代次数明显减少,聚类结果更准确。  相似文献   

12.
针对传统K均值聚类方法采用聚类前随机选择聚类个数K而导致的聚类结果不理想的问题,结合空间中的层次结构,提出一种改进的层次K均值聚类算法。该方法通过初步聚类,判断是否达到理想结果,从而决定是否继续进行更细层次的聚类,如此迭代执行,从而生成一棵层次型K均值聚类树,在该树形结构上可以自动地选择聚类的个数。标准数据集上的实验结果表明,与传统的K均值聚类方法相比,提出的改进的层次聚类方法的确能够取得较优秀的聚类效果。  相似文献   

13.
王娟 《微型机与应用》2011,30(20):71-73,76
传统K-means算法对初始聚类中心的选取和样本的输入顺序非常敏感,容易陷入局部最优。针对上述问题,提出了一种基于遗传算法的K-means聚类算法GKA,将K-means算法的局部寻优能力与遗传算法的全局寻优能力相结合,通过多次选择、交叉、变异的遗传操作,最终得到最优的聚类数和初始质心集,克服了传统K-means算法的局部性和对初始聚类中心的敏感性。  相似文献   

14.
针对二分K-均值算法由于随机选取初始中心及人为定义聚类数而造成的聚类结果不稳定问题,提出了基于密度和中心指标的Canopy二分K-均值算法SDC_Bisecting K-Means。首先计算样本中数据密度及其邻域半径;然后选出密度最小的数据并结合Canopy算法的思想进行聚类,将得到的簇的个数及其中心作为二分K-均值算法的输入参数;最后在二分K-均值算法的基础上引入指数函数和中心指标对原始样本进行聚类。利用UCI数据集和自建数据集进行模拟实验对比,结果表明SDC_Bisecting K-Means不仅使得聚类结果更精确,同时算法的运行速度更快、稳定性更好。  相似文献   

15.
基于密度的改进K均值算法及实现   总被引:4,自引:1,他引:3  
傅德胜  周辰 《计算机应用》2011,31(2):432-434
传统的K均值算法的初始聚类中心从数据集中随机产生,聚类结果很不稳定。提出一种基于密度算法优化初始聚类中心的改进K-means算法,该算法选择相互距离最远的k个处于高密度区域的点作为初始聚类中心。实验证明,改进的K-means算法能够消除对初始聚类中心的依赖,聚类结果有了较大的改进。  相似文献   

16.
针对云任务调度中存在的效率低、费用高等问题,提出一种基于改进K-means聚类算法的云任务调度算法。依据虚拟资源的硬件属性,使用改进聚类算法对虚拟资源进行聚类划分;计算任务偏好,使不同偏好的任务在不同的聚类中选择资源;考虑到调度费用问题,对每个聚类使用改进后的Min-min算法进行任务调度。针对K-means聚类算法初始聚类中心随机选取,易陷入局部最优解的问题,对聚类算法进行改进。最后,利用云仿真平台CloudSim进行实验,结果表明,与无聚类的调度算法相比,本文提出的算法在执行效率方面有所提高。  相似文献   

17.
在传统的K-means算法中,聚类结果很大程度依赖于随机选择的初始聚类中心点以及人工指定的k值.为了提高聚类精度,本文提出了利用最小距离与平均聚集度来对初始聚类中心点进行选取,将层次聚类CURE算法得到的聚簇数作为k值,从而使聚类精度得到提高.最后,将改进后的K-means算法应用到微博话题发现中,通过对实验结果分析,证明该算法提高了聚类结果精度.  相似文献   

18.
提出一种基于K-均值聚类的无线传感器网络分簇算法。从K-均值聚类算法中要解决的合理聚类数的确定、初始聚类中心的选择以及聚类性能对目标函数的依赖这三个问题入手,运用K-均值聚类算法来实现无线传感器网络分簇。仿真与性能分析结果表明,基于K-均值聚类的无线传感器网络分簇算法既能节省节点能量、延长网络生命,又能改善网络中的能耗均衡,并保证簇首分布的均匀性。  相似文献   

19.
传统的K-means算法敏感于初始中心点的选取,并且无法事先确定准确的聚类数目[k],不利于聚类结果的稳定性。针对传统K-means算法的以上不足,提出了基于全局中心的高密度不唯一的新方法--NDK-means,该方法通过标准差确定有效密度半径,并从高密度区域中选取具有代表性的样本点作为初始聚类中心。此外算法针对最高密度点不唯一的情况进行特别分析,选取距离全局中心最远的点集作为最优的初始中心点集合。在NDK-means算法基础上结合有效性指标BWP对聚类结果进行分析,从而解决了最佳有效聚类数目无法事先确定的不足。理论研究与实验结果表明所提方法的聚类结果具有更好的稳定性和可行性。  相似文献   

20.
K-means算法以其简单性和快速性在文本聚类中得到广泛应用,但是传统的K-means算法对初值的依赖性很强,需要事先给出要生成的簇的数目k,而这个参数k的确定一般是根据用户的经验知识给出的;另外,其初始聚类中心是随机选取的,这种随机性往往导致聚类结果的不德定.可以说,不同的k值和不同的初始聚类中心对聚类质量和时间效率...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号