首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
本文介绍了Hadoop平台下Map Reduce的并行编程框架,分析了传统Kmeans聚类算法的优缺点,提出基于Canopy的Canopy-Kmeans聚类算法。使用Canopy聚类先对数据进行"粗"聚类,以优化Kmeans聚类算法初始聚类中心的选取。选用Map Reduce并行编程方法。实验表明该方法相对于传统Kmeans聚类算法有着更高的计算效率。  相似文献   

2.
基于人工鱼群的优化K-means聚类算法   总被引:3,自引:2,他引:1  
针对K-means算法全局搜索能力不足,提出基于人工鱼群的优化K-means聚类算法(AFS-KM),该算法克服了Kmeans聚类算法对初始聚类中心选择的敏感问题,能够获得全局最优的聚类划分。在聚类过程中,采用一种基于信息增益的属性加权的实体之间距离计算方法进行聚类划分时,对于球形数据和椭球形数据都能够获得理想的聚类划分结果。对KDD-99数据集的仿真实验结果表明,该算法在网络入侵检测时获得了理想的检测率和误报率。  相似文献   

3.
Kmeans是一种经典聚类算法,应用范围很广。但该算法有着自身的一些缺点,如不能消除离群点的影响,对初始聚类中心的选取敏感,聚类结果不稳定等。本文基于单点密度来屏蔽离群点和选取初始聚类中心,达到优化Kmeans的目的,该算法简称SDKmeans(Single density kmeans)。实验证明,SDKmeans算法能获得较好较稳定的聚类结果。  相似文献   

4.
一种大数据环境下的新聚类算法   总被引:2,自引:0,他引:2  
李斌  王劲松  黄玮 《计算机科学》2015,42(12):247-250
提出了一种新的聚类算法NGKCA,该算法克服了经典聚类算法检测率和稳定性的不足,适用于解决大数据环境下的聚类问题。NGKCA聚类算法包括4个阶段:首先利用谱聚类NJW算法对大数据集进行列降维和数据归一化处理,其次引入对初始值不敏感的粒子群算法对数据集进行行降维从而选出临时的聚类中心集,接着通过全局Kmeans算法对最佳聚类中心集进行聚类以获取聚类中心点,最后使用粒子群算法对聚类中心点进行调整进而获取最终的聚类划分。在一些著名的机器学习数据集和国际标准的网络安全数据集KDDCUP99上进行实验,结果表明:提出的算法比谱聚类、Kmeans、粒子群、全局Kmeans等常见算法具有更好的稳定性和更高的检测率,与全局Kmeans算法相比具有更优的时间复杂度。  相似文献   

5.
聚类是数据挖掘领域最重要的技术之一,K-means是其中使用频率最高的举足轻重的聚类算法。然而,Kmeans算法表现严重依赖于初始中心,选取多少个初始中心以及选择哪些数据点作为初始中心对K-means算法十分重要。基于此,提出一种初始中心选取方法 DPCC(Density Peak Clustering Centers)。DPCC方法基于密度和距离生成一个选取决策图,将数据集中所有的密度峰值点凸显出来。这些密度峰值点即为DPCC方法为K-means算法提供的初始中心。实验表明,DPCC方法不仅可为K-means提供初始中心数量,还能有效提高K-means算法的准确度,并缩减K-means算法的执行时间。  相似文献   

6.
最小化误差平方和k-means初始聚类中心优化方法   总被引:1,自引:0,他引:1       下载免费PDF全文
传统的k-均值算法对初始聚类中心和孤立点敏感,文中以最大程度地减少误差平方和为基本思想,提出一种最大化减少当前误差平方和的k-means初始聚类中心优化方法。在初始聚类中心选择阶段,每次增加聚类中心时,计算所有数据点作为当前聚类中心能够减少的误差平方和,选择能够最大化减少误差平方和的数据点作为聚类初始中心。利用真实数据集,同其他算法进行对比,实验结果表明该方法在选择初始聚类中心方面能够有效地减少聚类的迭代次数,提高聚类质量。同时人工模拟数据表明该方法对孤立点相对不敏感。  相似文献   

7.
基于密度的改进K均值算法及实现   总被引:4,自引:1,他引:3  
傅德胜  周辰 《计算机应用》2011,31(2):432-434
传统的K均值算法的初始聚类中心从数据集中随机产生,聚类结果很不稳定。提出一种基于密度算法优化初始聚类中心的改进K-means算法,该算法选择相互距离最远的k个处于高密度区域的点作为初始聚类中心。实验证明,改进的K-means算法能够消除对初始聚类中心的依赖,聚类结果有了较大的改进。  相似文献   

8.
为了解决磁共振成像脑部肿瘤区域出现误识别及对脑MRI图像中的肿瘤部位分割时出现的不确定性等问题,提出一种改进的Kmeans算法与隐马尔可夫随机场模型(HMRF)相结合的分割方法,对脑肿瘤图像实现精准分割。首先将Kmeans算法的欧氏距离替换成曼哈顿-切比雪夫距离并用改进后的Kmeans算法对待分割图像进行初始参数估计和初始分割,然后通过HMRF理论获得图像的空间信息,并结合EM算法对聚类中心进行更新,获得更为准确的聚类中心,从而提高算法的分割性能。实验结果表明,该方法具有良好的脑部肿瘤分割性能效果,其中Dice系数和Jaccard系数的平均值分别达到了0.9289和0.8725。  相似文献   

9.
结合近邻和密度思想的K-均值算法的研究   总被引:1,自引:0,他引:1       下载免费PDF全文
为了解决K-均值算法对初始聚类中心的依赖性,提出了一种新的选取初始聚类中心的算法。采用数据区内的最高密度点作为初始中心,基于近邻点属于同一聚类的特性,找到距离初始中心最远的点,将其加入初始聚类中心后再进行计算并依次下去的方法。该改进算法的初始聚类中心分布比较合理,而且剔除了孤立点对初始聚类中心的影响,从而可以得到更好的划分效果。实验表明,用改进的算法进行聚类更能够得到较高且稳定的准确率。  相似文献   

10.
K均值聚类算法在数据挖掘、机器学习领域被广泛应用。但其初始聚类中心的选取对整个聚类效果会产生很大的影响,因此,如何合理地初始化K均值聚类算法成为重要的研究方向。提出一种基于数据内在密集性的自适应初始聚类中心选取方法。该方法分为两个过程,第一个过程给出数据密集性的定义,并基于数据密集性选出满足条件的候选初始聚类中心,第二个过程是对选出的候选初始中心进行后处理,使其个数与数据类一致。实验证明,提出的方法有如下优势:1)能够自主发现数据集中数据分布的密集性,并能够合理找出初始聚类中心;2)对离群点和噪声鲁棒;3)减少了K均值聚类算法的迭代步骤;4)易于实现。  相似文献   

11.
传统尽均值聚类算法虽然收敛速度快,但存在聚类数后无法预先确定,并且算法对初始中心点敏感的缺点。针对上述缺点,提出了基于密度期望和聚类有效性Silhouette指标的K-均值优化算法。给出了基于密度期望的初始中心点选取方案,将处于密度期望区间内相距最远的石个样本作为初始聚类中心。该方案可有效降低尽均值算法对初始中心点的依赖,从而获得较高的聚类质量。在此基础上,可进一步通过选择合适的聚类有效性指标Silhouette4指标分析不同后值下的每次聚类结果,确定最佳聚类数,则可有效改善k-值无法预先确定的缺点。实验及分析结果验证了所提出方案的可行性和有效性。  相似文献   

12.
In order to solve the scalability problem in news recommendation, a scalable news recommendation method is proposed. The method includes the multi-dimensional similarity calculation, the Jaccard–Kmeans fast clustering and the Top-N recommendation. The multi-dimensional similarity calculation method is used to compute the integrated similarity between users, which considers abundant content feature of news, behaviors of users, and the time of these behaviors occurring. Based on traditional K-means algorithm, the Jaccard–Kmeans fast clustering method is proposed. This clustering method first computes the above multi-dimensional similarity, then generates multiple cluster centers with user behavior feature and news content feature, and evaluates the clustering results according to cohesiveness. The Top-N recommendation method integrates a time factor into the final recommendation. Experiment results prove that the proposed method can enhance the scalability of news recommendation, significantly improve the recommendation accuracy in condition of data sparsity, and improve the timeliness of news recommendation.  相似文献   

13.
针对传统K_means聚类方法采用随机选择初始聚类中心而导致的收敛速度慢的问题,本文结合空间中的距离度量提出一种改进的K_means聚类算法。该方法通过给出有效的启发式信息,选择较好的聚类中心,减少聚类达到稳定状态所需要的迭代步骤,加速算法的执行。标准数据集上的实验结果表明,与传统的K_means聚类方法相比,本文提出的改进的聚类方法收敛速度快,从而在较少的迭代后得到良好的聚类效果。  相似文献   

14.
张妨妨  钱雪忠 《计算机应用》2012,32(9):2476-2479
针对传统GK聚类算法无法自动确定聚类数和对初始聚类中心比较敏感的缺陷,提出一种改进的GK聚类算法。该算法首先通过基于类间分离度和类内紧致性的权和的新有效性指标来确定最佳聚类数;然后,利用改进的熵聚类的思想来确定初始聚类中心;最后,根据判定出的聚类数和新的聚类中心进行聚类。实验结果表明,新指标能准确地判断出类间有交叠的数据集的最佳聚类数,且改进后的算法具有更高的聚类准确率。  相似文献   

15.
一种基于大密度区域的模糊聚类算法   总被引:1,自引:0,他引:1  
针对模糊C-均值(FCM)算法对初始聚类中心和噪声数据敏感的缺陷,提出一种基于大密度区域的模糊聚类算法.该算法首先利用大密度区域以及样本的密度值变化方法,选取初始聚类中心以及候选初始聚类中心,并依据初始聚类中心与候选初始聚类中心的距离,确定初始聚类中心点,从而有效的克服了随机给定初始聚类中心容易使算法收敛到局部极小的缺陷;其次,分别利用密度函数为样本加权和引用改进的隶属度函数进行优化,有效地提高了模糊聚类的抗噪性;最后实验验证了算法在初始聚类中心的确定,聚类效果和抗噪性方面具有良好的效果.  相似文献   

16.
基于样本空间分布密度的初始聚类中心优化K-均值算法*   总被引:2,自引:1,他引:1  
针对传统K-均值聚类算法对初始聚类中心敏感、现有初始聚类中心优化算法缺乏客观性,提出一种基于样本空间分布密度的初始聚类中心优化K-均值算法。该算法利用数据集样本的空间分布信息定义数据对象的密度,并根据整个数据集的空间信息定义了数据对象的邻域;在此基础上选择位于数据集样本密集区且相距较远的数据对象作为初始聚类中心,实现K-均值聚类。UCI机器学习数据库数据集以及随机生成的带有噪声点的人工模拟数据集的实验测试证明,本算法不仅具有很好的聚类效果,而且运行时间短,对噪声数据有很强的抗干扰性能。基于样本空间分布密度的初始聚类中心优化K-均值算法优于传统K-均值聚类算法和已有的相关K-均值初始中心优化算法。  相似文献   

17.
对k-means聚类算法的改进   总被引:17,自引:6,他引:17  
袁方  孟增辉  于戈 《计算机工程与应用》2004,40(36):177-178,232
提出了一种k-means聚类算法中寻找初始聚类中心的新方法。算法首先计算样本间的距离,然后根据样本点之间的距离寻找有可能是一类的数据,依据这些样本点形成初始聚类中心,从而得到较好的聚类结果。实验表明,改进后的方法相对于随机选取初始聚类中心具有较高的准确率。  相似文献   

18.
一种基于模拟退火和遗传算法的模糊聚类方法   总被引:4,自引:1,他引:3  
首先,对模糊C-均值聚类算法做了简要分析和评论,根据其特点,提出了一种基于模拟退火和遗传算法的聚类分析方法,算法中采用了适合于模糊聚类的树型编码方案。实验表明,该算法可克服系统对数据集及初始聚类中心的敏感性,避免陷入局部极小,在模式识别、数据挖掘等领域有着广泛的应用前景。  相似文献   

19.
针对k均值聚类提取关键帧存在的不足,提出了优化初始聚类中心的关键帧提取算法。该算法的初始聚类中心由视频数据本身的分布来决定,增强了结果的稳定性;聚类数k不再唯一地决定于给定值,而是根据视频内容自适应获得最佳取值。实验表明该算法有良好的自适应性,获得的关键帧能有效地代表视频内容。  相似文献   

20.
最优聚类个数和初始聚类中心点选取算法研究   总被引:2,自引:0,他引:2  
传统k-means算法的聚类数k值事先无法确定,而且算法是随机性地选取初始聚类中心点,这样容易造成聚类结果不稳定,且准确率较低。本文基于SSE用来选取聚类个数k值,基于聚类中心点所在的周围区域相对比较密集,其次聚类中心点之间距离相对较远的选取原则用来选取初始聚类中心点,避免初始聚类中心点集中在一个小的范围,防止陷入局部最优。试验证明,本文能选取最优的k值,通过用标准的 UCI数据库进行试验,本文采用的算法能选择出唯一的初始中心点,聚类准确率较高,误差平方和较小。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号