首页 | 官方网站   微博 | 高级检索  
     

分布式k-means聚类算法的改进
引用本文:宋玲,戚云枫,齐东阳.分布式k-means聚类算法的改进[J].广西大学学报(自然科学版),2014(5).
作者姓名:宋玲  戚云枫  齐东阳
作者单位:广西大学 计算机与电子信息学院,广西 南宁,530004
基金项目:广西自然科学基金资助项目
摘    要:经典的分布式k-means聚类算法随机选取初始聚类中心,进行多次的迭代,容易使得聚类效率低,网络通信量大,而且聚类结果不稳定。针对这些问题,提出一种改进的分布式k-means聚类算法。该算法通过划分数据集,计算属性最密集的k个数据块作为聚类中心,以确保聚类中心的代表性,进而减少算法的迭代计算次数,提高聚类效率。通过在Hadoop分布式平台上进行实验,结果表明改进算法能减少迭代次数和收敛时间。

关 键 词:k-means聚类  分布式算法  MapReduce计算模型  聚类中心

Optimization of k-means clustering algorithm in hadoop distributed computing framework
SONG Ling,QI Yun-feng,QI Dong-yang.Optimization of k-means clustering algorithm in hadoop distributed computing framework[J].Journal of Guangxi University(Natural Science Edition),2014(5).
Authors:SONG Ling  QI Yun-feng  QI Dong-yang
Abstract:
Keywords:k-means clustering  distributed algorithm  MapReduce model  clustering center
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号