首页 | 官方网站   微博 | 高级检索  
     

云环境下基于数据流的k-means聚类算法
引用本文:王飞,秦小麟,刘亮,沈尧.云环境下基于数据流的k-means聚类算法[J].计算机科学,2015,42(11):235-239, 265.
作者姓名:王飞  秦小麟  刘亮  沈尧
作者单位:南京航空航天大学计算机科学与技术学院 南京210016,南京航空航天大学计算机科学与技术学院 南京210016,南京航空航天大学计算机科学与技术学院 南京210016,南京航空航天大学计算机科学与技术学院 南京210016
基金项目:本文受国家自然科学基金项目(61373015,61300052),国家教育部高等学校博士学科点专项科研基金资助
摘    要:k-means算法是一种 最常用的基于划分的聚类算法。传统的集中式k-means算法已不能适应当前呈爆炸式增长的数据规模,设计分布式k-means算法成为了目前亟需解决的问题。现有分布式k-means算法基于MapReduce计算框架且没有考虑初始聚类中心的影响。由于每个MapReduce任务均需要读写分布式文件系统,导致MapReduce不能有效表达多个任务之间的依赖关系,因此提出了一种基于数据流的计算框架,该框架建立在MapReduce之上,将数据处理过程按照数据流图建模。在该框架的基础上,提出了一种高效的k-means算法,它采用基于多次采样的初始聚类中心选取方法来实现负载均衡及减少迭代次数。实验结果表明,该算法的可扩展性较好,且效率比现有算法高。

关 键 词:k-means  MapReduce  计算框架  数据流
收稿时间:2014/11/4 0:00:00
修稿时间:1/6/2015 12:00:00 AM

Algorithm for k-means Based on Data Stream in Cloud Computing
WANG Fei,QIN Xiao-lin,LIU Liang and SHEN Yao.Algorithm for k-means Based on Data Stream in Cloud Computing[J].Computer Science,2015,42(11):235-239, 265.
Authors:WANG Fei  QIN Xiao-lin  LIU Liang and SHEN Yao
Affiliation:College of Computer Science and Technology,Nanjing University of Aeronautics and Astronautics,Nanjing 210016,China,College of Computer Science and Technology,Nanjing University of Aeronautics and Astronautics,Nanjing 210016,China,College of Computer Science and Technology,Nanjing University of Aeronautics and Astronautics,Nanjing 210016,China and College of Computer Science and Technology,Nanjing University of Aeronautics and Astronautics,Nanjing 210016,China
Abstract:
Keywords:k-means  MapReduce  Framework  Data stream
本文献已被 万方数据 等数据库收录!
点击此处可从《计算机科学》浏览原始摘要信息
点击此处可从《计算机科学》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号