基于Hadoop的并行聚类算法的研究 |
| |
作者姓名: | 崔莉霞 |
| |
作者单位: | 江西师范大学计算机信息工程学院,南昌330022 |
| |
摘 要: | 本文介绍了Hadoop平台下Map Reduce的并行编程框架,分析了传统Kmeans聚类算法的优缺点,提出基于Canopy的Canopy-Kmeans聚类算法。使用Canopy聚类先对数据进行"粗"聚类,以优化Kmeans聚类算法初始聚类中心的选取。选用Map Reduce并行编程方法。实验表明该方法相对于传统Kmeans聚类算法有着更高的计算效率。
|
关 键 词: | Hadoop Map Reduce 聚类 Canopy-Kmeans算法 |
本文献已被 维普 等数据库收录! |
|