Hadoop云平台下的聚类算法研究 |
| |
引用本文: | 谭跃生,杨宝光,王静宇,张亚楠.Hadoop云平台下的聚类算法研究[J].计算机工程与设计,2014(5):1683-1687. |
| |
作者姓名: | 谭跃生 杨宝光 王静宇 张亚楠 |
| |
作者单位: | 内蒙古科技大学信息工程学院;内蒙古科技大学网络中心 |
| |
基金项目: | 国家自然科学基金项目(61163025);内蒙古自然科学基金项目(2012MS0912);内蒙古教育厅高校科研基金项目(njzy12110) |
| |
摘 要: | 为了解决在面对海量数据时机器学习算法很难在有效时间内完成规定的任务,并且很难有效地处理高维度、海量数据等问题,提出了基于Hadoop分布式平台的谱聚类算法并行化研究。利用MapReduce编程模式,将传统的谱聚类算法进行重新编写;在该平台上用Canopy算法对数据进行预处理,以达到更好的聚类效果。实验结果表明了设计的分布式聚类算法在加速比等方面有良好的性能,并且在数据伸缩率方面效果明显,改进后的算法适合处理海量数据。
|
关 键 词: | 海量数据 机器学习 聚类算法 谱聚类 分布式框架 |
本文献已被 CNKI 等数据库收录! |
|