基于Spark的改进K-means算法的并行实现 Parallel implementation of improved K-means algorithm based on Spark期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于Spark的改进K-means算法的并行实现

引用本文：	杜佳颖. 基于Spark的改进K-means算法的并行实现[J]. 计算机应用研究, 2020, 37(2): 434-436,497

作者姓名：	杜佳颖

作者单位：	南昌大学信息工程学院,南昌330031;南昌大学信息工程学院,南昌330031;南昌大学信息工程学院,南昌330031;南昌大学信息工程学院,南昌330031

摘要：	针对K-means聚类算法存在的不足，提出了改进K-means来提高算法的性能，利用简化后的轮廓系数作为评估标准衡量K-means算法中◢k◣值，采用K-means++完成K-means算法初始中心点的选择。设置好◢k◣值以及初始中心点后使用形态学相似距离作为相似度测量标准将数据点归属到距离最近的中心点形成的簇中，最后计算平均轮廓系数确定合适的◢k◣值，并在Spark上实现算法并行化。通过对四个标准数据集在准确性、运行时间和加速比三个方面的实验表明，改进后的K-means算法相对于传统的K-means算法和SKDK-means算法不仅提高了聚类划分质量，缩短了计算时间，而且在多节点的集群环境下表现出良好的并行性能。实验结果分析出提出的改进算法能有效提高算法执行效率和并行计算能力。
关键词：	聚类算法简化轮廓系数形态学相似距离相似性度量
收稿时间：	2018-07-20
修稿时间：	2018-08-28
Parallel implementation of improved K-means algorithm based on Spark

Du Jiaying. Parallel implementation of improved K-means algorithm based on Spark[J]. Application Research of Computers, 2020, 37(2): 434-436,497

Authors:	Du Jiaying

Affiliation:	Information Engineering School of NanChang University

Abstract:

Keywords:	clustering algorithm simplified silhouette coefficient morphology similary distance(MSD) similarity measurement
本文献已被万方数据等数据库收录！
	点击此处可从《计算机应用研究》浏览原始摘要信息
	点击此处可从《计算机应用研究》下载全文

设为首页 | 免责声明 | 关于勤云 | 加入收藏