首页 | 官方网站   微博 | 高级检索  
     

SCEA:一种适应高维海量数据的并行聚类集成算法
引用本文:廖彬,黄静莱,王鑫,孙瑞娜,葛晓燕,国冰磊.SCEA:一种适应高维海量数据的并行聚类集成算法[J].电子学报,2021,49(6):1077-1087.
作者姓名:廖彬  黄静莱  王鑫  孙瑞娜  葛晓燕  国冰磊
作者单位:新疆财经大学统计与数据科学学院,新疆乌鲁木齐830012;新疆财经大学统计与数据科学学院,新疆乌鲁木齐830012;中国科学院信息工程研究所,北京100093;中国科学院大学网络空间安全学院,北京100093;新疆大学信息科学与工程学院,新疆乌鲁木齐830008
摘    要:针对传统串行聚类集成算法在处理高维海量数据时效率低下的问题,提出基于Spark的并行聚类集成算法SCEA(Spark based Clustering Ensemble Algorithm).首先,通过主成分分析与成对约束结合的方法对算法输入数据进行预处理,达到数据降维并去除特征相关性的目的;其次,通过调用不同聚类算法获得基聚类成员后,采用三元组方法通过基聚类成员的簇标签构造出相似度矩阵,并调用层次聚类算法得到最终的聚类结果;最后,在调用MLlib中已有聚类算法的基础上,基于Scala对SCEA算法进行了实现.将SCEA与同类算法在多组数据集下进行对比测试,实验结果表明:总体上SCEA不仅较已有算法在准确率方面有所提高,并且通过分析运行时间、加速比以及可扩展性3个性能指标,证明了SCEA在算法性能上的优越性.

关 键 词:并行聚类  数据降维  聚类集成  Spark聚类  性能优化

SCEA:A Parallel Clustering Ensemble Algorithm for High-Dimensional Massive Data
LIAO Bin,HUANG Jing-lai,WANG Xin,SUN Rui-na,GE Xiao-yan,GUO Bing-lei.SCEA:A Parallel Clustering Ensemble Algorithm for High-Dimensional Massive Data[J].Acta Electronica Sinica,2021,49(6):1077-1087.
Authors:LIAO Bin  HUANG Jing-lai  WANG Xin  SUN Rui-na  GE Xiao-yan  GUO Bing-lei
Abstract:
Keywords:
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号