基于Hadoop的灰狼优化K-means算法在主题发现的研究 |
| |
引用本文: | 王林,陈青超.基于Hadoop的灰狼优化K-means算法在主题发现的研究[J].微电子学与计算机,2022(4):24-32. |
| |
作者姓名: | 王林 陈青超 |
| |
作者单位: | 西安理工大学自动化与信息工程学院 |
| |
基金项目: | 陕西省重点研发计划项目(2017ZDCXL-GY-05-03); |
| |
摘 要: | 快速准确的在海量网络数据中发现热点主题对于网络舆情监控具有重要作用.针对K-means算法对初始中心点选择敏感和全局搜索能力不足的问题,提出一种基于Hadoop的改进灰狼优化K-means的IGWO-KM算法.首先,该算法将灰狼优化算法和K-means算法相结合,利用灰狼优化算法收敛速度快和可全局寻优的优势为K-means搜索最佳聚类中心,减小随机选取初始中心点而导致的聚类结果不稳定性,以获取更好的聚类结果.其次,使用非线性收敛因子改进灰狼优化算法,协调算法的全局和局部的搜索能力.然后,引入正弦余弦算法并进行改进,增强灰狼优化算法的全局搜索能力,优化寻优精度和收敛速度,避免陷入局部最优.之后,使用近邻空间球减少K-means聚类过程中冗余的距离计算加快算法收敛.最后,利用Hadoop集群可批量处理数据的特性,实现算法的并行化.实验结果表明,IGWO-KM算法具有更好的寻优精度和稳定性,相比于GWO-KM算法和K-means,该算法在查准率、召回率和F值均有明显提高,且具有良好的收敛速度和拓展性.
|
关 键 词: | 文本聚类 K-means算法 主题发现 灰狼优化算法 分布式计算 |
|