首页 | 官方网站   微博 | 高级检索  
     

一种改进的k均值文本聚类算法
引用本文:张银明,黄廷磊,林科,张嫱嫱.一种改进的k均值文本聚类算法[J].桂林电子科技大学学报,2016(4):311-314.
作者姓名:张银明  黄廷磊  林科  张嫱嫱
作者单位:桂林电子科技大学计算机与信息安全学院
基金项目:国家863计划(2012AA011005)
摘    要:针对k均值算法在文本聚类中由于初始聚类质心随机选择,使得聚类结果陷入局部最优,且孤立点和不确定的聚类个数造成k均值算法准确性低、收敛速度慢的问题,提出了一种改进的k均值文本聚类算法。该算法采用fp-growth算法挖掘文本频繁项集,过滤频繁项集得到核心频繁项集,并利用核心频繁项集指导文本初始聚类质心和聚类个数的生成,最后k均值算法利用初始聚类质心和聚类个数完成文本聚类。在新浪微博数据集上进行文本聚类实验,实验结果表明,改进的k均值算法提高了文本聚类的准确性,加快了收敛速度,具有较强的鲁棒性。

关 键 词:文本聚类  fp-growth  k均值
本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号