一种改进的k均值文本聚类算法 |
| |
引用本文: | 张银明,黄廷磊,林科,张嫱嫱.一种改进的k均值文本聚类算法[J].桂林电子科技大学学报,2016(4):311-314. |
| |
作者姓名: | 张银明 黄廷磊 林科 张嫱嫱 |
| |
作者单位: | 桂林电子科技大学计算机与信息安全学院 |
| |
基金项目: | 国家863计划(2012AA011005) |
| |
摘 要: | 针对k均值算法在文本聚类中由于初始聚类质心随机选择,使得聚类结果陷入局部最优,且孤立点和不确定的聚类个数造成k均值算法准确性低、收敛速度慢的问题,提出了一种改进的k均值文本聚类算法。该算法采用fp-growth算法挖掘文本频繁项集,过滤频繁项集得到核心频繁项集,并利用核心频繁项集指导文本初始聚类质心和聚类个数的生成,最后k均值算法利用初始聚类质心和聚类个数完成文本聚类。在新浪微博数据集上进行文本聚类实验,实验结果表明,改进的k均值算法提高了文本聚类的准确性,加快了收敛速度,具有较强的鲁棒性。
|
关 键 词: | 文本聚类 fp-growth k均值 |
本文献已被 CNKI 等数据库收录! |
|