一种改进的k均值文本聚类算法期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

一种改进的k均值文本聚类算法

引用本文：	张银明,黄廷磊,林科,张嫱嫱.一种改进的k均值文本聚类算法[J].桂林电子科技大学学报,2016(4):311-314.

作者姓名：	张银明黄廷磊林科张嫱嫱

作者单位：	桂林电子科技大学计算机与信息安全学院

基金项目：	国家863计划(2012AA011005)

摘要：	针对k均值算法在文本聚类中由于初始聚类质心随机选择,使得聚类结果陷入局部最优,且孤立点和不确定的聚类个数造成k均值算法准确性低、收敛速度慢的问题,提出了一种改进的k均值文本聚类算法。该算法采用fp-growth算法挖掘文本频繁项集,过滤频繁项集得到核心频繁项集,并利用核心频繁项集指导文本初始聚类质心和聚类个数的生成,最后k均值算法利用初始聚类质心和聚类个数完成文本聚类。在新浪微博数据集上进行文本聚类实验,实验结果表明,改进的k均值算法提高了文本聚类的准确性,加快了收敛速度,具有较强的鲁棒性。
关键词：	文本聚类 fp-growth k均值
本文献已被 CNKI 等数据库收录！