一种用于文本聚类的改进的K均值算法 |
| |
引用本文: | 任江涛,孙婧昊,施潇潇,黄焕宇,印鉴.一种用于文本聚类的改进的K均值算法[J].计算机应用,2006,26(Z1):73-75. |
| |
作者姓名: | 任江涛 孙婧昊 施潇潇 黄焕宇 印鉴 |
| |
作者单位: | 中山大学,计算机科学系,广东,广州,510275 |
| |
基金项目: | 国家高技术研究发展计划(863计划);广东省自然科学基金 |
| |
摘 要: | K均值算法是聚类分析中使用最为广泛的算法之一.针对文本聚类所面临的维数灾难,稀疏向量以及标准K均值算法初始中心点选择的随机性等问题,提出了一种面向文本聚类的改进的K均值算法,通过运用特征选择及降维、稀疏向量筛除、基于密度及散布的初始中心点搜索等方法进行改进.实验结果表明,改进后的算法无论在聚类精度还是在稳定性等方面,都明显优于标准的K均值算法.
|
关 键 词: | 文本聚类 特征选择 初始化 |
文章编号: | 1001-9081(2006)06Z-0073-03 |
修稿时间: | 2005年12月14 |
本文献已被 CNKI 万方数据 等数据库收录! |
|