首页 | 官方网站   微博 | 高级检索  
     

基于样本空间分布密度的初始聚类中心优化K-均值算法*
引用本文:谢娟英,郭文娟,谢维信,高新波.基于样本空间分布密度的初始聚类中心优化K-均值算法*[J].计算机应用研究,2012,29(3):888-892.
作者姓名:谢娟英  郭文娟  谢维信  高新波
作者单位:1. 陕西师范大学计算机科学学院,西安710062;西安电子科技大学电子工程学院,西安710071
2. 陕西师范大学计算机科学学院,西安,710062
3. 西安电子科技大学电子工程学院,西安710071;深圳大学信息工程学院ATR国家重点实验室,深圳518060
4. 西安电子科技大学电子工程学院,西安,710071
基金项目:中央高校基本科研业务费专项资金重点资助项目(GK200901006);陕西省自然科学基础研究计划资助项目(2010JM3004);中央高校基本科研业务费专项资金资助项目(GK201001003)
摘    要:针对传统K-均值聚类算法对初始聚类中心敏感、现有初始聚类中心优化算法缺乏客观性,提出一种基于样本空间分布密度的初始聚类中心优化K-均值算法。该算法利用数据集样本的空间分布信息定义数据对象的密度,并根据整个数据集的空间信息定义了数据对象的邻域;在此基础上选择位于数据集样本密集区且相距较远的数据对象作为初始聚类中心,实现K-均值聚类。UCI机器学习数据库数据集以及随机生成的带有噪声点的人工模拟数据集的实验测试证明,本算法不仅具有很好的聚类效果,而且运行时间短,对噪声数据有很强的抗干扰性能。基于样本空间分布密度的初始聚类中心优化K-均值算法优于传统K-均值聚类算法和已有的相关K-均值初始中心优化算法。

关 键 词:聚类  K-均值聚类  初始中心  邻域  样本分布密度

K-means clustering algorithm based on optimal initial centers related to pattern distribution of samples in space
XIE Juan-ying,GUO Wen-juan,XIE Wei-xin,GAO Xin-bo.K-means clustering algorithm based on optimal initial centers related to pattern distribution of samples in space[J].Application Research of Computers,2012,29(3):888-892.
Authors:XIE Juan-ying  GUO Wen-juan  XIE Wei-xin  GAO Xin-bo
Affiliation:1.School of Computer Science,Shaanxi Normal University,Xi’an 710062,China;2.School of Electronic Engineering,Xidian University,Xi’an 710071,China;3.National Laboratory of Automatic Target Recognition(ATR),School of Information Engineering,Shenzhen University,Shenzhen Guangdong 518060,China)
Abstract:To overcome the sensible of traditional K-means clustering algorithm to initial centers, and avoid the arbitrary of available improved K-means algorithms for discovering good initial centers, this paper proposed a new algorithm to find the optimal initial centers for K-means clustering algorithm. It defined the density and the neighborhood for each sample according to the natural pattern distribution of exemplars in data space, so that the samples chose as initial seeds not only lie in the higher density area, but also far away from each other. It tested the new algorithm on some well-known datasets from UCI machine learning repository and on some synthetic datasets with different proportion noises using many different measures. The experimental results demonstrate that our new algorithm achieves excellent clustering result in short run time and is insensible to noisy data. It outperforms the traditional K-means clustering algorithm and those available algorithms for improving the initial seeds of K-means clustering algorithm.
Keywords:clustering  K-means clustering  initial centers  neighborhood  density of pattern distribution
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《计算机应用研究》浏览原始摘要信息
点击此处可从《计算机应用研究》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号