首页 | 官方网站   微博 | 高级检索  
     

改进的混合属性数据聚类算法
引用本文:赵立江,黄永青,刘玉龙.改进的混合属性数据聚类算法[J].计算机工程与设计,2007,28(20):4850-4852.
作者姓名:赵立江  黄永青  刘玉龙
作者单位:徐州师范大学计算机学院 江苏徐州221116
基金项目:国家自然科学基金 , 江苏省高校自然科学基础研究基金 , 江苏省重点实验室基金 , 徐州师范大学校科研和教改项目
摘    要:k-prototypes是目前处理数值属性和分类属性混合数据主要的聚类算法,但其聚类结果对初值有明显的依赖性.对k-prototypes初值选取方法进行了分析和研究,提出一种新的改进方法.该方法有更高的稳定性和较强的伸缩性,可减少一定程度的上随机性.实际数据集仿真结果表明,改进算法是正确和有效的.

关 键 词:数据挖掘  聚类  k-原型算法  混合型数据  相异度  改进算法  混合属性  数据聚类算法  sets  data  mixture  clustering  algorithm  仿真结果  数据集  随机性  程度  伸缩性  稳定性  改进方法  研究  分析  选取  依赖性  初值  混合数据
文章编号:1000-7024(2007)20-4850-03
修稿时间:2007-04-30

Improved clustering algorithm for mixture data sets
ZHAO Li-jiang,HUANG Yong-qing,LIU Yu-long.Improved clustering algorithm for mixture data sets[J].Computer Engineering and Design,2007,28(20):4850-4852.
Authors:ZHAO Li-jiang  HUANG Yong-qing  LIU Yu-long
Affiliation:School of Computer Science, Xuzhou Normal University, Xuzhou 221116, China
Abstract:The k-prototypes algorithm has become popular technique in solving mixed numeric and categorical data clustering problems in different application domains.However,it requires random selection of initial points for the clusters.So it is obvious that outputs are especially sensitive to initial.Different initial points often lead to considerable distinct clustering results.The method of random se-lection is analysed and a method of searching initial starting points is proposed through grouping data sets.Experiments show that new initialization method leads to better accurate and scalable.
Keywords:data mining  clustering  k-prototypes  mixture data  dissimilarity
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号