在大规模数据集上进行快速自适应同步聚类 |
| |
引用本文: | 应文豪,许敏,王士同,邓赵红.在大规模数据集上进行快速自适应同步聚类[J].计算机研究与发展,2014(4). |
| |
作者姓名: | 应文豪 许敏 王士同 邓赵红 |
| |
作者单位: | 江南大学数字媒体学院;常熟理工学院计算机科学与工程学院; |
| |
基金项目: | 国家自然科学基金项目(61272210,61202311);江苏省自然科学基金项目(BK2012552,BK2012209) |
| |
摘 要: | 现有的同步聚类方法Sync在同步过程中需要将样本中的每一个分量看作相位振子进行计算,具有较高的时间复杂度,因此在大规模数据集上聚类时具有相当大的局限性.为了解决这一问题,提出了快速自适应同步聚类方法(fast adaptive KDE-based clustering by synchronization,FAKCS).FAKCS首先引入基于压缩集密度估计和中心约束最小包含球技术的快速压缩方法对大规模数据集进行压缩,然后通过使用Davies-Bouldin指标,在压缩集上进行ε参数自适应的同步聚类,并采用新定义的序列参量来评价局部同步的程度.另外,研究了序列参量和核密度估计间的联系,从理论上揭示了样本点的局部同步在概率密度意义下的本质.FAKCS可以在大规模数据集上得到任意形状、个数、密度的聚类而无需预设聚类数目.在图像分割和大规模UCI数据集上的实验验证了FAKCS的有效性.
|
关 键 词: | 核密度估计 最小包含球 同步 压缩集密度估计 聚类 |
本文献已被 CNKI 等数据库收录! |
|