共查询到20条相似文献,搜索用时 453 毫秒
1.
2.
3.
为了解决动态网格划分技术中聚类结果对数据输入顺序的依赖性和聚类精度差的问题,提出了基于移动技术的动态网格聚类算法(grid-based clustering algorithm based on shifting technology, GLASS).该聚类算法主要利用了动态网格划分技术和移动网格技术来解决上述问题,且能够识别任意形状、任意大小的聚类,只需一个参数,且时间复杂度是数据集大小和数据维度的线性函数.实验结果表明该算法是有效的. 相似文献
4.
5.
K-means算法是被广泛使用的一种聚类算法,传统的K-means算法中初始聚类中心的选择具有随机性,易使算法陷入局部最优,聚类结果不稳定。针对此问题,引入多维网格空间的思想,首先将样本集映射到一个虚拟的多维网格空间结构中,然后从中搜索出包含样本数最多且距离较远的子网格作为初始聚类中心网格,最后计算出各初始聚类中心网格中所包含样本的均值点来作为初始聚类中心。此法选择出来的初始聚类中心与实际聚类中心拟合度高,进而可据此初始聚类中心稳定高效地得到最终的聚类结果。通过使用计算机模拟数据集和UCI机器学习数据集进行测试,结果表明改进算法的迭代次数和错误率比较稳定,且均小于传统K-means算法测试结果的平均值,能有效避免陷入局部最优,并且聚类结果稳定。 相似文献
6.
网格聚类中的边界处理技术 总被引:4,自引:0,他引:4
提出利用限制性k近邻和相对密度的概念识别网格聚类边界点的技术,给出网格聚类中的边界处理算法和带边界处理的网格聚类算法(GBCB).实验表明,聚类边界处理技术精度高,能有效地将聚类的边界点和孤立点/噪声数据分离开来.基于该边界处理技术的网格聚类算法GBCB能识别任意形状的聚类.由于它只对数据集进行一遍扫描,算法的运行时间是输入数据大小的线性函数,可扩展性好. 相似文献
7.
为改进EMicro算法存在的不足提出了GDF-CUStreams算法。该算法采用网格特征向量存储数据的分布特征,通过更新网格特征向量合并成簇对不确定数据流聚类,对新数据点的到来采用增量聚类。通过网格密度和网格质心之间的距离判定网格是否是零星网格,利用网格引力对簇边界进行优化,检测和删除零星网格,使簇边缘更加平滑,提高聚类精度。其中网格密度和网格质心都采用增量更新。实验结果表明,与EMicro算法相比,GDF-CUStreams效率更高且效果良好。 相似文献
8.
9.
聚类算法综述 总被引:8,自引:2,他引:6
数据挖掘技术可以从大量数据中发现潜在的、有价值的知识,它给人们在信息时代所积累的海量数据赋予了新的意义。随着数据挖掘技术的迅速发展,作为其重要的组成部分,网格聚类技术已经被广泛应用于数据分析、图像处理、市场研究等许多领域。网格聚类算法研究已经成为数据挖掘研究领域中非常活跃的一个研究课题。 介绍了数据挖掘理论,对网格聚类算法进行了深入的分析研究。在研究了传统网格聚类算法的基础上,提出了一些改进的网格聚类算法,这些算法相比传统网格聚类算法有更好的聚类质量和效率。在分析了传统的多密度聚类算法的基础上,提出了基于网格的多密度聚类算法(Grid-based Clustering Algorithm for Multi-density)[1],该算法主要采用密度阈值递减的多阶段聚类技术提取不同密度的聚类,同时对聚类结果进行了人工干预。研究结果表明,基于网格的多密度聚类算法不仅能够对数据集进行正确的聚类,同时还能有效地弥补孤立点检测,有效地解决了传统多密度聚类算法不能有效识别孤立点和噪声的缺陷。基于网格的多密度聚类算法比传统的共享近邻SNN算法精度高,适合于均匀密度数据集、大部分多密度数据集,并且可以发现任意形状的聚类,对噪声数据和数据输入顺序不敏感,但对小部分多密度数据集的聚类结果不理想[1]。 相似文献
10.
该文讨论了基于网格和密度的聚类算法,该算法是在基于密度的聚类算法和基于网格的聚类算法的基础上提出的。通过与传统的几种基于聚类算法的比较,详细讨论了基于网格和密度的聚类算法的性能,并提出了该算法的不足之处。 相似文献
11.
宋秋银 《电脑编程技巧与维护》2013,(8):87-88,91
目前,网络中利用数据挖掘技术抽取有效信息成为数据挖掘研究的热点。介绍数据挖掘的流程和分类,并对在云端进行数据的收集和储存提出自己的思想。重点对数据收集的网格和分形维数的聚类算法(GFDC),以及在网络频繁的数据迁移中处理好Master和服务器之间的关系进行了改进。 相似文献
12.
针对高密度杂波环境中多目标航迹起始时虚假航迹多和起始处理速度慢的问题,提出了一种将扫描点迹先聚类后进行航迹起始的新算法TI-GCL(Track Initiation Algorithm Based on Grid Clustering and Modified Logic Algorithm).新算法通过网格核技术和边界提取技术分别对高、低密度网格中的回波点迹进行处理,得到更为准确的簇,进一步利用簇中数据对象的相似度进行聚类,最后对每个聚类中的点迹运用修正逻辑法起始目标航迹.仿真结果表明,该算法在高密度杂波环境下能够准确、快速地起始多目标航迹,适于工程运用. 相似文献
13.
传统的基于网格的数据流聚类算法在同一粒度的网格上进行聚类,虽然提高了处理速度,但聚类准确性较低。针对此问题,提出一种新的基于双层网格和密度的数据流聚类算法DBG Stream。在2种粒度的网格上对数据流进行聚类,并借鉴CluStream算法的思想,将聚类过程分为2个阶段。在线过程中利用粗粒度的网格单元形成初始聚类,离线过程中在细粒度网格单元上,对位于簇边界的网格单元进行二次聚类以提高聚类精度,并实现了关键参数的自动设置,通过删格策略提高算法效率。实验结果表明,DBG Stream算法的聚类精确度较D Stream算法有较大提高,有效解决了传统基于网格聚类算法的聚类精度较低的问题。 相似文献
14.
模糊c均值聚类算法是目前聚类分析中最受欢迎的算法之一,但其聚类效果往往受初始参数的影响.针对这一问题,提出一种基于网格和密度的模糊c均值聚类初始化方法.以网格和密度为工具提取聚类样本的类聚类中心,以此来初始化模糊c均值聚类算法的初始参数,从而弥补原算法的不足.实验证明方法是可行的、有效的. 相似文献
15.
针对模糊C均值聚类算法易受初始聚类中心影响且收敛速度慢的缺陷,提出一种基于二次网格优化的粒子群模糊聚类算法Grid-PFcm。该算法首先将数据空间网格化,依据深度优先遍历规则,连通相邻密集网格单元,计算连通网格的相对密度,选取相对密度值最大的连通网格,计算中心位置,初始化聚类中心。然后,按照基于网格空间的单维向量变化原理,实现最佳粒子全局寻优,进一步优化初始聚类中心,以降低初始聚类中心选取对聚类效果的影响度。最后,通过实验表明,该算法能够加快寻优收敛速度,提高聚类效率和效果。 相似文献
16.
17.
传统的聚类算法不适用于处理海量和高维数据。针对云计算环境下,利用集群系统的并行计算能力,实现海量数据的聚类问题,给出了云计算环境下基于分形维数的聚类融合算法。该算法首先对基于分形维数的聚类算法进行改进,使之更适用于并行计算,其产生聚类作为初始聚类成员;再结合投票算法的融合策略实现融合。最后,对基于分形维数的聚类融合算法在云计算环境下实现并行计算。通过在UCI数据集上的对比实验来验证该算法的有效性。 相似文献
18.
基于改进K-均值聚类的快速分形图像编码算法 总被引:2,自引:0,他引:2
将先进的K-均值聚类理论引入到分形图像编码领域,是目前国际学术界的研究热点之一.本文全面分析了K-均值聚类的初始聚类中心选取问题,给出了基于均值一标准差的初始聚类中心选取新方案,并据此提出了一种新的快速分形图像编码算法.仿真实验表明,本文所提出的快速分形图像编码算法是一种高效的图像压缩方法,不仅其压缩效果明显优于传统K_均值聚类分形图像压缩方案,而且具有较短的编码时间.同时,该算法还具有较强的通用性与适应性(传统K-均值分形编码方法对于纹理图像压缩效果较差,而本文算法的压缩效果却较理想). 相似文献
19.
改进了基于网格和密度的模糊c均值聚类初始化方法,提出了基于网格和密度权值的模糊c均值算法.该算法在参数初始化时用网格代表点代替原算法的网格凝聚点,同时考虑到在样本空间中处于不同位置的样本点对聚类的影响不同,把密度权值作为系数加入到模糊c均值聚类算法中.实验结果表明,提出的算法对提高算法的效率是有效的. 相似文献