共查询到10条相似文献,搜索用时 62 毫秒
1.
2.
基于划分的数据挖掘K-means聚类算法分析 总被引:1,自引:0,他引:1
《现代电子技术》2020,(3):14-17
为提升数据挖掘中聚类分析的效果,在分析数据挖掘、聚类分析、传统K-means算法的基础上,提出一种改进的K-means算法。首先将整体数据集分为k类,然后设定一个密度参数为■,该密度参数反映数据库中数据所处区域的密度大小,■值与密度大小成正比,通过密度参数优化k个样本数据的聚类中心点选取;依据欧几里得距离公式对未选取的其他数据到各个聚类中心之间的距离进行计算,同时以此距离为判别标准,对各个数据进行种类划分,从而得到初始的聚类分布;初始聚类分布得到之后,对每一个分布簇进行再一次的中心点计算,并判断与之前所取中心点是否相同,直到其聚类收敛达到最优效果。最后通过葡萄酒数据集对改进算法进行验证分析,改进算法比传统K-means算法的聚类效果更优,能够更好地在数据挖掘当中进行聚类。 相似文献
3.
针对经典K-means选取初始值具有一定的盲目性和不确定性,提出了基于Canopy+算法的改进K-means聚类算法。首先对实验数据进行预处理,并从每条日负荷数据提取六个特征值;然后搭建Spark大数据集群,利用集群具有的内存并行化特点,提升改进聚类算法处理大规模数据的能力;最后将预处理后的用户日负荷数据进行单机K-means以及改进后算法的集群聚类。实验结果表明,在降低迭代次数的基础上,改进后集群聚类算法误差平方和降低3 659.906、轮廓系数提高0.03、DB指数下降0.06。使用改进后算法将电力用户划分为五个类别,其中具有调峰潜力、较优质的需求侧响应用户为第5类用户。 相似文献
4.
5.
基于划分的K-均值初始聚类中心优化算法 总被引:8,自引:2,他引:6
提出了一种新的初始化K-means的聚类算法,该算法通过区域划分方法估算出K个中心点作为初始聚类中心,从初始聚类中心出发,应用K-means聚类算法,得到聚类结果,实验表明,该算法能产生高质量的聚类结果、较少的迭代次数,优于K-means算法中传统的聚类中心初始化算法. 相似文献
6.
提出一种适用于大型数据集的分布式聚类算法。该算法以传统的K-means算法为基础进行合理的改进,使之更适用于分布式环境,并从算法的复杂度分析,将该算法与传统的集中式K-means算法及其他分布式算法进行比较。实验表明,该算法在保持了集中式K-means算法所有必要特性的同时,提高了数据处理速度。 相似文献
7.
8.
9.
传统的K-means算法由于随机选择初始聚类中心,使得聚类结果不精确.随着网络数据量的激增,传统的串行算法运算时间明显太长,有研究者利用Hadoop并行框架进行K-means并行化研究,虽然提高了算法的运行时间,但K-means算法在聚类判定时需要反复迭代,反复进行磁盘的读写操作,很大一部分时间花费在磁盘操作上,并行算法的效率大打折扣.为此,本文提出基于Spark框架的改进并行K-means算法,通过对RDD的操作有效解决了频繁的磁盘读写.在标准数据集下,进行对比实验,通过聚类效果和算法并行的加速比,验证了改进算法的有效性. 相似文献
10.
根据传统的K-means算法不能事先确定聚类分析方法的数量,在原始聚类中心选择敏感而且很容易受孤点数控制造成聚类结果不好的情况,给出了一个有效的簇中距离算法以及和原始簇中心选择相结合的AKD-means算法。首先,由提出的基于距离的LAND-DBSCAN方法 ,去除样本中的噪音数据并决定了其中的最佳聚类分析方法数量;其次利用提出的基于簇中心的K-means++方法进行聚类,并求出了聚类的类簇中心点。对西安市出行的轨迹数据集进行实证分析,并选择了轮廓系数、DBI、inertias等验证指数,与Kmeans算法、DBSCAN与K-means结合算法进行了对比验证,结果表明AK-means算法的精度高于后两者。 相似文献