共查询到20条相似文献,搜索用时 31 毫秒
1.
针对层次聚类法和 K-means 聚类法的缺陷和不足,提出将二者相结合的改进算法,既解决了层次聚类法伸缩性差的问题,又解决了 K-means聚类法对初始聚类中心敏感的问题。通过对改进算法的计算复杂度分析并利用 UCI 数据库的测试数据对改进算法进行测试。结果表明,混合聚类算法使样本聚类的准确率提高到94%,并有更高的执行效率和更好地实用性。此外,将此算法应用到汽车销售公司的客户细分管理中,得出了差别化明显的客户细分类别,表明此改进算法具有更强的客户细分能力以及客户行为特征的解释能力。 相似文献
2.
针对经典K-means选取初始值具有一定的盲目性和不确定性,提出了基于Canopy+算法的改进K-means聚类算法。首先对实验数据进行预处理,并从每条日负荷数据提取六个特征值;然后搭建Spark大数据集群,利用集群具有的内存并行化特点,提升改进聚类算法处理大规模数据的能力;最后将预处理后的用户日负荷数据进行单机K-means以及改进后算法的集群聚类。实验结果表明,在降低迭代次数的基础上,改进后集群聚类算法误差平方和降低3 659.906、轮廓系数提高0.03、DB指数下降0.06。使用改进后算法将电力用户划分为五个类别,其中具有调峰潜力、较优质的需求侧响应用户为第5类用户。 相似文献
3.
选取2020年5月3日邢台出现四个超级单体的强对流过程,以6分钟的间隔对三维闪电数据进行划分,使用DBSCAN聚类算法删除离散点,使用K-means聚类算法对三维闪电数据进行聚类分析。选取轮廓系数最大的K值,并与雷达回波拼图数据进行对比,识别四个超级单体并计算聚类中心和聚类最大半径,使用趋势外推法对四个超级单体的运动轨迹进行预测。分析表明:DBSCAN聚类算法可以有效删除离散点,操作性强;四个超级单体的K-means算法聚类中心和30 dBZ以上的强回波区域一致性较好,可以获取聚类中心运动轨迹和聚类最大半径;使用临近三个时次数据进行趋势外推,MSE最小,该方法对雷电预警信号发布有参考价值。 相似文献
4.
根据传统的K-means算法不能事先确定聚类分析方法的数量,在原始聚类中心选择敏感而且很容易受孤点数控制造成聚类结果不好的情况,给出了一个有效的簇中距离算法以及和原始簇中心选择相结合的AKD-means算法。首先,由提出的基于距离的LAND-DBSCAN方法 ,去除样本中的噪音数据并决定了其中的最佳聚类分析方法数量;其次利用提出的基于簇中心的K-means++方法进行聚类,并求出了聚类的类簇中心点。对西安市出行的轨迹数据集进行实证分析,并选择了轮廓系数、DBI、inertias等验证指数,与Kmeans算法、DBSCAN与K-means结合算法进行了对比验证,结果表明AK-means算法的精度高于后两者。 相似文献
5.
林龙成 《电子技术与软件工程》2020,(1):111-112
本文对K-means算法的缺点做出了一些改进,提出了一种基于遗传算法GA-K-means的算法。利用遗传算法初始化K-means的初始聚类中心点,改进后的算法解决了K-means算法容易因为初始聚类中心的选择不同而陷入局部最优解的问题。实验表明,改进后的算法聚类结果稳定且聚类效果较好。 相似文献
6.
7.
8.
本文对传统的K-means聚类算法进行了深入的分析研究,发现了算法当中的一些缺陷和漏洞,并且找出可以改进K-means聚类算法的方法,使聚类分析的结果更具有实际意义,保证了聚类结果的高质量。 相似文献
9.
10.
本文重点讨论了聚类分析方法中K-means聚类算法在客户价值分析中的作用,通过对客户的现有价值和潜在价值进行分析,对客户进行细分.并针对某地区移动公司的客户数据信息,用K-means算法进行了详细的实例分析. 相似文献
11.
12.
传统的K-means算法由于随机选择初始聚类中心,使得聚类结果不精确.随着网络数据量的激增,传统的串行算法运算时间明显太长,有研究者利用Hadoop并行框架进行K-means并行化研究,虽然提高了算法的运行时间,但K-means算法在聚类判定时需要反复迭代,反复进行磁盘的读写操作,很大一部分时间花费在磁盘操作上,并行算法的效率大打折扣.为此,本文提出基于Spark框架的改进并行K-means算法,通过对RDD的操作有效解决了频繁的磁盘读写.在标准数据集下,进行对比实验,通过聚类效果和算法并行的加速比,验证了改进算法的有效性. 相似文献
13.
基于划分的数据挖掘K-means聚类算法分析 总被引:1,自引:0,他引:1
《现代电子技术》2020,(3):14-17
为提升数据挖掘中聚类分析的效果,在分析数据挖掘、聚类分析、传统K-means算法的基础上,提出一种改进的K-means算法。首先将整体数据集分为k类,然后设定一个密度参数为■,该密度参数反映数据库中数据所处区域的密度大小,■值与密度大小成正比,通过密度参数优化k个样本数据的聚类中心点选取;依据欧几里得距离公式对未选取的其他数据到各个聚类中心之间的距离进行计算,同时以此距离为判别标准,对各个数据进行种类划分,从而得到初始的聚类分布;初始聚类分布得到之后,对每一个分布簇进行再一次的中心点计算,并判断与之前所取中心点是否相同,直到其聚类收敛达到最优效果。最后通过葡萄酒数据集对改进算法进行验证分析,改进算法比传统K-means算法的聚类效果更优,能够更好地在数据挖掘当中进行聚类。 相似文献
14.
针对K-means算法对于初始聚类中心选择敏感问题,提出了一种改进的K-means算法,该算法优化了聚类中心选择问题,能够获得全局最优的聚类划分,同时减少了算法的时间复杂度。实验结果表明,采用本文的算法进行网络入侵检测,相对于经典的聚类算法,能获得理想的网络入侵检测率和网络误报率。 相似文献
15.
16.
一种改进的特征加权K-means聚类算法 总被引:4,自引:0,他引:4
提出了一种改进的特征加权K-means聚类算法.该算法首先基于数据样本分布选取初始聚类中心,然后设计特征加权的K-means聚类算法.实验结果证明,该算法能产生质量较高的聚类结果,并且能处理数值、符号两类数据. 相似文献
17.
针对聚类算法K-means在聚类的过程中,出现数据的属性缺失造成聚类的精确度下降等问题,提出了一种改进BP神经网络的BPK-means算法。该算法首先根据BP神经网络对缺失的属性值进行预测,补全缺失的数据,极大的提高了数据的完整性和可靠性;然后对异常的数据进行去噪处理;最后通过K-means算法对修复后的数据进行聚类。通过理论验证和实验结果都表明所提出的方法比原始的算法精确度有很大提高。 相似文献
18.
19.
20.
K-means聚类算法在随机选择的初始聚类中心的基础上进行聚类,其聚类效果会因为初始聚类中心的不确定性而不稳定。为了优化其聚类效果,提出了基于近邻传播算法(AP算法)的K-means聚类优化算法(APK-means)。该算法首先通过近邻传播算法生成若干个初始聚类,然后依序选择k个聚类规模最大的聚类中心作为K-means聚类算法的初始聚类中心,接着运行K-means聚类。算法有效性分析和实验结果验证了该算法有效优化了K-mean算法的聚类稳定性和有效性。 相似文献