首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 203 毫秒
1.
传统K-means算法的初始聚类中心从数据集中随机抽取,聚类结果会随着初始聚类中心的不同而产生波动。针对这一问题,提出一种基于密度的优化初始聚类中心选取算法,通过计算每个数据对象的密度参数和邻域距离,选取k个处于高密度分布的点作为初始聚类中心。在聚类类别数给定的情况下,使用标准的UCI数据库进行对比实验,发现改进后的算法较传统算法有相对较高的准确率和稳定性。  相似文献   

2.
K-means聚类算法在随机选择的初始聚类中心的基础上进行聚类,其聚类效果会因为初始聚类中心的不确定性而不稳定。为了优化其聚类效果,提出了基于近邻传播算法(AP算法)的K-means聚类优化算法(APK-means)。该算法首先通过近邻传播算法生成若干个初始聚类,然后依序选择k个聚类规模最大的聚类中心作为K-means聚类算法的初始聚类中心,接着运行K-means聚类。算法有效性分析和实验结果验证了该算法有效优化了K-mean算法的聚类稳定性和有效性。  相似文献   

3.
基于划分的数据挖掘K-means聚类算法分析   总被引:1,自引:0,他引:1  
《现代电子技术》2020,(3):14-17
为提升数据挖掘中聚类分析的效果,在分析数据挖掘、聚类分析、传统K-means算法的基础上,提出一种改进的K-means算法。首先将整体数据集分为k类,然后设定一个密度参数为■,该密度参数反映数据库中数据所处区域的密度大小,■值与密度大小成正比,通过密度参数优化k个样本数据的聚类中心点选取;依据欧几里得距离公式对未选取的其他数据到各个聚类中心之间的距离进行计算,同时以此距离为判别标准,对各个数据进行种类划分,从而得到初始的聚类分布;初始聚类分布得到之后,对每一个分布簇进行再一次的中心点计算,并判断与之前所取中心点是否相同,直到其聚类收敛达到最优效果。最后通过葡萄酒数据集对改进算法进行验证分析,改进算法比传统K-means算法的聚类效果更优,能够更好地在数据挖掘当中进行聚类。  相似文献   

4.
针对K-means聚类算法在成绩评价中存在的稳定性低,聚类数难确定的问题,提出了一种改进K中心点聚类算法,将样本集与样本的各自平均距离比值作为样本的密度参数,采用最大距离乘积法选择密度较大且距离较远的k个样本作为初始聚类中心,在此基础上,结合聚类评价指标DB设计了聚类质量评价模型。通过对某高校学生成绩的聚类分析结果表明:该模型能够准确地给出聚类数k,有效地挖掘出学生多门课程成绩的分布情况,可以为个性化教学的实施提供一种新的解决方案。  相似文献   

5.
《信息技术》2019,(1):66-70
针对传统K-means聚类中存在的一系列问题,文中提出了一种基于K-means聚类的改进算法。该算法首先利用K-means++聚类从数据中选择K个距离尽可能远的对象作为初始聚类中心,然后利用K-mediods聚类选择数据样本的中位数作为聚类中心的对象,最后与两步聚类结合。通过对几个常用UCI标准数据集进行仿真实验,结果表明该算法比传统算法更优。  相似文献   

6.
何臻  夏杰 《电子世界》2012,(4):60-61,64
本文先介绍了聚类算法及其分类,然后详细介绍了k-means算法和最大最小距离法。针对k-means算法的缺陷,提出了一种新的多中心聚类算法。运用最大最小距离法搜索最佳聚类中心。将原始数据集分割成小类后,用合并算法形成最终类。仿真实验表明:该算法能够自动获取k值,并有较高的聚类准确率。  相似文献   

7.
针对传统K-means算法对初始聚类中心选取的问题,提出了基于数据样本密度和距离来选取初始聚类中心的改进K-means算法,该算法保证了初始中心点集的第一点为确定的(最大密度点),在基于距离最远的其他中心点搜索过程中,得到的中心点也基本上是确定的,消除了初始中心点选择的随机性,同时保证了获得较高质量的初始中心点。理论分析和实验结果表明:改进的k-means算法是一种有效的入侵检测方法,根据此方法设计的入侵检测系统是有效可行的。  相似文献   

8.
针对雷达信号分选中常见的聚类数目难确定、数据簇形状识别、异常数据敏感等问题,提出了基于NeiMu(Neighboring Mutually)的雷达信号聚类分选算法。该算法首先以信号脉冲为点、各点间的欧氏距离为线构建距离矩阵,然后在进行干扰数据剔除的情况下选定合适k值完成聚类矩阵的构建,最后采取遍历聚类矩阵的方法输出聚类结果,在删除无效的聚类后实现了雷达信号的聚类分选。通过仿真可知该算法在选取合适k值的情况下具有极高的正确率,证明了其有效性和可靠性。  相似文献   

9.
传统的K-means算法要求事先给出聚类数k值,从而导致聚类质量的下降。本文提出一种基于聚类有效性函数IG的K-means算法,该函数定义为数据特征轴总长度的平方与最小类间距的比值,当比值达到最小时对应的值为最佳聚类数k。而且,与其它有效性函数比较,IG能高效处理簇密度不同的数据集。实验证明,改进算法提高了聚类质量。  相似文献   

10.
针对k-means算法需要人为给出聚类个数k、聚类结果严重依赖初始聚类中心的选等问题,提出一种基于数据场的k-means改进算法。该算法通过计算每个数据点的势值,根据聚类中心的势值比周围邻居的势值大,并与其它聚类中心有相对较大距离的特点,从而确定k个聚类中心;最后将其它数据点按k-means算法聚类。仿真实验表明,改进算法在不需要人为设定参数的情况下能准确找出聚类个数k以及初始聚类中心。  相似文献   

11.
高阶异构数据模糊联合聚类算法   总被引:1,自引:0,他引:1  
为了更有效地分析聚簇重叠部分高阶异构数据的聚簇结果,提出了一种高阶异构数据模糊联合聚类(HFCC)算法,该算法最小化每个特征空间中对象与聚簇中心的加权距离。推导出对象隶属度和特征权重的迭代更新公式,设计出聚类过程的迭代算法,并且从理论上证明了该迭代算法的收敛性。另外,通过泛化XB指标,提出适用于评估高阶异构数据聚类质量的指标GXB,用于判断聚簇数目。实验表明,HFCC算法能够有效探测数据内部隐藏的重叠聚簇结构,并且HFCC算法聚类效果明显优于5种有代表性的硬划分算法,此外GXB指标能够有效判定高阶异构数据的聚簇数目。  相似文献   

12.
基于聚类算法的红外图像伪彩色增强   总被引:3,自引:0,他引:3  
文中根据红外图像的特点,提出了一种基于K-均值聚类的红外图像伪彩色增强的新算法.该算法通过对红外图像灰度数据的统计学习,产生初始聚类中心,采用K-均值聚类算法对灰度进行聚类,并根据伪彩色编码的节点对聚类结果分段实现伪彩色的自适应分配.实验结果表明,该方法可增强红外图像的细节信息和层次感,具有更好的视觉效果.  相似文献   

13.
传统谱聚类算法在构造相似度矩阵时,高斯核函数参数选取的无规律性会对聚类结果造成严重影响。针对的这一缺陷,提出一种基于密度均值的谱聚类算法。与传统算法不同,该算法选取样本点到周围K个样本点的平均距离作为尺度参数,并引入样本点的密度信息,使得聚类结果更符合实际样本的分布。同时,由于相似矩阵能自适应不同的局部密度,使得该算法对样本的空间分布并不敏感。在不同类型数据集上的实验验证了算法的有效性和较高的鲁棒性。  相似文献   

14.
张艳肖 《信息技术》2011,(12):10-12,16
K-均值聚类对初始聚类中心的选取较敏感,容易陷入局部最优.将改进的遗传算法与K-均值聚类相结合,以优化聚类中心.在种群进化过程中,父代个体均从种群中适应度高的个体中选择,同时,根据个体适应度动态调节交叉概率和变异概率,避免早熟现象.文中采用改进的遗传算法,对学院网站服务器上的Web日志进行用户和页面聚类,达到了很好的聚类效果.  相似文献   

15.
提出一种适用于道路障碍物识别检测的聚类算法,该算法用来处理各向异性分布的激光点云数据。算法的基本思想是:针对点云空间分布的实时变化,提出在线学习合并阈值的层次聚类算法,以确定聚类数搜索范围上界和初始聚类中心的待选点集;然后提出距离乘积最大化方法,对待选点集进行初始化排序,既结合点云的空间密度分布改善了聚类结果,又克服了传统K-means算法初始聚类中心难确定的问题;最后选取Silhouette和距离评价函数为聚类有效性指标分析算法的聚类效果,确定最佳聚类数。用以上自适应、在线学习的算法对2.5D激光雷达采集的点云数据进行聚类,并与其他两种聚类算法进行实际试验比较发现,本算法可以正确分割大多数空间分布各异且相互连接的障碍物。  相似文献   

16.
K-means聚类算法研究综述   总被引:5,自引:0,他引:5  
总结评述了K-means聚类算法的研究现状,指出K-means聚类算法是一个NP难优化问题,无法获得全局最优。介绍了K-means聚类算法的目标函数、算法流程,并列举了一个实例,指出了数据子集的数目K、初始聚类中心选取、相似性度量和距离矩阵为K-means聚类算法的3个基本参数。总结了K-means聚类算法存在的问题及其改进算法,指出了K-means聚类的进一步研究方向。  相似文献   

17.
针对分布式多传感器航迹关联的特点,考虑采用K-means聚类的航迹关联算法。将来自各传感器的局部航迹与系统航迹进行关联,并将系统航迹作为初始聚类中心,避免了K-means算法本身依赖初始值的缺陷;提出将系统航迹与局部航迹的欧式距离以及其状态向量在1范数下的距离之和作为相似度测度;设定距离门限值,减少了极端数据对聚类结果的影响,并增加多义性处理。蒙特卡洛仿真实验表明,该算法在目标密集并且目标有交叉的情况下能以较小的代价得到较高的平均正确关联率。同时,该算法克服了最近邻域法的局部最优特性和关联正确率高度依赖特征阈值等局限性。  相似文献   

18.
通常的无线传感器分簇网络存在节点负载不均衡的问题。为均衡各节点能量消耗,延长网络生存周期,将K均值算法与遗传算法相结合,提出一种负载均衡的无线传感器网络路由算法,算法利用遗传算法的全局寻优能力以克服传统K均值算法的局部性和对初始中心的敏感性,实现了传感器网络节点自适应成簇与各节点负载均衡。仿真实验表明,该算法显著延长了网络寿命,相对于其他分簇路由算法,其网络生存时间延长了约43%。  相似文献   

19.
传统的用于Web日志聚类的算法大都需要用户指定聚类个数。提出了一种新的自适应聚类算法并对Web日志用户会话进行聚类。该算法基于凝聚聚类思想和划分聚类思想,用初始数据集中每2个会话之间的相异度作为距离的度量,合并距离小于一定阈值的两个会话以产生初始聚类,再根据一定的规则动态地合并距离最小的会话类或会话,算法的结果是产生自然的聚类。最后,通过比较会话聚类的内部距离和类间距离来验证算法的有效性。这种聚类算法的最大优点在于,他能够产生自动的聚类,而不需要用户事先指定需要产生的聚类个数,并且能有效识别孤立点。实验表明,这种聚类能够产生较高质量的聚类效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号