首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
陶志勇  刘晓芳  王和章 《计算机应用》2018,38(12):3433-3437
针对高斯混合模型(GMM)聚类算法对初始值敏感且容易陷入局部极小值的问题,利用密度峰值(DP)算法全局搜索能力强的优势,对GMM算法的初始聚类中心进行优化,提出了一种融合DP的GMM聚类算法(DP-GMMC)。首先,基于DP算法寻找聚类中心,得到混合模型的初始参数;其次,采用最大期望(EM)算法迭代估计混合模型的参数;最后,根据贝叶斯后验概率准则实现数据点的聚类。在Iris数据集下,DP-GMMC聚类准确率可达到96.67%,与传统GMM算法相比提高了33.6个百分点,解决了对初始聚类中心依赖的问题。实验结果表明,DP-GMMC对低维数据集有较好的聚类效果。  相似文献   

2.
个体行为数据聚类的双重混合高斯模型算法   总被引:1,自引:0,他引:1  
戴涛  骆科东  李春平 《计算机应用》2004,24(8):44-46,49
传统的基于概率的混合模型算法可以很好地解决个体行为数据的聚类问题,但是对于具有“多峰值”特征的行为数据则需要更精巧的方法。提出双重混合高斯模型算法(DualMGM)扩展了普通混合模型的概念,解决了多峰值特征的个体行为数据的聚类问题。DualMGM的算法复杂度是随数据量线性增长的,具有很好的可扩展性。  相似文献   

3.
一种快速、鲁棒的有限高斯混合模型聚类算法   总被引:1,自引:0,他引:1  
有限混合模型聚类是一种基于概率模型的有效聚类方法。针对高斯混合模型的聚类算法,分别对模型的成分混合系数及样本所属成分的概率系数施加熵惩罚算子,实现对模型成分数的两级控制,快速消除无效成分,使算法能在很少的迭代次数内收敛到确定解。传统算法对初始值(成分数目c需事先指定)的设置非常敏感,容易导致EM算法陷入局部最优解或收敛到解空间的边界,而文中的算法对初始值的设定没有特殊的要求,实验证明其具有很好的鲁棒性。  相似文献   

4.
密度峰值聚类算法在处理密度不均匀的数据集时易将低密度簇划分到高密度簇中或将高密度簇分为多个子簇,且在样本点分配过程中存在误差传递问题。提出一种基于相对密度的密度峰值聚类算法。引入自然最近邻域内的样本点信息,给出新的局部密度计算方法并计算相对密度。在绘制决策图确定聚类中心后,基于对簇间密度差异的考虑,提出密度因子计算各个簇的聚类距离,根据聚类距离对剩余样本点进行划分,实现不同形状、不同密度数据集的聚类。在合成数据集和真实数据集上进行实验,结果表明,该算法的FMI、ARI和NMI指标较经典的密度峰值聚类算法和其他3种聚类算法分别平均提高约14、26和21个百分点,并且在簇间密度相差较大的数据集上能够准确识别聚类中心和分配剩余的样本点。  相似文献   

5.
有限混合密度模型及遥感影像EM聚类算法   总被引:3,自引:0,他引:3       下载免费PDF全文
遥感信息是地球表层信息的综合反映,由于地球表层系统的复杂性和开放性,地表信息是多维的、无限的、遥感信息传递过程中的局限性以及遥感信息之间的复杂相关性,决定了遥感信息其结果的不确定性和多解性,遥感信息具有一定的统计特性,同时又具有高度的随机性和复杂性,在特征空间中往往表现为混合密度分布,针对遥感信息这种统计分布的复杂性,提出了有限混合密度的期望最大(EM)分解模型,该模型假设总体分布可分解为有限个参数化的密度分布,通过EM迭代计算可估计出各密度分布的最大似然参数集;将有限混合EM聚类算法应用于遥感影像的聚类分析中,并与传统统计聚类方法进行了比较,比较结果表明,其对复杂地物的区分具有优势,另外在融合专家知识、初始化等方面具有扩展能力。  相似文献   

6.
密度峰值聚类算法综述   总被引:1,自引:0,他引:1  
密度峰值聚类(density peak, DPeak)算法是一种简单有效的聚类算法,它可将任意维度数据映射成2维,在降维后的空间中建构出数据之间的层次关系,可以非常容易地从中挑选出密度高、且与其他密度更高区域相隔较远的数据点.这些点被称为密度峰值点,可以用来作为聚类中心.根据建构好的层次关系,该算法提供了2种不同的方式完成最后聚类:一种是与用户交互的决策图,另一种是自动化方式.跟踪了DPeak近年来的发展与应用动态,对该算法的各种改进或变种从以下3方面进行了总结和梳理:首先,介绍了DPeak算法原理,对其在聚类算法分类体系中的位置进行了讨论.将其与5个主要的聚类算法做了比较之后,发现DPeak与均值漂移聚类算法(mean shift)有诸多相似之处,因而认为其可能为mean shift的一个特殊变种.其次,讨论了DPeak的几个不足之处,如复杂度较高、自适应性不足、精度低和高维数据适用性差等,将针对这些缺点进行改进的相关算法做了分类讨论.此外,梳理了DPeak算法在不同领域中的应用,如自然语言处理、生物医学应用、光学应用等.最后,探讨了密度峰值聚类算法所存在的问题及挑战,同时对进一步的工作进行展望.  相似文献   

7.
针对快速搜索和发现密度峰值聚类(CFSFDP)算法需人工在决策图上选择聚类中心的问题,提出一种基于密度峰值和密度聚类的集成算法。首先,借鉴CFSFDP思想,将局部密度最大的数据作为第一个中心;接着,从该中心点出发采用一种利用Warshall算法求解密度相连改进的基于密度的噪声应用空间聚类(DBSCAN)算法进行聚类,得到第一个簇;最后,在尚未被划分的数据中找出最大局部密度的数据,将它作为下一个簇的中心后再次采用上述算法进行聚类,直到所有数据被聚类或有部分数据被视为噪声。所提算法既解决了CFSFDP选择中心需人工干预的问题,又优化了DBSCAN算法,即每次迭代都是从当前最好的点(局部密度最大的点)出发寻找簇。通过可视化数据集和非可视化数据集与经典算法(CFSFDP、DBSCAN、模糊C均值(FCM)算法和K均值(K-means)算法)的对比实验结果表明,所提算法聚类效果更好,准确率更高,优于对比算法。  相似文献   

8.
选择合适的聚类数和准确划分类间重叠的数据是聚类分析领域2个被广泛研究的问题.提出了一个基于高斯混合模型的层次聚类算法(HCGMM),该算法基于重叠度的衡量,而且不需要预先指定聚类数,能够很好地解决以上两个问题.算法根据高维空间中混合模型每2个组成成分之间的重叠情况自动运行或停止,从而准确划分类间重叠的数据,并自动确定聚类数.最后,通过标准的数据的测试,以及通过把它应用于不同类型的真实彩色图像分割表明,该算法是有效的,而且对噪声影响不敏感.把它和其他层次算法进行比较和分析,以证明该算法的优越性.  相似文献   

9.
王军  周凯  程勇 《计算机应用》2019,39(2):403-408
密度峰值聚类(DP)算法是一种新的基于密度的聚类算法,当它处理的单个聚类包含多个密度峰值时,会将每个不同密度峰值视为潜在聚类中心,以致难以在数据集中确定正确数量聚类,为此,提出一种混合的密度峰值聚类算法C-DP。首先,以密度峰值点为初始聚类中心将数据集划分为子簇;然后,借鉴代表点层次聚类算法(CURE),从子簇中选取分散的代表点,将拥有最小距离的代表点对的类进行合并,引入参数收缩因子以控制类的形状。仿真实验结果表明,在4个合成数据集上C-DP算法比DP算法聚类效果更好;在真实数据集上的Rand Index指标对比表明,在数据集S1上,C-DP算法比DP算法性能提高了2.32%,在数据集4k2_far上,C-DP算法比DP算法性能提高了1.13%。由此可见,C-DP算法在单个类簇中包含多密度峰值的数据集中能提高聚类的准确性。  相似文献   

10.
CFSFDP(Clustering by Fast Search and Find of Density Peaks)是一种新的基于密度的聚类算法。该算法可以对非球形分布的数据聚类,有待调节参数少、聚类速度快等优点。但是对于类簇间密度相差较大的数据,该算法容易遗漏密度较小的类簇而影响聚类的准确率。针对这一问题,提出了基于密度比例峰值聚类算法即R-CFSFDP。该算法将密度比例引入到CFSFDP中,通过计算样本数据的密度比峰值来提高数据中密度较小类簇的辨识度,进而提升整体聚类的准确率。基于9个常用测试数据集(2个人工合成数据集,7个UCI数据集)的聚类实验结果表明,对于类簇间密度相差较大和类簇形状复杂的数据聚类问题,R-CFSFDP能够使得类簇中心更加清晰、易确定,聚类结果更好。  相似文献   

11.
密度峰值聚类算法(density peaks clustering algorithm, DPC)是2014年提出的一种新型聚类分析算法,它基于聚类中心局部密度大以及与密度更大点之间的距离较远两大特点绘制决策图寻找聚类中心,从而得到任意形状的簇.但在寻找聚类中心的过程中,求解局部密度以及高密度距离属性都依赖于相似度矩阵的计算,计算复杂度较高,限制了密度峰值聚类算法在大规模数据集中的应用.针对此不足,提出基于网格筛选的密度峰值聚类算法(density peaks clustering algorithm based on grid screening, SDPC),根据数据的不均匀分布,使用网格化方法去除部分密度稀疏的点,然后再使用密度峰值聚类算法中决策图的方法选取聚类中心,可以在保证聚类准确性的基础上有效降低计算复杂度.理论分析和实验测试表明:基于网格筛选的密度峰值聚类算法不仅可以对大规模数据集进行正确的聚类,还极大地降低了计算复杂度.  相似文献   

12.
针对密度峰值聚类算法(Density Peaks Clustering,DPC)需要人为指定截断距离d c,以及局部密度定义简单和一步分配策略导致算法在复杂数据集上表现不佳的问题,提出了一种基于自然最近邻的密度峰值聚类算法(Density Peaks Clustering based on Natural Nearest Neighbor,NNN-DPC)。该算法无需指定任何参数,是一种非参数的聚类方法。该算法首先根据自然最近邻的定义,给出新的局部密度计算方法来描述数据的分布,揭示内在的联系;然后设计了两步分配策略来进行样本点的划分。最后定义了簇间相似度并提出了新的簇合并规则进行簇的合并,从而得到最终聚类结果。实验结果表明,在无需参数的情况下,NNN-DPC算法在各类数据集上都有优秀的泛化能力,对于流形数据或簇间密度差异大的数据能更加准确地识别聚类数目和分配样本点。与DPC、FKNN-DPC(Fuzzy Weighted K-nearest Density Peak Clustering)以及其他3种经典聚类算法的性能指标相比,NNN-DPC算法更具优势。  相似文献   

13.
徐晓  丁世飞  丁玲 《软件学报》2022,33(5):1800-1816
密度峰值聚类(density peaks clustering, DPC)算法是聚类分析中基于密度的一种新兴算法, 该算法考虑局部密度和相对距离绘制决策图, 快速识别簇中心, 完成聚类. DPC具有唯一的输入参数, 且无需先验知识, 也无需迭代. 自2014年提出以来, DPC引起了学者们的极大兴趣, 并得到了快速发展...  相似文献   

14.
经典[K]-Means算法不能有效处理非球型数据集的聚类问题,且聚类目标数需预先指定。SMCL(Self-adaptive Multiprototype-based Competitive Learning)算法是一种[K]-Means的改进算法,它引入Multi-Prototypes机制,并将距离相近的Prototypes所代表的样本簇融合成聚类簇。在SMCL算法基础上提出DP-SMCL(Density Peak-SMCL)算法,使用密度峰值聚类算法确定初始聚类中心集,借助1-D高斯混合概率密度模型合并以Prototypes为中心的相近子簇来获得精确聚类结果。实验结果表明,DP-SMCL算法可应用于非球型数据集聚类,且能自动确认聚类的目标类别数,相比于[K]-Means和DBSCAN(Density-Based Spatial Clustering of Applications with Noise)等经典聚类算法能够获得更加准确的聚类结果。同时,与SMCL算法相比,DP-SMCL可以快速完成初始Prototypes的选定,显著提升算法准确率和执行效率。  相似文献   

15.
丁世飞  徐晓  王艳茹 《软件学报》2020,31(11):3321-3333
密度峰值聚类(clustering by fast search and find of density peaks,简称DPC)是一种基于局部密度和相对距离属性快速寻找聚类中心的有效算法.DPC通过决策图寻找密度峰值作为聚类中心,不需要提前指定类簇数,并可以得到任意形状的簇聚类.但局部密度和相对距离的计算都只是简单依赖基于距离度量的相似度矩阵,所以在复杂数据上DPC聚类结果不尽如人意,特别是当数据分布不均匀、数据维度较高时.另外,DPC算法中局部密度的计算没有统一的度量,根据不同的数据集需要选择不同的度量方式.第三,截断距离dc的度量只考虑数据的全局分布,忽略了数据的局部信息,所以dc的改变会影响聚类的结果,尤其是在小样本数据集上.针对这些弊端,提出一种基于不相似性度量优化的密度峰值聚类算法(optimized density peaks clustering algorithm based on dissimilarity measure,简称DDPC),引入基于块的不相似性度量方法计算相似度矩阵,并基于新的相似度矩阵计算样本的K近邻信息,然后基于样本的K近邻信息重新定义局部密度的度量方法.经典数据集的实验结果表明,基于不相似性度量优化的密度峰值聚类算法优于DPC的优化算法FKNN-DPC和DPC-KNN,可以在密度不均匀以及维度较高的数据集上得到满意的结果;同时统一了局部密度的度量方式,避免了传统DPC算法中截断距离dc对聚类结果的影响.  相似文献   

16.
《软件》2017,(4):85-90
基于密度的聚类算法(Density Peak Clustering,DPC)广泛使用在处理非球形数据集的聚类问题,算法使用较少的参数就能够实现数据集的处理。但该算法存在这样一些的不足:首先,全局变量的设定没有考虑数据的局部结构,特别是当不同类别的局部密度差别很大的情况下,容易忽略一些密度较小的类别,聚类效果不理想。其次,DPC提出了一种通过决策图来人工选取聚类中心点的方法,这也是DPC算法在人工智能数据分析的一个重大缺陷。为此,本文提出了基于K近邻的模糊密度峰值聚类算法,算法针对这两方面的不足进行了改进。最后本文使用人工数据集和UCI数据集进行了实验,实验结果表明本文所提出的算法,在不通过人工选取聚类中心的情况下,能够正确地找出类别个数,并且保持着较高的聚类精确度,验证了算法的有效性。  相似文献   

17.
聚类集成的目的是为了提高聚类结果的准确性、稳定性和鲁棒性.通过集成多个基聚类结果可以产生一个较优的结果.本文提出了一个基于密度峰值的聚类集成模型,主要完成三个方面的工作: 1)在研究已有的各聚类集成算法和模型后发现各基聚类结果可以用密度表示; 2)使用改进的最大信息系数(Rapid computation of the maximal information coefficient,RapidMic)表示各基聚类结果之间的相关性,使用这种相关性来衡量原始数据在经过基聚类器聚类后相互之间的密度关系; 3)改进密度峰值(Density peaks,DP)算法进行聚类集成.最后,使用一些标准数据集对所设计的模型进行评估.实验结果表明,相比经典的聚类集成模型,本文提出的模型聚类集成效果更佳.  相似文献   

18.
刘奕志  程汝峰  梁永全 《计算机科学》2018,45(2):125-129, 146
基于加权K近邻的密度峰值发现算法(FKNN-DPC)是一种简单、高效的聚类算法,能够自动发现簇中心,并采用加权K近邻的思想快速、准确地完成对非簇中心样本的分配,在各种规模、任意维度、任意形状的数据集上都能得到高质量的聚类结果,但其样本分配策略中的权重仅考虑了样本间的欧氏距离。文中提出了一种基于共享近邻的相似度度量方式,并以此相似度改进样本分配策略,使得样本的分配更符合真实的簇归属情况,从而提高聚类质量。在UCI真实数据集上进行实验,并将所提算法与K-means,DBSCAN,AP,DPC,FKNN-DPC等算法进行对比,验证了其有效性。  相似文献   

19.
目前,大多数多目标进化算法采用为单目标优化所设计的重组算子.通过证明或实验分析了几个典型的单目标优化重组算子并不适合某些多目标优化问题.提出了基于分解技术和混合高斯模型的多目标优化算法(multiobjective evolutionary algorithm based on decomposition and mixture Gaussian models,简称MOEA/D-MG).该算法首先采用一个改进的混合高斯模型对群体建模并采样产生新个体,然后利用一个贪婪策略来更新群体.针对具有复杂Pareto前沿的多目标优化问题的测试结果表明,对给定的大多数测试题,该算法具有良好的效果.  相似文献   

20.
密度峰值聚类(DPC)是近年来提出的一种新的密度聚类算法,算法的核心是基于局部密度和相对距离,通过画出决策图,人为选定聚类中心,进而完成聚类.DPC算法利用截断距离计算局部密度,本质上只考虑了周围近邻节点的数量,且算法采用单步分配策略,一定程度上限制了算法对任意数据集的计算精度和有效性.针对上述问题,提出基于二阶k近邻...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号