首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 203 毫秒
1.
近邻传播(Affinity Propagation,AP)聚类具有不需要设定聚类个数、快速准确的优点,但无法适应于大规模数据的应用需求。针对此问题,提出了分层近邻传播聚类算法。首先,将待聚类数据集划分为若干适合AP算法高效执行的子集,分别推举出各个子集的聚类中心;然后对所有子集聚类中心再次执行AP聚类,推举出整个数据集的全局聚类中心;最后根据与这些全局聚类中心的相似度对聚类样本进行划分,从而实现对大规模数据的高效聚类。在真实和模拟数据集上的实验结果均表明,与AP聚类和自适应AP聚类相比,该方法在保证较好聚类效果的同时,极大地降低了聚类的时间消耗。  相似文献   

2.
为了使近邻传播(AP)聚类在高维空间中获得更好的聚类效果,该文提出一种基于谱分析的近邻传播聚类方法(Affinity Propagation based on Spectrum analyze,AP-SA)。首先,通过采用谱分析技术将分布在高维非线性的数据点集映射到几乎线性的子空间上,映射过程实现高维数据降至低维。最后,通过AP聚类算法对映射在低维空间上的数据进行聚类,从而提高了AP算法在高维空间上的聚类性能。仿真实验结果表明,该方法相比于传统AP算法,在低维数据中无明显的优势,但随着实验的数据集的样本规模与维数的增加,在高维数据中的该方法降低了聚类时间的同时,也保证了较好的聚类效果。  相似文献   

3.
基于MapReduce的分布式近邻传播聚类算法   总被引:2,自引:0,他引:2  
随着信息技术迅速发展,数据规模急剧增长,大规模数据处理非常具有挑战性.许多并行算法已被提出,如基于MapReduce的分布式K平均聚类算法、分布式谱聚类算法等.近邻传播(affinity propagation,AP)聚类能克服K平均聚类算法的局限性,但是处理海量数据性能不高.为有效实现海量数据聚类,提出基于MapReduce的分布式近邻传播聚类算法——DisAP.该算法先将数据点随机划分为规模相近的子集,并行地用AP聚类算法稀疏化各子集,然后融合各子集稀疏化后的数据再次进行AP聚类,由此产生的聚类代表作为所有数据点的聚类中心.在人工合成数据、人脸图像数据、IRIS数据以及大规模数据集上的实验表明:DisAP算法对数据规模有很好的适应性,在保持AP聚类效果的同时可有效缩减聚类时间.  相似文献   

4.
近邻传播算法在非凸形、密度不均匀的数据集上很难得到理想的聚类结果。为此,基于核聚类的思想,将数据集非线性地映射到高维空间,使数据集更加分离。利用共享最近邻的相似度度量方法,提出一种密度不敏感的近邻传播算法DIS-AP,以弥补原算法易受特征集维数和密度影响的缺点,从而有效解决数据集非凸和密度不均匀问题,拓宽算法的应用范围。仿真实验结果证明,DIS-AP算法具有更好的聚类性能。  相似文献   

5.
基于近邻传播算法的半监督聚类   总被引:31,自引:2,他引:29  
肖宇  于剑 《软件学报》2008,19(11):2803-2813
提出了一种基于近邻传播(affinity propagation,简称AP)算法的半监督聚类方法.AP是在数据点的相似度矩阵的基础上进行聚类.对于规模很大的数据集,AP算法是一种快速、有效的聚类方法,这是其他传统的聚类算法所不能及的,比如:K中心聚类算法.但是,对于一些聚类结构比较复杂的数据集,AP算法往往不能得到很好的聚类结果.使用已知的标签数据或者成对点约束对数据形成的相似度矩阵进行调整,进而达到提高AP算法的聚类性能.实验结果表明,该方法不仅提高了AP对复杂数据的聚类结果,而且在约束对数量较多时,该方法要优于相关比对算法.  相似文献   

6.
面向大规模数据集的近邻传播聚类   总被引:1,自引:0,他引:1       下载免费PDF全文
近邻传播聚类在计算过程中需构建相似度矩阵,该矩阵的规模随样本数急剧增长,限制了算法在大规模数据集上的直接应用。为此,提出一种改进的近邻传播聚类算法,利用数据点的局部分布,借鉴半监督聚类的思想构造稀疏化的相似度矩阵,并对聚类结果中的簇代表点再次或多次聚类,直至得到合适的簇划分。实验结果表明,该算法在处理能力和运算速度上优于原算法。  相似文献   

7.
谱嵌入聚类(SEC)算法要求样本满足流形假设,样本标签总是可以嵌入到一个线性空间中去,这为线性可分数据的谱嵌入聚类问题提供了新的思路,但该算法使用的线性映射函数不适用于处理高维非线性数据。针对这一问题,通过核化线性映射函数,建立了基于核函数的谱嵌入聚类(KSEC)模型,该模型既能解决线性映射函数不能处理非线性数据的问题,又实现了对高维数据的核降维。在真实数据集上的实验分析结果表明,使用所提算法后聚类正确率平均提高了13.11%,最高可提高31.62%,特别在高维数据上平均提高了16.53%,而且在算法关于参数的敏感度实验中发现算法的稳定性更好。所以改进后的算法对高维非线性数据具有很好的聚类效果,获得了比传统谱嵌入聚类算法更高的聚类准确率和更好的聚类性能。所提方法可以用于诸如遥感影像这类复杂图像的处理领域。  相似文献   

8.
近邻传播算法(Affinity Propagation)是一种具有较高准确度的聚类算法,但是其具有较高的时间复杂度,且无法有效聚类结构松散数据,针对这两个问题,提出了一种基于MapReduce的半监督近邻传播算法(MR-SAP)。算法首先利用MapReduce编程框架,在各个数据节点上运行AP算法,得到局部的聚类中心,以及代表每一个局部聚类中心成为全局聚类中心可能性的决策系数,然后综合局部聚类中心进行全局的AP聚类,其中初始参考度的选取依据输入的决策系数,最后通过引入IGP聚类评价指标比较聚类效果,引导算法向结果最优方向运行。实验结果表明该算法在处理不同大小、不同类型数据集时均具有良好的效率和扩展性,且具有较高的聚类精度。  相似文献   

9.
针对原始的仿射传播(affinity propagation,AP)聚类算法难以处理多代表点聚类,以及空间和时间开销过大等问题,提出了快速多代表点仿射传播(multi-exemplar affinity propagation using fast reduced set density estimator,FRSMEAP)聚类算法。该算法在聚类初始阶段,引入快速压缩集密度估计算法(fast reduced set density estimator,FRSDE)对大规模数据集进行预处理,得到能够充分代表样本属性的压缩集;在聚类阶段,使用多代表点仿射传播(multi-exemplar affinity propagation,MEAP)聚类算法,获得比AP更加明显的聚类决策边界,从而提高聚类的精度;最后再利用K-邻近(K-nearest neighbor,KNN)算法分配剩余点得到最终的数据划分。在人工数据集和真实数据集上的仿真实验结果表明,该算法不仅能在大规模数据集上进行聚类,而且具有聚类精度高和运行速度快等优点。  相似文献   

10.
黄德才  钱潮恺 《计算机科学》2015,42(Z11):55-57, 71
针对近邻传播聚类算法不能处理混合属性数据集的问题,提出了一种新的距离度量测度,并将其应用到近邻传播聚类算法中,提出了一种基于维度属性距离的混合属性近邻传播聚类算法。与传统聚类算法不同的是,该算法不需要计算虚拟的中心点,同时考虑了数据集整体分布对聚类结果的影响。将算法在UCI数据库的2个混合属性数据集上进行验证,同时对比了经典的K-Prototypes算法以及K-Modes算法。实验结果表明,改进后的算法具有更好的聚类质量以及执行效率,算法的优越性得到了验证。  相似文献   

11.
基于混合核函数的可能性C-均值聚类算法   总被引:1,自引:0,他引:1  
杭欣  李雷 《计算机应用研究》2012,29(8):2852-2853
针对传统的模糊C-均值算法对于非球形分布的数据聚类效果不理想且易受到噪声数据的影响,利用可能性C-均值算法具有良好的抗噪声性能,将混合核函数引入到该算法中,提出了一种基于混合核函数的可能性C-均值(HKPCM)聚类算法。该算法将原空间的待分类样本映射到一个高维的特征空间(核空间)中,使得样本变得线性可分,然后在核空间中进行聚类。实验结果证实了HKPCM算法的可行性和有效性。  相似文献   

12.
核聚类算法   总被引:112,自引:0,他引:112  
该文提出了一种用于聚类分析的核聚类方法,通过利用Mercer核,作者把输入空间的样本映射到高维特征空间后,在特征空间中进行聚类,由于经过了核函数的映射,使原来没有显现的特征突出来,从而能够更好地聚类,该核聚类方法在性能上比以典的聚类算法有较大的改进,具有更快的收敛速度以及更为准确的聚类,仿真实验的结果证实了核聚类方法的可行性和有效性。  相似文献   

13.
特征空间属性加权混合C均值模糊核聚类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
可能性聚类算法(PCM)通过引入可能隶属关系来提高聚类中心免于噪声干扰的能力,但是其往往趋向找到相同的集群。为了克服PCM算法的缺陷,PFCM算法同时利用隶属度与可能性把数据点划分到不同的集群中。提高了算法的抗噪能力。但PFCM算法对发现大小不相等的集群并不十分理想。因此提出了一种特征空间属性加权混合C均值模糊核聚类算法WKFM,该方法充分考虑了属性间的不平衡性,通过利用优化选取核参数的核函数把在原始空间中非线性可分的集群转化为高维空间中同质集群。实验结果表明,该算法能更好地发现含有噪音数据集的聚类中心,获得数据集质量更好的划分。  相似文献   

14.
王亮  王士同 《计算机工程》2012,38(1):148-150
针对样本间的不均衡性,提出一种基于成对约束的动态加权半监督模糊核聚类算法。在传统模糊聚类算法中加入半监督学习机制,通过Mercer核将原数据空间映射到特征空间,为特征空间中的每个向量分配一个动态权值,由此得到新的目标函数,并结合一种简单的核参数选择方法实现数据分类。理论分析和实验结果表明,与模糊核聚类算法及成对约束的竞争群算法相比,该算法具有更好的聚类效果。  相似文献   

15.
核向量机可以高效学习大样本数据集,却有泛化能力低的缺陷.针对已有参数C选择算法缺乏启发性以及选取困难的不足,本文在分析了核聚类算法和距离比较算法的基础之上,提出基于核聚类的相对距离比较方法,该算法利用核聚类算法在特征空间对样本点进行聚类分簇,然后根据样本点到簇心相对距离的比值,得到参数C.本文在理论和实验两个方面,证明该算法有效地选择参数C,从而提高核支持向量机算法的泛化能力.  相似文献   

16.
基于核的非凸数据模糊K-均值聚类研究   总被引:4,自引:4,他引:0  
将模糊K-均值聚类算法与核函数相结合,采用基于核的模糊K-均值聚类算法来进行聚类。核函数隐含地定义了一个非线性变换,将数据非线性映射到高维特征空间来增加数据的可分性。该算法能够解决模糊K-均值聚类算法对于非凸形状数据不能正确聚类的问题。  相似文献   

17.
提出一种新的鲁棒核模糊C-均值聚类算法.将连通核与AFCM(Alternative fuzzy C-means)聚类算法相结合,给出基于连通核的核AFCM:CRKFCM(Connectivity kernel based robust fuzzy C-means).CRKFCM一方面有效地利用了连通核,可以对任意形状数据聚类,且避免了核参数的选取问题;另一方面在特征空间使用非欧氏距离,可以有效地处理含噪声数据的聚类问题.实验结果表明,与原有的AFCM和连通核硬C-均值(CKHCM,Connectivity kernel based hard C-means)聚类算法相比,新算法在处理噪声环境中的任意形状聚类问题方面更有效.  相似文献   

18.
范成礼  雷英杰 《计算机应用》2011,31(9):2538-2541
针对现有的直觉模糊聚类算法性能的问题,提出一种基于核的直觉模糊聚类算法(IFKCM)。该算法引入高斯核函数,将直觉模糊集合从原始观察空间映射到高维特征空间,减少了计算时间且提高了聚类精度;同时改进了现有的直觉模糊聚类算法中的概率型约束条件,使其对噪声和野值点具有较好的鲁棒性。最后,通过实际数据和人工数据与常用聚类算法进行了对比实验,结果表明该算法较大幅度地提高了直觉模糊聚类算法的性能。  相似文献   

19.
李飞  杜亮  任超宏 《计算机应用》2019,39(4):1021-1026
非负矩阵分解(NMF)算法仅能用于对原始非负数据寻找低秩近似,而概念分解(CF)算法将矩阵分解模型扩展到单个非线性核空间,提升了矩阵分解算法的学习能力和普适性。针对无监督环境下概念分解面临的如何设计或选择合适核函数这一问题,提出基于全局融合的多核概念分解(GMKCF)算法。同时输入多种候选核函数,在概念分解框架下基于全局线性权重融合对它们进行学习,以得出质量高稳定性好的聚类结果,并解决概念分解模型面临核函数选择的问题。采用交替迭代的方法对新模型进行求解,证明了算法的收敛性。将该算法与基于核的K-均值(KKM)、谱聚类(SC)、KCF(Kernel Concept Factorization)、Coreg(Co-regularized multi-view spectral clustering)、RMKKM(Robust Multiple KKM)在多个真实数据库上的实验结果表明,该算法在数据聚类方面优于对比算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号