首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
近邻传播聚类(AP)方法是近年来出现的一种广受关注的聚类方法,在处理多类、大规模数据集时,能够在较短的时间得到较理想的结果,因此与传统方法相比具有很大的优势。但是对于一些聚类结构复杂的数据集,往往不能得到很好的聚类结果。通过分析数据的聚类特性,设计了一种可以根据数据结构自动调整参数的核函数,数据集在其映射得到的核空间中线性可分或几乎线性可分,对该核空间中的数据集进行近邻传播聚类,有效提高了AP聚类的精确度和速度。算法有效性分析以及仿真实验验证了所提算法在处理大规模复杂结构数据集上的性能优于原始AP算法。  相似文献   

2.
流形上的非线性判别K均值聚类   总被引:1,自引:1,他引:0  
高丽平  周雪燕  詹宇斌 《计算机应用》2011,31(12):3247-3251
为提高具有流形结构的高维数据的聚类性能,提出非线性判别K均值聚类算法(NDisKmeans)。该方法通过引入流形上的谱正则化技术,将数据的低维嵌入表示成数据流形上平滑函数的线性组合,然后通过最大化低维空间中聚类类间的散度与总体散度的比值,来实现对高维数据的聚类。还设计了一种收敛的迭代求解方法来求解最优组合系数矩阵和聚类赋值矩阵。NDisKmeans方法由于考虑了数据的流形结构,克服了判别K均值算法中线性映射的不足,从而提高了对高维数据聚类的性能。最后在数据集上的广泛实验表明,NDisKmeans方法能有效实现对高维数据的聚类。  相似文献   

3.
近邻传播算法在非凸形、密度不均匀的数据集上很难得到理想的聚类结果。为此,基于核聚类的思想,将数据集非线性地映射到高维空间,使数据集更加分离。利用共享最近邻的相似度度量方法,提出一种密度不敏感的近邻传播算法DIS-AP,以弥补原算法易受特征集维数和密度影响的缺点,从而有效解决数据集非凸和密度不均匀问题,拓宽算法的应用范围。仿真实验结果证明,DIS-AP算法具有更好的聚类性能。  相似文献   

4.
针对传统数据分析方法对高维数据进行聚类分析时存在的操作过程繁琐及准确率低等缺陷,提出基于曲线距离分析的嵌入式增强聚类算法(ECE-CDA).计算高维空间中数据点之间的成对曲线距离并由聚类引导将其映射到低维空间,构造权重函数保持局部拓扑结构不变性.该算法简化了数据分析过程,同时实现降维和聚类,可作为通用的高精度框架.在12个公共数据集上的实验结果表明,该算法能有效进行数据降维并大幅提高模型的聚类精度.  相似文献   

5.
近邻传播(Affinity Propagation,AP)聚类具有不需要设定聚类个数、快速准确的优点,但无法适应于大规模数据的应用需求。针对此问题,提出了分层近邻传播聚类算法。首先,将待聚类数据集划分为若干适合AP算法高效执行的子集,分别推举出各个子集的聚类中心;然后对所有子集聚类中心再次执行AP聚类,推举出整个数据集的全局聚类中心;最后根据与这些全局聚类中心的相似度对聚类样本进行划分,从而实现对大规模数据的高效聚类。在真实和模拟数据集上的实验结果均表明,与AP聚类和自适应AP聚类相比,该方法在保证较好聚类效果的同时,极大地降低了聚类的时间消耗。  相似文献   

6.
现有的径向布局可视化方法无法有效捕获高维数据的非线性结构.因此,文中提出基于维度扩展和重排的类圆映射可视化聚类方法.利用近邻传播聚类算法和多目标聚类可视化评价指标对高维数据进行维度扩展,然后对扩展后的高维数据进行维度相关性重排,最后利用类圆映射机制降维至二维可视化空间,实现高维数据有效可视化聚类.实验表明,文中提出的维度扩展和重排策略能有效提高类圆映射可视化方法聚类效果,其中的维度扩展策略也能显著提高其它径向布局可视化方法聚类效果,泛化性能较好.此外,相比同类方法,文中方法在可视化聚类准确度、拓扑保持、Dunn指数及效果上优势明显  相似文献   

7.
针对密度峰值快速聚类(CFSFDP)算法对不同数据集聚类效果的差异,利用谱聚类对密度峰值快速聚类算法加以改进,提出了一种基于谱分析的密度峰值快速聚类算法CFSFDP-SA。首先,将高维非线性的数据集映射到低维子空间上实现降维处理,将聚类问题转化为图的最优划分问题以增强算法对数据全局结构的适应性;然后,利用CFSFDP算法对处理后的数据集进行聚类。结合这两种聚类算法各自的优势,能进一步提升聚类算法的性能。在5个人工合成数据集(2个线性数据集和3个非线性数据集)与4个UCI数据库中真实数据集上的聚类结果显示,相比CFSFDP算法,CFSFDP-SA算法的聚类精度有一定提升,在高维数据集的聚类精度上最多提高了14%,对原始数据集的适应性更强。  相似文献   

8.
基于MapReduce的分布式近邻传播聚类算法   总被引:2,自引:0,他引:2  
随着信息技术迅速发展,数据规模急剧增长,大规模数据处理非常具有挑战性.许多并行算法已被提出,如基于MapReduce的分布式K平均聚类算法、分布式谱聚类算法等.近邻传播(affinity propagation,AP)聚类能克服K平均聚类算法的局限性,但是处理海量数据性能不高.为有效实现海量数据聚类,提出基于MapReduce的分布式近邻传播聚类算法——DisAP.该算法先将数据点随机划分为规模相近的子集,并行地用AP聚类算法稀疏化各子集,然后融合各子集稀疏化后的数据再次进行AP聚类,由此产生的聚类代表作为所有数据点的聚类中心.在人工合成数据、人脸图像数据、IRIS数据以及大规模数据集上的实验表明:DisAP算法对数据规模有很好的适应性,在保持AP聚类效果的同时可有效缩减聚类时间.  相似文献   

9.
仿射传播聚类是一种快速有效的聚类方法。但对高维数据进行聚类时,由于数据信息的重叠,聚类结果往往会有较大误差。针对这个问题,提出了把主元分析(PCA)和仿射传播(AP)聚类相结合的PCA-AP算法,在保留原变量绝大部分信息的情况下对数据进行降维处理,然后在低维空间中用仿射传播聚类的方法进行聚类。由于剔除了冗余信息,算法得到的分类结果更加准确。实验结果表明该算法是有效的。  相似文献   

10.
李森  刘希玉 《计算机应用研究》2012,29(11):4093-4096
针对高维数据的聚类问题,提出一种基于间隔Fisher分析(MFA)的半监督聚类算法。该算法首先使用已标记样本进行MFA映射,得到投影矩阵W后,再利用求得的投影方法对未标记样本进行降维;然后在低维空间引入基于约束的球形K-means(PCSKM)算法对降维后的数据进行半监督聚类,根据第一次的聚类结果,交替进行降维与聚类操作,直到算法收敛为止。该算法利用监督信息有效地集成了数据降维和半监督聚类。实验结果表明,该方法能够有效处理高维数据,同时能提高聚类性能。  相似文献   

11.
针对中文问题分类方法中特征向量维数过高导致处理速度过慢的问题,提出一种基于局部鉴别索引和支持向量聚类的中文问题分类方法。首先利用局部鉴别索引算法对原始高维问句数据集进行降维,将其映射到一个低维空间中,然后通过支持向量聚类算法对问句进行分类。在哈工大社会计算与信息检索研究中心的中文问题集上进行实验,实验结果证明了该方法的有效性,大类准确率87.6%,小类准确率72.5%,取得了较好的效果。  相似文献   

12.
提出了一种基于约束投影的近邻传播AP聚类算法。AP算法是在数据点相似度矩阵的基础上进行聚类的,很多传统的聚类方法都无法与其相媲美。但是,对于结构复杂的数据,AP算法往往得不到理想的结果。文中算法先对约束信息进行扩展,然后利用扩展的约束信息指导投影矩阵的获取,在低维空间中,利用约束信息对聚类结果进行修正。实验表明,文中算法与对比算法相比,时间性能更优,聚类效果更佳。  相似文献   

13.
基于测地线距离的广义高斯型Laplacian 特征映射   总被引:6,自引:0,他引:6  
传统的Laplacian 特征映射是基于欧氏距离的近邻数据点的保持,近邻的高维数据点映射到内在低维空间后仍为近邻点,高维数据点的近邻选取最终将影响全局低维坐标.将测地线距离和广义高斯函数融合到传统的Laplacian 特征映射算法中,首先提出了一种基于测地线距离的广义高斯型Laplacian 特征映射算法(geodesicdistance-based generalized Gaussian LE,简称GGLE),该算法在用不同的广义高斯函数度量高维数据点间的相似度时,获得的全局低维坐标呈现出不同的聚类特性;然后,利用这种特性进一步提出了它的集成判别算法,该集成判别算法的主要优点是:近邻参数K 固定,邻接图和测地线距离矩阵都只构造一次.在木纹数据集上的识别实验结果表明,这是一种有效的基于流形的集成判别算法.  相似文献   

14.
由于高维数据聚类的现实意义日益增强,而Parzen窗估计法仅对低维数据集聚类能获得良好的结果,随着维数增加,效率降低,因此对Parzen窗进行加权改进,通过多次仿真实验确定加权函数,将高维数据投射至低维空间,对其聚类,逐步投向高维空间,对结果矩阵进行优化处理,得到更为优良的聚类效果。  相似文献   

15.
传统的H-K聚类算法将层次聚类算法和k-means聚类算法有机结合起来,从而使得H-K聚类算法具有单个聚类算法所不具有的诸多优点。为了将H-K聚类算法更好地应用于对高维数据集的聚类中,以缓解维度灾难问题,本文应用PCA(主成分分析)方法对H-K算法进行改进,提出新的聚类算法PCAHK。该算法首先采用PCA方法,将高维数据投影到较低维空间中,再对降维后的数据进行H-K聚类。实验表明,在对高维数据集进行聚类时,与传统的H-K算法相比,PCAHK算法的性能明显提高。  相似文献   

16.
由于维数灾难的原因,高维空间的数据聚类是一个具有挑战性的问题. 本文提出了一种自适应子空间选择的方法来解决这一难题.该方法采用局部线性嵌入的方法将高维数据映射到低维子空间上,然后采用两步迭代的方法自适应的选择最具有判别力的子空间:1)固定子空间不变,用 -均值聚类的方法产生类别的标号;2)固定类别的标号不变,用线性判别分析的方法将样本映射到低维子空间进行子空间选择. 通过反复迭代,样本在低维子空间进行有效聚类而避免了维数灾难,同时子空间自适应的调整到全局最优.大量的实验结果表明,该方法聚类效果优于传统的 -均值聚类.最后指出该方法的不足和进一步的研究方向.  相似文献   

17.
可能性C-均值(PCM)聚类作为经典的基于原型的聚类方法,在处理高维数据集时性能骤降,无法检测出高维空间中嵌入的有效子空间。针对此不足,在PCM基础上引入子空间聚类机制,提出子空间可能性聚类算法SPC。该方法保留了PCM方法的优点,且对高维数据具有较好的适应性,能够有效检测各类所处的子空间。仿真实验验证了SPC算法的有效性。  相似文献   

18.
近邻传播算法(Affinity Propagation)是一种具有较高准确度的聚类算法,但是其具有较高的时间复杂度,且无法有效聚类结构松散数据,针对这两个问题,提出了一种基于MapReduce的半监督近邻传播算法(MR-SAP)。算法首先利用MapReduce编程框架,在各个数据节点上运行AP算法,得到局部的聚类中心,以及代表每一个局部聚类中心成为全局聚类中心可能性的决策系数,然后综合局部聚类中心进行全局的AP聚类,其中初始参考度的选取依据输入的决策系数,最后通过引入IGP聚类评价指标比较聚类效果,引导算法向结果最优方向运行。实验结果表明该算法在处理不同大小、不同类型数据集时均具有良好的效率和扩展性,且具有较高的聚类精度。  相似文献   

19.
李向丽  曹晓锋  邱保志 《自动化学报》2017,43(11):1962-1972
流形学习关注于寻找合适的嵌入方式将高维空间映射至低维空间,但映射子空间依然可能具有较高的维度,难以解决高维空间的数据挖掘任务.本文建立一种简单的矩阵模型判断数据点k近邻空间关于该点的对称性,并使用对称率进行边界提取,提出一种基于矩阵模型的高维聚类边界检测技术(Clustering boundary detection based on matrix model,MMC).该模型构造简单、直接、易于理解和使用.理论分析以及在人工合成和真实数据集的实验结果表明MMC算法能够有效地检测出低维和高维空间的聚类边界.  相似文献   

20.
通过学习数据集的低维流形结构,给出一种流形距离测度;结合成对约束信息,调整数据的相似度矩阵,将其作为近邻传播算法的输入,提出了基于流形距离的半监督近邻传播聚类算法(SAP-MD)。通过在UCI标准数据集上的仿真实验表明,SAP-MD算法相比于仅利用成对约束信息的聚类算法,在聚类性能上有很大提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号