共查询到18条相似文献,搜索用时 375 毫秒
1.
基于近邻传播算法的半监督聚类 总被引:31,自引:2,他引:29
提出了一种基于近邻传播(affinity propagation,简称AP)算法的半监督聚类方法.AP是在数据点的相似度矩阵的基础上进行聚类.对于规模很大的数据集,AP算法是一种快速、有效的聚类方法,这是其他传统的聚类算法所不能及的,比如:K中心聚类算法.但是,对于一些聚类结构比较复杂的数据集,AP算法往往不能得到很好的聚类结果.使用已知的标签数据或者成对点约束对数据形成的相似度矩阵进行调整,进而达到提高AP算法的聚类性能.实验结果表明,该方法不仅提高了AP对复杂数据的聚类结果,而且在约束对数量较多时,该方法要优于相关比对算法. 相似文献
2.
针对高维数据的聚类问题,提出一种基于间隔Fisher分析(MFA)的半监督聚类算法。该算法首先使用已标记样本进行MFA映射,得到投影矩阵W后,再利用求得的投影方法对未标记样本进行降维;然后在低维空间引入基于约束的球形K-means(PCSKM)算法对降维后的数据进行半监督聚类,根据第一次的聚类结果,交替进行降维与聚类操作,直到算法收敛为止。该算法利用监督信息有效地集成了数据降维和半监督聚类。实验结果表明,该方法能够有效处理高维数据,同时能提高聚类性能。 相似文献
3.
半监督聚类能利用少量标记数据来提高聚类算法性能,但大部分文本聚类算法无法直接应用成对约束等先验信息。针对文本数据高维稀疏的特点,提出了一种半监督文本聚类算法。将成对约束信息扩展后嵌入文档相似度矩阵,在此基础上根据已划分与未划分文档之间的统计信息逐步找出剩余未划分文本集合中密集的且与已划分聚类中心集合相似度较小的K个初始聚类中心集合,然后将剩余的相对较难区分的文档结合成对约束限制信息划分到K个初始聚类中心集合,最后通过融合成对约束违反惩罚的收敛准则函数对聚类结果进行进一步优化。算法在聚类过程中自动确定初始聚类中心集合,避免了K均值算法对初始聚类中心选择的敏感性。在几个中英文数据集上的实验结果表明,所提算法能有效地利用少量的成对约束先验信息提高聚类效果。 相似文献
4.
基于成对约束的判别型半监督聚类分析 总被引:10,自引:1,他引:9
现有一些典型的半监督聚类方法一方面难以有效地解决成对约束的违反问题,另一方面未能同时处理高维数据.通过提出一种基于成对约束的判别型半监督聚类分析方法来同时解决上述问题.该方法有效地利用了监督信息集成数据降维和聚类,即在投影空间中使用基于成对约束的K均值算法对数据聚类,再利用聚类结果选择投影空间.同时,该算法降低了基于约束的半监督聚类算法的计算复杂度,并解决了聚类过程中成对约束的违反问题.在一组真实数据集上的实验结果表明,与现有相关半监督聚类算法相比,新方法不仅能够处理高维数据,还有效地提高了聚类性能. 相似文献
5.
与无监督聚类相比,半监督聚类是利用一部分先验信息来更好地挖掘和理解数据的内在结构,并紧密遵从用户的偏好。现有的典型半监督聚类算法仅仅适合于低维数据,文中提出一种新颖的基于判别分析的半监督聚类算法来解决高维数据聚类问题。新算法首先使用主成分分析来投影高维数据,进一步在投影空间中,使用基于球形K均值聚类算法对数据聚类;然后利用聚类结果,使用线性判别分析降维输入空间数据;最后在投影空间中对数据再次聚类。在一组真实数据集上的实验表明,所提出的算法不仅可以有效地处理高维数据,还提高了聚类性能。 相似文献
6.
近邻传播(AP)算法是一种新提出的聚类算法,是在数据点的相似度矩阵的基础上进行聚类,通过数据点之间交换信息,最后得到聚类结果。提出了基于互近邻一致性近邻传播算法,即KMNC-AP算法,该算法利用互近邻一致性调整数据点之间的相似度,进而提高聚类效率和精确度。实验结果表明,该算法在处理能力和运算速度上优于原算法。 相似文献
7.
8.
9.
针对最小二乘回归子空间聚类算法存在的数据局部相关性信息缺失、系数矩阵稀疏性不足的缺点,提出局部约束加强的最小二乘回归子空间聚类算法.在原始的最小二乘回归子空间聚类算法的基础上加入数据局部相关性约束,使表示系数矩阵的块对角性质更明显.同时,提出相似度矩阵构造方法,有效提高类内相似度,降低类间相似度.实验表明文中算法可以有效提高聚类的精确度,从而验证算法有效可行. 相似文献
10.
现有的半监督聚类集成方法能利用先验信息,使集成的准确性、鲁棒性和稳定性得到提高,但在集成阶段加入成对约束信息时,只考虑了给定的约束信息而忽视了约束点与被约束点的邻域点之间的关系.针对此问题,提出了一种基于数据相关性的半监督模糊聚类集成方法.该方法首先利用半监督模糊聚类算法建立集成信息矩阵,并将其转换为相似性矩阵;然后,利用已知的约束信息及约束点与被约束点的邻域点之间的关系来修改相似性矩阵;最后,利用图划分算法得到最终的聚类结果.真实数据上的实验结果表明,提出的方法可以有效提高聚类质量. 相似文献
11.
12.
13.
基于k最近邻网络的数据聚类算法 总被引:1,自引:0,他引:1
聚类研究在数据挖掘研究领域中占有十分重要的地位。虽然目前已有很多数据聚类算法,但精度仍不够理想。文中提出一个基于结构化相似度的网络聚类算法(SSNCA),试图从网络聚类角度进一步提高数据聚类精度。具体解决方案是,将待聚类的向量数据集转化为k最近邻网络,并用SSNCA对该网络进行聚类。将SSNCA与c-Means、仿射传播进行比较,实验表明文中算法得到的目标函数稍差,但聚类精度要明显高于这两个算法。 相似文献
14.
考虑无线传感网中数据采集特点和能量约束性,将分簇路由策略融合到压缩感知采样中,提出了一种融合K均值分簇MST路由的压缩采样算法.算法采用稀疏投影矩阵以减小投影矩阵与稀疏基之间的相关度,利用K均值分簇MST(Mini?mum Spanning Tree)机制构造数据融合树,在保证数据重构质量的基础上减少网络数据传输量.仿真结果表明,算法可以提高网络能量使用效率,同时可以适应各种规模的无线传感网. 相似文献
15.
分析网络群落划分的GN聚类和模式识别中AP聚类两种算法的设计思想和特点;以图书借阅记录为例构建了顾客聚类的数据集,进行了两种算法的聚类比较。研究表明,两种算法从不同角度揭示了顾客群体的结构特征,GN聚类结果与顾客的宏观特征分类相接近,而AP算法结果反映出顾客需求的分布特征。探讨了算法设计原则对实验结果产生的影响。这些工作可为聚类算法的设计改进和顾客行为的数据挖掘等研究提供一定的参考。 相似文献
16.
在处理数据特征提取问题时,已有的基于非负矩阵分解的不完整多视角聚类算法对局部特征的提取不够准确.针对此问题,文中提出基于正交约束的分块不完整多视角聚类(CIMVCO).利用非负矩阵分解获得所有视角的潜在特征矩阵,通过加入正交约束得到更好的局部特征.对于各个视角的缺失样本,CIMVCO给予较小的权重以减小缺失数据的影响.为了解决大规模数据的聚类问题,CIMVCO逐块处理数据以减少内存需求和处理时间.在Reuters和Digit数据集上的实验验证CIMVCO的有效性. 相似文献
17.
18.
基于粒子群优化的带障碍约束空间聚类分析 总被引:1,自引:0,他引:1
聚类分析是空间数据挖掘的主要方法之一.传统聚类算法忽略了真实世界中许多约束条件的存在,而约束条件的存在会影响聚类结果的合理性.在分析K中心聚类方法易陷入局部极小值和对初始值敏感的基础上,提出了一种新的聚类方法--基于粒子群优化的带障碍约束空间聚类方法.实验结果表明,该聚类方法不仅使得聚类结果更具实际意义,而且在全局寻优能力方面明显优于K中心聚类方法,且有较快的收敛速度. 相似文献