首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 890 毫秒
1.
针对多数流形学习算法是基于单一流形的假设,当高维数据集中存在多个流形,流形学习算法可视化效果差问题,借鉴流形曲面在二维平面空间展开的思想提出基于局部保持的的子流形可视化方法。利用奇异值分解和k均值聚类方法将流形数据划分为多块子流形,计算第一流形切块中心与其余切块中心的拓扑结构关系,在目标低维空间保持上述中心间拓扑结构下逐一对流形切块投影展开,最后在人脸数据集上进行实验。实验结果表明:该方法较好保持了子流形内的数据间的拓扑结构。  相似文献   

2.
通过学习数据集的低维流形结构,给出一种流形距离测度;结合成对约束信息,调整数据的相似度矩阵,将其作为近邻传播算法的输入,提出了基于流形距离的半监督近邻传播聚类算法(SAP-MD)。通过在UCI标准数据集上的仿真实验表明,SAP-MD算法相比于仅利用成对约束信息的聚类算法,在聚类性能上有很大提高。  相似文献   

3.
基于Grassmann流形的多聚类特征选择   总被引:1,自引:0,他引:1       下载免费PDF全文
在无监督聚类特征选择过程中,局部欧氏度量可能置乱局部流形的拓扑结构,影响所选特征的聚类性能。为此,提出一种基于Grassmann流形的多聚类特征选择算法。利用局部主成分分析逼近数据点的切空间,获取局部数据的主要变化方向。根据切空间构造Grassmann流形,通过测地距保留局部数据的流形拓扑结构,以L1范数优化逼近流形拓扑,选择利于聚类的原本数据特征。实验结果验证了该算法的有效性。  相似文献   

4.
《计算机科学与探索》2019,(8):1360-1369
数据的复杂和多样性使得对大数据处理和分析能力有更高的要求。流形聚类在数据挖掘中取得显著的成功,但参数调整是聚类算法研究中的难点之一,直接影响聚类性能。传统的聚类算法参数调节一般依赖于经验,或者因参数调节的盲目性和随机性,而使得算法失效或复杂度较高。提出了一种基于比例-积分-微分(PID)控制约束的主动控制机制,约束谱多流形聚类参数调整的新方法。通过构造相似度矩阵,使用多个主成分分析器来估计局部切线空间。模型逼近过程由参数传递和PID调节控制。在调整过程中,采用三维ZN方法调整模型参数,扩展搜索空间,根据反馈结果控制谱多流形聚类过程,提高了算法的准确性和复杂性。通过在合成和实际中的不同类型的数据特征集进行检验,可以获得更好的聚类性能。  相似文献   

5.
现有的多视图聚类算法大多假设多视图数据点之间为线性关系,且在学习过程中无法保留原始特征空间的局部性;而在欧氏空间中进行子空间融合又过于单调,无法将学习到的子空间表示对齐。针对以上问题,提出了基于格拉斯曼流形融合子空间的多视图聚类算法。首先,将核技巧和局部流形结构学习结合以得到不同视图的子空间表示;然后,在格拉斯曼流形上融合这些子空间表示以得到一致性亲和矩阵;最后,对一致性亲和矩阵执行谱聚类来得到最终的聚类结果,并利用交替方向乘子法(ADMM)来优化所提模型。与核多视图低秩稀疏子空间聚类(KMLRSSC)算法相比,所提算法的聚类精度在MSRCV1、Prokaryotic、Not-Hill数据集上分别提高了20.83个百分点、9.47个百分点和7.33个百分点。实验结果验证了基于格拉斯曼流形融合子空间的多视图聚类算法的有效性和良好性能。  相似文献   

6.
谱聚类算法是建立在图论的基础上,将聚类问题转化为图的划分问题,能识别任意形状的类簇且易于实现,因此比传统聚类算法具有更强的适应性。然而,该算法中常用的距离度量不能同时考虑全局和局部一致性,且易受到噪声影响;聚类结果依赖由输入数据构造的相似度矩阵,且通过特征分解得到松弛划分矩阵和离散化过程的两步独立策略难以得到一个共同最优解。因此,提出一种结合共享近邻和流形距离的自适应谱聚类算法(SNN-MSC),引入一种新的具有指数项和比例因子的流形距离,可以灵活调整同一流形内数据的相似度和不同流形之间数据的相似度之比,并将密度因子纳入流形距离度量中,以消除噪声影响;采用共享近邻重新定义相似度度量,能挖掘数据点之间的空间结构和局部关系;同时,对拉普拉斯矩阵施加秩约束,使相似度矩阵中的连通分量完全等于簇个数,能够在优化求解过程中自适应优化数据相似度矩阵和聚类结构,无须再进行离散化操作。在人工数据集和UCI真实数据集上的对比实验显示,所提算法在多个聚类有效性指标上能体现出更好的性能。  相似文献   

7.
张要  马盈仓  朱恒东  李恒  陈程 《计算机工程》2022,48(3):90-99+106
对于多标签特征选择算法,通常假设数据与标签间呈现某种关系,以该关系为基础并通过正则项的约束可解决多标签特征选择问题,但该关系也可能是两种或多种关系的结合。为准确描述数据与标签间的关系并去除不相关的特征和冗余特征,基于logistic回归模型与标签流形结构提出多标签特征选择算法FSML。使用logistic回归模型的损失函数学习回归系数矩阵,利用标签流形结构学习数据特征的权重矩阵,通过L2,1-范数将系数矩阵和权重矩阵进行柔性结合,约束系数矩阵与权重矩阵的稀疏性并实现多标签特征选择。在经典多标签数据集上的实验结果表明,与CMLS、SCLS等特征选择算法相比,FSML算法在汉明损失、排名损失、1-错误率、覆盖率、平均精度等5个性能评价指标上表现良好,能更准确地描述数据与标签间的关系。  相似文献   

8.
基于流形距离的人工免疫半监督聚类算法   总被引:1,自引:1,他引:0  
将流形距离作为样本间相似性的基本度量测度,加入成对约束信息,通过近部传播得出新的度量矩阵。把聚 类问题转化为一优化数学模型。采用克隆选择算法求解这个优化模型,得出最后的聚类结果,通过人工数据集和UCI 标准数据集验证了这种方法具有较高的准确性。  相似文献   

9.
为了解决具有多种特征属性的多媒体数据(多视图数据)挖掘问题,在非负矩阵分解(NMF)算法的基础上,提出了一种多视图正则化矩阵分解算法(MRMF),该算法使用了多元非负矩阵分解技术,同时使用[L2,1]范数描述矩阵分解的损失函数,并采用多视图流形正则化对矩阵分解进行正则化约束。与现有的一些数据聚类或多视图聚类算法相比,提出的MRMF算法不易受到原始数据中噪声的影响,而且能够充分考虑到不同视图在聚类中所具有不同权重的问题,能够对多视图数据进行较为准确的聚类。MRMF算法的有效性在一些经典的公开数据集上进行了验证,并取得了较好的聚类精度。  相似文献   

10.
夏春梦  倪志伟  倪丽萍  张霖 《计算机科学》2017,44(10):187-192, 215
针对近邻传播聚类算法在构造相似度矩阵时因对多重尺度和任意形状数据敏感而聚类效果不理想的缺陷,提出一种基于密度调整和流形距离的近邻传播算法。该算法将“领域密度”和“流形理论”的思想引入近邻传播算法,利用基于密度调整和流形的距离更好地刻画了样本空间的真实分布状况,解决了相似度矩阵不能充分表示数据之间内在关系的问题,在一定程度上提高了近邻传播聚类算法的聚类效果。通过在人工数据集和标准数据集上进行实验对比,验证了算法的有效性和优越性。  相似文献   

11.
针对传统黎曼流形上判别分析算法仅考虑了带标签数据统计信息,忽略了无标签数据的问题,基于图正则化思想,提出一个新颖的基于黎曼流形框架上半监督判别分析算法,并将其应用于视觉分类任务中.该算法将非奇异协方差矩阵表示为黎曼流形上的点,引入JBLD(Jensen-Bregman LogDet divergence)度量黎曼流形上点与点之间相似性测度.首先将数据点映射到黎曼切空间中,获得数据向量化表示;其次采用有标签数据和无标签数据构建近邻图刻画黎曼切空间局部几何结构,使其作为正则化项添加到费舍尔测地线判别分析目标函数中;最后最小化目标函数获取最优变换矩阵,并在变换黎曼流形中进行分类.在3个视觉分类数据集上实验结果表明,文中算法在分类精度上获得了相当大的提升.  相似文献   

12.
针对传统谱聚类在构建关系矩阵时只考虑样本的全局特征而忽略样本的局部特征、在聚类划分时通常需要指定聚类个数、无法对交叉点进行正确划分等问题,提出了一种改进的基于局部主成分分析和连通图分解的谱聚类算法。首先自动学习挑选数据集的中心点,然后使用局部主成分分析得到数据集的关系矩阵,最后用连通图分解算法完成对关系矩阵的划分。实验结果表明提出的改进算法性能优于现有经典算法。  相似文献   

13.
针对现有的基于流形距离的聚类算法对“绝对流形”数据集较“相对流形”数据集聚类效果佳和参数[ρ]在较大范围内变化时,聚类性能较差等问题,提出基于改进流形距离的粗糙集k-means聚类算法。该算法通过用属性划分和最大最小距离选择初始聚类中心,以改进的流形距离和粗糙集优化k-means,并结合终止判断条件以达到解决边界数据聚类问题和提升聚类效果的目的。仿真结果表明:该算法对“绝对流形”和“相对流形”数据集聚类效果均有较好改善,且参数变化对聚类性能影响较大。  相似文献   

14.
李林珂  康昭  龙波 《计算机工程》2023,49(1):113-120+129
现有的多视角谱聚类算法大多只线性结合了各视角的基拉普拉斯矩阵,未考虑不同视角数据的差异性对最优拉普拉斯矩阵的影响,存在聚类性能受限的问题。提出一种基于黎曼几何均值与高阶拉普拉斯矩阵的谱聚类算法(RMMSC),挖掘多视角数据中的高阶连接信息与流形信息,提高最优拉普拉斯矩阵对各视角的信息利用率。按一定的权重线性结合数据单一视角的各阶拉普拉斯矩阵,得到每个视角的基拉普拉斯矩阵,通过低阶与高阶连接信息的结合使用,充分体现多视角数据集的全局结构。在此基础上,计算各视角基拉普拉斯矩阵的黎曼几何均值,将其作为最优拉普拉斯矩阵输入谱聚类算法,得到聚类结果。相比于传统矩阵算数均值的计算,基于黎曼流形的黎曼几何均值能够更好地恢复互补层数据的流形信息。实验结果表明,RMMSC在多组标准数据集上聚类效果优于ONMSC、MLAN、AMGL等算法。其中,在Flower17数据集上,精确度较基准算法ONMSC提高了2.14%,纯度提高了1.7%,且收敛性较好。  相似文献   

15.
古凌岚  彭利民 《计算机科学》2016,43(12):213-217
针对传统的基于欧氏距离的相似性度量不能完全反映复杂结构的数据分布特性的问题,提出了一种基于相对密度和流形上k近邻的聚类算法。基于能描述全局一致性信息的流形距离,及可体现局部相似性和紧密度的k近邻概念,通过流形上k近邻相似度度量数据对象间的相似性,采用k近邻的相对紧密度发现不同密度下的类簇,设计近邻点对约束规则搜寻k近邻点对构成的近邻链,归类数据对象及识别离群点。与标准k-means算法、流形距离改进的k-means算法进行了性能比较,在人工数据集和UCI数据集上的仿真实验结果均表明,该算法能有效地处理复杂结构的数据聚类问题,且聚类效果更好。  相似文献   

16.
多聚类中心近邻传播聚类算法(MEAP),在处理任意形状具有流形分布结构的数据时,往往得不到理想的聚类结果。为此,基于流形学习的思想,设计了一种全新的相似性度量,该相似性度量能够扩大位于同一流形中数据点间的相似性,同时缩小处于不同流形上数据点间的相似性,从而使得相似性矩阵能够准确地反映数据集内在的流形分布结构。将该相似性度量与MEAP相结合,提出基于流形结构的多聚类中心近邻传播聚类算法MS-MEAP(Manifold Structure based Multi-Exemplar Affinity Propagation),从而有效地拓展了算法处理任意形状具有流形分布结构数据集的能力,同时提高了算法的运行效率。在人工数据集与USPS手写体数据集上进行了实验,仿真实验结果及算法有效性分析证明,MS-MEAP算法相比于原算法在处理任意形状具有流形分布结构的数据时,具有更好的聚类性能。  相似文献   

17.
针对传统谱聚类算法在聚类过程中所出现的高计算复杂度、噪声敏感,以及聚类簇形态偏斜等问题,结合当前大规模数据聚类的特点与需求,本文建立基于约束优化传播的改进大规模数据半监督式谱聚类模型。该模型首先利用先验成对点约束信息构建微型相似性矩阵,在此基础上采用Gabow算法提取该微型相似性矩阵所对应连通图的各强连通分支,继而提出面向各强连通分支的新型约束优化传播算法以获取整个数据集的点对相似度,最后通过奇异值分解并运用加速k-means算法获得大规模数据的聚类结果。在多个标准测试数据集上的实验表明,相比于该领域其它前期研究成果,本文所提聚类模型具有更高的聚类准确率和更低的计算复杂度,更适合大规模数据的聚类应用。  相似文献   

18.
标签传播算法(LPA)是一种高效地处理大规模网络的社区发现算法,由于其近乎线性的时间复杂度而受到广泛关注。然而,该算法每个节点的标签依赖于其邻居节点,其迭代速度和聚类有效性对标签信息的更新顺序非常敏感,影响了社区发现结果的准确性和稳定性。基于该问题,提出了一种基于加权聚类集成的标签传播算法。该算法利用多次标签传播算法的结果作为基聚类集,并用模块度评估每个基聚类的重要性,使其作为节点相似性度量的权值形成加权相似性矩阵,最后通过层次聚类得出最终的社区划分结果。在实验分析中,该算法和其他5个具有代表性的标签传播算法的改进算法在真实数据集上进行了比较,展示了新算法能有效地提高标签传播算法的社区发现精度。  相似文献   

19.
复杂分布数据的二阶段聚类算法   总被引:4,自引:0,他引:4  
公茂果  王爽  马萌  曹宇  焦李成  马文萍 《软件学报》2011,22(11):2760-2772
提出了一种用于复杂分布数据的二阶段聚类算法(two-phase clustering,简称TPC),TPC包含两个阶段:首先将数据划分为若干个球形分布的子类,每一个子类用其聚类中心代表该类内的所有样本;然后利用可以处理复杂分布数据的流形进化聚类(manifold evolutionary clustering,简称MEC)对第1阶段得到的聚类中心进行类别划分;最后综合两次聚类结果整理得到最终聚类结果.该算法基于改进的K-均值算法和MEC算法.在进化聚类算法的基础上引入流形距离,使得算法能够胜任复杂分布的数据聚类问题.同时,算法降低了引入流形距离所带来的计算量.在分布各异的7个人工数据集和7个UCI数据集测试了二阶段聚类算法,并将其效果与遗传聚类算法、K均值算法和流形进化聚类算法做了比较.实验结果表明,无论对于简单或复杂、凸或非凸的数据,TPC都表现出良好的聚类性能,并且计算时间与MEC相比明显减少.  相似文献   

20.
利用少量标签数据获得较高聚类精度的半监督聚类技术是近年来数据挖掘和机器学习领域的研究热点。但是现有的半监督聚类算法在处理极少量标签数据和多密度不平衡数据集时的聚类精度比较低。基于主动学习技术研究标签数据选取,提出了一个新的半监督聚类算法。该算法结合最小生成树聚类和主动学习思想,选取包含信息较多的数据点作为标签数据,使用类KNN思想对类标签进行传播。通过在UCI标准数据集和模拟数据集上的测试,结果表明提出的算法比其他算法在处理多密度、不平衡数据集时有更高精度且稳定的聚类结果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号