首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 455 毫秒
1.
针对现有基于划分的聚类算法无法有效聚类簇大小和簇密度有较大差异的非均匀数据的问题,提出一种基于变异系数聚类算法。从聚类优化目标的角度出发,分析了以K-means为代表的划分聚类算法引发“均匀效应”的成因;提出以变异系数度量非均匀数据的分布散度,并基于变异系数定义一种非均匀数据的相异度公式;基于相异度公式定义了聚类目标优化函数,并根据局部优化方法给出聚类算法过程。在合成和真实数据集上的试验结果表明,与K-means、Verify2、ESSC聚类算法相比,本研究提出的非均匀数据的变异系数聚类算法(coefficient of variation clustering for non-uniform data, CVCN)聚类精度提升5%~40%。  相似文献   

2.
多视图模糊聚类综合了数据的不同表示,虽然能够产生更全面、宏观的聚类结果,但是容易受到噪声干扰。为了提高抵抗噪声的能力,提出了一种多视图模糊聚类算法。该算法同时继承了多视图聚类和模糊紧致性分离性聚类算法的优点,能够根据不同视图的重要性协同聚类,同时增强算法的鲁棒性。为了验证算法的有效性,选取4个多视图数据集进行了实验。实验结果表明,该算法不仅能够获得较高的聚类准确率,而且能有效地降低噪声数据对聚类结果的影响。  相似文献   

3.
现有的标注聚类算法大多采用传统的K-means或Single-linkage算法对标注数据直接聚类,但是K-means或Sin-gle-linkage本身固有的缺陷严重影响了聚类结果的质量.给出了一种局部中心度传播聚类算法LCIPC(local centrality in-formation passing clustering),该算法首先在标注相似度的基础上建立标注数据的KNN有向邻居图G;然后利用核密度估计方法计算每个标注的局部中心度;再通过随机游走方法在图G中传播局部中心度,以产生全局中心度等级;最后,调用图深度优先搜索算法发现标注聚类结果.在3个真实数据集上的聚类结果显示,LCIPC算法具有够获得高质量标注聚类结果的能力.  相似文献   

4.
为了探讨元素之间的夹角对增量聚类算法的影响,受基于角度的异常点检测算法的启发,论文建立了一种基于角度度量的(Incremental Clustering Algorithm Based on Angle)动态增量聚类算法模型,利用元素之间的夹角对增加的数据进行合理的分配。针对KFCM(Kernal Fuzzy Cluster Method)算法随机获取聚类中心的缺陷,论文利用平均距离对算法做出改进,使KFCM算法能自动获取聚类中心。由于核函数对聚类结果有很大影响,对于如何选择核函数文中做了进一步的研究。实验结果表明针对不断增加的数据,本算法能够有效的处理各种数据集。  相似文献   

5.
K-means算法对初始聚类中心及簇数K的选择敏感,导致聚类结果不稳定,会对IDS(intrusion detection system, IDS)的检测结果产生重要影响。针对该问题,提出一种基于细菌觅食优化算法(bacterial foraging optimization algorithm, BFOA)和K-means相复合的入侵检测算法(HIDS)。HIDS算法首先基于距离阈值方法动态确定簇数K,再利用BFOA优化生成初始聚类中心,使得选择的初始聚类中心达到全局最优,从而解决了K-means算法的聚类结果不稳定的问题,进而提高入侵检测的准确率。为验证算法的有效性和测试算法性能,将HIDS在KDD99数据集上进行试验测试,入侵检测率可达98.33%。试验结果表明该方法能够有效提高检测率并且降低误检率。  相似文献   

6.
近邻传播聚类算法(affinity propagation, AP)受偏向参数影响较大,很难确定最优聚类所需的参数。设计了两阶段近邻传播半监督聚类算法(two-stage semi supervised clustering algorithm based on affinity propagation, 2SAP),在整个数据集上运行半监督近邻传播算法(semi-supervised clustering based on affinity propagation, SAP),得出类代表点集合,在类代表点集合上运行SAP算法得出结果。在实际数据集上进行实验,结果证实:与算法SAP和并行近邻传播半监督聚类算法(parallel computation of semi-supervised clustering algorithm based on affinity propagation,PSAP)相比,2SAP算法的CRI和FCRI值较高,而相应的离散系数较小,说明2SAP受偏向参数的影响较小。  相似文献   

7.
将主元分析(principal component analysis, PCA)模型相似度(以下简称PCA相似度)和谱聚类(spectral clustering)算法相结合,并用于基于高炉历史数据挖掘的炉况工作点变化的分析。利用PCA相似度与距离相似度的加权来衡量滑窗数据集之间的相似度,进一步将数据集的聚类问题转化为图的最优划分问题,通过谱聚类得到聚类结果。该方法降低了高炉工作点漂移的影响,能够有效稳定的实现高炉炉况工作点的聚类。基于现场历史数据的离线测试表明:与已有的基于PCA相似度和k-means聚类的算法对比,本研究可以更加有效区分炉况工作点的跳变。  相似文献   

8.
针对传统聚类算法在对复杂密集型数据集聚类时不能取得较好聚类结果的问题,利用进化聚类算法对复杂密集型数据集进行聚类,提出一种基于蚁群系统的聚类算法(clustering algorithm based on ant colony system,CAACS),利用蚂蚁在行进路径中释放信息素且追求浓信息素的原理来实现蚂蚁的随机搜索,并引入近邻函数值的概念来确定样本数据之间的相似性,通过蚂蚁在行走过程中不断建立样本数据之间的最相似连接来形成各个子连通图,各个子连通图中的样本数据构成一个类。实验采用随机产生的不规则数据集以及一系列合成的数据集将CAACS算法与DBSCAN算法(density-based spatial clustering of application with noise)及面向非规则非致密空间分布数据的蚁群聚类方法进行比较。实验结果表明CAACS算法对复杂密集型数据集能达到较好的聚类结果。  相似文献   

9.
多视图子空间聚类是处理高维数据的一种聚类方法,通过分别在每个视图上构造邻接矩阵的方法解决聚类问题,但未考虑到低秩表示和稀疏约束的结合在构造邻接矩阵中的重要性. 针对此问题,提出一种联合低秩表示和稀疏约束的双层多视角子空间聚类方法,使其更全面地描述数据本身,从而实现更有效的聚类,并采用ADMM方法来解决每个视图相关的低秩表示和稀疏性约束优化问题. 在多个数据集上的实验表明,其聚类性能比现有的多视角子空间聚类算法好,低秩表示和稀疏约束的结合可以提高聚类的准确性.  相似文献   

10.
以往建立在模糊C均值(fuzzyC-means, FCM)框架下利用源域虚拟簇中心作为迁移知识的迁移聚类算法容易受到离群点和噪声的干扰,且单个簇中心不足以描述簇结构。针对此问题,提出多代表点自约束的模糊迁移聚类算法,该算法引入样本代表权重机制为簇中每个样本分配代表权重来刻画簇结构,这种机制能更好的刻画簇结构,对离群点和噪声有较好的抑制作用;同时利用源域样本,重构目标域簇结构,并以此作为迁移知识进行目标域样本聚类,相对于利用单中心作为迁移知识来说,整体重构后的目标域簇结构所包含的迁移知识量更为丰富。试验结果表明。在人工数据集和真实数据集上,所提出的聚类算法相比对比算法, NMI和ARI最高提升了0.674 5和0.608 4。说明在迁移环境下,以代表点自约束作为知识迁移规则,所提出的聚类算法具有一定的聚类效果。  相似文献   

11.
免疫粒子群核模糊聚类快速分形图像编码   总被引:1,自引:0,他引:1  
针对经典分形编码算法编码时间过长和基于K-均值聚类等快速分形编码算法依赖数据分布等问题,提出了一种基于免疫粒子群优化(IPSO)和核模糊聚类的快速分形图像编码算法.提出基于IPSO的核模糊聚类算法,将IPSO算法应用于聚类中心的求解中,并将其应用于分形图像编码,分别对子块和父块进行核模糊聚类,以更加合理的分类搜索取代全局搜索,减少编码时间.实验结果表明,新算法的编码时间约为经典分形编码算法的1/6,其峰值信噪比只略微下降;与基于K-均值聚类和基于粒子群优化聚类等快速分形图像编码算法相比,新算法能以更少的编码时间获得更高的峰值信噪比.  相似文献   

12.
为了考虑样本与簇之间不确定的归属关系并衍生全局和局部多视角多标签学习的应用范围,提岀一个主动三支聚类下的全局和局部多视角多标签学习算法(global and local multi-view multi-label learning machine with active three-way clustering, GLMVML-ATC)。通过使用主动三支聚类,样本是否归属于一个簇将取决于不确定样本属于核心区域的概率。这使得局部标签关联更可信,能够增强多视角多标签学习机的性能,并加速他们的发展。试验表明,GLMVML-ATC使得分类性能至少提升3%,增加的训练时间不超过7%,更优于典型的多视角、多标签学习机。  相似文献   

13.
针对传统聚类算法难以处理大规模数据和对噪声数据敏感等问题,基于模糊C有序均值聚类算法(FCOM),结合single-pass和online增量架构,分别提出了single-pass模糊C有序均值聚类算法(SPFCOM)和online模糊C有序均值聚类算法(OFCOM).SPFCOM和OFCOM算法首先对FCOM算法加权,然后以数据块为单位对数据集合进行增量式处理.实验结果表明,相较于对比算法,SPFCOM和OFCOM算法在聚类准确率方面得到了提高,还具有更强的鲁棒性.  相似文献   

14.
提出了一种新的半监督两个视角的多示例聚类模型, 整合文本视角和图像视角解决了伴有少量标签的多示例图像聚类问题。提出的模型首先嵌入概念分解和多示例核成为一个整体, 学习每个视角的关联矩阵和两个视角所共享的聚类指示矩阵。而后, 应用${l_{2, 1}}$范数学习最优的关联矩阵和聚类指示矩阵。进一步地, 为了增加包之间的判别力, 提出的模型强迫相同标签包的聚类指示向量间的相似性趋于1, 不同标签包的指示向量间的相似性趋于0。最后, 给出一种迭代更新算法优化提出的模型。实验结果表明,提出的模型优于现有的多示例聚类模型。  相似文献   

15.
K-均值算法对初始聚类中心敏感,聚类结果随不同初始聚类中心波动。针对以上问题,提出一种基于最小方差的自适应K-均值初始化方法,使初始聚类中心分布在K个不同样本密集区域,聚类结果收敛到全局最优。首先,根据样本空间分布信息,计算样本方差得到样本紧密度信息,并基于样本紧密度选出满足条件的候选初始聚类中心;然后,对候选初始聚类中心进行处理,筛选出K个初始聚类中心。实验证明,算法具有较高的聚类性能,对噪声和孤立点具有较好的鲁棒性,且适合对大规模数据集聚类。  相似文献   

16.
时间序列分类是数据挖掘中的重要主题,现有的大部分时间序列分类方法较少考虑到序列形状对分类结果的影响。该文提出了一种基于k-shape的时间序列模糊分类方法。该方法通过使用k-shape聚类算法对时间序列训练数据集各类别的成员进行聚类,获得各类别的聚类中心并形成聚类中心群,将每个类别的聚类中心群作为时间序列数据模糊分类的初始聚类中心,根据隶属度最大原则确定测试时间序列数据的类别标签。在30个时间序列公开数据集上的分类实验结果表明,该方法相较于SVM、Bayes、EAIW和TLCS这4种分类算法具有更好的分类性能,对具有扭曲和位移特征的时间序列数据分类有更好的可用性。  相似文献   

17.
基于核化原理,提出核最优变换与聚类中心算法.算法通过非线性变换,将数据映射到核空间,并在核空间中执行最优变换与聚类中心算法.该算法可提取稳健的非线性鉴别特征,解决复杂分布数据的模式分类问题.同时,基于训练样本在核空间所张成的子空间的一组基,提出一个快速提取鉴别特征的计算方法,解决了一般核方法面临的“大训练集”难题.基于IRIS,YEAST,GLASS等数据的分类实验验证了该方法的有效性.  相似文献   

18.
为解决传统K-means算法初始质心的随机选取以及聚类过程中每个数据样本到聚类中心距离的重复计算问题,提出了一种高效的基于初始聚类中心优化的K-means算法,采用最小方差优化初始质心,通过存储每次迭代中所有数据点的簇标志和到最近聚类中心的距离并用于下一次迭代,避免了重复计算数据点到每个中心的距离。在UCI数据库中五个不同的数据集上进行了测试,对各个算法在聚类准则函数,运行时间以及迭代次数上进行实验结果比较,表明在不降低聚类性能的前提下,减少了迭代次数,缩短了聚类时间,证明了改进算法的有效性和高效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号