首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 171 毫秒
1.
可变相似性度量的近邻传播聚类   总被引:10,自引:0,他引:10  
近邻传播(AP)聚类算法面临的一个问题是不适用于多重尺度及任意空间形状的数据聚类处理。该文从数据分布特性的表征出发,提出了一种改进的近邻传播聚类算法AP-VSM (Affinity Propagation based on Variable-Similarity Measure)。首先,综合数据的全局与局部分布特性,设计了一种数据可变相似性度量计算方法,该度量可以有效地反映数据实际聚类的分布特性;然后在传统AP算法框架基础上,构造出基于可变相似性度量的近邻传播聚类算法,从而拓展了传统AP算法的数据处理能力。仿真实验验证了新方法性能优于传统AP算法。  相似文献   

2.
聚类分析是时间数据序列分析的一种常用手段,现有的聚类算法通常从相似性度量方面进行改进.实际的时间序列数据往往具有一定的周期性和连续性,现有的算法往往忽略时间序列数据周期性和连续性特点对聚类算法的影响.对此问题进行了研究,尝试采用延拓的方法来解决该问题,从而改善聚类的效果.初步的实验结果表明了该方法的可行性和有效性.  相似文献   

3.
谱聚类算法通常是采用高斯核作为相似性度量,并利用所有可用的特征来构建具有欧氏距离的相似度矩阵,数据集复杂度会影响其谱聚类性能,因此该文提出一种基于公理化模糊子集(AFS)的改进谱聚类算法。首先结合AFS算法,利用识别特征来衡量更合适的数据成对相似性,生成更强大的亲合矩阵;再有效地利用Nystr?m采样算法,计算采样点间以及采样点和剩余点间的相似度矩阵去降低计算的复杂度;最后通过在不同数据集以及图像分割上进行实验,证明了提出算法的有效性。  相似文献   

4.
王东  王理想 《半导体光电》2014,35(5):904-907
提出了一种基于距离相似性K-means的红外图像聚类算法。该算法对通过Isomap算法降维后的空间点,进一步进行聚类;算法中引入了密度因素,通过距离相似性的差异进一步排除孤立点和选取初始聚类中心,使数据内部的紧凑性得到加强。经过实验证明,改进后的方法比原方法更有效,时间复杂度也大幅度降低。  相似文献   

5.
聚类分析是基因表达数据分析研究的主要技术之一,其算法的基本出发点在于根据对象间相似度将对象划分为不同的类,选择适当的相似性度量准则是获得有效聚类结果的关键。采用预处理过的基因数据集在不同相似性度量准则下进行的不同聚类算法的聚类分析,并得到聚类结果评价。其中算法本身的缺陷及距离相似性度量的局限性都是影响结果评价的因素,为了获得更有效的聚类结果,改进相关聚类算法并提出了一种比例相似性度量准则。  相似文献   

6.
传统谱聚类算法在构造相似度矩阵时,高斯核函数参数选取的无规律性会对聚类结果造成严重影响。针对的这一缺陷,提出一种基于密度均值的谱聚类算法。与传统算法不同,该算法选取样本点到周围K个样本点的平均距离作为尺度参数,并引入样本点的密度信息,使得聚类结果更符合实际样本的分布。同时,由于相似矩阵能自适应不同的局部密度,使得该算法对样本的空间分布并不敏感。在不同类型数据集上的实验验证了算法的有效性和较高的鲁棒性。  相似文献   

7.
《现代电子技术》2020,(5):109-112
针对传统K-Means聚类算法的不足,提出一种新的对孤立点不敏感的K-Means聚类算法。首先,采用孤立点移除算法消除数据集中存在的孤立点;然后,对不包含孤立点的数据集进行传统K-Means聚类,再引入轮廓系数并选择轮廓系数最大值对应的簇类数作为数据集中簇的最优选择数目K;最后,通过自定义的聚类有效性评价函数评估聚类效果。实验结果表明,相对于传统K-Means聚类算法,对孤立点不敏感的新的K-Means聚类算法能够消除孤立点对数据集整体的影响,并优化了聚类中心的选择。  相似文献   

8.
K均值聚类算法是一种常见且有效的基于划分的聚类算法。为解决该聚类算法对初始中心敏感的问题,常用的方法是层次化初始聚类中心。然而,层次初始的聚类算法仍然需要将聚类个数作为输入参数,在高维数据和海量数据中不易应用。基于能够自动确定聚类数目的目的,采用DBI度量,提出一种层次初始的聚类个数自适应的聚类方法(简称DHIKM)。通过UCI数据集和仿真数据上的实验,证明DHIKM可以在采样数据中快速找到合适的聚类个数,实验结果表明该算法在聚类质量与收敛速度上的有效性。  相似文献   

9.
聚类是蛋白质结构预测中重要的后处理步骤,许多结构预测中都采取了不同的聚类算法.而AP聚类算法通过在数据点之间传递消息,经过若干次迭代后达到一种稳定状态,是构思巧妙的聚类算法.文中把AP聚类算法应用于蛋白质结构预测中,并在7个不同的数据集上进行了实验.结果表明,在采用RMSD进行结构相似性度量的情况下,AP算法有67%的结果优于Rosetta聚类算法或相当,是一种适合蛋白质结构聚类的算法.  相似文献   

10.
针对传统谱聚类算法初始化敏感引起的聚类效率与正确率不稳定问题,给出一种改进的谱聚类算法.该算法首先构造Laplacian矩阵并得到其特征谱空间,然后引入粒子群优化的FCM算法在该空间中寻找最优粒子作为初始类簇中心用以解决敏感问题.实验表明,与传统谱聚类算法比较,该算法的聚类结果更稳定,在较高维数据集上聚类效率与正确率有明显提高.  相似文献   

11.
In most spectral clustering approaches, the Gaussian kernel‐based similarity measure is used to construct the affinity matrix. However, such a similarity measure does not work well on a dataset with a nonlinear and elongated structure. In this paper, we present a new similarity measure to deal with the nonlinearity issue. The maximum flow between data points is computed as the new similarity, which can satisfy the requirement for similarity in the clustering method. Additionally, the new similarity carries the global and local relations between data. We apply it to spectral clustering and compare the proposed similarity measure with other state‐of‐the‐art methods on both synthetic and real‐world data. The experiment results show the superiority of the new similarity: 1) The max‐flow‐based similarity measure can significantly improve the performance of spectral clustering; 2) It is robust and not sensitive to the parameters.  相似文献   

12.
Spectral clustering is a powerful tool for exploratory data analysis. Many existing spectral clustering algorithms typically measure the similarity by using a Gaussian kernel function or an undirected k‐nearest neighbor (kNN) graph, which cannot reveal the real clusters when the data are not well separated. In this paper, to improve the spectral clustering, we consider a robust similarity measure based on the shared nearest neighbors in a directed kNN graph. We propose two novel algorithms for spectral clustering: one based on the number of shared nearest neighbors, and one based on their closeness. The proposed algorithms are able to explore the underlying similarity relationships between data points, and are robust to datasets that are not well separated. Moreover, the proposed algorithms have only one parameter, k. We evaluated the proposed algorithms using synthetic and real‐world datasets. The experimental results demonstrate that the proposed algorithms not only achieve a good level of performance, they also outperform the traditional spectral clustering algorithms.  相似文献   

13.
《电子学报:英文版》2017,(6):1221-1226
Category-based statistic language model is an important method to solve the problem of sparse data in statistical language models. But there are two bottlenecks about this model: 1) The problem of word clustering, it is hard to find a suitable clustering method that has good performance and has not large amount of computation; 2) Class-based method always loses some prediction ability to adapt the text of different domain. In order to solve above problems, a novel definition of word similarity by utilizing mutual information was presented. Based on word similarity, the definition of word set similarity was given and a bottom-up hierarchical clustering algorithm was proposed. Experimental results show that the word clustering algorithm based on word similarity is better than conventional greedy clustering method in speed and performance, the perplexity is reduced from 283 to 207.8.  相似文献   

14.
基于相似度的词聚类算法   总被引:1,自引:1,他引:0  
基于类的统计语言模型是解决统计模型数据稀疏问题的重要方法.传统的统计方法基于贪婪原则,常以语料的似然函数或困惑度(perplexity)作为评价标准.传统的聚类方法的主要缺点是聚类速度慢,初值对结果影响大,易陷入局部最优.本文提出了词相似度定义、词集合相似度定义,一种自下而上的分层聚类算法.这种方法不但能改善聚类效果,而且可根据不同的模型选择不同的相似度定义,从而提高聚类的使用效果.  相似文献   

15.
摘 要:通过分析投票模型中中立者的思想倾向,对区间值数据进行二次特征提取,给出了一种区间值数据的Gauss函数表示法,利用这种方法对区间值数据进行相似度量,从而导出一种新的区间值数据的距离度量公式。将该距离度量公式运用于区间值数据的模糊c均值聚类算法(FCM)中,得出一种新的基于Gauss分布函数的区间值数据的模糊聚类算法,试验表明该方法比传统的区间值数据的模糊聚类算法能获得更好的分类效果。  相似文献   

16.
为了从用户地理空间分布数据中挖掘用户间关联关系,提出了一种基于谱聚类的关联关系挖掘算法.首先定义了关联度,用以衡量用户之间空间分布的相似性,基于关联度构造相似矩阵,再利用谱聚类方法对用户进行聚类分析,聚类结果表征了用户的关联关系.采用Silhouette指标和聚类准确率来衡量用户关系挖掘质量,同时与传统的K-Means方法进行了比较,通过真实数据集实验,结果表明该算法在实验数据集上能达到90%以上的聚类准确率,证明方法有效、可行.  相似文献   

17.
依据样本数据点分布的局部和全局一致性特征,提出了一种基于局部密度构造相似矩阵的谱聚类算法。首先通过分析样本数据点的分布特性给出了局部密度定义,根据样本点的局部密度对样本点集由密到疏排序,并按照设计的连接策略构建无向图;然后以GN算法思想为参考,给出了一种基于边介数的权值矩阵计算方法,经过数据转换得到谱聚类相似矩阵;最后通过第一个极大本征间隙出现的位置来确定类个数,并利用经典聚类方法对特征向量空间中的数据点进行聚类。通过人工仿真数据集和UCI数据集进行测试,实验结果表明本文谱聚类算法具有较好的顽健性。  相似文献   

18.
为了满足对XML文档集合进行数据挖掘需求,本文提出了根据XML文档树的语义信息和结构信息来计算其结构相似度,通过结构相似度构造其结构相似度矩阵,在此基础上应用DBSCAN算法来对XML文档集合进行聚类.与其他聚类算法相比,其聚类的速度得到了很大的提高.  相似文献   

19.
徐宁  张沪寅  王晶  徐方  汪志勇 《电子学报》2016,44(10):2323-2329
针对传统分簇算法无法适用于信道动态变化的认知Ad Hoc网络,提出了一种基于信道相似度的分布式分簇算法.首先计算节点间的信道相似度,利用改进的EM算法估计节点属于不同簇的概率,再结合图的最小割算法取得最优的分簇结果.算法既最大化簇内相似度,也最小化簇间相似度.最后,提出了一个协调机制,可以同步全局的分簇信息.整个过程完全分布式运行,并且无需依赖公共控制信道.仿真结果表明,算法能够根据信道变化,动态地调整分簇结构,提高簇内公共信道数量.与此同时,算法还能有效减少簇间公共信道,降低簇间通信干扰.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号