首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 781 毫秒
1.
在模糊k平面聚类(KPC)算法的基础上,通过引入正交约束提出正交模糊k平面聚类算法(OFKPC)。与KPC及模糊KPC(FKPC)类似,OFKPC仍从原型出发,用k组超平面替代传统的点(类中心)作为聚类原型。同时根据KPC及FKPC的思想,中心超平面是用来尽量区分不同类样本,因此这些超平面法向量构成的矩阵可用来进行特征降维。在人工数据集和UCI数据集上实验表明,OFKPC算法不仅较FKPC算法有更好的聚类效果,且具有更强的特征降维能力。  相似文献   

2.
K-means和模糊C均值为代表的划分式聚类算法无法有效处理按照风格为标准划分样本的聚类任务.针对此问题,文中提出按风格划分数据的模糊聚类算法.利用风格标准化矩阵表示包含在类簇中样本的风格信息,同时使用逼近标准风格之后的样本计算距离矩阵,并以隶属度表示样本点对于类簇的可代表程度.通过常用的交替优化策略同时优化隶属度矩阵和风格标准化矩阵.文中算法可以有效利用样本的风格信息和样本点与类簇之间的关系信息,在人工数据集和真实数据集上的实验表明算法的有效性.  相似文献   

3.
基于模糊C均值(FCM)和局部自适应聚类(LAC)提出一种针对高维数据的联机局部自适应模糊C均值聚类算法(OLAFCM).OLAFCM通过为各类属性分别赋以相应的局部权重,使各类属性分布在不同属性组合的张量子空间内,从而有效降低采用全局降维方法造成的信息损失,同时适合聚类数据流.最后,在人工模拟和真实数据集上验证OLAFCM比之现有基于全局降维的划分联机聚类算法具有更好的性能.  相似文献   

4.
邱保志  唐雅敏 《计算机应用》2017,37(12):3482-3486
针对如何快速寻找密度骨架、提高高维数据聚类准确性的问题,提出一种快速识别高密度骨架的聚类(ECLUB)算法。首先,在定义了对象局部密度的基础上,根据互k近邻一致性及近邻点局部密度关系,快速识别出高密度骨架;然后,对未分配的低密度点依据邻近关系进行划分,得到最终聚类。人工合成数据集及真实数据集上的实验验证了所提算法的有效性,在Olivetti Face数据集上的聚类结果显示,ECLUB算法的调整兰德系数(ARI)和归一化互信息(NMI)分别为0.8779和0.9622。与经典的基于密度的聚类算法(DBSCAN)、密度中心聚类算法(CFDP)以及密度骨架聚类算法(CLUB)相比,所提ECLUB算法效率更高,且对于高维数据聚类准确率更高。  相似文献   

5.
杨洁  王国胤  王飞 《计算机应用》2017,37(11):3080-3084
2014年提出的密度峰值聚类算法,思想简洁新颖,所需参数少,不需要进行迭代求解,而且具有可扩展性。基于密度峰值聚类算法提出了一种网格聚类算法,能够高效地对大规模数据进行处理。首先,将N维空间粒化为不相交的长方形网格单元;然后,统计单元空间的信息,利用密度峰值聚类寻找中心点的思想确定中心单元,即中心网格单元被一些低局部密度的数据单元包围,而且与比自身局部密度高的网格单元的距离相对较大;最后,合并与中心网格单元相近网格单元,从而得出聚类结果。在UCI人工数据集上的仿真实验结果表明,所提算法能够较快得出聚类中心,有效处理大规模数据的聚类问题,具有较高的效率,与原始的密度峰值聚类算法相比,在不同数据集上时间损耗降低至原来的1/100~1/10,而精度损失维持在5%~8%。  相似文献   

6.
张恩  李会敏  常键 《计算机应用》2021,41(2):413-421
针对现有云外包隐私保护k-means聚类方案存在的效率不高,以及当云服务器不可信或遭受黑客攻击时返回不合理聚类结果的问题,提出了一种可应用于多方隐私保护场景的云外包可验证隐私保护k-means聚类方案。首先,提出了一种适用于云外包场景的改进的聚类初始化方法,从而有效提高算法的迭代效率;然后,利用乘法三元组技术来设计安全欧几里得距离的计算,并利用混淆电路技术来设计安全计算最小值算法;最后,提出了一种验证算法,使用户仅需一轮通信就实现对聚类结果的验证,并且数据外包后算法的训练完全在云上进行,能够有效减少用户和云的交互。仿真实验表明,所提方案在数据集Synthetic和S1上的准确度分别达到97%和93%,说明隐私保护下的k-means聚类和明文k-means聚类的情况近似,适用于医疗、社会科学和商业等领域。  相似文献   

7.
为了提升聚类性能,文中提出基于凸差规划(DCP)的不完整数据填充聚类算法.采用DCP对核模糊C均值目标进行凸差化改造,实现DCP聚类和数据缺失项填充的交替优化过程,从理论上证明交替优化的收敛性.在UCI数据集上的实验验证文中算法在缺失数据填充和聚类上的优势.  相似文献   

8.
基于k最近邻网络的数据聚类算法   总被引:1,自引:0,他引:1  
聚类研究在数据挖掘研究领域中占有十分重要的地位。虽然目前已有很多数据聚类算法,但精度仍不够理想。文中提出一个基于结构化相似度的网络聚类算法(SSNCA),试图从网络聚类角度进一步提高数据聚类精度。具体解决方案是,将待聚类的向量数据集转化为k最近邻网络,并用SSNCA对该网络进行聚类。将SSNCA与c-Means、仿射传播进行比较,实验表明文中算法得到的目标函数稍差,但聚类精度要明显高于这两个算法。  相似文献   

9.
针对k近邻(kNN)方法不能很好地解决非平衡类问题,提出一种新的面向非平衡类问题的k近邻分类算法。与传统k近邻方法不同,在学习阶段,该算法首先使用划分算法(如K-Means)将多数类数据集划分为多个簇,然后将每个簇与少数类数据集合并成一个新的训练集用于训练一个k近邻模型,即该算法构建了一个包含多个k近邻模型的分类器库。在预测阶段,使用划分算法(如K-Means)从分类器库中选择一个模型用于预测样本类别。通过这种方法,提出的算法有效地保证了k近邻模型既能有效发现数据局部特征,又能充分考虑数据的非平衡性对分类器性能的影响。另外,该算法也有效地提升了k近邻的预测效率。为了进一步提高该算法的性能,将合成少数类过抽样技术(SMOTE)应用到该算法中。KEEL数据集上的实验结果表明,即使对采用随机划分策略划分的多数类数据集,所提算法也能有效地提高k近邻方法在评价指标recall、g-mean、f-measure和AUC上的泛化性能;另外,过抽样技术能进一步提高该算法在非平衡类问题上的性能,并明显优于其他高级非平衡类处理方法。  相似文献   

10.
唐海波  林煜明  李优  蔡国永 《计算机应用》2018,38(11):3132-3138
针对现实应用通常要求聚类的结果相对平衡的问题,提出了一种基于模拟退火与贪心策略的平衡聚类算法(BCSG),该算法包括基于模拟退火的初始点选择算法(SACI)与基于贪心策略的平衡聚类算法(BCGS)2个步骤,以提高平衡聚类算法的聚类效果与时间性能。首先基于模拟退火在数据集中快速定位出K个合适的数据点作为平衡聚类初始点,然后每个中心点分阶段贪婪地将距离其最近的数据点加入簇中直至达到簇规模上限。在6个UCI真实数据集与2个公开图像数据集上进行的聚类对比实验结果表明:在簇数目较大时相比Fuzzy C-Means聚类结果平衡度最高提升了50%以上;聚类结果的准确率相比Balanced K-Means、BCLS两个表现较好的算法平均提高了8个百分点;算法时间复杂度也更低,在较大规模的数据集上运行时间比Balanced K-Means最高减少了近40%。实验结果表明BCSG具有更佳的聚类效果和时间性能。  相似文献   

11.
一种基于网格和密度的数据流聚类算法   总被引:1,自引:0,他引:1  
在"数据流分析"这一数据挖掘的应用领域中,常规的算法显得很不适用.主要是因为这些算法的挖掘过程不能适应数据流的动态环境,其挖掘模型、挖掘结果不能满足实际应用中用户的需求.针对这一问题,本文提出了一种基于网格和密度的聚类方法,来有效地完成对数据流的分析任务.该方法打破传统聚类方法的束缚,把整个挖掘过程分为离线和在线两步,最终通过基于网格和密度的聚类方法实现数据流聚类.  相似文献   

12.
针对基于u-shapelets的时间序列聚类中u-shapelets集合质量较低的问题,提出一种基于最佳u-shapelets的时间序列聚类算法DivUshapCluster。首先,探讨不同子序列质量评估方法对基于u-shapelets的时间序列聚类结果的影响;然后,选用最佳的子序列质量评估方法对u-shapelet候选集进行质量评估;其次,引入多元top-k查询技术对u-shapelet候选集进行去除冗余操作,搜索出最佳的u-shapelets集合;最后,利用最佳u-shapelets集合对原始数据集进行转化,达到提高时间序列聚类准确率的目的。实验结果表明,DivUshapCluster算法在聚类准确度上不仅优于经典的时间序列聚类算法,而且与BruteForce算法和SUSh算法相比,DivUshapCluster算法在22个数据集上的平均聚类准确度分别提高了18.80%和19.38%。所提算法能够在保证整体效率的情况下有效提高时间序列的聚类准确度。  相似文献   

13.
Clustering based on a near neighbor graph and a grid cell graph   总被引:2,自引:0,他引:2  
This paper presents two novel graph-clustering algorithms, Clustering based on a Near Neighbor Graph (CNNG) and Clustering based on a Grid Cell Graph (CGCG). CNNG algorithm inspired by the idea of near neighbors is an improved graph-clustering method based on Minimum Spanning Tree (MST). In order to analyze massive data sets more efficiently, CGCG algorithm, which is a kind of graph-clustering method based on MST on the level of grid cells, is presented. To clearly describe the two algorithms, we give some important concepts, such as near neighbor point set, near neighbor undirected graph, grid cell, and so on. To effectively implement the two algorithms, we use some efficient partitioning and index methods, such as multidimensional grid partition method, multidimensional index tree, and so on. From simulation experiments of some artificial data sets and seven real data sets, we observe that the time cost of CNNG algorithm can be decreased by using some improving techniques and approximate methods while attaining an acceptable clustering quality, and CGCG algorithm can approximately analyze some dense data sets with linear time cost. Moreover, comparing some classical clustering algorithms, CNNG algorithm can often get better clustering quality or quicker clustering speed.  相似文献   

14.
传统的基于网格的数据流聚类算法在同一粒度的网格上进行聚类,虽然提高了处理速度,但聚类准确性较低。针对此问题,提出一种新的基于双层网格和密度的数据流聚类算法DBG Stream。在2种粒度的网格上对数据流进行聚类,并借鉴CluStream算法的思想,将聚类过程分为2个阶段。在线过程中利用粗粒度的网格单元形成初始聚类,离线过程中在细粒度网格单元上,对位于簇边界的网格单元进行二次聚类以提高聚类精度,并实现了关键参数的自动设置,通过删格策略提高算法效率。实验结果表明,DBG Stream算法的聚类精确度较D Stream算法有较大提高,有效解决了传统基于网格聚类算法的聚类精度较低的问题。  相似文献   

15.
High resolution and high dimensional satellite images cause problems for clustering methods due to clusters of different sizes, shapes and densities as they contain huge amount of data. Due to this reason, most algorithms for clustering satellite data sacrifice the correctness of their results for fast processing time. The processing time may be greatly influenced by the use of grids. In this paper, we propose a grid density based clustering method for detecting the clusters present in satellite images. The clustering is based on both the band values as well as the texture features in the satellite images. Experimental results are presented to establish the efficiency of this technique in detecting the clusters present in satellite images.  相似文献   

16.
当前聚类集成的研究主要是围绕着集成策略的优化展开,而针对基聚类质量的度量及优化却较少研究。基于信息熵理论提出了一种基聚类的质量度量指标,并结合三支决策思想构造了面向基聚类的三支筛选方法。首先预设基聚类筛选三支决策的阈值α、β,然后计算各基聚类中类簇质量的平均值,并把其作为各基聚类的质量度量指标,最后实施三支决策。决策策略为:当某个基聚类的质量度量指标小于阈值β时,删除该基聚类;当某个基聚类的质量度量指标大于等于阈值α时,保留该基聚类;当某个基聚类的质量度量指标大于等于β小于α时,重新计算该基聚类质量,并且再次实施上述三支决策直至没有基聚类被删除或达到指定迭代次数。对比实验结果表明,基聚类三支筛选方法能够有效提升聚类集成效果。  相似文献   

17.
采用一种数据组织方式,提出一种特征向量聚类方法。首先选取特征空间中一些容易聚类的高密度数据点作为初始种子集合,并对其进行聚类。然后从剩下的数据点中选取种子集合的所有k近邻数据点,通过半监督判别式分析方法将当前种子集合及其k近邻数据投影到一个新的投影空间中,在该空间中对这些数据点再进行聚类,得到新的聚类结果,并将这些k近邻数据添加到当前种子集合中。通过迭代上述步骤,当种子集合的k近邻数据为空集时,算法结束。实验表明,该聚类方法优于经典的K-means、均值漂移、谱聚类等算法。  相似文献   

18.
针对二维流场可视化均是基于结构化网格流场数据的情况,提出一种基于非结构化三角网格的海洋流场可视化策略:使用流线表达流场,流线可视化的主要挑战是种子点放置问题,即流线的初始点,制定了非结构化三角网格下基于特征引导的种子点放置策略,合理放置流线初始点以利于表达流场特征;设计了基于网格密度的层次聚类算法,引入网格密度属性对流线进行聚类并基于聚类质心进行流线放置,在保留了FVCOM 模式数据的多密度性前提下提高了流线可视化效果。实验表明,该方法可以有效地保留流场特征,并且借助 FVCOM 模式的边界拟合性能在海湾、河道等地区取得良好的可视化效果;在此基础上,基于 Cesium引擎开发了基于流线聚类数据的动态流场可视化应用,其是 FVCOM 模式数据首次应用于动态粒子流场的一次尝试,并且具有较好的可视化效果。  相似文献   

19.
针对滑坡危险性预测中降雨等不确定诱发因素难以有效处理,CFSFDP算法需要人工尝试设置密度阈值以及对大规模数据集无法进行准确聚类等问题,为了提高滑坡危险性预测准确度,提出一种基于网格与类合并的不确定CFSFDP (简称不确定GM-CFSFDP)聚类算法.该算法首先引入不确定数据处理方法,设计了E-ML距离公式,有效刻画降雨不确定因素;其次通过网格划分的思想把大规模数据集划分到多个网格空间中,实现大规模数据有效编码;计算网格平均密度,建立网格密度阈值分布模型,动态获得网格密度阈值;最后利用层次聚类思想对关联性较高的类进行合并,构建不确定GM-CFSFDP算法模型,在延安宝塔区进行滑坡实例验证.实验结果表明不确定GM-CFSFDP聚类算法获得较高的预测精度,从而验证了该算法在滑坡危险性预测中的可行性和先进性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号