首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
面对复杂信息环境下的数据预处理需求,提出了一种可以处理混合属性数据集的双重聚类方法。这种双重聚类方法由双重近邻无向图的构造算法或其改进算法,基于分离集合并的双重近邻图聚类算法、基于宽度优先搜索的双重近邻图聚类算法、或基于深度优先搜索的双重近邻图聚类算法来实现。通过人工数据集和UCI标准数据集的仿真实验,可以验证,尽管这三个聚类算法所采用的搜索策略不同,但最终的结果是一致的。仿真实验结果还表明,对于一些具有明显聚类分布结构且无近邻噪声干扰的数据集,该方法经常能取得比K-means算法和AP算法更好的聚类精度,从而说明这种双重聚类方法具有一定的有效性。为进一步推广并在实际中发掘出该方法的应用价值,最后给出了一点较有价值的研究展望。  相似文献   

2.
数据挖掘常用聚类算法研究   总被引:2,自引:0,他引:2  
信息社会的发展,使数据量以前所未有的速度在增长,因此从海量数据中获取有用的知识和信息就变得越来越重要。数据挖掘是一种综合多领域知识而形成的数据分析技术,能够从大量数据中获取有价值的知识并为决策提供支持。聚类分析算法是数据挖掘中的一个核心内容,也是目前研究的一个热点。该文首先讲述了基于划分的聚类算法、基于分层的聚类算法、基于密度的聚类算法和基于网格的聚类算法等常用的聚类分析算法,并分析了其特点;然后通过举例详细描述了最近邻聚类算法的操作过程。聚类算法的总结,对聚类的研究和发展具有积极意义。  相似文献   

3.
面对混合属性数据集的数据预处理需求,本文在给出若干定义及相关性质之后,提出了一种基于近邻连接的两阶段聚类算法。为提高算法的时间效率,给出了算法改进的思路与技术。多个人工数据集和UCI标准数据集的仿真实验结果表明,对于一些具有明显聚类分布结构的数据集,该算法经常能取得比k-means算法和AP算法更好的聚类精度,说明它具有一定的有效性。为进一步推广并在实际中发掘出该算法的应用价值,最后给出了几点研究展望。  相似文献   

4.
樊仲欣 《计算机应用》2020,40(8):2248-2254
聚类趋势分析算法基于抽样原理导致聚类趋势指标不稳定和片面,而且不适应数据流的批量增量特性,因而需要重复进行聚类趋势指数计算。为此,基于全体数据进行整体分析,提出一种基于最小距离连通图(MDCG)的聚类趋势分析算法MDCG-CTI。首先,利用栈的深度优先遍历法更新增量数据的最邻近路径从而降低MDCG的建立复杂度;然后,计算聚类趋势指数并确定可聚类性的判定阈值;最后,将所提算法和批量增量的具有噪声的基于密度的聚类方法(DBSCAN)相结合。在自定义数据集上的实验表明,该算法比现有算法对单簇和含大量噪点的数据的可聚类性判断更为精确;而在大数据集pendigits和avila上,所提算法比基于谱方法的聚类趋势可视化分析(SpecVAT)累计耗时降低了38%和42%,且相较SpecVAT结合批量增量DBSCAN,该算法结合批量增量DBSCAN的聚类平均准确率分别提高了6%和11%,聚类累计耗时则分别降低了7%和8%。实验结果表明该算法可以准确无参地判断聚类趋势,并明显提高增量聚类的有效性和运行效率。  相似文献   

5.
研究复杂网络的链路预测算法对分析舆论传播方向、预测舆论演进趋势和控制舆论发展进程具有重要意义。针对现有的基于节点度的链路预测算法存在预测质量偏低的问题,提出了一种结合二层节点度和聚类系数的链路预测算法。算法全面考虑网络局部结构信息以及共同邻居节点之间的差异性,在相似性评价指标的选择上将节点度和聚类系数结合,深度挖掘节点相似性性质并将节点度扩展到二层。最后在三个真实数据集中分别进行仿真实验,结果表明提出的算法相比于Common Neighbors、Adamic-Adar和Resource Allocation等经典算法具有更好的性能。  相似文献   

6.
一种基于密度树的网格快速聚类算法的研究   总被引:3,自引:0,他引:3  
聚类算法是数据挖掘领域中一个非常重要的研究方向。人们已经提出了许多适用于大规模的、高维的数据库的聚类算法。基于密度的聚类算法是其中一个比较典型的研究方向。该文以CABDET算法为基础,提出了一种基于密度树的网格快速聚类算法,该算法将网格的原理运用到基于密度树的聚类算法中,有效地提高了聚类的效率,降低了I/O的开销。  相似文献   

7.
Clustering is an important field for making data meaningful at various applications such as processing satellite images, extracting information from financial data or even processing data in social sciences. This paper presents a new clustering approach called Gaussian Density Distance (GDD) clustering algorithm based on distance and density properties of sample space. The novel part of the method is to find best possible clusters without any prior information and parameters. Another novel part of the algorithm is that it forms clusters very close to human clustering perception when executed on two dimensional data. GDD has some similarities with today’s most popular clustering algorithms; however, it uses both Gaussian kernel and distances to form clusters according to data density and shape. Since GDD does not require any special parameters prior to run, resulting clusters do not change at different runs. During the study, an experimental framework is designed for analysis of the proposed clustering algorithm and its evaluation, based on clustering performance for some characteristic data sets. The algorithm is extensively tested using several synthetic data sets and some of the selected results are presented in the paper. Comparative study outcomes produced by other well-known clustering algorithms are also discussed in the paper.  相似文献   

8.
周欢欢  郑伯川  张征  张琦 《计算机应用》2022,42(5):1464-1471
针对基于共享最近邻的密度峰聚类算法中的近邻参数需要人为设定的问题,提出了一种基于自适应近邻参数的密度峰聚类算法。首先,利用所提出的近邻参数搜索算法自动获得近邻参数;然后,通过决策图选取聚类中心;最后,根据所提出的代表点分配策略,先分配代表点,后分配非代表点,从而实现所有样本点的聚类。将所提出的算法与基于共享最近邻的快速密度峰搜索聚类(SNN?DPC)、基于密度峰值的聚类(DPC)、近邻传播聚类(AP)、对点排序来确定聚类结构(OPTICS)、基于密度的噪声应用空间聚类(DBSCAN)和K-means这6种算法在合成数据集以及UCI数据集上进行聚类结果对比。实验结果表明,所提出的算法在调整互信息(AMI)、调整兰德系数(ARI)和FM指数(FMI)等评价指标上整体优于其他6种算法。所提算法能自动获得有效的近邻参数,且能较好地分配簇边缘区域的样本点。  相似文献   

9.
一种进行K-Means聚类的有效方法   总被引:1,自引:0,他引:1  
现有的K-Means聚类算法均直接作用于多维数据集上,因此,当数据集基数和聚类属性个数较大时,这些聚类算法的效率极其低下。为此,文中提出一种基于正规格结构的有效聚类方法(KMCRG)。KMCRG算法以单元格为处理对象来有效完成K-Means聚类工作。特别,该算法使用格加权迭代的策略来有效返回最终的K个类。实验结果表明,KMCRG算法在不损失聚类精度的基础上能够快速返回聚类结果。  相似文献   

10.
Traditional minimum spanning tree-based clustering algorithms only make use of information about edges contained in the tree to partition a data set. As a result, with limited information about the structure underlying a data set, these algorithms are vulnerable to outliers. To address this issue, this paper presents a simple while efficient MST-inspired clustering algorithm. It works by finding a local density factor for each data point during the construction of an MST and discarding outliers, i.e., those whose local density factor is larger than a threshold, to increase the separation between clusters. This algorithm is easy to implement, requiring an implementation of iDistance as the only k-nearest neighbor search structure. Experiments performed on both small low-dimensional data sets and large high-dimensional data sets demonstrate the efficacy of our method.  相似文献   

11.
基于适应度的簇划分算法研究   总被引:2,自引:0,他引:2  
延长网络生存期、减少网络能量消耗是传感器网络一项重要性能指标,分簇方案是实现该目标的主要方法之一.通过分析影响簇状网能耗的主要能耗参数,引入节点适应度模型,并该模型运用到簇划分算法中,优化网络能量效率.算法是分布式簇划分算法,在簇划分过程中,通过比较节点局部区域能量比、通信代价比、节点度数综合能耗因素,决定簇首节点和成簇规模.仿真结果表明该算法能够降低簇间的通信重叠,均衡网络负载,与几种算法比较适应度分簇算法使网络生存时间增加的幅度虽然不是很大,但是使网络系统的稳定时间比其他2种能量有效的算法延长了近20%左右.  相似文献   

12.
谱聚类是基于谱图划分理论的一种聚类算法,传统的谱聚类算法属于无监督学习算法,只能利用单一数据来进行聚类。针对这种情况,提出一种基于密度自适应邻域相似图的半监督谱聚类(DAN-SSC)算法。DAN-SSC算法在传统谱聚类算法的基础上结合了半监督学习的思想,很好地解决了传统谱聚类算法无法充分利用所有数据,不得不对一些有标签数据进行舍弃的问题;将少量的成对约束先验信息扩散至整个空间,使其能更好地对聚类过程进行指导。实验结果表明,DAN-SSC算法具有可行性和有效性。  相似文献   

13.
块对角表示(BDR)模型可以通过利用线性表示对数据有效地进行聚类,却无法很好地利用高维数据常见的非线性流形结构信息。针对这一问题,提出了基于近邻图改进的块对角子空间聚类(BDRNG)算法来通过近邻图来线性拟合高维数据的局部几何结构,并通过块对角约束来生成具有全局信息的块对角结构。BDRNG同时学习全局信息以及局部数据结构,从而获得更好的聚类表现。由于模型包含近邻图算子和非凸的块对角表示范数,BDRNG 采用了交替最小化来优化求解算法。实验结果如下:在噪声数据集上,BDRNG能够生成稳定的块对角结构系数矩阵,这说明了BDRNG对于噪声数据具有鲁棒性;在标准数据集上,BDRNG的聚类表现均优于BDR,尤其在人脸数据集上,相较于BDR,BDRNG的聚类准确度提高了8%。  相似文献   

14.
邱保志  程栾 《计算机应用》2018,38(9):2511-2514
针对聚类算法的聚类中心选取需要人工参与的问题,提出了一种基于拉普拉斯中心性和密度峰值的无参数聚类算法(ALPC)。首先,使用拉普拉斯中心性度量对象的中心性;然后,使用正态分布概率统计方法确定聚类中心对象;最后,依据对象到各个中心的距离将各个对象分配到相应聚类中心实现聚类。所提算法克服了算法需要凭借经验参数和人工选取聚类中心的缺点。在人工数据集和真实数据集上的实验结果表明,与经典的具有噪声的基于密度的聚类方法(DBSCAN)、密度峰值聚类(DPC)算法以及拉普拉斯中心峰聚类(LPC)算法相比,ALPC具有自动确定聚类中心、无参数的特点,且具有较高的聚类精度。  相似文献   

15.
丁利  向来生  刘希玉  宋超超 《计算机应用》2012,32(12):3278-3282
第四方物流企业联盟建立问题是研究如何将区域内物流企业以一种高效、低联系代价的方式建立合作联盟的问题。针对该问题提出一种基于离散粒子群优化算法的改进图聚类算法,有助于降低合作联盟之间的联系代价。通过离散粒子群算法优化基本图聚类算法得到的初期聚类结果,利用扰动策略对优化结果进行再拓展。对于实验中的100家虚拟企业进行了聚类,使得联盟企业内部总联系代价从初始时的39991降低到最后的24800。实验结果表明,基于离散粒子群算法的改进图聚类算法能以较低的花费解决物流企业联盟建立问题。  相似文献   

16.
Clustering algorithms are routinely used in biomedical disciplines, and are a basic tool in bioinformatics. Depending on the task at hand, there are two most popular options, the central partitional techniques and the agglomerative hierarchical clustering techniques and their derivatives. These methods are well studied and well established. However, both categories have some drawbacks related to data dimensionality (for partitional algorithms) and to the bottom-up structure (for hierarchical agglomerative algorithms). To overcome these limitations, motivated by the problem of gene expression analysis with DNA microarrays, we present a hierarchical clustering algorithm based on a completely different principle, which is the analysis of shared farthest neighbors. We present a framework for clustering using ranks and indexes, and introduce the shared farthest neighbors (SFN) clustering criterion. We illustrate the properties of the method and present experimental results on different data sets, using the strategy of evaluating data clustering by extrinsic knowledge given by class labels.  相似文献   

17.
Classical clustering methods, such as partitioning and hierarchical clustering algorithms, often fail to deliver satisfactory results, given clusters of arbitrary shapes. Motivated by a clustering validity index based on inter-cluster and intra-cluster density, we propose that the clustering validity index be used not only globally to find optimal partitions of input data, but also locally to determine which two neighboring clusters are to be merged in a hierarchical clustering of Self-Organizing Map (SOM). A new two-level SOM-based clustering algorithm using the clustering validity index is also proposed. Experimental results on synthetic and real data sets demonstrate that the proposed clustering algorithm is able to cluster data in a better way than classical clustering algorithms on an SOM.  相似文献   

18.
为了解决网格聚类算法中的输入参数和聚类结果不精确问题,提出了基于局部密度的动态生成网格聚类算法(DGLD).该算法使用动态生成网格技术能大幅度地减少数据空间中生成的网格单元的数量,并简化邻居的搜索过程;采用局部密度思想解决数据空间相邻部分对网格密度的影响,提高了聚类精度.该算法不需要用户输入参数,能识别任意形状的聚类并有效地去除噪声点.实验结果表明该算法是有效的.  相似文献   

19.
图结构聚类(SCAN)是一种著名的基于密度的图聚类算法。该算法不仅能够找到图中的聚类结构,而且还能发现图中的Hub节点和离群节点。然而,随着图数据规模越来越大,传统的SCAN算法的复杂度为O(m1.5)(m为图中边的条数),因此很难处理大规模的图数据。为了解决SCAN算法的可扩展性问题,本文提出了一种新颖的基于MapReduce的海量图结构聚类算法MRSCAN。具体地,我们提出了一种计算核心节点,以及两种合并聚类的MapReduce算法。最后,在多个真实的大规模图数据集上进行实验测试,实验结果验证了算法的准确性、有效性,以及可扩展性。  相似文献   

20.
潘振君  梁成  张化祥 《计算机应用》2021,41(12):3438-3446
针对多视图数据分析易受原始数据集噪声干扰,以及需要额外的步骤计算聚类结果的问题,提出一种基于一致图学习的鲁棒多视图子空间聚类(RMCGL)算法。首先,在各个视图下学习数据在子空间中的潜在鲁棒表示,并基于该表示得到各视图的相似度矩阵。随后,基于得到的多个相似度矩阵学习一个统一的相似度图。最后,通过对相似度图对应的拉普拉斯矩阵添加秩约束,确保得到的相似度图具有最优的聚类结构,并可直接得到最终的聚类结果。该过程在一个统一的优化框架中完成,能同时学习潜在鲁棒表示、相似度矩阵和一致图。RMCGL算法的聚类精度(ACC)在BBC、100leaves和MSRC数据集上比基于图的多视图聚类(GMC)算法分别提升了3.36个百分点、5.82个百分点和5.71个百分点。实验结果表明,该算法具有良好的聚类效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号