首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 280 毫秒
1.
针对传统密度聚类算法处理海量数据时间复杂度高且不适合处理动态数据等问题,提出一种利用参考点和MapReduce模型进行动态增量聚类的密度算法。其创新点在于,该算法实现了一种能够处理海量动态数据的聚类算法,保证了增量聚类与重新聚类结果的一致性,并具有可扩展性的特点。实验结果证明:该算法降低了参数敏感性,提高了密度算法的聚类效率和资源利用率,适合大数据分析。  相似文献   

2.
为了有效聚类动态数据,妥善处理已存在的类簇与新增数据的关系,高效利用计算资源,提高聚类的效率,扩散涌现的增量聚类算法被提出.该算法在扩散涌现聚类算法的基础上,利用近邻传播算法完善了算法的分裂机制,实现了新旧数据的有效聚合.实验结果表明,该算法有效实现了动态数据的聚类,提高了聚合动态数据的效率和资源的利用率.  相似文献   

3.
针对传统的聚类算法存在开销大、聚类质量差、聚类速度慢等问题,提出一种新的云计算环境下高复杂度动态数据的增量密度快速聚类算法。首先,依据密度对云计算环境下高复杂度动态数据进行聚类,从数据空间中找到部分子空间,使得数据映射至该空间后可产生高密度点集区域,将连通区域的集合看作聚类结果;其次,通过DBSCAN算法进行增量聚类,并对插入或删除数据导致的原聚类合并或分裂进行研究;最后,在更新的过程中通过改变核心状态数据的邻域中含有的全部核心数据进行处理,从插入或删除数据两方面进行增量聚类分析。实验结果表明,所提算法开销低、聚类速度快、聚类质量高。  相似文献   

4.
一种新型的基于密度和栅格的聚类算法*   总被引:2,自引:1,他引:1  
针对网格和密度方法的聚类算法存在效率和质量问题,给出了密度和栅格相结合的聚类挖掘算法,即基于密度和栅格的聚类算法DGCA(density and grid based clustering algorithm)。该算法首先将数据空间划分为栅格单元,然后把数据存储到栅格单元中,利用DBSCAN密度聚类算法进行聚类挖掘;最后进行聚类合并和噪声点消除,并将局部聚类结果映射到全局聚类结果。实验通过人工数据样本集对该聚类算法进行理论上验证,表明了该算法在时间效率和聚类质量两方面都得到了提高。  相似文献   

5.
基于密度的最小生成树聚类算法,将最小生成树理论与基于密度的方法相结合,不仅体现了基于密度聚类方法的优点,而且聚类结果不依赖于用户参数的选择,聚类结果更合理,特别是对大数据集,算法非常有效。因此,本文在基于密度的MST聚类的基础上,通过减少数据集扫描次数以提高离群检测的效率。理论分析表明,检测算法可以有效地处理分布不均的数据集,适用于大规模数据集的挖掘。  相似文献   

6.
传统数据流聚类算法大多基于距离或密度,聚类质量和处理效率都不高。针对以上问题,提出了一种基于关联函数的数据流聚类算法。首先,将数据点以物元的形式模型化,建立解决问题所需要的关联函数;其次,计算关联函数的值,以此值的大小来判断数据点属于某簇的程度;然后,将所提方法运用到数据流聚类的在线-离线框架中;最后,采用真实数据集KDD-CUP99和随机生成的人工数据集进行算法的测试。实验结果表明,所提方法的聚类纯度在92%以上,每秒能处理约6300条记录,与传统算法相比,处理效率有了较大的提高,在维度和簇数目方面的可扩展性较强,适用于处理大规模的动态数据集。  相似文献   

7.
传统DBSCAN算法不能正确聚类密度不均匀的数据集,聚类结果受邻域阈值和密度阈值参数的影响较大。提出一种新的优化初始点和自适应半径的密度聚类算法。利用反向最近邻和相似度矩阵发现当前全局密度最大的数据样本,分析该样本周围密度的分布情况,采用自适应的方法计算当前簇的邻域阈值,并利用DBSCAN算法进行聚类。在人工数据集和UCI数据集上进行测试的结果表明,与经典的DBSCAN、OPTICS、RNN-DBSCAN算法相比,优化初始点和自适应半径的密度聚类算法在ARI、NMI、Homogeneity、Completeness和V-measure 5个评价指标上整体取得最优值,其中在Compound、Jain等数据集上达到1.0,具有较高的聚类效率和准确度。  相似文献   

8.
基于密度可达的多密度聚类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
为对多密度数据集聚类,提出一种基于密度可达的多密度聚类算法。使用网格划分技术来提高计算每个点密度值的效率,每次聚类都是从最高密度点开始,根据密度可达的概念和广度优先的策略逐步向外扩展进行聚类。实验表明,该算法能够有效地对任意形状、大小的均匀数据集和多密度数据集进行聚类,并能较好地识别出孤立点和噪声,其精度和效率优于SNN算法。  相似文献   

9.
针对经典k_均值聚类方法只能处理静态数据聚类的问题,本文提出一种能够处理动态数据的改进动态k-均值聚类算法,称为Dynamical K-means算法.该方法在经典k-均值方法的基础上,通过对动态变化的数据集中 新加入样本进行分析和处理,根据聚类目标函数改变的实际情况选择最相似的类别进行局部更新或进行全局经典k_均值聚类,有效检测发生聚类概念漂移和没有发生聚类概念漂移的情况,从而实现了动态数据的在线聚类,避免了经典k_均值方法在动态数据中每次都要对全部数据重新聚类而导致算法速度过慢的问题.标准数据集和人工社会网络数据集上的实验结果表明,与经典k_均值聚类方法相比,本文提出的动态k_均值聚类方法能快速高效地处理动态数据聚类问题,并有效地检测动态数据聚类过程中所产生的概念漂移问题.  相似文献   

10.
针对大部分聚类算法无法高效地发现任意形状及不同密度的簇的问题,提出了一种高效的基于距离关联性动态模型的聚类改进算法。首先,为提高聚类效率,使用层次聚类算法对数据集进行初始聚类,并剔除样本点含量过低的簇;其次,为发现任意形状及不同密度的簇,以初始聚类结果的簇的质心作为代表点,利用距离关联性动态模型进行聚类,并利用层次聚类的树状结构进行有效的剪枝计算;最后,检验算法的有效性。实验采用Chameleon数据集进行测试,结果表明,该算法能够有效识别任意形状及不同密度的簇,且与同类算法相比,时间效率有显著的提高。  相似文献   

11.
杨天鹏  陈黎飞 《计算机应用》2018,38(10):2844-2849
针对传统K-means型算法的"均匀效应"问题,提出一种基于概率模型的聚类算法。首先,提出一个描述非均匀数据簇的高斯混合分布模型,该模型允许数据集中同时包含密度和大小存在差异的簇;其次,推导了非均匀数据聚类的目标优化函数,并定义了优化该函数的期望最大化(EM)型聚类算法。分析结果表明,所提算法可以进行非均匀数据的软子空间聚类。最后,在合成数据集与实际数据集上进行的实验结果表明,所提算法有较高的聚类精度,与现有K-means型算法及基于欠抽样的算法相比,所提算法获得了5%~50%的精度提升。  相似文献   

12.
聚类分析是数据挖掘的一种重要方法。本文受鸟群聚集行为的启发,提出了一种新的聚类方法——差异粒子群聚类算法(DPSC)。DPSC算法将样本数据转化为具有行为能力的粒子,通过促使不同类别的粒子相互分离,而同类的粒子高度聚集,最终在粒子的运动中涌现出整个数据群体的内部组织结构,从而完成对样本数据的聚类。在三个标准数据集和六个人工复杂数据集上同K-Means、PSO和PSO+K-Means算法进行了比较,结果显示DPSC算法的聚类性能更优异。  相似文献   

13.
分布不均衡的数据在通过传统聚类分析的方式进行标注时,聚类效果容易偏向于样本数多的类,从而造成标注出现误差的问题。针对此问题提出改进的含有均衡约束聚类算法的标注方法,对不均衡数据的聚类标注准确率实现了比较有效的提高,方法包含数据初始聚类、专家知识调整,数据均衡化处理,含均衡约束聚类等步骤。通过初始聚类对不均衡数据进行初始类标签分配,专家知识调整对部分数据错误标注进行标签调整修改,对数据进行均衡化处理得到均衡数据集,通过均衡约束聚类对均衡数据进行标签最终精确分配。经仿真验证表明,上述方法比较有效的提高了不均衡数据标注准确率。  相似文献   

14.
基于马氏距离特征加权的模糊聚类新算法   总被引:2,自引:0,他引:2       下载免费PDF全文
模糊聚类分析是模糊模式识别中一个重要研究领域,而其中最经典的模糊C均值算法认为样本矢量各特征对聚类结果贡献均匀,没有考虑不同的属性特征对模式分类的不同影响,在处理属性高相关的数据集时,该算法分错率增加。针对这些问题,提出了一种基于马氏距离特征加权的模糊聚类算法,利用自适应马氏距离的优点对特征加权处理,对高属性相关的数据集进行更有效的分类。实验证明该方法的可行性和有效性。  相似文献   

15.
针对目前聚类算法对大数据集的聚类分析中存在时间花费过大的问题,提出了一种基于最近邻相似性的数据集压缩算法。通过将若干个相似性最近邻的数据点划分成一个数据簇并随机选择簇头构成新的数据集,大大缩减了数据的规模。然后分别采用k-means算法和AP算法对压缩后的数据集进行聚类分析。实验结果表明,压缩后的数据集与原始数据集的聚类分析相比,在保证聚类准确率基本一致的前提下有效降低了聚类的花费时长,提高了算法的聚类性能,证明该数据集压缩算法在聚类分析中的有效性与可靠性。  相似文献   

16.
创意FCM算法     
针对现有模糊聚类方法仅仅是对已有数据点的聚类的不足,提出了在已有数据集的基础上找到新的一类集群的聚类方法 CFCM。该算法在FCM算法的基础上,通过引入观测点P作为聚类的先验知识,来大致确定未知集群的聚类中心,定义了权重系数λ来限定观测点对新的一类聚类中心形成的影响程度。人造数据集和UCI真实数据集的实验结果表明,该算法不仅对已知数据点有较好的聚类效果,并且可以在观测点P的作用下在特定区域创造出新的一类无已知数据点的集群中心点的大致位置,因而在实际中有潜在应用价值。  相似文献   

17.
When gene expression datasets contain some labeled data samples, the labeled information should be incorporated into clustering algorithm such that more reasonable clustering results can be achieved. In this paper, a novel semi-supervised clustering algorithm, Semi-supervised Iterative Visual Clustering Algorithm (Semi-IVCA), is presented to tackle with such datasets. The new algorithm first constructs the visual sampling image of the dataset based on visual theorem and obtains its attractors using the gradient learning rules, where each attractor denotes a cluster of the dataset. Then the new algorithm introduces an iterative clustering procedure to realize the semi-supervised learning. The new algorithm is a generalization of the current Visual Clustering Algorithm (VCA) presented by authors. Except for the advantage that Semi-IVCA can effectively utilize the labeled data information in clustering, it is robust and insensitive to initialization, and it has strong parameter learning capability and good interpretation for the clustering results. When the new algorithm Semi-IVCA is applied to the artificial and real gene expression datasets, the experimental results confirm the above advantages of algorithm Semi-IVCA.  相似文献   

18.
Clustering analysis is the major application area of data mining where particle swarm optimization (PSO) is being widely implemented due to its simplicity and efficiency. In this paper, we present a new variant of PSO algorithm well tailored to clustering analysis. The proposed algorithm encodes each particle as a bi-dimensional vector, where in the first dimension we look for the optimal number of clusters and in the second dimension, we look for the best centroid of each cluster. In this PSO clustering algorithm a new updating positions rule is proposed to deal with our clustering objective. The performance of the proposed algorithm is tested according to artificial datasets and real datasets. The achieved results present actually good performance and still promising in future perspective.  相似文献   

19.
为了提高进化数据流的聚类质量,提出基于半监督近邻传播的数据流聚类算法(SAPStream),该算法借鉴半监督聚类的思想对初始数据流构造相似度矩阵进行近邻传播聚类,建立在线聚类模型,随着数据流的进化,应用衰减窗口技术对聚类模型适时做出调整,对产生的类代表点和新到来的数据点再次聚类得到数据流的聚类结果。对数据流进行动态聚类的实验结果表明该算法是高质有效的。  相似文献   

20.
进化数据流中基于密度的聚类算法   总被引:1,自引:1,他引:0  
分析当前数据流聚类算法的优点及不足,提出一种新的进化数据流中基于密度的聚类算法——Sdstream算法,该算法能够分析并处理大规模进化数据流,利用真实数据集和仿真数据集对其进行性能测试,实验结果表明,该算法具有良好的适用性、有效性和可扩展性,能够取得较高的聚类效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号