共查询到20条相似文献,搜索用时 0 毫秒
1.
2.
许多应用程序会产生大量的流数据,如网络流、web点击流、视频流、事件流和语义概念流。数据流挖掘已成为热点问题,其目标是从连续不断的流数据中提取隐藏的知识/模式。聚类作为数据流挖掘领域的一个重要问题,在近期被广泛研究。不同于传统的静态数据聚类问题,数据流聚类面临有限内存、一遍扫描、实时响应和概念漂移等许多约束。本文对数据流挖掘中的各种聚类算法进行了总结。首先介绍了数据流挖掘的约束;随后给出了数据流聚类的一般模型,并描述了其与传统数据聚类之间的关联;最后提出数据流聚类领域中进一步的研究热点和研究方向。 相似文献
3.
4.
5.
数据流的网格密度聚类算法 总被引:3,自引:0,他引:3
提出一种基于密度的实时数据流聚类算法RTCS.算法采用在线/离线双层框架,它在前台在线层快速实时地将到达的数据点放入相应的单元格,对多维数据和空间单元格动态计算密度.在后台离线层形成初始聚类,并不断地更新单元格的密度来自适应地调整聚类.RTCS算法能够根据密度的动态变化区分出真正的孤立点并剔除之,而这种剔除对后面的聚类结果没有影响.实验结果证明,算法可以很好地挖掘出各种形状的聚类,与CluStream算法相比,取得聚类的质量更高,有更快的处理速度,对数据维数和规模有更好的可扩展性. 相似文献
6.
数据挖掘中聚类算法研究 总被引:13,自引:7,他引:13
聚类分析是数据挖掘领域中一个非常热门的研究课题,应用于各个领域的聚类算法非常多。本文介绍了衡量聚类算法性能的几个指标,对聚类分析进行了分类,列举了每类中典型的聚类算法,重点分析了神经网络中的自组织特征映射(SOM)算法。最后提及了聚类分析方法的应用范围以及今后需要解决的问题和发展方向。 相似文献
7.
针对分布式数据流中数据有交叠、不完整的情况和聚类需要较低通信代价的要求,提出了密度和模型聚类思想相结合的分布式数据流聚类算法DAM-Distream。该算法利用混合高斯模型描述数据流的分布概况,可以有效压缩数据量并能较好的反映分布数据流间的交叠性。由于获得模型参数的EM算法对初值敏感,应用Hoeffding界理论和基于密度的算法对数据流进行初聚类,得到比较准确的初始参数,最后采用合并近似模型策略获得全局模型。仿真实验结果表明,DAM-Distream能有效克服EM算法的缺点,获得的模型参数性能更优,在降低系统的通信代价的同时能提高分布式环境下数据流的聚类质量。 相似文献
8.
9.
数据流管理作为一种新兴课题正在逐渐受到国内外广大研究学者的重视,数据流聚类是其中的一个重要研究领域。论文基于BIRCH聚类算法,提出了一种M-BIRCH聚类算法,克服了BIRCH算法对非球形的聚类效果不佳等缺点。实验结果证明,M-BIRCH聚类算法在聚类质量上比BIRCH有较大提高。 相似文献
10.
魏丽 《数字社区&智能家居》2007,(11):637-639
聚类分析技术是数据挖据中的一种重要技术。本文介绍了数据挖掘对聚类的典型要求和聚类方法的分类,研究分析了聚类的主要算法.并从多个方面对这些算法的性能进行比较。 相似文献
11.
魏丽 《数字社区&智能家居》2007,(21)
聚类分析技术是数据挖据中的一种重要技术.本文介绍了数据挖掘对聚类的典型要求和聚类方法的分类,研究分析了聚类的主要算法,并从多个方面对这些算法的性能进行比较. 相似文献
12.
数据挖掘中聚类算法研究进展 总被引:6,自引:0,他引:6
聚类分析是数据挖掘中重要的研究内容之一,对聚类准则进行了总结,对五类传统的聚类算法的研究现状和进展进行了较为全面的总结,就一些新的聚类算法进行了梳理,根据样本归属关系、样本数据预处理、样本的相似性度量、样本的更新策略、样本的高维性和与其他学科的融合等六个方面对聚类中近20多个新算法,如粒度聚类、不确定聚类、量子聚类、核聚类、谱聚类、聚类集成、概念聚类、球壳聚类、仿射聚类、数据流聚类等,分别进行了详细的概括。这对聚类是一个很好的总结,对聚类的发展具有积极意义。 相似文献
13.
聚类是一种非常有用的数据挖掘方法,可用于发现隐藏在数据背后的分组和数据分布信息。CURE算法就是一个典型的代表。本文对CURE算法进行了研究,它能够很好的解决传统聚类算法在伸缩性、数据定期更新时所面临的问题。 相似文献
14.
实时数据流聚类是目前国际数据库和数据管理领域的新兴研究热点.综述了实时数据流聚类的最新研究进展,在介绍实时数据流聚类的相关理论和常用技术的基础上,对现有各种代表性算法的优势和不足进行了系统地分析,从处理速度、聚类形状、演化分析、高维性及噪声健壮性5个方面对算法的性能进行了比较.探讨了基于聚类的实时数据流演化分析方法及其局限性.最后展望了将来可能的研究方向. 相似文献
15.
16.
数据挖掘中聚类算法比较研究 总被引:16,自引:0,他引:16
聚类算法是数据挖掘的核心技术,本文结合提出了评价聚类算法好坏的5个标准,基于这5个标准,对数据挖掘中常用聚类算法作了比较分析,以便于人们更容易,更快捷地找到一种适用于特定问题的聚类算法。 相似文献
17.
基于密度的优化数据流聚类算法 总被引:1,自引:1,他引:1
为了解决数据流聚类算法中有效处理离群点这一关键问题,改进了基于密度的数据流聚类算法,在DenStream算法基础上提出了具有双检测时间策略DDTS(double derection time strategy)的基于密度的数据流聚类算法.该策略在数据流流速波动的情况下,结合时间与流数据数量两方面因素对微簇进行测试.通过在线动态维护和删减微簇,保存可能升级的离群点来改善聚类效果.实验结果表明,改进算法具有良好的适用性和有效性,能够取得较高的聚类质量. 相似文献
18.
经典的密度聚类算法是DBSCAN(Density—BasedSpatialClusteringofApplicationswithNoise).它在处理空间数据时具有快速、有效处理噪声点和发现任意形状的聚类等优点。但是DBSCAN存在一些缺点,因此许多密度聚类算法被提出来,包括:基于抽样的DBSCAN、基于数据分区的DBSCAN、基于密度梯度的聚类算法和基于相对密度的聚类算法等。 相似文献
19.