共查询到16条相似文献,搜索用时 156 毫秒
1.
2.
提出了基于分形的数据流聚类算法,利用分形维数的变化程度来度量数据点与聚类的自相似程度,在噪音干扰下能发现反映数据流自然聚集状态的任意形状的聚类。实验证明,FClustream算法是一种高效的数据流聚类算法。 相似文献
3.
一种基于网格和密度的数据流聚类算法 总被引:1,自引:0,他引:1
在"数据流分析"这一数据挖掘的应用领域中,常规的算法显得很不适用.主要是因为这些算法的挖掘过程不能适应数据流的动态环境,其挖掘模型、挖掘结果不能满足实际应用中用户的需求.针对这一问题,本文提出了一种基于网格和密度的聚类方法,来有效地完成对数据流的分析任务.该方法打破传统聚类方法的束缚,把整个挖掘过程分为离线和在线两步,最终通过基于网格和密度的聚类方法实现数据流聚类. 相似文献
4.
传统的基于网格的数据流聚类算法采用固定划分网格的方法,虽然算法的处理速度较快,但是聚类准确性较低。针对此问题,提出了一种新的基于移动网格和密度的数据流聚类算法。在算法中引进了权重与衰减系数,利用移动网格技术对数据流的边界点进行处理,增强了聚类的准确性,提高了算法的运行效率。 相似文献
5.
传统的基于网格的数据流聚类算法在同一粒度的网格上进行聚类,虽然提高了处理速度,但聚类准确性较低。针对此问题,提出一种新的基于双层网格和密度的数据流聚类算法DBG Stream。在2种粒度的网格上对数据流进行聚类,并借鉴CluStream算法的思想,将聚类过程分为2个阶段。在线过程中利用粗粒度的网格单元形成初始聚类,离线过程中在细粒度网格单元上,对位于簇边界的网格单元进行二次聚类以提高聚类精度,并实现了关键参数的自动设置,通过删格策略提高算法效率。实验结果表明,DBG Stream算法的聚类精确度较D Stream算法有较大提高,有效解决了传统基于网格聚类算法的聚类精度较低的问题。 相似文献
6.
针对传统密度网格算法在聚类中自动获取密度阈值不够精确的问题,提出了一种基于密度网格参数自适应的数据流聚类算法A-Stream。通过引入"双密度阈值",并以平均值作为密度阈值,对传统聚类算法进行了改进,解决了算法不能获取精确值的问题。实验结果表明,A-Stream算法不仅保留了传统密度网格算法的高效性,而且较大程度上提高了聚类精度。 相似文献
7.
8.
9.
10.
基于密度的优化数据流聚类算法 总被引:1,自引:1,他引:1
为了解决数据流聚类算法中有效处理离群点这一关键问题,改进了基于密度的数据流聚类算法,在DenStream算法基础上提出了具有双检测时间策略DDTS(double derection time strategy)的基于密度的数据流聚类算法.该策略在数据流流速波动的情况下,结合时间与流数据数量两方面因素对微簇进行测试.通过在线动态维护和删减微簇,保存可能升级的离群点来改善聚类效果.实验结果表明,改进算法具有良好的适用性和有效性,能够取得较高的聚类质量. 相似文献
11.
基于k均值分区的流数据高效密度聚类算法 总被引:2,自引:0,他引:2
数据流聚类是数据流挖掘研究的一个重要内容,已有的数据流聚类算法大多采用k中心点(均值)方法对数据进行聚类,不能对数据分布不规则以及高维空间数据流进行有效聚类.论文提出一种基于k均值分区的流数据密度聚类算法,先对数据流进行分区做k均值聚类生成中间聚类结果(均值参考点集),随后对这些均值参考点进行密度聚类,理论分析和实验结果表明算法可以有效解决数据分布不规则以及高维空间数据流聚类问题,算法是有效可行的. 相似文献
12.
13.
一种基于时态密度的倾斜分布数据流聚类算法 总被引:1,自引:0,他引:1
为解决倾斜分布的数据流聚类这一难题,提出了时态密度概念,给出其度量,揭示了其包括可增量计算在内的一系列数学性质;设计了时态密度树结构,提高了聚类时的存储和检索效率;设计了能够以实时或异步方式捕捉数据倾斜分布的数据流时态特征的聚类算法TDCA(temporal density based clustering algorithm),其时间复杂度为O(c(m(lgm).实验结果表明,该算法不仅有较强的功能,而且具有较好的规模可伸缩性. 相似文献
14.
面向数据流的多粒度时变分形维数计算 总被引:1,自引:0,他引:1
在大数据时代,数据流是一种常见的数据模型,具有有序、海量、时变等特点.分形是许多复杂系统的重要特征,分形维数是度量系统分形特征的重要指标量.数据流作为动态的复杂系统,其上的分形维数应具有动态、时变、多粒度等特性.提出了多粒度时变分形维数的概念,并设计了基于小波变换技术的数据流多粒度时变分形维数算法.该算法通过对数据流进行离散小波变换,并利用多粒度小波变换树结构在内存中保存数据流的概要信息,可以同时在不同的时间粒度上实时地计算数据流时变分形维数.该方法具有较低的计算复杂度,实验结果表明:该方法可以有效地监控数据流分形维数在不同粒度上的时变特征,深刻地揭示数据流的演化规律. 相似文献
15.
本文提出了一种基于自适应网格划分的数据流聚类算法。通过采用网格的自适应划分,对传统的基于密度网格的数据流聚类算法,以均衡划分网格的方法进行改进,使网格的划分更加合理,减少硬性划分对结果可能造成的影响,提高了硬性划分边界的精度。同时采用剪枝方法,减少了算法的执行时间。最后,通过实验验证了该算法的有效性。 相似文献
16.
针对现有聚类算法在计算网格密度时未考虑周围空间的影响因素而导致聚类边界不平滑的现象,提出一种基于扩展网格和密度的数据流聚类算法。通过动态确定网格扩展区域,将网格密度计算范围从本网格合理地扩展到相邻网格空间,进而根据算法中引入的凝聚度衡量周围空间数据点对网格密度的影响。为进一步精确聚类边缘的轮廓分布情况,使用边界点距离阈值函数从噪声中分离出类的边界点,并给出一种改进的网格合并方法,根据簇间连通性简化网格簇合并的判断条件,有效减少算法执行时间。实验结果表明,该算法具有较高的聚类质量和聚类效率。 相似文献