首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到15条相似文献,搜索用时 140 毫秒
1.
随着越来越多的应用程序产生数据流,数据流聚类分析的研究受到了广泛关注.基于网格的聚类通过将数据流映射到网格结构中形成数据概要,进而对概要进行聚类.这种方法通常具有较高的效率,但是每个网格独立处理,没有考虑网格之间的相互影响,因此聚类质量有待提高.在聚类过程中不再独立处理网格,而是考虑了网格之间的耦合关系,提出了一种基于网格耦合的数据流聚类算法.网格的耦合更加准确地表达了数据之间的相关性,从而提高了聚类的质量.在合成和真实数据流上的实验结果表明,所提算法具有较高的聚类质量和效率.  相似文献   

2.
《计算机工程》2018,(1):51-55
传统基于欧氏距离的异常检测算法在高维数据检测中存在精度无法保证以及运行时间过长的问题。为此,结合高维数据流的特点运用角度方差的方法,提出一种改进的基于角度方差的数据流异常检测算法。通过构建最佳数据集网格和最近数据网格的小规模数据流计算集,以快速即时地衡量最新数据点的异常程度,将改进的算法用于无线传感器网络采集的电梯真实数据流检测,实现电梯故障检测。实验结果表明,与ABOD、HODA等算法相比,改进算法能有效识别高维数据流中的异常点,可适用于实时性要求高的传感器高维数据流。  相似文献   

3.
为改善有关数据流的异常数据检测方法中存在的检测准确度低和执行效率低等问题,根据数据挖掘技术理论,提出了一种新的基于密度的异常数据检测算法GSWCLOF。该算法引入滑动时间窗口和网格的理念,在滑动时间窗口内利用网格将数据细分,同时利用信息熵对所有网格内的数据进行剪枝和筛选,从而剔除绝大部分正常的数据,最后再利用离群因子对剩下的数据进行最终判断。实验结果表明,该算法有效地提高了检测准确度和执行效率。  相似文献   

4.
一种基于网格方法的高维数据流子空间聚类算法   总被引:4,自引:0,他引:4  
基于对网格聚类方法的分析,结合由底向上的网格方法和自顶向下的网格方法,设计了一个能在线处理高维数据流的子空间聚类算法。通过利用由底向上网格方法对数据的压缩能力和自顶向下网格方法处理高维数据的能力,算法能基于对数据流的一次扫描,快速识别数据中位于不同子空间内的簇。理论分析以及在多个数据集上的实验表明算法具有较高的计算精度与计算效率。  相似文献   

5.
基于移动网格和密度的数据流聚类算法   总被引:1,自引:1,他引:0       下载免费PDF全文
传统的基于网格的数据流聚类算法采用固定划分网格的方法,虽然算法的处理速度较快,但是聚类准确性较低。针对此问题,提出了一种新的基于移动网格和密度的数据流聚类算法。在算法中引进了权重与衰减系数,利用移动网格技术对数据流的边界点进行处理,增强了聚类的准确性,提高了算法的运行效率。  相似文献   

6.
基于动态网格的数据流离群点快速检测算法   总被引:8,自引:0,他引:8  
离群点检测问题作为数据挖掘的一个重要任务,在众多领域中得到了应用.近年来,基于数据流数据的挖掘算法研究受到越来越多的重视.为了解决数据流数据中的离群点检测问题,提出了一种基于数据空间动态网格划分的快速数据流离群点检测算法.算法利用动态网格对空间中的稠密和稀疏区域进行划分,过滤处于稠密区域的大量主体数据,有效地减少了算法所需考察的数据对象的规模.而对于稀疏区域中的候选离群点,采用近似方法计算其离群度,具有高离群度的数据作为离群点输出.在保证一定精确度的条件下,算法的运行效率可以得到大幅度提高.对模拟数据集和真实数据集的实验检测均验证了该算法具有良好的适用性和有效性.  相似文献   

7.
滑动窗口内基于密度网格的数据流聚类算法   总被引:1,自引:0,他引:1  
李子文  邢长征 《计算机应用》2010,30(4):1093-1095
提出了一种基于密度网格的数据流聚类算法。通过引入“隶度”,对传统的基于网格密度的数据流聚类算法,以网格内数据点的个数作为网格密度的思想加以改进,解决了一个网格内属于两个类的数据点以及边界点的处理问题。从而既利用了基于网格算法的高效率,还较大程度地提高了聚类精度。  相似文献   

8.
作为一种重要的数据挖掘手段,异常检测在数据分析领域有着广泛的应用。然而现有的异常检测算法针对不同的数据,往往需要调整不同的参数才能达到相应的检测效果,在面对大型数据时,现有算法检测的时间效率也不尽如人意。基于网格的异常检测技术,可以很好地解决低维数据异常检测的时间效率问题,然而检测精度严重依赖于网格的划分尺度和密度阈值参数,该参数鲁棒性较差,不能很好地推广到不同类型数据集上。基于上述问题,提出了一种基于多分辨率网格的异常检测方法,该方法引入一个鲁棒性较好的子矩阵划分参数,将高维数据划分到多个低维的子空间,使异常检测算法在子空间上进行,从而保证了高维数据的适用性;通过从稀疏到密集的多分辨率网格划分,综合权衡了数据点在不同尺度网格下的局部异常因子,最终输出全局异常值的得分排序。实验结果表明,新引入的子矩阵划分参数具有较好的鲁棒性,该方法能较好地适应高维数据,并在多个公开数据集上都能得到良好的检测效果,为解决高维数据异常检测的相关问题提供了一种高效的解决方案。  相似文献   

9.
面向滑动窗口的连续离群点检测问题是数据流管理领域中的重要问题.该问题在信用卡欺诈检测、网络入侵防御,地质灾害预警等诸多领域发挥着重要作用.现有算法大多需要利用范围查询判断对象之间的位置关系,而范围查询的查询代价大,无法满足实时性要求.本文提出基于滑动窗口模型下的查询处理框架GBEH(grid-based excepted heap).首先,它以网格为基础构建索引GQBI(grid queue based index)管理数据流.该索引一方面维护数据流之间的位置关系,另一方面利用队列维护数据流的时序关系.其次, GBEH提出离群点检测算法PBH(priority based heap).该算法利用查询范围与网格单元格的相交面积计算该单元格中包含于查询范围对象数目的数学期望,并以此为基础构建基于小顶堆执行范围查询,从而有效降低范围查询代价,实现高效检测.理论分析和实验验证GBEH的高效性和稳定性.  相似文献   

10.
米源  杨燕  李天瑞 《计算机科学》2011,38(12):178-181
针对基于密度网格的数据流聚类算法中存在的缺陷进行改进,提出一种基于D-Strcam算法的改进算法NDD-Stream。算法通过统计网格单元的密度与簇的数目,动态确定网格单元的密度阂值;对位于簇边界的网格单元采用不均匀划分,以提高簇边界的聚类精度。合成与真实数据集上的实验结果表明,算法能够在数据流对象上取得良好的聚类质量。  相似文献   

11.
基于k均值分区的数据流离群点检测算法   总被引:10,自引:0,他引:10  
离群知识发现是数据挖掘研究的一个重要方面,数据流离群点挖掘更因其挖掘对象具有动态性、不可复读性、数据量大等特点而成为离群知识发现研究的一个难点.提出一种基于k均值分区的流数据离群点发现算法,先对数据流进行分区做k均值聚类生成中间聚类结果(均值参考点集),随后在这些均值参考点中,根据离群点的定义找出可能存在的离群点.理论分析和实验结果表明,算法可以有效解决数据流离群点检测问题,算法是有效可行的.  相似文献   

12.
传统的基于网格的数据流聚类算法在同一粒度的网格上进行聚类,虽然提高了处理速度,但聚类准确性较低。针对此问题,提出一种新的基于双层网格和密度的数据流聚类算法DBG Stream。在2种粒度的网格上对数据流进行聚类,并借鉴CluStream算法的思想,将聚类过程分为2个阶段。在线过程中利用粗粒度的网格单元形成初始聚类,离线过程中在细粒度网格单元上,对位于簇边界的网格单元进行二次聚类以提高聚类精度,并实现了关键参数的自动设置,通过删格策略提高算法效率。实验结果表明,DBG Stream算法的聚类精确度较D Stream算法有较大提高,有效解决了传统基于网格聚类算法的聚类精度较低的问题。  相似文献   

13.
Detection of an environmental phenomenon, e.g. air pollution and oil spills, occurs when a group of sensors continuously produces similar readings (i.e. data streams) over a period of time. Thus, detection of environmental phenomena is basically a process of clustering the sensors' data streams, which commonly involves the processing of hundreds and maybe thousands of data streams in real time. Since the sensor network environment is wireless, energy conservation of the sensors would be the main concern. Thus in this paper, we propose an efficient and energy friendly distributed scheme to detect phenomena in a wireless sensor network (WSN). To achieve fast response, the proposed algorithms reduce the dimensionality of the streams. Then, each stream is represented by a point in a multi-dimensional grid. The algorithm uses a grid-based clustering technique to detect clusters of similar stream values. The processing of the algorithm is distributed among different elements of the WSN in a hierarchical topology for more energy efficiency. The paper shows the feasibility of the proposed fully distributed scheme by comparing it with three other WSN schemes in terms of clustering accuracy and energy consumption.  相似文献   

14.
针对传统密度网格算法在聚类中自动获取密度阈值不够精确的问题,提出了一种基于密度网格参数自适应的数据流聚类算法A-Stream。通过引入"双密度阈值",并以平均值作为密度阈值,对传统聚类算法进行了改进,解决了算法不能获取精确值的问题。实验结果表明,A-Stream算法不仅保留了传统密度网格算法的高效性,而且较大程度上提高了聚类精度。  相似文献   

15.
针对数据流中离群点挖掘问题,在K-means聚类算法基础上,提出了基于距离的准则进行数据间离群点判断的离群点检测DOKM算法。根据数据流概念漂移检测结果来自适应地调整滑动窗口大小,从而实现对数据流的离群点检测,与其他离群点算法的一系列实验验证和对比结果表明,DOKM算法在人工数据集和真实数据集中均可以实现对离群点的有效检测。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号