首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 140 毫秒
1.
随着Internet及信息处理技术的发展,数据流突发检测在网络管理、金融领域及天文学等方面的应用越来越广泛,并成为了许多国内外学者的研究热点。本文综述了数据流突发检测技术的研究现状,总结提出了两大类突发检测算法,并给出研究的重点,最后展望了该研究领域的前景。  相似文献   

2.
一种基于双层窗口的概念漂移数据流分类算法   总被引:1,自引:0,他引:1  
数据流中概念漂移问题的研究已成为近年来流数据挖掘领域的研究热点之一. 已有的研究工作多依据单窗口中错误率的变化来检测概念漂移,难以适应不同类型的漂移. 为此, 本文提出一种新的基于双层窗口机制的数据流分类算法(Double-windows-based classification algorithm for concept drifting data streams, DWCDS),该算法采用随机决策树模型构建集成分类器, 利用双层窗口机制周期性地检测滑动窗口中流数据分布的变化,并动态地更新模型以适应概念漂移. 分析与实验结果表明: 该算法可以快速有效地跟踪检测含噪数据流中的概念漂移,且抗噪性能与分类精度显著提高.  相似文献   

3.
序列模式发现是最重要的数据挖掘任务之一,并有着广阔的应用前景。针对静态数据库,序列模式挖掘已经被深入地研究,但针对基于数据流的序列模式挖掘的研究还不是十分深入。数据流有着无限性的特性,因此往往不能保存数据流中全部的数据,同时很多时候只对最近的时间段的序列模式感兴趣,提出一个有效的结合滑动窗口技术的挖掘序列模式的算法FPM-SW,算法利用到3个数据结构(PatternTable,CountTable和Ta-tree)来处理基于数据流的序列模式挖掘的复杂性问题。算法通过CountTable结构来保存以往的潜在频繁序列,考虑到在某些情况下CountTable占用内存过多,算法还结合了一种压缩CountTable技术来减少内存占用。FPM-SW的优点是可以最大限度地降低负正例的产生,实验表明FPM-SW具有较高的准确率。  相似文献   

4.
数据流频繁项集的快速挖掘方法   总被引:1,自引:1,他引:0  
近年来,数据流挖掘一直是国内外研究的热点,频繁项集挖掘又是数据流挖掘中的重要问题。根据数据流无限性和流动性的特点,提出了一种在滑动窗口中挖掘频繁项集的算法FIM-SW,FIM-SW算法主要是采用垂直的数据库表示方法,使用二进制向量表示每个数据项,并利用Apriori性质产生频繁项集。实验结果表明,这种算法显著地提高了挖掘效率。  相似文献   

5.
水声传感器网络接收到的数据是不连续序列,数据本身具有变化性和不可预测性.数据流突发检测能够及时地定位数据异常.传统的数据流检测技术都是针对单一数据设计突发检测算法,无法适应水下三维异构的检测环境,无法对多个滑动窗口进行检测,很难对不同的三维场景运用对应的数据模型表述,判断数据突发状态准确度不高.提出一种动态小波传感数据流突发判断方法,对小波层次进行监测以及对检测阀值的及时调整,可针对不同三维传感网络中的多个滑动窗口进行检测,大大提高了数据流突发判断的准确率.通过仿真验证,改进方法能够避免三维异构环境对水声传感器的干扰,对突发情况下数据流的检测效率和精度都较高.  相似文献   

6.
基于滑动窗口的异常检测是数据流挖掘研究的一个重要课题,在许多应用中数据流通常在一个分布网络上传输,解决这类问题时常采用分布计算技术,以便获得实时高质量的计算结果。对分布演化数据流上连续异常检测问题,进行形式化地阐述,提出了两个基于核密度估计的异常检测定义和算法,并通过大量真实数据集的实验,表明该算法具有良好的高效性和可扩展性,完全适应数据流应用的需求。  相似文献   

7.
基于嵌入二维数组的迁移聚集树的数据流突变检测算法   总被引:1,自引:0,他引:1  
数据流突变检测技术由于在金融、医疗服务、电信等重要领域有广泛应用而受到国内外科研学者更多关注。为了能够检测正数据流、负数据流以及正负交错数据流的突变,提出了嵌入二维数组的迁移聚集树的数据流突变检测算法。该算法能够检测单调聚集函数和非单调聚集函数的突变,能够在较少时间内完成数据流突变检测的任务。实验证明本算法有良好的性能和效率,更适合检测突变的数据流。  相似文献   

8.
数据流本身的特点使得静态挖掘方法不再满足要求。国内外学者已提出许多新的挖掘数据流频繁模式的方法和技术。对这些技术和算法进行了综述。首先介绍数据流的概念和特点,分析国内外的研究现状,总结了数据流中挖掘频繁模式的特点,并列出挖掘方法的常用技术和基于这些技术的代表性算法,最后讨论了将来的研究方向。  相似文献   

9.
一种基于情感符号的在线突发事件检测方法   总被引:4,自引:0,他引:4  
张鲁民  贾焰  周斌  赵金辉  洪锋 《计算机学报》2013,36(8):1659-1667
如何快速高效检测出海量数据流中的突发事件是目前的研究热点之一.文中针对微博数据流,提出了一种新颖的基于情感符号的在线突发事件检测算法框架.伴随着事件的发生,文本流中情感符号也存在突发现象.文中通过实时监测情感符号变化态势,及时发现情感符号的突发期,达到挖掘突发事件的目的.首先基于频繁模式挖掘和互信息相结合的算法构建情感符号模型,并通过此模型抽取数据流中的情感符号,采用改进Kleinberg算法检测突发期,通过启发式的近邻传播聚类算法检测突发事件并对事件进行合并.同时,算法设置了离线回收机制,对不含情感符号的博文进行回收利用以保证事件概要抽取的完备性.实验表明,该算法可有效地挖掘出突发事件,无论在速度还是精度上都能保证实时在线处理的要求.  相似文献   

10.
事件检测是事件处理系统最重要的研究问题之一。异常、变化和突发是三类最典型的数据流事件。本文关注如何在数据流中同时检测多种事件,首先研究了多种事件之间的联系,然后给出了基于网格聚类的统一处理方法,最后为了评估事件的严重程度,给出了打分函数。实验验证了所提方法的正确性与有效性。  相似文献   

11.
基于分形技术的数据流突变检测算法   总被引:4,自引:0,他引:4  
秦首科  钱卫宁  周傲英 《软件学报》2006,17(9):1969-1979
数据流上的突变检测技术由于其在风险分析、网络监测、趋势分析等领域广阔的应用前景而受到学术界和工业界越来越多的关注.为了在数据流上检测多个滑动窗口上的单调聚集函数值和非单调聚集函数值的突变,提出了基于分形技术的构建单调搜索空间的突变检测算法.首先给出了数据流上的分段分形模型,进而基于该模型设计了突变检测算法.该算法能够将突变检测处理时间复杂度从O(m)降为O(logm)(m为需要被检测的滑动窗口数目).提出的两种新颖的分段分形模型能够准确  相似文献   

12.
如何从海量、嘈杂的微博文本流中及时发现负面情感突发话题对于突发事件的应急响应和处置至关重要,而传统的突发话题检测方法往往忽略了负面情感突发话题与非负面情感突发话题之间的区别,为此提出了一种面向微博文本流的负面情感突发话题检测(NE-BTD)算法。首先,将微博中的主题词对的加速度和负面情感强度变化率作为负面情感突发话题的判定依据;然后,利用突发词对的速度确定负面情感突发话题的窗口范围;最后,使用一种基于吉布斯采样的狄利克雷多项式混合模型(GSDMM)聚类算法得到窗口中负面情感突发话题的主题结构。在实验中将所提出的NE-BTD算法与已有的一种基于情感方法的话题检测(EBM-TD)算法进行对比,结果表明所提出的NE-BTD算法相较EBM-TD算法准确率和召回率至少提高了20%,并且可以至少提前40 min检出负面情感突发话题。  相似文献   

13.
如何从海量、嘈杂的微博文本流中及时发现负面情感突发话题对于突发事件的应急响应和处置至关重要,而传统的突发话题检测方法往往忽略了负面情感突发话题与非负面情感突发话题之间的区别,为此提出了一种面向微博文本流的负面情感突发话题检测(NE-BTD)算法。首先,将微博中的主题词对的加速度和负面情感强度变化率作为负面情感突发话题的判定依据;然后,利用突发词对的速度确定负面情感突发话题的窗口范围;最后,使用一种基于吉布斯采样的狄利克雷多项式混合模型(GSDMM)聚类算法得到窗口中负面情感突发话题的主题结构。在实验中将所提出的NE-BTD算法与已有的一种基于情感方法的话题检测(EBM-TD)算法进行对比,结果表明所提出的NE-BTD算法相较EBM-TD算法准确率和召回率至少提高了20%,并且可以至少提前40 min检出负面情感突发话题。  相似文献   

14.
滑动窗口聚集查询在数据流管理系统中应用广泛,数据流到达高峰期,必须考虑滑动窗口聚集查询中出现的降载问题。分析了子集模型的特点和已有降载策略的不足,给出了数据流滑动窗口聚集查询降载问题的约束条件,提出了能保证子集结果产生的基于丢弃窗口更新策略的降载算法。理论分析和实验结果表明,该算法对数据流滑动窗口聚集查询降载问题的处理具有较高的有效性和实用性。  相似文献   

15.
数据流的流量太大会无法被整个存储,或被多次扫描。为此,在研究已有挖掘算法的基础上,提出一种界标窗口中数据流频繁模式挖掘算法DSMFP_LW。利用扩展前缀模式树存储全局临界频繁模式,实现单遍扫描数据流和数据增量更新。实验结果表明,与Lossy Counting算法相比,DSMFP_LW算法具有更好的时空效率。  相似文献   

16.
针对实际系统中采集的数据流的不确定性,给异常点检测与修正带来了现实挑战。因此,根据滑动基本窗口采样算法(sliding basic windows sampling,SBWB)与高斯过程回归(Gaussian process regression,GPR)模型的特性,提出了基于SBWS_GPR预测模型的不确定性多数据流的异常检测方法。在基于时间序列采集的历史数据集中,引入索引号,对历史数据集进行聚类,分析数据集与索引号的映射关系,将实时获得的输入数据流通过滑动窗口匹配,实现对单数据流的异常点检测与修正。再利用输入、输出数据间的相关性,基于GPR建立预测模型,比较实时观察的输出数据流与预测模型的输出数据流,最终从输入、输出两种不同通道实现多数据流的异常检测与修正。  相似文献   

17.
随着网络的发展和通讯设备的普及,一种新的数据密集型应用逐渐浮出水面,这主要包括:网络监控、电信数据管理、传感器数据监控等。在这些应用中数据采取的是多维的、连续的、快速的、随时间变化的流式数据的形式。同时,这些应用对数据的访问也是多次和连续的,并要求即时的响应,而传统的数据库技术对数据的假设和相应的查询处理技术已经无法适应这种新的应用的要求。因此,文中根据这种流式数据的特征设计了一种新的基于数据流的数据模型,并就今后如何进行数据流管理系统的研究提出一些新的看法。  相似文献   

18.
数据流挖掘中很多算法是基于定长滑动窗口的,定长滑动窗口的缺点是很难设置窗口的大小,而且对数据流分布的不同类型不存在最优大小的窗口,因此算法的性能较差。提出了可变滑动窗口算法,通过高效维护一个静态的最大范化均值完成。该常量在全部时间窗口中被最大化因而使用变长窗口。其他算法可以用该方法重新描述。实验表明了范化均值的有效性。  相似文献   

19.
滑动窗口是一种对最近一段时间内的数据进行挖掘的有效的技术,本文提出一种基于滑动窗口的流数据频繁项挖掘算法.算法采用了链表队列策略大大简化了算法,提高了挖掘的效率.对于给定的阈值S、误差ε和窗口长度n,算法可以检测在窗口内频度超过Sn的数据流频繁项,且使误差在εn以内.算法的空间复杂度为O(ε-1),对每个数据项的处理和查询时间均为O(1).在此基础上,我们还将该算法进行了扩展,可以通过参数的变化得到不同的流数据频繁项挖掘算法,使得算法的时间和空间复杂度之间得到调节.通过大量的实验证明,本文算法比其它类似算法具有更好的精度以及时间和空间效率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号