首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 734 毫秒
1.
介绍了数据流的定义和特点及数据流频繁模式的基本概念。针对数据流的特性,讨论分析了目前国内外数据流频繁模式挖掘算法、算法特性及应用情况,最后展望了数据流频繁模式挖掘的进一步研究工作。  相似文献   

2.
程转流  王本年 《微机发展》2007,17(12):53-55
近年来,数据流挖掘越来越引起研究人员的关注,已逐渐成为许多领域有用的工具。如何利用有限的存储空间高效地挖掘出频繁模式已成为数据流挖掘的基本问题,具有很强的现实意义和理论价值。在论述数据流管理系统模型的基础上,深入分析了国内外的各种频繁模式挖掘算法,并指出这些算法的特点及其局限性。最后对未来的研究方向进行了展望。  相似文献   

3.
近年来,数据流挖掘越来越引起研究人员的关注,已逐渐成为许多领域有用的工具。如何利用有限的存储空间高效地挖掘出频繁模式已成为数据流挖掘的基本问题,具有很强的现实意义和理论价值。在论述数据流管理系统模型的基础上,深入分析了国内外的各种频繁模式挖掘算法,并指出这些算法的特点及其局限性。最后对未来的研究方向进行了展望。  相似文献   

4.
孟彩霞 《计算机应用研究》2009,26(11):4054-4056
数据流的无限性、高速性使得经典的频繁模式挖掘方法难以适用到数据流中。针对数据流的特点,对数据流中频繁模式挖掘问题进行了研究,提出了数据流频繁模式挖掘算法FP-SegCount。该算法将数据流分段并利用改进的FP-growth算法挖掘分段中的频繁项集,然后利用Count-Min Sketch进行项集计数。算法解决了压缩统计和计算快速高效的问题。通过实验分析,FP-SegCount算法是有效的。  相似文献   

5.
数据流频繁模式挖掘算法设计   总被引:1,自引:0,他引:1  
介绍了数据流频繁模式的概念和定义,提出了数据流频繁模式挖掘算法的通用数据流处理模型,详细总结了数据流频繁模式挖掘算法的三种分类方式:"窗口模型"、"结果集类型"和"结果集精确性".基于这些分类方法提出了数据流频繁模式挖掘算法的设计立方体,该立方体不仅涵盖了现有的数据流频繁模式挖掘算法,还对设计新的算法具有指导意义.基于设计立方体,分析了设计算法时应当采取的有效策略,旨在为设计新算法提供一个有力参考.最后讨论了数据流频繁模式挖掘的进一步研究工作.  相似文献   

6.
随着数据流应用领域的不断扩大,数据流频繁模式挖掘技术逐渐成为数据挖掘领域研究的核心问题。对DSFPM算法进行研究和改进,提出了一种基于界标窗口的数据流频繁模式挖掘算法DSMFP_LW。该算法实现了单边扫描数据流;利用扩展的前缀模式树存储全局临界频繁模式,实现数据增量更新。通过对比实验,结果证明DSMFP_LW算法有较好的时间开销和空间利用率,优于经典的Lossy Counting算法,适合数据流频繁模式挖掘。  相似文献   

7.
数据流频繁项集的快速挖掘方法   总被引:1,自引:1,他引:0       下载免费PDF全文
近年来,数据流挖掘一直是国内外研究的热点,频繁项集挖掘又是数据流挖掘中的重要问题。根据数据流无限性和流动性的特点,提出了一种在滑动窗口中挖掘频繁项集的算法FIM-SW,FIM-SW算法主要是采用垂直的数据库表示方法,使用二进制向量表示每个数据项,并利用Apriori性质产生频繁项集。实验结果表明,这种算法显著地提高了挖掘效率。  相似文献   

8.
庄波  刘希玉 《福建电脑》2008,(3):8-8,16
在介绍数据流的基本特点以及数据流频繁挖掘意义的基础上,对现有主要的数据流频繁挖掘算法进行了总结,指出了这些方法的局限性,并对进一步的研究进行了展望。  相似文献   

9.
一种数据流中的频繁模式挖掘算法   总被引:1,自引:0,他引:1  
朱琼  施荣华 《计算机应用》2008,28(6):1463-1466
时序数据流的无限性、流动性和不规则性使得传统的频繁模式挖掘算法难以适用。针对时序数据流的特点,提出了一类特殊非规则数据流频繁模式挖掘的新算法。新算法采用时序数据分段的思想,逐段挖掘局部频繁模式,然后依据局部频繁模式有效地挖掘出所有的全局频繁模式。将新算法应用于电信领域的收入保障项目之中,结果表明,新算法具有良好的性能,能有效发现挖掘时序数据流中的频繁模式。  相似文献   

10.
面向数据流的频繁项集挖掘研究   总被引:1,自引:0,他引:1       下载免费PDF全文
针对数据流的特点,对数据流中频繁模式挖掘问题进行了研究,提出了数据流频繁项集挖掘算法FP-SegCount。该算法将数据流分段并利用改进的FP-growth算法挖掘分段中的频繁项集。然后,利用Count Min Sketch进行项集计数。算法解决了压缩统计和计算快速高效的问题。通过和FP-DS算法的实验对比,FP-SegCount算法具有较好的时间效率。  相似文献   

11.
韩萌  丁剑 《计算机应用》2019,39(3):719-727
一些先进应用如欺诈检测和趋势学习等带来了数据流频繁模式挖掘的发展。不同于静态数据,数据流挖掘面临着时空约束和项集组合爆炸等问题。对已有数据流频繁模式挖掘算法进行综述并对经典和最新算法进行分析。按照模式集合的完整程度进行分类,数据流中频繁模式分为全集模式和压缩模式。压缩模式主要包括闭合模式、最大模式、top-k模式以及三者的组合模式。不同之处是闭合模式是无损压缩的,而其他模式是有损压缩的。为了得到有趣的频繁模式,可以挖掘基于用户约束的模式。为了处理数据流中的新近事务,将算法分为基于窗口模型和基于衰减模型的方法。数据流中模式挖掘常见的还包含序列模式和高效用模式,对经典和最新算法进行介绍。最后给出了数据流模式挖掘的下一步工作。  相似文献   

12.
序列模式挖掘就是在时序数据库中挖掘相对时间或其他模式出现频率高的模式.序列模式发现是最重要的数据挖掘任务之一,并有着广阔的应用前景.针对静态数据库,序列模式挖掘已经被深入的研究.近年来,出现了一种新的数据形式:数据流.针对基于数据流的序列模式挖掘的研究还不是十分深入.提出一个有效的基于数据流的挖掘频繁序列模式的算法SSPM,利用到2个数据结构(F-list和Tatree)来处理基于数据流的序列模式挖掘的复杂性问题.SSPM的优点是可以最大限度地降低负正例的产生,实验表明SSPM具有较高的准确率.  相似文献   

13.
数据流频繁模式挖掘研究进展   总被引:21,自引:3,他引:21  
现实世界和工程实践产生了大量的数据流,这种数据不同于传统的静态数据,对其进行有效处理和挖掘遇到了极大的挑战.如何使用有限存储空间进行快速和近似的频繁模式挖掘是数据流挖掘的基本问题,具有非常重要的研究价值和实践意义,已经引起了国内外研究者的广泛关注.本文深入分析数据流中的频繁模式挖掘,对其特点和算法进行较为全面的总结和分类论述,并讨论了存在的主要问题和未来的研究方向.  相似文献   

14.
数据流高效用模式挖掘方法是以二进制的频繁模式挖掘方法为前提,引入项的内部效用和外部效用,在模式挖掘过程中可以考虑项的重要性,从而挖掘更有价值的模式。从关键窗口技术、常用方法、表示形式等角度对数据流高效用模式挖掘方法进行分析并总结其相关算法,从而研究其特点、优势、劣势以及其关键问题所在。具体来说,说明了数据流高效用模式常用的概念;对处理数据流高效用模式的关键窗口技术进行了分析,涉及到滑动、衰减、界标和倾斜窗口模型;研究了一阶段和两阶段的数据流高效用模式挖掘方法;分析了高效用模式的表示形式,即完全高效用模式和压缩高效用模式;介绍了其他的数据流高效用模式,包括序列高效用模式、混合高效用模式以及高平均效用模式等;最后展望了数据流高效用模式挖掘的进一步研究方向。  相似文献   

15.
流数据挖掘综述   总被引:8,自引:1,他引:8  
作为一种新的数据形态,流数据对数据挖掘提出了诸多挑战。学者们已提出大量处理流数据的挖掘算法。本文对这些算法进行了综述。首先介绍了多个不同的数据流模型,这些模型对算法设计有着不同的要求。然后,总结了流数据挖掘算法的特点,并给出了算法中常用的技术。最后,分析了各个流数据挖掘任务中的代表性算法。  相似文献   

16.
朱美玲  刘晨  王雄斌  韩燕波 《软件学报》2017,28(6):1498-1515
针对伴随车辆检测这一新兴的智能交通应用,在一种特殊的流式时空大数据-车牌识别流式大数据下,重新定义Platoon伴随模式,提出PlatoonFinder算法,即时地在车牌识别数据流上挖掘Platoon伴随模式.本文的主要贡献包括:第一,将Platoon伴随模式发现问题映射为数据流上的带有时空约束的频繁序列挖掘问题.与传统频繁序列挖掘算法仅考虑序列元素之间位置关系不同,本文算法能够在频繁序列挖掘的过程中有效处理序列元素之间复杂的时空约束关系;第二,本文算法融入了伪投影等性能优化技术,针对数据流的特点进行了性能优化,能够有效应对车牌识别流式大数据的速率和规模,从而实现车辆Platoon伴随模式的即时发现.通过在真实车牌识别数据集上的实验分析表明,PlatoonFinder算法的平均延时显著低于经典的Aprior和PrefixSpan等频繁模式挖掘算法,也低于真实情况下交通摄像头的车牌识别最小时间间隔.因此,本文所提出的算法可以有效的发现伴随车辆组及其移动模式.  相似文献   

17.
流数据产生速率具有不可预见性,当其速率超过系统处理能力时,部分数据元素不能被实时处理。降载技术是处理此问题的关键技术之一。分析了目前降载技术的不足,提出了一种面向挖掘流数据频繁项集的降载策略。该策略采用了基于元组出现频率的语义删除策略,优先删除出现频率相对较低的元组,从而有效解决了在挖掘流数据中的频繁项所遇到系统超载时所出现的问题,同时采用了根据流数据产生速率自动地控制是否启动降载策略,有效地解决了降载的适应性问题。最后,通过实验和分析,证明了该策略在流数据频繁项挖掘中有效性。  相似文献   

18.
基于时间衰减模型的数据流频繁模式挖掘   总被引:1,自引:0,他引:1  
吴枫  仲妍  吴泉源 《自动化学报》2010,36(5):674-684
频繁模式挖掘是数据流挖掘中的重要研究课题. 针对数据流的时效性和流中心的偏移性特点, 提出了界标窗口模型与时间衰减模型相结合的数据流频繁模式挖掘算法. 该算法通过动态构建全局模式树, 利用时间指数衰减函数对模式树中各模式的支持数进行统计, 以此刻画界标窗口内模式的频繁程度; 进而, 为有效降低空间开销, 设计了剪枝阈值函数, 用于对预期难以成长为频繁的模式及时从全局树中剪除. 本文对出现在算法中的重要参数和阈值进行了深入分析. 一系列实验表明, 与现有同类算法MSW相比, 该算法挖掘精度高(平均超过90%), 内存开销小, 速度上可以满足高速数据流的处理要求, 且可以适应不同事务数量、不同事务平均长度和不同最大潜在频繁模式平均长度的数据流频繁模式挖掘.  相似文献   

19.
数据流的流量太大会无法被整个存储,或被多次扫描。为此,在研究已有挖掘算法的基础上,提出一种界标窗口中数据流频繁模式挖掘算法DSMFP_LW。利用扩展前缀模式树存储全局临界频繁模式,实现单遍扫描数据流和数据增量更新。实验结果表明,与Lossy Counting算法相比,DSMFP_LW算法具有更好的时空效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号