首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
频繁项集挖掘是关联规则挖掘算法的核心,数据流的实时、无限及不可逆性给传统数据挖掘方法带来很大挑战.频繁闭项集挖掘为频繁项集挖掘提供了完整且低冗余的结果,是近年来数据流频繁项集挖掘研究的热点之一.介绍了数据流频繁闭项集挖掘的相关概念,并从搜索空间的遍历策略、误差结果控制方式等方面对数据流频繁闭项集挖掘算法进行了分析比较.  相似文献   

2.
针对在对分布式、多维数据流频繁模式挖掘算法研究时,没有删除多维数据流中的非频繁项集,存在平均处理时间长的问题,提出分布式多维数据流频繁模式挖掘算法。该方法根据人工神经网络特点,建立了人工神经网络模型,并对多维数据流训练,以达到提升挖掘效率的目的;并基于训练结果构造数据流频繁模式信息树,即频繁模式树(FR-tree:Frequent Pattern tree)。由于FR-tree中存在较多过期的多维数据流,所以需要对FR-tree剪枝,并删除非频繁项集,从而加快频繁模式计算速度,并采用分布式挖掘算法对全局FR-tree挖掘,从中取得多维数据流的频繁项集完全集,实现分布式多维数据流频繁模式的挖掘。通过对该方法的平均处理时间测试,验证了该方法的实用性。  相似文献   

3.
在数据流闭频繁项集挖掘过程中,常忽略历史模式对挖掘结果的影响,并采用一种结构来标记闭频繁项集的类型,导致算法的效率不高.为此提出一种挖掘数据流时间窗口中闭频繁项集的方法NEWT-moment.该方法能在单遍扫描数据流事务的条件下完整地记录模式信息.同时,NEWT-moment提出的剪枝方法能很好地降低滑动窗口树F-tr...  相似文献   

4.
以Apriori算法为例介绍并分析了挖掘最大频繁项集的过程。针对数据流的特点,对数据流中频繁模式挖掘问题进行了研究,提出了一种基于数据流频繁项集挖掘的新的EC算法。  相似文献   

5.
根据数据流的特点,提出了一种挖掘约束频繁闭合项集的算法,该算法将数据流分段,用DSCFCI_tree动态存储潜在约束频繁闭合项集,对每一批到来的数据流,首先建立局部DSCFCI_tree,进而对全局DSCFCI_tree进行有效更新并剪枝,从而有效地挖掘整个数据流中的约束频繁闭合模式.实验表明,该算法具有很好的时间和空间效率.  相似文献   

6.
基于数据流的频繁集挖掘   总被引:2,自引:0,他引:2  
针对数据流特殊的数据类型,提出了一种新的数据流挖掘算法.该算法引入了一个全新的优化方法,将边界集和频繁产生集结合起来.频繁产生集是频繁集的一种无损简缩表达方式.它所包含的模式数量比频繁集所包含的模式数量小若干数量级.边界集是频繁产生模式和其他模式之间的边界,通过观察边界集的变化可以生成新的频繁产生模式.实验结果表明,该算法的性能有明显的提高.  相似文献   

7.
针对数据流的无限性和流动性特点,提出了一种基于前缀树的数据流频繁模式挖掘算法(Prefix-stream).该算法将对数倾斜时间窗口划分为若干个子窗口,以子窗口为单位,利用提出的数据结构Prefix-tree进行挖掘,在整个数据流的频繁模式挖掘中,使得频繁模式挖掘和更新能在Prefix-tree中同时进行.该算法应用对数倾斜时间窗口逐步降低历史事务的权重,从而区分最近事务与历史事务.实验结果表明Prefix-stream具有较高的效率与较好的可扩展性.  相似文献   

8.
许颖梅 《河南科学》2012,(3):348-351
入侵检测技术是网络安全中的核心技术,把数据流中频繁项集的挖掘应用于入侵检测系统中正常和异常数据分析已是当前网络安全中的一个重要发展方向.流入网络流中的数据高速并且无限到达,所以利用传统多遍扫描数据库的挖掘技术来构建入侵检测模型已受到局限.针对频繁模式多维的特点,提出了一种新型数据结构SW.Tree,并给出了一种高效的挖掘网络访问数据流的挖掘算法,把这种算法应用于网络入侵检测模型中频繁模式的挖掘,取得了较好的成效.  相似文献   

9.
为了提高半结构化文档数据流的挖掘效率,对原有挖掘算法StreamT进行了改进,提出了一种半结构化文档数据流的快速频繁模式挖掘算法--FStreamT.该算法针对利用集合存储候选频繁模式效率较低的缺点,采用枚举树存储候选频繁模式,可以有效地提高对候选频繁模式集合进行查找和更新的效率,同时利用频繁模式的单调性和枚举树的特点减小了维护负边界的搜索空间,从而提高了整个算法的效率.理论分析和实验结果表明,算法FStreamT与算法StreamT相比具有较高的效率,是有效可行的.  相似文献   

10.
针对传统数据流频繁项集计算中效率低、内存消耗大等问题,本文采用并行计算的思想设计了一种基于MapReduce的数据流频繁项集挖掘算法,首先,对进行数据分块压缩和传输,其次,将数据频繁项的计算分布在负载均衡的数据节点,可以有效保证数据的执行效率.最后通过一次调度处理合并各个节点产生的频繁项集并进行合并.理论分析和实验对比结果均表明,该算法对于并行处理数据流频繁项集的统计问题是有效可行的.  相似文献   

11.
针对当前关于数据流加权最大频繁项集WMFI(weighted maximal frequent itemsets)的研究无法有效地处理频繁阈值和加权频繁阈值不一致情况下WMFI的挖掘问题,提出了完全加权最大频繁项集FWM FI(full w eighted maximal frequent itemsets)的概念.为了减少naive算法在处理滑动窗口下完全加权最大频繁项集挖掘时存在的冗余运算,提出了FWMFI-SW(FWMFI mining based on sliding window over data stream)算法.所提出的算法通过基于频繁约束条件的优化策略减少了naive算法中M ax W优化策略的无效调用次数;采用编辑距离比率作为WMFP-SW-tree的重构判别函数,可以有效减少该树的重构次数.实验结果表明FWMFI-SW算法是有效的,且比naive算法更有时间优势.  相似文献   

12.
更新挖掘最大频繁项目集是多种数据挖掘应用中的重要问题,其发现过程的高花费要求对高效更新挖掘算法进行研究.提出了一种快速的更新挖掘最大频繁项目集算法,其能够在原有挖掘结果的基础上,有效地挖掘出更新后的数据库中隐含的新最大频繁项目集.  相似文献   

13.
挖掘频繁闭项目集是数据挖掘领域中的一个重要研究方向,人们已提出了许多用于高效地发现大规模数据库中频繁闭项目集的算法,但对其更新维护问题的研究却比较少.在分析了频繁闭项目集更新算法关键技术的基础上,提出一种快速的增量式频繁闭项目集更新算法FUFCIA(fastupdating frquent closed itemsets algorithm),该算法将充分利用先前挖掘过程中所产生的信息来节省发现新的频繁闭项目集的时间开销,降低了候选频繁闭项目集的规模,减少了扫描数据库的次数.最后对该算法进行分析和讨论,并进行试验验证,试验结果表明算法FUFCIA是有效的.  相似文献   

14.
基于候选最大频繁项目集的关联规则挖掘算法   总被引:3,自引:0,他引:3  
提高频繁项目集算法的效率是关联规则挖掘研究的一个重点领域 ,就此提出了基于候选最大频繁项目集的关联规则挖掘算法 ,通过实例说明了算法的执行过程 ,并与FP -Tree等其他算法作了比较  相似文献   

15.
关联规则挖掘的一种多剪枝概念格方法   总被引:1,自引:0,他引:1  
多数据源上关联规则挖掘方法,由于各数据节点间相互通信的候选项集数目过于庞大或者挖掘过程需要对数据库进行多次扫描,导致挖掘算法效率不高。研究剪枝概念格(pruned con-cept laffice,PCL)中概念与频繁项集表示关系,定义剪枝格上的导出频繁项集,设计了一个利用多剪枝概念格从多数据源上挖掘近似所有关联规则的算法UMPCL(union algorithm of multiplepruned concept lattice)。利用一个频繁概念表示一些频繁项集以减少挖掘过程中产生的侯选项集数,使用与全局支持度相等的局部支持度对各子概念格进行剪枝,最后融合、剪枝各子剪枝格并提取全局关联规则。理论分析和实验验证表明该算法是有效的。  相似文献   

16.
设计了一种不同于传统关联规则挖掘算法(如Apriori算法等)频繁项集产生算法.该算法借鉴一般免疫算法思想,并从新的角度来看频繁项集的定义,避免了传统算法中存在的"项集生成瓶颈"问题.通过对mushroom数据的频繁项集挖掘的实验,与传统方法进行了比较,其结果表明,基于免疫算法的频繁项集挖掘算法在大数据集、低支持度情况下平均挖掘时间短.  相似文献   

17.
一种不确定性数据中最大频繁项集挖掘方法   总被引:1,自引:0,他引:1  
不确定性数据挖掘已经成为数据挖掘领域的新热点,频繁项集挖掘是重点研究的问题之一.但是目前出现的挖掘算法大多集中在完全频繁项集,而用于最大频繁项集和频繁闭项集的算法尚不多见.文中研究了一种基于UF-Tree的用于不确定性数据中挖掘最大频繁项集的算法,该挖掘过程分为两个步骤,第一步先得到以频繁1-项集为后缀的局部最大频繁项集,第二步得到所有的全局最大频繁项集,实验证明该算法性能良好且特别适用于稠密型、事务长度较小的数据集.  相似文献   

18.
基于数组的频繁项目集的挖掘算法   总被引:4,自引:0,他引:4  
挖掘关联规则是数据挖掘研究的一个重要方面.然而,目前提出的算法仍存在一些问题,如复杂的数据结构、大量的候选频繁项目集生成等等.本文提出使用了一种简单的数据结构——数组,并提出了基于数组的一种新的频繁项目集的挖掘算法.  相似文献   

19.
在经典的频繁闭合项集挖掘算法中,如Closet与Closet+,当条件模式数据库很庞大时,频繁项集的数目将会急剧增长,算法的效率会逐步恶化,并且算法挖掘结果的有效性也随着大量冗余模式的产生而下降.本文首先针对传统的FP-tree的算法,给出了一种改进的FP—tree算法,然后在新算法的基础上,提出新的频繁闭合项集挖掘算法,该算法只需把FP-Tree中所有由叶子结点到根结点的路径遍历一遍,就可以得到各项的所有子条件模式基,避免了传统FP-tree算法在同一条路径上向前回溯比较的繁琐.实验表明优化后的算法避免了资源的耗费,减少了频繁闭合项集挖掘的运算开销,大大提高了数据挖掘的效率.  相似文献   

20.
提高最大频繁项目集挖掘算法的效率是关联规则挖掘研究一个重点领域。本文主要对影响最大频繁项目集挖掘效率的数据分布、搜索策略、支持度计算及剪枝策略等技术进行研究。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号