首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
陶再平 《计算机工程与设计》2007,28(7):1730-1731,F0003
序列模式挖掘是数据挖掘领域中十分重要的研究课题.目前已有许多算法用于序列模式的挖掘,但在序列模式增量式更新方面的研究还比较少,针对这种情况提出了序列模式增量式更新的挖掘算法SPIU.SPIU算法充分利用了原有的挖掘结果,并对产生的候选频繁序列进行剪枝,有效地减小了候选频繁序列的大小,从而很好地改善了挖掘效率.测试结果表明SPIU算法是正确和高效的,另外算法还具有很好的扩放性.  相似文献   

2.
刘佳新 《计算机工程》2012,38(12):39-41
现有的增量式挖掘算法在支持度发生变化时,需要对序列数据库进行重复挖掘,为减少由此产生的时空消耗,提出一种高效的增量式序列模式挖掘算法。算法采用频繁序列树作为序列存储结构,当序列数据库和最小支持度发生变化时,通过执行更新操作,实现频繁序列树的更新,利用深度优先遍历频繁序列树找到序列数据库中所有的序列模式。实验结果表明,与IncSpan算法和PrefixSpan算法相比,该算法的挖掘效率较高。  相似文献   

3.
在增量式序列模式挖掘算法中,数据库更新只有插入和扩展2种操作,未考虑序列删除的情况。为此,提出一种基于频繁序列树的增量式序列模式更新算法(IUFST)。在数据库和支持度发生变化时,IUFST算法分不同情况对频繁序列树进行更新操作,缩减投影数据库的规模,提高算法效率。实验结果表明,该算法在时间性能上优于PrefixSpan算法和IncSpan算法。  相似文献   

4.
一种基于频繁序列树的增量式序列模式挖掘算法   总被引:1,自引:0,他引:1  
针对目前现有的增量式序列模式挖掘算法没有充分利用先前的挖掘结果,当数据库更新时,需要对数据库进行重复挖掘的问题。本文提出一种基于频繁序列树的增量式序列模式挖掘算法(ISFST),ISFST采用频繁序列树作为序列存储结构,当数据库发生变化时,ISFST算法分两种情况对频繁序列树进行更新操作,通过遍历频繁序列树得到满足最小支持度的所有序列模式。实验结果表明,ISFST算法在时间性能上优于PrefixSpan算法和IncSpan算法。  相似文献   

5.
基于FP-Tree的最大频繁项目集挖掘及更新算法   总被引:105,自引:2,他引:105       下载免费PDF全文
宋余庆  朱玉全  孙志挥  陈耿 《软件学报》2003,14(9):1586-1592
挖掘最大频繁项目集是多种数据挖掘应用中的关键问题,之前的很多研究都是采用Apriori类的候选项目集生成-检验方法.然而,候选项目集产生的代价是很高的,尤其是在存在大量强模式和/或长模式的时候.提出了一种快速的基于频繁模式树(FP-tree)的最大频繁项目集挖掘DMFIA(discover maximum frequent itemsets algorithm)及其更新算法UMFIA(update maximum frequent itemsets algorithm).算法UMFIA将充分利用以前的挖掘结果来减少在更新的数据库中发现新的最大频繁项目集的费用.  相似文献   

6.
在数据挖掘研究中,频繁闭项目集挖掘成为重要的研究方向.目前已有的频繁闭项目集挖掘算法主要针对单机环境,有关分布式环境下的全局频繁闭项目集挖掘算法的研究尚不多见.针对无共享体系结构数据水平分布的情况,提出了一种分布式快速挖掘全局频繁闭项目集增量式更新算法,算法通过对各节点候选频繁项目集进行预处理,有效地降低网络通信量,提高全局频繁闭项目集挖掘算法的效率,该算法充分利用前次挖掘结果来发现新的全局频繁闭项目集,具有较高的效率.理论分析和实验结果表明算法是有效的.  相似文献   

7.
最大频繁序列发现是数据挖掘中的一个重要分支.本文提出一种发现最大频繁序列集的算法MAXSeq,该算法通过对潜在的最大频繁序列进行选择性的扩展,直接判断其是否为最大序列,无须对候选最大序列进行维护,从而显著减小了存储开销.同时,优化策略的恰当运用对降低CPU时间起着至关重要的作用.  相似文献   

8.
一种基于事务时间分割的关联规则增量式更新方法   总被引:1,自引:0,他引:1  
文章介绍了一种增量式关联规则更新方法,其核心思想是,将长事务以时间分割,分成一个连续的情节集合,当前情节期间获得的信息,依赖于当前的事务子集以及前面情节期间已经发现的信息。仅使用更新的事务和前面阶段的挖掘结果,增量式地产生频集。用Apriori类算法作为局部过程来产生频集,给出了具体的动态挖掘算法。  相似文献   

9.
针对序列模式增量式更新挖掘算法产生大量候选项集以及多次扫描数据库的问题,提出了一种有效的增量式更新算法ESPIA,该算法利用基于2-序列矩阵挖掘算法ESPE对原数据库和增加数据库一次扫描产生序列模式,通过对频繁模式和非频繁模式进行相应的剪枝减少了序列的比较和扫描次数,降低了算法时间和空间复杂度,实验证明该算法是有效和准确的。  相似文献   

10.
一种改进的关联规则维护算法   总被引:2,自引:0,他引:2  
提出了关联规则维护更新问题的背景,分析了经典的关联规则维护算法FUP2算法的局限性,针对在数据库数据集增加和删除时最小支持度同时变化的情况,提出了一种改进的关联规则维护算法EFUP,并与经典的Apriori算法进行了分析比较,表明了该算法充分利用了原有的信息,提高了算法的效率。  相似文献   

11.
Shared-nothing并行事务数据库系统中规则的挖掘与更新算法   总被引:1,自引:0,他引:1  
关联规则是数据挖掘中的一个重要研究内容.本文提出了Shared—nothing并行事务数据库系统(简称SNPDBS)中一种快速的关联规则挖掘算法SNPMAR,并考虑当最小支持度发生变化后SNPDBS中关联规则的高效更新问题,提出了一种有效的关联规则更新算法SNPIUA.  相似文献   

12.
一种基于Apriori的动态关联规则挖掘方法   总被引:2,自引:0,他引:2  
文章介绍了一种动态关联规则的挖掘方法,该方法的核心思想是仅使用更新的事务和前面阶段的挖掘结果,用Apriori类算法作为局部过程来产生频集,并给出了具体的动态挖掘算法。  相似文献   

13.
一种挖掘压缩序列模式的有效算法   总被引:1,自引:0,他引:1  
从序列数据库中挖掘频繁序列模式是数据挖掘领域的一个中心研究主题,而且该领域已经提出和研究了各种有效的序列模式挖掘算法.由于在挖掘过程中会产生大量的频繁序列模式,最近许多研究者已经不再聚焦于序列模式挖掘算法的效率,而更关注于如何让用户更容易地理解序列模式的结果集.受压缩频繁项集思想的启发,提出了一种CFSP(compressing frequent sequential patterns)算法,其可挖掘出少量有代表性的序列模式来表达全部频繁序列模式的信息,并且清除了大量的冗余序列模式.CFSP是一种two-steps的算法:在第1步,其获得了全部闭序列模式作为有代表性序列模式的候选集,与此同时还得到大多数的有代表性模式;在第2步,该算法只花费了少量的时间去发现剩余的有代表性序列模式.一个采用真实数据集与模拟数据集的实验研究也证明了CFSP算法具有高效性.  相似文献   

14.
PretixSpan算法解决了类Apriori算法的不足,但产生的投影数据库花费了较多的存储空间及扫描时间.本文基于PretixSpan算法提出PSD算法,舍弃了对非频繁项的存储及对投影序列数小于最小支持数的投影数据库的扫描,减少了不必要的存储空间,提高了查询速度.实验证明,PSD算法比PretixSpan算法具有更好的时空性能.  相似文献   

15.
针对频繁项集增量更新的问题,提出算法FIU。该算法将保存了数据库事务的FP-tree存储在磁盘上,当挖掘新支持度阈值的频繁项集时,只需从磁盘上读入FP-tree,再挖掘新支持度阈值下的频繁项集。当新增数据库事务记录后,首先建立新项目表,然后根据新项目表建立新增事务记录的FP-tree,读入存储在磁盘上的FP-tree,抽取出所有的事务记录,再插入到新FP-tree中.从而得到增量更新后的FP-tree。最后在增量更新后的FP-tree上挖掘频繁项集。实验证明,FIU算法执行时间不随数据库大小变化,与其他算法相比有较好的性能。  相似文献   

16.
SPADE: An Efficient Algorithm for Mining Frequent Sequences   总被引:63,自引:0,他引:63  
Zaki  Mohammed J. 《Machine Learning》2001,42(1-2):31-60
In this paper we present SPADE, a new algorithm for fast discovery of Sequential Patterns. The existing solutions to this problem make repeated database scans, and use complex hash structures which have poor locality. SPADE utilizes combinatorial properties to decompose the original problem into smaller sub-problems, that can be independently solved in main-memory using efficient lattice search techniques, and using simple join operations. All sequences are discovered in only three database scans. Experiments show that SPADE outperforms the best previous algorithm by a factor of two, and by an order of magnitude with some pre-processed data. It also has linear scalability with respect to the number of input-sequences, and a number of other database parameters. Finally, we discuss how the results of sequence mining can be applied in a real application domain.  相似文献   

17.
针对树挖掘算法产生大量频繁子树和树数据库随时间变化的问题,提出最小频繁闭树增量式更新算法以及增量式更新策略,能充分利用已有挖掘知识,无须重新运行树挖掘算法,并且只需进行一次数据库扫描操作。给出一种候选子树剪枝方法,能减少树同构判别次数,有效提高算法的运行效率。通过大量实验结果表明,该算法有效可行且效率较高。  相似文献   

18.
杨学兵  安红梅 《微机发展》2007,17(1):108-110
发现频繁项目集是关联规则挖掘的关键问题,而发现的过程是高花费的。因此,要求对增量挖掘算法进行深入研究。这使得关联规则的更新成为数据挖掘技术中的一个重要内容。文中就关联规则的增量式更新问题进行了探讨,针对最小支持度发生变化时的增量式更新算法(IUA)的不足,提出了改进算法(AIUA),在保证算法有效的同时提高了效率。  相似文献   

19.
一种高效的关联规则增量更新算法   总被引:3,自引:0,他引:3  
对挖掘关联规则中FUP算法的关键思想以及性能进行了研究,提出了改进的FUP算法SFUP。该算法充分利用原有挖掘结果中候选频繁项集的支持数,能有效减少对数据库的重复扫描次数,并通过实验对这两种算法进行比较,结果充分说明了SFUP算法的效率要明显优于FUP算法。  相似文献   

20.
颜一鸣  郭鑫 《计算机工程》2014,(3):67-70,92
为适应真实环境中数据量大、流程复杂、计算密集的数据挖掘需求,提高传统树增量更新挖掘效率,改变已有算法的串行执行方式,提出一种基于Hadoop的动态树增量更新方法。介绍云计算、模型与执行流程等基本概念,针对现有Hadoop平台中任务调度的随机分配策略,设计一种动态云平台中的资源调度与分配算法,以期达到成本消耗的最小化,给出树增量更新挖掘算法以及2个并行算法(DeleteFreqTree和FindNewTree),完成树数据的增量挖掘工作。实验结果表明,该并行算法有效可行,具有高效性与良好的扩展率,能够对海量树数据进行更新挖掘。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号