期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

快速挖掘全局最大频繁项目集 总被引：18，自引：1，他引：18

陆介平杨明孙志挥鞠时光《软件学报》2005,16(4):553-560

挖掘最大频繁项目集是多种数据挖掘应用中的关键问题.现行可用的最大频繁项目集挖掘算法大多基于单机环境,针对分布式环境下的全局最大频繁项目集挖掘尚不多见.若将基于单机环境的最大频繁项目集挖掘算法运用于分布式环境,或运用分布式环境下的全局频繁项目集挖掘算法来挖掘全局最大频繁项目集,均会产生大量的候选频繁项目集,且网络通信代价高.为此,提出了快速挖掘全局最大频繁项目集算法FMGMFI(fast mining global maximum frequent itemsets),该算法采用FP-tree存储结构,可方便地从各局部FP-tree的相关路径中得到项目集的频度,同时采用自顶向下和自底向上的双向搜索策略,可有效地降低网络通信代价.实验结果表明,FMGMF算法是有效、可行的. 相似文献

2.

分布式数据库的全局频繁项目集高效更新算法

宋宝莉覃征《计算机工程与应用》2006,42(31):157-160

提出了快速更新全局频繁项目集的算法IUAGFI(IncrementalUpdatingAlgorithmforGlobalFrequentItemsets)。该算法主要考虑数据库记录发生变化时全局频繁项目集的更新情况,在最坏的情况下仅需扫描各局部数据库一遍,并利用已建立的各局部改进的频繁模式树和已挖掘的结果,可避免传送某些原全局频繁项目对应的被约束子树,从而降低网络通讯代价。实验结果表明,该算法是有效可行的。相似文献

3.

基于DDMINER分布式数据库系统中频繁项目集的更新 总被引：13，自引：0，他引：13

吉根林杨明赵斌孙志挥《计算机学报》2003,26(10):1387-1392

给出了一种分布式数据挖掘系统的体系结构DDMINER，对分布式数据库系统中频繁项目集的更新问题进行探讨，既考虑了数据库中事务增加的情况，又考虑了事务删除的情况；提出了一种基于DDMINER的局部频繁项目集的更新算法ULF和全局频繁项目集的更新算法UGF．该算法能够产生较少数量的候选频繁项目集，在求解全局频繁项目集过程中，传送候选局部频繁项目集支持数的通信量为O(n)；将文章提出的算法用Java语言加以实现，并对算法性能进行了研究；实验结果表明这些算法是正确、可行的，并且具有较高的效率．相似文献

4.

快速更新全局频繁项目集 总被引：15，自引：0，他引：15

杨明孙志挥宋余庆《软件学报》2004,15(8):1189-1197

数据挖掘中的频繁项目集更新算法研究是重要的研究课题之一.目前已有的频繁项目集更新算法主要针对单机环境,有关分布式环境下的全局频繁项目集的更新算法的研究尚不多见.为此,提出了快速更新全局频繁项目集算法(fast updating algorithm for globally frequent itemsets,简称FUAGFI).该算法主要考虑数据库记录增加时全局频繁项目集的更新情况.FUAGFI利用已建立的各局部频繁模式树(frequent pattern tree,简称FP-tree)及已挖掘的全局频繁项目集,可有效地降低网络通信量,提高全局频繁项目集的更新效率.实验结果表明,所提出的更新算法是行之有效的. 相似文献

5.

最小支持度变化时分布式数据库中频繁项目集更新

吉根林赵斌《小型微型计算机系统》2005,26(7):1233-1236

讨论分布式数据库系统中最小支持度变化时频繁项目集如何高效更新问题，提出了一种基于最小支持度变化的局部频繁项目集的更新算法ULFS和全局频繁项目集的更新算法UGFS．该算法能够充分利用已挖掘的结果．并且产生较少数量的候选频繁项目集，在求解全局频繁项目集过程中．候选局部频繁项目集支持数的通信量为O(n)．将文章提出的算法用Java加以实现．并时算法性能进行了研究．实验结果表明这些算法是可行、有效的．并且具有较快的速度．相似文献

6.

频繁闭项目集挖掘算法研究

朱玉全宋余庆《计算机研究与发展》2007,44(7):1177-1183

目前已提出了许多基于Apriori算法思想的频繁项目集挖掘算法,这些算法可以有效地挖掘出事务数据库中的短频繁项目集,但对于长频繁项目集的挖掘而言,其性能将明显下降.为此,提出了一种频繁闭项目集挖掘算法MFCIA,该算法可以有效地挖掘出事务数据库中所有的频繁项目集,并对其更新问题进行了研究,提出了一种相应的频繁闭项目集增量式更新算法UMFCIA,该算法将充分利用先前的挖掘结果来节省发现新的频繁闭项目集的时间开销.实验结果表明算法MFCIA是有效可行的. 相似文献

7.

快速挖掘分布式数据库全局最大频繁项集 总被引：1，自引：0，他引：1

何波《控制与决策》2011,26(8):1214-1218

提出一种快速挖掘分布式数据库全局最大频繁项集算法（FMMH）．FMMFI算法首先设置了中心节点,并以各个节点构建局部FP-tree,采用挖掘最大频繁项目集算法（DMHA）快速挖掘局部最大频繁项集;然后与中心节点交互以实现数据汇总：最终获得全局最大频繁项集．FMMFI算法采用自上而下的剪枝策略,能大幅减少候选项集,降低通信量．理论分析和实验结果表明,FMMFI算法是有效的．相似文献

8.

一种基于F-矩阵的最大频繁项目集快速挖掘算法

杨萍《计算机工程与应用》2003,39(34):197-200

最大频繁项目集挖掘是多种数据挖掘应用研究的一个重要方面,最大频繁项目集的快速挖掘算法研究是当前研究的热点。传统的最大频繁项目集挖掘算法要多遍扫描数据库并产生大量的候选项目集。为此,该文提出了基于F-矩阵的最大频繁项目集快速挖掘算法FMMFIBFM,FMMFIBFM采用FP-tree的存储结构,仅须扫描数据库两遍且不产生候选频繁项目集,有效地提高了频繁项目集的挖掘效率。实验结果表明,FMMFIBFM算法是有效可行的。相似文献

9.

全局频繁闭项目集挖掘算法研究

陈健美朱玉全宋顺林桂长青宋余庆《计算机科学》2008,35(1):193-195

频繁闭项目集挖掘是数据挖掘研究中的一个重要研究课题.目前已有的频繁闭项目集挖掘算法主要针对单机环境,有关分布式环境下的全局频繁闭项目集挖掘算法的研究尚不多见.为此,本文提出了一种快速挖掘全局频繁闭项目集算法,并对其更新问题进行了研究;提出了一种相应的频繁闭项目集增量式更新算法,该算法将充分利用先前的挖掘结果来节省发现新的全局频繁闭项目集的时间开销.实验结果表明算法是有效的. 相似文献

10.

基于频繁链表的频繁集的挖掘算法 总被引：4，自引：0，他引：4

袁鼎荣张师超《计算机科学》2003,30(7):165-166

自从1989年提出KDD以来,关联规则的挖掘一直是人工智能及数据库领域关注的焦点,尤其是项目决策者渴求的制胜法宝。挖掘关联规则的前提是频繁集的挖掘,目前典型的频繁集挖掘算法以Appriori算法为代表。在Appriori算法的基础上提出了一些可行的方法,所有这些算法不外乎达到两个目的:①在穷举的基础上,设法删除对关联规则不太有效的频繁集,减少候选频繁集的数量,达到提高挖掘算法性能的目的。②直接挖掘最大频繁集,以最大频繁集为基础挖掘感兴趣相似文献

11.

分布环境中的并行频繁模式挖掘算法

阮幼林李庆华刘干《计算机工程与应用》2005,41(25):1-3,22

频繁模式的并行挖掘算法是数据挖掘中重要的研究课题。目前已经提出的并行算法大多是基于Apriori或基于FP-tree。由于两者的固有局限性,而且在计算过程中需要多次同步,因而具有较低的性能。文章提出了一种基于分布数据库的并行挖掘算法。该算法尽可能地让每个处理器独立地挖掘,每个处理器基于前缀树采用深度优先搜索的策略挖掘局部频繁模式集,并通过相关性质尽量减少候选全局频繁模式的规模,减少网络的通信量和同步次数以提高挖掘效率。相似文献

12.

基于FP树的全局最大频繁项集挖掘算法 总被引：12，自引：1，他引：12

王黎明赵辉《计算机研究与发展》2007,44(3):445-451

挖掘最大频繁项集是多种数据挖掘应用了更新最大频繁候选项集集合,需要反复地扫描整个数据库,而且大部分算法是单机算法,全局最大频繁项集挖掘算法并不多见.为此提出MGMF算法,该算法利用FP-树结构,类似FP-树挖掘方法,一遍就可以挖掘出所有的最大频繁项集,并且超集检测非常简单、快捷.另外MGMF算法采用了分布式PDDM算法播报消息的思想,具有很好的拓展性和并行性.实验证明MGMF算法是有效可行的. 相似文献

13.

基于FP-Tree的最大频繁项目集挖掘及更新算法 总被引：105，自引：2，他引：105

下载免费PDF全文

宋余庆朱玉全孙志挥陈耿《软件学报》2003,14(9):1586-1592

挖掘最大频繁项目集是多种数据挖掘应用中的关键问题,之前的很多研究都是采用Apriori类的候选项目集生成-检验方法.然而,候选项目集产生的代价是很高的,尤其是在存在大量强模式和/或长模式的时候.提出了一种快速的基于频繁模式树(FP-tree)的最大频繁项目集挖掘DMFIA(discover maximum frequent itemsets algorithm)及其更新算法UMFIA(update maximum frequent itemsets algorithm).算法UMFIA将充分利用以前的挖掘结果来减少在更新的数据库中发现新的最大频繁项目集的费用. 相似文献

14.

基于频繁模式树的分布式关联规则挖掘算法 总被引：1，自引：0，他引：1

何波《控制与决策》2012,27(4):618-622

提出一种基于频繁模式树的分布式关联规则挖掘算法(DMARF).DMARF算法设置了中心结点,利用局部频繁模式树让各计算机结点快速获取局部频繁项集,然后与中心结点交互实现数据汇总,最终获得全局频繁项集.DMARF算法采用顶部和底部策略,能大幅减少候选项集,降低通信量.理论分析和实验结果均表明了DMARF算法是快速而有效的. 相似文献

15.

Distributed Mining of Maximal Frequent Itemsets on a Data Grid System

Congnan Luo Anil L. Pereira Soon M. Chung 《The Journal of supercomputing》2006,37(1):71-90

In this paper, we propose a new algorithm, named Grid-based Distributed Max-Miner (GridDMM), for mining maximal frequent itemsets from databases on a Data Grid. A frequent itemset is maximal if none of its supersets is frequent. GridDMM is specifically suitable for use in Grid environments due to low communication and synchronization overhead. GridDMM consists of a local mining phase and a global mining phase. During the local mining phase, each node mines the local database to discover the local maximal frequent itemsets, then they form a set of maximal candidate itemsets for the top-down search in the subsequent global mining phase. A new prefix-tree data structure is developed to facilitate the storage and counting of the global candidate itemsets of different sizes. We built a Data Grid system on a cluster of workstations using the open-source Globus Toolkit, and evaluated the GridDMM algorithm in terms of performance, scalability, and the overhead of communication and synchronization. GridDMM demonstrates better performance than other sequential and parallel algorithms, and its performance is scalable in terms of the database size and the number of nodes. This research was supported in part by LexisNexis, NCR and AFRL/Wright Brothers Institute (WBI). 相似文献

16.

Efficient mining of maximal frequent itemsets from databases on a cluster of workstations 总被引：2，自引：2，他引：0

Soon M. Chung Congnan Luo 《Knowledge and Information Systems》2008,16(3):359-391

In this paper, we propose two parallel algorithms for mining maximal frequent itemsets from databases. A frequent itemset is maximal if none of its supersets is frequent. One parallel algorithm is named distributed max-miner (DMM), and it requires very low communication and synchronization overhead in distributed computing systems. DMM has the local mining phase and the global mining phase. During the local mining phase, each node mines the local database to discover the local maximal frequent itemsets, then they form a set of maximal candidate itemsets for the top-down search in the subsequent global mining phase. A new prefix tree data structure is developed to facilitate the storage and counting of the global candidate itemsets of different sizes. This global mining phase using the prefix tree can work with any local mining algorithm. Another parallel algorithm, named parallel max-miner (PMM), is a parallel version of the sequential max-miner algorithm (Proc of ACM SIGMOD Int Conf on Management of Data, 1998, pp 85–93). Most of existing mining algorithms discover the frequent k-itemsets on the kth pass over the databases, and then generate the candidate (k + 1)-itemsets for the next pass. Compared to those level-wise algorithms, PMM looks ahead at each pass and prunes more candidate itemsets by checking the frequencies of their supersets. Both DMM and PMM were implemented on a cluster of workstations, and their performance was evaluated for various cases. They demonstrate very good performance and scalability even when there are large maximal frequent itemsets (i.e., long patterns) in databases.

Congnan LuoEmail:

相似文献