首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 140 毫秒
1.
挖掘最大频繁项目集是数据挖掘中的重要研究课题。目前已经提出的最大频繁项目集挖掘算法大多是基于单机环境的,在分布环境中挖掘最大频繁项目集的算法尚不多见。文章提出了一种基于分布数据库的并行挖掘最大频繁项目集的算法。该算法尽可能地让每个处理器独立地挖掘,采用频繁模式树(FP—tree)作为数据结构,可方便地从各局部FP-tree中挖掘局部最大频繁项目集及判断各项目集的支持度。采用传递候选最大频繁项目集的方法。实验表明该算法是有效的并行算法。  相似文献   

2.
针对Apriori类算法多次扫描数据库和FP-tree类算法需要构建大量条件模式树的问题,文中提出了挖掘最大频繁项集的GBMFI算法。采用垂直格式存储事务数据库,以枚举树为基础,利用子集非频繁性质和父子节点支持度信息在搜索过程中对枚举树进行剪枝,最终得到最大频繁项集。通过实验对比,结果证明了算法的有效性,尤其适用于稀疏数据集。  相似文献   

3.
提出了一种基于频繁模式矩阵(FP-array)的约束最大频繁项目集挖掘及其更新算法。算法只扫描事务数据库一遍,把满足约束条件的所有事务转换成一个频繁模式矩阵,显著缩小了FP-array的大小规模。挖掘过程采用逻辑运算,在效率上有独特的优势。实验结果表明该算法是快速有效的。  相似文献   

4.
针对在交易数据库中挖掘出指定顾客相关属性的频繁项集这一问题,提出了基于维约束进行求解的构想.采用模式增长的挖掘方法,但与传统的模式树不同的是将原先每一节点频繁计数值设为在所有可能的谓词约束下该项的计数形成的向量,并利用HASH表进行向量值及项所在层的位置映射,因此,在不同的约束组合下的频繁项集挖掘将不再需要扫描数据库.仿真实验表明该挖掘算法的完备性,通过与先筛选再挖掘的算法进行比较,证明该挖掘算法具有更高的效率.  相似文献   

5.
加权最大频繁项目集挖掘算法   总被引:2,自引:0,他引:2  
关联规则是数据挖掘领域的一个重要分支,而发现最大频繁项目集是关联规则挖掘中的重要问题.最大频繁项目集挖掘是在数据库中各属性之间是平等的情况下进行的,但现实中并非如此.频繁模式树(Frequent Pattern Tree,FP-Tree)已不能满足要求.为此提出了一个有效的基于加权FP-Tree的加权最大频繁项目集挖掘算法,其挖掘过程中不需要产生候选项目集.并通过实例说明了此算法的挖掘过程.实验结果表明此算法是有效的并且有较好的扩展性.  相似文献   

6.
一种不产生候选集的最大频繁集快速挖掘算法   总被引:2,自引:2,他引:0  
发现最大频繁(项目)集是关联规则挖掘中的重要问题。提出一个基于频繁模式树FP—Tree(Frequent Pattern Tree)的快速发现最大频繁项目集算法MFP—growth(Maximum Frequent Pattern growth),其发现过程中不需要产生候选(项目)集,从而提高了挖掘效率。由实验结果表明,此算法在发现最大频繁项目集方面具有很好的性能。  相似文献   

7.
频繁项集的挖掘是数据挖掘中的一个基础和核心问题,具有广泛的应用领域。而频繁项集挖掘可分为完全频繁项集挖掘、频繁闭项集挖掘和最大频繁项集挖掘三类,其中,最大频繁项集的数目最少。频繁项集的挖掘是一个搜索问题,剪枝优化技术是提高频繁项集挖掘效率的一个重要手段。对于最大频繁项集的挖掘可以从宽度优先和深度优先两个角度来考虑,而基于FP树的深度优先算法比宽度优先算法扫描数据集的次数要少很多,因此,具有较好的性能。本文主要分析宽度优先的最大频繁项集挖掘算法和基于FP树的深度优先最大频繁项集挖掘算法。  相似文献   

8.
Web挖掘中基于RD_Apriori算法发现用户频繁访问模式   总被引:4,自引:0,他引:4  
从Web日志数据中发现用户的频繁访问模式,可分为两步进行。首先把经过预处理后的目志数据转换为最大前向引用的集合,然后使用Apriori算法挖掘出频繁访问模式。本文针对挖掘的第二步提出了一种基于缩减数据库(Reduced Database)的RD—Apriori算法,此算法能够准确、高效地挖掘各种长度不同的频繁访问模式。  相似文献   

9.
提出了一种高效挖掘数据的频繁项目集模式的算法FIA.该算法采用一种二进制符号来表示数据,在仅扫描数据库一次之后,建立起二进制向量与上三角频繁项集矩阵,根据两者来产生出频繁项集.从而有效地缩小了搜索空间,加快了处理速度.通过实验表明,FIA算法比Apriori算法更有效.  相似文献   

10.
Fp-Tree算法在挖掘最大频繁模式和搜索关联规则中得到了广泛应用。本文阐述了Fp-Tree算法的一般过程,并对其效率瓶颈作了分析:传统的Fp-Tree算法在构建频繁树的过程中需要递归地插入频繁项,在频繁模式的挖掘过程中需要递归地产生条件FpTree,这些递归过程会增大算法开销,降低算法效率。本文使用非递归机制对Fp-Tree的构建过程做了一些改进,同时,在挖掘频繁项过程中使用了组合频繁前缀的方法,避免了条件Fp-Tree的产生。本文就改进算法与传统算法作了对比实验,可以看出,这些改进一定程度上提高了效率。  相似文献   

11.
The mining of association rules is one of the primary methods used in telecommunication alarm correlation analysis,of which the alarm databases are very large.The efficiency of the algorithms plays an important role in tackling with large datasets. The classical frequent pattern growth(FP-growth) algorithm can produce a large number of conditional pattern trees which made it difficult to mine association rules in are telecommunication environment.In this paper,an algorithm based on layered frequent pattern tree(LFP-tree) is proposed for mining frequent patterns. Efficiency of this alagorithm is achieved with following techniques:1) All the frequent patterns are condensed into a layered structure,which can save memory time but also be very useful for updating the alarm databases.2) Each alarm item can be viewed as a triple,in which t is a Boolean vaviable that shows the item frequent or not.3) Deleting infrequent items with dynamic pruning can avoid produce conditional pattern sets. Simulation and analysis of algorithm show that it is a valid method with better time and space efficiency,which is adapted to mine association rules in telecommunication alarm correlation analysis.  相似文献   

12.
频繁闭合模式集可惟一确定频繁模式完全集且数据量要小几个数量级。根据分布式数据流的特点,提出了一种挖掘频繁闭合项集的算法,该算法采用K叉树形结构,以叶子节点接收各条数据流,创建DSFCI_tree结构来存贮各条数据流中的每段闭合模式,然后逐层往上合并更新,从而在根节点可得整个分布式数据流的频繁闭合模式。  相似文献   

13.
该文提出FPM(Frequent Pattern Mining)算法充分考虑频繁模式在时间序列中出现次数和分布。基于这些不同分布的频繁模式扩展MAMC(Mixed memory Aggregation Markov Chain)模型提出FMAMC(Frequent pattern based Mixed memory Aggregation Markov Chain)模型。将FPM和FMAMC应用到实际的智能楼宇项目中,证明和现有算法相比FPM算法具有较好的时间性能,FMAMC模型能够比MAMC模型更准确的预测WSAN节点行为。  相似文献   

14.
针对关联规则中频繁模式挖掘的效率问题进行了研究,提出了一种快速挖掘频繁模式的新算法。该算法采用一个动态更新的连接项集对n项频集中的项目进行项目增长的原理,求得所有频繁项集。通过研究分析可以看出:算法只需对数据库一次扫描;增强了产生候选项的针对性和有效性;提高了候选项的支持事务计数的效率;在求解最大频繁项集时,由于求解过程中无需用到大量的中间结果,节省了内存空间。给出了算法的实现。通过对实验结果的性能对比分析,表明算法是可行的,有效的。  相似文献   

15.
In this letter,on the basis of Frequent Pattern(FP) tree,the support function to update FP-tree is introduced,then an incremental FP(IFP) algorithm for mining association rules is proposed.IFP algorithm considers not only adding new data into the database but also reducing old data from the database.Furthermore,it can predigest five cases to three case .The algorithm proposed in this letter can avoid generating lots of candidate items,and it is high efficient.  相似文献   

16.
面向频繁模式挖掘的差分隐私保护研究综述   总被引:1,自引:0,他引:1  
丁丽萍  卢国庆 《通信学报》2014,35(10):200-209
频繁模式挖掘是数据挖掘的一个基本问题,其模式本身和相应计数都有可能泄露隐私信息。当前,差分隐私通过添加噪音使数据失真,有效实现了隐私保护的目的。首先介绍了差分隐私保护模型的理论基础;其次,详细综述了差分隐私下3种典型的频繁模式挖掘方法的最新研究进展,并进行对比性分析;最后对未来的研究方向进行了展望。  相似文献   

17.
赵建邦  董安国  高琳 《电子学报》2010,38(8):1803-1807
 频繁模式挖掘是生物网络数据分析中的一个核心问题,对于研究生物网络的组织结构和功能模块具有重要意义.本文提出了子图环分布的概念并构造了子图搜索算法,提高了搜索效率.其次设计了动态抽样算法计算子图频率,用于提高非穷举搜索的精度.利用4个真实生物网络数据进行仿真实验研究,验证了本文算法在效率和精度上相对于现有算法的优势.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号