首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 109 毫秒
1.
发现最大频繁项目集是关联规则挖掘的重要步骤,针对关联规则挖掘中最小支持度发生变化的增量式更新问题,提出了高效发现最大频繁项目集的更新算法.该算法在FP树的基础上增加了记录各项目支持数的表,在头表中增加了域,从而减少了访问事务数据库和FP树的时间,提高了发现最大频繁项目集的效率.  相似文献   

2.
一种多重最小支持度关联规则挖掘算法   总被引:5,自引:0,他引:5  
针对单一最小支持度挖掘关联规则不能反应不同数据项出现频度与性质的问题,提出了一个基于频繁模式树的多重支持度关联规则挖掘算法MSDMFIA(Multiple minimum Supports for Discover Maximum Fre-quent Item sets Algorithm),根据不同数据项的特点定义多重支持度,通过挖掘数据库中的最大频繁项目集,计算最大频繁候选项目集在数据库中的支持度来发现关联规则.该算法可以解决关联规则挖掘中经常出现的稀少数据项问题,并解决了传统的关联规则挖掘算法中的生成频繁候选集和多次扫描数据库的性能瓶颈.实验结果表明,本文提出的算法在功能和性能方面均优于已有算法.  相似文献   

3.
FP__growth算法是基于FP树挖掘频繁项目集的关联规则经典算法,在许多领域中有很高的应用价值。针对传统的FP__growth算法可能产生大量的频繁项集,对FP树的挖掘过程进行了改进,提出了一种项合并剪枝的挖掘策略,进而分析了单路径和多路径的挖掘方法,减少了部分分支的挖掘次数。然后利用MapReduce模型,针对改进的算法并行化实现。实验结果表明该方法提高了算法的执行效率,并且具有良好的加速比和较好的扩展性。  相似文献   

4.
关联规则挖掘是数据挖掘及知识发现领域的重要研究内容之一,其核心任务是挖掘数据库中的频繁项集.Apriori算法是频繁项集挖掘的有效算法.在Apriori的算法中,采用哈希树存储平凡项集的候补项集以便快速计算其支持度.本文在分析算法所存在的效率瓶颈的基础上,提出了一个有效的改进算法,通过利用一维数组替代算法中复杂的哈希树...  相似文献   

5.
传统的基于支持度—置信度框架的关联规则挖掘方法可能会产生大量不相关的、甚至是误导的关联规则,同时也不能区分正负关联规则。在充分考虑用户感兴趣模式的基础上,采用一阶谓词逻辑作为用户感兴趣的背景知识表示技术,提出了一种基于背景知识的包含正负项目集的频繁模式树,给出了针对正负项目集的约束频繁模式树的构造算法NCFP-Construct,从而提高了关联规则挖掘的效率和针对性,实验结果显示该方法是有效的。  相似文献   

6.
在个性化的网络学习中,对知识点间的关联规则进行挖掘是一个关键的问题.该文提出了一种基于后缀树的知识点间关联规则挖掘算法,该算法通过对web日志数据构造后缀树进行序列挖掘,动态地挖掘最大频繁序列,进而发现有意义的知识点间的关联规则.  相似文献   

7.
敏感性关联规则的隐藏是最大程度地保持原始数据集的其他特征,保证敏感规则不被挖掘出来.针对已有的基于对原始数据集中事务修改的方法产生大量I/O操作的问题,提出了基于频繁模式树(FP-tree)的敏感性关联规则隐藏的方法.该方法首先利用FP-tree存储了与事务数据库相关的全部信息,减少了产生和测试候选集耗费的大量时间;再利用改进的频繁模式树(IFP-tree)是单向的,快速挖掘出最大频繁项目集,确定敏感性关联规则;然后删除敏感关联规则对应的频繁项目集,更新IFP-tree项目集节点和相应的项目头表的计数,对更新的IFP-tree反向挖掘生成新的不包含敏感关联规则的事务数据库.实例和理论分析表明,该方法是正确和高效的.  相似文献   

8.
关联规则是数据挖掘研究的一个重要课题 ,而最大频繁项集的生成是影响关联规则挖掘的关键问题 .在已有的频繁集发现算法中 ,DLG算法通过减少事务数据库的扫描次数 ,进而有效减少挖掘过程的I/O代价 .在阐述DLG算法的实现原理与执行过程的基础上 ,为进一步减少候选项集的数量 ,提出一种改进算法DLG .其主要思想是在关联图构造阶段 ,统计每一个频繁项目的入度 ,以此作为剪枝的依据 .性能分析和比较试验的结果表明该算法性能优良  相似文献   

9.
提出了改进的FP—tree树及FP—growth算法,不需要递归的生成条件模式基和条件模式树,改进的FP—tree结构类似于邻接表,保留了FP—tree中的项头表,舍弃了繁琐的树结构,采用单向链表结构来压缩结点信息,链表中各结点按照支持度降序排列。在挖掘频繁项目集部分相对FP—growth算法在运行时间上有显著提高,且算法的运行速度也明显优于FP—growth算法。  相似文献   

10.
对关联规则的Apriori算法的思想和性能进行了分析,提出了一种基于超级哈希树的关联规则挖掘算法,该算法只需扫描三次数据库,即可找出所有的频繁项目集,在每项事务的项目数不是太多的情况下,算法效率较Apriori有较大的改进.  相似文献   

11.
随着分布式数据库记录的不断增加,需要对已挖掘出的全局最大频繁项集进行增量更新。在已经提出的快速挖掘全局最大频繁项集算法(FMMFI)的基础上,提出了分布式数据库全局最大频繁项集增量更新算法(IUGMFI)。IUGMFI算法利用了FMMFI算法已经挖掘出的分布式数据库全局频繁项目和全局最大频繁项集。挖掘增量数据库的全局频繁项目,构建增量数据库的FP-tree,挖掘出增量数据库的全局最大频繁项集,采用自上而下的剪枝策略更新全局最大频繁项集。理论分析和实验结果表明,IUGMFI算法是快速而有效的。  相似文献   

12.
为解决FP(frequent pattern)-growth算法中构造频繁模式树(FP-树)所带来的存储和遍历开销较大的问题,提出了一种基于动态裁剪FP-树的频繁项集并发算法Dynamic prune。一方面,通过记录FP 树构造过程中频繁项目计数的变化,实现了FP 树的动态剪枝;另一方面,使用并发策略达到了边构造FP-树,边挖掘频繁项集的效果。与FP growth算法相比,Dynamic-prune无需先构造整棵FP-树再挖掘频繁项集,节省了FP-树的存储开销。实验结果表明Dynamic-prune在运行效率和可扩展性上均优于FP growth算法。  相似文献   

13.
为了进一步提高频繁项集挖掘算法的可扩展性,对频繁项集的搜索空间以及FP-tree的操作方法进行了研究.提出了通过FP-tree的操作实现频繁项集快速挖掘的相关性质和新的搜索策略,在此基础上提出了基于FP-tree的频繁项集挖掘的改进算法.算法运用递增构建候选项集模式树的策略缩小搜索空间,运用FP-tree的部分遍历操作简化搜索过程.在多个标准测试数据集上的实验结果表明,该算法的执行时间比同类算法减少了一个数量级,且占用较少的内存空间,因此该算法对于提高频繁项集和频繁闭项集的挖掘效率具有明显的效果.  相似文献   

14.
关联规则挖掘是数据挖掘领域中的重要研究方向,该文在分析关联规则挖掘Apriori算法原理和性能的基础上,指出了该算法存在着两点不足:扫描事务数据库的次数和连接成高维候选项目集时的比较次数太多。并提出了一种效率更高的S-Apriofi算法,该算法通过采用新的数据结构和原理,克服了传统Apriori算法的缺点,从而大大提高了运算效率。  相似文献   

15.
由频繁项集产生的关联规则往往不能保证规则前、后件中的项是正相关的,因此可能产生无意义的关联规则;当这些关联规则用于分类时,会产生大量无用分类规则,增加了时间开销.因此,基于数学期望提出了正相关的频繁项集的分类算法.该算法在挖掘正相关频繁项集时,利用置信度进行规则选取,生成正相关关联规则组成的分类器对数据集进行分类.实验表明,这种分类算法可以大幅度减少所产生的频繁项集数量,分类准确率达到C4.5和CMAR的水平,且显著减少了算法的时间.  相似文献   

16.
提出了一种基于最小支持度变化的挖掘最大频繁项集的增量式更新算法MFIU(Maximum Frequent Itemsets Updating).针对最大频繁项集更新时的特性,分别对最小支持度变大和变小提出了两种不同的处理方法,对于最小支持度变大的复杂情况,采取了分块的更新策略,并为减少不必要的候选项集,利用了如果X是一个最大频繁项集,则其所有子集都是频繁项集,但都不可能是最大频繁项集,而进行了独特的剪枝方法.最后通过实例分析了该算法.  相似文献   

17.
餐饮信息化的快速发展将使用智能推荐系统分析客户的消费偏好,向客户提供更具针对性的点餐意见成为现实。推荐系统的运行既可以帮助客户更加合理地点餐、提升客户满意度,又可以有效提升餐饮企业的销售水平。文章在对基于关联规则的推荐系统进行分析讨论的基础上,提出面向分类预测的增量关联规则算法获取推荐规则,并进行实验验证。最后,在此基础上对点餐推荐系统的结构设计进行了研究。  相似文献   

18.
针对负关联规则挖掘所带来的问题,提出加入最大支持度来控制频繁项集生成规模,改进了相关性的计算公式,并将其用作正负关联规则的兴趣度来剔除无兴趣的关联规则,限制关联规则中的前后件项目个数来保证挖掘出的关联规则的实用性和可理解性。最后,给出一种能够同时挖掘正负关联规则的算法,实验结果表明算法是有效的、可行的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号