首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 468 毫秒
1.
陈冰  ;张化祥 《微机发展》2008,(8):118-120
介绍了关联规则挖掘的情况,然后对关联规则挖掘算法进行分析,并在此分析的基础上对经典的Apriori算法作出了进一步的改进,从而提出了这种改进的关联规则挖掘算法——Apriori-New算法。Aprlori-New算法只需对数据库扫描一次,并在扫描过程中通过不断将被标记为频繁项的项集提取出来,最终找出所有的频繁项集。通过一个简单的实例说明了该算法的扫描过程,从而体现了该Aprlori-New算法的效率及其所具有的实用性。  相似文献   

2.
介绍了关联规则挖掘的情况,然后对关联规则挖掘算法进行分析,并在此分析的基础上对经典的Apriori算法作出了进一步的改进,从而提出了这种改进的关联规则挖掘算法--Apriori-New算法.Apriori-New算法只需对数据库扫描一次,并在扫描过程中通过不断将被标记为频繁项的项集提取出来,最终找出所有的频繁项集.通过一个简单的实例说明了该算法的扫描过程,从而体现了该Apriori-New算法的效率及其所具有的实用性.  相似文献   

3.
基于图的关联规则改进算法   总被引:1,自引:0,他引:1  
关联规则挖掘是数据挖掘研究的最重要课题之一。基于图的关联规则挖掘DLG算法通过一次扫描数据库构建关联图,然后遍历该关联图产生频繁项集,有效地提高了关联规则挖掘的性能。在分析该算法基本原理基础上,提出了一种改进的算法—DLG#。改进算法在关联图构造同时构造项集关联矩阵,在候选项集生成时结合关联图和Apriori性质对冗余项集进行剪枝,减少了候选项集数,简化了候选项集的验证。比较实验结果表明,在不同数据集和不同支持度阈值下,改进算法都能更快速的发现频繁项集,当频繁项集平均长度较大时性能提高明显。  相似文献   

4.
改进频繁项集算法的效率是提高关联规则挖掘性能的重要环节.本文提出了基于包含频繁1-项集的事务集的关联规则挖掘算法,并通过实例说明了算法的有效性,且与Apriori这一经典算法作了比较。  相似文献   

5.
改进频繁项集算法的效率是提高关联规则挖掘性能的重要环节,本文提出了基于包含频繁1-项集的事务集的关联规则挖掘算法,并通过实例说明了算法的有效性,且与Apriori这一经典算法作了比较。  相似文献   

6.
针对从本文数据集中的正负关联规则挖掘问题,提出一种基于双阈值Apriori算法和非频繁项集的挖掘方法。首先,对通过逆文档频率(IDF)对语料库中的项(项集)进行加权,筛选出前N%的项集。然后,通过提出的双支持度阈值Apriori算法来提取频繁项集和非频繁项集,以此降低非频繁项集的数量。最后,通过置信度和升降度阈值的判断,分别从频繁项集和非频繁项集中挖掘正负关联规则。其中,创新性的利用了非频繁项集来挖掘正负关联规则。在一个医学文本数据集上的实验结果表明,提出的方法能够有效挖掘出正负关联规则,且能够大大降低项集和规则数量。  相似文献   

7.
关联规则挖掘是近年来数据挖掘领域中一个相当活跃的领域,频繁项集挖掘是关联规则挖掘中最重要的任务。最大频繁项集的规模远远小于频繁项集的规模,通过最大频繁项集可以导出所有的频繁项集,因此进行了很多专门挖掘最大频繁项集的研究。给出了关联规则和相关术语的基本概念,对最大频繁项集挖掘算法作了分析与评价,便于研究者对已有的算法进行改进,提出具有更好性能的新算法。  相似文献   

8.
提出了一种基于聚类的挖掘关联规则Apriori改进算法,该算法只需扫描一次事务数据库,直接按事务项数生成聚类表,每次只需扫描部分聚类表就可生成频繁项集,减少了扫描数据库的次数和计算成本,从而有效提高挖掘关联规则的效率。  相似文献   

9.
基于消费行为的Apriori算法研究   总被引:2,自引:1,他引:2  
介绍了关联规则的数据挖掘,对布尔关联规则中的经典算法-Apriori算法进行了分析和评价,指出了基本Apriori算法的不足,并提出具有广泛适应性的改进算法,此算法既提高在扫描数据库过程中的信息区率,又及时剔除超集不是频繁项集的项集,进一步缩减项集的潜在规模,提高了频繁项集生成的效率。  相似文献   

10.
关联规则是数据挖掘的一种常用方法。本文以Apriorl算法中频繁项集的概念为基础,在加入了元向量、子规则、父规则等概念后,提出一种关联规则挖掘的改进方法(Improve算法)。该方法克服了传统关联规则挖掘方法的不足,在产生频繁项集的同时进行规则挖掘,从而提高了挖掘效率。  相似文献   

11.
在研究负关联规则相关特性的基础上,将向量内积引入到该领域,提出了一种基于向量内积的多最小支持度正负关联规则挖掘算法。考虑到事务数据库中各项集分布不均而导致的单一最小支持度难以设定的问题,采用了多最小支持度策略,设计了一种能同时挖掘出频繁与非频繁项集,以及从这些项集中挖掘出正负关联规则的算法。实验结果表明,该算法仅需扫描一次数据库,且具有动态剪枝,不保留中间候选项和节省大量内存等优点,对事务数据库中负关联规则的挖掘具有重要意义。  相似文献   

12.
基于频繁项集挖掘算法的改进与研究   总被引:2,自引:1,他引:1  
关联规则挖掘是数据挖掘领域中重要的研究内容,频繁项集挖掘又是关联规则挖掘中的关键问题之一。针对已有的频繁项集挖掘算法存在的问题,通过对Apriori算法的分析,提出了Inter-Apriori频繁项集挖掘算法。该算法使用交集策略减少扫描数据库的次数,从而使算法达到较高的效率。实验结果表明,Inter-Apriori算法是Apriori算法效率的2~4倍。  相似文献   

13.
最频繁项集挖掘是文本关联规则挖掘中研究的重点和难点,它决定了文本关联规则挖掘算法的性能。针对当前在最频繁项集挖掘方面的不足,将集合论引入倒排表以对其进行改进,然后以此为基础提出了几个命题和推论,并结合最小支持度阈值动态调整策略,提出了一个基于改进的倒排表和集合理论的最频繁项集挖掘算法,最后对所提算法进行验证。实验结果表明,所提算法的规则有效率和时间性能比常用的两个最频繁项集挖掘算法,即NApriori和IntvMatrix算法都好。  相似文献   

14.
发现频繁项集是关联规则挖掘应用的关键,针对采用Apriori类的候选项目集生成-检验方法导致候选项目集产生的代价很高问题,该文提出一种基于散列的快速AprioriTid改进算法,在AprioriTid算法的基础上采用基于候选项Lk地址的哈希映射方法,提高了算法的执行效率。  相似文献   

15.
Multilevel knowledge in transactional databases plays a significant role in our real-life market basket analysis. Many researchers have mined the hierarchical association rules and thus proposed various approaches. However, some of the existing approaches produce many multilevel and cross-level association rules that fail to convey quality information. From these large number of redundant association rules, it is extremely difficult to extract any meaningful information. There also exist some approaches that mine minimal association rules, but these have many shortcomings due to their naïve-based approaches. In this paper, we have focused on the need for generating hierarchical minimal rules that provide maximal information. An algorithm has been proposed to derive minimal multilevel association rules and cross-level association rules. Our work has made significant contributions in mining the minimal cross-level association rules, which express the mixed relationship between the generalized and specialized view of the transaction itemsets. We are the first to design an efficient algorithm using a closed itemset lattice-based approach, which can mine the most relevant minimal cross-level association rules. The parent–child relationship of the lattices has been exploited while mining cross-level closed itemset lattices. We have extensively evaluated our proposed algorithm’s efficiency using a variety of real-life datasets and performing a large number of experiments. The proposed algorithm has outperformed the existing related work significantly during the pervasive performance comparison.  相似文献   

16.
关联规则是数据挖掘的主要技术,而最大频繁集是关联规则挖掘的核心。关联规则发现的准确性与效率的好坏直接决定了发现的知识规则是否适用。阐述了关联规则、频繁集和频繁超集的定义,分析了现有关联规则算法的思想及其不足,然后在概率的基础上引入了期望长,提出了ELMFI算法,最后用实例进行仿真实验并做了比较分析。该算法直接产生期望长度的候选项集并进行验算,试验结果验证了其可行性,发现效率有所提高,能节约大量的系统空间和运算时间。  相似文献   

17.
多数据库中全局负关联规则挖掘研究   总被引:1,自引:0,他引:1  
全局负关联规则挖掘是多数据库关联信息挖掘的重要研究内容,具有广泛的应用范围和使用价值.合并各子数据库的负关联规则是现有全局负关联规则挖掘常用的方法,但数据密度大、规则不全面及运算时间高等问题影响了已有全局负关联规则挖掘方法的效率.本文给出一种新的全局负关联规则挖掘算法,其具体步骤为:(1)扫描各子数据库,建立多数据库频繁模式树;(2)依据频繁项集全局一致性原则,对多数据库频繁模式树执行精简操作;(3)在此基础上产生全局极小非频繁项集;(4)依据极大频繁项集向上闭包原则,产生全局非频繁项集;(5)在规则相关度的基础上提取全局负关联规则.大量的对比实验结果表明,本文算法具有快速发现全局负关联规则的能力.  相似文献   

18.
孟军  王蓬  张静  王秀坤 《计算机科学》2013,40(1):183-186,217
传统关联规则挖掘可能会得到大量的、杂乱的规则,它们对用户来说是不相关的或不感兴趣的。提出最小关联规则集和项集强依赖关系的概念,以实现基于项集依赖的最小关联规则挖掘算法。其不仅可以避免验证某一频繁项集下的所有非空真子集是否可形成关联规则,还可以通过删除那些过于复杂、有重复信息的规则来进一步简化传统规则集合。通过最小关联规则集可推导得到大多数冗余规则的支持度和置信度,实现了传统规则集的一种近似无损表述。采用UCI机器学习库中数据集进行实验,结果表明提出的方法得到的规则数量明显减少,且规则更加简短、无重复信息,为最小关联规则挖掘提供了更好的方法。  相似文献   

19.
In this paper, a new mining capability, called mining of substitution rules, is explored. A substitution refers to the choice made by a customer to replace the purchase of some items with that of others. The mining of substitution rules in a transaction database, the same as that of association rules, will lead to very valuable knowledge in various aspects, including market prediction, user behaviour analysis and decision support. The process of mining substitution rules can be decomposed into two procedures. The first procedure is to identify concrete itemsets among a large number of frequent itemsets, where a concrete itemset is a frequent itemset whose items are statistically dependent. The second procedure is then on the substitution rule generation. In this paper, we first derive theoretical properties for the model of substitution rule mining and devise a technique on the induction of positive itemset supports to improve the efficiency of support counting for negative itemsets. Then, in light of these properties, the SRM (substitution rule mining) algorithm is designed and implemented to discover the substitution rules efficiently while attaining good statistical significance. Empirical studies are performed to evaluate the performance of the SRM algorithm proposed. It is shown that the SRM algorithm not only has very good execution efficiency but also produces substitution rules of very high quality.  相似文献   

20.
关联规则是数据挖掘的重要研究内容之一。传统的关联规则挖掘算法仅适于处理二元属性与分类属性。为更好地处理数量属性,提出了一种自适应的基于模糊概念的量化关联规则挖掘算法。该算法克服了传统的离散分区法的不足,改进了已有模糊关联规则支持度的计算方法。引入了一种基于聚类的隶属函数自动生成方法,使得模糊关联规则的发现不依赖于人类专家给出的隶属函数,使得关联规则的表示自然、简明,有利于专家理解。实验表明该算法是有效的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号