共查询到20条相似文献,搜索用时 468 毫秒
1.
介绍了关联规则挖掘的情况,然后对关联规则挖掘算法进行分析,并在此分析的基础上对经典的Apriori算法作出了进一步的改进,从而提出了这种改进的关联规则挖掘算法——Apriori-New算法。Aprlori-New算法只需对数据库扫描一次,并在扫描过程中通过不断将被标记为频繁项的项集提取出来,最终找出所有的频繁项集。通过一个简单的实例说明了该算法的扫描过程,从而体现了该Aprlori-New算法的效率及其所具有的实用性。 相似文献
2.
介绍了关联规则挖掘的情况,然后对关联规则挖掘算法进行分析,并在此分析的基础上对经典的Apriori算法作出了进一步的改进,从而提出了这种改进的关联规则挖掘算法--Apriori-New算法.Apriori-New算法只需对数据库扫描一次,并在扫描过程中通过不断将被标记为频繁项的项集提取出来,最终找出所有的频繁项集.通过一个简单的实例说明了该算法的扫描过程,从而体现了该Apriori-New算法的效率及其所具有的实用性. 相似文献
3.
基于图的关联规则改进算法 总被引:1,自引:0,他引:1
黄红星 《计算机与数字工程》2009,37(12):38-41,162
关联规则挖掘是数据挖掘研究的最重要课题之一。基于图的关联规则挖掘DLG算法通过一次扫描数据库构建关联图,然后遍历该关联图产生频繁项集,有效地提高了关联规则挖掘的性能。在分析该算法基本原理基础上,提出了一种改进的算法—DLG#。改进算法在关联图构造同时构造项集关联矩阵,在候选项集生成时结合关联图和Apriori性质对冗余项集进行剪枝,减少了候选项集数,简化了候选项集的验证。比较实验结果表明,在不同数据集和不同支持度阈值下,改进算法都能更快速的发现频繁项集,当频繁项集平均长度较大时性能提高明显。 相似文献
4.
李红 《数字社区&智能家居》2006,(11):19-19,29
改进频繁项集算法的效率是提高关联规则挖掘性能的重要环节.本文提出了基于包含频繁1-项集的事务集的关联规则挖掘算法,并通过实例说明了算法的有效性,且与Apriori这一经典算法作了比较。 相似文献
5.
李红 《数字社区&智能家居》2006,(32)
改进频繁项集算法的效率是提高关联规则挖掘性能的重要环节,本文提出了基于包含频繁1-项集的事务集的关联规则挖掘算法,并通过实例说明了算法的有效性,且与Apriori这一经典算法作了比较。 相似文献
6.
针对从本文数据集中的正负关联规则挖掘问题,提出一种基于双阈值Apriori算法和非频繁项集的挖掘方法。首先,对通过逆文档频率(IDF)对语料库中的项(项集)进行加权,筛选出前N%的项集。然后,通过提出的双支持度阈值Apriori算法来提取频繁项集和非频繁项集,以此降低非频繁项集的数量。最后,通过置信度和升降度阈值的判断,分别从频繁项集和非频繁项集中挖掘正负关联规则。其中,创新性的利用了非频繁项集来挖掘正负关联规则。在一个医学文本数据集上的实验结果表明,提出的方法能够有效挖掘出正负关联规则,且能够大大降低项集和规则数量。 相似文献
7.
CHEN Chen 《数字社区&智能家居》2008,(32)
关联规则挖掘是近年来数据挖掘领域中一个相当活跃的领域,频繁项集挖掘是关联规则挖掘中最重要的任务。最大频繁项集的规模远远小于频繁项集的规模,通过最大频繁项集可以导出所有的频繁项集,因此进行了很多专门挖掘最大频繁项集的研究。给出了关联规则和相关术语的基本概念,对最大频繁项集挖掘算法作了分析与评价,便于研究者对已有的算法进行改进,提出具有更好性能的新算法。 相似文献
8.
提出了一种基于聚类的挖掘关联规则Apriori改进算法,该算法只需扫描一次事务数据库,直接按事务项数生成聚类表,每次只需扫描部分聚类表就可生成频繁项集,减少了扫描数据库的次数和计算成本,从而有效提高挖掘关联规则的效率。 相似文献
9.
10.
11.
在研究负关联规则相关特性的基础上,将向量内积引入到该领域,提出了一种基于向量内积的多最小支持度正负关联规则挖掘算法。考虑到事务数据库中各项集分布不均而导致的单一最小支持度难以设定的问题,采用了多最小支持度策略,设计了一种能同时挖掘出频繁与非频繁项集,以及从这些项集中挖掘出正负关联规则的算法。实验结果表明,该算法仅需扫描一次数据库,且具有动态剪枝,不保留中间候选项和节省大量内存等优点,对事务数据库中负关联规则的挖掘具有重要意义。 相似文献
12.
基于频繁项集挖掘算法的改进与研究 总被引:2,自引:1,他引:1
关联规则挖掘是数据挖掘领域中重要的研究内容,频繁项集挖掘又是关联规则挖掘中的关键问题之一。针对已有的频繁项集挖掘算法存在的问题,通过对Apriori算法的分析,提出了Inter-Apriori频繁项集挖掘算法。该算法使用交集策略减少扫描数据库的次数,从而使算法达到较高的效率。实验结果表明,Inter-Apriori算法是Apriori算法效率的2~4倍。 相似文献
13.
14.
发现频繁项集是关联规则挖掘应用的关键,针对采用Apriori类的候选项目集生成-检验方法导致候选项目集产生的代价很高问题,该文提出一种基于散列的快速AprioriTid改进算法,在AprioriTid算法的基础上采用基于候选项Lk地址的哈希映射方法,提高了算法的执行效率。 相似文献
15.
《Expert systems with applications》2014,41(6):2914-2938
Multilevel knowledge in transactional databases plays a significant role in our real-life market basket analysis. Many researchers have mined the hierarchical association rules and thus proposed various approaches. However, some of the existing approaches produce many multilevel and cross-level association rules that fail to convey quality information. From these large number of redundant association rules, it is extremely difficult to extract any meaningful information. There also exist some approaches that mine minimal association rules, but these have many shortcomings due to their naïve-based approaches. In this paper, we have focused on the need for generating hierarchical minimal rules that provide maximal information. An algorithm has been proposed to derive minimal multilevel association rules and cross-level association rules. Our work has made significant contributions in mining the minimal cross-level association rules, which express the mixed relationship between the generalized and specialized view of the transaction itemsets. We are the first to design an efficient algorithm using a closed itemset lattice-based approach, which can mine the most relevant minimal cross-level association rules. The parent–child relationship of the lattices has been exploited while mining cross-level closed itemset lattices. We have extensively evaluated our proposed algorithm’s efficiency using a variety of real-life datasets and performing a large number of experiments. The proposed algorithm has outperformed the existing related work significantly during the pervasive performance comparison. 相似文献
16.
17.
多数据库中全局负关联规则挖掘研究 总被引:1,自引:0,他引:1
全局负关联规则挖掘是多数据库关联信息挖掘的重要研究内容,具有广泛的应用范围和使用价值.合并各子数据库的负关联规则是现有全局负关联规则挖掘常用的方法,但数据密度大、规则不全面及运算时间高等问题影响了已有全局负关联规则挖掘方法的效率.本文给出一种新的全局负关联规则挖掘算法,其具体步骤为:(1)扫描各子数据库,建立多数据库频繁模式树;(2)依据频繁项集全局一致性原则,对多数据库频繁模式树执行精简操作;(3)在此基础上产生全局极小非频繁项集;(4)依据极大频繁项集向上闭包原则,产生全局非频繁项集;(5)在规则相关度的基础上提取全局负关联规则.大量的对比实验结果表明,本文算法具有快速发现全局负关联规则的能力. 相似文献
18.
传统关联规则挖掘可能会得到大量的、杂乱的规则,它们对用户来说是不相关的或不感兴趣的。提出最小关联规则集和项集强依赖关系的概念,以实现基于项集依赖的最小关联规则挖掘算法。其不仅可以避免验证某一频繁项集下的所有非空真子集是否可形成关联规则,还可以通过删除那些过于复杂、有重复信息的规则来进一步简化传统规则集合。通过最小关联规则集可推导得到大多数冗余规则的支持度和置信度,实现了传统规则集的一种近似无损表述。采用UCI机器学习库中数据集进行实验,结果表明提出的方法得到的规则数量明显减少,且规则更加简短、无重复信息,为最小关联规则挖掘提供了更好的方法。 相似文献
19.
In this paper, a new mining capability, called mining of substitution rules, is explored. A substitution refers to the choice made by a customer to replace the purchase of some items with that of others. The mining of substitution rules in a transaction database, the same as that of association rules, will lead to very valuable knowledge in various aspects, including market prediction, user behaviour analysis and decision support. The process of mining substitution rules can be decomposed into two procedures. The first procedure is to identify concrete itemsets among a large number of frequent itemsets, where a concrete itemset is a frequent itemset whose items are statistically dependent. The second procedure is then on the substitution rule generation. In this paper, we first derive theoretical properties for the model of substitution rule mining and devise a technique on the induction of positive itemset supports to improve the efficiency of support counting for negative itemsets. Then, in light of these properties, the SRM (substitution rule mining) algorithm is designed and implemented to discover the substitution rules efficiently while attaining good statistical significance. Empirical studies are performed to evaluate the performance of the SRM algorithm proposed. It is shown that the SRM algorithm not only has very good execution efficiency but also produces substitution rules of very high quality. 相似文献
20.
关联规则是数据挖掘的重要研究内容之一。传统的关联规则挖掘算法仅适于处理二元属性与分类属性。为更好地处理数量属性,提出了一种自适应的基于模糊概念的量化关联规则挖掘算法。该算法克服了传统的离散分区法的不足,改进了已有模糊关联规则支持度的计算方法。引入了一种基于聚类的隶属函数自动生成方法,使得模糊关联规则的发现不依赖于人类专家给出的隶属函数,使得关联规则的表示自然、简明,有利于专家理解。实验表明该算法是有效的。 相似文献