首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
一种高效的多层和概化关联规则挖掘方法   总被引:4,自引:1,他引:3  
毛宇星  陈彤兵  施伯乐 《软件学报》2011,22(12):2965-2980
通过对分类数据的深入研究,提出了一种高效的多层关联规则挖掘方法:首先,根据分类数据所在的领域知识构建基于领域知识的项相关性模型DICM(domain knowledge-based item correlation model),并通过该模型对分类数据的项进行层次聚类;然后,基于项的聚类结果对事务数据库进行约简划分;最后,将约简划分后的事务数据库映射至一种压缩的AFOPT树形结构,并通过遍历AFOPT树替代原事务数据库来挖掘频繁项集.由于缩小了事务数据库规模,并采用了压缩的AFOPT结构,所提出的方法有效地节省了算法的I/O时间,极大地提升了多层关联规则的挖掘效率.基于该方法,给出了一种自顶向下的多层关联规则挖掘算法TD-CBP-MLARM和一种自底向上的多层关联规则挖掘算法BU-CBP-MLARM.此外,还将该挖掘方法成功扩展至概化关联规则挖掘领域,提出了一种高效的概化关联规则挖掘算法CBP-GARM.通过大量人工随机生成数据的实验证明,所提出的多层和概化关联规则挖掘算法不仅可以确保频繁项集挖掘结果的正确性和完整性,还比现有同类最新算法具有更好的挖掘效率和扩展性.  相似文献   

2.
一种新的关联规则挖掘方法   总被引:1,自引:0,他引:1       下载免费PDF全文
关联规则挖掘是数据挖掘的主要任务之一。为了进一步提高关联规则挖掘算法的认知特性和运算效果,提出了一种新的关联规则挖掘思想并由此构造了一种基于规则模糊认知图的关联规则挖掘算法。该算法使用规则模糊认知图进行知识表示,对每个挖掘到的关联规则进行可达模糊推理,从而减少了与数据库交互的次数。实验证明该方法与Apriori的关联规则算法相比,提高了关联规则挖掘的效率,增强了智能化程度。  相似文献   

3.
关联规则挖掘是数据挖掘中的重要方法。本文结合多维关联规则基于支持度和置信度的挖掘算法,提出基于权值的关联规则挖掘改进算法,比较几种定义权值的方法的差别,并通过示例论证了算法的有效性。  相似文献   

4.
基于动态剪枝的关联规则挖掘算法   总被引:13,自引:0,他引:13  
介绍了目前关联规则挖掘的研究工作 .分两个部分提出了基于动态剪枝的关联规则发现方法 .讨论了如何实施动态剪枝 ,给出了一个基于三元组结构的树式存储结构 ,在此基础上描述了交易数据库中知识发现算法 .并将提出的方法与关联规则挖掘中具有里程碑意义的 Apriori算法进行了对比分析 ,给出了相应的分析结果 ,实验表明该方法能有效地从数据集中发现关联规则  相似文献   

5.
一种新的动态关联规则及其挖掘算法   总被引:4,自引:0,他引:4  
在分析原有定义不足的基础上,提出一种新的动态关联规则,其支持度向量和置信度向量与经典定义相吻合,能更好地反映规则随时间变化的动态信息.进一步提出两种新的动态关联规则挖掘算法:ITS和EFPgrowth.其中:两阶段ITS算法具有较好的可理解性;基于扩展FP树的EFPgrowth算法适宜于高密度海量数据的挖掘.实验结果表明,该算法具有较好的挖掘性能和可扩展性,适用于动态关联规则的有效挖掘.  相似文献   

6.
关联规则挖掘是数据挖掘的重要领域之一,利用粗糙集理论来挖掘关联规则的方法已经得到广泛关注.针对不完备信息系统,提出了基于粗糙集理论的快速ORD关联规则挖掘算法.该算法首先采用基于粗糙集理论的属性约简算法进行属性约简,然后采用快速、高效的冗余项集和冗余规则修剪算法--ORD算法获取关联规则.将该算法与其它同类流行的算法在4个UCI数据集上进行实验比较,结果表明该算法性能良好.  相似文献   

7.
针对目前时态关联规则研究中存在的挖掘效率不高、规则可解释性低、未考虑项集时间关联关系等问题,在原有相关研究的基础上,提出一种新的基于频繁项集树的时态关联规则挖掘算法.通过对时间序列数据进行降维离散化处理,采用向量运算生成频繁项集,提高频繁项集挖掘效率.考虑到项集之间的时态关系以及树结构的优势,提出一种新的频繁项集树结构挖掘时态关联规则,其挖掘频繁项集与树结构构建同时进行,无需产生候选项集,提高了规则挖掘效率.实验表明,对比于其他算法,所提出算法在挖掘效率和规则解释性方面效果更好,具有较好的应用前景.  相似文献   

8.
王明  宋顺林 《计算机应用》2010,30(9):2332-2334
发现频繁项集是关联规则挖掘的主要途径,也是关联规则挖掘算法研究的重点。关联规则挖掘的经典Apriori算法及其改进算法大致可以归为基于SQL和基于内存两类。为了提高挖掘效率,在仔细分析了基于内存算法存在效率瓶颈的基础上,提出了一种发现频繁项集的改进算法。该算法使用了一种快速产生和验证候选项集的方法,提高了生成项目集的速度。实验结果显示该算法能有效提高挖掘效率。  相似文献   

9.
贾桂霞  张永 《计算机工程与设计》2006,27(12):2175-2177,2186
在数据挖掘领域,关联规则的挖掘和基于粗糙集理论抽取决策规则是两种截然不同的方法,但在统计意义下两种方法产生的规则基本相同。结合关联规则挖掘方法和粗糙集方法的优点,基于Apriori算法提出一种优化算法,获取具有一定支持度和可信度阈值且不产生冗余的决策规则,以提高粗糙集属性值约简算法的性能。  相似文献   

10.
提出一种基于模糊理论的关联规则挖掘方法来处理数量属性,模糊理论能够实现数据的平滑过渡,使得挖掘出的关联规则具有高度的可理解性,给出了模糊关联规则的形式定义和挖掘算法.  相似文献   

11.
Simple association rules (SAR) and the SAR-based rule discovery   总被引:13,自引:0,他引:13  
Association rule mining is one of the most important fields in data mining and knowledge discovery in databases. Rules explosion is a problem of concern, as conventional mining algorithms often produce too many rules for decision makers to digest. Instead, this paper concentrates on a smaller set of rules, namely, a set of simple association rules each with its consequent containing only a single attribute. Such a rule set can be used to derive all other association rules, meaning that the original rule set based on conventional algorithms can be ‘recovered’ from the simple rules without any information loss. The number of simple rules is much less than the number of all rules. Moreover, corresponding algorithms are developed such that certain forms of rules (e.g. ‘P?’ or ‘?Q’) can be generated in a more efficient manner based on simple rules.  相似文献   

12.
戴敏  黄亚楼 《计算机应用》2006,26(1):207-0209
关联规则通常以规则列表形式表达,而许多关联规则挖掘算法往往产生大量规则,这给用户理解规则和从中找出感兴趣的规则带来了极大困难。为了标识重要的规则,而又保持挖掘结果的完整性,提出了根据规则的通用性,按照由概括—具体的方式分层表达关联规则。先用挖掘结果的最概括规则集表达出最通用、最基本的领域知识,再根据用户要求分层查看概括规则下面更具体的规则。这种表达方式可以在不同层次上查看关联规则,使挖掘结果更容易管理和被人理解。  相似文献   

13.
传统的关联规则挖掘是单向的,不能确定相互依赖的规则,找到的规则不一定是有意义的,甚至是错误的。鉴于此,本文在分析的基础上,提出双向关联规则挖掘算法。并根据其相关性找出对我们有意义的规则。  相似文献   

14.
By nature, sampling is an appealing technique for data mining, because approximate solutions in most cases may already be of great satisfaction to the need of the users. We attempt to use sampling techniques to address the problem of maintaining discovered association rules. Some studies have been done on the problem of maintaining the discovered association rules when updates are made to the database. All proposed methods must examine not only the changed part but also the unchanged part in the original database, which is very large, and hence take much time. Worse yet, if the updates on the rules are performed frequently on the database but the underlying rule set has not changed much, then the effort could be mostly wasted. In this paper, we devise an algorithm which employs sampling techniques to estimate the difference between the association rules in a database before and after the database is updated. The estimated difference can be used to determine whether we should update the mined association rules or not. If the estimated difference is small, then the rules in the original database is still a good approximation to those in the updated database. Hence, we do not have to spend the resources to update the rules. We can accumulate more updates before actually updating the rules, thereby avoiding the overheads of updating the rules too frequently. Experimental results show that our algorithm is very efficient and highly accurate.  相似文献   

15.
最小冗余的无损关联规则集表述   总被引:1,自引:0,他引:1  
陈茵  闪四清  刘鲁  李岩 《自动化学报》2008,34(12):1490-1496
传统关联规则挖掘得到的原始规则集包含大量的、杂乱的规则, 其中很多是冗余的, 这样的规则集难以被用户理解和应用. 针对这一问题, 探讨了原始规则集与规则集表述之间的关系, 提出了一个新的规则集表述模型. 该模型包含一个利用概率统计原理构建的推演系统, 能够从原始规则集中去除冗余规则, 得到无损的规则集表述. 这种规则集表述比原始规则集更简洁、更易于理解以及更便于用户管理和应用. 更重要的是, 该模型得到的规则集表述是无损的, 能够实现原始规则集和规则集表述之间的相互推演, 保证了信息的完整性. 在四个著名数据集上进行的实验表明, 规则集表述中的规则数量显著减少.  相似文献   

16.
孟军  王蓬  张静  王秀坤 《计算机科学》2013,40(1):183-186,217
传统关联规则挖掘可能会得到大量的、杂乱的规则,它们对用户来说是不相关的或不感兴趣的。提出最小关联规则集和项集强依赖关系的概念,以实现基于项集依赖的最小关联规则挖掘算法。其不仅可以避免验证某一频繁项集下的所有非空真子集是否可形成关联规则,还可以通过删除那些过于复杂、有重复信息的规则来进一步简化传统规则集合。通过最小关联规则集可推导得到大多数冗余规则的支持度和置信度,实现了传统规则集的一种近似无损表述。采用UCI机器学习库中数据集进行实验,结果表明提出的方法得到的规则数量明显减少,且规则更加简短、无重复信息,为最小关联规则挖掘提供了更好的方法。  相似文献   

17.
干预规则挖掘的任务分类和三项技术进展   总被引:3,自引:2,他引:1  
介绍了亚复杂系统中干预规则的基本概念和挖掘方法,提出了干预规则挖掘技术的分类准则,综述了三项干预规则挖掘技术的最新进展,包括疾病状态干预技术、基于数据流的未知干预发现技术和基于并行事件序列的干预规则挖掘。在实践基础上分析了干预规则挖掘的难点,展望了进一步的研究工作。  相似文献   

18.
关联挖掘中的时效度研究   总被引:1,自引:0,他引:1  
传统的关联挖掘算法,以支持度和置信度作为评价标准来衡量规则是否有价值。然而,这种模式不能体现出数据的时效敏感特性,如Web数据和长期积累数据。文中将首次建立一个全新的时基模型来重新估计数据规则的价值,并给出时效度(time validity)作为新的规则价值衡量标准。最后,给出了基于这个新的时基模型的一种新并行算法。这种算法使得我们在挖掘过程中使用增量挖掘,而且使得用户可以通过互操作来优化挖掘过程。  相似文献   

19.
关联规则挖掘能使你们发现大量数据中项目集之间有趣的关联或相关关系,通过研究发现,用传统关联规则方法会生成大量包含重复意义的规则,这必然会对用户迅速做出决策产生干扰。该文提出了一种基于邻接格的规则集压缩方法,使生成的规则大大精化,从而提供给用户简洁紧凑的关联规则集。  相似文献   

20.
针对动态关联规则趋势度随时间变化的特点,在分析原有定义以及对动态关联规则趋势度建立预测模型的基础上,提出一种把灰色-Markov模型应用到动态关联规则趋势度挖掘中的方法。该方法利用动态关联规则趋势度定义得到规则的趋势度;对于不满足趋势度阈值的规则的支持度计数序列运用灰色-Markov模型进行预测;将预测数据添加到原规则支持度序列中,并且得到该规则新的趋势度,进而判定此规则的趋势度是否满足阈值要求。通过一个实例进行分析,结果不仅证明了该方法的有效性并且能在一定程度上提高了挖掘的精度和效率,从而使动态关联规则挖掘能够得到更全面、更精确的结果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号