首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 109 毫秒
1.
基于频繁模式树的负关联规则挖掘算法   总被引:1,自引:0,他引:1       下载免费PDF全文
典型的正关联规则仅考虑事务中所列举的项目。负关联规则不但要考虑事务中所包含的项目集,还必需考虑事务中所不包含的项目,它包含了非常有价值的信息。然而,对于负关联规则的研究却很少,仅有的几种算法也存在一定的局限性。为此,该文提出了一种基于FP-tree的负关联规则挖掘算法,该算法不但可以发现事务数据库中所有的负关联规则,而且整个过程只需扫描事务数据库两次,算法是有效和可行的。  相似文献   

2.
传统的正关联规则考虑的是事务中所列举的项目,而负关联规则不仅考虑事务中所包含的项,还考虑了数据库中存在而事务中所不包含的项。该文首先讨论了负关联规则的相关定义,以及它的支持度、置信度与相关度,并分析了PNARC模型的算法。最后对负关联规则的研究发展方向进行分析。  相似文献   

3.
在研究负关联规则相关特性的基础上,将向量内积引入到该领域,提出了一种基于向量内积的多最小支持度正负关联规则挖掘算法。考虑到事务数据库中各项集分布不均而导致的单一最小支持度难以设定的问题,采用了多最小支持度策略,设计了一种能同时挖掘出频繁与非频繁项集,以及从这些项集中挖掘出正负关联规则的算法。实验结果表明,该算法仅需扫描一次数据库,且具有动态剪枝,不保留中间候选项和节省大量内存等优点,对事务数据库中负关联规则的挖掘具有重要意义。  相似文献   

4.
一种含负项目的一般化关联规则挖掘算法   总被引:3,自引:0,他引:3  
张玉芳  彭燕  刘君  陈铭灏 《计算机工程与设计》2006,27(20):3904-3908,3934
传统的关联规则是形如A→B反映正项目之间关联关系的蕴涵式,它无法反映出数据之间隐藏的负关联关系.在表达式中引入负项目,将这种传统的关联规则扩展成包含正、负项目的一般化关联规则.介绍了一般化关联规则的概念及其相关性质定理,并加以证明,提出了一种基于频繁模式树的挖掘混合正、负项目的一般化关联规则的MGPNFP算法,对其性能进行了分析,并比较了MGPNFP算法比现有的挖掘含负项目关联规则的算法所具有的优势.  相似文献   

5.
关联规则前件或后件中部分项集为负的负关联规则更有意义,要挖掘这样的负关联规则首先要获取负频繁项集。为快速获取负频繁项集,本文提出将正频繁项集中若干项改为负项,若满足最小支持度计数则为负频繁项集。在正负频繁项集中生成关联规则时,会产生矛盾的关联规则,对于矛盾规则,提出使用二次概率相关性判断方法来正确选择具有矛盾的关联规则。经过实验,验证该算法是有效和正确的。  相似文献   

6.
黄名选  钟智  张师超 《计算机工程与设计》2012,33(5):1863-1866,1880
针对信息检索中存在的词不匹配问题,提出了基于频繁项集和负关联规则挖掘的局部反馈查询扩展模型及其算法.该算法对前列n篇初检文档挖掘频繁项集和非频繁项集,并从频繁项集中提取关联词;从频繁项集和非频繁项集中挖掘负关联规则,提取负关联规则后件作为负关联词,计算负关联词与整个原查询词的相关性;根据相关性删除关联词库中与负关联词相同的词项,将余下的关联词项作为最终扩展词,并与原查询组合成新查询,实现查询扩展.实验结果表明,该算法能发现虚假的负关联词,有效地提高和改善信息检索性能.  相似文献   

7.
柳文涛 《福建电脑》2008,24(6):11-12
在数据挖掘中,关联规则挖掘一直是国内外研究的热点之一,本文在正关联规则的基础上,主要探讨了负关联规则的挖掘算法,提出了对负关联规则的前项和后项所对应正项的支持度研究问题,并对其进行了分析处理。  相似文献   

8.
在数据挖掘中发现关联规则是一个基本问题,而发现频繁项集是关联规则挖掘中最基本、最重要的问题。提出了基于FP-Tree的共享前缀频繁项集挖掘算法-FP-SPMA算法。构造FP-Tree来压缩事务数据库,通过共享前缀和前瞻剪枝快速减小候选项集,无需递归构造条件模式树,算法性能有明显的提高。  相似文献   

9.
吴爱华  陈出新 《计算机仿真》2021,38(9):344-347,352
针对传统分布式数据库中关系数据正负关联规则挖掘的准确度较低、挖掘效率较低等问题,提出一种新的分布式数据库中关系数据正负关联规则挖掘方法.在关联规则基本概念和性质分析基础上,利用多级支持度从频繁项集中生成正关联规则,结合根据频繁项集和非频繁项集生成负关联规则,通过最小支持度合理设置相关置信度,引入不同权重值于各数据库中,实现分布式数据库中关系数据正负关联规则的挖掘.仿真结果表明,以上算法可有效识别结果规则集中的负关联规则和弱关联规则,确保数据库中关联数据挖掘更加准确;在不同最小支持度或不同事务数条件下,挖掘速度较快,提升了挖掘效率.  相似文献   

10.
基于两级支持度的正、负关联规则挖掘   总被引:9,自引:0,他引:9  
当同时研究正、负关联规则时会遇到一些新问题,如非频繁项集的挖掘及如何避免产生自矛盾的规则等.该文对这些问题进行了深入的研究,设计了能够同时挖掘频繁项集与非频繁项集以及能够同时挖掘这些项集中的正、负关联规则算法,实验表明该算法是非常有效的。  相似文献   

11.
在含负项目的一般化关联规则的挖掘中,由于负项目的引入使得频繁项集的搜索空间变得更加巨大,而同时挖掘出的关联规则数量也随之增大,但其中很多规则对用户来说是不感兴趣的,而且可能包含一些冗余和错误的规则。因此提出了最大支持度的概念,用来约束频繁项集的挖掘,排除没有意义的关联规则同时也提高了挖掘的效率。在挖掘中对正负项目分别采用不同的最小支持度,使得挖掘更加灵活。并通过实验证明改进是行之有效的。  相似文献   

12.
负关联规则反映了数据项之间的互斥关系,能提供很多有用的信息,在决策支持中起重要作用,但现行的挖掘算法主要是针对单一数据库的挖掘,多数据库中负关联规则的挖掘还未引起重视。该文介绍负关联规则的研究现状、主要挖掘方法以及冗余正负关联规则的修剪方法,对多数据库中关联规则挖掘研究现状和主要技术进行论述,并展望多数据库中负关联规则挖掘的发展趋势。  相似文献   

13.
混合关联规则及其挖掘算法   总被引:1,自引:0,他引:1  
在项目集中引入了负项目,据此定义了关联规则的一种泛化模型——混合关联规则,分析了它的价值,引入了它的挖掘问题的形式描述,并定义了挖掘中的几个关键算法.  相似文献   

14.
多数据库中负关联规则挖掘算法   总被引:1,自引:0,他引:1       下载免费PDF全文
现行的负关联规则挖掘主要是对于单一数据库的挖掘,但随着数据库技术的发展,多数据库挖掘越来越重要。当同时挖掘多数据库中的正负关联规则时,有可能会引起知识冲突问题,在前人对多数据库挖掘的基础上采用了一种关联规则合成模式,并利用相关性解决了知识冲突问题,最后用实验证明了该方法的正确性。  相似文献   

15.
多数据库中全局负关联规则挖掘研究   总被引:1,自引:0,他引:1  
全局负关联规则挖掘是多数据库关联信息挖掘的重要研究内容,具有广泛的应用范围和使用价值.合并各子数据库的负关联规则是现有全局负关联规则挖掘常用的方法,但数据密度大、规则不全面及运算时间高等问题影响了已有全局负关联规则挖掘方法的效率.本文给出一种新的全局负关联规则挖掘算法,其具体步骤为:(1)扫描各子数据库,建立多数据库频繁模式树;(2)依据频繁项集全局一致性原则,对多数据库频繁模式树执行精简操作;(3)在此基础上产生全局极小非频繁项集;(4)依据极大频繁项集向上闭包原则,产生全局非频繁项集;(5)在规则相关度的基础上提取全局负关联规则.大量的对比实验结果表明,本文算法具有快速发现全局负关联规则的能力.  相似文献   

16.
针对从本文数据集中的正负关联规则挖掘问题,提出一种基于双阈值Apriori算法和非频繁项集的挖掘方法。首先,对通过逆文档频率(IDF)对语料库中的项(项集)进行加权,筛选出前N%的项集。然后,通过提出的双支持度阈值Apriori算法来提取频繁项集和非频繁项集,以此降低非频繁项集的数量。最后,通过置信度和升降度阈值的判断,分别从频繁项集和非频繁项集中挖掘正负关联规则。其中,创新性的利用了非频繁项集来挖掘正负关联规则。在一个医学文本数据集上的实验结果表明,提出的方法能够有效挖掘出正负关联规则,且能够大大降低项集和规则数量。  相似文献   

17.
许多现实数据库都存在时态语义问题,因此在挖掘关联规则时附加上时态约束会使规则更具有实际意义。但目前提出的大多数时态关联规则挖掘算法,一般都认为每个数据项的重要性相同,而从决策者角度出发,往往会优先考虑利润较高的项目。提出了一种加权时态关联规则挖掘算法,以项目的生命周期作为时间特征,允许用户设定不同的项目权重。实验结果证明,该算法不仅能有效地发现加权时态关联规则,而且挖掘出的规则更有价值。  相似文献   

18.
Mining association rules plays an important role in data mining and knowledge discovery since it can reveal strong associations between items in databases. Nevertheless, an important problem with traditional association rule mining methods is that they can generate a huge amount of association rules depending on how parameters are set. However, users are often only interested in finding the strongest rules, and do not want to go through a large amount of rules or wait for these rules to be generated. To address those needs, algorithms have been proposed to mine the top-k association rules in databases, where users can directly set a parameter k to obtain the k most frequent rules. However, a major issue with these techniques is that they remain very costly in terms of execution time and memory. To address this issue, this paper presents a novel algorithm named ETARM (Efficient Top-k Association Rule Miner) to efficiently find the complete set of top-k association rules. The proposed algorithm integrates two novel candidate pruning properties to more effectively reduce the search space. These properties are applied during the candidate selection process to identify items that should not be used to expand a rule based on its confidence, to reduce the number of candidates. An extensive experimental evaluation on six standard benchmark datasets show that the proposed approach outperforms the state-of-the-art TopKRules algorithm both in terms of runtime and memory usage.  相似文献   

19.
为了区分与原查询正负相关的扩展词,提高查询扩展性能,将正负关联规则挖掘技术应用于查询扩展,提出一种基于关联规则q→ti和q→-tj挖掘的局部反馈查询扩展算法。该算法从初检的前列文档中挖掘只含查询词项的词间正负关联规则q→ti和q→-tj,构造正负规则库;从规则库中提取扩展词,分别构建正负扩展词库,从正扩展词库中删除与负扩展词相同的词后得到所需的扩展词,与原查询组合实现查询扩展。算法还给出一种新的查询扩展模型和扩展词权重计算方法,使扩展词权值更合理。实验结果表明算法不仅能发现虚假扩展词,而且还能改善和提高信息检索性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号