首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 672 毫秒
1.
对现有关联规则更新算法中的增量式更新算法进行分析,发现在决策者优先关注最大频繁项目集的情况下,该算法不能以较少的数据库遍历次数快速获取最大频繁项集。针对该算法的不足,提出一种基于逆向搜索的方式进行关联规则更新的算法。该算法生成新增项集的所有频繁项集,通过将其中最大频繁项集跟原项集中最大频繁项集进行拼接、修剪,从中获得更新后的最大频繁项集。实例结果表明,该算法既降低了关联规则更新过程中对数据库的遍历次数,又实现了优先获取最大频繁项目集。  相似文献   

2.
黄名选  钟智  张师超 《计算机工程与设计》2012,33(5):1863-1866,1880
针对信息检索中存在的词不匹配问题,提出了基于频繁项集和负关联规则挖掘的局部反馈查询扩展模型及其算法.该算法对前列n篇初检文档挖掘频繁项集和非频繁项集,并从频繁项集中提取关联词;从频繁项集和非频繁项集中挖掘负关联规则,提取负关联规则后件作为负关联词,计算负关联词与整个原查询词的相关性;根据相关性删除关联词库中与负关联词相同的词项,将余下的关联词项作为最终扩展词,并与原查询组合成新查询,实现查询扩展.实验结果表明,该算法能发现虚假的负关联词,有效地提高和改善信息检索性能.  相似文献   

3.
增量更新关联规则挖掘主要解决事务数据库中交易记录不断更新和最小支持度发生变化时关联规则的维护问题。针对目前诸多增量更新关联规则挖掘算法存在效率低、计算成本高、规则难以维护等问题,提出一种基于倒排索引树的增量更新关联挖掘算法。该算法有效地将倒排索引技术与树型结构相结合,使得交易数据库中的数据不断更新和最小支持度随应用环境不同而不断改变时,以实现无需扫描原始交易数据库和不产生候选项集的情况下生成频繁项集。实验结果表明,该算法只需占用较小的存储空间、且检索项集的效率较高,能高效地解决增量更新关联规则难以维护的问题。  相似文献   

4.
交易数据库的加权关联规则增量更新算法   总被引:3,自引:3,他引:3  
针对文献犤1犦提出的加权关联规则挖掘算法,文章提出了交易数据库的加权关联规则增量更新算法(DWARIUA算法)。该算法充分利用已存在的频繁项目集,因此,算法是有效而可行的。  相似文献   

5.
关联规则前件或后件中部分项集为负的负关联规则更有意义,要挖掘这样的负关联规则首先要获取负频繁项集。为快速获取负频繁项集,本文提出将正频繁项集中若干项改为负项,若满足最小支持度计数则为负频繁项集。在正负频繁项集中生成关联规则时,会产生矛盾的关联规则,对于矛盾规则,提出使用二次概率相关性判断方法来正确选择具有矛盾的关联规则。经过实验,验证该算法是有效和正确的。  相似文献   

6.
针对PFUP算法存在扫描多次数据库这个瓶颈问题,提出一种优化的关联规则增量更新算法MIFUP(Mixed Improve Fast Updating).该算法提出了两种优化策略:借鉴事务压缩原理和用数组存放一阶非频繁项集个数.实验仿真说明,MIFUP算法效率明显优于PFUP算法.  相似文献   

7.
杨秀金  孟军 《计算机应用》2006,26(Z1):110-112
对大型数据库中关联规则挖掘的频繁模式维护问题进行了研究,提出一种增量更新算法(Update Frequent Pattern List,UFPL).该算法基于频繁模式表(FPL),可以处理数据库数据增加和最小支持度都发生改变的情况下关联规则的维护问题.最后,利用公共测试数据集,对算法性能进行测试,相对于快速更新(Fast Update,FUP)算法和增量维护(Incremental Maintenance,IM)算法,其效率有较大改进.  相似文献   

8.
挖掘关联规则是数据挖掘领域的一个重要研究方向,人们已经提出了许多用于发现数据库中关联规则的算法,但对关联规则的增量维护问题的研究较少.深入分析了增量更新情况,使用了目前较高效的最大频繁模式挖掘算法FP-Max,并对其进行改进.基本思想:①基于FP-树;②考虑了数据集中,数据增加情况下FP-树的更新;③对FP-Max算法进行改进来更新、维护已经挖掘出来的最大频繁模式.  相似文献   

9.
提出利用模糊属性集和关联规则的支持度获得高效率的关联规则增量更新挖掘的方法。首先对输入数据集进行模糊离散化,确定相应的模糊属性集,模糊支持数和各属性原先的模糊聚类中心;然后检查是否满足最小支持度条件,将其添加到更新后的模糊频繁属性集集合中;最后比较模糊频繁属性集和负边界的变化,得到最终更新后的模糊频繁属性集和相应的关联规则。采用实际飞行数据验证了该算法可以避免反复和多层扫描数据库的时间消耗问题,模糊关联规则挖掘算法可以高效和准确提取增量关联规则。  相似文献   

10.
负增量式关联规则更新算法   总被引:3,自引:0,他引:3  
模式维护是数据挖掘中一个具有挑战性的任务.现有的增量式关联规则更新算法主要解决两种情况下的维护问题:一是最小支持度不变,而数据量增加;二是数据量不变,而改变最小支持度.本文提出了一种负增量关联规则更新算法.实验表明,该算法是有效的.  相似文献   

11.
针对从本文数据集中的正负关联规则挖掘问题,提出一种基于双阈值Apriori算法和非频繁项集的挖掘方法。首先,对通过逆文档频率(IDF)对语料库中的项(项集)进行加权,筛选出前N%的项集。然后,通过提出的双支持度阈值Apriori算法来提取频繁项集和非频繁项集,以此降低非频繁项集的数量。最后,通过置信度和升降度阈值的判断,分别从频繁项集和非频繁项集中挖掘正负关联规则。其中,创新性的利用了非频繁项集来挖掘正负关联规则。在一个医学文本数据集上的实验结果表明,提出的方法能够有效挖掘出正负关联规则,且能够大大降低项集和规则数量。  相似文献   

12.
针对目前大数据快速增加的环境下,海量数据的频繁项集挖掘在实际中所面临的增量更新问题,在频繁项超度量树算法(frequent items ultrametric trees,FIUT)的基础上,引入MapReduce并行编程模型,提出了一种针对频繁项集增量更新的面向大数据的并行算法。该算法通过检查频繁超度量树叶子节点的支持度来确定频繁项集,同时采用准频繁项集的策略来优化并行计算过程,从而提高数据挖掘效率。实验结果显示,所提出的算法能快速完成扫描和更新数据,具有较好的可扩展性,适合于在动态增长的大数据环境中进行关联规则相关数据挖掘。  相似文献   

13.
目前已提出了许多频繁项集更新算法,但是它们往往需要至少扫描一次原数据库,且会丢失一些重要规则。为此,文章提出了一种新的快速更新频繁项集算法CUFIA(Classifying Update Frequent Itemsets Algorithm),该算法通过对新增事务数据分区后快速逐一扫描,获得频繁项集,并将它们归入3个不同的类别,从而不需要扫描原数据库,便可有效地挖掘出其中的频繁项集,且不丢失重要规则。研究表明,该算法具有很好的可测量性。  相似文献   

14.
概化关联规则挖掘作为数据挖掘领域一个重要的拓展性研究课题,首先提出了一种概化扩展自然序树(generalized extended canonical-order tree,GECT)结构及其增量挖掘算法GECT-IM.该算法对原始分类事务数据库只扫描一次,就可以将所有交易信息映射至一棵压缩格式的GECT,然后通过对更新交易数据集扫描得到更新数据集中各项集的计数,结合相关性质及运算就可以发现大部分更新后的概化频繁项集;其次,针对GECT规模较大以及GECT-IM 算法仍然可能需要遍历初始GECT树的局限,在界定数据库更新和重构概念的基础上,基于一种可量化度量的准最小支持度阈值,提出了一种改进的准频繁概化扩展自然序树(pre-large generalized extended canonical-order tree,PGECT)结构及其增量挖掘算法PGECT-IM.由于有效避免了对初始GECT进行遍历的情形,从而进一步提升了概化关联规则增量挖掘效率.实验证明,提出的概化关联规则增量挖掘算法 GECT-IM 及其优化算法PGECT-IM,比现有增量挖掘算法具有更高的挖掘效率和更好的扩展性.  相似文献   

15.
目前已提出了许多快速的关联规则增量更新挖掘算法,但是它们在处理对新增事务敏感的问题时,往往会丢失一些重要规则。为此,文章提出了一种新的挖掘增量更新后的数据库中频繁项集的算法EUFIA( Entirety Update Frequent Itemsets Algorithm),该算法先对新增事务数据分区,然后快速扫描各分区,能全面有效地挖掘出其中的频繁项集,且不丢失重要规则。同时,最多只扫描1次原数据库也能获得更新后事务数据库的全局频繁项集。研究表明,该算法具有很好的可测量性。  相似文献   

16.
基于两级支持度的正、负关联规则挖掘   总被引:9,自引:0,他引:9  
当同时研究正、负关联规则时会遇到一些新问题,如非频繁项集的挖掘及如何避免产生自矛盾的规则等.该文对这些问题进行了深入的研究,设计了能够同时挖掘频繁项集与非频繁项集以及能够同时挖掘这些项集中的正、负关联规则算法,实验表明该算法是非常有效的。  相似文献   

17.
基于向量内积的非频繁项挖掘算法研究   总被引:1,自引:0,他引:1       下载免费PDF全文
针对负关联规则中非频繁项集的生成问题,将向量内积引入到该领域.通过对事务数据库的布尔化表示及对数据存储结构的合理分配,提出了一种新的非频繁项集快速生成算法.该算法首先将布尔化所得矩阵中的向量进行内积运算,通过逐层递增的思想,用两级支持度模型来约束非频繁项集与频繁项集的产生,使非频繁项集不仅可由频繁项集之间连接产生,而且...  相似文献   

18.
李芸  史琰 《计算机工程》2008,34(3):94-96,9
为了能够随着数据库的增加、删除和修改而快速有效地挖掘出频繁闭项集,根据CHARM算法提出了一种基于频繁闭项集挖掘的增量式维护算法。该算法采取分类处理的策略对变化数据进行挖掘,运用IT对的特性从已挖掘出的结果中快速过滤出仍然有效的信息,实现频繁闭项集的更新。实验结果表明该算法是快速有效的。  相似文献   

19.
崔贤岳  李际军 《计算机工程》2007,33(14):283-285
基于FAS算法,设计并实现了一个基于最近挖掘结果的数据挖掘系统AR_Miner,包括数据预处理、频繁集初始计算、频繁集更新计算、频繁集选择、关联规则生成5个部分,实现了关联规则挖掘的可视化和生成结果按“支持度-可信度”形式的可视化,为基于频繁集的交互式挖掘提供了方便、友好的界面。对历史的稽查数据中纳税人采用的主要违法违章手段之间的关联关系进行了数据挖掘,得到了一些合理的知识,提高了对稽查历史数据的管理水平,为税务稽查提供了有力的决策支持。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号