首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
基于频繁项集挖掘最大频繁项集和频繁闭项集   总被引:3,自引:1,他引:2  
提出了基于频繁项集的最大频繁项集(BFI-DMFI)和频繁闭项集挖掘算法(BFI-DCFI)。BFI-DMFI算法通过逐个检测频繁项集在其集合中是否存在超集确定该项集是不是最大频繁项集;BFI-DCFI算法则是通过挖掘所有支持度相等的频繁项集中的最大频繁项集组合生成频繁闭项集。该类算法的提出,为关联规则的精简提供了一种新的解决方法。  相似文献   

2.
频繁项集挖掘算法研究   总被引:2,自引:0,他引:2  
频繁项集挖掘是许多数据挖掘任务中的关键问题,也是关联规则挖掘算法的核心,所以提高频繁项集的生成效率一直是近几年数据挖掘领域研究的热点之一.本文以频繁项集挖掘算法的搜索方式和计数方式为主线,分析频繁项集挖掘中的代表性算法及其中的关键技术和方法,对近年来相关研究的新进展做了介绍和评述,并指出了未来的研究方向.  相似文献   

3.
频繁项集挖掘算法是关联规则挖掘问题的关键,是数据挖掘领域的一个研究热点.自从Apriori算法提出至今,学者提出来大量的关于频繁项集挖掘的算法.本文按照挖掘方式将这些算法分成三类,即宽度优先、深度优先、宽度和深度相结合,并对每类算法进行了全面的综述及深入的分析,并给出了以后的研究方向.  相似文献   

4.
王明  宋顺林 《计算机应用》2010,30(9):2332-2334
发现频繁项集是关联规则挖掘的主要途径,也是关联规则挖掘算法研究的重点。关联规则挖掘的经典Apriori算法及其改进算法大致可以归为基于SQL和基于内存两类。为了提高挖掘效率,在仔细分析了基于内存算法存在效率瓶颈的基础上,提出了一种发现频繁项集的改进算法。该算法使用了一种快速产生和验证候选项集的方法,提高了生成项目集的速度。实验结果显示该算法能有效提高挖掘效率。  相似文献   

5.
频繁项集挖掘是数据挖掘领域的一个重要部分。随着大量数据不停地收集和存储,人们总希望从这些数据中找到内在的联系来为我们服务,频繁项集的挖掘算法有许多,如Apriori算法,fp-growth算法就是经典的频繁项集关联挖掘算法,文章重点分析了apriori的算法思想、算法描述及实际应用,同时也简要介绍了fp=growth算法思想。  相似文献   

6.
Apriori算法中频繁项集挖掘实现研究   总被引:3,自引:0,他引:3  
在数据挖掘中,关联规则是发现知识的一种有效方法,而频繁项集的挖掘是关联规则中发现强规则的基础,其中连接与剪枝是逐层迭代求解k-项频繁集的核心算法。因此,文中主要介绍了基于连接与剪枝挖掘频繁项集的实现过程,并通过挖掘对传统购物篮数据中的频繁项集进行了验证,结果是一致的。算法的有效性也为进一步挖掘关联规则中的强规则提供了基础。  相似文献   

7.
发现频繁项集是关联规则挖掘中最基本、最重要的问题.提出了一种基于二进制表示的频繁项集挖掘算法,并利用二进制的性质快速产生候选项集并计算其支持度.算法总体性能在一定程度上得到了提高.  相似文献   

8.
研究挖掘关联规则的一个重要工作就是找出所有的频繁项集。基于FP—tree的最大频繁项集挖掘算法要多次生成大量的FP—tree,并且需要对其多次遍历,消耗了大量的时间。针对以上缺点,提出一种基于FP—tree并利用数组和矩阵技术进行优化的最大频繁项集挖掘算法(Mining Maximal Frequent Itemset。简称MMFI),它既减少创建FP—tree的数量,又节省遍历FP—tree的时间,实验证明本算法是有效的。  相似文献   

9.
Apriori算法中频繁项集挖掘实现研究   总被引:4,自引:0,他引:4  
在数据挖掘中,关联规则是发现知识的一种有效方法,而频繁项集的挖掘是关联规则中发现强规则的基础,其中连接与剪枝是逐层迭代求解k-项频繁集的核心算法。因此,文中主要介绍了基于连接与剪枝挖掘频繁项集的实现过程,并通过挖掘对传统购物篮数据中的频繁项集进行了验证,结果是一致的。算法的有效性也为进一步挖掘关联规则中的强规则提供了基础。  相似文献   

10.
快速更新频繁项集   总被引:52,自引:3,他引:52  
发现频繁项集是数据挖掘应用中的关键问题,发现过程的高花费要求对增量数据挖掘算法进行深入研究,首先分析并指出了增量式更新频繁项集算法的技术难点-寻找新的有效频繁项集,其次提出了一种快速的增量式更新频繁项集算法FUFIA,最后对该算法进行了分析和讨论。  相似文献   

11.
采用频繁项目链表变换的频繁项目集挖掘算法   总被引:1,自引:0,他引:1  
频繁项目集的产生是关联规则挖掘的关键问题,经典的关联规则挖掘算法是通过对事务数据库的多次扫描实现的.最新的研究已经开始探索合适的数据结构以支持进行极少次数的事务数据库的扫描,进而减少关联规则挖掘过程中巨大的I/O开销以获得更高的效率.文中利用频繁项目链表的数据结构,给出了一种仅需扫描两次事务数据库的关联规则挖掘算法 ,称为FILLT算法.该算法采取分而治之策略,对频繁项目链表实施分割、变换来进行关联规则挖掘.文中最后对这一算法的效率进行了理论分析和实验验证.  相似文献   

12.
发现频繁项目集所关联的事务集是十分有意义的,它能使人们了解频繁项目集是由哪些顾客的购买行为所引起的。文章首先定义了事务树及其相关操作,在此基础上,设计了一种能在挖掘频繁项目集的同时发现项目集所在事务集的算法(FS-TS_DM),该算法具有仅需扫描一次事务数据库的特点。另外,还定义了“分散度”指标,用于指导“真频繁项目集”的挖掘。  相似文献   

13.
针对标签随着时间变化的动态多标签文本分类问题,提出了一种基于标签语义相似的动态多标签文本分类算法。该算法在训练阶段,首先按照标签固定训练得到一个基于卷积神经网络的多标签文本分类器,然后以该分类器的倒数第二层的输出为文本的特征向量。由于该特征向量是在有标签训练得到的,因而相对于基于字符串即文本内容而言,该特征向量含有标签语义信息。在测试阶段,将测试文档输入训练阶段的多标签文本分类器获取相应的特征向量,然后计算相似性,同时乘以时间衰减因子修正,使得时间越近的文本具有较高的相似性。最后,采用最近邻算法分类。实验结果表明,该算法在处理动态多标签文本分类问题上具有较优的性能。  相似文献   

14.
基于FP-Tree有效挖掘最大频繁项集   总被引:36,自引:2,他引:36       下载免费PDF全文
最大频繁项集的挖掘过程中,在最小支持度较小的情况下,超集检测是算法的主要耗时操作.提出了最大频繁项集挖掘算法FPMFI(frequent pattern tree for maximal frequent item set)使用基于投影进行超集检测的机制,有效地缩减了超集检测的时间.另外,算法FPMFI通过删除FP子树(conditional frequent pattern tree)的冗余信息,有效地压缩了FP子树的规模,减少了遍历的开销.分析表明,算法FPMFI具有优越性.实验比较说明,在最小支持度较小时,算法FPMFI的性能优于同类算法1倍以上.  相似文献   

15.
一种利用关联规则挖掘的多标记分类算法   总被引:2,自引:0,他引:2  
刘军煜  贾修一 《软件学报》2017,28(11):2865-2878
多标记学习广泛存在于现实生活中,是当今机器学习领域的研究热点.在多标记学习框架中,每个对象由一个示例构成,但可能同时属于多个类别标记,并且各个标记之间相互关联,所以挖掘多标记之间的关联性对于多标记学习框架具有重要的意义.首先对经典的关联规则算法进行改进,提出了基于矩阵分治的频繁项集挖掘算法,并证明了该算法挖掘频繁项集的正确性;进而将该算法应用于多标记学习框架中,分别提出了基于全局关联规则挖掘和局部关联规则挖掘的多标记分类算法;最后对所提出的算法与现有多标记算法进行实验对比,结果表明,算法在5种不同的评价准则下能够取得更好的效果.  相似文献   

16.
由于不确定性数据大量存在于传感器网络,移动计算,军事,电信等应用领域,传统的频繁项集挖掘算法难以适用到不确定性数据挖掘。为了解决这个问题,本文提出了一种快速有效的算法,该算法基于可能世界模型,只需要扫描一次数据库,且没有建树的过程,通过实验证明,我们提出的算法比UF_Growth算法效率更高。  相似文献   

17.
刘云  肖添  肖雪 《计算机与数字工程》2022,50(2):243-246,260
多标签学习是分类任务中一个重要研究方向,如何保证高分类精度是关键要素.论文提出基于相似度的多标签分类算法SMLC.该算法首先构建实例相似度函数,再采用并行计算方式算出相似值,最后通过加权计算类标签集合权重或者学习阈值方法预测类标签集合.仿真结果表明,与RankSVM、ML-KNN算法对比,SMLC在多标签分类任务的多个...  相似文献   

18.
基于FP-T ree的FP-M ax算法在挖掘最大频繁集时需多次递归建立条件模式树耗费大量存储空间,这大大降低了算法的挖掘效率。提出了一种基于改进FP-T ree的最大频繁集快速挖掘算法-FP-EM ax算法。该算法无需建立条件模式库大大减少了存储空间开销,采用预剪枝策略减少条件模式树的构造次数及子集检测次数,从而算法的挖掘效率大大提高。最后通过实验证明FP-EM ax算法在支持度较小的情况下较之于FP-M ax及同类算法具有更好的性能。  相似文献   

19.
针对现有多标签分类算法忽略了标签之间的内生关系,将多标签分类问题转化为序列生成问题,充分考虑标签之间的共生关系,以Seq2Seq模型为基础,从词语级别和语义级别两个维度提取文本特征,通过对特征提取模块、编码器结构、混合注意力机制、解码器预测部分的改进,提出了基于多级特征和混合注意力机制的多标签分类算法。在Zhihu、RCV1-V2和AAPD三个数据集上进行算法有效性验证并与现有算法对比,提出的算法在F1值、召回率和汉明损失三个指标上均优于其他算法。  相似文献   

20.
寻求最大频繁项集是关联规则挖掘的最重要步骤,通过研究Apriori算法的基本思想,利用Apriori性质对数据库中项集进行分解直接寻找最大频繁项集,避免扫描整个事务数据库而是有针对性的扫描部分数据,从而提高算法效率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号