共查询到20条相似文献,搜索用时 160 毫秒
1.
传统的数据挖掘算法在挖掘频繁项集时会产生大量的冗余项集,影响挖掘效率。为此,提出一种基于矩阵的数据流Top-k频繁项集挖掘算法。引入2个0-1矩阵,即事务矩阵和二项集矩阵。采用事务矩阵表示滑动窗口模型中的事务列表,通过计算每行的支持度得到二项集矩阵。利用二项集矩阵得到候选项集,将事务矩阵中对应的行做逻辑与运算,计算出候选项集的支持度,从而得到Top-k频繁项集。把挖掘的结果存入数据字典中,当用户查询时,能够按支持度降序输出Top-k频繁项集。实验结果表明,该算法在挖掘过程中能避免冗余项集的产生,在保证正确率的前提下具有较高的时间效率。 相似文献
2.
一种基于矩阵的强关联规则生成算法* 总被引:5,自引:0,他引:5
针对Apriori算法扫描数据库的I/O代价和候选项集数目较多等问题,提出一种基于矩阵的强关联规则生成算法,算法通过将事务数据库转化为0-1矩阵后对项集按照支持度计数非递减顺序排列,从而减少候选项集的产生,同时实现置信度的高效计算。通过对实例和大数据量数据库的分析表明,该方法是有效的。 相似文献
3.
4.
Apriori算法是数据挖掘领域挖掘关联规则频繁项目集的经典算法,但该算法存在产生大量的候选项目集及需要多次扫描数据库的缺陷。为此提出一种新的挖掘关联规则频繁项目集算法( CApriori算法):利用分解事务矩阵来压缩存放数据库的相关信息,进而对分解事务矩阵进行关联规则挖掘;优化了由频繁k -1项目集生成频繁k项目集的连接过程;提出了一种不需要扫描数据库,利用行集“与运算”快速计算支持数的方法,改进算法挖掘所有的频繁项目集只需扫描数据库两次。实验结果表明,改进算法在最小支持度较小时效率高于Apriori算法。 相似文献
5.
一种基于单事务项集组合的频繁项集挖掘算法 总被引:2,自引:0,他引:2
Apriori是挖掘频繁项集的基本算法,目前该算法及其优化变种都没有解决候选项及重复扫描事务数据库的问题.文章通过对Apriori及其优化算法的深入探究,提出了一种基于单事务组合项集的挖掘算法,该算法在一个事务内部对"数据项"进行组合,在事务数据库中对所有相同"项集"进行计数.不经过迭代过程,不产生候选项集,所有频繁项集的挖掘过程只需对事务数据库一次扫描,提高了频繁项集挖掘效率. 相似文献
6.
7.
Apriori算法虽然在候选集的产生时利用了剪支技术,但每次扫描数据库时都必须扫描整个数据库,因此扫描的数据量大,速度较慢。Apriori-sort算法是在Apriori算法基础上的改进,基本思想是把事务数据库变为以度表示的事务度数据库,并对事务度数据库进行排序。Apriori-sort算法查找频繁项集时,只扫描数据库Dd中满足d(Ck)≦d(Ti)的事务。对扫描数据库进行了有效剪支,因此Apriori-sort算法的计算效率高。并用仿真数据对Apriori-sort算法和Apriori算法进行了仿真对比实验,实验结果证明了新算法的高效性。 相似文献
8.
一种基于大项集重用的序列模式挖掘算法 总被引:5,自引:0,他引:5
在重新定义序列模式的长度、增加了序列模式的挖掘粒度的基础上,提出一种基于大项集重用的序列模式挖掘算法HVSM.该算法采用垂直位图法表示数据库,先横向扩展项集,将挖掘出的所有大项集组成一大序列项集,再纵向扩展序列,将每个一大序列项集作为“集成块”,在挖掘k大序列时重用大项集.并以兄弟节点为种子生成候选大序列,利用1st—TID对支持度进行计数.实验表明,对于大规模事务数据库,该算法有效地提高了挖掘效率. 相似文献
9.
关联规则挖掘Apriori算法的研究与改进 总被引:7,自引:1,他引:6
关联规则挖掘是数据挖掘研究领域中的一个重要任务,旨在挖掘事务数据库中有趣的关联.Apriori算法是关联规则挖掘中的经典算法.然而Apriori算法存在着产生候选项目集效率低和频繁扫描数据等缺点.对Apriori算法的原理及效率进行分析,指出了一些不足,并且提出了改进的Apriori_LB算法.该算法基于新的数据结构,改进了产生候选项集的连接方法.在详细阐述了Apriori_LB算法后,对Apriori算法和Apriori_LB算法进行了分析和比较,实验结果表明改进的Apriori_LB算法优于Apriori算法,特别是对最小支持度较小或者项数较少的事务数据库进行挖掘时,效果更加显著. 相似文献
10.
11.
《Knowledge》2007,20(4):329-335
Mining frequent itemsets in transaction databases, time-series databases and many other kinds of databases is an important task and has been studied popularly in data mining research. The problem of mining frequent itemsets can be solved by constructing a candidate set of itemsets first, and then, identifying those itemsets that meet the frequent itemset requirement within this candidate set. Most of the previous research mainly focuses on pruning to reduce the candidate itemsets amounts and the times of scanning databases. However, many algorithms adopt an Apriori-like candidate itemsets generation and support count approach that is the most time-wasted process. To address this issue, the paper proposes an effective algorithm named as BitTableFI. In the algorithm, a special data structure BitTable is used horizontally and vertically to compress database for quick candidate itemsets generation and support count, respectively. The algorithm can also be used in many Apriori-like algorithms to improve the performance. Experiments with both synthetic and real databases show that BitTableFI outperforms Apriori and CBAR which uses ClusterTable for quick support count. 相似文献
12.
13.
文蓉 《数字社区&智能家居》2007,3(16):1100-1101
深入研究Apriori算法,针对Apriori算法的性能瓶颈,以Apriori算法的运行事实为前提,给出了约简事务数据库中事务记录的理论,提出了一种利用事务地址索引表来有效约简事务数据库中事务记录的Apriori优化算法,以提高Apriori算法的执行效率. 相似文献
14.
15.
16.
17.
在关联规则数据挖掘领域中,Apriori算法是这个方面的经典算法,但它仍存在许多弊端,为此在Apriori算法的基础上提出了一种基于有向图链式存储的改进算法,此算法根据数据结构中有向图链式存储的结构,将所有事务全部存入链表,无需多次扫描数据库,只在事务链表中完成候选集和频繁集的寻找工作.此方法能够迅速得到候选集的支持度... 相似文献
18.
多段支持度数据挖掘算法研究 总被引:17,自引:0,他引:17
在基于相联规则的数据挖掘算法中,Apriori等算法最为著名。它分为两个主要步骤:(1)通过多趟扫描数据库求解出频繁项集;(2)利用频繁项集生成规则。随后的许多算法都沿用Apriori中“频繁项集的子集必为频繁项集”的思想,在频繁项集Lk-1上进行JOIN运算构成潜在k项集Ck。由于数据库和Ck的规模较大,需要相当大的计算量才能生成频繁项集。AprioriTid算法给每个事务增加了一个唯一标识Tid,其特点是只扫描一趟数据库,其余趟扫描(如第k趟扫描)均在相应的数据集Ck^-上进行。由于数据规模改变不大,各算法的效率差别并不明显。该文提出分段计算支持度的思想,是把一个项集的支持度分段计算,每一个段记录该项集在相应规模事务中出现的频度,从而构成一个支持度向量。由于有了项集的多段支持度,可以推测出该项集能否包含在更大规模的频率项集中,采用这种算法既提高了在扫描数据库中的信息获取度,又能及时剔除超集不是频繁项集的项集,进一步缩减了潜在项集的规模,在数据集扫描过程中,按文中定理1的思想调整数据集,达到提高频繁项集生成效率的目的。 相似文献
19.
文章是在第20届全国数据库学术会议上发表的《关联规则候选项频度规律的研究》一文的基础上,又总结出来的两条规律。这两条规律与前文相比进步之处主要体现在差值支持频度的引用,充分利用差值支持频度在关联规则挖掘中的重要性,使得算法能够更加精确地预测候选项集的支持频度,从而实现再次减少候选项集数量的目的。同时文章通过对环境数据库候选项的处理验证了此改进算法的优势。 相似文献
20.
Mining spatial association rules in image databases 总被引:2,自引:0,他引:2
In this paper, we propose a novel spatial mining algorithm, called 9DLT-Miner, to mine the spatial association rules from an image database, where every image is represented by the 9DLT representation. The proposed method consists of two phases. First, we find all frequent patterns of length one. Next, we use frequent k-patterns (k ? 1) to generate all candidate (k + 1)-patterns. For each candidate pattern generated, we scan the database to count the pattern’s support and check if it is frequent. The steps in the second phase are repeated until no more frequent patterns can be found. Since our proposed algorithm prunes most of impossible candidates, it is more efficient than the Apriori algorithm. The experiment results show that 9DLT-Miner runs 2-5 times faster than the Apriori algorithm. 相似文献