首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 162 毫秒
1.
王培培  孟芸 《计算机仿真》2021,38(5):282-286
针对传统数据关联挖掘过程只适用于单段数据集,导致内存负担重、挖掘频繁项集效率不高等问题,提出一种多段支持度数据频繁模式关联规则挖掘方法.运用多支持度算法对数据集逐步搜索,数据集按照数据项的MIS大小有序排列,采用最小值作为最小支持度,确保该算法的地推性.构建FP_ tree树,利用FP_tree算法对待选项实施剪枝,从而准确挖掘出频繁模式的关联规则.仿真结果证明,多段支持度数据频繁模式关联规则挖掘具有较好的性能,有效提高了关联规则的挖掘效率.  相似文献   

2.
王乐  常艳芬  王水 《计算机应用》2015,35(7):1921-1926
为提高不确定数据频繁模式(FP)挖掘算法的时空效率,提出了基于最大概率的不确定频繁模式挖掘(UFPM-MP)算法。首先,利用事务项集中的最大概率值预估期望支持数;然后,使用该期望支持数与最小期望支持数阈值进行比较,以确定某一项集是否为候选频繁项集,并对候选项集建立子树以递归挖掘频繁模式。实验中,UFPM-MP算法与AT-Mine算法进行了对比,并在6个典型的数据集上进行实验验证。实验结果表明,UFPM-MP算法的时空效率得到了提高,稀疏数据集上提高约30%,稠密数据集上的效率提高更为明显(约3~4倍)。预估期望支持数的策略有效地减少了子树和头表项的数量,从而提高了算法的时空效率;且最小期望支持数越小,或需要挖掘的频繁模式越多的时候,算法的时间效率提高越多。  相似文献   

3.
基于概率衰减窗口模型的不确定数据流频繁模式挖掘   总被引:2,自引:0,他引:2  
考虑到不确定数据流的不确定性,设计了一种新的概率频繁模式树PFP-tree和基于该树的概率频繁模式挖掘方法PFP-growth.PFP-growth使用事务性不确定数据流及概率衰减窗口模型,通过计算各概率数据项的期望支持度以发现概率频繁模式,其主要特点有:考虑到窗口内不同时间到达数据项的贡献度不同,采用概率衰减窗口模型计算期望支持度,以提高模式挖掘准确度;设置数据项索引表和事务索引表,以加快频繁模式树检索速度;通过剪枝删除不可能成为频繁模式的结点,以降低模式树的存储及检索开销;对每个结点都设立一个事务概率信息链表,以支持数据项在不同事务中具有不同概率的情形.实验结果表明,PFP-growth在保证挖掘模式准确度的前提下,在处理时间和内存空间等方面都具有较好的性能.  相似文献   

4.
关联规则挖掘时,数据集中各项目的重要性不同且较难主观给出,直接影响挖掘结果.针对此问题,给出加权项目集和加权关联规则的概念,并通过信息熵来确定单属性的权重,同时采用几何均值和取最大权重值的折中方法来确定多项目集的权重,以此在兼顾整体权重的同时,突出重要项目.在此基础上,采用加权频繁模式树来提取加权频繁模式,并给出加权频繁模式树的构造方法,最后以国家天文台提供的天体光谱数据及机械装备EDEM数据作为数据集,实验验证算法的高效率.  相似文献   

5.
通过对网络业务进行分析来达到对网络性能进行评价和优化变得日益重要,本文给出了一种新的网络业务分析方法-路径约束序列模式挖掘算法(PRSP),该算法利用频繁数据项集的性质,在求出候选频繁项集的同时也求出了其支持度,并且在求候选频繁序列时也减少了候选频繁序列的个数,极大提高了挖掘的效率和速度,实验结果表明,该算法是有效的。  相似文献   

6.
如何在海量数据集中提高频繁项集的挖掘效率是目前研究的热点.随着数据量的不断增长,使用传统算法产生频繁项集的计算代价依然很高.为此,提出一种基于Spark的频繁项集快速挖掘算法(fast mining algorithm of frequent itemset based on spark,Fmafibs),利用位运算速度快的特点,设计了一种新颖的模式增长策略.该算法首先采用位串表达项集,利用位运算来快速生成候选项集;其次,针对超长位串计算效率低的问题,考虑将事务垂直分组处理,将同一事务不同组之间的频繁项集通过连接获得候选项集,最后进行聚合筛选得到最终频繁项集.算法在Spark环境下,以频繁项集挖掘领域基准数据集进行实验验证.实验结果表明所提方法在保证挖掘结果准确的同时,有效地提高了挖掘效率.  相似文献   

7.
针对数据集中交易记录和数据项的重要性不同问题,提出了一种多最小支持度的加权关联规则挖掘算法,允许用户设定多个最小支持度,给出交易记录不同的权重,从而发现有价值的关联规则。该算法按项目的最小支持度升序对交易记录进行分类,按类别依次求出每一类别内的加权频繁集。在挖掘过程中由于剔除了冗余项目并对相同项集累加计数,且不需多次重复扫描数据库,从而提高了挖掘效率。实验结果表明,新算法能有效地从数据集中挖掘出加权关联规则。  相似文献   

8.
针对大数据时代的图挖掘算法中必须避免进行子图同构检测的问题,采用社会网络中的信息传播模型研究在单个大图中挖掘近邻频繁模式.首先计算节点标号对邻居节点的关联强度,运行联合概率分布来计算节点标号集合的概率支持度,以概率支持度为判断标准,运用改进的逆矩阵+共生频繁项树(COFI-树)挖掘算法对每个节点的标号构成的项集组成的事务数据集进行频繁项集挖掘.实验分析结果显示,该方法快过传统的单个大图频繁子图挖掘算法,返回的结果也多过频繁子图挖掘算法,并且可以发现一些传统频繁子图挖掘算法发现不了的有趣模式.而且与基于FP-树的频繁模式挖掘算法相比,逆矩阵+COFI-树能够支持大规模数据集,对内存利用效率较高.  相似文献   

9.
针对基于Spark框架的关联规则算法存在I/O开销大、数据结构和挖掘频繁集方式单一、计算支持度的方式效率低等问题,提出基于SparkSql进行分布式编程的算法。将数据集加载到DataFrame,利用改进后的布隆过滤器高效存储频繁集挖掘过程中产生的项集,解决RDD内存资源和计算速度受限问题。基于先验定理对事务、项目和项集进行精简,同时提出用Sql语句对项集中项目对应事务集合求交集的方式计算项集支持度,提高计算支持度的效率。提出了两种迭代算法和自适应数据的选择条件,增强该算法对各种数据集的泛化性。进行多组实验,证明提出的算法总是自适应本次迭代数据的特点选择最优的迭代方法,同时具有较高并行算法性能,可以扩展到更大规模集群和数据;同基于Spark框架的关联规则算法YAFIM和R-Apriori进行对比,在每次迭代和总体运行计算效率上有更好的表现。  相似文献   

10.
为了进一步提高在Spark平台上的频繁模式增长(FP-Growth)算法执行效率,提出一种新的基于Spark的并行FP-Growth算法——BFPG。首先,从频繁模式树(FP-Tree)规模大小和分区计算量对F-List分组策略进行改进,保证每个分区负载总和近似相等;然后,通过创建列表P-List对数据集划分策略进行优化,减少遍历次数,降低时间复杂度。实验结果表明,BFPG算法提高了并行FP-Growth算法挖掘效率,且算法具有良好的扩展性。  相似文献   

11.
Apriori算法是解决频繁项集挖掘最常用的算法之一,但多轮迭代扫描完整数据集的计算方式,严重影响算法效率且难以并行化处理。随着数据规模的持续增大,这一问题日益严重。针对这一问题,提出了一种基于项编码和Spark计算框架的Apriori并行化处理方法——IEBDA算法,利用项编码完整保存项集信息,在不重复扫描完整数据集的情况下完成频繁项集挖掘,同时利用Spark的广播变量实现并行化处理。与其他分布式Apriori算法在不同规模的数据集上进行性能比较,发现IEBDA算法从第一轮迭代后加速效果明显。结果表明,该算法可以提高大数据环境下的多轮迭代的频繁项集挖掘效率。  相似文献   

12.
对于不确定性数据,传统判断项集是否频繁的方法并不能准确表达项集的频繁性,同样对于大型数据,频繁项集显得庞大和冗余。针对上述不足,在水平挖掘算法Apriori的基础上,提出一种基于不确定性数据的频繁闭项集挖掘算法UFCIM。利用置信度概率表达项集频繁的准确性,置信度越高,项集为频繁的准确性也越高,且由于频繁闭项集是频繁项集的一种无损压缩表示,因此利用压缩形式的频繁闭项集替代庞大的频繁项集。实验结果表明,该算法能够快速地挖掘出不确定性数据中的频繁闭项集,在减少项集冗余的同时保证项集的准确性和完整性。  相似文献   

13.
一种不确定性数据频繁模式的垂直挖掘算法   总被引:1,自引:0,他引:1  
由于数据的不确定性,传统频繁模式挖掘方法难以适用到不确定性数据中.针对不确定性数据的特点,把挖掘确定性数据频繁模式的经典垂直挖掘算法Eclat算法扩展到不确定性数据中,提出了UP-Eclat算法.该算法分别对Tid集和项集搜索树进行扩展:把原来只有一个id域的Tid扩展成两个域,即id域和概率域;用扩展后的Tid集代替原来的Tid集,生成扩展后的项集搜索树.扩展后的Tid集可以表示不确定性数据,然后利用扩展后的项集搜索树进行频繁模式挖掘.通过实验与分析,UP-Eclat算法可行,高效.  相似文献   

14.
Data mining is a method for extracting useful information that is necessary for a system from a database. As the types of data processed by the system are diversified, the transformed pattern mining techniques for processing these type of data have been proposed. Unlike the traditional pattern mining methods, erasable pattern mining is a technique for finding the patterns that can be removed by coming with a small profit. Erasable pattern mining should be able to process data by considering both the environment that the data are generated from and the characteristics of the data. An uncertain database is a database that is composed of uncertain data. Since erasable patterns discovered from uncertain data contain significant information, these patterns need to be extracted. In addition, databases gradually increase, because the data from various fields is generated and accumulated over data streams. Data streams should be processed as intelligently as possible to provide the useful data to the system in real time. In this paper, we propose an efficient erasable pattern mining algorithm that processes uncertain data that is generated over data streams. The uncertain erasable patterns discovered through the suggested technique are more meaningful information by considering the probability of the item and the profit. Moreover, the proposed method can perform efficient mining operations by using both tree and list structures. The performance of the suggested algorithm is verified through the performance tests compared with state-of-the-art algorithms using real data sets and synthetic data sets.  相似文献   

15.
刘川  方思行 《计算机工程与设计》2005,26(5):1149-1151,1154
基于FPclose算法提出了一种挖掘强亲密度关联模式的算法。算法引入客观兴趣度度量h-置信度来识别强亲密度关联模式,利用其反单调性质和交叉支持度性质进行剪枝。实验证明,该算法能够高效地挖掘出倾斜数据集中的强亲密度关联模式。  相似文献   

16.
《Knowledge》2007,20(1):86-97
Frequent pattern mining is one of main concerns in data mining tasks. In frequent pattern mining, closed frequent pattern mining and weighted frequent pattern mining are two main approaches to reduce the search space. Although many related studies have been suggested, no mining algorithm considers both paradigms. Even if closed frequent pattern mining represents exactly the same knowledge and weighted frequent pattern mining provides a way to discover more important patterns, the incorporation of closed frequent pattern mining and weight frequent pattern mining may loss information. Based on our analysis of joining orders, we propose closed weighted frequent pattern mining, and present how to discover succinct but lossless closed frequent pattern with weight constraints. To our knowledge, ours is the first work specifically to consider both constraints. An extensive performance study shows that our algorithm outperforms previous algorithms. In addition, it is efficient and scalable.  相似文献   

17.
As a core area in data mining, frequent pattern (or itemset) mining has been studied for a long time. Weighted frequent pattern mining prunes unimportant patterns and maximal frequent pattern mining discovers compact frequent patterns. These approaches contribute to improving mining performance by reducing the search space. However, we need to consider both the downward closure property and patterns' subset checking process when integrating these different methods in order to prevent unintended pattern losses. Moreover, it is also essential to extract valid patterns with faster runtime and less memory consumption. For this reason, in this paper, we propose more efficient maximal weighted frequent pattern (MWFP) mining approaches based on tree and array structures. We describe how to handle these problems more efficiently, maintaining the correctness of our method. We develop two types of maximal weighted frequent mining algorithms based on weight ascending order and support descending order and compare these two algorithms to conclude which is more suitable for MWFP mining. In addition, comprehensive tests in this paper show that our algorithms are more efficient and scalable than state‐of‐the‐art algorithms, and they also have the correctness of the MWFP mining in terms of their pattern generation results.  相似文献   

18.
Apriori算法是关联规则挖掘中最经典的算法之一,其核心问题是频繁项集的获取。针对经典Apriori算法存在的需多次遍历事务数据库及需产生候选项集等问题,首先通过转换存储结构、消除候选集产生过程等方法对Apriori算法进行优化,同时,随着大数据时代的到来,数据量与日俱增,传统算法面临巨大挑战,因此,又将优化的Apriori与Spark相结合,充分利用Spark的内存计算、弹性分布式数据集等优势,提出了IABS(Improved Apriori algorithm based on Spark)。通过与已有的同类算法进行比较,IABS的数据可扩展性和节点可扩展性得以验证,并且在多种数据集上平均获得了23.88%的性能提升,尤其随着数据量的增长,性能提升更加明显。  相似文献   

19.
Apriori和FP-Growth算法是频繁模式挖掘中的经典算法,由于Apriori存在更多缺陷,因此FP-Growth是单机计算环境下比较高效的算法。然而,对于非并行计算在大数据时代遇到的瓶颈,提出一种基于事务中项间联通权重矩阵的负载平衡并行频繁模式增长算法CWBPFP。算法在Spark框架上实现并行计算,数据分组时利用负载均衡策略,存入分组的数据是相应频繁项的编码。每个工作节点将分组数据中每一个事物中项的联通信息存入一个下三角联通权重矩阵中,使用被约束子树来加快每个工作节点挖掘频繁模式时创建条件FP-tree的速度,再用联通权重矩阵避免每次挖掘分组中频繁模式时对条件模式基的第一次扫描。由于联通权重矩阵和被约束子树的结合应用于每一个工作节点的FP-tree挖掘过程,因此提升了并行挖掘FP-tree性能。通过实验表明,所提出的并行算法对大的数据有较高性能和可扩展性。  相似文献   

20.
; 对于不确定数据的频繁序列模式挖掘,会导致可能频繁模式数量的指数级出现,其中有些无用的挖掘结果,引起频繁序列的冗余。针对上述不足, 提出了可能频繁闭序列模式(pfcsp)的定义, 以及一种基于不确定数据的可能频繁闭序列挖掘算法U-FCSM。此算法中,基于一种元组不确定数据模型,计算序列的可能频繁性,应用BIDE算法的闭序列思想判断可能频繁序列是否是可能频繁闭序列模式。为了减少搜索空间与避免冗余的计算,应用了几个剪枝与边界技术。U-FCSM算法的有效性与效率通过大量的实验得以表明。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号