首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 93 毫秒
1.
云计算环境下关联规则挖掘算法的研究   总被引:2,自引:0,他引:2  
云计算为存储和分析海量数据提供了廉价高效的解决方案,云计算环境下的数据挖掘算法的研究具有重要的理论意义和应用价值.针对云计算环境下的关联规则挖掘算法展开研究,介绍了云计算的概念、Hadoop框架平台、MapRe-duce编程模型和传统的Apriori算法;在此基础上,以实现云计算环境下的并行化数据挖掘为目的,对Apriori算法进行了改进,给出了改进的算法在Hadoop中的MapReduce编程模型上的执行流程;通过一个简单的频繁项集挖掘实例展示了改进的算法的执行效率及实用性.  相似文献   

2.
李玲娟  张敏 《微机发展》2011,(2):43-46,50
云计算为存储和分析海量数据提供了廉价高效的解决方案,云计算环境下的数据挖掘算法的研究具有重要的理论意义和应用价值。针对云计算环境下的关联规则挖掘算法展开研究,介绍了云计算的概念、Hadoop框架平台、MapReduce编程模型和传统的Apriori算法;在此基础上,以实现云计算环境下的并行化数据挖掘为目的,对Apriori算法进行了改进,给出了改进的算法在Hadoop中的MapReduce编程模型上的执行流程;通过一个简单的频繁项集挖掘实例展示了改进的算法的执行效率及实用性。  相似文献   

3.
陈建国 《软件》2011,32(5):65-66,70
对大型数据库中海量数据进行数据挖掘的方法进行研究,提出一种对海量数据进行数据挖掘的有效方法,该方法实现了如何采用粒子群优化算法对海量数据进行优化划分,并且采用改进的Apriori算法解决Apriori算法产生大量候选项集和多次扫描数据库的缺点。从而解决海量数据挖掘的时间和空间复杂度过高的难点。  相似文献   

4.
互联网上的数据规模大、种类多、变化快,而且越来越复杂。通过数据挖掘和分析,可以获取有潜在价值的信息。但是,传统的数据挖掘系统在数据存储和计算性能上存在瓶颈。通过使用云计算技术,设计了一个基于Hadoop架构的网页日志数据挖掘和分析平台来解决这个问题。同时,为了提高挖掘效率,为大规模网页日志挖掘实现了Apriori算法的并行化,并使用该平台验证了该行算法的效率。  相似文献   

5.
互联网上的数据规模大、种类多、变化快,而且越来越复杂。通过数据挖掘和分析,可以获取有潜在价值的信息。但是,传统的数据挖掘系统在数据存储和计算性能上存在瓶颈。通过使用云计算技术,设计了一个基于Hadoop架构的网页日志数据挖掘和分析平台来解决这个问题。同时,为了提高挖掘效率,为大规模网页日志挖掘实现了Apriori算法的并行化,并使用该平台验证了该行算法的效率。  相似文献   

6.
从历史考试数据中提出有用的信息具有重要的意义。使用关联规则挖掘是有效的手段之一。然而,传统的Apriori关联规则挖掘算法存在不足之处。为此,本文应用一种改进的、基于Apriori的关联规则挖掘算法,在高考考试数据上进行了尝试,得出了有益的结果。为进一步构建针对教育考试的实际数据挖掘应用系统奠定了基础。  相似文献   

7.
物联网是一个巨大的、分布广泛的物与物相连的网络,其上产生的海量数据通常是与时间和空间相关的,具有动态、异构、分布的特性,因此对这些数据的挖掘非常困难,而且耗费时间和内存,效率低下。为了解决这些问题,提出了一种基于云计算的物联网数据挖掘系统:将这些海量数据转化为PML数据文件,并存储在HDFS中,同时把挖掘任务分配到多台节点服务器上并行处理。采用Hadoop平台,将关联规则Apriori算法Map/Reduce化,提高了挖掘的效率。另外,采用副本策略将计算向存储迁移,将失效节点的计算迁移到副本数据存储节点就地执行,降低了数据传输的时间,大为提高了挖掘的效率。  相似文献   

8.
改进Apriori挖掘算法的网格实现   总被引:2,自引:0,他引:2  
殷剑锋  徐建城  李伟强 《计算机仿真》2010,27(2):145-148,268
科学和工商业应用需要分析分布在各异构站点的海量数据。传统的关联规则挖掘算法探讨的对象基本上都是集中式的数据集,对分布式的动态数据库群无能为力,因而迫切需要对分布式数据挖掘算法进行研究探讨。在研究OGSA面向服务的体系结构基础上,将网格技术与数据挖掘技术有机地结合在一起,提出了一种基于网格的分布式关联规则挖掘方法。是改进Apriori挖掘算法在网格环境下的具体应用。仿真实验表明方法具备网格的并行挖掘特性,能够成功实现位于多个异构站点E的分布式数据挖掘,且挖掘速度和运算效率较之集中式Apriori挖掘算法有较大幅度的提高。  相似文献   

9.
MapReduce是云计算技术主流的分布式计算模型,它充分利用计算机集群的处理能力;能对大规模数据进行高效的挖掘分析;在研究MapReduce模型架构的基础上,将云计算技术与数据挖掘技术结合在一起,提出了基于MapReduce模型的Apriori算法;该算法对事务集和项集进行双重二进制编码,只需"与"运算和"或"运算,提高了模式匹配和连接的效率;试验结果表明,该算法执行效率比传统集中式Apriori算法有很大幅度的提高。  相似文献   

10.
云计算以其强大的存储和计算能力而成为解决海量数据挖掘问题的有效途径。经典的关联规则增量更新算法FUP需要频繁扫描原数据集,不适用于海量数据的处理。文中以提高海量数据上关联规则增量更新效率为目标,将FUP算法与云计算的MapReduce编程模式相结合,提出了一种基于MapReduce的关联规则增量更新算法MRFUP。该算法只需扫描原数据集一次,并能充分利用云计算强大的存储和并行计算能力。基于Hadoop的实验结果表明,MRFUP算法可提高对海量数据的处理能力和效率,适用于海量数据的关联规则挖掘。  相似文献   

11.
根据MapReduce模型并行运行实现的特点,针对可扩展性差的传统Apriori的特点和传统Apriori算法,采用了"云"强大的廉价计算处理方式和关联规则挖掘算法,改进提高Apriori算法的运算效率。通过改进在云计算环境下MapReduce编程框架,并且结合验证MR-Apriori算法的实验为基础,这对传统意义上的Apriori算法在数据挖掘过程中所出现的客观问题进行处理,从而真正意义上的完成了本文研究的基于MapReduce并行的Apriori算法的扩展性提升的目标,并且表明了元计算技术结合关联规则挖掘算法的可能性。  相似文献   

12.
本文对Web 数据挖掘算法分析进行了研究,首先简述了云计算关键技术,提出了如何在海量信息中提取出有 用信息的重要性,其次指出了在云计算环境中进行Web 数据挖掘提供更多数据挖掘的解决方案,最后对云计算环境下Web 数 据挖掘常用算法进行了探讨。  相似文献   

13.
一种高效的并行频繁集挖掘算法   总被引:1,自引:0,他引:1       下载免费PDF全文
张诤  王惠文 《计算机工程》2008,34(11):55-57,6
针对Apriori算法在挖掘超大规模数据集时存在的效率低下问题,在数据集分块和事务数据库布尔化映射基础上,提出一种直接利用布尔矩阵向量运算挖掘频繁集的并行频繁集挖掘算法(PFIM)。仿真实验分析表明,PFIM算法比Apriori算法的挖掘时间缩短了近90%,该方法可用于挖掘超大规模数据库,具有良好的并行性和可伸缩性。  相似文献   

14.
魏玲  魏永江  高长元 《计算机科学》2015,42(10):208-210, 243
为提高Apriori算法挖掘频繁项目集的效率,引进了Bigtable技术与MapReduce模型来对Apriori算法进行优化,设计出大数据环境下挖掘频繁项目集的新算法BM-Apriori算法。与单纯基于MapReduce模型的Apriori改进算法相比,新算法利用Bigtable的时间戳属性代替了键/值对的产生,只需扫描数据库一次即可,节约了模式匹配的时间。同时,BM-Apriori算法在项集列表中新增事务标号列,自动获取事务标号以计算支持度。将BM-Apriori算法在Hadoop平台上进行了实验,结果表明Bigtable技术的融入使得BM-Apriori算法具有更高的效率与可拓展性。  相似文献   

15.
Apriori和FP-Growth算法是频繁模式挖掘中的经典算法,由于Apriori存在更多缺陷,因此FP-Growth是单机计算环境下比较高效的算法。然而,对于非并行计算在大数据时代遇到的瓶颈,提出一种基于事务中项间联通权重矩阵的负载平衡并行频繁模式增长算法CWBPFP。算法在Spark框架上实现并行计算,数据分组时利用负载均衡策略,存入分组的数据是相应频繁项的编码。每个工作节点将分组数据中每一个事物中项的联通信息存入一个下三角联通权重矩阵中,使用被约束子树来加快每个工作节点挖掘频繁模式时创建条件FP-tree的速度,再用联通权重矩阵避免每次挖掘分组中频繁模式时对条件模式基的第一次扫描。由于联通权重矩阵和被约束子树的结合应用于每一个工作节点的FP-tree挖掘过程,因此提升了并行挖掘FP-tree性能。通过实验表明,所提出的并行算法对大的数据有较高性能和可扩展性。  相似文献   

16.
AGM算法最早将Apriori思想应用到频繁子图挖掘中。AGM算法结构简单,以递归统计为基础,但面临庞大的图数据集时,由于存在子图同构的问题,在生成候选子图时容易产生很多冗余子图,使计算时间开销很大。基于AGM算法,针对候选子图生成这一环节对原算法进行改进,减少了冗余子图的生成,使改进后的算法在计算时间上具有高效性;测试了在不同最小支持度情况下改进方法的时间开销。实验结果表明改进算法比原算法缩短了计算时间,提高了频繁子图的挖掘效率。  相似文献   

17.
针对传统平台运行Apriori算法来挖掘中医病案中用药组合规律时,存在着占用内存空间大、计算效率低和PB级数据无法处理等问题,提出基于Hadoop的中医哮喘用药组合关联分析方法。采用Mapreduce分布式计算框架和HBase分布式数据库优化Apriori算法性能:一方面使用Mapreduce计算框架并行处理数据,借助HBase高速读写数据的特性,加速频繁项集的产生;另一方面摒弃传统算法中的自连接产生候选项集方式,对每个节点上的数据,使用循环和递归相结合的方式产生候选集,提高候选集产生的效率。实验结果证明,借助基于Hadoop的中医哮喘用药组合关联分析方法挖掘中医药组合规律,效率更高,能更有效地指导临床实践。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号