首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 703 毫秒
1.
为提高聚类算法效率,提出一种基于动态云平台的快速闭树聚类并行算法。针对云计算平台Hadoop中任务的随机分配策略,给出一个满足最小化消耗成本的任务分配算法 CDA-GA,并基于该算法提出动态云平台模型。将传统的频繁闭树挖掘算法与聚类算法并行化,应用于动态云平台中,设计基于动态云平台的闭树聚类算法框架。实验结果表明,该算法有效可行,适合在大规模数据下进行聚类分析。  相似文献   

2.
针对目前大数据快速增加的环境下,海量数据的频繁项集挖掘在实际中所面临的增量更新问题,在频繁项超度量树算法(frequent items ultrametric trees,FIUT)的基础上,引入MapReduce并行编程模型,提出了一种针对频繁项集增量更新的面向大数据的并行算法。该算法通过检查频繁超度量树叶子节点的支持度来确定频繁项集,同时采用准频繁项集的策略来优化并行计算过程,从而提高数据挖掘效率。实验结果显示,所提出的算法能快速完成扫描和更新数据,具有较好的可扩展性,适合于在动态增长的大数据环境中进行关联规则相关数据挖掘。  相似文献   

3.
针对DHP(direct hashing and pruning)算法对大数据挖掘关联规则存在执行时间过长、效率不高的问题,对DHP算法的并行化策略进行了研究。根据云计算平台Hadoop的MapReduce并行编程模型,设计了一种并行DHP算法,给出了算法的总体流程和Map函数、Reduce函数的算法描述。与DHP算法相比,并行算法利用了Hadoop集群强大的计算能力,提高了从大数据集中挖掘关联规则的效率。通过实例分析了并行DHP算法的执行过程,在多个数据集上进行了实验。实验结果表明:并行DHP算法对大数据具有较好的加速比和可扩展性。  相似文献   

4.
云计算以其强大的存储和计算能力而成为解决海量数据挖掘问题的有效途径。经典的关联规则增量更新算法FUP需要频繁扫描原数据集,不适用于海量数据的处理。文中以提高海量数据上关联规则增量更新效率为目标,将FUP算法与云计算的MapReduce编程模式相结合,提出了一种基于MapReduce的关联规则增量更新算法MRFUP。该算法只需扫描原数据集一次,并能充分利用云计算强大的存储和并行计算能力。基于Hadoop的实验结果表明,MRFUP算法可提高对海量数据的处理能力和效率,适用于海量数据的关联规则挖掘。  相似文献   

5.
基于 MapReduce 的关联规则增量更新算法   总被引:1,自引:0,他引:1  
云计算以其强大的存储和计算能力而成为解决海量数据挖掘问题的有效途径.经典的关联规则增量更新算法FUP 需要频繁扫描原数据集,不适用于海量数据的处理.文中以提高海量数据上关联规则增量更新效率为目标,将 FUP算法与云计算的 MapReduce 编程模式相结合,提出了一种基于 MapReduce 的关联规则增量更新算法 MRFUP.该算法只需扫描原数据集一次,并能充分利用云计算强大的存储和并行计算能力.基于 Hadoop 的实验结果表明,MRFUP 算法可提高对海量数据的处理能力和效率,适用于海量数据的关联规则挖掘  相似文献   

6.
基于Hadoop分布式计算平台,给出一种适用于大数据集的并行挖掘算法。该算法对非结构化的原始大数据集以及中间结果文件进行垂直划分以确保能够获得完整的频繁项集,将各个垂直分块数据分配给不同的Hadoop计算节点进行处理,以减少各个计算节点的存储数据,进而减少各个计算节点执行交集操作的次数,提高并行挖掘效率。实验结果表明,给出的并行挖掘算法解决了大数据集挖掘过程中产生的大量数据通信、中间数据以及执行大量交集操作的问题,算法高效、可扩展。  相似文献   

7.
为解决AprioriTid算法对大数据执行效率不高的问题,根据Hadoop平台的MapReduce模型,分析了AprioriTid算法的并行化方法,给出了并行化的主要步骤和Map、Reduce函数的描述。与串行的AprioriTid算法相比,并行算法利用了多个节点的计算能力,缩短了从大数据集中挖掘关联规则的时间。对并行算法的性能进行了测试,实验结果表明,并行AprioriTid算法具有较高的执行效率和较好的可扩展性。  相似文献   

8.
概化关联规则挖掘作为数据挖掘领域一个重要的拓展性研究课题,首先提出了一种概化扩展自然序树(generalized extended canonical-order tree,GECT)结构及其增量挖掘算法GECT-IM.该算法对原始分类事务数据库只扫描一次,就可以将所有交易信息映射至一棵压缩格式的GECT,然后通过对更新交易数据集扫描得到更新数据集中各项集的计数,结合相关性质及运算就可以发现大部分更新后的概化频繁项集;其次,针对GECT规模较大以及GECT-IM 算法仍然可能需要遍历初始GECT树的局限,在界定数据库更新和重构概念的基础上,基于一种可量化度量的准最小支持度阈值,提出了一种改进的准频繁概化扩展自然序树(pre-large generalized extended canonical-order tree,PGECT)结构及其增量挖掘算法PGECT-IM.由于有效避免了对初始GECT进行遍历的情形,从而进一步提升了概化关联规则增量挖掘效率.实验证明,提出的概化关联规则增量挖掘算法 GECT-IM 及其优化算法PGECT-IM,比现有增量挖掘算法具有更高的挖掘效率和更好的扩展性.  相似文献   

9.
云计算下的海量数据挖掘研究   总被引:4,自引:0,他引:4  
王鄂  李铭 《现代计算机》2009,(11):22-25,50
云计算的出现为愈来愈多的中小企业分析海量数据提供廉价的解决方案。在介绍基于云计算的Hadoop集群框架和数据挖掘技术中的SPRINT分类算法的基础上。详细描述SPRINT并行算法在Hadoop中的MapReduce编程模型上的执行流程.并利用分析出的决策树模型对输入数据进行分类。  相似文献   

10.
增量更新关联规则挖掘主要解决事务数据库中交易记录不断更新和最小支持度发生变化时关联规则的维护问题。针对目前诸多增量更新关联规则挖掘算法存在效率低、计算成本高、规则难以维护等问题,提出一种基于倒排索引树的增量更新关联挖掘算法。该算法有效地将倒排索引技术与树型结构相结合,使得交易数据库中的数据不断更新和最小支持度随应用环境不同而不断改变时,以实现无需扫描原始交易数据库和不产生候选项集的情况下生成频繁项集。实验结果表明,该算法只需占用较小的存储空间、且检索项集的效率较高,能高效地解决增量更新关联规则难以维护的问题。  相似文献   

11.
大数据、云计算技术的迅猛发展为挖掘气象数据丰富的科研和经济价值提供了技术支撑,促进了Hadoop及其包含的文件存储系统(HDFS,Hadoop Distributed File System)和分布式计算模型在气象数据处理领域广泛应用。由于气象数据具有大数据的4V特征,还需要引入新的数据处理算法来提高气象数据处理效率。通过对决策树算法原理的研究,基于Hadoop云平台,创建随机森林模型,为数据挖掘算法在云平台上的应用提供一种新的可能性。基于决策树(CART,Classification And Regression Trees)挖掘算法的气象大数据云平台设计,采用Hadoop系统架构和MapReduce工作流程,对气象大数据云平台采用集群部署。平台总体架构分为基础设施层、数据管理与处理层、应用层,减少了决策树建立的时间,实现了气象数据高效加工和挖掘分析等平台功能。  相似文献   

12.
如何能从海量数据中以更快速、高效、低成本的方式挖掘出有价值的信息成为如今数据挖掘技术面临的新课题。文中在研究Hadoop平台的特征和决策树的C4.5算法的过程中,决定在决策树算法领域中引入云计算思维,实现其在Ha-doop平台上的并行化,并且采用MapReduce模型来解决海量数据挖掘问题。最后用打高尔夫球的数据集对新的算法进行验证。实验结果表明对海量数据,基于Hadoop平台的决策树算法可以明显提高数据挖掘的效率,具有可观的高效性和可扩展性,在一定程度上解决了C4.5算法在处理海量数据时计算量大、构建决策树时间长的问题。  相似文献   

13.
李曼 《微型机与应用》2011,30(18):65-68
针对已有增量分类算法只是作用于小规模数据集或者在集中式环境下进行的缺点,提出一种基于Hadoop云计算平台的增量分类模型,以解决大规模数据集的增量分类。为了使云计算平台可以自动地对增量的训练样本进行处理,基于模块化集成学习思想,设计相应Map函数对不同时刻的增量样本块进行训练,Reduce函数对不同时刻训练得到的分类器进行集成,以实现云计算平台上的增量学习。仿真实验证明了该方法的正确性和可行性。  相似文献   

14.
基于Hadoop的Web日志挖掘   总被引:3,自引:0,他引:3       下载免费PDF全文
程苗  陈华平 《计算机工程》2011,37(11):37-39
基于单一节点的数据挖掘系统在挖掘Web海量数据源时存在计算瓶颈,针对该问题,利用云计算的分布式处理和虚拟化技术的优势,设计一种基于云计算的Hadoop集群框架的Web日志分析平台,提出一种能够在云计算环境中进行分布式处理的混合算法。为进一步验证该平台的高效性,在该平台上利用改进后的算法挖掘Web日志中用户的偏爱访问路径。实验结果表明,在集群中运用分布式算法处理大量的Web日志文件,可以明显提高Web数据挖掘的效率。  相似文献   

15.
张春艳 《软件》2010,31(11):57-61
目前,由于云计算的出现,越来越多的中小企业在分析海量数据时能便利地找到廉价的解决方案。本文,鉴于MapReduce作为Hadoopd中的重要编程模型,在介绍基于云计算的Hadoop平台和数据挖掘技术中的SPRINT分类算法的基础上,详细描述SPRINT的并行算法在MapReduce编程模型上的执行流程,并利用研究出的决策树模型对输入数据进行分类。  相似文献   

16.
黄鑫  罗军 《集成技术》2013,2(2):69-82
数据的快速增长,为我们提供了更多的信息,然而,也对传统信息获取技术提出了挑战。这篇论文提出了MCMM算法,它是基于MapReduce的大规模数据分类模型的最小生成树(MST)的算法。它可以看做是介于传统的KNN方法和基于聚类分类方法之间的模型,旨在克服这两种方法的不足并能处理大规模的数据。在这一模型中,训练集作为有权重的无向完全图来处理。顶点是对象,两点之间边的权重是对象间的距离。这一距离,不同于欧几里得距离,它是一个特定的距离度量。这样,可以找到图中最小生成树集,其中,图中每棵树代表一个类。为了降低时间复杂度,提取了每棵树中最具代表性的点来代表该树。这些压缩了的点集,可以通过计算无标签对象和它们之间的距离,来进行分类。MCMM模型基于MapReduce实现并且部署在Hadoop平台。该模型可扩展处理大规模的数据,是因为Hadoop支持数据密集分布应用,并且这些应用可以和数以千计的节点和数据一起运作。另外,MapReduce 和Hadoop能在由商品机组成的集群上很好的运行。MCMM模型使用云平台并且通过使用MapReduce 和Hadoop进行云计算是有益处的。实验采用的数据集包括从UCI数据库得到的真实数据和一些模拟数据,实验使用了4000个集群。实验表明,MCMM模型在精确度和扩展性上优于KNN和其他一些经常使用的基础分类方法。  相似文献   

17.
针对传统的聚类算法存在开销大、聚类质量差、聚类速度慢等问题,提出一种新的云计算环境下高复杂度动态数据的增量密度快速聚类算法。首先,依据密度对云计算环境下高复杂度动态数据进行聚类,从数据空间中找到部分子空间,使得数据映射至该空间后可产生高密度点集区域,将连通区域的集合看作聚类结果;其次,通过DBSCAN算法进行增量聚类,并对插入或删除数据导致的原聚类合并或分裂进行研究;最后,在更新的过程中通过改变核心状态数据的邻域中含有的全部核心数据进行处理,从插入或删除数据两方面进行增量聚类分析。实验结果表明,所提算法开销低、聚类速度快、聚类质量高。  相似文献   

18.
近年来,随着我国互联网技术的飞速发展与大规模网络运算平台研究的深入,云平台下的数据处理已成为大规模数据的主要处理方式;但是,现有的云计算Hadoop平台在海量数据异常涌入状态下,常常出现数据逻辑错误、数据链完整性缺失、数据失效的问题,造成无法对上述异常数据进行有效检测处理,严重影响云计算Hadoop平台的数据运算准确性;针对上述问题,提出云计算Hadoop平台的异常数据检测算法研究方法;采用JNS数据采集筛查模组、算法逻辑补偿模组与动态反馈模组对现有的云端计算平台存在的问题进行针对性解决;通过仿真模拟实验证明,提出的云计算Hadoop平台的异常数据检测算法研究方法,具有异常数据识别率高,准确性高,速度快、可实施性强、稳定性好的特点。  相似文献   

19.
赵小龙  杨燕 《控制与决策》2019,34(10):2061-2072
增量式属性约简是针对动态型数据的一种重要的数据挖掘方法,目前已提出的增量式属性约简算法大多基于离散型数据构建,很少有对数值型数据进行相关的研究.鉴于此,提出一种数值型信息系统中对象不断增加的增量式属性约简算法.首先,在数值型信息系统中建立一种分层的邻域粒化计算方法,并基于该方法提出邻域粒化的增量式计算;然后,在邻域粒化增量式计算的基础上给出邻域粒化条件熵的增量式更新方法,并基于该更新机制提出对应的增量式属性约简算法;最后,通过实验分析表明所提出算法对于数值型数据的增量式属性约简具有更高的有效性和优越性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号