首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
MapReduce与Spark用于大数据分析之比较   总被引:2,自引:0,他引:2  
吴信东  嵇圣硙 《软件学报》2018,29(6):1770-1791
随着大数据时代的到来,海量数据的分析与处理已成为一个关键的计算问题.本文评述了MapReduce与Spark两种大数据计算算法和架构,从背景、原理以及应用场景进行分析和比较,并对两种算法各自优点以及相应的限制做出了总结.当处理非迭代问题时,MapReduce凭借其自身的任务调度策略和shuffle机制,在中间数据传输数量以及文件数目方面性能要优于Spark;而在处理迭代问题和一些低延迟问题时,Spark可以根据数据之间的依赖关系对任务进行更合理的划分,相较于MapReduce有效地减少中间数据传输数量与同步次数,提高系统的运行效率.  相似文献   

2.
云计算下的海量数据挖掘研究   总被引:6,自引:0,他引:6  
王鄂  李铭 《现代计算机》2009,(11):22-25,50
云计算的出现为愈来愈多的中小企业分析海量数据提供廉价的解决方案。在介绍基于云计算的Hadoop集群框架和数据挖掘技术中的SPRINT分类算法的基础上。详细描述SPRINT并行算法在Hadoop中的MapReduce编程模型上的执行流程.并利用分析出的决策树模型对输入数据进行分类。  相似文献   

3.
云计算中Hadoop技术研究与应用综述   总被引:3,自引:0,他引:3  
夏靖波  韦泽鲲  付凯  陈珍 《计算机科学》2016,43(11):6-11, 48
Hadoop作为当今云计算与大数据时代背景下最热门的技术之一,其相关生态圈与Spark技术的结合一同影响着学术发展和商业模式。首先介绍了Hadoop的起源和优势,阐明相关技术原理,如MapReduce,HDFS,YARN,Spark等;然后着重分析了当前Hadoop学术研究成果,从MapReduce算法的改进与创新、HDFS技术的优化与创新、二次开发与其它技术相结合、应用领域创新与实践4个方面进行总结,并简述了国内外应用现状。而Hadoop与Spark结合是未来的趋势,最后展望了Hadoop未来研究的发展方向和亟需解决的问题。  相似文献   

4.
Hadoop平台在大数据处理中的应用研究   总被引:4,自引:0,他引:4  
介绍Hadoop平台的基本概念.着重分析其中的HDFS和MapReduce这两种核心技术。详细描述Hadoop集群环境的搭建过程,将Hadoop应用到一个文件发布系统中,针对不同数量级的文件在集群数不等的情况下对文件上传操作进行耗时比较。实验结果表明,数据量越大,集群节点数越多,Hadoop集群处理数据的能力就越强。  相似文献   

5.
大数据技术在环境信息中的应用   总被引:1,自引:0,他引:1  
在“辽河流域水环境管理技术综合示范”项目中,随着时间的累积,环境监测数据处理系统采集到的数据量越来越大.然而目前辽宁省环境监测数据处理系统无法有效处理日益增长的海量数据.研究运用大数据技术,改进环境监测数据处理系统中的数据中心.利用HDFS强大的数据存储、管理功能,以应对数据量的增长,利用MapReduce及Hadoop其他相关工具,快速处理海量数据,降低数据规模,最后将数据存储到数据库中.  相似文献   

6.
应毅  任凯  刘亚军 《计算机科学》2018,45(Z11):353-355
传统的日志分析技术在处理海量数据时存在计算瓶颈。针对该问题,研究了基于大数据技术的日志分析方案:由多台计算机完成日志文件的存储、分析、挖掘工作,建立了一个基于Hadoop开源框架的并行网络日志分析引擎,在MapReduce模型下重新实现了IP统计算法和异常检测算法。实验证明,在数据密集型计算中使用大数据技术可以明显提高算法的执行效率和增加系统的可扩展性。  相似文献   

7.
Nowadays, Big Data, a large volume of both structured and unstructured data, is generated from Social Media. Social Media are powerful marketing tools and social big data can offer the business insights. The major challenge facing social big data is attaining efficient techniques to collect a large volume of social data and extract insights from the huge amount of collected data. Sentiment Analysis of social big data can provide business insights by extracting the public opinions. The traditional analytic platforms need to be scaled up for analyzing a large volume of social big data. Social data are by nature shorter and generally not constructed with proper grammatical rules and hence difficult to achieve high reliable result in Sentiment Analysis. Acquiring effective training data is a challenge, although learning based approaches are good for sentiment classification. Manual Labeling for training data is time and labor consuming. In this paper, Sentiment Analysis system on Big Data Analytics platform is proposed to provide valuable information by analyzing large scale social data in an efficient and timely manner since they have been implemented using a MapReduce framework and a Hadoop distributed storage (HDFS). The proposed Sentiment Analysis system consists of four modules: data collection, data cleaning and preprocessing, class labeling and sentiment classification. The system enables high-level performance of sentiment classification while taking advantage of combining lexicon-based classifier’s effortless setup process and learning based classifier. Twitter stream data is used for system evaluation as the Twitter is widespread Social Media and a good source of information in the sense of snapshots of moods and feelings as well as up-to-date events. The evaluation results show that this system achieve a promising accuracy by 84.2%. Moreover, this system is able to scale up to analyze the large scale data by decreasing the processing time when adding more nodes in the cluster.  相似文献   

8.
当前,信息化正面临着一个全新的阶段,即以数据的深度挖掘和整合应用为核心的智慧化阶段,智慧校园已成为时下高校信息化建设的重要内容。分析高校信息化建设现状和Hadoop、Spark等大数据技术框架,并重点从数据存储层、核心业务层和信息展示层对智慧校园学生综合测评系统进行分析与设计,为大数据技术与智慧校园的深度融合提供方案。  相似文献   

9.
介绍了面对大数据的数据量大、种类多、速度快和高价值的处理技术挑战,企业应当如何建立可靠的大数据平台。利用信息架构原则和实践,实现大数据与企业数据的灵活集成,通过结合使用分布式文件系统、NoSQL与关系型数据库,企业可以获取、组织和分析其所有企业数据(包括结构化和非结构化数据),从而做出最科学的决策。  相似文献   

10.
电子政务数年的建设和发展积累了一定量的政务数据,如何对其进行大规模的综合分析、挖掘和利用,提高政府运作的效率、提高管理和决策水平已成为迫切需要解决的问题。针对这一需求,结合国民经济发展对电子政务大数据综合研究专题进行了分析,提出了一种电子政务大数据云计算的实现架构,讨论了分布式数据计算开源云平台Hadoop于电子政务大数据计算的特性。  相似文献   

11.
随着科学技术的发展,水文信息数据量发生了巨大的增长,如何充分利用这些支持决策的大规模数据,是当前科学家面临一个大问题.传统的水生态承载力分析计算复杂多样,涉及的数据种类多样,扩展性不强,注重于理论研究和分析,本文通过研究历史数据,分析影响水生态承载力的因素,将数据划分为3个指标层,提出一种基于大数据的水生态承载力分析模型(ECCBD).利用Hadoop集群的HDFS分布式文件系统实现水生态数据的备份存储,利用MapReduce实现海量水生态数据的并行计算.通过输出值与水生态承载力对比,判断水资源是否盈余或赤字,本文提出的方法和模型能够从压力、承载力、弹性力3个不同的指标层有效分析水生态环境现况,对提供水生态保护依据上有重要意义.  相似文献   

12.
大数据时代的到来催生了并行数据挖掘技术.本文介绍了大数据的基本概念,研究了Hadoop平台分布式程序设计模型MapReduce,并设计了并行数据挖掘中的并行分类算法和并行聚类算法.  相似文献   

13.
互联网和物联网技术的飞速发展开启了“大数据”时代。目前,硬件的高速发展催生了许多异构芯片,它们越来越多地出现在大规模数据中心里,支持不同的应用程序,在提升性能的同时降低整体功耗。文章重点介绍了基于 MapReduce编程模型的 Hadoop+框架的设计与实现,它允许用户在单个任务中调用 CUDA/OpenCL的并行实现,并能通过异构任务模型帮助用户。在我们的实验平台上,五种常见机器学习算法使用 Hadoop+框架相对于 Hadoop能达到1.4×~16.1×的加速比,在 Hadoop+框架中使用异构任务模型指导其资源分配策略,对单个应用负载上最高达到36.0%的性能提升;对多应用的混合负载,最多能减少36.9%,平均17.6%的应用执行时间。  相似文献   

14.
基于MPI的云计算模型   总被引:11,自引:4,他引:7       下载免费PDF全文
根据消息传递接口(MPI)的特点,提出云计算在MPI领域的应用方法,包括MPI的云计算算法设计模型、云计算原理、核心计算模式、处理流程,并介绍云计算的分布式及并行化特性。理论分析结果表明,该算法是有效可行的,优于传统并行技术,能够为算法分布化及并行化提供新思路。  相似文献   

15.
为解决基因测序数据量大、数据分析时间长,搭建FPGA、GPU计算平台成本高昂且计算软件兼容不足的问题,运用分布式计算思想设计高通量测序数据分析架构Sequence Grid(SeqGrid)。该架构安装centos开源操作系统,利用网格引擎Sun Grid Engine(SGE)、普通CPU、机械硬盘和SSD硬盘,通过并发调度生物信息软件bwa、GATK等实现数据分析。结果表明:单人全外显子组30 GB数据分析时间从15 h缩短至1 h,计算速度达到串行流程的15倍,有效提高了数据分析效率。  相似文献   

16.
Forensic examiners are in an uninterrupted battle with criminals in the use of Big Data technology. The underlying storage system is the main scene to trace the criminal activities. Big Data Storage System is identified as an emerging challenge to digital forensics. Thus, it requires the development of a sound methodology to investigate Big Data Storage System. Since the use of Hadoop as Big Data Storage System continues to grow rapidly, investigation process model for forensic analysis on Hadoop Storage and attached client devices is compulsory. Moreover, forensic analysis on Hadoop Big Data Storage System may take additional time without knowing where the data remnants can reside. In this paper, a new forensic investigation process model for Hadoop Big Data Storage System is proposed and discovered data remnants are presented. By conducting forensic research on Hadoop Big Data Storage System, the resulting data remnants assist the forensics examiners and practitioners for generating the evidences.  相似文献   

17.
基于Hadoop云计算模型探究   总被引:1,自引:0,他引:1  
云计算是并行计算、分布式计算和网格计算的发展。文中详细地阐述了MapReduce的编程思想、工作原理、步骤和方法。探讨了来自Apache开源的分布式计算平台Hadoop的核心设计MapReduce编程模型,并通过算法实验分析和研究了MapReduce模型的工作方式和应用方法。  相似文献   

18.
Hadoop是一个开源分布式计算平台。具有高容错性,高伸缩性等优点,允许用户将Hadoop部署在低廉的PC上,充分利用集群的计算和存储能力,完成海量数据的处理。结合国内烟草企业面对不断剧增的业务数据,而现有的业务数据处理能力明显不足的现状,分析烟草企业构建Hadoop分布式数据处理平台的可行性,并详细介绍了Hadoop平台技术及其项目结构和体系结构。  相似文献   

19.
国家气象信息中心存储和保存了50多年宝贵的长序列历史资料,这些历史资料在实时、准实时业务及科研中需要经常被使用并进行气象科学计算.由于历史数据量大,耗时长,如何在短时间内得到所需的计算结果提供用户使用成为本文的主要研究目标.通过搭建云计算平台,并以30年气候资料统计整编研究对象,在云计算平台上基于MapReduce分布式并行计算模型进行多种统计项目、统计方法的算法实现.通过修改云计算平台运行环境参数配置并在不同配置下运行相同计算任务,进行计算效率对比试验.  相似文献   

20.
极限学习机算法虽然训练速度较快,但包含了大量矩阵运算,因此其在面对大数据量时,处理效率依然缓慢。在充分研究Spark分布式数据集并行计算机制的基础上,设计了核心环节矩阵乘法的并行计算方案,并对基于Spark的极限学习机并行化算法进行了设计与实现。为方便性能比较,同时实现了基于Hadoop MapReduce的极限学习机并行化算法。实验结果表明,基于Spark的极限学习机并行化算法相比于Hadoop MapReduce版本的运行时间明显缩短,而且若处理数据量越大,Spark在效率方面的优势就越明显。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号