共查询到20条相似文献,搜索用时 15 毫秒
1.
MapReduce与Spark用于大数据分析之比较 总被引:2,自引:0,他引:2
随着大数据时代的到来,海量数据的分析与处理已成为一个关键的计算问题.本文评述了MapReduce与Spark两种大数据计算算法和架构,从背景、原理以及应用场景进行分析和比较,并对两种算法各自优点以及相应的限制做出了总结.当处理非迭代问题时,MapReduce凭借其自身的任务调度策略和shuffle机制,在中间数据传输数量以及文件数目方面性能要优于Spark;而在处理迭代问题和一些低延迟问题时,Spark可以根据数据之间的依赖关系对任务进行更合理的划分,相较于MapReduce有效地减少中间数据传输数量与同步次数,提高系统的运行效率. 相似文献
2.
云计算下的海量数据挖掘研究 总被引:6,自引:0,他引:6
云计算的出现为愈来愈多的中小企业分析海量数据提供廉价的解决方案。在介绍基于云计算的Hadoop集群框架和数据挖掘技术中的SPRINT分类算法的基础上。详细描述SPRINT并行算法在Hadoop中的MapReduce编程模型上的执行流程.并利用分析出的决策树模型对输入数据进行分类。 相似文献
3.
云计算中Hadoop技术研究与应用综述 总被引:3,自引:0,他引:3
Hadoop作为当今云计算与大数据时代背景下最热门的技术之一,其相关生态圈与Spark技术的结合一同影响着学术发展和商业模式。首先介绍了Hadoop的起源和优势,阐明相关技术原理,如MapReduce,HDFS,YARN,Spark等;然后着重分析了当前Hadoop学术研究成果,从MapReduce算法的改进与创新、HDFS技术的优化与创新、二次开发与其它技术相结合、应用领域创新与实践4个方面进行总结,并简述了国内外应用现状。而Hadoop与Spark结合是未来的趋势,最后展望了Hadoop未来研究的发展方向和亟需解决的问题。 相似文献
4.
Hadoop平台在大数据处理中的应用研究 总被引:4,自引:0,他引:4
介绍Hadoop平台的基本概念.着重分析其中的HDFS和MapReduce这两种核心技术。详细描述Hadoop集群环境的搭建过程,将Hadoop应用到一个文件发布系统中,针对不同数量级的文件在集群数不等的情况下对文件上传操作进行耗时比较。实验结果表明,数据量越大,集群节点数越多,Hadoop集群处理数据的能力就越强。 相似文献
5.
6.
7.
Nowadays, Big Data, a large volume of both structured and unstructured data, is generated from Social Media. Social Media are powerful marketing tools
and social big data can offer the business insights. The major challenge facing social big data is attaining efficient techniques to collect a large volume of
social data and extract insights from the huge amount of collected data. Sentiment Analysis of social big data can provide business insights by extracting
the public opinions. The traditional analytic platforms need to be scaled up for analyzing a large volume of social big data. Social data are by nature
shorter and generally not constructed with proper grammatical rules and hence difficult to achieve high reliable result in Sentiment Analysis. Acquiring
effective training data is a challenge, although learning based approaches are good for sentiment classification. Manual Labeling for training data is time and
labor consuming. In this paper, Sentiment Analysis system on Big Data Analytics platform is proposed to provide valuable information by analyzing large
scale social data in an efficient and timely manner since they have been implemented using a MapReduce framework and a Hadoop distributed storage
(HDFS). The proposed Sentiment Analysis system consists of four modules: data collection, data cleaning and preprocessing, class labeling and sentiment
classification. The system enables high-level performance of sentiment classification while taking advantage of combining lexicon-based classifier’s effortless
setup process and learning based classifier. Twitter stream data is used for system evaluation as the Twitter is widespread Social Media and a good source of
information in the sense of snapshots of moods and feelings as well as up-to-date events. The evaluation results show that this system achieve a promising
accuracy by 84.2%. Moreover, this system is able to scale up to analyze the large scale data by decreasing the processing time when adding more nodes
in the cluster. 相似文献
8.
9.
10.
电子政务数年的建设和发展积累了一定量的政务数据,如何对其进行大规模的综合分析、挖掘和利用,提高政府运作的效率、提高管理和决策水平已成为迫切需要解决的问题。针对这一需求,结合国民经济发展对电子政务大数据综合研究专题进行了分析,提出了一种电子政务大数据云计算的实现架构,讨论了分布式数据计算开源云平台Hadoop于电子政务大数据计算的特性。 相似文献
11.
随着科学技术的发展,水文信息数据量发生了巨大的增长,如何充分利用这些支持决策的大规模数据,是当前科学家面临一个大问题.传统的水生态承载力分析计算复杂多样,涉及的数据种类多样,扩展性不强,注重于理论研究和分析,本文通过研究历史数据,分析影响水生态承载力的因素,将数据划分为3个指标层,提出一种基于大数据的水生态承载力分析模型(ECCBD).利用Hadoop集群的HDFS分布式文件系统实现水生态数据的备份存储,利用MapReduce实现海量水生态数据的并行计算.通过输出值与水生态承载力对比,判断水资源是否盈余或赤字,本文提出的方法和模型能够从压力、承载力、弹性力3个不同的指标层有效分析水生态环境现况,对提供水生态保护依据上有重要意义. 相似文献
12.
朱月恒 《网络安全技术与应用》2014,(5):53-53
大数据时代的到来催生了并行数据挖掘技术.本文介绍了大数据的基本概念,研究了Hadoop平台分布式程序设计模型MapReduce,并设计了并行数据挖掘中的并行分类算法和并行聚类算法. 相似文献
13.
互联网和物联网技术的飞速发展开启了“大数据”时代。目前,硬件的高速发展催生了许多异构芯片,它们越来越多地出现在大规模数据中心里,支持不同的应用程序,在提升性能的同时降低整体功耗。文章重点介绍了基于 MapReduce编程模型的 Hadoop+框架的设计与实现,它允许用户在单个任务中调用 CUDA/OpenCL的并行实现,并能通过异构任务模型帮助用户。在我们的实验平台上,五种常见机器学习算法使用 Hadoop+框架相对于 Hadoop能达到1.4×~16.1×的加速比,在 Hadoop+框架中使用异构任务模型指导其资源分配策略,对单个应用负载上最高达到36.0%的性能提升;对多应用的混合负载,最多能减少36.9%,平均17.6%的应用执行时间。 相似文献
14.
15.
为解决基因测序数据量大、数据分析时间长,搭建FPGA、GPU计算平台成本高昂且计算软件兼容不足的问题,运用分布式计算思想设计高通量测序数据分析架构Sequence Grid(SeqGrid)。该架构安装centos开源操作系统,利用网格引擎Sun Grid Engine(SGE)、普通CPU、机械硬盘和SSD硬盘,通过并发调度生物信息软件bwa、GATK等实现数据分析。结果表明:单人全外显子组30 GB数据分析时间从15 h缩短至1 h,计算速度达到串行流程的15倍,有效提高了数据分析效率。 相似文献
16.
Forensic examiners are in an uninterrupted battle with criminals in the use of Big Data technology. The underlying storage system is the main scene to trace
the criminal activities. Big Data Storage System is identified as an emerging challenge to digital forensics. Thus, it requires the development of a sound
methodology to investigate Big Data Storage System. Since the use of Hadoop as Big Data Storage System continues to grow rapidly, investigation process
model for forensic analysis on Hadoop Storage and attached client devices is compulsory. Moreover, forensic analysis on Hadoop Big Data Storage System
may take additional time without knowing where the data remnants can reside. In this paper, a new forensic investigation process model for Hadoop Big
Data Storage System is proposed and discovered data remnants are presented. By conducting forensic research on Hadoop Big Data Storage System, the
resulting data remnants assist the forensics examiners and practitioners for generating the evidences. 相似文献
17.
基于Hadoop云计算模型探究 总被引:1,自引:0,他引:1
云计算是并行计算、分布式计算和网格计算的发展。文中详细地阐述了MapReduce的编程思想、工作原理、步骤和方法。探讨了来自Apache开源的分布式计算平台Hadoop的核心设计MapReduce编程模型,并通过算法实验分析和研究了MapReduce模型的工作方式和应用方法。 相似文献
18.
19.
国家气象信息中心存储和保存了50多年宝贵的长序列历史资料,这些历史资料在实时、准实时业务及科研中需要经常被使用并进行气象科学计算.由于历史数据量大,耗时长,如何在短时间内得到所需的计算结果提供用户使用成为本文的主要研究目标.通过搭建云计算平台,并以30年气候资料统计整编研究对象,在云计算平台上基于MapReduce分布式并行计算模型进行多种统计项目、统计方法的算法实现.通过修改云计算平台运行环境参数配置并在不同配置下运行相同计算任务,进行计算效率对比试验. 相似文献
20.
极限学习机算法虽然训练速度较快,但包含了大量矩阵运算,因此其在面对大数据量时,处理效率依然缓慢。在充分研究Spark分布式数据集并行计算机制的基础上,设计了核心环节矩阵乘法的并行计算方案,并对基于Spark的极限学习机并行化算法进行了设计与实现。为方便性能比较,同时实现了基于Hadoop MapReduce的极限学习机并行化算法。实验结果表明,基于Spark的极限学习机并行化算法相比于Hadoop MapReduce版本的运行时间明显缩短,而且若处理数据量越大,Spark在效率方面的优势就越明显。 相似文献