首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 351 毫秒
1.
云计算领域是IT发展的方向,其重要性正日益凸显,Hadoop是云计算领域的一项具体技术。该文以开源的分布式计算框架Hadoop为基础,详细介绍了在学院网络实验室中搭建云计算平台Hadoop教学环境的过程,并给出了具体实现方案。  相似文献   

2.
Hadoop是一个可实现大规模分布式计算的开源软件平台,已经被广泛应用在云计算领域.从Hadoop分布式文件系统的整体架构入手,描述了其分布式数据存储、分布式任务分配、分布式并行计算和分布式数据库四方面的核心内容,并论述了HDFS的工作原理、文件操作流程及Map/Reduce工作原理和计算过程.目的是使开发人员能深入地...  相似文献   

3.
近年来,随着我国互联网技术的飞速发展与大规模网络运算平台研究的深入,云平台下的数据处理已成为大规模数据的主要处理方式;但是,现有的云计算Hadoop平台在海量数据异常涌入状态下,常常出现数据逻辑错误、数据链完整性缺失、数据失效的问题,造成无法对上述异常数据进行有效检测处理,严重影响云计算Hadoop平台的数据运算准确性;针对上述问题,提出云计算Hadoop平台的异常数据检测算法研究方法;采用JNS数据采集筛查模组、算法逻辑补偿模组与动态反馈模组对现有的云端计算平台存在的问题进行针对性解决;通过仿真模拟实验证明,提出的云计算Hadoop平台的异常数据检测算法研究方法,具有异常数据识别率高,准确性高,速度快、可实施性强、稳定性好的特点。  相似文献   

4.
针对Hadoop平台MapReduce分布式计算模型运行机制中的顺序制约而产生的计算资源浪费问题,从提高平台中每个执行节点的细粒度并行数据处理角度出发,结合Java共享内存多线程编程技术,对该模型进行了优化,提出一种MapReduce+OpenMP粗细粒度相结合的分布式并行计算模型。并在由四个节点组成的Hadoop集群环境下对不同规模大小的出租车GPS轨迹数据分析处理,验证该模型的性能和效率,实验结果证明MapReduce+OpenMP分布式并行计算模型确实能够提高针对大数据集的计算效率,是对Hadoop平台大数据分析处理模型有效的完善和优化。  相似文献   

5.
网络技术在带给人们大量信息的同时,也极大地增加了人们从海量数据中发现有用知识的难度,而解决这一问题的努力促进了数据挖掘技术的出现和快速发展。云计算是能够提供动态资源池、虚拟化和高可用性的计算平台,云计算开发平台可被用来开发高性能应用程序。研究云计算环境下并行分布式数据挖掘平台的3个层次,依下而上为分布式计算层,知识发现平台层以及用户应用层。  相似文献   

6.
大数据、云计算技术的迅猛发展为挖掘气象数据丰富的科研和经济价值提供了技术支撑,促进了Hadoop及其包含的文件存储系统(HDFS,Hadoop Distributed File System)和分布式计算模型在气象数据处理领域广泛应用。由于气象数据具有大数据的4V特征,还需要引入新的数据处理算法来提高气象数据处理效率。通过对决策树算法原理的研究,基于Hadoop云平台,创建随机森林模型,为数据挖掘算法在云平台上的应用提供一种新的可能性。基于决策树(CART,Classification And Regression Trees)挖掘算法的气象大数据云平台设计,采用Hadoop系统架构和MapReduce工作流程,对气象大数据云平台采用集群部署。平台总体架构分为基础设施层、数据管理与处理层、应用层,减少了决策树建立的时间,实现了气象数据高效加工和挖掘分析等平台功能。  相似文献   

7.
基于Hadoop的Web日志挖掘   总被引:3,自引:0,他引:3       下载免费PDF全文
程苗  陈华平 《计算机工程》2011,37(11):37-39
基于单一节点的数据挖掘系统在挖掘Web海量数据源时存在计算瓶颈,针对该问题,利用云计算的分布式处理和虚拟化技术的优势,设计一种基于云计算的Hadoop集群框架的Web日志分析平台,提出一种能够在云计算环境中进行分布式处理的混合算法。为进一步验证该平台的高效性,在该平台上利用改进后的算法挖掘Web日志中用户的偏爱访问路径。实验结果表明,在集群中运用分布式算法处理大量的Web日志文件,可以明显提高Web数据挖掘的效率。  相似文献   

8.
基于Hadoop的校园云计算系统   总被引:3,自引:1,他引:2  
针对传统的海量数据处理方法硬件成本太高,并行程序编写困难的缺点,在云计算理论的基础上设计了一个用于处理海量数据的校园云计算系统.此云计算系统是在Hadoop分布式计算框架的基础上采用Map-Reduce编程模型实现对海量数据的并行处理,有效解决了成本问题,降低了并行编程的难度.  相似文献   

9.
基于开源Hadoop的矢量空间数据分布式处理研究   总被引:1,自引:0,他引:1  
为实现大规模矢量数据的高性能处理,在开源项目Hadoop基础上,设计与开发了一个基于MapReduce的矢量数据分布式计算系统。根据矢量空间数据的特点,通过分析Key/Value数据模型及GeoJSON地理数据编码格式,构建了可存储于Hadoop hdfs的矢量数据Key/Value文本文件格式;探讨矢量数据的MapReduce计算过程,对Map数据分片、并行处理过程及Reduce结果合并等关键步骤进行了详细阐述;基于上述技术,建立了矢量数据分布式计算原型系统,详细介绍系统组成,并将其应用于处理关中地区1∶10万土地利用矢量空间数据,取得较好效果。  相似文献   

10.
基于Mapreduce的大规模社会网络提取方法研究*   总被引:1,自引:0,他引:1  
从海量非规范Web数据源提取大规模高质量的社会网络有着广阔应用前景和较高学术价值,同时也面临着海量计算所带来的巨大挑战。为此,以Digg新闻评论网站为信息源,以提取网站用户之间的共同兴趣网络为主要目标,提出了基于云平台的社会网络提取系统框架,实现了基于Mapreduce的大规模社会网络提取方法。实验结果表明,提出的方法具有较好的扩展性和伸缩性,能够胜任从异构Web数据源提取高质量的大规模社会网络的计算任务。  相似文献   

11.
云计算影响了互联网上世界上任何地方远程服务器处理、数据存储和共享的方式。这种共享多种分布式资源方式,使得安全问题更加复杂化。本文分析了云计算环境下的安全服务,通过整合可信计算环境来建立云计算系统。可信计算平台模式可以提高云计算的安全性。可信计算模式重要的安全服务包括加密,认证,完整性和保密性等都可以用在云计算系统中。  相似文献   

12.
为解决传统电力系统中集中式计算平台海量数据流的存储和分析功能不足的问题,针对云计算在智能电网调度技术中的应用进行了研究。首先,对云计算技术在IT行业的发展进行阐述,对云计算的关键技术从虚拟化与快速部署技术、大规模分布式存储技术、资源调度技术、大规模多租户技术、海量数据处理技术以及大规模信息通信技术等方面出发进行介绍。其次,借鉴IT行业云计算技术,设计了基于云计算的智能电网计算平台以及基于云计算的智能电网互动式节能优化调度架构,以期推动云计算在电力系统中的发展,解决智能电网互动式节能优化调度算法方面的问题。  相似文献   

13.
随着电费数据量的快速增长,某特大型集团公司财务管理信息系统传统的电费数据处理模式已经成为系统的性能瓶颈. Hadoop是一个可实现大规模分布式计算的开源框架,具有高效、可靠、可伸缩的优点,被广泛应用于海量数据处理领域. 本文在对电费业务和Hadoop进行分析和研究的基础上,提出了电费数据新的处理模型,建立了基于Hadoop和Hive的电费明细数据处理平台. 实验证明该模型可以有效解决目前海量电费数据处理面临的性能瓶颈,提高电费数据处理的速度和效率,并且可以提供高性能的明细数据查询功能.  相似文献   

14.
在Hadoop分布式云计算平台上进行科学计算仿真,具有节省软硬件投资、缩短模拟时间等研究意义。针对需要高计算能力的磁流体动力学(MHD)仿真问题,设计了一种基于Hadoop分布式计算平台的MHD仿真器。首先,将Spark和HAMA两种分布式并行计算模型整合到Hadoop生态系统中,分别用于支持内存计算和整体同步并行计算。然后,将Hadoop集群构建成Master-Slave对等结构,解决全局同步和局部同步问题。最后,在Hadoop集群上,利用有限体积法和黎曼问题来求解MHD方程。实验结果表明,该仿真器能够精确模拟MHD,同时大大缩短了仿真计算时间。  相似文献   

15.
陈泽琳  潘运军  何浥尘  齐德昱 《计算机科学》2014,41(11):107-111,117
云平台存储和管理应用复杂的海量数据已成为必然。建筑信息模型(Building Information Modeling,BIM)是从全工程建设生命周期的视角组织相关数据并协同工作,所以BIM迫切需要云计算的支持。但是面对复杂的BIM应用,如何构建云平台的超级计算模式将是一个巨大的挑战。提出一个面向BIM应用的云服务框架,在Hadoop分布式软件框架上设计了云存储、云平台服务、应用服务和客户端应用四层结构。提出了该框架下的城市空间位置检索算法,该算法采用改进的KD树作为索引表。针对大用户群的并发访问,提出了面向空间位置检索的负载均衡算法,通过统计节点访问频度设计了数据块均衡分布策略。实验表明,该框架组织的建筑信息具有并发处理能力强、响应速度快等特点。  相似文献   

16.
Hadoop平台在云计算中的应用   总被引:4,自引:0,他引:4  
王宏宇 《软件》2011,32(4):36-38,50
云计算是当前比较热门的新兴技术之一,受到业界的广泛关注。Hadoop是一个可实现大规模分布式计算的开源软件平台,因此被广泛应用在云计算领域。本文在对Hadoop的主要组件Hadoop分布式文件系统HDFS(Hadoop Distributed File System)和计算模型MapReduce进行深入分析和研究的基础上,建立基于Hadoop平台的云计算模型,通过实验证明该模型可以有效完成分布式数据处理任务。  相似文献   

17.
黄鑫  罗军 《集成技术》2013,2(2):69-82
数据的快速增长,为我们提供了更多的信息,然而,也对传统信息获取技术提出了挑战。这篇论文提出了MCMM算法,它是基于MapReduce的大规模数据分类模型的最小生成树(MST)的算法。它可以看做是介于传统的KNN方法和基于聚类分类方法之间的模型,旨在克服这两种方法的不足并能处理大规模的数据。在这一模型中,训练集作为有权重的无向完全图来处理。顶点是对象,两点之间边的权重是对象间的距离。这一距离,不同于欧几里得距离,它是一个特定的距离度量。这样,可以找到图中最小生成树集,其中,图中每棵树代表一个类。为了降低时间复杂度,提取了每棵树中最具代表性的点来代表该树。这些压缩了的点集,可以通过计算无标签对象和它们之间的距离,来进行分类。MCMM模型基于MapReduce实现并且部署在Hadoop平台。该模型可扩展处理大规模的数据,是因为Hadoop支持数据密集分布应用,并且这些应用可以和数以千计的节点和数据一起运作。另外,MapReduce 和Hadoop能在由商品机组成的集群上很好的运行。MCMM模型使用云平台并且通过使用MapReduce 和Hadoop进行云计算是有益处的。实验采用的数据集包括从UCI数据库得到的真实数据和一些模拟数据,实验使用了4000个集群。实验表明,MCMM模型在精确度和扩展性上优于KNN和其他一些经常使用的基础分类方法。  相似文献   

18.
The combination of the Hadoop MapReduce programming model and cloud computing allows biological scientists to analyze next-generation sequencing (NGS) data in a timely and cost-effective manner. Cloud computing platforms remove the burden of IT facility procurement and management from end users and provide ease of access to Hadoop clusters. However, biological scientists are still expected to choose appropriate Hadoop parameters for running their jobs. More importantly, the available Hadoop tuning guidelines are either obsolete or too general to capture the particular characteristics of bioinformatics applications. In this study, we aim to minimize the cloud computing cost spent on bioinformatics data analysis by optimizing the extracted significant Hadoop parameters. When using MapReduce-based bioinformatics tools in the cloud, the default settings often lead to resource underutilization and wasteful expenses. We choose k-mer counting, a representative application used in a large number of NGS data analysis tools, as our study case. Experimental results show that, with the fine-tuned parameters, we achieve a total of 4× speedup compared with the original performance (using the default settings). This paper presents an exemplary case for tuning MapReduce-based bioinformatics applications in the cloud, and documents the key parameters that could lead to significant performance benefits.  相似文献   

19.
云计算是未来企业信息化的发展趋势,在各行业中已有了一定的研究或应用,但在预拌混凝土行业还鲜有研究。针对预拌混凝土企业信息化建设中对数据存储、整合、挖掘等方面需求的不断提高,将云计算运用于建设预拌混凝土企业信息平台,提出了面向混凝土行业的云计算,以实现信息平台资源虚拟化、大数据存储与并行计算处理。结合Hadoop云计算技术,设计了云计算信息平台构架,给出了几种云计算下的应用模式,并通过实例验证了平台的可行性,分析了应用效果。  相似文献   

20.
基于Hadoop的高性能海量数据处理平台研究   总被引:2,自引:0,他引:2  
海量数据高性能计算蕴藏着巨大的应用价值,但是目前云计算体系只具有海量数据处理能力,而不具有足够的高性能计算能力。将具有超强并行计算能力的CPU与云计算相融合,提出了基于CPU/GPU协同的异构高性能云计算体系结构。以开源Hadoop为基础,采用注释码的形式对MapReduce函数中需要并行的部分进行标记。通过 定制GPU类加载器,将被标记代码转换为CUDA代码并动态编译运行。该平台将GPU的计算能力融合到MapReduce框架中,可高效处理海量数据。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号