首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
互联网的发展使得计算密集型的任务正在逐渐走向分布式和云计算。文中对Hadoop项目中的MapReduce和HDFS进行了研究,采用HDFS作为底层分布式文件系统,MapReduce作为编程框架来实现哈希算法。通过对多个节点中的测试结果的分析表明,在Hadoop上运行哈希函数的任务,能够起到在多台计算机的群集中分摊负载的效果,并且有效地减少了任务的总时间开销。以Hadoop为基础的云计算平台具有良好的可靠性和可扩展性,对于哈希算法在Hadoop平台上的实现和测试,为将来密钥恢复等系统的研究和搭建提供了良好的基础。  相似文献   

2.
Hadoop是一个免费、可靠、高效、可扩展的开源云平台,允许在分布式集群上处理大数据的软件框架。本文以Hadoop为基础,详细介绍了虚拟机VMware、JDK、CentOS、Hadoop等技术。在伪分布式环境下搭建虚拟云平台,经过测试,本系统能正常运行MapReduce化的分布式程序,本文还针对用户权限、路径配置和使用SSH服务程序等问题进行了详细的阐述,为基于Hadoop的云平台研究和应用程序开发提供了基础。  相似文献   

3.
Hadoop作为一种开源的基础云计算框架,在企业界逐步得到了有效的应用,但其安全机制的薄弱已成为阻碍其发展的主要问题之一。文中首先归纳了传统网络的安全问题以及安全机制,分析了云计算的安全问题,然后通过对Hadoop工作模式的描述,提出了Hadoop的安全需求,最后通过对Hadoop当前安全机制的研究,分析了其中的安全隐患,并提出了相应的解决办法,为Hadoop新安全需求的企业应用提供了技术支持。  相似文献   

4.
近年来,云计算在IT行业掀起了新一轮技术革新浪潮。云计算是一种新兴的计算模型,它是并行计算、分布式计算、网格计算的综合发展,以简单、透明服务的形式提供无限制的计算资源。Hadoop实现的开源云平台提供了并行计算模型MapReduce、分布式文件系统HDFS和分布式数据库HBase等。随着数字图像数据量不断增长,单机模式的图像处理已逐渐不能满足用户需求。文中提出了利用Hadoop云平台实现海量图像的并行  相似文献   

5.
针对高校在迎新工作中存在的问题,提出基于开源云计算Hadoop的数字迎新系统.本文通过分析系统建设目标与业务流程,并运用Web系统分层技术、MVC设计思想以及Hadoop数据云存储技术进行研发.该系统既可以提高迎新工作效率和迎新服务质量,缩短系统的响应时间,又可以保证数据的安全性和一致性,更好地方便用户的使用.  相似文献   

6.
为了解决大量专利数据的存储和翻译问题,设计了一种基于Hadoop的专利翻译系统。针对数据存储该系统采用了HDFS和HBase相结合的混合式存储结构,对于翻译过程则采用Hadoop并行翻译模型-MapReduce。通过实验证明,相比于传统的翻译方法该系统具有更好的数据存储和翻译性能。  相似文献   

7.
传统的数据分析方法面对海量电信数据存在管理和分析难的问题.Hadoop是一个可实现大规模分布式计算的开源框架,具有高效、可靠、可伸缩的优点,被广泛应用于云计算领域.本文在对云计算和Hadoop进行分析和研究的基础上,提出了一种针对海量电信数据的分布式云计算方法,建立了基于Hadoop的海量电信数据云计算平台.实验证明,该平台能够有效完成海量数据的管理和分析任务,提高海量数据分析的速度和效率.  相似文献   

8.
Map Reduce is a programming model for processing large data sets,and Hadoop is the most popular open-source implementation of MapReduce.To achieve high performance,up to 190 Hadoop configuration parameters must be manually tunned.This is not only time-consuming but also error-pron.In this paper,we propose a new performance model based on random forest,a recently developed machine-learning algorithm.The model,called RFMS,is used to predict the performance of a Hadoop system according to the system’s configuration parameters.RFMS is created from 2000 distinct fine-grained performance observations with different Hadoop configurations.We test RFMS against the measured performance of representative workloads from the Hadoop Micro-benchmark suite.The results show that the prediction accuracy of RFMS achieves 95% on average and up to 99%.This new,highly accurate prediction model can be used to automatically optimize the performance of Hadoop systems.  相似文献   

9.
10.
传统的异常数据监测算法依靠单台计算机对异常数据进行识别,识别速度慢,且无法满足对数据处理的精确性要求。针对上述问题,文中构建了Hadoop分布式财务异常数据分析模型。该模型采用Hadoop中的MapReduce框架作为并行计算框架,同时在数据异常检测算法方面引入了邻域关系的LOF算法,有效避免了数据集元素边缘可能会出现误判的情况。数值实验结果表明,文中所提算法的准确率相比其他3种同类算法提升了5%以上,且算法的总运行时间也明显缩短。由此可见,文中所提模型可快速、准确地检测出财务异常数据,保障医疗系统的平稳运行。  相似文献   

11.
基于Hadoop的交通数据分析系统   总被引:1,自引:1,他引:1  
为了保证交通数据处理的实时性和存储的扩展性,文中设计并实现了一种交通大数据分析系统,其中Hadoop平台利用MapReduce并行分布式计算对车辆数据进行统计分析;另一个Storm平台利用其流计算组件对实时路况进行分析,两个模块协同作用,能对缓解城市交通拥堵起到一定的作用。通过测试表明,系统可靠性
较高、计算速率快,能达到支持决策的作用。  相似文献   

12.
随着互联网技术的迅速发展,在我们的生活中网络已经成为我们不可以缺少的重要的组成部分.网络流量监控技术是对网络中海量的流量数据进行分析的重要工具和技术.基于云计算的网络流量监控技术可以对网络流量数据和用户的特征进行更好的分析,可以对用户的上网行为进行深入的挖掘,更好的为用户推荐喜欢的网络内容.本文结合互联网的发展现状对海量网络流量数据分析技术进行了分析,在基于云计算的基础上提出了海量网络流量数据分析的几个关键性技术,对基于云计算的海量网络流量数据分析技术进行了分析和研究.  相似文献   

13.
随着社会生产的发展,政府监督和企业委托的产品质量检验产生了规模非常巨大的质检数据.这些数据持续快速增长,数据类型多样化,针对对海量的质检数据进行高效率的访问,并进行有效的分析利用,为政府和公众提供质量监管、预测和预警的帮助.现提出了一种基于Hadoop分布式计算技术进行存储和分析质检大数据的方法,设计了质检大数据分析的架构和主要部分的实现代码.该设计具有良好的高扩展性和高可用性,能满足质检大数据的存储和挖掘等要求.  相似文献   

14.
基于云计算的海量数据存储模型   总被引:1,自引:4,他引:1  
侯建  帅仁俊  侯文 《通信技术》2011,44(5):163-165
针对目前网络产生的数据越来越多以及随之而来的海量数据的存储问题,在云计算技术上,依据Hadoop及虚拟化技术,提出了基于云计算的海量数据存储模型。将医院信息化的海量数据部署在Hadoop平台上,根据云计算的核心算法MapReduce来处理数据,最后将数据存储在虚拟资源池中。通过实际的应用,该模型可以很好地克服现行的存储方式存在的不足,解决海量数据在存储当中存在的问题,并且能够很好地提高存储的效率。  相似文献   

15.
基于Hadoop的网络分流和流特征计算   总被引:1,自引:0,他引:1  
网络流量特征计算是网络流量分析的一个重要步骤,对于海量网络流量数据,并行化计算网络流量特征是高效网络流量分析的重要方法.针对传统单机处理成本高、可扩展性差的问题,提出一种基于MapReduce编程模型的网络流量分析方法,并行实现网络分流和流量特征计算.通过使用Hadoop平台对实际数据进行分析,统计常用网络流量属性特征,实验表明,该方法分析网络流量特征的结果准确可信,且适合分析大流量数据.  相似文献   

16.
随着因特网普及和信息技术广泛应用,网络上大量的色情、暴力、反动等不良信息的入侵。对于不良信息的检测和传播控制显得越来越重要,关系到国家安全和社会稳定。单机模式的不良信息的甄别与检测已不能满足社会的需求,Hadoop云平台作为能够对大量数据进行分布式处理的软件框架,提供了MapReduce,、分布式文件系统HDFS有助于文本安全检测的并行化处理。为此文中提出一种基于Hadoop云平台,可以通过句式结构的判别上下文逻辑的关联性对不良信息的并行检测的模型,减少了检测时间,提高了检测效率。  相似文献   

17.
Hadoop是Apache基金会所开发的支持涉及数千个节点和海量数据的分布式计算的高级项目。它是一个开源免费的软件框架,受到谷歌的MapReduce和谷歌文件系统(GFS)的启发,由Java语言实现,全球的开发志愿者共同对它进行完善。Hadoop的子项目包括HDFS,MapReduce,HBase,Hive等。HDFS是一个分布式文件系统,提供高吞吐量的应用数据接口使得Hadoop具有很好的性能。MapReduce是一个软件框架,它执行涉及海量集群数据的分布式计算的MapReduce算法。尽管Hadoop被广泛使用,但它仍然存在一些影响性能的缺陷,对于小文件的处理能力就是其中缺陷之一。档案文件(Hadoop Archives)和序列文件(sequence files)是两种现有的改善小文件处理问题的解决方案,但它们仍然有各自的不足,提出一个解决方案,保留它们的优点使Hadoop在处理小文件上拥有更好的性能。  相似文献   

18.
在对PageRank算法进行研究的基础上,利用MapReduce编程模型思想对PageRank算法进行改进,设计了在云平台Hadoop环境下运行的基于MapReduce的PageRank分布式并行算法,并在实验中对不同规模的Web图数据集进行了测试,分析不同的Blocksize参数对于算法计算性能的作用以及集群节点数目对于算法运行效率的影响.  相似文献   

19.
设计并实现了一个基于MapReduce的网络舆情分析系统。系统采用HDFS和HBase双存储机制存储数据。通过实验分析与效果比对,选用MMSeg4j为系统进行中文分词。改进了Canopy—Kmeans算法实现文本自动聚类,提高了系统的聚类准确度及效率。目前,该系统已应用于某部队舆情分析系统中,能够实时发现热点话题、准确把握舆情趋势,为应对舆论危机、制定舆论政策提供了科学系统的信息支持。  相似文献   

20.
介绍了Hadoop的数据负载均衡算法.为了提升Hadoop数据负载均衡算法的效率,文中提出了超负载机架的优先处理及引用排序策略的解决负载均衡的改进算法.实验证明了改进算法在特定的环境下或能够在较短的时间内使各个机架的数据负载达到平衡以及能够优先处理负载超大节点.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号