共查询到15条相似文献,搜索用时 62 毫秒
1.
Hadoop是一个免费、可靠、高效、可扩展的开源云平台,允许在分布式集群上处理大数据的软件框架。本文以Hadoop为基础,详细介绍了虚拟机VMware、JDK、CentOS、Hadoop等技术。在伪分布式环境下搭建虚拟云平台,经过测试,本系统能正常运行MapReduce化的分布式程序,本文还针对用户权限、路径配置和使用SSH服务程序等问题进行了详细的阐述,为基于Hadoop的云平台研究和应用程序开发提供了基础。 相似文献
2.
马媛 《信息安全与通信保密》2012,(6):89-92
Hadoop作为一种开源的基础云计算框架,在企业界逐步得到了有效的应用,但其安全机制的薄弱已成为阻碍其发展的主要问题之一。文中首先归纳了传统网络的安全问题以及安全机制,分析了云计算的安全问题,然后通过对Hadoop工作模式的描述,提出了Hadoop的安全需求,最后通过对Hadoop当前安全机制的研究,分析了其中的安全隐患,并提出了相应的解决办法,为Hadoop新安全需求的企业应用提供了技术支持。 相似文献
3.
互联网的发展使得计算密集型的任务正在逐渐走向分布式和云计算。文中对Hadoop项目中的MapReduce和HDFS进行了研究,采用HDFS作为底层分布式文件系统,MapReduce作为编程框架来实现哈希算法。通过对多个节点中的测试结果的分析表明,在Hadoop上运行哈希函数的任务,能够起到在多台计算机的群集中分摊负载的效果,并且有效地减少了任务的总时间开销。以Hadoop为基础的云计算平台具有良好的可靠性和可扩展性,对于哈希算法在Hadoop平台上的实现和测试,为将来密钥恢复等系统的研究和搭建提供了良好的基础。 相似文献
4.
Hadoop是一个分布式系统基础架构,已经广泛应用在云计算领域,Hadoop的框架最核心的设计是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。 相似文献
5.
针对网络舆情数据存在数据量大、分散度高、数据非结构化等特点,而常用的文本分类算法难以实现对网络舆情快速、准确分类的问题,因此提出一种基于Hadoop平台的并行kNN网络舆情分类算法,利用Hadoop分布式存储特性和设计并行kNN的MapReduce程序来解决处理大批量数据时存在的问题.对并行kNN算法进行分类能力和分类效率进行测试验证,实验结果表明,基于Hadoop平台的并行kNN网络舆情分类算法在处理大批量网络舆情数据时,能够快速、高效和准确对网络舆情数据进行分类. 相似文献
6.
随着因特网普及和信息技术广泛应用,网络上大量的色情、暴力、反动等不良信息的入侵。对于不良信息的检测和传播控制显得越来越重要,关系到国家安全和社会稳定。单机模式的不良信息的甄别与检测已不能满足社会的需求,Hadoop云平台作为能够对大量数据进行分布式处理的软件框架,提供了MapReduce,、分布式文件系统HDFS有助于文本安全检测的并行化处理。为此文中提出一种基于Hadoop云平台,可以通过句式结构的判别上下文逻辑的关联性对不良信息的并行检测的模型,减少了检测时间,提高了检测效率。 相似文献
7.
8.
9.
基于Hadoop平台下的Canopy-Kmeans高效算法 总被引:3,自引:0,他引:3
介绍了Hadoop平台下MapReduce的编程模型;分析了传统聚类Kmeans和Canopy算法的优缺点,并提出了基于Canopy的改进Kmeans算法。针对Canopy-Kmeans算法中Canopy选取的随机性问题,采用“最小最大原则”对该算法进行改进,避免了Cannopy选取的盲目性。采用MapReduce并行编程方法,以海量新闻信息聚类作为应用背景。实验结果表明,此方法相对于传统Kmeans和Canopy算法有着更高的准确率和稳定性。 相似文献
10.
本文就基于Hadoop的实验教学平台的构建,对于多学科的科研和教学所具有的重要意义做了详细阐述。文中还详细描述了基于Hadoop的分布式云计算实验教学平台的构建过程,具体包括硬件安装、开发环境的搭建、Hadoop的安装与部署,对于实验平台建设具有较好的指导作用。 相似文献
11.
12.
Offiine network traffic analysis is very important for an in-depth study upon the understanding of network conditions and characteristics, such as user behavior and abnormal traffic. With the rapid growth of the amount of information on the Intemet, the traditional stand-alone analysis tools face great challenges in storage capacity and computing efficiency, but which is the advantages for Hadoop cluster. In this paper, we designed an offiine traffic analysis system based on Hadoop (OTASH), and proposed a MapReduce-based algorithm for TopN user statistics. In addition, we studied the computing performance and failure tolerance in OTASH. From the experiments we drew the conclusion that OTASH is suitable for handling large amounts of flow data, and are competent to calculate in the case of single node failure. 相似文献
13.
介绍了Hadoop的数据负载均衡算法.为了提升Hadoop数据负载均衡算法的效率,文中提出了超负载机架的优先处理及引用排序策略的解决负载均衡的改进算法.实验证明了改进算法在特定的环境下或能够在较短的时间内使各个机架的数据负载达到平衡以及能够优先处理负载超大节点. 相似文献
14.
Zhendong Bei Zhibin Yu Huiling Zhang Chengzhong Xu Shenzhong Feng Zhenjiang Dong Hengsheng Zhang 《中兴通讯技术(英文版)》2013,(2):38-44
Map Reduce is a programming model for processing large data sets,and Hadoop is the most popular open-source implementation of MapReduce.To achieve high performance,up to 190 Hadoop configuration parameters must be manually tunned.This is not only time-consuming but also error-pron.In this paper,we propose a new performance model based on random forest,a recently developed machine-learning algorithm.The model,called RFMS,is used to predict the performance of a Hadoop system according to the system’s configuration parameters.RFMS is created from 2000 distinct fine-grained performance observations with different Hadoop configurations.We test RFMS against the measured performance of representative workloads from the Hadoop Micro-benchmark suite.The results show that the prediction accuracy of RFMS achieves 95% on average and up to 99%.This new,highly accurate prediction model can be used to automatically optimize the performance of Hadoop systems. 相似文献