首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 361 毫秒
1.
Hadoop作为目前大数据处理最流行的平台,其核心包括HDFS和MapReduce,分别用于实现海量数据的存储与处理.随着应用领域的不断扩展,MapReduce和HDFS面临很多亟需优化的问题.本文介绍了当前各位学者对MapReduce和HDFS的优化情况,并提出今后的研究方向.  相似文献   

2.
本文在开源云计算平台Hadoop的基础上利用MapReduce和HDFS,针对大型矩阵相乘,并结合个人实际水平进行简单的开发应用。通过开发和研究,进一步探讨云计算关键技术MapReduce对于海量数据处理的意义。  相似文献   

3.
面向Hadoop的云计算核心技术分析   总被引:2,自引:2,他引:0  
在企业以海量数据处理能力为核心竞争力之一的时代,云计算技术的出现为此提供了良好的解决方案。首先,研究分析了云计算技术的开源实现Hadoop的核心内容:分布式系统文件HDFS和MapReduce算法模型;然后,通过实例阐述了面向Hadoop的分布式云计算平台的构建,证实了Hadoop是一个更容易开发和并行处理大规模数据的分布式云计算平台;最后,对如何实现Hadoop的高可用性和高效性进行了展望。  相似文献   

4.
为了解决Hadoop分布式文件系统(HDFS)平台上小文件的存在带来MapReduce程序运行能耗成本偏高问题,建立Hadoop节点集群的能耗模型进行分析推导,证明了在Hadoop平台上,存在能使程序运行能耗成本最低的最优文件大小,并在此基础上结合经济学边际分析理论提出一种基于能耗成本和访问成本考虑的最优文件大小判定策略. 此策略可以对存放在HDFS上的小文件合并进行效益计算,将小文件合并为成本最优文件大小以获得最佳收益. 通过实验证明了能效最优数据块大小的存在,并通过实验证明了成本和效益相结合利用边际分析理论来确定数据块大小的合理性和有效性.  相似文献   

5.
逻辑回归中的批量梯度下降算法需要访问全部数据样本,在单节点环境下计算耗时较长。针对大批量数据集的训练问题,提出了一种基于MapReduce框架的并行化算法。首先利用HDFS文件系统存储训练数据集,MapReduce框架会对输入数据集进行分片处理,每一个分片交由一个Map节点进行处理;Map过程的输出结果会传给Combiner节点,进行各个分片内部的数据归并;所有分片的归并结果会通过Shuffle过程,进行各个分片间的数据合并,汇总成一个输出文件;输出文件会传给Reduce节点进行运算,最后将计算结果用于参数更新。实验结果表明,集群环境下的参数训练结果正确,随着数据集的扩大,并行化计算的优势逐渐显现。  相似文献   

6.
在交通行业日益发展的今天,车牌识别技术对于公路车辆监管以及车辆轨迹跟踪越来越重要,考虑到庞大的车辆信息数据量,单机处理数据能力已不能满足实时性的要求。本文在详细研究分布式处理平台Hadoop的工作原理后,利用其强大的HDFS存储系统与MapReduce数据处理方案,通过Java对Matlab的调用,简化了识别程序,搭建了分布式处理平台,即使在数据量庞大的情况下也能够进行车牌识别分布式计算。实验结果表明,在处理2 000张以上的车牌图像时,运行效率提升了2倍左右。  相似文献   

7.
对现有HDFS的设计架构进行分析,并借与LinuxFS架构的对比凸显HDFS的分布式特性。通过分析得出:现有的HDFS架构使用Java的Map界面,不利于任务的分解和并行处理,因此HDFS仅在数据的存储上实现分布式,数据处理依然是集中式的,这就形成了对NameNode的依赖,随着集群的扩大,NameNode的性能成为系统瓶颈,并提出了解决方向。  相似文献   

8.
针对HDFS集群环境中Kerberos协议身份认证机制所面临的时间同步问题、KDC安全问题、字典攻击问题以及抵赖机制问题,提出了一种基于公钥加密体系改进HDFS环境下Kerberos协议的身份认证机制.首先,分析现存HDFS体系下的身份认证过程,并提出认证过程所面临的安全问题;其次,结合公钥加密机制与数据签名机制对HDFS下的Kerberos协议进行了针对性的修正,并给出了改进后Kerberos协议在HDFS环境下详细的身份认证工作流程;最后,根据公钥加密特点以及HDFS集群特性,充分分析论证了改进Kerberos在HDFS环境下的可行性.实验表明,在公钥级安全保证下,改进后的Kerberos协议与现有的身份认证机制相比在认证请求达到120次以上后时间性能优势明显,为HDFS集群提供了更可靠、更高效的身份认证解决方案.  相似文献   

9.
详细阐述了云存储技术概念和优势,重点介绍了HDFS体系结构及其工作原理,将HDFS与云存储体系相结合,构建了基于HDFS的高校教育资源云存储平台。实验结果表明,该云存储平台能够实现教育资源的海量存储和数据共享,进一步提高高校教育资源的利用率。  相似文献   

10.
随着数字图像规模的不断增加,图像纹理特征提取已成为制约数字图像处理性能的一个关键步骤.Hadoop是一个性能卓越的开源大数据处理云平台,其向用户提供了MapReduce,HDFS等模块.首先对Hadoop平台、编程框架和Tamura纹理特征进行了介绍,然后将图像纹理特征提取过程在Hadoop平台上进行了实现.在这个过程中,每个Map任务对应一个图像文件,各节点可以同时提取集合内图像的纹理特征.实验表明:在图像数量较少和分辨率较低的情况,Hadoop不同节点数量所用时间并无太大差异.在图像分辨率较高且数量较多的情况下,Hadoop平台表现出较高的计算效率.  相似文献   

11.
云存储在校园信息化中的应用与优化   总被引:3,自引:0,他引:3  
针对目前校园海量数据存储面临的服务器资源利用率低、管理维护成本高等问题,在云存储技术的基础上提出了校园云存储服务的设计,并进行了实验.为减少读写速率的损失,系统通过调用HDFS(Hadoop distributed file system)的API接口方式实现数据存储及对集群的状态监控和管理.实验表明:传输文件的大小和集群中数据节点的个数对云存储服务的数据读写速率的影响较大;HDFS并行传输大量小文件的速率相对较低.  相似文献   

12.
SQL-DFS:一种基于HDFS的海量小文件存储系统   总被引:1,自引:0,他引:1  
针对Hadoop分布式文件系统( Hadoop distributed file system,HDFS)进行小文件存储时NameNode内存占用率高的问题,通过分析HDFS基础架构,提出了基于元数据存储集群的SQL-DFS文件系统. 通过在NameNode中加入小文件处理模块实现了小文件元数据由NameNode内存到元数据存储集群的迁移,借助关系数据库集群实现了小文件元数据的快速读写,并对小文件读取过程进行优化,减少了文件客户端对NameNode的请求次数;通过将部分DataNode文件块的校验工作交由元数据存储集群完成,进一步降低了NameNode节点的负载压力. 最终通过搭建HDFS和SQL-DFS实验平台,对HDFS和SQL-DFS 2种架构进行了小文件读写的对比测试,实验结果表明:SQL-DFS在文件平均耗时( file average cost,FAC)和内存占用率方面均明显优于原HDFS架构,具有更好的小文件存储能力,可用于海量小文件的存储.  相似文献   

13.
针对互联网企业的实际和用户需求,构建一种基于Mahout的个性化推荐系统架构。通过分析网站的数据特点,将数据分为静态数据和动态数据。当数据量不大时,根据数据特点选用Mahout单机内存推荐算法进行计算;当数据量很大时搭建分布式集群,将业务系统的静态数据定时地增量导入到Hadoop的HDFS中,然后用Mahout分布式推荐算法访问HDFS。计算后的结果,保存到业务系统的数据库中,与动态数据合并作为在线响应的输出。实验证明该方案可以绕过海量数据的高并发在线分析的问题,有效地缓解系统响应时间的压力。  相似文献   

14.
随着视频点播技术的不断发展,视频数据呈现出爆炸式增长,对文件存储及其扩容性方面提出了苛刻的要求。该文首先简单地描述了数据存储服务集群及该集群主要采用分布式平台Ha-doop,使用ZFS动态文件系统作为后端存储文件系统。接着简单介绍了ZFS的特性,其次着重介绍ZFS在HDFS上的集成设计,最后通过相应的实现和ZFS性能比较测试,证明ZFS文件系统在视频文件存储中具有很好的应用价值。  相似文献   

15.
针对基于HDFS的云存储平台对元数据绝对全权管理控制问题,提出元数据自主组织模型ASOM,通过分析DataNode与NameNode之间的交互过程,ASOM设计并实现了元数据子服务,通过提取HDFS中DataNode元数据信息直接跟元数据子服务器交互,并且由元数据子服务器处理文件与块、块与DataNode 之间的映射关系。通过对HDFS源代码进行分析编译和模块替换,搭建原型系统进行测试,测试结果表明:对NameNode中的元数据进行必要的安全隔离保证了用户对元数据的控制与管理,可有效避免平台管理员对元数据可能的恶意操作和安全隐患。  相似文献   

16.
随着数据爆炸性增长,传统的存储方式已经不再满足海量数据的存储需求,云存储技术的飞速发展,使得云存储成为了一种新型的数据存储解决方案。文章在分析Hadoop分布式文件系统HDFS的基础上,提出了一种新的基于云计算环境的海量大数据存储设计方法,主要给出了文件存储方案设计以及副本方案设计等,为云计算海量数据存储与管理提供了一种可行的关键技术方案。  相似文献   

17.
根据教育领域中资源访问的聚集性等特征,以教育资源云存储系统架构为基础,设计了副本热度表征副本访问聚集性程度,实现了基于时空特征的副本相关数值计算;同时运用服务集概念和Hadoop分布式文件系统(HDFS)的存储机制提出了三方面的副本管理策略;最后在已开发的教育云存储系统ERS-cloud上进行了一系列实验,结果表明该策略能有效提升教育云存储系统应用效率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号