排序方式: 共有952条查询结果,搜索用时 15 毫秒
21.
MapReduce是一个能够对大规模数据进行分布式处理的框架,目前被各个领域广泛应用。在提供MapReduce服务的集群中,如何保证不同优先级用户的截止时间限定是MapReduce作业调度问题的一个挑战。针对这一问题,提出了一个基于排队网络的多优先级作业调度算法(MPSA)。首先分析和归纳了基于MapReduce模型的算法,提出了三种常见模式,采用Jackson排队网络对基于MapReduce模型的算法建立了数学模型,应用该网络模型可以求出不同优先级队列对资源的需求;随后使用AR(1)模型进行预测,使算法可以动态地适应不同的用户访问量;利用二分查找算法,分步计算出不同优先级在map阶段和reduce阶段分配的槽位数;最后实现了在MapReduce模型中应用的实时调度算法。实验结果表明,与传统的FIFO和公平调度算法相比,本文提出的算法在用户到达率和任务规模变化的情况下,可以更加有效地满足不同优先级用户的截止时间限定。 相似文献
22.
蔡静 《计算机光盘软件与应用》2014,(5):146-147
本文论述了Hadoop的起源与发展,Hadoop是一个在集群上运行大型数据库处理应用程序的开放式源代码框架。它主要包括HDFS和MapReduce两大套件,支持通过编程范例来创建并执行的应用程序,在很多大型网站上都已经得到了应用,可以说是目前最为广泛应用的开源云计算软件平台。但其发展时间较短,研究还不够深入,还有较多值得改进的地方。 相似文献
23.
贾丽娜 《电脑编程技巧与维护》2021,(1):106-107,127
研究介绍了基于大数据处理平台的MapReduce编程模型,并分别从单个计算机任务执行中资源配置问题及多个计算机任务执行相关资源配置优化问题进行全面分析,并通过实例分析了资源配置对MapReduce计算任务执行情况的影响,实践证明,其能够提升MapReduce计算任务性能. 相似文献
24.
针对社交网络文档(推文)情感分类复杂且准确度低的问题,基于M apReduce平台,提出一种利用自注意力双向分层语义模型的大规模网络文档情感分析方法.通过相似度计算对所有待分析的推文进行预归类,利用自注意力双向分层语义模型进行语义分类,准确分辨推文中词汇的情感类别,利用Hadoop框架和Hadoop分布式文件系统(HDFS)以及M apReduce编程模型实现提出的推文情感分类方法.实验结果表明,提出方法能够准确对大规模推文和词汇语义进行辨识,具有较高的计算效率,提高了情感分析的求解速度和准确度. 相似文献
25.
目前如何对互联网上的海量数据进行文本分类已经成为一个重要的研究方向,随着云计算技术和Hadoop平台的逐步发展,文本分类的并行化方式将能够更有效的解决当前的问题.论文针对文本分类中特征选择阶段对文本分类性能有很大影响的缺点,提出了一种改进的特征选择算法——类别相关度算法(Class Correlation Algorithm,CCA),同时根据Hadoop平台在海量数据存储和处理方面所具有的优点,利用MapReduce的并行编程框架和HDFS分布式存储系统对文本分类的各个阶段实现了并行化编程.最后通过实验将Hadoop平台下的文本分类的优化算法与传统的单机运行环境下的文本分类算法进行了对比分析,实验结果表明对于相同的数据集,该算法在运算时间上有极大的提高. 相似文献
26.
《信息工程大学学报》2016,17(1)
Hadoop平台中的MapReduce并行分布式编程模型通过将廉价节点组合成集群提供存储和计算服务,可以降低集群成本。Hadoop可以通过配置使Reduce任务在Map任务完成固定百分比时启动,但是过早地启动Reduce任务会造成Reduce资源长期处于等待状态。提出一种Reduce动态调度的DRS算法,通过作业中Map任务数量和大小计算Reduce启动时间,并在作业运行中根据Map任务的调度情况修正启动时间,以节约Reduce资源的使用效率。实验表明,DRS算法与固定百分比参数的方法相比,shuffle阶段时间缩短了7.3%。与系统默认参数相比shuffle阶段时间缩短了43.6%。 相似文献
27.
《青岛科技大学学报(自然科学版)》2016,(5):584-590
MapReduce是处理大规模数据集的常用技术,但不能满足大规模数据集中流数据实时计算的要求。对此提出一种面向大规模流数据的可扩展、分布式实时处理方法。该方法在Map阶段,建立基于内存Hash B+树的缓存结构对中间结果处理机制进行优化,以降低对中间结果的频繁读写造成的I/O消耗,同时消除对中间结果的排序,以降低对CPU的消耗;在Reduce阶段,设计基于动态增量Hash技术的快速内存处理方法,并消除对中间结果的多遍扫描合并,对流数据进行增量处理、单遍分析,以提高对流数据的实时分析能力。实验结果表明:上述方法可以对大规模流数据进行实时性处理,并且具有较好的可扩展性。 相似文献
28.
潘燕燕 《重庆科技学院学报(自然科学版)》2015,17(3):88-91
传统的关联规则算法要对数据库进行多次扫描,效率低下。使用MapReduce模型对Apriori算法进行改进,这种改进后的算法只需对数据库进行2次扫描,从实验结果可以看出挖掘效率得到明显提高。 相似文献
29.
为了使经济周期仿真能够处理本地数据和集群、网络中的数据,减轻系统负载并提高仿真效率,运用Hadoop并行处理技术,实现了对多个市场数据的同时模拟,增强了经济周期模拟仿真系统处理大量数据的能力,缩短了仿真模拟的时间,有利于扩大仿真模拟的广度和深度。 相似文献
30.
YARM:基于MapReduce的高效可扩展的语义推理引擎 总被引:1,自引:0,他引:1
随着语义网的快速发展,RDF语义数据大量涌现.大规模RDF语义数据推理的一个主要问题是计算量大、完成计算需要消耗很长的时间.显然,传统的单机语义推理引擎难以处理大规模的语义数据.另一方面,现有的基于MapReduce的大规模语义推理引擎,缺乏对算法在分布和并行计算环境下执行效率的优化,使得推理时间仍然较长.此外,现有的推理引擎大多存在可扩展性方面的不足,难以适应大规模语义数据的增长需求.针对现有的语义推理系统在执行效率和可扩展性方面的不足,文中提出了一种基于MapReduce的并行化语义推理算法和引擎YARM.为了实现分布和并行计算环境下的高效推理,YARM做出了以下4点优化:(1)采用合理的数据划分模型和并行化算法,降低计算节点间的通信开销;(2)优化推理规则的执行次序,提升了推理计算速度;(3)设计了简洁的去重策略,避免新增作业处理重复数据;(4)设计实现了一种新的基于MapReduce的并行化推理算法.实验结果表明,在真实数据集和大规模合成数据集上,YARM的执行速度比当前最新的基于MapReduce的推理引擎快10倍左右,同时YARM还表现出更好的数据和系统可扩展性. 相似文献