共查询到20条相似文献,搜索用时 0 毫秒
1.
Hadoop应用研究主要包括云存储,数据查询,数据分析,数据挖掘,关联广告等,不同的Hadoop应用对机器的资源要求不同,主要分为CPU、内存、I/O、网络密集型任务。传统的Hadoop集群在物理机上任务会比较密集,各种应用只能排队依次处理,机器的CPU、IO和存储会非常繁忙,负载不均衡。虚拟化Hadoop可以帮助用户在基础设施上实现灵活、弹性、安全和快捷的大数据资源调度。本文提出一种动态规划算法动态调度资源,在虚拟化后的Hadoop集群可以把不同的资源要求的应用单独分开放在不同的物理机上并行高效地处理,从而大大提高Hadoop集群的性能。 相似文献
2.
针对Hadoop Yarn资源调度问题,为提高集群作业执行效率,提出一种基于蚁群算法与粒子群算法的自适应Hadoop资源调度算法SRSAPH.SRSAPH中,通过Hadoop Yarn跳通信机制获取负载、内存、CPU速度等属性信息初始化信息素矩阵;同时,将粒子群算法的自我认知能力与社会认知能力引入到蚁群算法,提高算法的收敛速度;此外,根据蚁群算法全局最优解的波动趋势动态调整信息素挥发系数,提高解的精度.实验表明,采用SRSAPH进行资源调度,集群的作业执行时间缩短至少10%. 相似文献
3.
针对当前云计算技术的广泛使用,提出对Hadoop集群作业调度算法进行研究的构想。在对Hadoop新版本中提出的Hadoop Map Reduce V2(Yarn)框架进行深入研究的基础上,设计一个详细完整的对比实验,针对各种作业调度算法的优势与不足进行全面的测试。通过使用不同的作业调度算法运行相同的作业,进行细致横向的对比,并得到各种作业调度算法之间以及计算框架之间在计算能力、运行时间、资源占用等方面的优劣。实验结果表明,公平调度算法和计算能力调度算法相较于传统的FIFO算法具有更灵活、更高效的特点。 相似文献
4.
传统的减法聚类算法时间复杂度高,算法不具有分布式特性,不满足大数据处理的要求.提出一种基于Hadoop的改进减法聚类算法,利用MapReduce模型改进减法聚类执行过程,实现求解邻域半径、初始化密度指标、更新密度指标和划分数据记录等过程的并行化.实验结果表明,同传统的串行算法相比,提出的算法能够对大数据进行快速聚类,同时表现出良好的稳定性与扩展性. 相似文献
5.
6.
互联网的发展使得计算密集型的任务正在逐渐走向分布式和云计算。文中对Hadoop项目中的MapReduce和HDFS进行了研究,采用HDFS作为底层分布式文件系统,MapReduce作为编程框架来实现哈希算法。通过对多个节点中的测试结果的分析表明,在Hadoop上运行哈希函数的任务,能够起到在多台计算机的群集中分摊负载的效果,并且有效地减少了任务的总时间开销。以Hadoop为基础的云计算平台具有良好的可靠性和可扩展性,对于哈希算法在Hadoop平台上的实现和测试,为将来密钥恢复等系统的研究和搭建提供了良好的基础。 相似文献
7.
基于Hadoop平台下的Canopy-Kmeans高效算法 总被引:3,自引:0,他引:3
介绍了Hadoop平台下MapReduce的编程模型;分析了传统聚类Kmeans和Canopy算法的优缺点,并提出了基于Canopy的改进Kmeans算法。针对Canopy-Kmeans算法中Canopy选取的随机性问题,采用“最小最大原则”对该算法进行改进,避免了Cannopy选取的盲目性。采用MapReduce并行编程方法,以海量新闻信息聚类作为应用背景。实验结果表明,此方法相对于传统Kmeans和Canopy算法有着更高的准确率和稳定性。 相似文献
8.
在相控阵雷达完成精密跟踪和目标识别等不同任务时,波形、数据率和积累时间等雷达资源需要自适应改变,基于固定长度调度间隔的自适应调度算法较为复杂且不能充分利用雷达资源。提出了一种基于变长度调度间隔的自适应资源调度算法,根据任务请求的重要性函数安排待执行的雷达事件顺序,并根据雷达资源的动态变化情况,自适应地调整调度间隔的时间长度。利用VC语言建模弹道导弹目标和多功能地基相控阵雷达,进行分布式仿真,通过直观观测资源调度的执行过程,以及通过目标跟踪数量和时间利用率两个指标,评价了资源调度算法性能。改进算法的软件实现较为容易,可以增加目标跟踪数量,节约时间资源。 相似文献
9.
针对网络舆情数据存在数据量大、分散度高、数据非结构化等特点,而常用的文本分类算法难以实现对网络舆情快速、准确分类的问题,因此提出一种基于Hadoop平台的并行kNN网络舆情分类算法,利用Hadoop分布式存储特性和设计并行kNN的MapReduce程序来解决处理大批量数据时存在的问题.对并行kNN算法进行分类能力和分类效率进行测试验证,实验结果表明,基于Hadoop平台的并行kNN网络舆情分类算法在处理大批量网络舆情数据时,能够快速、高效和准确对网络舆情数据进行分类. 相似文献
10.
马媛 《信息安全与通信保密》2012,(6):89-92
Hadoop作为一种开源的基础云计算框架,在企业界逐步得到了有效的应用,但其安全机制的薄弱已成为阻碍其发展的主要问题之一。文中首先归纳了传统网络的安全问题以及安全机制,分析了云计算的安全问题,然后通过对Hadoop工作模式的描述,提出了Hadoop的安全需求,最后通过对Hadoop当前安全机制的研究,分析了其中的安全隐患,并提出了相应的解决办法,为Hadoop新安全需求的企业应用提供了技术支持。 相似文献
11.
马晓慧 《智能计算机与应用》2016,(3):100-102
针对K-medoids算法中初始聚类中心的结点的选取的随机性导致影响聚类结果质量的问题,采用标签共现原则对该算法进行改进.根据标签共现频率和相似度先对标签进行聚类,根据标签聚类结果,选取K个由其代表的资源作为聚类初始中心结点.通过聚类中心的优化设置,降低了抽样选取的随机性.最后采用MapReduce框架对其进行并行化,以豆瓣图书的标签数据为应用背景进行实验,验证了算法的实用性. 相似文献
12.
Hadoop是一个免费、可靠、高效、可扩展的开源云平台,允许在分布式集群上处理大数据的软件框架。本文以Hadoop为基础,详细介绍了虚拟机VMware、JDK、CentOS、Hadoop等技术。在伪分布式环境下搭建虚拟云平台,经过测试,本系统能正常运行MapReduce化的分布式程序,本文还针对用户权限、路径配置和使用SSH服务程序等问题进行了详细的阐述,为基于Hadoop的云平台研究和应用程序开发提供了基础。 相似文献
13.
针对LTE系统中用户无线承载QoS要求的不同,提出了一种考虑用户QoS的下行链路资源动态调度改进算法.改进算法在比例公平算法的基础上引入承载的QoS权重值,通过计算出的承载调度值的大小来决定调度承载的顺序.仿真结果表明,改进调度算法可以有效地满足承载的QoS要求,同时保证了用户间的公平性和系统的吞吐量. 相似文献
14.
15.
越来越多的MapReduce计算由运行在云中虚拟机组成的虚拟集群完成,为增强虚拟MapReduce集群计算中任务的数据本地性,充分利用云计算的资源可动态配置的优势,提出了一种基于队列的动态资源调度算法,并模拟了云计算平台进行测试,实验结果表明动态资源调度算法提高了虚拟MapReduce集群的计算性能. 相似文献
16.
《电子技术与软件工程》2017,(12)
针对挖掘图书借阅记录中蕴含价值的问题,以图书分类号作为图书特征,给出了结合Apriori的频繁项集挖掘算法。针对海量图书借阅记录难以处理的问题,将频繁项集挖掘算法融入Hadoop大数据平台,设计了基于Hadoop的频繁项集挖掘算法,有效解决了数据存储和并行处理的问题。实验结果表明,部分图书之间的关联程度高。 相似文献
17.
Hadoop是一个分布式系统基础架构,已经广泛应用在云计算领域,Hadoop的框架最核心的设计是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。 相似文献
18.
19.
基于朴素贝叶斯的分类器是气象数据挖掘中比较传统的方法,但由于算法要求各属性相互独立,预测精度无法达到要求,且在处理海量数据时算法计算效率受到制约,对此提出一种Hadoop平台下基于离散贝叶斯网络的数据挖掘改进算法。算法不要求属性之间相互独立,且充分结合Hadoop平台适应处理大数据的优点,利用海量数据分析地面气象因素与温度之间的相关性,并由此选取预测因子来训练贝叶斯网络分类器模型,以达到预测温度的目的。实验结果表明,算法不但预测精度明显高于目前短期气候预测中采用的朴素贝叶斯算法,而且极大地提高了运算效率。 相似文献