首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
Hadoop是一种处理和存储大数据的平台,针对异构Hadoop集群下采用均等数据分配方法易降低系统计算性能的问题,提出一种自适应平衡数据存储的大数据放置策略。根据异构集群中各节点的计算能力比例,将数据分配到节点中。在任务处理过程中,根据反馈的任务完成时间信息,动态更新节点的能力比例,自适应调整数据分配,从而使异构Hadoop集群中各节点处理数据的时间大致相同,降低节点之间的数据移动量,提高了节点利用率。实验结果表明,该策略能够有效缩减任务完成时间,提高了系统的整体性能。  相似文献   

2.
《现代电子技术》2018,(5):56-60
为了提高传统数据聚类算法在大数据挖掘应用中的性能,借助云计算的相关技术,并结合非负矩阵分解方法设计并实现了一种并行的数据层次聚类算法。该算法采用Map Reduce编程平台,利用Hadoop的HDFS存储大容量的电信运营商数据;描述了Map Reduce的数据分级聚类并行处理的工作机制与流程;通过Map和Reduce这种主-从编程模式很方便地使数据分级聚类的子任务在Hadoop的PC集群上运行。实验结果表明,该方法比传统用于数据聚类的非负矩阵方法具有更好的运行时间与加速比,能够在可以接受的时间范围内完成电信运营商的大数据处理。  相似文献   

3.
针对当前大数据环境下朴素贝叶斯文本分类算法在处理文本分类任务时存在的数据稀疏以及效率低的问题,提出了一种基于Hadoop的Dirichlet朴素贝叶斯文本分类算法。该算法引入统计语言建模技术中的Dirichlet数据平滑方法,采用Map Reduce编程模型,在Hadoop云计算平台上实现了算法的并行化。通过实验对比分析了该算法与传统朴素贝叶斯文本分类算法对大规模文本数据的分类效果。结果表明,该算法显著提高了传统朴素贝叶斯文本分类算法的准确率、召回率,且具有高效性和易扩展性。  相似文献   

4.
基于Hadoop架构,提出一种并行的决策树挖掘算法实现大数据集间的知识挖掘。通过MapReduce并行编程模式实现Hadoop架构下SPRINT并行挖掘算法的频繁项集,解决了大数据集挖掘效率低下,时间消耗量大的问题。SPRINT算法通过对原始数据集进行划分,并将分块数据发给不同Map进程并行计算,使系统存储和计算资源得到有效利用,运用MapReduce各计算节点将挖掘结果数据汇聚,减少中间结果数据量,使并行挖掘时间显著减少。SPRINT算法并行化实验表明,Hadoop架构下的SPRINT并行挖掘算法具有良好的可扩展性和集群加速比。  相似文献   

5.
随着信息技术的猛烈发展,各行各业产生的数据呈指数型增长。如何利用,分析,整合这些"大数据"成为信息时代的一大挑战。文章针对信息时代下,大规模数据处理分析效率等一系列相关问题,利用Hadoop技术,设计并实现了一套基于Hadoop和MapReduce的大数据处理系统,该系统利用Hadoop分布式文件系统(HDFS)存储数据,利用Hadoop Map Reduce框架分布式处理数据分析任务。实验结果表明:该系统可以将单一数据处理任务分配到一个Hadoop集群上去,继而提高大数据文件处理效率。  相似文献   

6.
Hadoop应用研究主要包括云存储,数据查询,数据分析,数据挖掘,关联广告等,不同的Hadoop应用对机器的资源要求不同,主要分为CPU、内存、I/O、网络密集型任务。传统的Hadoop集群在物理机上任务会比较密集,各种应用只能排队依次处理,机器的CPU、IO和存储会非常繁忙,负载不均衡。虚拟化Hadoop可以帮助用户在基础设施上实现灵活、弹性、安全和快捷的大数据资源调度。本文提出一种动态规划算法动态调度资源,在虚拟化后的Hadoop集群可以把不同的资源要求的应用单独分开放在不同的物理机上并行高效地处理,从而大大提高Hadoop集群的性能。  相似文献   

7.
随着电子商务不断发展,邮政快递行业数据日益增多,传统方式对于邮政数据存储的理论与方法都已无法满足需求。基于此情况,使用一致性哈希算法来解决存储系统的横向弹性扩展,结合一致性哈希的虚拟节点与加权轮询算法优化Hadoop平台下分布式文件系统(HDFS)存储策略,实现集群在同构与异构条件下的数据均衡效果。同时介绍集群节点数据转移思想,设计负载因子与系统自检周期,实现了集群动态权重的负载转移,并进行实验验证。实验结果表明,文章提出的改进算法与HDFS、普通一致性哈希相比,在不同条件下集群负载差值均有不同程度的提升,证明了该策略可以有效降低集群节点间负载差值。  相似文献   

8.
文中在频繁项目集挖掘研究的基础上,针对Hadoop分布式计算框架,提出了一种基于子集的Apriori并行改进算法Sub Apr。该算法扫描数据库两次,将分块数据分配给不同的Hadoop计算节点进行处理,利用Apriori特性并结合MapReduce框架自身特点进行剪枝。该算法与同类算法比较,可以减少各个计算节点的存储数据,达到减少候选项集输出,有效减少了大数据集挖掘过程中产生的大量数据通信,从而提高并行挖掘的效率。实验结果表明,该算法是有效且可行的。  相似文献   

9.
《现代电子技术》2019,(1):180-182
为了提高图书推荐服务的准确度,提出一种基于Hadoop平台的Apriori优化算法。首先在分布式Hadoop框架的基础上,采用DAG图对Hadoop平台下的并行Map Reduce实施步骤进行分析;然后对传统关联规则Apriori算法进行Map Reduce优化,减少数据库连接的次数,同时尽量生成更少的无用候选项目集,从而缩短任务处理时间。实验结果显示,相比传统LDA推荐算法,所提出的算法具有较高的准确度,能够为借阅者推荐最适合的书籍。  相似文献   

10.
Map Reduce是一种处理大规模数据的并行计算模型,针对传统模型中reduce阶段各结点负载不均衡的问题,提出reduce阶段负载均衡分区算法。算法将map阶段产生的中间数据划分为更多的分区,减少了每个分区的工作量,引入了反馈机制来进一步提高调度策略的性能,每次给reducetask分配都是基于反馈信息选择最优的分区,reducetask完成工作之后会继续获得新的分区,直到所有的分区都被分配完毕,实现了动态调节各reducetask的负载。通过重写Hadoop平台内核实现了算法并进行了实验分析,结果表明,该算法在不影响Map Reduce模型的情况下显著地缩短了任务的处理时间。  相似文献   

11.
水文数据是研究水问题重要的基础信息,是我国重要的基础性科学数据资源之一。研究云计算现有的特点,结合水文数据规模庞大、分布地域广泛等特点,分析开源性云平台Ha-doop中分布式文件系统HDFS、计算模型Map/Reduce、数据仓库Hive技术,设计基于Hadoop的水文云平台,并解决平台实现过程中服务器虚拟化、大规模异构水文数据存储以及元数据管理等关键性问题。最终使得平台具有安全可靠、易维护和良好的可扩展性的特点。  相似文献   

12.
在对Hadoop的大数据的研究挖掘和处理的基础上,设计了基于Hadoop的大量数据的处理方案,并运用HDFS分布式文件系统来有效保存其相关数据,同时还对索引文件的快速查找和定位进行了设计。通过使用Map/Reduce对数据进行高效的并行处理,快速地返回统计结果。  相似文献   

13.
据IDC统计,2011年全球处理的数据量达到1.8 ZB,预计到2020年达到40 ZB.如何对海量数据进行高效分析和有效管理已成为大数据时代亟需解决的问题之一.商业数据、科学数据和网页数据这3类海量数据的异构性(充满着非结构化、半结构化和结构化数据)进一步增加了海量数据的处理难度.海量数据排序是海量数据处理的基本内容之一.Hadoop曾利用3 658个节点的集群在16.25小时内完成1PB数据的排序,获得Daytona类GraySort和MinuteSort级别的冠军.本文在设计层面上对Hadoop平台上海量数据排序策略进行分析.  相似文献   

14.
陈华  宋建新 《电视技术》2012,36(3):55-57
对节点上行带宽异构环境下的P2P流媒体系统数据块调度算法进行了研究,具体包括系统模型及相关标识,基于带宽感知的数据块调度算法研究和性能评价。通过研究发现,在设计数据块调度算法时充分利用带宽异构性,优先选择高上行带宽的节点,能有效地降低平均块延时。  相似文献   

15.
无线传感器网络基于多元簇首的分簇数据收集算法   总被引:1,自引:0,他引:1  
为了提高数据收集可靠性和延长网络生命周期,该文提出基于多元簇首的分簇数据收集算法。算法将网络划分为大小相等的栅格,由每个栅格中的节点各自构成一个簇,根据节点失效概率从每个栅格中选出多个簇首,并由同一栅格中的多个簇首协作完成栅格中节点的数据收集任务。此外,算法还采取了一些降低能量开销的措施。仿真实验结果表明,与现有相关算法相比,该算法具有较高的数据收集可靠性,并能够显著延长网络生命周期。  相似文献   

16.
现有异构图嵌入方法在多层图卷积计算中,通常将每个节点表示为单个向量,使得高阶图卷积层无法区分不同关系和顺序的信息,导致信息在传递过程中丢失。为解决该问题,提出了基于元路径卷积的异构图神经网络算法。该方法首先利用特征转换自适应调整节点特征;其次,设计了元路径内卷积挖掘节点高阶间接关系,捕获目标节点在单元路径下与其他类型节点之间的交互关系;最后,通过自注意力机制探索语义之间的相互性,融合来自不同元路径的特征。在ACM、IMDB和DBLP数据集上进行广泛实验,并与当前主流算法进行对比分析。实验结果显示,节点分类任务中Macro-F1平均提高0.5%~3.5%,节点聚类任务中ARI值提高了1%~3%,证明该算法是有效、可行的。  相似文献   

17.
随着海量的数据急速增长,处理数据的效率成为企业的生命.为探讨研究大数据对通信业的影响,中国联通广西分公司数据室在现有的业务数据上,通过Hadoop对原来的3A及DNS业务数据使用Map Reduce数据处理模型,对3A及DNS的日志数据进行处理分析,并探讨其在运营商方面的应用.  相似文献   

18.
随着异构多核处理器的性能不断增强,具有关联关系任务的调度问题和调度算法成为研究者们关注的焦点。针对异构多核平台上的有向无环图(Directed Acyclic Graph, DAG)任务模型进行了调度分析。由于异构环境中计算资源类型丰富数量多,实际调度过程中处在不同核上的任务之间的通信开销是存在的。而当前大多数调度算法要么忽略不同核上的任务之间的通信开销,要么优先级判定和选择处理器核执行时不能全面考虑核间任务的通信开销,造成资源浪费,增加了系统调度任务的整体长度。因此,针对具有通信开销的DAG任务模型,讨论了任务间的通信开销对任务调度算法的影响,提出了复合节点生成算法(Composite Node Generation Algorithm, CNGA)任务调度算法。该算法根据任务间通信开销大小进行预处理分配生成复合节点,重构DAG图将任务节点的上行秩和通信占比作为参数决定任务节点的优先级。实验结果与HEFT和CPOP算法比较,在任务通信开销和任务执行开销之比(Communication to Computation Ratio, CCR)一定的情况下响应时间比原有的HEFT和CPOP提...  相似文献   

19.
在云计算环境下海量数据调度的过程中,数据节点的利用存在较强的随机性.传统调度方法容易造成数据节点冲突,从而导致调度效率降低.提出基于数据节点冲突避免的云计算环境下海量数据高效调度方法.将整个调度任务划分成多个子任务,计算每个子任务任务量,根据目标数据在数据节点的传输情况,对数据节点的任务量进行计算,根据计算结果,建立优化的云计算环境下海量数据调度模型.实验结果表明,利用改进算法进行云计算环境下海量数据调度,能够有效提高调度的效率,避免了数据发生冲突的情况.  相似文献   

20.
互联网的发展使得计算密集型的任务正在逐渐走向分布式和云计算。文中对Hadoop项目中的MapReduce和HDFS进行了研究,采用HDFS作为底层分布式文件系统,MapReduce作为编程框架来实现哈希算法。通过对多个节点中的测试结果的分析表明,在Hadoop上运行哈希函数的任务,能够起到在多台计算机的群集中分摊负载的效果,并且有效地减少了任务的总时间开销。以Hadoop为基础的云计算平台具有良好的可靠性和可扩展性,对于哈希算法在Hadoop平台上的实现和测试,为将来密钥恢复等系统的研究和搭建提供了良好的基础。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号