共查询到20条相似文献,搜索用时 31 毫秒
1.
2.
3.
针对当前大数据环境下朴素贝叶斯文本分类算法在处理文本分类任务时存在的数据稀疏以及效率低的问题,提出了一种基于Hadoop的Dirichlet朴素贝叶斯文本分类算法。该算法引入统计语言建模技术中的Dirichlet数据平滑方法,采用Map Reduce编程模型,在Hadoop云计算平台上实现了算法的并行化。通过实验对比分析了该算法与传统朴素贝叶斯文本分类算法对大规模文本数据的分类效果。结果表明,该算法显著提高了传统朴素贝叶斯文本分类算法的准确率、召回率,且具有高效性和易扩展性。 相似文献
4.
5.
随着信息技术的猛烈发展,各行各业产生的数据呈指数型增长。如何利用,分析,整合这些"大数据"成为信息时代的一大挑战。文章针对信息时代下,大规模数据处理分析效率等一系列相关问题,利用Hadoop技术,设计并实现了一套基于Hadoop和MapReduce的大数据处理系统,该系统利用Hadoop分布式文件系统(HDFS)存储数据,利用Hadoop Map Reduce框架分布式处理数据分析任务。实验结果表明:该系统可以将单一数据处理任务分配到一个Hadoop集群上去,继而提高大数据文件处理效率。 相似文献
6.
Hadoop应用研究主要包括云存储,数据查询,数据分析,数据挖掘,关联广告等,不同的Hadoop应用对机器的资源要求不同,主要分为CPU、内存、I/O、网络密集型任务。传统的Hadoop集群在物理机上任务会比较密集,各种应用只能排队依次处理,机器的CPU、IO和存储会非常繁忙,负载不均衡。虚拟化Hadoop可以帮助用户在基础设施上实现灵活、弹性、安全和快捷的大数据资源调度。本文提出一种动态规划算法动态调度资源,在虚拟化后的Hadoop集群可以把不同的资源要求的应用单独分开放在不同的物理机上并行高效地处理,从而大大提高Hadoop集群的性能。 相似文献
7.
随着电子商务不断发展,邮政快递行业数据日益增多,传统方式对于邮政数据存储的理论与方法都已无法满足需求。基于此情况,使用一致性哈希算法来解决存储系统的横向弹性扩展,结合一致性哈希的虚拟节点与加权轮询算法优化Hadoop平台下分布式文件系统(HDFS)存储策略,实现集群在同构与异构条件下的数据均衡效果。同时介绍集群节点数据转移思想,设计负载因子与系统自检周期,实现了集群动态权重的负载转移,并进行实验验证。实验结果表明,文章提出的改进算法与HDFS、普通一致性哈希相比,在不同条件下集群负载差值均有不同程度的提升,证明了该策略可以有效降低集群节点间负载差值。 相似文献
8.
9.
10.
《信息通信》2015,(10)
Map Reduce是一种处理大规模数据的并行计算模型,针对传统模型中reduce阶段各结点负载不均衡的问题,提出reduce阶段负载均衡分区算法。算法将map阶段产生的中间数据划分为更多的分区,减少了每个分区的工作量,引入了反馈机制来进一步提高调度策略的性能,每次给reducetask分配都是基于反馈信息选择最优的分区,reducetask完成工作之后会继续获得新的分区,直到所有的分区都被分配完毕,实现了动态调节各reducetask的负载。通过重写Hadoop平台内核实现了算法并进行了实验分析,结果表明,该算法在不影响Map Reduce模型的情况下显著地缩短了任务的处理时间。 相似文献
11.
12.
13.
据IDC统计,2011年全球处理的数据量达到1.8 ZB,预计到2020年达到40 ZB.如何对海量数据进行高效分析和有效管理已成为大数据时代亟需解决的问题之一.商业数据、科学数据和网页数据这3类海量数据的异构性(充满着非结构化、半结构化和结构化数据)进一步增加了海量数据的处理难度.海量数据排序是海量数据处理的基本内容之一.Hadoop曾利用3 658个节点的集群在16.25小时内完成1PB数据的排序,获得Daytona类GraySort和MinuteSort级别的冠军.本文在设计层面上对Hadoop平台上海量数据排序策略进行分析. 相似文献
14.
对节点上行带宽异构环境下的P2P流媒体系统数据块调度算法进行了研究,具体包括系统模型及相关标识,基于带宽感知的数据块调度算法研究和性能评价。通过研究发现,在设计数据块调度算法时充分利用带宽异构性,优先选择高上行带宽的节点,能有效地降低平均块延时。 相似文献
15.
16.
现有异构图嵌入方法在多层图卷积计算中,通常将每个节点表示为单个向量,使得高阶图卷积层无法区分不同关系和顺序的信息,导致信息在传递过程中丢失。为解决该问题,提出了基于元路径卷积的异构图神经网络算法。该方法首先利用特征转换自适应调整节点特征;其次,设计了元路径内卷积挖掘节点高阶间接关系,捕获目标节点在单元路径下与其他类型节点之间的交互关系;最后,通过自注意力机制探索语义之间的相互性,融合来自不同元路径的特征。在ACM、IMDB和DBLP数据集上进行广泛实验,并与当前主流算法进行对比分析。实验结果显示,节点分类任务中Macro-F1平均提高0.5%~3.5%,节点聚类任务中ARI值提高了1%~3%,证明该算法是有效、可行的。 相似文献
17.
随着海量的数据急速增长,处理数据的效率成为企业的生命.为探讨研究大数据对通信业的影响,中国联通广西分公司数据室在现有的业务数据上,通过Hadoop对原来的3A及DNS业务数据使用Map Reduce数据处理模型,对3A及DNS的日志数据进行处理分析,并探讨其在运营商方面的应用. 相似文献
18.
随着异构多核处理器的性能不断增强,具有关联关系任务的调度问题和调度算法成为研究者们关注的焦点。针对异构多核平台上的有向无环图(Directed Acyclic Graph, DAG)任务模型进行了调度分析。由于异构环境中计算资源类型丰富数量多,实际调度过程中处在不同核上的任务之间的通信开销是存在的。而当前大多数调度算法要么忽略不同核上的任务之间的通信开销,要么优先级判定和选择处理器核执行时不能全面考虑核间任务的通信开销,造成资源浪费,增加了系统调度任务的整体长度。因此,针对具有通信开销的DAG任务模型,讨论了任务间的通信开销对任务调度算法的影响,提出了复合节点生成算法(Composite Node Generation Algorithm, CNGA)任务调度算法。该算法根据任务间通信开销大小进行预处理分配生成复合节点,重构DAG图将任务节点的上行秩和通信占比作为参数决定任务节点的优先级。实验结果与HEFT和CPOP算法比较,在任务通信开销和任务执行开销之比(Communication to Computation Ratio, CCR)一定的情况下响应时间比原有的HEFT和CPOP提... 相似文献
19.
方晖 《微电子学与计算机》2014,(9)
在云计算环境下海量数据调度的过程中,数据节点的利用存在较强的随机性.传统调度方法容易造成数据节点冲突,从而导致调度效率降低.提出基于数据节点冲突避免的云计算环境下海量数据高效调度方法.将整个调度任务划分成多个子任务,计算每个子任务任务量,根据目标数据在数据节点的传输情况,对数据节点的任务量进行计算,根据计算结果,建立优化的云计算环境下海量数据调度模型.实验结果表明,利用改进算法进行云计算环境下海量数据调度,能够有效提高调度的效率,避免了数据发生冲突的情况. 相似文献
20.
互联网的发展使得计算密集型的任务正在逐渐走向分布式和云计算。文中对Hadoop项目中的MapReduce和HDFS进行了研究,采用HDFS作为底层分布式文件系统,MapReduce作为编程框架来实现哈希算法。通过对多个节点中的测试结果的分析表明,在Hadoop上运行哈希函数的任务,能够起到在多台计算机的群集中分摊负载的效果,并且有效地减少了任务的总时间开销。以Hadoop为基础的云计算平台具有良好的可靠性和可扩展性,对于哈希算法在Hadoop平台上的实现和测试,为将来密钥恢复等系统的研究和搭建提供了良好的基础。 相似文献