排序方式: 共有952条查询结果,搜索用时 117 毫秒
71.
本文在开源云计算平台Hadoop的基础上利用MapReduce和HDFS,针对大型矩阵相乘,并结合个人实际水平进行简单的开发应用。通过开发和研究,进一步探讨云计算关键技术MapReduce对于海量数据处理的意义。 相似文献
72.
针对MapReduce模型中存在的多个Reduce任务之间完成时间差别较大的问题,分析了影响Reduce任务完成时间的因素,指出了MapReduce模型中Reduce任务节点存在数据倾斜问题,提出了一种改进型的MapReduce模型MBR(Map-Balance-Reduce)模型。通过添加Balance任务,对Map任务处理完成的中间数据进行均衡操作,使得分配到Reduce任务节点的数据比较均衡,从而确保Reduce任务的完成时间基本一致。仿真实验结果表明,经过Balance任务后,Map任务产生的中间数据能够比较均衡的分配给Reduce任务节点,达到数据计算均衡的目的,在一定程度上减少了整个作业的执行时间。 相似文献
73.
一种基于MapReduce并行框架的大规模矩阵乘法运算的实现 总被引:1,自引:0,他引:1
张骏 《计算机应用与软件》2012,29(6):267-270
在机器学习算法中,矩阵乘法运算是一种基本运算.而扩大矩阵乘法的运算规模并降低其运算时间,将有利于满足机器学习算法处理大规模数据的要求.将MapReduee并行框架用于分块矩阵乘法,实现一种用于大规模矩阵乘法运算的方法.理论分析和实验结果表明该方法在处理大规模矩阵乘法上具有极大的潜能,并且随着计算节点的增加从而获得较好的加速比. 相似文献
74.
封闭数据立方是一种有效的无损压缩技术,它去掉了数据立方中的冗余信息,从而有效降低了数据立方的存储空间、加快了计算速度,而且几乎不影响查询性能.Hadoop的MapReduce并行计算模型为数据立方的计算提供了技术支持,Hadoop的分布式文件系统HDFS为数据立方的存储提供了保障.为了节省存储空间、加快查询速度,在传统数据立方的基础上提出封闭直方图立方,它在封闭数据立方的基础上通过编码技术进一步节省了存储空间,通过建立索引加快了查询速度.Hadoop并行计算平台不论从扩展性还是均衡性都为封闭直方图立方提供了保证.实验证明:封闭直方图立方对数据立方进行了有效压缩,具有较高的查询性能,根据Hadoop的特点通过增加节点个数明显加快了计算速度. 相似文献
75.
K-means聚类算法存在的主要不足之处之一在于需要用户指定聚类核数目,在一般应用场景下,用户无法给出合适的聚类核数目.另一方面,K-means聚类所具有的可并行化特点非常适合运用到云计算平台上以处理大规模数据样本的聚类任务.本文提出KBAC算法采用K-means算法作为预聚类过程并在云平台上进行实现和优化,能够自适应确定最佳聚类核数目并进行聚类.其核心思想是将样本空间聚类问题转换为图上社团发现问题.理论和实验证明,通过在云计算框架下实现K-means预聚类过程的并行化,KBAC算法能够高效地对大规模数据进行聚类,并获得高质量的聚类结果. 相似文献
76.
基于MapReduce的分布式近邻传播聚类算法 总被引:2,自引:0,他引:2
随着信息技术迅速发展,数据规模急剧增长,大规模数据处理非常具有挑战性.许多并行算法已被提出,如基于MapReduce的分布式K平均聚类算法、分布式谱聚类算法等.近邻传播(affinity propagation,AP)聚类能克服K平均聚类算法的局限性,但是处理海量数据性能不高.为有效实现海量数据聚类,提出基于MapReduce的分布式近邻传播聚类算法——DisAP.该算法先将数据点随机划分为规模相近的子集,并行地用AP聚类算法稀疏化各子集,然后融合各子集稀疏化后的数据再次进行AP聚类,由此产生的聚类代表作为所有数据点的聚类中心.在人工合成数据、人脸图像数据、IRIS数据以及大规模数据集上的实验表明:DisAP算法对数据规模有很好的适应性,在保持AP聚类效果的同时可有效缩减聚类时间. 相似文献
77.
HyDB:集成MapReduce和数据库的高效SaaS架构 总被引:1,自引:0,他引:1
随着数据的快速增长和云计算的兴起,软件作为服务(SaaS)标志着计算机系统按需服务的应用的兴起.高效经济SaaS使得许多企业将大规模数据分析服务从部署在并行数据库的高端服务器转移至更便宜的无共享体系结构的低端服务器集群上.论文提出了集成MapReduce和数据库的高效经济SaaS架构—HyDB系统,解决海量结构化,半结构化与非结构化数据的高效查询服务,通过对数据的存储模型和查询模型进行研究,提出了完整的数据存储和查询服务方案,给出基于队列的作业调度算法,并支持针对简约数据查询的快速响应模式.最后通过可扩展实验,证明了该系统架构具有良好的加载性能、查询性能和容错能力,可以为用户提供优质的数据服务. 相似文献
78.
79.
基于启发式函数的分布式FN 算法 总被引:1,自引:0,他引:1
对复杂网络进行社团挖掘和分析是很多领域和学科的重要问题,结合海量数据通联矩阵稀疏的特点,提出了一种基于启发式函数合并的快速社团挖掘算法KFN算法,并建立了算法的MapReduce模型.通过对DBLP论文合著网络数据集进行挖掘可知,分布式模型和基于启发式函数的合并策略能够提高社团挖掘的时间效率. 相似文献
80.
当前MapReduce并行编程模型得到了广泛的应用.相对于传统的基于PVM或者MPI的并行编程方式,它在执行时间和处理问题规模等方面有明显优势.针对并行遗传算法的特点,提出基于MapReduce实现一种典型的并行遗传算法——粗粒度并行算法的方法,用以解决大规模变量问题.实验平台采用Hadoop,硬件条件为普通的服务器集群.在多目标优化问题测试中,当问题规模达到一定、处理变量数超过10E+7时,并行算法效率比串行提高数倍,并且能突破内存瓶颈.根据MapReduce自身特点调整其参数,改变并行程度,分析其对并行执行时间的影响. 相似文献