首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
基于消息传递机制的MapReduce图算法研究   总被引:5,自引:0,他引:5  
潘巍  李战怀  伍赛  陈群 《计算机学报》2011,34(10):1768-1784
单机运行环境难以满足基于海量数据的大图算法对时空开销的需求,如何设计高效的面向云计算环境的分布式大图算法越来越受到人们的关注,MapReduce作为云计算的核心计算模式受限于易并行(EP)计算模型的制约不易表达图算法.文中突破了MapReduce基于易并行计算的假设,增强了MapReduce既有的编程规范,新的大同步(...  相似文献   

2.
本文综述了近年来基于MapReduce编程模型的大数据处理平台与算法的研究进展。首先介绍了12个典型的基于MapReduce的大数据处理平台,分析对比它们的实现原理和适用场景,抽象它们的共性。随后介绍基于MapReduce的大数据分析算法,包括搜索算法、数据清洗/变换算法、聚集算法、连接算法、排序算法、偏好查询、最优化算法、图算法、数据挖掘算法。将这些算法按MapReduce实现方式分类,分析影响这算法性能的因素。最后,将大数据处理算法抽象为外存算法,并对外存算法的特征加以梳理,提出了普适的外存算法性能优化方法的研究思路和研究问题,以供研究人员参考。具体包括优化外存算法的磁盘I/O,优化外存算法的局部性,以及设计增量式迭代算法。现有大数据处理平台和算法研究多集中在基于资源分配和任务调度的平台动态性能优化、特定算法并行化、特定算法性能优化等领域,本文提出的外存算法性能优化属于静态优化方法,是现有研究的良好补充,为研究人员提供了广阔的研究空间。  相似文献   

3.
云环境下图数据库建模技术及其应用研究   总被引:1,自引:0,他引:1  
针对云环境下传统关系型数据库在大数据库建模方面存在的诸多问题,描述了一种全新的能适应云计算环境建模的图数据库,定义了图数据库模型的基本概念,给出了图数据库建模元素及组织形式,在关系型数据库概念模型建模理论及方法的基础上提出了图数据库建模的若干规则和方法。以图数据库Neo4j为例,详细描述了现代物料入库管理图数据库的建模过程,并应用Cypher语言实现该系统模型的增加、删除、更改、查询及统计功能。实践结果表明:利用图数据库建模技术构造的模型具有语义表达更丰富、更具简易性和可扩展性等优点,对开发基于图模型的智能管理信息系统能够提供一定的参考依据。  相似文献   

4.
《计算机工程》2017,(12):30-37
为提高车载云计算资源调度的可靠性,减少数据处理时间,提出一种服务质量感知的并行MapReduce启发式车载云资源调度算法。在MapReduce并行计算模型的基础上,设计云计算环境中以车载单元为基础的车辆并行检测服务框架,利用相对优先级因子构建车载云计算调度模型,并通过启发式并行优化算法对模型进行优化,降低算法复杂度。在NS-3中的仿真结果表明,该算法可有效缩短作业执行时间,并具有较高的可靠性。  相似文献   

5.
数据密集型计算编程模型研究进展   总被引:12,自引:0,他引:12  
作为一种新兴的计算模式,云计算受到了学术界和产业界的广泛关注.云计算以互联网服务和应用为中心,服务提供者需要存储和分析海量数据.为了能够低成本高效率地处理Web量级数据,主要的互联网公司都在由商品化服务器组成的大规模集群系统上研发了分布式编程系统.编程模型可以降低开发人员在大规模集群上编程的难度,并让程序充分利用集群资源,但设计这样的编程模型面临巨大挑战.首先说明了数据密集型计算的特点,并指出了编程模型要解决的基本问题;接着深入介绍了国际上代表性的编程模型,并对这些编程模型的特点进行了比较和分析;最后对当前所面临的问题和今后的发展趋势进行了总结和展望.  相似文献   

6.
随着应用的扩展,大规模图数据不断涌现,如何对拥有大量结点的图进行分析成为研究者关注的焦点问题之一.结点的海量性与分析的复杂性使得图分析任务需要借助MapReduce平台多机并行完成.在该平台上,现有的PageRank算法每轮迭代都须扫描、传输所有网页的完整状态,I/O和网络传输的开销严重影响了计算效率.为此,本文提出一种在MapReduce平台上基于图划分的PageRank加速方法:GCPR(Graph-clustering PageRank).GCPR利用图划分、数据两层压缩技术在MapReduce平台上进行PageRank迭代计算,不仅减少了Map到Reduce中间阶段I/O和网络传输的开销(MapReduce运算的主要瓶颈之一),而且平衡了计算资源.实验证明GCPR能极大提升MapReduce平台上的PageRank计算效率.  相似文献   

7.
智能云计算是下一代智能作战装备的发展趋势,本文针对军事应用场景下的高实时性要求,介绍一种嵌入式智能云计算平台.该系统基于ARM+DSP+FPGA架构,采用MapReduce技术,可实现大数据智能计算方法在典型军事应用场景下的应用.  相似文献   

8.
迭代计算普遍存在于大数据处理中,而传统的MapReduce不能显式地支持迭代计算。近几年,研究者扩展和改进原始MapReduce,已开发了若干迭代式MapReduce以更好地为大数据处理而支持迭代计算。对迭代式MapReduce编程框架进行综合评述,较详细地阐述了这些研究成果,给出了它们各自的基本思想,并分析了它们各自的特点、优势和不足,且对比了它们所采用的一些技术。对迭代式MapReduce未来的发展趋势进行了展望。  相似文献   

9.
随着数据库技术的发展和Internet的迅速普及,实际应用中需要处理的数据量急剧地增长,致聚类研究面临许多新的问题和挑战,如海量数据和新的计算环境等.深入研究了基于云计算平台Hadoop的并行k-means聚类算法,给出了算法设计的方法和策略.在多个不同大小数据集上的实验表明,设计的并行聚类算法具有优良的加速比、扩展率和数据伸缩率等性能,适合用于海量数据的分析和挖掘.  相似文献   

10.
国家气象信息中心存储和保存了50多年宝贵的长序列历史资料,这些历史资料在实时、准实时业务及科研中需要经常被使用并进行气象科学计算.由于历史数据量大,耗时长,如何在短时间内得到所需的计算结果提供用户使用成为本文的主要研究目标.通过搭建云计算平台,并以30年气候资料统计整编研究对象,在云计算平台上基于MapReduce分布式并行计算模型进行多种统计项目、统计方法的算法实现.通过修改云计算平台运行环境参数配置并在不同配置下运行相同计算任务,进行计算效率对比试验.  相似文献   

11.
More and more large data collections are gathered worldwide in various IT systems. Many of them possess a networked nature and need to be processed and analysed as graph structures. Due to their size they very often require the usage of a parallel paradigm for efficient computation. Three parallel techniques have been compared in the paper: MapReduce, its map-side join extension and Bulk Synchronous Parallel (BSP). They are implemented for two different graph problems: calculation of single source shortest paths (SSSP) and collective classification of graph nodes by means of relational influence propagation (RIP). The methods and algorithms are applied to several network datasets differing in size and structural profile, originating from three domains: telecommunication, multimedia and microblog. The results revealed that iterative graph processing with the BSP implementation always and significantly, even up to 10 times outperforms MapReduce, especially for algorithms with many iterations and sparse communication. The extension of MapReduce based on map-side join is usually characterized by better efficiency compared to its origin, although not as much as BSP. Nevertheless, MapReduce still remains a good alternative for enormous networks, whose data structures do not fit in local memories.  相似文献   

12.
大数据时代的到来,对数据的管理和存储带来了挑战。为了更好地管理和利用大数据,对大数据的基本特征进行了剖析,从大数据和分析技术平台的视角,分析了海量并行处理架构、云计算、网格计算和MapReduce这几种重要的技术,比较了其技术特点,对运用不同的技术对大数据时代数据管理产生的作用进行了分析,讨论了大数据分析工作所需要的混合环境,整合环境资源以使能够协同工作,使得每一项技术变得更加强大有效。  相似文献   

13.
时代的进步推动了科学技术和网络技术的多领域、多层次发展,促使我们进入到云计算时代。云计算是一种基于网络计算机对数据进行处理的技术,但是因为工具和现实生活不配备的问题,导致云计算技术在计算机数据处理的过程中还存在很多问题。对此,需要加强云计算技术的研究和应用,扩大数据处理规模,提高自适应并行计算程度,以对多源信息进行加速处理,优化云计算处理速度,更好地为社会发展服务。  相似文献   

14.
随着信息化的不断深入和科学技术的提高,数据库技术和网络技术已经帮助企业实现了办公自动化、经营决策管理信息化和生产过程信息化,但是信息量的扩大给信息的采集和长久保存带来了困难,传统的信息处理技术以及Hadoop技术都不能实现海量结构化数据的处理,为了更好地提升企业决策的思维广度和获取信息的完整度,文章"数据服务云平台"进行了研究和分析,这种站在全新的大数据应用高度,对新的技术架构进行探索和研究的方式,能够更为合理的解决企业大数据应用的关键技术难题。  相似文献   

15.
提出一种基于大规模廉价计算平台的海量数据处理模型,吸取了Map/Reduce计算模式和大规模分布式数据存储机制Bigtable的基本思想,实现了以数据为中心的计算密集型的经济性超级计算系统平台。系统选择电信部门的大规模业务数据为分析对象,对电信通话和数据业务的大规模数据集进行处理,从而向运营商和普通用户提供有价值的数据分析服务。该平台适用于其他多种海量数据的分布式处理,为其他的各种应用提供了一个具有良好参考价值的示范。  相似文献   

16.
并行BSP模型在实时集群系统中的应用   总被引:2,自引:0,他引:2       下载免费PDF全文
分析BSP并行计算模型在多源数据处理中的应用特点。构建实时集群计算机系统的并行计算BSP模型。对多源任务数据处理的粒度进行了分析设计。给出了实时集群计算机系统中BSP模型的实现算法。实际应用验证了算法的有效性。  相似文献   

17.
针对小区居民用电数据挖掘效率低、数据量大等难题,进行了基于云计算和改进K-means算法的海量用电数据分析方法研究。针对传统K-means算法中存在初始聚类中心和K值难确定的问题,提出一种基于密度的K-means改进算法。首先,定义样本密度、簇内样本平均距离的倒数和簇间距离三者乘积为权值积,通过最大权值积法依次确定聚类中心,提高了聚类的准确率;然后,基于MapReduce模型实现改进算法的并行化,提高了聚类的效率;最后,以小区400户家庭用电数据为基础,进行海量电力数据的挖掘分析实验。以家庭为单位,提取出用户的峰时耗电率、负荷率、谷电负荷系数以及平段用电量百分比,建立聚类的数据维度特征向量,完成相似用户类型的聚类,同时分析出各类用户的行为特征。基于Hadoop集群的实验结果证明提出的改进K-means算法运行稳定、可靠,具有很好的聚类效果。  相似文献   

18.
目前,大数据和云计算在各行业得到了广泛运用,提升了企业的经济效益和社会效益,也为人们的生活创造了便利条件。文章主要分析了大数据和云计算技术,并对其应用策略进行了探讨,以供相关人员参考。  相似文献   

19.
基于云计算平台的CO2空间数据融合算法   总被引:1,自引:0,他引:1  
胡军国  祁亨年 《计算机应用》2012,32(4):1003-1008
为了对移动传感器网络采集到的时间、空间不确定的海量CO2浓度数据进行融合,首先对采集的CO2数据进行分析,把测试区域分成m×n个网格,分析从每个网格取一个有效值来表示CO2浓度分布。然后根据云计算强大的计算能力,提出组合云模型,设计普通云、繁殖云、视觉云和邻接云,以云内相对独立运行和云间相互作用形成分布式并行计算机制。接着改造蚁群家族,设计普通蚂蚁、繁殖蚂蚁、视觉蚂蚁和邻接蚂蚁。各类蚂蚁分配到不同的云朵中,并按自身的规则运行,各类蚂蚁彼此配合工作,实现信息素和最优解在云内部局部交换和通过云服务器在云朵之间全局交换相结合。最后模拟生成有关临安的11080个数据,利用Clounding V2模拟平台进行大量实验,实验表明算法在105次寻优后基本趋于稳定,寻优能力是单机算法的60倍左右,并且普通云、繁殖云、视觉云和邻接云中的蚂蚁数量比设为2∶2∶1∶1性能表现出最佳。  相似文献   

20.
传统的数据挖掘模式和方法已经不能适应如今数据的快速增长,分析了将传统数据挖掘算法与云计算技术相结合的实现过程。通过研究云计算环境下海量数据挖掘的三层模型,发现该模型最大的优点是数据挖掘速度快、可靠性高,而且随着数据量的增加,该模型的优势也愈发明显。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号