首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 546 毫秒
1.
基于Spark的大数据混合计算模型   总被引:2,自引:0,他引:2  
现实世界大数据应用复杂多样,可能会同时包含不同特征的数据和计算,在这种情况下单一的计算模式多半难以满足整个应用的需求,因此需要考虑不同计算模式的混搭使用。混合计算模式之集大成者当属UCBerkeley AMPLab的Spark系统,其涵盖了几乎所有典型的大数据计算模式,包括迭代计算、批处理计算、内存计算、流式计算(Spark Streaming)、数据查询分析计算(Shark)、以及图计算(GraphX)。 Spark提供了一个强大的内存计算引擎,实现了优异的计算性能,同时还保持与Hadoop平台的兼容性。因此,随着系统的不断稳定和成熟, Spark有望成为与Hadoop共存的新一代大数据处理系统和平台。本文详细研究和分析了Spark生态系统,建立了基于Spark平台的混合计算模型架构,并说明通过spark生态系统可以有效地满足大数据混合计算模式的应用。  相似文献   

2.
由于电力调度网出现任何网络故障都可能发生极度严重的事故,因此具有的极高可靠性及安全性的要求.而当前传统的网络监测系统在面对大数据量时,其实时处理能力和扩展能力都无法满足需求.因此对实时产生的大规模各类型数据的分析处理则需要一种专门的实时数据分析平台完成.本文结合电力调度信息网络的特点以及监测准确性及实时性的需求,构建出一个基于流计算的数据处理分析平台,以Apache Spark中的Spark Streaming为代表的开源流计算框架,加入如Kafka分布式消息队列、Redis内存数据库等组件,为数据分析平台提供稳定高效的数据来源和数据服务接口,从而实现适用于电力调度网的各类海量数据的实时分析处理完成流量异常监测场景.  相似文献   

3.
随着国家电网公司基于大数据、云计算等项目的逐渐增多,国网某省电力公司全业务海量数据激增,导致现有电力营销存在电力数据缺乏统一部署系统、数据共享难度较大、数据指标逻辑规则不统一等问题。集中接入并整合电力各渠道的账户数据和客户数据,结合大数据技术研究电力营销大数据融合共享平台的建设与应用,集中接入和整合电网各渠道的账户数据和客户数据,开展电力客户标签快速搜索及数据驱动营销业务分析等场景,为电力企业运营平台及全景大屏展示提供支持。  相似文献   

4.
基于Spark平台城市出租车乘客出行特征分析   总被引:1,自引:1,他引:0  
从海量出租车GPS轨迹数据中挖掘和分析城市出租车乘客的出行特征,可以为城市交通管理者和出租车行业管理者在城市交通规划与管理、城市交通流均衡与车辆调度等方面提供决策依据.基于Spark大数据处理分析平台,选择YARN作为资源管理调度系统,采用HDFS分布式存储系统,对出租车GPS轨迹数据进行挖掘.给出了基于Spark平台的出租车乘客出行特征的挖掘方法,包括出租车乘客出行距离分布、出租车使用时间分布及出租车出行需求.实验结果表明,基于Spark平台分析方法能够快速且准确的分析出出租车乘客出行特征.  相似文献   

5.
针对Spark系统参数量巨大且手动调整参数具有耗时、效率低下等问题,提出一种基于人工神经网络(Artificial Neural Network, ANN)的方法来对Spark系统的配置参数进行自动调整,保障在处理空管大数据时的速度和性能。使用Dell PowerEdge T430服务器测试了空管大数据中5种常用的不同大小的数据集,以验证该方法。研究表明,与默认参数配置相比,该方法可将Spark系统的性能平均提高约35%。随着数据集大小的增加,性能呈现进一步提高的趋势。该方法可以有效地保障Spark系统的参数调整效率,达到高效处理空管大数据的目的。  相似文献   

6.
针对Spark数据集不可变,以及Java虚拟机(JVM)依赖环境引起的代码执行、内存管理、数据序列化/反序列化等开销过多的不足,采用C/C++语言,设计并实现了一种轻量级的大数据运算系统--Helius。Helius支持Spark的基本操作,同时允许数据集整体修改;同时,Helius利用C/C++优化内存管理和网络传输,并采用stateless worker机制简化分布式计算平台的容错恢复过程。实验结果显示:5次迭代中,Helius运行PageRank算法的时间仅为Spark的25.12%~53.14%,运行TPCH Q6的时间仅为Spark的57.37%;在PageRank迭代1次的基础上,运行在Helius系统下时,master节点IP接收和发送数据量约为运行于Spark系统的40%和15%,而且200 s的运行过程中,Helius占用的总内存约为Spark的25%。实验结果与分析表明,与Spark相比,Helius具有节约内存、不需要序列化和反序列化、减少网络交互以及容错简单等优点。  相似文献   

7.
为提升航空兵场站信息化建设过程中的数据应用与管理能力,提出了一种基于Spark的场站飞行保障大数据可视化平台.以场站信息化系统和物联网络数据采集数据为基础,利用Spark计算引擎集成Kafka消息队列,使用Hive完成数据列表库的建立和存储,基于Spark RDD和Spark SQL完成数据预处理与交互,并选择Vue框架嵌入ECharts组件完成前端数据可视化呈现,并最终对设计方案进行了实现与应用.相较于当前业务隔离的信息系统建设模式,平台具备更高的数据融合与处理分析能力,能够更好地实现场站飞行保障数据价值.  相似文献   

8.
基于Spark的流程化机器学习分析方法   总被引:1,自引:0,他引:1  
Spark通过使用内存分布数据集,更加适合负载数据挖掘与机器学习等需要大量迭代的工作.但是数据分析师直接使用Spark进行开发十分复杂,包括scala学习门槛高,代码优化与系统部署需要丰富的经验,同时代码的复用度低导致重复工作繁多.本文设计并实现了一种基于Spark的可视化流程式机器学习的方法,一方面设计组件模型来刻画机器学习的基本步骤,包括数据预处理、特征处理、模型训练及验证评估,另一方面提供可视化的流程建模工具,支持分析者设计机器学习流程,由工具自动翻译为Spark平台代码高效执行.本工具可以极大的提高Spark平台机器学习应用开发的效率.论文介绍了工具的方法理论和关键技术,并通过案例表明工具的有效性.  相似文献   

9.
当前配电网规划中存在的规划存在不合理、数据处理效果不佳、系统故障诊断效率偏低等问题,为提高配电网规划水平,本文结合大数据在电力系统应用的时代背景,提出电力大数据在配电网规划中的应用对策,并分析电力大数据在配电网规划中的应用效果。电力大数据在配电网规划中的应用具有重要意义,能够实现对配电数据的精准处理,对电网状态进行准确评估,同时也为配电网结构优化提供技术支持。具体应用过程中,应该在主动配电网数据调度、主动配电网数据规划管理、配电网电压数据规划管理中运用电力大数据,并把握技术要点,合理进行配电网规划。实际应用表明,电力大数据满足配电网规划需要,能够提高配电系统数据信息处理效果和系统故障诊断效率。  相似文献   

10.
如何在海量不确定数据集中提高频繁模式挖掘性能是目前研究的热点.传统算法大多是以期望、概率或者权重等单一指标为数据项集支持度,在大数据背景下,同时考虑概率和权重支持度的算法难以兼顾其执行效率.为此,本文提出一种基于Spark的不确定数据集频繁模式挖掘算法(UWEFP),首先,为了同时兼顾数据项的概率和权重,计算一项集的最大概率权重值并进行剪枝;然后,为了减少对数据集的多次扫描,结合Spark框架的优点,设计了一种具有FP-tree特征的新颖的UWEFP-tree结构进行模式树的构建及挖掘;最后在Spark环境下,以UCI数据集进行实验验证.实验结果表明本文的方法在保证挖掘结果的同时,提高了效率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号