共查询到16条相似文献,搜索用时 93 毫秒
1.
2.
3.
4.
高质量的决策依赖于高质量的数据,数据预处理是数据挖掘至关重要的环节.传统的数据预处理系统并不能很好的适用于大数据环境,企业现阶段主要使用Hadoop/Hive对海量数据进行预处理,但普遍存在耗时长、效率低、无交互等问题.提出了一种基于Spark的交互式数据预处理系统,系统提供一套通用的数据预处理组件,并支持组件的扩展,数据以电子表格的形式展现,系统记录用户的处理过程并支持撤销重做.本文从数据模型、数据预处理操作、交互式执行引擎以及交互式前端四个方面描述了系统架构.最后使用医疗脑卒中的真实数据对系统进行验证,实验结果表明,系统能够在大数据场景下满足交互式处理需求. 相似文献
5.
交通大数据是解决城市交通问题的最基本条件,是制定宏观城市交通发展战略规划和进行微观道路交通管理与控制的重要保障.针对于智能交通系统中数据产生快、实时性强、数据量大的特点,本文基于Spark Streaming和Apache Kafka的组合构建了一个实时交通数据处理平台,用于处理通过双基基站采集的数据,采用时间窗口机制从持续的Kafka分布式消息队列中获取数据,并按照规则将数据分类处理后保存到数据库.本文对平台的系统架构和内部结构进行了详细的介绍,并通过实验验证了系统的实时处理能力,完全可以在大规模高并发的数据流下进行应用. 相似文献
6.
7.
王文琦 《计算机光盘软件与应用》2014,(2):82-83
在信息经济时代,炼化企业开始利用大数据处理技术建立智能化工厂以提升企业自身的核心竞争力。本文从炼化企业信息化建设需求、大数据的特征和大数据处理技术等方面对大数据处理技术在炼化企业信息化建设中的应用进行了技术初探。 相似文献
8.
为解决大数据处理的瓶颈,分析了大数据及云计算的关键技术,论述了大数据和云计算之间的关系,利用云计算在数据存储、数据管理和虚拟化等方面的技术优势,构建了基于云计算的大数据管理和处理模式,为大数据的研究及应用提供了新的思路和技术基础。 相似文献
9.
提出一种改进随机森林算法(SP-RF).通过建立数据抽样索引表和随机特征索引表来实现随机森林算法在Spark上的并行化;通过计算随机森林算法中每个决策树的AUC值来给分类能力不同的决策树分配权重;提高随机森林算法在投票环节的分类精度.实验结果表明改进后的随机森林算法分类精度平均提高5%,运行时间平均减少25%以上. 相似文献
10.
11.
12.
大数据时代的到来为信息处理带来了新的挑战,内存计算方式的Spark显著提高了数据处理的性能.Spark的性能优化和分析可以在应用层、系统层和硬件层开展,然而现有工作都只局限在某一层,使得Spark语义与底层动作脱离,如操作系统参数对Spark应用层的性能影响的缺失将使得大量灵活的操作系统配置参数无法发挥作用.针对上述问题,设计了Spark存储系统分析工具SMTT,打通了Spark层、JVM层和OS层,建立了上层应用程序的语义与底层物理内存信息的联系.SMTT针对Spark内存特点,分别设计了针对执行内存和存储内存的追踪方式.基于SMTT工具完成了对Spark迭代计算过程内存使用,以及跨越Spark,JVM和OS层的执行/存储内存使用过程的分析,并以RDD为例通过SMTT分析了单节点和多节点情况下Spark中读和写操作比例,结果表明该工作为Spark内存系统的性能分析和优化提供了有力的支持. 相似文献
13.
14.
MapReduce与Spark用于大数据分析之比较 总被引:2,自引:0,他引:2
随着大数据时代的到来,海量数据的分析与处理已成为一个关键的计算问题.本文评述了MapReduce与Spark两种大数据计算算法和架构,从背景、原理以及应用场景进行分析和比较,并对两种算法各自优点以及相应的限制做出了总结.当处理非迭代问题时,MapReduce凭借其自身的任务调度策略和shuffle机制,在中间数据传输数量以及文件数目方面性能要优于Spark;而在处理迭代问题和一些低延迟问题时,Spark可以根据数据之间的依赖关系对任务进行更合理的划分,相较于MapReduce有效地减少中间数据传输数量与同步次数,提高系统的运行效率. 相似文献
15.
《信息与电脑》2018,(7)
在计量机构的信息系统中,需要存储大量证书报告、原始记录,如果直接存放于文件系统中,易出现扩容麻烦、碎片化、利用率低和I/0速度瓶颈等问题。日常使用中,经常查询各种业务数据统计,如果实时运算统计结果,易出现运算时间长的问题。为了解决这些问题,将证书报告、原始记录存入分布式MongoDB数据库,这样可以轻松存储海量数据。定时运行Spark作业,计算并缓存各种统计结果,用户查询时直接从MongoDB返回结果。测试发现:在并发数达到100时,存储速度是334 ms/份;在预先缓存结果后,能在1 s内响应客户请求。因此,基于MongoDB和Spark的大数据技术能满足计量机构的数据存储、运算需求。 相似文献
16.
接收与处理分离的实时大数据处理模型 总被引:1,自引:0,他引:1
在大数据处理过程中,系统必须有非常高的数据处理效率。为了满足对大数据实时、高效、稳定处理的需求,提出了一种接收与处理分离的数据处理模型。该数据处理模型由数据接收单元、内存数据库、原始数据分发单元、数据处理单元、处理数据分发单元、数据归并单元组成。接收单元负责接收、整合结构化数据与非结构化数据,把每条完整的数据放入内存数据库中;分发单元从内存数据库中检测获取数据,按照海量数据负载均衡算法把数据分发到数据处理单元;数据处理单元处理数据,处理结果放入内存数据库;处理数据分发单元继续从内存数据库中获取处理后的数据,并按照海量数据负载均衡算法把数据分发给数据归并单元。实验证明,使用该模型方法,系统保持了非常高效的处理效率。 相似文献