首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
为了解决传统数据清洗工具面对海量数据时复杂度高、效率低的问题,设计实现了流式大数据数据清洗系统.利用分布式计算技术清洗数据,以解决性能低的问题.该系统由统一接入模块、计算集群和调度中心三部分组成,实现了多种数据源的统一接入,分布式处理,并通过Web界面进行清洗流程的交互式配置.实验结果表明,面对海量数据的时候,流式大数据数据清洗系统的性能强于传统的单机数据清洗,提高了清洗效率.  相似文献   

2.
流式计算是大数据的一种重要计算模式,大数据流式计算已成为研究热点。任务管理是大数据流式计算的核心功能之一,负责对流式计算的任务进行资源调度及全生命周期管理。目前对于大数据流式计算的技术调研工作主要集中于流式计算应用需求、体系结构及整体技术,缺乏对大数据流式计算任务管理技术的精细化调研分析。首先给出流式计算任务管理的抽象功能模型,其次基于该模型对任务管理的关键技术进行了分类和综述,最后对既有主流的大数据流式计算系统对上述关键技术的应用、集成和优化进行了调研分析。  相似文献   

3.
随着大数据与人工智能技术的飞速发展,高性能,实时性的流式计算系统逐渐取代传统基于数据仓库的批量计算系统.Apache storm作为一款开源,高容错,实时处理的分布式大数据流式计算平台,支持任务平均分配策略,单机任务指定策略等多种任务分配方案.当任务拓扑结构中存在多个任务时,且集群中只有某些机器支持某一任务执行时,传统的任务调度方法只能实现将单一的任务分配给单一指定的机器,使得整个集群的资源没有充分的利用.通过调整任务调度策略,获得满足条件的机器队列,查看机器队列中可用工作节点,将指定任务均匀分配给可用工作节点,其他任务仍通过默认策略分配给集群中的剩余机器,实现多任务的分组调度策略.  相似文献   

4.
对废弃话单进行有效管理,是保障通信系统计费可靠性的重要内容之一,然而对于废弃话单数据所呈现出的实时性、突发性等特征,现有的大数据处理模式并不能很好地应对.本文采用动态路由策略实现计算系统运行时的轻量级伸缩,应对废弃话单实时性和突发性带来的挑战.在此基础之上,本文给出了一种基于流式计算模型的废弃话单处理系统的实现,并通过实际数据验证了本文提出的动态路由策略在应对数据突发方面的有效性.  相似文献   

5.
《计算机工程》2017,(11):8-15
为实现大数据环境下大规模动态分区信息的高效处理,结合流式计算框架,提出一种实时数据库分区系统。采用大数据环境下的流式计算技术处理大规模动态的工作负载,设计实时数据分区算法实现数据分区的自动与即时生成,并利用流式计算框架的水平扩展机制提高系统扩展性和吞吐量。实验结果表明,该系统可在大数据环境下实现高效、实时的数据库分区,与传统分区算法相比,具有更高的分区质量和更少的分区时间。  相似文献   

6.
Storm支持流式数据的高性能实时计算,是一种广泛使用的流式计算框架。在Storm应用的开发中,开发人员需要针对不同的流式数据需求定制开发相应的计算模块,从而导致大量的重复工作,且难以适应数据需求的变动。如何根据流式数据格式和计算方式等数据需求,快速开发Storm应用并配置相应的环境,是提升大部分流式计算应用开发效率的重要问题。提出了流式数据需求描述方法,设计并实现了一种基于Storm的、由数据需求驱动的流式数据实时处理应用辅助开发框架,其根据业务人员描述的领域数据需求自动生成符合数据处理需求的Storm实时数据处理应用。实验表明,该框架能帮助不具备Storm开发能力甚至非软件开发人员快速配置常见的基于Storm的流式计算应用,对于常见的流式数据的实时处理需求具有一定的适应性。  相似文献   

7.
分布式集群环境使得数据实时计算更为复杂,流式大数据处理系统的正确性难以保障.现有的大数据基准测试框架可以测试流式大数据处理系统的性能表现,但是普遍存在应用场景设计简单、评价指标不充分等不足.针对这一挑战,本文构造了一个面向股票交易场景的流式大数据基准测试框架,通过生成股票高频交易数据,测试系统在高流速场景下的延迟、吞吐量、GC时间、CPU资源等的性能表现.同时,通过横向测试验证流式大数据系统的扩展性.本文以Apache Spark Streaming为待测系统进行测试,实验结果表明,高流速场景下出现延迟增加、GC时间提高等性能下降问题,原因是系统输入速率的提高及并行度的增加.  相似文献   

8.
流式数据处理中,数据倾斜等原因易导致计算节点的负载不均衡,降低系统处理能力。传统的负载均衡方法,比如算子分配、算子迁移和负载脱落等技术因为相对较高的性能代价,在流式处理系统中没有得到广泛的应用。针对流式处理系统的特点,提出一种新的负载均衡方法。在该方法中,计算单元的数据被划分为若干分区,并且数据分区可以在计算单元中动态分配和迁移,在较少干扰系统运行的情况下,通过动态调整各计算单元的分区,平衡各个计算单元的输入流和利用率,以此达到负载平衡的目的。在此基础上,设计并实现了流式处理系统的负载均衡算法和数据在线迁移技术。实验结果表明,该方法能够显著减少数据处理的平均延迟,提高系统吞吐量。  相似文献   

9.
作为目前主流的大数据流式计算平台之一,Storm在设计之初以性能为目的进行研究而忽视了高能耗的问题,但是其高能耗问题已经开始制约着平台的发展.针对这一问题,分别建立了任务分配模型、拓扑信息监控模型、数据恢复模型以及能耗模型,并进一步提出了基于Storm平台的数据恢复节能策略(energy-efficient strategy based on data recovery in Storm,DR-Storm),包括吞吐量检测算法与数据恢复算法.其中吞吐量检测算法根据拓扑信息监控模型反馈的拓扑信息计算集群吞吐量,并通过信息反馈判断是否终止整个集群内拓扑的任务.数据恢复算法根据数据恢复模型选择备份节点用于数据存储,并通过拓扑信息监控模型反馈的信息判断集群拓扑是否进行数据恢复.此外,DR-Storm通过备份节点内存恢复集群拓扑内的数据,并根据大数据流式计算的系统延迟与能效评估DR-Storm.实验结果表明:与现有研究成果相比,DR-Storm在减少系统计算延迟、降低集群功率的同时,有效节约了能耗.  相似文献   

10.
本文结合威胁情报系统的设计、开发和运维经验,系统研究了流式数据处理、交互式数据分析、数据湖以及分布式数据处理等大数据技术在威胁情报系统中的应用.分析和总结了在威胁情报系统建设场景中,大数据技术的选择、大数据产品的选型以及大数据平台的设计,为基于大数据技术的应用系统的设计和开发提供参考.  相似文献   

11.
蒲勇霖  于炯  鲁亮  李梓杨  卞琛  廖彬 《软件学报》2021,32(8):2557-2579
作为流式大数据计算的主要平台之一,Storm在设计过程中由于缺乏节能的考虑,导致其存在高能耗与低效率的问题.传统的节能策略并未考虑Storm的性能约束,可能会对集群的实时性造成影响.针对这一问题,设计了资源约束模型、最优线程重分配模型以及数据迁移模型.进一步提出了Storm平台下的线程重分配与数据迁移节能策略(energy-efficient strategy based on executor reallocation and data migration in Storm,简称ERDM),包括资源约束算法与数据迁移算法.其中,资源约束算法根据集群各工作节点CPU、内存与网络带宽的资源占用率,判断集群是否允许数据的迁移.数据迁移算法根据资源约束模型与最优线程重分配模型,设计了数据迁移的最优化方法.此外,ERDM通过分配线程减少了节点间的通信开销,并根据大数据流式计算的性能与能效评估ERDM.实验结果表明,与现有研究相比,ERDM能够有效降低节点间通信开销与能耗,并提高集群的性能.  相似文献   

12.
大数据系统和分析技术综述   总被引:15,自引:0,他引:15  
首先根据处理形式的不同,介绍了不同形式数据的特征和各自的典型应用场景以及相应的代表性处理系统,总结了大数据处理系统的三大发展趋势;随后,对系统支撑下的大数据分析技术和应用(包括深度学习、知识计算、社会计算与可视化等)进行了简要综述,总结了各种技术在大数据分析理解过程中的关键作用;最后梳理了大数据处理和分析面临的数据复杂性、计算复杂性和系统复杂性挑战,并逐一提出了可能的应对之策.  相似文献   

13.
基于Spark的大数据混合计算模型   总被引:2,自引:0,他引:2  
现实世界大数据应用复杂多样,可能会同时包含不同特征的数据和计算,在这种情况下单一的计算模式多半难以满足整个应用的需求,因此需要考虑不同计算模式的混搭使用。混合计算模式之集大成者当属UCBerkeley AMPLab的Spark系统,其涵盖了几乎所有典型的大数据计算模式,包括迭代计算、批处理计算、内存计算、流式计算(Spark Streaming)、数据查询分析计算(Shark)、以及图计算(GraphX)。 Spark提供了一个强大的内存计算引擎,实现了优异的计算性能,同时还保持与Hadoop平台的兼容性。因此,随着系统的不断稳定和成熟, Spark有望成为与Hadoop共存的新一代大数据处理系统和平台。本文详细研究和分析了Spark生态系统,建立了基于Spark平台的混合计算模型架构,并说明通过spark生态系统可以有效地满足大数据混合计算模式的应用。  相似文献   

14.
数据分区技术是改善基于shared-nothing架构的大型应用性能的重要手段.当前的数据分区技术无法高效处理应用负载所蕴含的动态、大规模分区信息,无法即时生成分区策略.为了解决传统数据库分区技术面临的问题,实现分区的实时处理,提出了与流式框架相结合的实时数据分区算法,通过构建关联矩阵映射分区信息,并基于代价模型实现数据分区方案的即时生成,采用流式框架的水平扩展机制实现了算法的高扩展性和高吞吐量适应性.实验结果表明与现有分区方法相比,算法有较好的分区效果和较低的时间复杂度.该算法是大数据环境下针对大规模、动态工作负载进行实时数据分区的有效手段.  相似文献   

15.
《工矿自动化》2017,(9):21-25
在分析矿山决策支持系统应用现状的基础上,提出基于新一代大数据技术和云计算技术的智慧矿山智能决策支持技术架构。该架构采用Hadoop等大数据技术解决传统决策支持系统存在的无法水平扩展计算资源、响应时间长及无法把离散的管理信息数据与自动化测控数据相结合进行数据分析等问题,通过引入流式计算解决传统决策支持系统无法有效处理无界数据的问题。该架构具有可承载矿山专业业务分析模型和常规管理信息化业务分析模型的能力,可全面融合"人"、"机"、"环"、"管"相关数据,形成综合性较强的决策支持信息,为实现矿山"智慧化"提供核心技术支持。  相似文献   

16.
朱美玲  刘晨  王雄斌  韩燕波 《软件学报》2017,28(6):1498-1515
针对伴随车辆检测这一新兴的智能交通应用,在一种特殊的流式时空大数据-车牌识别流式大数据下,重新定义Platoon伴随模式,提出PlatoonFinder算法,即时地在车牌识别数据流上挖掘Platoon伴随模式.本文的主要贡献包括:第一,将Platoon伴随模式发现问题映射为数据流上的带有时空约束的频繁序列挖掘问题.与传统频繁序列挖掘算法仅考虑序列元素之间位置关系不同,本文算法能够在频繁序列挖掘的过程中有效处理序列元素之间复杂的时空约束关系;第二,本文算法融入了伪投影等性能优化技术,针对数据流的特点进行了性能优化,能够有效应对车牌识别流式大数据的速率和规模,从而实现车辆Platoon伴随模式的即时发现.通过在真实车牌识别数据集上的实验分析表明,PlatoonFinder算法的平均延时显著低于经典的Aprior和PrefixSpan等频繁模式挖掘算法,也低于真实情况下交通摄像头的车牌识别最小时间间隔.因此,本文所提出的算法可以有效的发现伴随车辆组及其移动模式.  相似文献   

17.
鞠大升 《程序员》2014,(12):98-103
以Kafka、Storm和Samza为代表的实时计算技术,提供了不同于MapReduce的另一种大数据解决方案,更好地解决了海量数据处理的时效性问题。本文将从需求、架构、应用和优化等方面介绍美团在实时计算技术方面的应用和实践经验。大数据技术正改变着互联网行业。一方面是以Hadoop/MapReduce为代表的批量计算技术,生态圈已发展相对成熟;  相似文献   

18.
网络大数据:现状与展望   总被引:22,自引:0,他引:22  
网络大数据是指“人、机、物”三元世界在网络空间(Cyberspace)中交互、融合所产生并在互联网上可获得的大数据.网络大数据的规模和复杂度的增长超出了硬件能力增长的摩尔定律,给现有的IT架构以及机器处理和计算能力带来了极大挑战.同时,也为人们深度挖掘和充分利用网络大数据的大价值带来了巨大机遇.因此,迫切需要探讨大数据的科学问题,发现网络大数据的共性规律,研究网络大数据定性、定量分析的基础理论与基本方法.文中分析了网络大数据的复杂性、不确定性和涌现性,总结了网络空间感知与数据表示、网络大数据存储与管理体系、网络大数据挖掘和社会计算以及网络数据平台系统与应用等方面的主要问题与研究现状,并对大数据科学、数据计算需要的新模式与新范式、新型的IT基础架构和数据的安全与隐私等方面的发展趋势进行了展望.  相似文献   

19.
随着GPU通用计算技术应用的不断深入,如何把某些并行计算任务从传统的CPU平台向GPU平台转移,把串行编程模型向并行的流式编程模型转变等,已经成为了研究的热点.讨论了基于GPU的流式编程模型,探讨了基于流式编程模型的GPU与CPU编程之间的差别与联系,最后描述了一种在GPU上的流式缩减操作算法的设计与实现.为把图形处理器应用在通用计算领域提供参考和帮助.  相似文献   

20.
工业大数据是在工业领域信息化应用中所产生的海量数据,作为决策问题服务的大数据集、大数据技术和大数据应用的总称。首先分析工业大数据4V特性与工业数据的特有特征,以及工业大数据来源;从多源异构工业数据集成与数据融合方法、工业大数据计算架构、大数据带来的信息安全等三方面论述工业大数据面临的挑战与潜在价值。探讨了工业大数据分析与挖掘方法,提出了工业大数据平台的计算架构与大数据处理平台,构建轮胎企业大数据资源中心、大数据分析与决策应用系统。从销售数据分析和宏观数据趋势两个层面进行轮胎销售大数据分析与预测。采用多个不同领域的销售数据源来解决销售预测历史数据特征空间稀疏的问题,使用LASSO(The Least Absolute Shrinkage and Selectionator Operator)方法的多任务学习方法来解决高维样本空间的缺点,实验数据验证能够提升轮胎销售预测的准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号