首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
随着各类新型计算技术和新兴应用领域的浮现,传统数据库技术面临新的挑战,正在从适用常规应用的单一处理方法逐步转为面向各类特殊应用的多种数据处理方式.分析并展望了新型数据管理系统的研究进展和趋势,涵盖分布式数据库、图数据库、流数据库、时空数据库和众包数据库等多个领域.具体而言:分布式数据管理技术是支持可扩展的海量数据处理的关键技术;以社交网络为代表的大规模图结构数据的处理需求带来了图数据库技术的发展;流数据管理技术用来应对数据动态变化的管理需求;时空数据库主要用于支持移动对象管理;对多源、异构而且劣质数据源的集成需求催生出新型的众包数据库技术.最后讨论了新型数据库管理系统的未来发展趋势.  相似文献   

2.
复杂事件处理(CEP)是一种针对实时事件流进行检测、处理、分析和挖掘的有效手段。对CEP的核心概念、基本构成要素等进行介绍。梳理CEP技术的主要应用,包括物联网、云计算、网格计算、商业过程管理及计算金融等领域。基于上述应用,阐述基于云计算的分布式并行CEP技术。通过分析流处理系统的需求,指出基于云计算的CEP技术是未来CEP系统发展的一个重要方向。提出一些可采用基于云计算的CEP技术来进行复杂事件流处理的新领域,包括基于CEP技术的电网智能化控制以及仪器控制和智能测量等,对CEP技术应用的新领域具有指导意义。  相似文献   

3.
在对原有星载SAR辐射定标处理系统的开发和认识的基础上,分析星载SAR辐射定标处理系统的领域需求及辐射定标数据的处理流程,并对工作流技术及工作流管理系统机制进行研究.在现有的SAR辐射定标处理系统中引入工作流技术及设计思想,实现系统处理的控制逻辑与具体的实现逻辑分离,及辐射定标数据处理的自动化或半自动化,提高数据处理的效率以及系统的灵活性和适应性.  相似文献   

4.
流连接广泛应用于提取多源流数据之间的关键信息,是大数据处理的重要支撑技术.但连接两条大数据流时大规模的连接谓词计算,使其易成为性能瓶颈.为提高处理性能,流连接系统常采用并行和分布式两种方式扩展.然而,采用多核并行的流连接系统的扩展性受到CPU核数限制,无法应对大规模数据流.采用分布式扩展的流连接系统由于引入分布式框架运...  相似文献   

5.
《软件工程师》2019,(12):5-10
随着对数据处理的实时性要求越来越高,分布式流处理系统应运而生。但是在分布式的集群规模下,各种软硬件原因导致的故障很难避免的。现有的相关基准测试主要关注于分布式流处理系统的处理性能,很少对该类系统处理故障的容错性能进行评测,以至于关键应用在系统选型的时候特别艰难。针对分布式流处理系统的容错性能,本文设计并实现了一套灵活的基准测试框架。最后,本文在开源数据流处理系统ApacheStorm和ApacheFlink进行了容错性能的基准测试,验证定义的测试基准的正确性和有效性,实验结果也表明Flink的容错性能相对较好。  相似文献   

6.
安全是民航领域的第一准则,随着新一代信息技术和机场行业的发展,机场运行产生的业务数据呈爆炸性增长,论文依托大数据存储和处理技术,构建机场应急救援大数据处理平台,能更有效支撑现场指挥,智能决策,遇案推演,趋势预测,舆情监控等各项救援行动需求。通过结合目前国内外民航机场应急救援领域大数据技术的应用现状,梳理机场应急救援需求及数据类别,设计并搭建机场应急救援大数据处理平台整体架构;对大数据处理基础对的名称节点、数据节点进行功能设计,并对大数据平台数据批处理计算、流处理计算等计算需求进行研究,提供具体的处理引擎;分析表明研究成果有助于提高我国民航机场安全运行效率,为民航机场应急救援大数据处理平台提供支撑。  相似文献   

7.
段沛博  张长胜  张斌 《软件学报》2016,27(2):264-279
多agent系统作为分布式人工智能研究领域的重要分支,已被广泛应用于多个领域中复杂系统的建模.而分布式约束优化作为一种多agent系统求解的关键技术,已成为约束推理研究的热点.首先对其适用性进行分析,并基于对已有算法的研究,总结出采用该方法解决问题的基本流程,在此基础上,从解的质量保证、求解策略等角度对算法进行了完整的分类;其次,根据算法分类结果以及执行机制,对大量经典以及近年来的分布式约束优化算法进行了深入分析,并从通信、求解质量、求解效率等方面对典型算法进行了实验对比;最后,结合分布式约束优化技术的求解优势给出了分布式约束优化问题的实际应用特征,总结了目前存在的一些问题,并对下一步工作进行了展望.  相似文献   

8.
针对具有多个数据源以及多个输出的流处理应用,使用单个分布式数据流引擎开发时,不论在架构还是可扩展性方面都存在着不足,而基于事件驱动架构的分布式流处理技术是解决该问题的主要方式.但是,事件驱动架构应用于流处理时,往往面临着数据注入速率与数据处理速率不一致的矛盾,当流数据源的数量发生变化、数据值的分布发生波动时,会导致处理延迟加大或资源利用不充分.针对数据注入与数据处理不一致的问题,现有的弹性资源分配策略难以有效处理生产者和消费者之间的依赖关系,且资源分配效果欠佳.论文提出了一种基于强化学习的弹性资源分配方法,解决了具有依赖关系的流处理应用程序之间的数据波动带来的延迟或者资源利用不充分的问题.通过建立状态矩阵和命令矩阵,使得资源管理器能够感知上下游应用的状态变化,从而及时调整流处理应用的资源需求,保证了流处理应用执行过程的延迟要求,提高了系统的资源利用率.经过测试,基于强化学习的弹性资源分配与Spark动态资源分配方法相比,延迟能减少15%,资源利用率能提高20%以上,其吞吐量能够提高10%左右.  相似文献   

9.
信息系统在进行知识的挖掘和管理时,需要处理各种形式的数据,流数据便是其中之一.流数据具有数据规模大、产生速度快且蕴含的知识具有较强时效性等特点,因而发展支持实时处理应用的流计算技术对于信息系统的知识管理十分重要.流计算系统可以追溯到29世纪90年代,至今已经经历了长足的发展.然而,当前多样化的知识管理需求和新一代的硬件架构为流计算系统带来了全新的挑战和机遇,催生出了一系列流计算领域的技术研究.首先介绍流计算系统的基本需求以及发展脉络,再按照编程接口、执行计划、资源调度和故障容错4个层次分别分析流计算系统领域的相关技术;最后,展望流计算技术在未来可能的研究方向和发展趋势.  相似文献   

10.
王亦雄  廖湖声  孔祥翾  高红雨  苏航 《计算机科学》2017,44(4):140-143, 164
复杂事件处理是支持大数据处理的流式计算平台的核心技术之一。CEStream语言作为一种新型的事件流处理语言,支持分布式环境下的复杂事件处理。该语言以XML等层次化数据为数据模型,为复杂事件检测提供了一种正规树模式匹配功能,并且支持结构连接和正规式匹配。同时,针对分布式的多个事件流,其能够将各个事件源模式匹配的结果按照时间顺序再一次进行正规式模式匹配,满足多源组合型复杂事件的检测需求,具有较强的事件处理能力。为了实现CEStream语言,研制了一个基于流数据处理集群和远端查询代理的执行引擎系统。该系统通过远程查询代理实现基于正规树模式的事件检测,通过流处理集群完成多源组合型复杂事件处理。实验表明,该系统实现了CEStream语言,有效地限制了各个节点之间的通信量,充分利用了集群的计算能力,整体性能能够满足应用需求。  相似文献   

11.
目前RFID复杂事件处理技术的研究主要针对集中式的处理。集中式RFID复杂事件处理技术对于海量RFID数据的处理具有很多局限性,主要表现为网络通讯代价高和处理效率低。针对集中式RFID复杂事件处理存在的问题,本文研究了分布式环境下RFID复杂事件处理的关键算法,采用一种Pull(抽取)类型的数据通讯模型来降低通讯代价,在此基础上提出了两种分布式的RFID复杂事件处理算法。实验结果表明,本文提出的分布式RFID复杂事件处理算法比集中式复杂事件处理算法更有效。  相似文献   

12.
Stream processing systems are designed to analyze data arriving in real time and using continuous queries and respond when a specific event or sequence of events are detected. An important aspect of these systems is Streaming Analytics, which facilitates statistical calculations on continuous data within the stream. These systems must be designed to handle high volumes of data, be scalable, and accommodate a multitude of long‐lived concurrently running analytics. The challenges involved in the development of stream processing include on‐the‐fly transformation of data streams to match the query needs of users and the ability to model stream transformations to detect overlaps and possibilities for optimizations and to specify a methodology to deliver optimizations. In particular, this work focuses on exposing data stream application internals in order to detect reusable parts and then consolidate applications to optimize computational resource usage. The Streaming Data Analytics Model presented in this paper adopts a declarative approach that enables processing and manipulation of data streams in a simple manner while facilitating powerful optimizations necessary for managing high volumes of streaming data in real time. An evaluation is provided to demonstrate in both theoretical and quantitative aspects the high performance offered by our approach.  相似文献   

13.
对主要的流数据模型进行了比较分析,讨论了基于概要结构的流数据处理模型---Synopsis模型。在Synopsis模型的基础上引入移动代理,提出了一种基于移动代理的分布式多流数据处理模型MADSPM。最后对基于MADSPM模型的流数据关联规则挖掘问题中需注意的一些问题进行了阐述与分析。  相似文献   

14.
微博、脸书等社交网络平台涌现的短文本数据流具有海量、高维稀疏、快速可变等特性,使得短文本数据流分类面临着巨大挑战。已有的短文本数据流分类方法难以有效地解决特征高维稀疏问题,并且在处理海量数据流时时间代价较高。基于此,提出一种基于Spark的分布式快速短文本数据流分类方法。一方面,利用外部语料库构建Word2vec词向量模型解决了短文本的高维稀疏问题,并构建扩展词向量库以适应文本的快速可变性,提出一种LR分类器集成模型用于短文本数据流分类,该分类器使用一种FTRL方法实现模型参数的在线更新,并引入时间因子加权机制以适应概念漂移环境;另一方面,所提方法的使用分布式处理提高了海量短文本数据流的处理效率。在3个真实短文本数据流上的实验表明:所提方法在提高分类精度的同时,降低了时间消耗。  相似文献   

15.
Storm on YARN是目前主流的分布式资源调度框架,但其存在需要人工干预和无法根据资源可用性实时调整系统资源的不足。根据流数据处理的实时延迟计算系统负载情况,在Storm平台上基于YARN设计分布式资源调度和协同分配系统。建立包含系统层和任务层的双层调度模型,系统层通过对流数据处理负载的实时监测进行资源分配预测,任务层利用ZooKeeper和YARN对集群资源的高效管理能力进行动态资源管理。实验结果表明,该系统可以实时调整集群资源分布,有效减小系统延迟。  相似文献   

16.
随着高分辨率遥感卫星数据获取能力和地面数传接收能力的提高,现有遥感卫星快视处理系统的处理负载增大,实时性要求越来越难以满足。针对这些问题,采用流式计算思想提出了一种新的遥感卫星数据快视处理系统设计方法。在分析遥感卫星数据快视处理数据流特点的基础上,应用Storm框架对现有系统进行并行优化,设计遥感数据流处理任务拓扑结构,同时利用消息队列中间件Kafka改进处理单元间数据交换和数据缓存方式。实验表明,该系统在数据吞吐率和可靠性方面测试效果良好。  相似文献   

17.
流式数据处理中,数据倾斜等原因易导致计算节点的负载不均衡,降低系统处理能力。传统的负载均衡方法,比如算子分配、算子迁移和负载脱落等技术因为相对较高的性能代价,在流式处理系统中没有得到广泛的应用。针对流式处理系统的特点,提出一种新的负载均衡方法。在该方法中,计算单元的数据被划分为若干分区,并且数据分区可以在计算单元中动态分配和迁移,在较少干扰系统运行的情况下,通过动态调整各计算单元的分区,平衡各个计算单元的输入流和利用率,以此达到负载平衡的目的。在此基础上,设计并实现了流式处理系统的负载均衡算法和数据在线迁移技术。实验结果表明,该方法能够显著减少数据处理的平均延迟,提高系统吞吐量。  相似文献   

18.
在分布式数据流环境中,系统的通信带宽是一种瓶颈资源。在保证查询精度的前提下,有效地减少网络中数据流的传输量是解决这一问题的重要途径。通过分析现有的分布式数据流处理算法,总结出一个通用处理框架,以减少数据流的传输量。通用处理框架包括三个方面:最小化信息传输、使用数据流摘要表示完整信息以及通过预测维持系统的稳定性。  相似文献   

19.
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号