共查询到19条相似文献,搜索用时 78 毫秒
1.
ETL(Extraction-Transformation-Loading)是建立数据仓库的重要一环。通用应用ETL工具应能够适应不同领域不同需求的业务,无论是针对多样化异构的数据源,还是针对复杂变化的转换逻辑,都能够给予很好的支持。研究ETL工具的技术难点,提出一种通用ETL工具的设计框架,并对每个模块做了详细分析,在所承担项目中给出了具体实现。 相似文献
2.
ETL工作流活动优先级的确定及并行实现* 总被引:1,自引:0,他引:1
ETL流程是一个以数据为中心的工作流,对ETL工作流的执行过程进行论述,提出了一个算法,计算ETL工作流中各个活动的执行优先级,在工作流执行中为优先级相同且相互之间没有依赖关系的活动集创建多个线程,通过并行执行这些活动,提高了ETL工作流的执行效率。实验结果表明,所提出的并行算法与串行算法比较,在数据量足够大的情况下,加速比可接近理想值,加速比随着数据量增大而提高。 相似文献
3.
目前,随着企业信息的集成交换需求越来越频繁,使得大型报表系统研究中主要存在以下缺陷:前端数据源的分析处理能力低,导致报表生成和维护时间过长.文中在报表系统中引进了ETL技术对前端异构数据进行有效的汇总、分析和数据的抽取转换加载,缩短了报表系统中数据的处理时间,提高了报表生成的速度和效率,使得报表系统的通用化得到加强.同时引入了XML技术实现了抽取和转换规则的定义,使得ETL模块具备良好的通用性和可扩展性. 相似文献
4.
ETL过程是数据仓库获得高质量数据的重要环节,是任何数据仓库工程不可缺少的成功因素。为了便于ETL过程的设计和维护,降低ETL过程的设计、维护代价,提出一种基于结构图的ETL概念模型设计方法,给出一个用于描述ETL过程的模型,并基于CWM完成用以存储元数据的ETL元模型的设计。通过图形化ETL过程中的元素和关联,该模型清晰直观地反映了各个源数据库与目标数据仓库的内部结构和组成、数据的来源与流向、源数据和目标数据之间的映射和转换关系,辅助设计人员更好地进行ETL过程的设计和编码实现,使整个ETL的设计与维护过程更加方便、灵活、有效。 相似文献
5.
面向数据集成的ETL系统设计与实现 总被引:9,自引:1,他引:8
ETL是一类用于从一个或多个业务数据库中抽取数据,进行清理转换并加载到数据仓库中的工具。这个数据抽取、转换和加载的过程能够很好地应用于数据集成领域中,实现不同机构之间数据的交换与整合。通过分析数据集成的一些特点,我们提出了一个ETL过程模型,开发了一个面向数据集成的ETL系统DataIntegrator。本文对ETL过程模型、系统总体结构及若干关键技术进行论述。DataIntegrator已经应用于信息系统的建设中,为企业应用集成提供了很好的支持。 相似文献
6.
7.
8.
ETL技术在商业智能中的应用 总被引:2,自引:0,他引:2
ETL过程是整个商业智能系统实施的关键,因为商业智能中数据的正确性和有效性需要ETL过程来保证。同时,整个商业智能系统开发中70%左右的时间和工作量都花费在ETL过程的设计和实施上。本文分析了商业智能系统的基本架构.总结了商业智能系统中ETL设计的基本原则,阐述了商业智能系统中ETL设计的基本步骤,列举了ETL设计中的关键以及笔者积累的相关经验,对从事ETL设计的人员有一定的参考价值。 相似文献
9.
ETL中的数据增量抽取机制研究 总被引:7,自引:0,他引:7
为实现数据仓库中数据的高效更新,探讨了在数据仓库的ETL(数据的抽取、转换和装载)子系统中进行数据增量抽取时所采用的常见机制,对这些机制的原理、条件、方法以及运行效率等方面进行了详细的阐述,并从兼容性、完备性、性能和侵入性4个方面分析和比较了各种数据增量抽取机制的优劣性.最后,总结了选取数据增量抽取机制所应遵循的主要原则和标准. 相似文献
10.
基于结构图的ETL过程建模方法 总被引:4,自引:1,他引:3
ETL是数据仓库获得高质量数据的重要环节,在数据仓库建设过程中占有极其重要的地位。为了便于ETL过程的设计、维护和修改,提出一种基于结构图的ETL过程建模方法,并依据该方法完成了ETL概念模型的设计。通过图形化ETL过程中的元素和关联,该模型清晰直观地反映了数据的来源和流向、源数据与目标数据之间的映射和转换关系,辅助设计人员更好地进行ETL过程的设计和ETL过程的编码实现,使整个ETL设计过程更加方便、灵活。 相似文献
11.
把网格和高性能计算结合起来,基于网格高性能计算平台的并行计算系统(GPCS),主要介绍了GPCS的体系结构、功能及其设计、实现等几个主要的问题。该平台以通用网络为基础,以网格平台中间件为桥梁,实现了各种高性能计算资源之间的互联互通、共享和协同工作。 相似文献
12.
以指挥决策支持系统为背景,构建一个专门针对该系统设计的ETL组件,由此提出专用ETL组件的“ETL+元知识库+交互式环境”的构建模式。该组件采用基于CWM建模的方式来优化对ETL元数据的提取并缩短开发周期。基于领域知识的匹配转换及交互式可扩展环境具有提高数据清洗转换效率,实现复杂转换逻辑的优势,并为各个决策支持系统构建自己的专用ETL组件提供参考。 相似文献
13.
14.
针对典型RFID室内定位算法普遍存在计算量大、实时性差等问题,通过对基于虚拟信号强度的RFID室内定位算法中路径损耗指数N、虚拟标签RSSI估计以及定位过程等并行化特点分析,从任务分解、任务映射和任务合并等方面给出了并行化计算的解决方案。同时,在虚拟参考标签RSSI值计算和定位匹配过程中,提出了基于区域划分的并行定位处理方法。实验结果表明该方法具有较高的实时性和加速比,而且与串行化算法相比具有较高的稳定性。 相似文献
15.
ETL是数据仓库获得高质量数据的关键环节,在数据仓库的构建和实施中占有重要地位。针对传统ETL串行执行方式的不足,提出一种基于Agent和活动优先度相结合的ETL并行执行方法。该方法计算ETL执行过程中各个活动的优先度,利用Agent理论和多线程并行计算技术实现并行执行具有相同优先度且相互间没有依赖关系的ETL活动。实验结果表明,该方法在数据量较大时具有较好的加速比,提高了ETL过程的执行效率。 相似文献
16.
对原始数据的提取、转换、加载(ETL)是数据仓库开发的重要步骤。一个稳定而可靠的ETL系统取决于它的总体设计。在原有ETL基础上,提出了元数据驱动ETL的思想,利用包引擎和SQL引擎以及相关算法,对传统ETL的方法进行改进,目的是提高ETL系统的稳定性和可靠性,使用户通过对元数据的维护来控制ETL的执行过程。 相似文献
17.
图数据库在解决多层关系查询、社区发现等问题时性能优于关系数据库。然而目前大量的数据以关系数据的形式存储,如何高效完整地进行关系数据到图数据的ETL,即抽取、转换、加载,是图数据库应用领域研究的重要问题。国内外对该问题有了一些研究,但存在转换后的图数据质量不高、转换效率低、转换结果不利于分布式存储等问题。因此,提出基于子模式的关系数据到图数据ETL方法,改进原有ETL方法的流程和算法。该方法将关系数据库模式拆分为若干个子模式,并行进行ETL。不仅提高了ETL的效率,转换结果能满足图数据的分布式存储要求,也可以作为Spark GraphX计算框架的基础数据。最后,使用Java EE和Neo4j开发了原型系统,并进行了实验验证。结果表明,改进后的ETL方法获得了较已有方法更好的转化性能。 相似文献
18.
19.
以ANSYS和FLUENT为例,分析了商业软件在工作站机群并行运行的优势.将并行运行与网格计算相结合,提出了两者结合的软件结构和硬件结构,实现了并行计算资源的Web发布,从而提高商业软件和高性能计算资源的利用率,为大规模科学工程计算提供了良好的运算平台.同时平台实现用户认证,过载保护和实时监控功能. 相似文献