首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 140 毫秒
1.
数据仓库ETL元模型设计   总被引:2,自引:0,他引:2  
针对传统的ETL(Extract/Transform/Load)开发方法难以满足企业的决策需求,复杂性和高效性是ETL开发面临的两大主要问题.为此,在数据仓库系统统一集成建模框架下,为提高管理质量和快速性,提出一种数据仓库ETL元模型设计方法,取代了以往在特定的数据仓库中对ETL建模的方法,使得ETL过程较早地进入数据仓库设计阶段,实现了ETL与数据仓库在概念层上的无缝融合,减少了开发时间和成本代价.最后通过模型实际应用,验证了方法的可行性和高效性.  相似文献   

2.
为了构建支持企业决策分析的数据仓库,分析了传统数据仓库模型的局限性,提出了一个基于统一视图模型的数据仓库体系结构。该体系结构是在传统数据仓库模型的数据源和数据仓库之间增加一个统一标准层,并利用统一视图—资源数据和数据仓库—统一视图的两级映射,保证了数据的透明访问和模型本身良好的可用性,进而支持灵活的多数据仓库的构建。基于该体系结构,给出了统一视图模型的建立和数据仓库三层之间两级映射的方法,提出了一种新的基于统一视图模型的数据映射—抽取—装载数据仓库ETL建模过程,并开发了相应的数据仓库构建系统。应用表明,  相似文献   

3.
刘佳俊  喻钢  胡珉 《计算机应用》2017,37(10):2983-2990
针对运维大数据维度高、形式多样化和变化迅速等特性,为提高数据融合效率以及平台的数据统计和决策分析性能,降低抽取-转换-加载(ETL)执行时间开销和数据中心负担,面向智慧管养需求提出一种多层次任务调度(MTS)ETL框架(MTS-ETL)。首先,将数据仓库分为数据临时区、数据仓储区、数据分类区和数据分析区,并根据所分区域将完整的ETL过程划分为4个层次的ETL任务调度环节,同时设计了多频率ETL运行调度以及顺序和非顺序两种ETL工作模式;接着,基于MTS-ETL框架的非顺序工作模式进行数据融合的概念建模、逻辑建模和物理建模;最后,利用Pentaho Data Integration设计ETL转换模块和工作模块以实现数据融合方法。在交通流量数据融合实验中,该方法融合136754条数据的时间仅为28.4s;在千量级的数据融合实验中比传统ETL方法的总平均执行时间降低了6.51%;报表分析结果表明其在融合400万条数据时依然能保证ETL过程的可靠性。所提方法能够有效融合运维大数据,提高平台统计分析性能,并维持ETL执行时间开销在较低水平。  相似文献   

4.
ETL包含数据的抽取、转换、加载三个部分,是构建数据仓库的重要环节。为解决异构数据源集成问题,本文提出了基于元数据的数据交换系统,并在该基础上阐述了数据交换系统中的任务设计模型和任务调度模型。最后介绍了数据交换系统中的主要算法以及设计模式。  相似文献   

5.
针对军械装备保障数据仓库中复杂的ETL过程,提出采用改进的粒子群算法进行ETL任务调度的优化策略;通过改进惯性向量,使其具备动态调整能力,形成更具寻优特性的动态w粒子群算法(DWPSO);在对数据仓库ETL调度过程进行数学化描述的基础上,将改进算法应用在以最小执行时间为目标函数任务调度中,并通过仿真实验证明了该算法的有效性.  相似文献   

6.
ETL系统的设计和实现技术研究   总被引:2,自引:0,他引:2  
ETL系统是构建数据仓库过程中极其重要的部分.以ETL基本原理和标准出发,从实践角度设计ETL系统的模型框架,包括调度和抽取模型,其中抽取模型是采用抽取-传输-缓冲-合并的方法,有效地解决了异构数据源抽取问题.在以保险行业为背景的项目中进行了应用,并取得较好的效果.  相似文献   

7.
一种轻量级架构的ETL系统设计与实现   总被引:2,自引:2,他引:0  
ETL系统是构建数据仓库的关键组件.通过数据抽取、转换和装载工作,完成处理海量数据和构建数据仓库的任务.如何提高数据处理效率和增强系统稳定性是值得研究的问题.根据电信资源数据省级集中分析系统下的实际应用背景,提出了一种轻量级架构的ETL系统,该架构采取的是"化整为零"的思想,把原先核心的抽取和转换的任务部分划分到各个相应的子系统中做初步的处理,这样处理的优点在于应用中减轻了核心ETL引擎的承载负担,各个抽取任务单独进行互不依赖,提高了抽取效率.通过在具体应用环境下系统运行表明采用该架构ETL系统具良好的使用效果.  相似文献   

8.
张娜  蒋旻 《福建电脑》2009,(12):107-108
正确、有效的ETL(extract~Transform—Load)过程是提高数据仓库数据质量,保证数据分析的基础。在目前商务智能系统的实施中,ETL过程成为项目成败的关键因素。本文以进出口贸易公司数据为例,结合数据仓库存储设计、数据库多重粒度划分,提出一种面向数据仓库的ETL多层实现策略,为有效的进行数据挖掘和决策分析提供有力支撑。  相似文献   

9.
郑传钦  陈维斌 《福建电脑》2007,(11):118-119
随着数据仓库的广泛建立,数据仓库系统的核心-用于数据仓库数据加载和刷新维护的ETL技术越来越重要,本文试图通过对个人客户经理考核系统的设计来分析ETL技术的具体应用.  相似文献   

10.
王振宇  李照瑜 《软件学报》2013,24(2):378-390
提出单层树型网格下单位独立任务的周期性调度方法,单位独立任务是大小相等的独立任务.首先,为单层树型网格下的单位独立任务调度建立线性规划模型,通过分析整数线性规划求解过程,发现一个单层树型网格平台在节点构成不同时,分别具有非饱和态、临界态或冗余态特征;并且,随着网格节点上任务数的增多,线性规划最优解呈线性增长,任务调度具有周期性特性.据此给出非饱和态、临界态或冗余态网格的定义、性质和判定方法,推导出单位独立任务调度的周期长度.最后,分析了周期性调度的时间复杂性,提出一种周期性调度算法Periodic-Sched.实验结果表明,周期性调度是有效的.单位独立任务的周期性调度将大规模的任务调度问题简化为一个周期内的任务调度,降低了调度问题的复杂度.该调度方法适用于对Hadoop平台的Map任务进行调度.  相似文献   

11.
JPPF在构建高性能ETL过程中的应用   总被引:1,自引:0,他引:1  
数据仓库中数据规模的不断膨胀和数据实时性需求的提高使得对ETL过程性能要求越来越高.通过对并行处理框架JPPF分析,提出了利用JPPF构建高性能ETL系统架构方案和一种ETL数据处理任务提交算法.经过测试和性能对比证明了该方案在处理包含大规模计算任务的ETL过程优势明显.  相似文献   

12.
在数据生产速度波动较大的场景,为了实时ETL资源利用更合理,提出基于稳定匹配的ETL弹性调度机制。预测数据源的数据生产速度,并计算满足预测值的消费数据速度;使用贪婪负载均衡算法,调整ETL服务个数使节点负载均衡;确定ETL操作匹配关系,使消费数据速度最大且代价最小。该调度机制将匹配问题转化为最小费用最大流问题,并提出基于Dicnic算法的改进算法。实验结果表明,该调度机制在资源使用方面具有优势。  相似文献   

13.
In data warehousing, Extract, Transform, and Load (ETL) processes are in charge of extracting the data from the data sources that will be contained in the data warehouse. Their design and maintenance is thus a cornerstone in any data warehouse development project. Due to their relevance, the quality of these processes should be formally assessed early in the development in order to avoid populating the data warehouse with incorrect data. To this end, this paper presents a set of measures with which to evaluate the structural complexity of ETL process models at the conceptual level. This study is, moreover, accompanied by the application of formal frameworks and a family of experiments whose aim is to theoretical and empirically validate the proposed measures, respectively. Our experiments show that the use of these measures can aid designers to predict the effort associated with the maintenance tasks of ETL processes and to make ETL process models more usable. Our work is based on Unified Modeling Language (UML) activity diagrams for modeling ETL processes, and on the Framework for the Modeling and Evaluation of Software Processes (FMESP) framework for the definition and validation of the measures.  相似文献   

14.
Data sources (DSs) being integrated in a data warehouse frequently change their structures/schemas. As a consequence, in many cases, an already deployed ETL workflow stops its execution, yielding errors. Since in big companies the number of ETL workflows may reach dozens of thousands and since structural changes of DSs are frequent, an automatic repair of an ETL workflow after such changes is of high practical importance. In our approach, we developed a framework, called E-ETL, for handling the evolution of an ETL layer. In the framework, an ETL workflow is semi-automatically or automatically (depending on a case) repaired as the result of structural changes in DSs, so that it works with the changed DSs. E-ETL supports two different repair methods, namely: (1) user defined rules, (2) and Case-Based Reasoning. In this paper, we present how Case-Based Reasoning may be applied to repairing ETL workflows. In particular, we contribute an algorithm for selecting the most suitable case for a given ETL evolution problem. The algorithm applies a technique for reducing cases in order to make them more universal and capable of solving more problems. The algorithm has been implemented in prototype E-ETL and evaluated experimentally. The obtained results are also discussed in this paper.  相似文献   

15.
一种可靠的数据仓库中ETL策略与架构设计   总被引:18,自引:0,他引:18  
作为数据仓库系统的关键部件,ETL完成数据抽取、清洗、转换和装载的工作,它是构建数据仓库的重要环节,同时也是构建数据仓库过程中出现问题最多的环节,所以针对这点,该文给出了一个可靠的同时易于扩展的ETL策略和架构。文章首先简单地介绍了数据仓库技术和ETL技术,包括ETL的相关概念、ETL在数据仓库中的功能和重要地位;然后重点介绍了这种ETL的具体策略和架构设计。  相似文献   

16.
黄怀毅  杨路明 《微机发展》2008,18(6):202-205
ETL系统是构建数据仓库的关键组件。通过数据抽取、转换和装载工作,完成处理海量数据和构建数据仓库的任务。如何提高数据处理效率和增强系统稳定性是值得研究的问题。根据电信资源数据省级集中分析系统下的实际应用背景,提出了一种轻量级架构的ETL系统,该架构采取的是“化整为零”的思想,把原先核心的抽取和转换的任务部分划分到各个相应的子系统中做初步的处理,这样处理的优点在于应用中减轻了核心ETL引擎的承载负担,各个抽取任务单独进行互不依赖,提高了抽取效率。通过在具体应用环境下系统运行表明采用该架构ETL系统具良好的使用效果。  相似文献   

17.
随着分布式数据环境越来越复杂,ETL工具要面临数据源多、分布地域广和海量数据等因素带来的挑战。原有的集中式ETL工作流优化理论不能满足现在复杂数据环境的要求。介绍了如何将基于置换的离散型粒子群算法应用到分布式ETL任务优化调度问题上,主要工作围绕ETL工作调度模型、算法编码设计、目标函数选择等内容来展开,给出了分布式ETL工作调度策略的实现过程和伪代码。理论分析和实验证明了实际应用的有效可行性。  相似文献   

18.
Ye  Xin  Li  Jia  Liu  Sihao  Liang  Jiwei  Jin  Yaochu 《Natural computing》2019,18(4):735-746

Aiming to solve the problem of instance-intensive workflow scheduling in private cloud environment, this paper first formulates a scheduling optimization model considering the communication time between tasks. The objective of this model is to minimize the execution time of all workflow instances. Then, a hybrid scheduling method based on the batch strategy and an improved genetic algorithm termed fragmentation based genetic algorithm is proposed according to the characters of instance-intensive cloud workflow, where task priority dispatching rules are also taken into account. Simulations are conducted to compare the proposed method with the canonical genetic algorithm and two heuristic algorithms. Our simulation results demonstrate that the proposed method can considerably enhance the search efficiency of the genetic algorithm and is able to considerably outperform the compared algorithms, in particular when the number of workflow instances is high and the computational resource available for optimization is limited.

  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号