首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 140 毫秒
1.
ETL工作流活动优先级的确定及并行实现*   总被引:1,自引:0,他引:1  
ETL流程是一个以数据为中心的工作流,对ETL工作流的执行过程进行论述,提出了一个算法,计算ETL工作流中各个活动的执行优先级,在工作流执行中为优先级相同且相互之间没有依赖关系的活动集创建多个线程,通过并行执行这些活动,提高了ETL工作流的执行效率。实验结果表明,所提出的并行算法与串行算法比较,在数据量足够大的情况下,加速比可接近理想值,加速比随着数据量增大而提高。  相似文献   

2.
数据仓库ETL任务调度模型研究   总被引:2,自引:0,他引:2  
数据仓库系统包含众多的抽取-转换-加载(ETL)任务,这些任务具有一定的优先约束关系.在多处理机环境下,如何高效地调度这些ETL任务是构建数据仓库需要研究的重要问题.对此,在对数据仓库ETL任务调度规则进行归纳总结的基础上,以数据仓库总的ETL完成时间最短为目标,建立了数据仓库ETL任务调度模型.同时结合问题的特点,采用同层划分的思想,提出基于同层划分遗传算法求解问题的方法.最后,通过应用实例验证了所建立模型和求解算法的可行性和有效性.  相似文献   

3.
基于结构图的ETL过程建模方法*   总被引:4,自引:1,他引:3  
ETL是数据仓库获得高质量数据的重要环节,在数据仓库建设过程中占有极其重要的地位。为了便于ETL过程的设计、维护和修改,提出一种基于结构图的ETL过程建模方法,并依据该方法完成了ETL概念模型的设计。通过图形化ETL过程中的元素和关联,该模型清晰直观地反映了数据的来源和流向、源数据与目标数据之间的映射和转换关系,辅助设计人员更好地进行ETL过程的设计和ETL过程的编码实现,使整个ETL设计过程更加方便、灵活。  相似文献   

4.
针对军械装备保障数据仓库中复杂的ETL过程,提出采用改进的粒子群算法进行ETL任务调度的优化策略;通过改进惯性向量,使其具备动态调整能力,形成更具寻优特性的动态w粒子群算法(DWPSO);在对数据仓库ETL调度过程进行数学化描述的基础上,将改进算法应用在以最小执行时间为目标函数任务调度中,并通过仿真实验证明了该算法的有效性.  相似文献   

5.
基于多Agent与工作流的分布式ETL引擎的研究   总被引:1,自引:0,他引:1  
丁进  郭朝珍 《计算机应用》2009,29(1):319-322
针对传统ETL工具集中式执行方式的不足,提出了一种基于多Agent与工作流相结合的分布式ETL引擎的体系结构。该体系结构由一个主控引擎和多个执行引擎组成,执行引擎可自主地向主控引擎注册执行服务,并利用分布式计算和多线程并行计算技术,实现由多个执行引擎协同执行ETL工作流,从而提高整个系统的灵活性和吞吐率。实验结果表明,该引擎具有较好的可扩展性和负载平衡性能,并提高了执行效率。  相似文献   

6.
数据仓库ETL元模型设计   总被引:2,自引:0,他引:2  
针对传统的ETL(Extract/Transform/Load)开发方法难以满足企业的决策需求,复杂性和高效性是ETL开发面临的两大主要问题.为此,在数据仓库系统统一集成建模框架下,为提高管理质量和快速性,提出一种数据仓库ETL元模型设计方法,取代了以往在特定的数据仓库中对ETL建模的方法,使得ETL过程较早地进入数据仓库设计阶段,实现了ETL与数据仓库在概念层上的无缝融合,减少了开发时间和成本代价.最后通过模型实际应用,验证了方法的可行性和高效性.  相似文献   

7.
本文研究了数据仓库ETL技术,并将ETL技术运用在企业信息集成过程中。本文以PDM和ERP系统为研究对象,阐述了ETL用于数据集成的方法、过程和集成架构。开发了可视化集成开发ETL工具,利用该工具从PDM系统中获取产品结构数据,实现PDM和ERP系统的数据集成。运用ETL技术能够简化企业信息集成开发,具有低耦合性、易于扩展的特点。  相似文献   

8.
结构图ETL概念模型的设计方法   总被引:2,自引:0,他引:2       下载免费PDF全文
ETL过程是数据仓库获得高质量数据的重要环节,是任何数据仓库工程不可缺少的成功因素。为了便于ETL过程的设计和维护,降低ETL过程的设计、维护代价,提出一种基于结构图的ETL概念模型设计方法,给出一个用于描述ETL过程的模型,并基于CWM完成用以存储元数据的ETL元模型的设计。通过图形化ETL过程中的元素和关联,该模型清晰直观地反映了各个源数据库与目标数据仓库的内部结构和组成、数据的来源与流向、源数据和目标数据之间的映射和转换关系,辅助设计人员更好地进行ETL过程的设计和编码实现,使整个ETL的设计与维护过程更加方便、灵活、有效。  相似文献   

9.
对原始数据的提取、转换、加载(ETL)是数据仓库开发的重要步骤。一个稳定而可靠的ETL系统取决于它的总体设计。在原有ETL基础上,提出了元数据驱动ETL的思想,利用包引擎和SQL引擎以及相关算法,对传统ETL的方法进行改进,目的是提高ETL系统的稳定性和可靠性,使用户通过对元数据的维护来控制ETL的执行过程。  相似文献   

10.
许多顶 《福建电脑》2010,26(6):15-16,30
ETL是构建数据仓库过程中极其重要的部分,点击流数据仓库无论在体系结构上,维表与事实表设计上,还是点击流的抽取、转换和装载机制上,都比传统的数据仓库要复杂的多。本文以ETL基本原理出发,构造ETL体系结构,着重分析点击流数据仓库的ETL技术,进行数据抽取,数据转换,以及数据装载的ETL设计,为ETL系统的开发和ETL技术的应用提供了依据。  相似文献   

11.
本文设计了教学管理数据仓库ETL架构,提出了数据仓库的两段迁移法,利用临时数据库来减轻业务数据库压力,有效克服了传统ETL架构的缺陷.本文还详细说明如何利用SQL ServerDTS实现这两阶段ETL过程.  相似文献   

12.
ETL是构建数据仓库的一个非常重要的环节,可以这样认为:ETL就是整个数据仓库系统乃至整个决策支持系统的基石。如何设计高效的ETL过程就成为了众多计划或正在实施数据仓库项目的企业考虑的重要问题。从前期的数据理解阶段入手,分别讨论了数据的抽取、清洗转换、装载等不同阶段需要考虑的设计问题及相应的解决方案。提出了以数据理解为根基,以清洗转换为中心的设计思想,并给出了具体的实施步骤。  相似文献   

13.
本文设计了教学管理数据仓库ETL架构,提出了数据仓库的两段迁移法,利用临时数据库来减轻业务数据库压力,有效克服了传统ETL架构的缺陷。本文还详细说明如何利用SQL Server DTS实现这两阶段ETL过程。  相似文献   

14.
位置编码在数据仓库ETL中的应用   总被引:6,自引:0,他引:6       下载免费PDF全文
为了保证数据仓库中数据的质量,在数据挖掘前必须进行数据清洗。ETL是构建数据仓库的重要环节,数据清洗就包含在其中。而检测和消除数据仓库中的相似重复记录是数据清洗和提高数据质量要解决的关键问题之一。该文将位置编码技术引入到数据仓库ETL中,提出了一种相似重复记录的检测算法,并给出了不同级别匹配阈值的动态确定方法。通过实验表明该算法具有较好的检测效果。  相似文献   

15.
基于电信数据仓库系统的ETL研究与设计   总被引:4,自引:0,他引:4  
电信行业大都建立了自己的数据仓库系统,而建立数据仓库的最重要环节便是数据的抽取、转换和加载ETL(Extracting、Transformation、Loading).通过对现有ETL系统的分析研究,设计并部分实现了基于某省电信公司数据仓库的ETL系统.采取XML格式编辑整个ETL过程,实现部分图形化交互界面,并针对电信系统大数据量的特点,提出性能优化及改进的方法,提高了ETL效率.  相似文献   

16.
In data warehousing, Extract, Transform, and Load (ETL) processes are in charge of extracting the data from the data sources that will be contained in the data warehouse. Their design and maintenance is thus a cornerstone in any data warehouse development project. Due to their relevance, the quality of these processes should be formally assessed early in the development in order to avoid populating the data warehouse with incorrect data. To this end, this paper presents a set of measures with which to evaluate the structural complexity of ETL process models at the conceptual level. This study is, moreover, accompanied by the application of formal frameworks and a family of experiments whose aim is to theoretical and empirically validate the proposed measures, respectively. Our experiments show that the use of these measures can aid designers to predict the effort associated with the maintenance tasks of ETL processes and to make ETL process models more usable. Our work is based on Unified Modeling Language (UML) activity diagrams for modeling ETL processes, and on the Framework for the Modeling and Evaluation of Software Processes (FMESP) framework for the definition and validation of the measures.  相似文献   

17.
数据仓库中ETL技术的探讨与实践   总被引:9,自引:0,他引:9  
支持数据抽取、转换、清洗和装载的工具集对任何数据仓库工程都是一个必不可少的关键部件。本文重点探讨了ETL技术以及ETL工具的选择原则,并结合具体实例详细介绍了ETL过程的设计和实现方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号