首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
针对Simitsis[1,2]等人提出的ETL过程优化算法中存在不足之处,提出了改进的启发式搜索算法,实验证明改进后的算法较好地降低了实际执行的代价,解决了原算法的短视性。  相似文献   

2.
ETL执行过程的优化研究   总被引:2,自引:0,他引:2  
提出了一个ETL(Extraction-Transformation-Loading)优化框架并对ETL过程的逻辑优化进行了研究,把优化问题建模成状态空间搜索问题。每个ETL工作流看作一种状态,通过一系列正确的状态变换来构造状态空间,并且提出算法来获得最小执行时间的ETL工作流。理论分析和实践表明其具有良好效果。  相似文献   

3.
ETL工具从异构数据源抽取数据,并将数据清洗、规范化后装载入数据仓库.数据源的多样性及数据集的复杂性为ETL工具的设计提出了挑战.本文设计并实现了一种基于微软DirectShow技术的ETL工具框架,使用通用数据访问接口屏蔽数据源的差异.将转换图的概念引入ETL工具的设计中,灵活应对复杂的ETL转换.  相似文献   

4.
针对目前校园由于缺乏统一的数据规划导致各应用系统数据标准不一致,难以共享使用,出现了一个个的“信息孤岛”的现象,ETL通过建立底层数据交换平台来联系各个异构系统、应用、数据源,实现无缝共享和交换数据的需要。  相似文献   

5.
针对目前校园由于缺乏统一的数据规划导致各应用系统数据标准不一致,难以共享使用,出现了一个个的"信息孤岛"的现象,ETL通过建立底层数据交换平台来联系各个异构系统、应用、数据源,实现无缝共享和交换数据的需要。  相似文献   

6.
基于移动行业的ETL方法及策略探讨   总被引:2,自引:1,他引:2  
基于移动行业的数据仓库,对数据抽取、数据转换、数据装载和数据审计的方法和策略进行了探讨,这些方法和策略对其他行业数据仓库的构建具有借鉴作用。  相似文献   

7.
数据的集成与交换,对企业的管理和决策意义重大.数据集成和交换必须解决抽取、转换和加载,但过去的异构系统很难实现,从需求分析、系统设计和系统实现3个方面,设计了一种针对数据抽取、转换和装载(Extract、Transform、Load)的ETL工具.根据ETL工具的综合要求,通过结构化分析需求,构建了系统逻辑模型;设计了...  相似文献   

8.
ETL架构研究   总被引:18,自引:0,他引:18  
ETL(Extract、Transform、Loading)是企业数据中心(EDC)建设过程中必不可少的、最重要的环节。传统的采集模式中,整个ETL过程在一起被顺序的执行,这样对于有许多采集点(数据源)来说降低了工作效率,同时也增加了ETL的编写难度。本文提出一种新的ETL方式,通过增加中间层——临时数据存储区,把ETL的三个过程拆开,形成三个独立的服务进程,采集服务进程、装载服务进程和转换服务进程,达到提升数据抽取、转换和装载的效率,同时降低ETL代码编写的复杂度。  相似文献   

9.
刘强  翁惠玉 《计算机工程》2004,30(Z1):30-31
基于电信行业的数据仓库,对其数据抽取、数据转换和数据装载的实现方法进行了探讨,这些方法对其他行业数据仓库的构建具有 借鉴作用。  相似文献   

10.
基于本体的ETL设计研究   总被引:1,自引:0,他引:1  
吴飞  邢桂芬  邢玉萍 《计算机工程与设计》2007,28(7):1517-1519,1571
提出了一种基于本体的ETL设计方法,通过建立各数据源的局部本体和目标数据仓库的全局本体以及本体间的映射,得出以OWL表示的各数据源和目标的映射关系.用本体元数据指导数据抽取,转换和加载过程,解决数据源ETL过程中的语义异构问题,实现了企业数据语义程度的集成.  相似文献   

11.
ETL工作流活动优先级的确定及并行实现*   总被引:1,自引:0,他引:1  
ETL流程是一个以数据为中心的工作流,对ETL工作流的执行过程进行论述,提出了一个算法,计算ETL工作流中各个活动的执行优先级,在工作流执行中为优先级相同且相互之间没有依赖关系的活动集创建多个线程,通过并行执行这些活动,提高了ETL工作流的执行效率。实验结果表明,所提出的并行算法与串行算法比较,在数据量足够大的情况下,加速比可接近理想值,加速比随着数据量增大而提高。  相似文献   

12.
Extract-transform-load (ETL) workflows model the population of enterprise data warehouses with information gathered from a large variety of heterogeneous data sources. ETL workflows are complex design structures that run under strict performance requirements and their optimization is crucial for satisfying business objectives. In this paper, we deal with the problem of scheduling the execution of ETL activities (a.k.a. transformations, tasks, operations), with the goal of minimizing ETL execution time and allocated memory. We investigate the effects of four scheduling policies on different flow structures and configurations and experimentally show that the use of different scheduling policies may improve ETL performance in terms of memory consumption and execution time. First, we examine a simple, fair scheduling policy. Then, we study the pros and cons of two other policies: the first opts for emptying the largest input queue of the flow and the second for activating the operation (a.k.a. activity) with the maximum tuple consumption rate. Finally, we examine a fourth policy that combines the advantages of the latter two in synergy with flow parallelization.  相似文献   

13.
刘娜嘉  朱力 《计算机工程》2007,33(19):283-284,F0003
通过讨论数据提取、转换、加载(ETL)技术在上海水路客运票务系统项目中的实践应用,说明了ETL技术的特点、本质及其重要性。其中,ETL的具体应用包括数据查找、变更以及维护。采用ETL技术可以使数据库系统完全分离,大大减轻了数据汇总查询对实时票务系统的负荷,提高了查询分析速度。  相似文献   

14.
ETL执行的流水线优化   总被引:6,自引:1,他引:6  
ETL工具是构建和维护数据仓库的基本构件,由于它处理的是海量数据.如何有效地加快响应时间成为值得研究的问题.本文提出了ETL过程的“主表衍生”模式.并针对这种模式采用流水线算法来提高并行性从而加快ETL过程的响应时间,理论分析和实验表明具有好的效果.  相似文献   

15.
数据ETL(Data Extraction,Transformation and Loading)主要用来实现异构多数据源的数据集成,是数据仓库、数据挖掘以及商业智能等技术的基石,具有数据抽取、数据转换和数据装载功能。本文综述了ETL发展的背景、目前广泛研究的领域,论述了ETL在异构数据源集成和脏数据的检测与解决两方面面临的挑战,指出ETL将呈现出通用化、高效化、智能化三大发展趋势。  相似文献   

16.
基于OLE DB的数据抽取、转换和装入工具的设计与实现   总被引:10,自引:1,他引:10  
本文讨论了如何利用 OL E DB接口设计与实现数据 ETL工具 .按照面向对象的开发方法 ,通过 COM技术实现 OL E DB接口和 DTS接口 ,能够迅速地实现一个具有良好可扩展性的数据 ETL 工具  相似文献   

17.
ETL中的数据增量抽取机制研究   总被引:7,自引:0,他引:7  
为实现数据仓库中数据的高效更新,探讨了在数据仓库的ETL(数据的抽取、转换和装载)子系统中进行数据增量抽取时所采用的常见机制,对这些机制的原理、条件、方法以及运行效率等方面进行了详细的阐述,并从兼容性、完备性、性能和侵入性4个方面分析和比较了各种数据增量抽取机制的优劣性.最后,总结了选取数据增量抽取机制所应遵循的主要原则和标准.  相似文献   

18.
黄怀毅  杨路明 《微机发展》2008,18(6):202-205
ETL系统是构建数据仓库的关键组件。通过数据抽取、转换和装载工作,完成处理海量数据和构建数据仓库的任务。如何提高数据处理效率和增强系统稳定性是值得研究的问题。根据电信资源数据省级集中分析系统下的实际应用背景,提出了一种轻量级架构的ETL系统,该架构采取的是“化整为零”的思想,把原先核心的抽取和转换的任务部分划分到各个相应的子系统中做初步的处理,这样处理的优点在于应用中减轻了核心ETL引擎的承载负担,各个抽取任务单独进行互不依赖,提高了抽取效率。通过在具体应用环境下系统运行表明采用该架构ETL系统具良好的使用效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号