首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
ETL是构建数据仓库的一个非常重要的环节,可以这样认为:ETL就是整个数据仓库系统乃至整个决策支持系统的基石。如何设计高效的ETL过程就成为了众多计划或正在实施数据仓库项目的企业考虑的重要问题。从前期的数据理解阶段入手,分别讨论了数据的抽取、清洗转换、装载等不同阶段需要考虑的设计问题及相应的解决方案。提出了以数据理解为根基,以清洗转换为中心的设计思想,并给出了具体的实施步骤。  相似文献   

2.
基于元数据驱动的ETL架构设计   总被引:1,自引:0,他引:1  
ETL(Extract-Transform-Load)是数据仓库获得高质量数据的重要环节,一个设计良好、功能强大的ETL工具对于构建一个数据质量、结构良好的数据仓库有着重要意义。首先分析了传统ETL架构的局限性以及元数据管理对ETL过程的重要性,然后对传统的ETL架构进行改进,结合元数据管理思想,提出并设计了一种新的基于元数据驱动的ETL架构。结果表明,该ETL架构通过增加数据中转区并使整个ETL过程在元数据的指导下进行,有效保证了数据仓库的数据质量,提高了数据装载的效率,减轻了数据源和目标数据库的压力,增加了数据转换的灵活性和可靠性。  相似文献   

3.
数据仓库中的数据不是传统数据库中数据的简单堆积,它是一个复杂的容纳数据集成的系统工程,为决策者提供访问、分析及共享信息的能力,从而发挥数据仓库的真正功效。本文针对于零售业,阐述了在零售业数据仓库系统中ETL的流程并结合实际应用提出了在零售业数据仓库系统中的ETL过程应考虑的诸多问题及解决方案。  相似文献   

4.
ETL过程的思考   总被引:2,自引:1,他引:1  
ETL是构建数据仓库的一个非常重要的环节,可以这样认为:ETL就是整个数据仓库系统乃至整个决策支持系统的基石.如何设计高效的ETL过程就成为了众多计划或正在实施数据仓库项目的企业考虑的重要问题.从前期的数据理解阶段入手,分别讨论了数据的抽取、清洗转换、装载等不同阶段需要考虑的设计问题及相应的解决方案.提出了以数据理解为根基,以清洗转换为中心的设计思想,并给出了具体的实施步骤.  相似文献   

5.
结构图ETL概念模型的设计方法   总被引:2,自引:0,他引:2       下载免费PDF全文
ETL过程是数据仓库获得高质量数据的重要环节,是任何数据仓库工程不可缺少的成功因素。为了便于ETL过程的设计和维护,降低ETL过程的设计、维护代价,提出一种基于结构图的ETL概念模型设计方法,给出一个用于描述ETL过程的模型,并基于CWM完成用以存储元数据的ETL元模型的设计。通过图形化ETL过程中的元素和关联,该模型清晰直观地反映了各个源数据库与目标数据仓库的内部结构和组成、数据的来源与流向、源数据和目标数据之间的映射和转换关系,辅助设计人员更好地进行ETL过程的设计和编码实现,使整个ETL的设计与维护过程更加方便、灵活、有效。  相似文献   

6.
使用ETL过程将数据源数据装载到数据仓库,大多数时候是向数据仓库中追加数据,但有时也需要删除一些数据,以维持数据仓库中数据的正确性.文章结合Oracle ETL工具的装载特点提出了一种对增量数据进行预处理的方法,以实现有删除数据的ETL装载,并给出了具体的设计.  相似文献   

7.
基于结构图的ETL过程建模方法*   总被引:4,自引:1,他引:3  
ETL是数据仓库获得高质量数据的重要环节,在数据仓库建设过程中占有极其重要的地位。为了便于ETL过程的设计、维护和修改,提出一种基于结构图的ETL过程建模方法,并依据该方法完成了ETL概念模型的设计。通过图形化ETL过程中的元素和关联,该模型清晰直观地反映了数据的来源和流向、源数据与目标数据之间的映射和转换关系,辅助设计人员更好地进行ETL过程的设计和ETL过程的编码实现,使整个ETL设计过程更加方便、灵活。  相似文献   

8.
许多顶 《福建电脑》2010,26(6):15-16,30
ETL是构建数据仓库过程中极其重要的部分,点击流数据仓库无论在体系结构上,维表与事实表设计上,还是点击流的抽取、转换和装载机制上,都比传统的数据仓库要复杂的多。本文以ETL基本原理出发,构造ETL体系结构,着重分析点击流数据仓库的ETL技术,进行数据抽取,数据转换,以及数据装载的ETL设计,为ETL系统的开发和ETL技术的应用提供了依据。  相似文献   

9.
ETL实施的数据质量问题研究   总被引:1,自引:0,他引:1  
对数据仓库中数据质量的重要评价指标进行了介绍,对ETL实施时在数据源端和ETL过程中可能面临的数据质量问题进行了分析.对部分常见的数据质量问题给出了相应的解决方法。  相似文献   

10.
张娜  蒋旻 《福建电脑》2009,(12):107-108
正确、有效的ETL(extract~Transform—Load)过程是提高数据仓库数据质量,保证数据分析的基础。在目前商务智能系统的实施中,ETL过程成为项目成败的关键因素。本文以进出口贸易公司数据为例,结合数据仓库存储设计、数据库多重粒度划分,提出一种面向数据仓库的ETL多层实现策略,为有效的进行数据挖掘和决策分析提供有力支撑。  相似文献   

11.
ETL作为BI/DW的核心和灵魂,是负责完成数据从数据源向目标数据仓库转化的过程,是实施银行数据仓库的重要步骤。为了确保数据的质量,在ETL过程当中会加上”数据清洗”功能。在数据清洗之前需要进行数据质量分析。以找出存在问题的数据。数据质量分析可以衡量前端分析所基于的数据的可信度,是分析结果正确的保证。本文分析了银行信用评估系统数据质量分析的方法以及数据质量分析的指导原则。  相似文献   

12.
ETL是数据仓库获得高质量数据的关键环节,在数据仓库的构建和实施中占有重要地位。针对传统ETL串行执行方式的不足,提出一种基于Agent和活动优先度相结合的ETL并行执行方法。该方法计算ETL执行过程中各个活动的优先度,利用Agent理论和多线程并行计算技术实现并行执行具有相同优先度且相互间没有依赖关系的ETL活动。实验结果表明,该方法在数据量较大时具有较好的加速比,提高了ETL过程的执行效率。  相似文献   

13.
一种可靠的数据仓库中ETL策略与架构设计   总被引:18,自引:0,他引:18  
作为数据仓库系统的关键部件,ETL完成数据抽取、清洗、转换和装载的工作,它是构建数据仓库的重要环节,同时也是构建数据仓库过程中出现问题最多的环节,所以针对这点,该文给出了一个可靠的同时易于扩展的ETL策略和架构。文章首先简单地介绍了数据仓库技术和ETL技术,包括ETL的相关概念、ETL在数据仓库中的功能和重要地位;然后重点介绍了这种ETL的具体策略和架构设计。  相似文献   

14.
ETL实施的数据质量问题研究   总被引:1,自引:0,他引:1  
对数据仓库中数据质量的重要评价指标进行了介绍,对ETL实施时在数据源端和ETL过程中可能面临的数据质量问题进行了分析,对部分常见的数据质量问题给出了相应的解决方法。  相似文献   

15.
ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程.ETL常用在数据仓库,但其对象并不限于数据仓库.ETL是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去.  相似文献   

16.
基于电信数据仓库系统的ETL研究与设计   总被引:4,自引:0,他引:4  
电信行业大都建立了自己的数据仓库系统,而建立数据仓库的最重要环节便是数据的抽取、转换和加载ETL(Extracting、Transformation、Loading).通过对现有ETL系统的分析研究,设计并部分实现了基于某省电信公司数据仓库的ETL系统.采取XML格式编辑整个ETL过程,实现部分图形化交互界面,并针对电信系统大数据量的特点,提出性能优化及改进的方法,提高了ETL效率.  相似文献   

17.
面向数据集成的ETL系统设计与实现   总被引:8,自引:1,他引:8  
ETL是一类用于从一个或多个业务数据库中抽取数据,进行清理转换并加载到数据仓库中的工具。这个数据抽取、转换和加载的过程能够很好地应用于数据集成领域中,实现不同机构之间数据的交换与整合。通过分析数据集成的一些特点,我们提出了一个ETL过程模型,开发了一个面向数据集成的ETL系统DataIntegrator。本文对ETL过程模型、系统总体结构及若干关键技术进行论述。DataIntegrator已经应用于信息系统的建设中,为企业应用集成提供了很好的支持。  相似文献   

18.
该文介绍了ETL的概念,分析了ETL在数据仓库中的应用,并介绍了一个ETL工具及其应用实例。通过利用ETL工具,可以将数据提取、清理、转换再加载到数据仓库。  相似文献   

19.
位置编码在数据仓库ETL中的应用   总被引:6,自引:0,他引:6       下载免费PDF全文
为了保证数据仓库中数据的质量,在数据挖掘前必须进行数据清洗。ETL是构建数据仓库的重要环节,数据清洗就包含在其中。而检测和消除数据仓库中的相似重复记录是数据清洗和提高数据质量要解决的关键问题之一。该文将位置编码技术引入到数据仓库ETL中,提出了一种相似重复记录的检测算法,并给出了不同级别匹配阈值的动态确定方法。通过实验表明该算法具有较好的检测效果。  相似文献   

20.
ETL执行的流水线优化   总被引:6,自引:1,他引:6  
ETL工具是构建和维护数据仓库的基本构件,由于它处理的是海量数据.如何有效地加快响应时间成为值得研究的问题.本文提出了ETL过程的“主表衍生”模式.并针对这种模式采用流水线算法来提高并行性从而加快ETL过程的响应时间,理论分析和实验表明具有好的效果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号