首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 578 毫秒
1.
面向数据集成的ETL系统设计与实现   总被引:8,自引:1,他引:8  
ETL是一类用于从一个或多个业务数据库中抽取数据,进行清理转换并加载到数据仓库中的工具。这个数据抽取、转换和加载的过程能够很好地应用于数据集成领域中,实现不同机构之间数据的交换与整合。通过分析数据集成的一些特点,我们提出了一个ETL过程模型,开发了一个面向数据集成的ETL系统DataIntegrator。本文对ETL过程模型、系统总体结构及若干关键技术进行论述。DataIntegrator已经应用于信息系统的建设中,为企业应用集成提供了很好的支持。  相似文献   

2.
ETL工具从异构数据源抽取数据,并将数据清洗、规范化后装载入数据仓库.数据源的多样性及数据集的复杂性为ETL工具的设计提出了挑战.本文设计并实现了一种基于微软DirectShow技术的ETL工具框架,使用通用数据访问接口屏蔽数据源的差异.将转换图的概念引入ETL工具的设计中,灵活应对复杂的ETL转换.  相似文献   

3.
增量式ETL工具的研究与实现   总被引:13,自引:0,他引:13  
利用数据源的增量数据对数据仓库进行维护,可以有效提高ETL效率.现有通用ETL工具在增量抽取方面存在…些问题,如不能抽取多个异构数据源的增量数据以及在处理增量数据时造成数据丢失的异常问题.本文从实践角度设计的增量式ETL工具采用集成多种增量数据捕获方式,解决异构数据源在捕获增量数据上的差异;在数据处理过程中,通过辅助表的手段解决了数据丢失的问题.在文章的最后,还介绍了ETL过程中数据转换和转换调度的实现.  相似文献   

4.
为了实现对贵州卷烟销售大数据的分析及可视化,基于开源数据分析工具KETTLE构建了ETL过程模型,对现有的卷烟销售基础大数据进行抽取、转换、加载,形成分析型数据,快速高效地实现了数据集成.经过ETL处理的集成数据,为卷烟销售大数据可视化系统及进一步的数据挖掘、决策支持提供了数据基础.同时,采用GIS平台构建和可视化技术,设计并实现了卷烟销售大数据可视化分析系统,为企业的数据分析和决策支持提供了数据展示及分析平台.  相似文献   

5.
目前,随着企业信息的集成交换需求越来越频繁,使得大型报表系统研究中主要存在以下缺陷:前端数据源的分析处理能力低,导致报表生成和维护时间过长.文中在报表系统中引进了ETL技术对前端异构数据进行有效的汇总、分析和数据的抽取转换加载,缩短了报表系统中数据的处理时间,提高了报表生成的速度和效率,使得报表系统的通用化得到加强.同时引入了XML技术实现了抽取和转换规则的定义,使得ETL模块具备良好的通用性和可扩展性.  相似文献   

6.
数据仓库中ETL技术的探讨与实践   总被引:9,自引:0,他引:9  
支持数据抽取、转换、清洗和装载的工具集对任何数据仓库工程都是一个必不可少的关键部件。本文重点探讨了ETL技术以及ETL工具的选择原则,并结合具体实例详细介绍了ETL过程的设计和实现方法。  相似文献   

7.
本文研究了数据仓库ETL技术,并将ETL技术运用在企业信息集成过程中。本文以PDM和ERP系统为研究对象,阐述了ETL用于数据集成的方法、过程和集成架构。开发了可视化集成开发ETL工具,利用该工具从PDM系统中获取产品结构数据,实现PDM和ERP系统的数据集成。运用ETL技术能够简化企业信息集成开发,具有低耦合性、易于扩展的特点。  相似文献   

8.
经过多年发展,高校已经建成了多个支撑不同业务的信息系统,在提高工作效率的同时,也形成了一个个的“信息孤岛”.基于开源ETL工具Kettle,进行高校异构数据集成,规划和设计工作流程,按照设计实施转换细节,实现数据集成管理的可视化,消灭“信息孤岛”,实现数据共享.  相似文献   

9.
阐述ETL技术在某银行绩效考核系统中的设计与实现,在该系统中运用了改进的ETL架构,自行开发设计ETL工具,在ETL过程中通过增加中间文件服务器和临时数据库,把ETL的3个过程独立开来,达到提高数据抽取、转换和装载的效率,同时降低ETL代码编写的复杂度,减轻目标数据库的压力.  相似文献   

10.
基于本体的ETL设计研究   总被引:1,自引:0,他引:1  
吴飞  邢桂芬  邢玉萍 《计算机工程与设计》2007,28(7):1517-1519,1571
提出了一种基于本体的ETL设计方法,通过建立各数据源的局部本体和目标数据仓库的全局本体以及本体间的映射,得出以OWL表示的各数据源和目标的映射关系.用本体元数据指导数据抽取,转换和加载过程,解决数据源ETL过程中的语义异构问题,实现了企业数据语义程度的集成.  相似文献   

11.
ETL包含数据的抽取、转换、加载三个部分,是构建数据仓库的重要环节。为解决异构数据源集成问题,本文提出了基于元数据的数据交换系统,并在该基础上阐述了数据交换系统中的任务设计模型和任务调度模型。最后介绍了数据交换系统中的主要算法以及设计模式。  相似文献   

12.
数据集成环节,越来越丰富的异构源数据给集成后数据质量的提升带来了新的挑战和困难。针对传统ETL模型在数据集成后出现的数据冗余、无效、重复、缺失、不一致、错误值及格式出错等数据质量问题,提出了基于元数据模型控制的ETL集成模型,并对数据集成过程中的各种映射规则进行了详细的定义,通过将抽取、转换、加载环节的元模型和映射机制相结合,能够有效地保证集成后数据的数据质量。提出的元模型已经应用到科技资源管理数据集成业务中。通过科技资源管理数据集成实例分析,验证了此数据集成方案能够有效地支撑大数据环境下数据仓库的构建和集成后数据质量的提升。  相似文献   

13.
Data warehouse architectures rely on extraction, transformation and loading (ETL) processes for the creation of an updated, consistent and materialized view of a set of data sources. In this paper, we support these processes by proposing a tool that: (1) allows the semi-automatic definition of inter-attribute semantic mappings, by identifying the parts of the data source schemas which are related to the data warehouse schema, thus supporting the extraction process; and (2) groups the attribute values semantically related thus defining a transformation function for populating with homogeneous values the data warehouse.Our proposal couples and extends the functionalities of two previously developed systems: the MOMIS integration system and the RELEVANT data analysis system. The system has been experimented within a real scenario concerning the creation of a data warehouse for enterprises working in the beverage and food logistic area. The results showed that the coupled system supports effectively the extraction and transformation processes.  相似文献   

14.
刘娜嘉  朱力 《计算机工程》2007,33(19):283-284,F0003
通过讨论数据提取、转换、加载(ETL)技术在上海水路客运票务系统项目中的实践应用,说明了ETL技术的特点、本质及其重要性。其中,ETL的具体应用包括数据查找、变更以及维护。采用ETL技术可以使数据库系统完全分离,大大减轻了数据汇总查询对实时票务系统的负荷,提高了查询分析速度。  相似文献   

15.
黄怀毅  杨路明 《微机发展》2008,18(6):202-205
ETL系统是构建数据仓库的关键组件。通过数据抽取、转换和装载工作,完成处理海量数据和构建数据仓库的任务。如何提高数据处理效率和增强系统稳定性是值得研究的问题。根据电信资源数据省级集中分析系统下的实际应用背景,提出了一种轻量级架构的ETL系统,该架构采取的是“化整为零”的思想,把原先核心的抽取和转换的任务部分划分到各个相应的子系统中做初步的处理,这样处理的优点在于应用中减轻了核心ETL引擎的承载负担,各个抽取任务单独进行互不依赖,提高了抽取效率。通过在具体应用环境下系统运行表明采用该架构ETL系统具良好的使用效果。  相似文献   

16.
刘佳俊  喻钢  胡珉 《计算机应用》2017,37(10):2983-2990
针对运维大数据维度高、形式多样化和变化迅速等特性,为提高数据融合效率以及平台的数据统计和决策分析性能,降低抽取-转换-加载(ETL)执行时间开销和数据中心负担,面向智慧管养需求提出一种多层次任务调度(MTS)ETL框架(MTS-ETL)。首先,将数据仓库分为数据临时区、数据仓储区、数据分类区和数据分析区,并根据所分区域将完整的ETL过程划分为4个层次的ETL任务调度环节,同时设计了多频率ETL运行调度以及顺序和非顺序两种ETL工作模式;接着,基于MTS-ETL框架的非顺序工作模式进行数据融合的概念建模、逻辑建模和物理建模;最后,利用Pentaho Data Integration设计ETL转换模块和工作模块以实现数据融合方法。在交通流量数据融合实验中,该方法融合136754条数据的时间仅为28.4s;在千量级的数据融合实验中比传统ETL方法的总平均执行时间降低了6.51%;报表分析结果表明其在融合400万条数据时依然能保证ETL过程的可靠性。所提方法能够有效融合运维大数据,提高平台统计分析性能,并维持ETL执行时间开销在较低水平。  相似文献   

17.
基于XML的数据转换系统SuperETL   总被引:1,自引:1,他引:0  
针对政府机构和企事业单位对数据资源整合的需求,提出一个数据转换系统SuperETL,主要介绍其设计目标、体系结构,并给出了系统中任务的XML定义标准。测试结果表明,SuperETL能够高效、智能地完成数据抽取(Extract)、清洗(Cleaning)、转换(Transformation)、装载(Loading)及ETL任务。  相似文献   

18.
Data warehouse loading and refreshment is typically performed by means of complex software processes called extraction–transformation–loading (ETL). In this paper, we propose a system based on a suite of visual languages for mastering several aspects of the ETL development process, turning it into a visual programming task. The approach can be easily generalized and applied to other data integration contexts beyond data warehouses. It introduces two new visual languages that are used to specify the ETL process, which can also be represented by means of UML activity diagrams. In particular, the first visual language supports data manipulation activities, whereas the second one provides traceability information of attributes to highlight the impact of potential transformations on integrated schemas depending on them. Once the whole ETL process has been visually specified, the designer might invoke the automatic generation of an activity diagram representing a possible orchestration of it based on its dependencies. The designer can edit such a diagram to modify the proposed orchestration provided that changes do not alter data dependencies. The final specification can be translated into code that is executable on the data sources. Finally, the effectiveness of the proposed approach has been validated through a user study in which we have compared the effort needed to design an ETL process in our approach with respect to the one required with main visual approaches described in the literature.Copyright © 2013 John Wiley & Sons, Ltd.  相似文献   

19.
商业智能系统数据仓库设计与实现   总被引:3,自引:0,他引:3  
在介绍数据仓库技术特点的基础上,阐述商业智能系统中数据仓库的设计方法和设计内容,包括采用“需求驱动”和“数据驱动”相结合的设计方法,数据建模流程和数据抽取、转换和装载(extract,transform and load,ETL)策略的设计,并给出一个具体实例实现数据建模和数据装入。  相似文献   

20.
数据集成包括数据的抽取、转换、加载三个过程。针对当前大多数据集成工具适应性差、源数据端和目的数据端的耦合度太紧和数据不易自动更新的问题,基于发布/订阅机制的消息代理模式提出了一种新型的数据集成体系结构,把数据集成划分为源数据处理(抽取转换)和目的数据处理(过滤加载)两个过程,不仅实现了数据的可靠异步传输,而且降低了源数据端和目的数据端的耦合度,增加了数据集成的灵活性,并使数据的抽取转换和过滤加载独立、并行执行。实验结果也证明了提出的数据集成方法有效地提高了数据集成的效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号