首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 78 毫秒
1.
数据仓库ETL元模型设计   总被引:3,自引:0,他引:3  
针对传统的ETL(Extract/Transform/Load)开发方法难以满足企业的决策需求,复杂性和高效性是ETL开发面临的两大主要问题.为此,在数据仓库系统统一集成建模框架下,为提高管理质量和快速性,提出一种数据仓库ETL元模型设计方法,取代了以往在特定的数据仓库中对ETL建模的方法,使得ETL过程较早地进入数据仓库设计阶段,实现了ETL与数据仓库在概念层上的无缝融合,减少了开发时间和成本代价.最后通过模型实际应用,验证了方法的可行性和高效性.  相似文献   

2.
本文探讨了人保财险公司建立数据仓库时如何进行数据导入的设计,阐述了数据导入的设计基础和数据加载的策略。  相似文献   

3.
数据仓库中的数据不是传统数据库中数据的简单堆积,它是一个复杂的容纳数据集成的系统工程,为决策者提供访问、分析及共享信息的能力,从而发挥数据仓库的真正功效。本文针对于零售业,阐述了在零售业数据仓库系统中ETL的流程并结合实际应用提出了在零售业数据仓库系统中的ETL过程应考虑的诸多问题及解决方案。  相似文献   

4.
随着分布式数据环境越来越复杂,ETL工具要面临数据源多、分布地域广和海量数据等因素带来的挑战。原有的集中式ETL工作流优化理论不能满足现在复杂数据环境的要求。介绍了如何将基于置换的离散型粒子群算法应用到分布式ETL任务优化调度问题上,主要工作围绕ETL工作调度模型、算法编码设计、目标函数选择等内容来展开,给出了分布式ETL工作调度策略的实现过程和伪代码。理论分析和实验证明了实际应用的有效可行性。  相似文献   

5.
ETL中的数据增量抽取机制研究   总被引:7,自引:0,他引:7  
为实现数据仓库中数据的高效更新,探讨了在数据仓库的ETL(数据的抽取、转换和装载)子系统中进行数据增量抽取时所采用的常见机制,对这些机制的原理、条件、方法以及运行效率等方面进行了详细的阐述,并从兼容性、完备性、性能和侵入性4个方面分析和比较了各种数据增量抽取机制的优劣性.最后,总结了选取数据增量抽取机制所应遵循的主要原则和标准.  相似文献   

6.
ETL(Extraction-Transformation-Loading)是建立数据仓库的重要一环。通用应用ETL工具应能够适应不同领域不同需求的业务,无论是针对多样化异构的数据源,还是针对复杂变化的转换逻辑,都能够给予很好的支持。研究ETL工具的技术难点,提出一种通用ETL工具的设计框架,并对每个模块做了详细分析,在所承担项目中给出了具体实现。  相似文献   

7.
数据仓库中ETL技术的研究   总被引:43,自引:0,他引:43  
作为数据仓库的关键部件,支持数据抽取、清洗、转换和装载的工具集对任何数据仓库工程都是一个必不可少的成功因素。该文简单介绍了ETL技术,包括ETL的相关概念、ETL在数据仓库中的功能和重要地位以及现有的研究成果,然后重点介绍了ETL的具体设计和实现方法。  相似文献   

8.
基于结构图的ETL过程建模方法   总被引:4,自引:1,他引:3  
ETL是数据仓库获得高质量数据的重要环节,在数据仓库建设过程中占有极其重要的地位。为了便于ETL过程的设计、维护和修改,提出一种基于结构图的ETL过程建模方法,并依据该方法完成了ETL概念模型的设计。通过图形化ETL过程中的元素和关联,该模型清晰直观地反映了数据的来源和流向、源数据与目标数据之间的映射和转换关系,辅助设计人员更好地进行ETL过程的设计和ETL过程的编码实现,使整个ETL设计过程更加方便、灵活。  相似文献   

9.
ETL过程的调度控制管理研究   总被引:1,自引:0,他引:1  
对抽取、转换、装载(extract,transform,load,ETL)过程的元数据、调度控制管理进行研究,着重研究数据处理流程之间的逻辑关系,以及如何依据这些逻辑关系以及关联数据处理流程的执行状态,合理地对数据处理流程进行调度控制。通过研究这些问题,给出了ETL元数据管理、规划管理、执行管理以及异常处理的处理办法,并提出了一套调度控制管理流程。  相似文献   

10.
针对数据仓库系统中存在众多的数据处理任务,提出了数据仓库系统中任务调度框架.通过自动分析任务文本生成任务流图,并提出了3种任务调度策略.模拟实验结果显示,该框架可以很好地完成数据仓库系统中的任务调度和管理,同时发现影响系统性能的因素还应包括磁盘I/O性能.  相似文献   

11.
通过外贸业务分析决策系统的实现,探讨在数据仓库项目应用过程中,如何针对来自不同应用系统、不同数据平台、不同数据源形式的源数据系统存在的数据质量的差异性、缺乏一致性等问题,设计较好的ETL(Extract, Transform, Load)过程解决方案,将数据从源数据系统中抽取、转换成数据仓库需要的格式和统一数据类型,并正确加载到数据仓库中,为决策支持系统的实现提供高质量的基础数据.  相似文献   

12.
基于数据仓库的ETL过程优化   总被引:2,自引:0,他引:2  
提出一种优化ETL整体过程的方法,包括:其一,针对现有ETL过程的局限性提出一个优化其整体流程的框架EICLF(Extracting/Integrating/Cleaning/Loading/Feedback)流程;其二,对现有相似重复记录的识别算法进行改进;其三,根据清理后得到的干净数据对源数据进行反馈处理。  相似文献   

13.
基于分布式数据仓库技术的ETL系统的研究与应用   总被引:6,自引:0,他引:6  
ETL系统是构建和维护数据仓库的基本构件,由于要处理海量数据和访问各种异构数据源,如何同时具有高效的数据处理能力和通用的数据源访问能力是值得研究的问题。本文针对某银行数据仓库项目的实际需求,提出了基于分布式数据仓库的ETL系统,并使用了XML技术实现异构数据源的通用接口访问方式。系统运行表明该解决方案具有好的使用效果。  相似文献   

14.
位置编码在数据仓库ETL中的应用   总被引:6,自引:0,他引:6       下载免费PDF全文
为了保证数据仓库中数据的质量,在数据挖掘前必须进行数据清洗。ETL是构建数据仓库的重要环节,数据清洗就包含在其中。而检测和消除数据仓库中的相似重复记录是数据清洗和提高数据质量要解决的关键问题之一。该文将位置编码技术引入到数据仓库ETL中,提出了一种相似重复记录的检测算法,并给出了不同级别匹配阈值的动态确定方法。通过实验表明该算法具有较好的检测效果。  相似文献   

15.
数据仓库系统中Excel文档数据的ETL方法研究与实现   总被引:1,自引:0,他引:1  
数据仓库的数据来源于组织内部的OLTP系统和其它格式的内部、外部数据,它们之中的许多是按照Microsoft Excel格式予以组织的,如何通过ETL程序将该格式的数据转换成数据仓库中有用的信息是目前亟待解决的问题.首先叙述了Excel文件的结构和Java Excel API的使用方法,给出了Java读取Excel文档的操作步骤,结合实例说明了从Excel文件向数据仓库实现抽取及存储的过程和方法.  相似文献   

16.
针对气象网站等应用系统向地方政务云迁移过程中缺乏基础数据的现状,从功能性,开发成本,灵活性方面考虑选用ETL工具,基于Kettle软件对气象数据ETL流程进行建模,使用Quartz开发作业调度系统实现ETL流程的自动化运行,在政务云搭建SQL Server数据库集群,构建了政务云气象数据仓库.该数据仓库实现了异构环境气象数据在政务云的实时同步和存储,为气象应用系统在政务云的全面部署提供了数据支持,也为气象部门参与电子政务数据交换和共享打下基础.  相似文献   

17.
随着企业信息化的不断发展,石油单位将数据整合纳入到重点规划中。面对分散在各处的异构数据源进行数据整合并非易事,首先仅靠手工进行脏数据的清洗不但费时费力,质量也难以保证;其次,数据的定期更新也存在困难。ETL系统为数据整合提供了令人满意的解决方案。它可以完成数据抽取、清洗、转换、装载等任务,满足了用户对异构数据源进行整合的需求,也实现了数据的后期更新。笔者对钻井数据仓库ETL系统的设计提出了一种基于元数据的ETL体系结构,并重点设计了数据准备区、ETL管理模块、任务管理模块和元数据管理模块。该工具已在中海油田化学技术专家支持系统中得到应用。  相似文献   

18.
梁美红  张男楠  李建  伍东  胡永泉  杨静 《微机发展》2010,(3):250-252,F0003
随着企业信息化的不断发展,石油单位将数据整合纳入到重点规划中。面对分散在各处的异构数据源进行数据整合并非易事,首先仅靠手工进行脏数据的清洗不但费时费力,质量也难以保证;其次,数据的定期更新也存在困难。ETL系统为数据整合提供了令人满意的解决方案。它可以完成数据抽取、清洗、转换、装载等任务,满足了用户对异构数据源进行整合的需求,也实现了数据的后期更新。笔者对钻井数据仓库ETL系统的设计提出了一种基于元数据的ETL体系结构,并重点设计了数据准备区、ETL管理模块、任务管理模块和元数据管理模块。该工具已在中海油田化学技术专家支持系统中得到应用。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号