首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 673 毫秒
1.
针对传统ETL工具集中式执行方式的不足,提出了一种基于MapReduce的分布式ETL体系结构——M DETL(MapReduce Distributed ETL).该体系结构采用MapReduce并发处理海量数据的并行编程模型,结合分布式ETL的集群运算方法,实现了集群分布式执行ETL流程,从而提高了整个ETL系统的灵活性和吞吐率,并具有较好的可扩展性和负载平衡性能,提高了执行效率.  相似文献   

2.
基于分布式数据仓库技术的ETL系统的研究与应用   总被引:6,自引:0,他引:6  
ETL系统是构建和维护数据仓库的基本构件,由于要处理海量数据和访问各种异构数据源,如何同时具有高效的数据处理能力和通用的数据源访问能力是值得研究的问题。本文针对某银行数据仓库项目的实际需求,提出了基于分布式数据仓库的ETL系统,并使用了XML技术实现异构数据源的通用接口访问方式。系统运行表明该解决方案具有好的使用效果。  相似文献   

3.
李晨翔  何刚  孙莉 《福建电脑》2013,(11):111-114
为了解决传统的抽取、转换和加栽工具处理数据仓库中海量数据的效率问题,设计并实现了基于Hadoop平台的分布式ETL系统。详细的探讨了渐变维度、雪花维度、大维度数据和事实数据的并行处理。实验结果表明,与Hive数据仓库相比,该分布式ETL系统在并行处理数据仓库中海量数据的问题上,具有更高的效率和扩展性。  相似文献   

4.
分布式ETL负载均衡策略研究   总被引:1,自引:0,他引:1  
在分析分布式ETL中负载均衡重要性的基础上,针对传统ETL应用于分布式数据仓库中效率低的缺陷,提出一种根据ETL节点所抽取的数据类型不同对分布式ETL节点抽取的数据进行分割的策略,以及一种新的负载均衡模型—链网模型和Routers相结合的R-CN模型。在此基础上提出一种基于ETL数据分片和R-CN模型相结合的分布式ETL节点负载调度和均衡策略。此策略使ETL节点的数据处理能力有了很大的提高,有效地提高了分布式ETL的效率。  相似文献   

5.
本文介绍了数据仓库和ETL技术的有关概念和内容,结合电信业务的特点,构建电信数据仓库的体系结构。在给出的电信数据仓库体系结构的基础上,深入的探讨了基于电信业务的数据仓库ETL和数据展现方法。  相似文献   

6.
许多顶 《福建电脑》2010,26(6):15-16,30
ETL是构建数据仓库过程中极其重要的部分,点击流数据仓库无论在体系结构上,维表与事实表设计上,还是点击流的抽取、转换和装载机制上,都比传统的数据仓库要复杂的多。本文以ETL基本原理出发,构造ETL体系结构,着重分析点击流数据仓库的ETL技术,进行数据抽取,数据转换,以及数据装载的ETL设计,为ETL系统的开发和ETL技术的应用提供了依据。  相似文献   

7.
商业银行的数据规模随着传统业务扩展和互联网发展水平的不断提高而与日俱增,使得银行对数据的存储、管理和应用要求越来越高。通过搭建基于Hadoop技术的大数据平台,利用分布式文件系统HDFS、SQL分析引擎Inceptor、Nosql数据库工具Hyperbase、流处理工具Stream等架构,探索了大型商业银行Hadoop分布式数据仓库的构建过程,最终实现了由基于集中式存储架构的传统关系型数据仓库向分布式数据仓库的迁移工作。该分布式数据仓库实现了结构化数据和非结构化数据的存储、ETL调度管理、历史数据检索、交互式分析以及流数据处理。应用表明,相比基于集中式存储架构的传统关系型数据仓库,分布式数据仓库可大幅提高数据存储和数据服务的效率。  相似文献   

8.
本文提出了BODCDSS的概念,按照系统逻辑功能的不同构建了该系统的层次化体系结构,在对系统进行模块划分的基础之上,指出了用户模块、代理模块和数据仓库模块的实现技术,详细描述了BODCDSS中的分布式群体协作模式以及其分布式协作算法,针对风险型决策问题和不确定型问题提出了可用的决策方法。  相似文献   

9.
本文提出了BODCDSS的概念,按照系统逻辑功能的不同构建了该系统的层次化体系结构,在对系统进行模块划分的基础之上,指出了用户模块、代理模块和数据仓库模块的实现技术,详细描述了BODCDSS中的分布式群体协作模式以及其分布式协作算法,针对风险型决策问题和不确定型问题提出了可用的决策方法.  相似文献   

10.
本文描述了在学校学生管理系统的基础上建立和维护数据仓库的过程,包括数据仓库模型设计、异构数据的转换、数据冗余、汇总数据存储等数据仓库设计过程和数据的抽取、转换和加载(ETL)以及元数据管理等维护过程,并简单地介绍了数据仓库在OLAP方面的应用。  相似文献   

11.
结构图ETL概念模型的设计方法   总被引:2,自引:0,他引:2       下载免费PDF全文
ETL过程是数据仓库获得高质量数据的重要环节,是任何数据仓库工程不可缺少的成功因素。为了便于ETL过程的设计和维护,降低ETL过程的设计、维护代价,提出一种基于结构图的ETL概念模型设计方法,给出一个用于描述ETL过程的模型,并基于CWM完成用以存储元数据的ETL元模型的设计。通过图形化ETL过程中的元素和关联,该模型清晰直观地反映了各个源数据库与目标数据仓库的内部结构和组成、数据的来源与流向、源数据和目标数据之间的映射和转换关系,辅助设计人员更好地进行ETL过程的设计和编码实现,使整个ETL的设计与维护过程更加方便、灵活、有效。  相似文献   

12.
一种可靠的数据仓库中ETL策略与架构设计   总被引:18,自引:0,他引:18  
作为数据仓库系统的关键部件,ETL完成数据抽取、清洗、转换和装载的工作,它是构建数据仓库的重要环节,同时也是构建数据仓库过程中出现问题最多的环节,所以针对这点,该文给出了一个可靠的同时易于扩展的ETL策略和架构。文章首先简单地介绍了数据仓库技术和ETL技术,包括ETL的相关概念、ETL在数据仓库中的功能和重要地位;然后重点介绍了这种ETL的具体策略和架构设计。  相似文献   

13.
基于多Agent的主动数据仓库的研究   总被引:7,自引:4,他引:3  
传统的数据仓库只能分析历史数据且数据抽取周期过长,极大地降低了企业的应变能力。实时数据仓库的出现改变了这个局面。以此为基础的基于多Agent系统的四层数据仓库体系结构(MART-DW),一方面提高了数据仓库的主动性和实时性,另一方面也增强了系统的伸缩性,能够更加有效地管理分布式集成环境。  相似文献   

14.
数据仓库中ETL技术的研究   总被引:43,自引:0,他引:43  
作为数据仓库的关键部件,支持数据抽取、清洗、转换和装载的工具集对任何数据仓库工程都是一个必不可少的成功因素。该文简单介绍了ETL技术,包括ETL的相关概念、ETL在数据仓库中的功能和重要地位以及现有的研究成果,然后重点介绍了ETL的具体设计和实现方法。  相似文献   

15.
基于Web的分布式数据仓库体系结构的研究*   总被引:2,自引:1,他引:1  
随着数据仓库技术的发展,人们对数据仓库体系结构研究的兴趣越来越浓厚,数据仓库体系结构选取是否合理,将直接关系到整个数据仓库的成败。在分析客户机、服务器数据仓库体系结构的基础上,将XML、智能Agent技术引入到数据仓库中,提出了一种基于Web的分布式数据仓库体系结构。  相似文献   

16.
Extraction-Transformation-loading (ETL) tools are pieces of software responsible for the extraction of data from several sources, their cleansing, customization and insertion into a data warehouse. Literature and personal experience have guided us to conclude that the problems concerning the ETL tools are primarily problems of complexity, usability and price. To deal with these problems we provide a uniform metamodel for ETL processes, covering the aspects of data warehouse architecture, activity modeling, contingency treatment and quality management. The ETL tool we have developed, namely , is capable of modeling and executing practical ETL scenarios by providing explicit primitives for the capturing of common tasks. provides three ways to describe an ETL scenario: a graphical point-and-click front end and two declarative languages: XADL (an XML variant), which is more verbose and easy to read and SADL (an SQL-like language) which has a quite compact syntax and is, thus, easier for authoring.  相似文献   

17.
Extraction-Transformation-loading (ETL) tools are pieces of software responsible for the extraction of data from several sources, their cleansing, customization and insertion into a data warehouse. Literature and personal experience have guided us to conclude that the problems concerning the ETL tools are primarily problems of complexity, usability and price. To deal with these problems we provide a uniform metamodel for ETL processes, covering the aspects of data warehouse architecture, activity modeling, contingency treatment and quality management. The ETL tool we have developed, namely , is capable of modeling and executing practical ETL scenarios by providing explicit primitives for the capturing of common tasks. provides three ways to describe an ETL scenario: a graphical point-and-click front end and two declarative languages: XADL (an XML variant), which is more verbose and easy to read and SADL (an SQL-like language) which has a quite compact syntax and is, thus, easier for authoring.  相似文献   

18.
数据仓库中多视图环境下的联机维护   总被引:3,自引:0,他引:3  
数据仓库的视图联机维护是指数数据仓库中的实体化视图实时地与信息源中的数据库仑保持一致,同时不影响前端用户对数据仓库的正常使用。为了解决多视图环境中视图联机维护与下钻查询的一致性问题,文中在数据仓库体系结构中引入了“基库”模型,并提出了相应的视图维护算法3VPA。  相似文献   

19.
ETL是建立企业级数据仓库的核心环节,传统ETL受CPU、I/O等系统资源的影响较大,从而影响整个数据仓库运转性能.本文通过建立专家知识库,并在此基础上引入决策树算法,从而动态地调整ETL策略,并取得良好的实践效果,该架构具有一定实用价值.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号