15-ETL(一) 
By  Jerome 发表于 2007-3-29 20:33:00 

ETL(抽取、转换、加载)是DW2.0中的整合部件,它的主要目的是将操作数据转换为企业数据,并整合入DW2.0环境中。ETL过程建立了源系统的系统记录到目标系统的数据的映射,并按照映射规则进行数据转换。

ETL处理过程可以手工编码完成,也可以使用工具来自动完成。手工编码方式需要程序员来编写和维护迁移代码。迁移工具方式需要将数据映射规则定义在工具中。

一般来说,手工编码只在编码工作量非常小时使用。如果有大量的代码需要编写,最好使用迁移工具来定义源系统及目标系统中数据的映射规则。

无论使用哪种方式建立ETL程序,目的都是将数据从源系统中迁移入目标系统。

第一个常见的安置ETL程序的执行环境是主机环境,即操作型系统环境。

主机环境是执行操作处理的环境。在这里执行ETL程序的一个好处是,在这里操作环境的所有数据都可以得到。有时,也需要参照数据和其他数据源的数据。因为ETL程序在操作型环境中,所以这些数据自然都可以得到。

ETL处理建立在操作环境的缺点如下:

1)机器环境比较昂贵。

2)操作环境的处理器可能没有空闲时间来运行ETL处理过程。

3)ETL处理对环境的要求和操作型处理对环境的要求不太一样。

而且,ETL处理放于操作环境中,由于负载很重,所以将来很难再分出更多的时间给ETL处理。

第二个安置ETL处理程序的位置是在数据仓库的机器上。

未经加工的数据经过ETL处理过程进入数据仓库。安置ETL处理程序在数据仓库的机器上有优点,也有缺点。

优点如下:

1)机器环境相对主机环境较便宜。

2)很容易使数据处理完后立即进入数据仓库。

3)当需要更多的资源时,可以较容易的得到。

而且,ETL处理不会和在线交易系统进行资源竞争。

缺点如下:

1)一些保存在操作型环境中的辅助数据在需要时不能很方便的得到。

2)大量的未经加工的数据必须通过ETL处理。

第三个安置ETL处理程序的位置是在操作型环境和数据仓库之间的一台独立的机器。使用这台独立的机器进行数据处理,并将数据处理结果迁移入数据仓库中。这种方式也有自己的优点和缺点。

优点是机器的处理器资源可以完全用于处理ETL过程。也就意味着,机器的成本可以降低的最小级别,不会和操作型环境竞争资源。

缺点如下:

1)必须处理大量的未经加工的数据。

2)操作型环境中的一些辅助数据不易得到。将数据加载入数据仓库需要额外的处理资源。

第四个安置ETL处理程序的选择是在操作型环境和数据仓库之间建立多处理器环境。在有非常大量的数据需要处理,而且要求处理速度非常高时,这种环境最为适合。

这种环境中,数据流以并行的方式进行处理,处理的速度的非常快。如果需要更大的数据吞吐量,可以增加处理器。使用这种并行处理方式时,源系统可以用流水式的方式进行数据供应。

在处理ETL过程时,有时需要一个数据准备区(staging area)。

数据准备区有自己的处理器和存储空间。数据从操作型环境中迁移入数据准备区中。数据进入准备区后,在这里等待其他数据的到来,也可以为并行处理提供准备工作。

数据并行处理的方式有一个缺点,不同处理器处理的数据之间不能进行交互。每一个处理器都是独立的完成自己的工作。这虽然不会给DW2.0架构带来问题,但是我们也应该记在心里。

本日志来源于Inmon的网站

 
阅读全文 | 回复(1) | 引用通告 | 编辑
  • 标签:ETL DW2.0 Inmon 
  • VODS
    By  luna发表评论于2007-8-7 16:12:32 

    Jerome好,我学习了DW2
    的相关内容,可是VODS的相关内容把我搞糊涂了,我对VODS到底起什么作用,它其中的数据是如何获取的,它的数据是否还需要流到DW2中去,及VODS与原来传统的ODS之间是什么关系?请专家赐教。
    以下为blog主人的回复:
    首先需要说明一下,我对VODS的理解也不是很深刻,没有实际接触过。
    我的理解是,在DW2.0中VODS是一个很特殊的部件。
    它的作用是用来临时查询数据。
    它的数据可以从整个企业的每个角落抽取过来,实际中,应该有会有专门的VODS软件提供商提供产品。可以用这个产品定制数据关系,有脚本等存储下来,等需要数据的时候,运行一下脚本,将数据抽取过来。如果没有工具的话,需要手工建立各个系统的数据字典,及数据关系,并能生成抽取脚本。VODS中不保存数据。
    VODS中的数据只是临时使用的,不需要回流到DW2.0中。
    我感觉VODS和传统的ODS应该没什么关系,原理和实现都不相同。
    个人感觉,VODS和EII以及IBM的数据联邦技术很像,有兴趣可以了解一下EII和IBM的数据联邦技术。

     
    个人主页 | 引用 | 返回 | 删除 | 回复

    发表评论:

      大名:
      密码:
      主页:
      标题:

     
    Jerome's BI BLOG
    本站导读
          由于本站采用的是日志的模式,在阅读时需要不断翻页或搜索,给大家带来较大麻烦,特整理了本站的目录如下,请点击这里浏览本站目录
    站点公告
    站点日历
    最新日志
    最新评论
    最新留言
    友情链接
    站点统计
    日志搜索
    用户登陆



     
    Powered by Oblog.