Diffenent Types of ETL
ETL的不同类型
有不同类型的ETL。
其中一种是将不同的需求作为ETL程序的参数来处理。这种处理方式中,程序实时执行,不需建立可执行的模块。
另一种是建立可执行的模块,各种参数输入给ETL工具,然见建立可执行模块。可执行模块需要高效、高灵活性。
ETL Limitations
ETL的局限性
ETL处理的一个局限性是ETL进程每次只能处理一条记录。
事实上,从理论上讲在ETL处理时是可以同时处理多条记录的,但是同时处理多条记录时,处理过程会变得很复杂。所以,为了保证ETL处理过程的简单,每次只处理一条记录。
ELT
ETL处理过程有一个变种,称为ELT,及抽取、加载、转换。
ELT处理过程和ETL处理过程的区别是ELT抽取数据后先加载入数据仓库中,然后再进行转换处理。ELT处理过程有自己的优点和缺点。
优点是ELT方式可以多条记录同时处理。
ELT处理方式有相当大的缺点,
1)在数据仓库中的数据进行转换和整合之前,可能会有数据访问出现。
2)由于ELT的转换处理在数据仓库中进行,所以需要较多的机器资源。
3)整合完成后,数据仓库中某些记录需要做添加或者删除操作。
Metadata and ETL
元数据和ETL
在ETL处理的过程中,是收集元数据的好时机。ETL处理时,相当数量的元数据出现了,包括描述源数据的元数据、描述目标数据的元数据及描述数据映射关系的元数据等。
Transformations in the ETL Environment
ETL环境中的转换操作
在ETL处理过程中,有很多种数据转换方式。
第一种转换方式也是最简单的转换方式是直接将数据从源系统移动到目标系统。
第二种转换方式是对数据重新进行格式化,如将mmddyyyy转换成yyyymmdd等。
第三种转换方式是进行一些简单的逻辑处理,如将”male“和”female“转换为”m“和”f“。
第四种转换方式是改变数据的度量单位,如单位从”英寸“转换为”厘米“。另一个简单的例子是货币单位的转换。
第五种转换方式较复杂,包含一些复杂的计算,如D=A+B+C等。
第六种转换方式是数据描述方式的变化,如从ascii变为ebcdic。
第七种转换方式是不同的DBMS之间的转换,如从IMS转换为Oracle。
第八种转换方式是在多个数据源时是通过选择逻辑来决定最好的数据来源。
ETL处理中每一个转换都较简单,但是所有的这些转换都需要同时完成,综合在一起就很有挑战性。
Reading Older Technologies
对旧技术的处理能力
不同的ETL工具的一个较大区别是对旧技术的处理能力。有些ETL工具有能力读取如IMS、IDMS等格式的数据。这是一个很好的能力,因为有很多信息是以旧技术的格式存储的。
其他的ETL工具不能处理旧技术格式保存的数据,在ETL处理前必须先将那些数据抽取出并转化为平面文件。但是转化为平面文件后,很多结构化的信息丢失了。
本日志来源于Inmon的网站。 |