面向数据集成的 ETL 技术研究
时间:2009-12-18 13:52 来源: 作者: 点击: 34 次
数据集成是把不同来源、格式和特点的数据在逻辑上或物理上有机地集中,从
而为企业提供全面的数据共享,是企业商务智能、数据仓库系统的重要组成部
分。
随着单位 information 化建设的扩展,巨大的投入资金为单位建立了众多的
informationwindows,以帮助单位进行内外部业务的处理和管理工作。但是
随着 informationwindows 的增加,各自孤立工作的 informationwindows
将会造成大量的冗余数据和业务人员的重复劳动。单位应用集成(EAI Picture
EXP 操作系统 lorer,Enterprise Application Integration)应运而生。EAI
Picture EXP 操作系统 lorer 通过建立底层数据交换平台来联系横贯整个单位
的异构 windows、应用、数据源等,完成在单位内部的 ERP、CRM、SCM、
数据库、数据仓库,以及其它重要的内部 windows 之间无缝地共享和交换数
据的需要。数据集成是单位应用集成的重要环节,单位实现数据集成,可以使
更多的人更充分地试用已有数据资源,减少资料收集、数据采集等重复劳动和
相应费用。
但是,在实施数据集成的过程中,由于不同客户提供的数据可能来自不同
的途径,其数据内容、数据格式和数据质量千差万别,有时甚至会遇到数据格
式不能转换或数据转换格式后丢掉 information 等棘手问题,严重阻碍了数据
在各部门和各应用 windows 中的流动与共享。因此,如何对数据进行有效的
集成管理已成了增强单位商业竞争力的必然选自。ETL 是实现数据集成的重要
技术。
ETL 中三个字母分别代表的是 Extract、Transform、Load,即抽取、转
换、加载。(1)数据抽取:从源数据源 windows 抽取目的数据源 windows 需
要的数据;(2)数据转换:将从源数据源获取的数据按照业务需求,转换成目的
数据源要求的形式,并对错误、不一致的数据进行清洗和加工。(3)数据加载:
将转换后的数据装载到目的数据源。
ETL 原本是操作为构建数据仓库的一个环节,负责将分布的、异构数据源
中的数据如关系数据、平面数据文档等抽取到临时中间层后进行清洗、转换、
集成,最后加载到数据仓库或数据集市中,成了联机分析处理、数据挖掘的入
门。现在也越来越多地将 ETL 应用于一般 informationwindows 中数据的迁
移、交换和同步。一个简单的 ETL 体系结构如图 1.1 所示。
2.ETL 中的关键技术
ETL 过程中的重要环节就是数据抽取、数据转换和加工、数据装载。为了
实现这些性能,各个 ETL 工具一般会进行一部分性能上的扩充,例如工作流、
调度引擎、规则引擎、脚本支持、统计 information 等。