InfoSphere集成Teradata:提取与查找数据示例

0 下载量 144 浏览量 更新于2024-08-27 收藏 872KB PDF 举报
本篇文章主要介绍了如何使用IBM InfoSphere Information Server (IIS) 集成Teradata数据,通过创建示例ETL( Extract, Transform, Load)作业实现数据迁移。首先,我们关注的是从Teradata Orders表中提取数据的过程。步骤如下: 1. **使用TeradataConnector提取数据**: - 示例作业名为ExtractOrders,采用立即访问模式,利用Teradata连接器从Orders表中读取数据。 - 连接器使用了图12中展示的相同表定义,以及图13中的连接细节,确保数据一致性。 - 数据提取时,使用TeradataDBC/SQL分区运行SQL,支持小量数据的立即访问,但不适合大规模并行提取。 2. **设置数据提取操作参数**: - 指定运行作业的指导者节点需为序列模式,且支持批量访问方法和TeradataParallelTransporter导出驱动,以处理大容量数据。 - 提供SQL选择语句,通常结合EndofWave特性,但本文例未涉及。 - 数组大小用于连接器缓存输入记录,对提取操作影响不大,连接器会设置最大包大小为64k或1MB(取决于Teradata服务器支持)。 3. **查找Teradata数据的方法**: - 文章讨论了两种查找方法:普通查找和稀疏查找。 - **普通查找**:所有数据一次性从目标数据库检索并存储,针对每个输入记录,通过缓存进行交叉检查获取结果。 - **示例作业**:如图19所示,使用查找工作台和Teradata连接器执行普通查找,适合相对频繁且需要完整数据的情况。 通过这些步骤,读者可以了解到如何有效地将Teradata数据集成到InfoSphere Information Server中,包括数据提取、缓存策略以及不同查找方法的选择。这对于管理和分析大规模数据仓库至关重要,能够优化性能并确保数据的准确性和可用性。