H3C DataETL 使用教程：Oracle 数据抽取到 Hadoop Hive、HBase

需积分: 9 76 浏览量更新于2024-07-17 收藏 1.58MB PDF 举报

"DataETL用户指南详细介绍了如何使用Kettle工具从Oracle数据库抽取数据并将其加载到Hadoop的Hive和HBase中。该指南由杭州华三通信技术有限公司编写，适用于具有大数据和数据库知识背景的操作开发人员和操作维护人员。文档内容包括数据抽取转换加载的设计、全量及增量抽取的步骤。" 在数据处理和分析领域，ETL（Extract, Transform, Load）是核心流程之一，它涉及从不同数据源抽取数据，进行清洗和转换，然后加载到目标系统，如数据仓库或大数据平台。Kettle是一款强大的开源ETL工具，因其图形化界面和灵活的数据处理能力而广受欢迎。本指南中，针对Oracle数据库的抽取过程详细展开。首先，需要从Oracle官网下载对应的Oracle客户端RPM包，并通过`rpm -ivh`命令进行安装。接着，配置系统的环境变量，确保能够正确识别Oracle的安装路径。在`$ORACLE_HOME/network/admin`目录下，需要编辑`tnsnames.ora`文件，设置与数据库服务器匹配的网络连接信息，以便客户端可以成功连接。验证连接可用性，可通过运行`sqlplus user/passwd@orcl`命令进行测试。最后，利用Kettle工具对大数据表进行抽取操作，这可能包括全量数据的迁移以及针对交易数据（事实表）的增量抽取，以减少不必要的数据传输和提高处理效率。对于Hadoop的Hive和HBase，Kettle提供了相应的插件支持。Hive是一个基于Hadoop的数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供SQL查询功能。HBase则是Hadoop的一个分布式、面向列的NoSQL数据库，适合存储大规模数据。在Kettle中，可以创建作业或转换来将Oracle数据导入到这两个系统，实现数据的离线批处理或实时流处理。整个过程涉及到了数据库连接管理、数据抽取策略、数据转换规则的定义，以及与大数据平台的交互。对于操作开发人员和维护人员来说，理解并熟练掌握这些步骤至关重要，因为它们直接影响到数据处理的效率和准确性。在实际工作中，还需要根据具体业务需求调整ETL流程，例如添加数据清洗、数据质量检查等环节，以确保加载到Hadoop系统中的数据质量。

1 数据抽取转换加载设计

交易数据（事实表），描述数据（维度表）

以公安为例交易数据就是卡口过车数据，此类数据特点数据源源不断的进来，并带有一定的时

间戳或者自增列

描述数据可以看做是卡口位置描述信息，或者布控车牌信息，此类信息无时间戳或者自增列

所以从传统数据库到 Hadoop 的数据抽取由下面两种方法来

第一种维度表通常每次全量抽取，间隔时间根据业务从几个小时或者每天凌晨更新一次

第二种带自增列或者时间戳的交易数据，通过实时或者分钟间隔来增量抽取数据

下面举例说明第二种方法

首先历史数据由于体积庞大，一般都是多年数据，通过普通 ETL 工具为比较慢，这里推荐使用原生

的导出工具和导入工具到我们的平台上

1.1

举例

Oracle

数据库

1.1.1 首先登录 oracle 官网下载相应版本的 Oracle client RPM 包

1.1.2 rpm -ivh 安装相应的几个 rpm 包

1.1.3 配置 etc 目录下 profile 的环境变量

添加 ORACLE_HOME，ORACLE_BASE，LD_LIBRARY_PATH，NLS_LANG

1.1.4 到 $ORACLE_HOME/network/admin 配置与客户相同的 tnsnames.ora

1.1.5 验证 sqplus user/passwd@orcl 可以访问数据库

1.1.6 抽取相关的大数据表

./OratoMPP --user='user/passwd@orcl' --query="select * FROM lineorder"

--file='./lineorder.txt ' --field=";" --format=3 用户名：user ，密码：passwd ，oracleSID：

orcl ，查询：select * from lineorder 输出文件：当前目录下 lineorder.txt，分隔符：分号样

式 format 默认为 3 没有转移字符

剩余21页未读，继续阅读

a367379491

粉丝: 1
资源: 4

H3C DataETL 使用教程：Oracle 数据抽取到 Hadoop Hive、HBase

Kettle ETL工具5.0.1用户手册：安装至运行全面指南

Kettle3.0用户手册：ETL工具操作指南

Kettle 5.0.1 PDF用户指南：快速上手数据库连接与转换设置

Hive编程指南.pdf

SAP BW AND ETL GUIDE.pdf

A Manager's Guide to Data Warehousing May 2009.pdf

ETL工具Kettle用户手册1.pdf

数据仓库ETL工具箱 Data Warehouse ETL Toolkit.rar

阿里云 专有云企业版 V3.9.0 大数据计算服务（MaxCompute） 用户指南 20191017.pdf

the data warehose toolkit.pdf

最新资源

阿里云专有云企业版 V3.9.0 大数据计算服务（MaxCompute）用户指南 20191017.pdf