Sqoop高效迁移Oracle数据至Hive：步骤详解与注意事项

1星需积分: 43 81 浏览量更新于2024-09-12 1 收藏 2KB TXT 举报

Sqoop 是一个开源工具，用于在 Hadoop 和关系数据库之间进行数据迁移，特别是从 Oracle 数据库导入数据到 Hadoop 分布式文件系统（HDFS）和 Hive。在这个例子中，我们看到如何通过 Sqoop 将 Oracle 数据库中的 `HADOOP_EVENT_INFO` 表导入到 Hive 中，以便进行后续的数据分析和处理。首先，我们需要连接到 Oracle 数据库。通过使用 `sqoop list-tables` 命令，我们可以列出 Oracle 数据库中的所有表，如 --connect 配置项所示，连接参数包括 JDBC URL（jdbc:oracle:thin:@192.168.91.4:1521:ORCL），用户名（username JIAOTONG）和密码（dsjyjy123456）。这一步确保了我们正确地与 Oracle 数据库建立连接。接着，导入数据时，使用 `sqoop import` 命令。例如，命令如下： ``` sqoop import --connect jdbc:oracle:thin:@192.168.91.4:1521:ORCL --username JIAOTONG --password dsjyjy123456 --table HADOOP_EVENT_INFO --hive-import-m1 ``` 这里的参数 `--hive-import-m1` 表示使用 Hive 的内部机制进行导入，将数据转换为 Hive 兼容的格式。同时，`--fields-terminated-by '\n' --lines-terminated-by '\n'` 指定了字段分隔符和行分隔符，对于文本文件的导入至关重要。当数据中存在 null 值时，`--null-string '' --null-non-string '0'` 配置用于指定字符串型和非字符串型的 null 处理方式，即空字符串表示字符串型 null，0 表示非字符串型 null。这样可以避免在 Hive 中处理 null 时出现问题。在导入前，可能需要清理目标目录，比如使用 `hdfs dfs -rmr hdfs://master1:9000/user/root/HADOOP_EVENT_INFO` 命令删除旧的导入文件，以防止重复导入或冲突。最后，数据导入到 HDFS 后，Hive 通常会自动检测并创建表结构，但为了确保一致性和精确性，有时需要显式指定要导入哪些列 (`--columns keyid,nature_id,warn_time,accep_dept,wp`)，以及如何处理 null 值。如果在整个过程中，Oracle 数据库到 HDFS 的过程需要定期执行，并且 HDFS 与 Hive 的同步是必要的，那么步骤1（数据导入到 HDFS）和步骤2（在 Hive 中处理导入的数据）可能是独立的，或者根据具体需求进行组合操作。使用 Sqoop 导入 Oracle 数据到 Hive 是一个涉及数据库连接、数据格式设置、null 处理以及与 HDFS 交互的重要过程，它能够有效地支持大数据分析和处理工作流。

Sqoop导Oracle数据到HDFS（Hive）

1、Sqoop连Oracle
命令行输入：sqoop list-tables --connect jdbc:oracle:thin:@192.168.91.4:1521:ORCL --username JIAOTONG --password dsjyjy123456 (遍历oracle里面的表)

2、Oracle表数据导入HDFS（Hive）
命令行输入：sqoop import --connect jdbc:oracle:thin:@192.168.91.4:1521:ORCL --username JIAOTONG --password dsjyjy123456
--table HADOOP_EVENT_INFO --hive-import -m 1;
注意：HADOOP_EVENT_INFO表数据导入HDFS，Sqoop会把Oracle中的表自动在hive中创建，不用另外建表(全表导入状态下)

注意：Oracle数据导入HDFS时默认分隔符是逗号，若某字段内容含有逗号，则需要重新指定分隔符，否则会出现导入数据错乱。

3、指定分隔符导入表（换行符）
命令行输入：sqoop import --connect jdbc:oracle:thin:@192.168.91.4:1521:ORCL --username JIAOTONG --password dsjyjy123456
--table HADOOP_EVENT_INFO --hive-import -m 1
--fields-terminated-by '\n' --lines-terminated-by '\n' (换行符为分隔符)
--null-string ' ' --null-non-string '0' （空列的值用null补充）

补充：从hive里删除一张表后HDFS中仍会留有该表，需要删除HDFS中表
命令行输入：hdfs dfs -rmr hdfs://master1:9000/user/root/HADOOP_EVENT_INFO;

4、Oracle指定字段导入Hive（非全表时会先导入HDFS，需要在Hive中创建表后将HDFS中数据导入表中）
step1：导入HDFS。
命令行输入：sqoop import --hive-import --connect jdbc:oracle:thin:@192.168.91.4:1521:ORCL --username JIAOTONG --password dsjyjy123456 --table HADOOP_EVENT_INFO_KEY -m 1 --columns keyid,nature_id,warn_time,accep_dept,wp --null-string ' ' --null-non-string '0';
step2：Hive中创建表。
命令行输入：create table hadoop_event_info(id string,nature_id String,warn_time String,accep_dept String,wp String);
step3：HDFS到Hive。
命令行输入：load data inpath "/user/root/HADOOP_EVENT_INFO_KEY" into table hadoop_event_info_key;

5、Oracle增量导入Hive

下载后可阅读完整内容，剩余1页未读，立即下载

小马吃草

粉丝: 0
资源: 1

Sqoop高效迁移Oracle数据至Hive：步骤详解与注意事项

sqoop2 java API从oracle导数据到HDFS开发总结新

sqoop连接Oracle11.2.0.2.0的驱动包

Hadoop-Sqoop-Oracle:使用Sqoop在Oracle数据库和HDFS之间进行导入和导出

sqoop导入oracle数据到hive

sqoop 导入oracle表到hive

如何利用sqoop把Oracle数据迁移到hive

sqoop从oracle导入数据到hive

利用sqoop把Oracle数据迁移到hive过程中常见问题

数据同步Sqoop用法之mysql与Hive导入导出.docx

sqoop 从 hive 导到mysql遇到的问题.docx

最新资源