精通Apache Oozie:打造和管理大数据及机器学习管道

5星 · 超过95%的资源 需积分: 0 95 下载量 144 浏览量 更新于2024-07-21 收藏 6.97MB PDF 举报
"Apache Oozie Essentials 是一本详细介绍如何使用Apache Oozie创建和管理大数据及机器学习工作流的书籍。适合熟悉Hadoop基础并希望自动化数据和机器学习管道的读者。书中涵盖从安装配置Oozie到运行Spark机器学习任务,以及利用Oozie的调度和安全功能等内容。" 在《Apache Oozie Essentials》这本书中,你将学习到: 1. **安装与配置Oozie**:了解如何在Hadoop集群上从源代码安装和配置Oozie,包括在 Hortonworks 分发版中的配置,以及通过tarball安装。书中有详细步骤指导创建测试虚拟机,构建Oozie源代码,以及配置Oozie的MySQL数据库和共享库。 2. **开始使用Oozie**:介绍Oozie的基本概念,如工作流(Workflow)、协调器(Coordinator)和捆绑(Bundle)。通过Hue进行安装和配置,便于直观操作Oozie。书中以案例研究的方式引导你运行第一个Oozie作业,解析不同类型的节点(控制流节点和动作节点)以及如何使用Oozie Web控制台和命令行工具。 3. **Oozie核心概念**:深入理解Oozie的工作机制,例如决策节点(Decision node)和电子邮件动作(Email action),并学习表达式语言等高级特性,以实现更复杂的流程控制。 4. **运行MapReduce任务**:学会编写MapReduce工作流,并通过实例学习如何安排这些任务按特定时间或业务需求运行。 5. **运行Pig和Hive作业**:运用Pig和Hive脚本创建和处理数据管道,满足业务需求。这涵盖了从数据库导入数据到HDFS的Sqoop作业。 6. **运行Spark作业**:将Spark集成到Oozie中,以在Hadoop上运行机器学习模型,提升数据分析能力。 7. **生产环境中的Oozie**:了解如何在生产环境中运行Oozie,确保其稳定性和安全性,优化Hadoop工作流的管理和可用性。 本书采用实践导向的方法,每章结合理论和案例,提供自我学习的练习,帮助读者深入理解和掌握Apache Oozie的精髓。通过阅读这本书,你将成为一个能够有效利用Oozie处理大规模Hadoop工作流的专业人士。
2023-07-25 上传

ERROR sqoop.Sqoop: Got exception running Sqoop: java.lang.NullPointerException java.lang.NullPointerException at org.json.JSONObject.<init>(JSONObject.java:144) at org.apache.sqoop.util.SqoopJsonUtil.getJsonStringforMap(SqoopJsonUtil.java:43) at org.apache.sqoop.SqoopOptions.writeProperties(SqoopOptions.java:867) at org.apache.sqoop.mapreduce.JobBase.putSqoopOptionsToConfiguration(JobBase.java:393) at org.apache.sqoop.mapreduce.JobBase.createJob(JobBase.java:379) at org.apache.sqoop.mapreduce.ImportJobBase.runImport(ImportJobBase.java:255) at org.apache.sqoop.manager.SqlManager.importQuery(SqlManager.java:747) at org.apache.sqoop.tool.ImportTool.importTable(ImportTool.java:536) at org.apache.sqoop.tool.ImportTool.run(ImportTool.java:633) at org.apache.sqoop.Sqoop.run(Sqoop.java:146) at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:76) at org.apache.sqoop.Sqoop.runSqoop(Sqoop.java:182) at org.apache.sqoop.Sqoop.runTool(Sqoop.java:233) at org.apache.sqoop.Sqoop.runTool(Sqoop.java:242) at org.apache.sqoop.Sqoop.main(Sqoop.java:251) Log Type: stdout Log Upload Time: Mon Jul 24 10:47:38 +0800 2023 Log Length: 74530 Showing 4096 bytes of 74530 total. Click here for the full log. 35517561_3806_01_000001: PRELAUNCH_OUT=/yarn/container-logs/application_1683335517561_3806/container_1683335517561_3806_01_000001/prelaunch.out: NM_AUX_SERVICE_mapreduce_shuffle=AAA0+gAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA=: NM_PORT=8041: HADOOP_YARN_HOME=/opt/cloudera/parcels/CDH-6.3.2-1.cdh6.3.2.p0.1605554/lib/hadoop-yarn: USER=admin: CLASSPATH=/yarn/nm/usercache/admin/appcache/application_1683335517561_3806/container_1683335517561_3806_01_000001:/yarn/nm/usercache/admin/appcache/application_1683335517561_3806/container_1683335517561_3806_01_000001/*:/etc/hadoop/conf.cloudera.yarn:/opt/cloudera/parcels/CDH-6.3.2-1.cdh6.3.2.p0.1605554/lib/hadoop/*:/opt/cloudera/parcels/CDH-6.3.2-1.cdh6.3.2.p0.1605554/lib/hadoop/lib/*:/opt/cloudera/parcels/CDH-6.3.2-1.cdh6.3.2.p0.1605554/lib/hadoop-hdfs/*:/opt/cloudera/parcels/CDH-6.3.2-1.cdh6.3.2.p0.1605554/lib/hadoop-hdfs/lib/*:/opt/cloudera/parcels/CDH-6.3.2-1.cdh6.3.2.p0.1605554/lib/hadoop-yarn/*:/opt/cloudera/parcels/CDH-6.3.2-1.cdh6.3.2.p0.1605554/lib/hadoop-yarn/lib/*:: PRELAUNCH_ERR=/yarn/container-logs/application_1683335517561_3806/container_1683335517561_3806_01_000001/prelaunch.err: HADOOP_TOKEN_FILE_LOCATION=/yarn/nm/usercache/admin/appcache/application_1683335517561_3806/container_1683335517561_3806_01_000001/container_tokens: LOCAL_USER_DIRS=/yarn/nm/usercache/admin/: OOZIE_ACTION_CONF_XML=/yarn/nm/usercache/admin/appcache/application_1683335517561_3806/container_1683335517561_3806_01_000001/action.xml: SHLVL=2: HOME=/home/: CONTAINER_ID=container_1683335517561_3806_01_000001: MALLOC_ARENA_MAX=4:怎么回事

2023-07-25 上传