Spark编译与Hadoop部署：从环境搭建到实战指南

需积分: 50 96 浏览量更新于2024-07-19 收藏 1.86MB PDF 举报

本篇文章详细介绍了Spark编译与Hadoop部署的中间步骤，主要包括以下几个关键部分： 1. **Hadoop编译**： - 第一部分首先从安装和配置开发环境开始，包括： - 安装并设置Maven：Maven是一个构建工具，用于管理和依赖管理Java项目，对于Hadoop的构建至关重要。 - 使用yum命令安装必要的系统库，如：svn（版本控制系统）、autoconf、automake、libtool、cmake（编译工具）、ncurses-devel（控制台输入输出处理）、openssl-devel（安全协议支持）以及GCC（C语言编译器）。 - 安装protobuf：protobuf是一种数据序列化方案，常用于Hadoop的数据通信。 2. **Hadoop源代码编译**： - 用户下载Hadoop 2.2.0的源代码进行编译，这是一个重要的步骤，因为编译源代码能够确保对特定版本的Hadoop有深入的理解，并且可以针对特定需求进行定制。 - 编译过程分为下载、编译源码和验证编译结果，确保没有错误或冲突。 3. **Hadoop安装**： - 配置阶段涉及上传Hadoop安装包、创建必要的目录、配置多个环境变量文件（如hadoop-env.sh、yarn-env.sh等），以及核心、HDFS、MapReduce和YARN的配置文件（core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml 和 Slaves 文件）。 - 向各节点分发Hadoop程序，这是集群部署的重要步骤。 - 启动部署包括格式化NameNode、启动HDFS、检查其运行状态、启动YARN以及验证YARN的运行效果。 4. **问题解决**： - 文章还提到了在 CentOS 64位系统上安装Hadoop 2.2.0时可能会遇到的一些问题，例如文件编译位数异常、代码编译异常和找不到/etc/hadoop目录的异常，这些问题可能是由于环境设置、依赖不匹配或者权限问题导致的，文章会提供可能的解决方案或排查思路。这篇文章对于想要深入了解Hadoop和Spark编译部署流程，尤其是遇到问题需要调试的开发者来说，是一份非常实用的指南。通过阅读和实践，读者可以掌握从基础环境配置到实际部署的完整过程。

第 6 页共 28 页出自石山园，博客地址：http://www.cnblogs.com/shishanyuan

1.1.4 以 root 用户使用 yum 安装 ncurses-devel

#yum install ncurses-devel

剩余27页未读，继续阅读

l691635239

粉丝: 0
资源: 5

Spark编译与Hadoop部署：从环境搭建到实战指南

2.Spark编译与部署（下）--Spark编译安装.pdf

spark 2.3.1 支持Hive Yarn Hadoop 2.7 已编译版本

spark 集群环境开发部署（hadoop，yarn，zookeeper，alluxio，idea开发环境）

spark-3.3.0-bin-hadoop3.tg和spark-3.3.0-bin-without-hadoop.tgz

spark-3.2.0.tgz和spark-3.2.0-bin-hadoop2.tar.gz的区别

scala在lib文件中手动添加jar包，将/home/zkpk/spark-2.1.1-bin-hadoop2.7/jars中的jar包拷贝到项目的lib文件夹中，这些jar包为Spark程序的基础编译环境

spark的安装加快速度

将/home/zkpk/spark-2.1.1-bin-hadoop2.7/jars中的jar包拷贝到项目的lib文件夹中，这些jar包为Spark程序的基础编译环境，报错怎么解决

Xgboost spark Linux安装

spark-submit 报了这个错误Trying to load the custom-built native-hadoop library

最新资源