Spark Standalone与HDFS集成配置全攻略

需积分: 3 78 浏览量更新于2023-03-16 收藏 20KB DOCX 举报

"Spark Standalone模式集成HDFS配置清单，详细指导如何在CentOS 7 64位系统上配置Spark与HDFS的整合，适用于初学者，其中涉及了系统环境、硬件需求、用户创建、网络配置、JDK、Scala的安装以及Hadoop和Spark的相关配置。" 在Spark Standalone模式下集成HDFS，首先要确保你的系统环境是CentOS 7 64位，并且具备适当的硬件资源，例如文中提到的双核四线程CPU。在开始配置之前，你需要完成以下前置步骤： 1. 创建一个新的Linux用户，例如`z1`，以隔离不同服务的运行环境。 2. 配置静态路由地址，确保各节点间的通信畅通。 3. 在`/etc/hosts`文件中添加所有主机的IP地址和主机名映射，如示例中的os1、os2和os3。 4. 安装Java开发工具包（JDK），这里是JDK 1.8.0_181。 5. 安装Scala，这里使用的是版本2.12.4。 6. 更新环境变量`PATH`和`CLASSPATH`，将JDK、Hadoop、Scala和Spark的路径添加进去。接下来，我们进入Hadoop的配置阶段： 1. 下载对应版本的Hadoop二进制包，解压并安装到指定目录，例如`/home/z1/hadoop/hadoop-2.8.5`。 2. 修改`$HADOOP_HOME/etc/hadoop`目录下的配置文件： - `hadoop-env.sh`：设置`JAVA_HOME`指向你的JDK安装路径。 - `slaves`：列出集群中的从节点，例如os2和os3。 - `core-site.xml`：配置默认文件系统（`fs.defaultFS`）为HDFS，端口号为9000，以及临时文件目录（`hadoop.tmp.dir`）。然后是Spark的配置： 1. 解压缩Spark安装包到指定目录，如`/home/z1/hadoop/spark/spark-2.3.1-bin-hadoop2.7`。 2. 更新`PATH`环境变量，包含Spark的可执行文件路径。为了使Spark能够访问HDFS，还需要进行一些额外的配置： - 在`spark-env.sh`中设置`HADOOP_CONF_DIR`为Hadoop的配置目录，这样Spark就可以找到HDFS的相关配置。 - 如果使用的是Hadoop的YARN资源管理器，还需要配置`yarn-site.xml`和`mapred-site.xml`，但在这个Standalone模式下，通常不需要这一步。最后，启动Hadoop和Spark服务。对于Hadoop，先启动DataNode和NameNode，然后启动ResourceManager（在Standalone模式中没有此步骤）。对于Spark，启动Master和Worker。注意，如果Linux防火墙开启，需要配置相应的端口开放策略，或者暂时关闭防火墙以简化测试环境。通常，Spark Standalone需要开放7077（Master的RPC端口）和8080（Web UI端口），而HDFS则需要9000（Namenode的RPC端口）和50070（Web UI端口）等。以上就是Spark Standalone模式集成HDFS的基本配置流程，完成后，你就可以在Spark应用程序中使用HDFS作为数据存储了。记得在实际生产环境中，还需要考虑安全性、性能优化和其他高可用性设置。

Spark Standalone 模式集成 HDFS 配置清单

系统配置： 位

硬件配置：（双核四线程）

前置步骤：

新建  用户 。

配置静态路由地址。

 中添加主机名地址映射关系。









安装  

安装 !"!

配置 #$%& 和 '$((#$%&

))添加

*+$,$ &-./0!1! 

*&$2--# &-./0!!

*('$$ &-./0!"!!"!

*  (#$34 &-./0!!*!*5

!

*#$%&06('$$ &-./576(#$34 &-./5

76&$2--# &-./576&$2--# &-./576+$,$ &-./57

6#$%&

*

'$((#$%&076+$,$ &-./"5!*76+$,$ &-./"5"!*

一、配置 hadoop

下载相应版本 !* 文件，解压安装包到指定目录下。

修改6&$2--# &-./! 下的文件：

下载后可阅读完整内容，剩余6页未读，立即下载

qq_43341529

粉丝: 0
资源: 3

Spark Standalone与HDFS集成配置全攻略

spark-jobs-rest-client:流利的客户端，可与Spark Standalone Mode的Rest API进行交互，以提交，取消和监视作业状态

hive-jdbc-2.1.1-cdh6.1.0-standalone.jar

Spark Standalone 单机版部署

spark standalone 模式的安装和部署

Spark Standalone模式application的状态有哪些

spark standalone模式部署

头歌spark standalone 模式的安装和部署

spark standalone模式

Spark Standalone 模式部署。

在Spark Standalone模式下，两种主要的部署方式

最新资源