Spark Standalone部署指南： CentOS 7下的配置与操作

需积分: 16 168 浏览量更新于2024-09-11 收藏 123KB DOC 举报

"Spark Standalone官方文档翻译，涵盖了Spark单机模式的安装、启动、集群配置、应用提交、资源调度、监控与日志、与Hadoop集群共存、网络安全端口配置以及高可用性（HA）等内容。" Spark Standalone模式是Spark的一种部署方式，允许在没有其他集群管理器如Mesos或YARN的情况下独立运行。这个模式特别适合小型集群或本地开发环境，因为它简化了部署流程。以下是对Spark Standalone模式主要知识点的详细说明： 1. **安装单机版Spark到一个集群**：在每个节点上放置编译好的Spark版本，可以下载预构建版本或自行编译。 2. **手动开启集群**：启动master服务器使用`./sbin/start-master.sh`，它会显示一个URL，用于连接workers和SparkContext。Master的web UI默认地址为`http://localhost:8080`。 3. **集群启动脚本**：`start-slave.sh`脚本用于启动worker，传入master的URL。worker的信息可以在master的web UI中查看。 4. **Application的集群挂载**：Spark应用程序可以通过指定master URL提交到集群。 5. **启动Spark Applications**：使用SparkContext接口，将master URL作为参数传递，启动应用程序。 6. **资源调度**：Spark Standalone使用基于优先级的 FIFO 调度器，应用程序请求资源，系统根据可用资源和优先级分配。 7. **监控和日志**：Master和Worker都有web UI供监控，包括任务状态、资源分配等。日志信息可以通过配置文件进行管理。 8. **与Hadoop集群同机运行**：Spark可以与运行在同一硬件上的Hadoop集群并行运行，通过配置文件设置Hadoop配置路径。 9. **配置网络安全端口**：可以修改Spark配置文件来设定网络端口，确保安全通信。 10. **高可用性（HA）**：提供了基于ZooKeeper的备用Master和基于文件系统的单一登录点，以实现高可用性。 10.1. **基于ZooKeeper的Standby Masters**：使用ZooKeeper来协调Master节点，当主Master故障时，ZooKeeper会选择一个新的备用Master接管。 10.2. **基于文件系统的单点登录**：Master的状态可以持久化到文件系统，允许在故障后从该状态恢复。理解这些知识点对于在CentOS 7环境下部署和管理Spark Standalone集群至关重要。通过合理配置和管理，可以高效地运行和调度Spark应用程序。

yilangfeixing

粉丝: 0
资源: 2

Spark Standalone部署指南： CentOS 7下的配置与操作

Spark Standalone集群部署与工作流程详解

Spark Standalone模式下ZooKeeper实现Master高可用源码解析

Spark Standalone HA：ZooKeeper实现Master高可用与重启策略

Spark官方文档中文翻译

Spark Standalone 单机版部署

Spark Standalone架构设计.docx

Spark Standalone模式集成HDFS配置清单

基于Akka模拟实现Spark Standalone.pdf

spark standalone模式

spark standalone集群搭建

最新资源