Spark 1.2 集群搭建教程（CentOS 6.5 & Hadoop 2.3）

需积分: 9 78 浏览量更新于2024-09-12 3 收藏 19KB DOCX 举报

本篇文档详细介绍了Spark 1.2.1集群的搭建过程，适用于运行于Hadoop 2.3.0-cdh5.0.2环境下的Spark集群。以下是主要知识点的详细说明： 1. **安装环境**: - 硬件环境：集群由三台服务器组成，每台服务器配置有2个物理CPU，每个CPU拥有8个核心和32GB内存，确保了足够的计算和内存资源。 - 软件环境：基于64位CentOS 6.5操作系统，主机名分别为hadoop1、hadoop2、hadoop3，分别对应IP地址10.200.12.50、10.200.12.60和10.200.12.70。集群已预装了Hadoop 2.3.0-cdh5.0.2版本。 2. **安装Scala**: - 版本选择：安装Scala 2.11.6，因为它是Spark所依赖的编程语言之一，安装路径设为/opt/scala-2.11.6。 - 环境配置：将Scala的安装目录和bin路径添加到系统环境变量中，以便系统能够识别和使用Scala命令。 3. **安装Spark**: - 版本选择：选择了Spark 1.2.1-bin-hadoop2.3.tgz，原因是考虑到稳定性和与Hadoop集群的兼容性，尽管当时Spark的最新版本为1.3.0。 - 主节点配置： - 在系统环境变量中添加Spark的安装目录（/opt/spark）和bin路径，便于使用Spark的命令。 - 在Spark配置文件spark-env.sh中，设置了Java、Scala、Hadoop的相关路径，如JAVA_HOME指定了JDK 1.7.0_60的安装位置，HADOOP_HOME和HADOOP_CONF_DIR则指向了Hadoop的安装和配置文件夹。 - SPARK_MASTER_IP设置为主节点hadoop1的IP地址，用于集群内部通信。 - SPARK_WORKER_MEMORY定义了每个worker的内存分配为16GB，以支持大规模数据处理任务。 - SPARK_MASTER_PORT指定Spark Master的服务端口，这里是7077，用于Spark worker连接。 - SPARK_PID_DIR用于存储Spark进程ID信息，便于管理和监控。通过这些步骤，完成了Spark 1.2.1集群的搭建，为后续的数据处理和分析任务提供了基础环境。在实际操作中，还需要根据集群规模调整worker数量和配置，以及进行安全性和性能优化。同时，随着Spark的迭代更新，可能需要适时升级到更高版本以适应新的功能和性能提升。

Spark 集群搭建说明文档（2015.3.26）

1 安装环境

1.1 硬件环境

三台 2 个物理 CPU,每个 CPU 8 核心，32G 内存

1.2 软件环境

64 位 CentOS release 6.5 ；主机名分别为 hadoop1 、 hadoop2 、 hadoop3 。 IP 地址分别为

10.200.12.50、10.200.12.60、10.200.12.70。JDK 版本为 1.7.0_60。集群上已经成功部署了

Hadoop 版本为 Hadoop 2.3.0-cdh5.0.2。

2 安装 Scala

安装版本为 2.11.6，安装目录为/opt/ scala-2.11.6

解压下载后的文件，配置环境变量：编辑/etc/profile 文件，添加如下内容：

#set scala environment

export SCALA_HOME=/opt/scala-2.11.6

export PATH=$PATH:$SCALA_HOME/bin

下载后可阅读完整内容，剩余3页未读，立即下载

a13575018718

粉丝: 3
资源: 37

Spark 1.2 集群搭建教程（CentOS 6.5 & Hadoop 2.3）

Apache Spark 2.0.2 中文文档

使用 Ansible 和 Vagrant 部署 Cassandra DSE 4.6 及 Spark 1.2 环境

Spark基础与Spark集群搭建

基于CDH 6.3.0 搭建 Hive on Spark 及相关配置和调优

REDHAT7.2 安装 CDH5.10 和 Kudu1.2

Hadoop伪分布式及生态圈组件搭建新手指导文档

搭建Spark支持的Jupyter Notebook环境

PySpark学习指南：从环境搭建到SparkSQL与SparkStreaming

Hadoop集群搭建与配置

如何选择合适的硬件配置来搭建spark集群？

最新资源