Spark 1.2 集群搭建教程(CentOS 6.5 & Hadoop 2.3)

需积分: 9 2 下载量 78 浏览量 更新于2024-09-12 3 收藏 19KB DOCX 举报
本篇文档详细介绍了Spark 1.2.1集群的搭建过程,适用于运行于Hadoop 2.3.0-cdh5.0.2环境下的Spark集群。以下是主要知识点的详细说明: 1. **安装环境**: - 硬件环境:集群由三台服务器组成,每台服务器配置有2个物理CPU,每个CPU拥有8个核心和32GB内存,确保了足够的计算和内存资源。 - 软件环境:基于64位CentOS 6.5操作系统,主机名分别为hadoop1、hadoop2、hadoop3,分别对应IP地址10.200.12.50、10.200.12.60和10.200.12.70。集群已预装了Hadoop 2.3.0-cdh5.0.2版本。 2. **安装Scala**: - 版本选择:安装Scala 2.11.6,因为它是Spark所依赖的编程语言之一,安装路径设为/opt/scala-2.11.6。 - 环境配置:将Scala的安装目录和bin路径添加到系统环境变量中,以便系统能够识别和使用Scala命令。 3. **安装Spark**: - 版本选择:选择了Spark 1.2.1-bin-hadoop2.3.tgz,原因是考虑到稳定性和与Hadoop集群的兼容性,尽管当时Spark的最新版本为1.3.0。 - 主节点配置: - 在系统环境变量中添加Spark的安装目录(/opt/spark)和bin路径,便于使用Spark的命令。 - 在Spark配置文件spark-env.sh中,设置了Java、Scala、Hadoop的相关路径,如JAVA_HOME指定了JDK 1.7.0_60的安装位置,HADOOP_HOME和HADOOP_CONF_DIR则指向了Hadoop的安装和配置文件夹。 - SPARK_MASTER_IP设置为主节点hadoop1的IP地址,用于集群内部通信。 - SPARK_WORKER_MEMORY定义了每个worker的内存分配为16GB,以支持大规模数据处理任务。 - SPARK_MASTER_PORT指定Spark Master的服务端口,这里是7077,用于Spark worker连接。 - SPARK_PID_DIR用于存储Spark进程ID信息,便于管理和监控。 通过这些步骤,完成了Spark 1.2.1集群的搭建,为后续的数据处理和分析任务提供了基础环境。在实际操作中,还需要根据集群规模调整worker数量和配置,以及进行安全性和性能优化。同时,随着Spark的迭代更新,可能需要适时升级到更高版本以适应新的功能和性能提升。