Spark 1.2 集群搭建教程(CentOS 6.5 & Hadoop 2.3)
需积分: 9 78 浏览量
更新于2024-09-12
3
收藏 19KB DOCX 举报
本篇文档详细介绍了Spark 1.2.1集群的搭建过程,适用于运行于Hadoop 2.3.0-cdh5.0.2环境下的Spark集群。以下是主要知识点的详细说明:
1. **安装环境**:
- 硬件环境:集群由三台服务器组成,每台服务器配置有2个物理CPU,每个CPU拥有8个核心和32GB内存,确保了足够的计算和内存资源。
- 软件环境:基于64位CentOS 6.5操作系统,主机名分别为hadoop1、hadoop2、hadoop3,分别对应IP地址10.200.12.50、10.200.12.60和10.200.12.70。集群已预装了Hadoop 2.3.0-cdh5.0.2版本。
2. **安装Scala**:
- 版本选择:安装Scala 2.11.6,因为它是Spark所依赖的编程语言之一,安装路径设为/opt/scala-2.11.6。
- 环境配置:将Scala的安装目录和bin路径添加到系统环境变量中,以便系统能够识别和使用Scala命令。
3. **安装Spark**:
- 版本选择:选择了Spark 1.2.1-bin-hadoop2.3.tgz,原因是考虑到稳定性和与Hadoop集群的兼容性,尽管当时Spark的最新版本为1.3.0。
- 主节点配置:
- 在系统环境变量中添加Spark的安装目录(/opt/spark)和bin路径,便于使用Spark的命令。
- 在Spark配置文件spark-env.sh中,设置了Java、Scala、Hadoop的相关路径,如JAVA_HOME指定了JDK 1.7.0_60的安装位置,HADOOP_HOME和HADOOP_CONF_DIR则指向了Hadoop的安装和配置文件夹。
- SPARK_MASTER_IP设置为主节点hadoop1的IP地址,用于集群内部通信。
- SPARK_WORKER_MEMORY定义了每个worker的内存分配为16GB,以支持大规模数据处理任务。
- SPARK_MASTER_PORT指定Spark Master的服务端口,这里是7077,用于Spark worker连接。
- SPARK_PID_DIR用于存储Spark进程ID信息,便于管理和监控。
通过这些步骤,完成了Spark 1.2.1集群的搭建,为后续的数据处理和分析任务提供了基础环境。在实际操作中,还需要根据集群规模调整worker数量和配置,以及进行安全性和性能优化。同时,随着Spark的迭代更新,可能需要适时升级到更高版本以适应新的功能和性能提升。
142 浏览量
点击了解资源详情
点击了解资源详情
1571 浏览量
185 浏览量
120 浏览量
227 浏览量
210 浏览量
点击了解资源详情
a13575018718
- 粉丝: 3
- 资源: 37
最新资源
- ixp2400简介 network processor
- 基于ASP技术的动态电子商务网站设计
- 麦肯锡---某数码公司战略.ppt
- MSN Messenger协议简介.doc
- WINCC锅炉水位的设计
- DSP主机接口和PC机并行接口的接口电路的设计
- tornado vxworks 调试
- DSP外部电路设计的经典著作
- Internet快捷键
- 测试用例写作方法实例教程
- 微软C编程精粹.pdf
- oracle,portable_ch1,
- ADAMS——虚拟样机技术入门与提高(ppt)
- Cloud-Computing-Today and Tomorrow.pdf
- rose user‘s guide
- A framework for embedded system specification under different models of computation in SystemC