Spark安装与配置：Anaconda3环境下的三种模式实战

需积分: 5 119 浏览量更新于2024-08-03 收藏 882KB DOCX 举报

该资源主要介绍了如何在不同的模式下部署安装Apache Spark，特别是基于Anaconda3的环境，并提供了具体的步骤，适用于对Spark和Python有需求的用户。文章着重讲解了Spark Local模式的安装与配置，同时也提及了Spark在集群模式下的运行方式。 Spark安装流程： 1. 确保Hadoop版本在3.0.0及以上，因为Spark 3.2.0是与Hadoop 3.2兼容的。 2. 将Spark安装包解压缩到特定目录，例如 `/export/server`。 3. 创建软链接或者重命名解压缩后的目录，以便于后续升级。 4. 修改目录权限，通常在学习环境中，可以将权限设置为root，但实际生产环境中应使用运维分配的用户和权限。 5. 更新环境变量，包括`SPARK_HOME`、`PATH`、`PYSPARK_PYTHON`、`JAVA_HOME`、`HADOOP_CONF_DIR`和`HADOOP_HOME`，确保Spark能正确找到相关依赖和配置。 Spark Local模式： Spark Local模式主要用于开发和测试，它在单个节点上模拟多线程环境。在本地运行Spark Shell的命令有以下几种形式： - `./spark-shell`：默认启动Local模式，使用所有可用资源（相当于`--master local[*]`）。 - `./spark-shell --master local[N]`：指定本地模拟N个线程。 - `./spark-shell --master local[*]`：使用所有可用CPU核心。集群模式：如果需要在集群上运行Spark任务，可以通过指定`--master`参数来提交任务到集群，例如： - `./spark-shell --master yarn`：如果集群使用的是YARN作为资源管理器。 - `./spark-shell --master mesos://<mesos-master>:<port>`：如果集群使用Mesos作为资源管理器。 PySpark与Python的关联： `PYSPARK_PYTHON`环境变量用于指定Spark运行Python程序时使用的Python解释器路径。在Anaconda3环境下，可能需要指向Conda环境中的Python，例如`/anaconda3/envs/myenv/bin/python`。总结：这篇资源详细介绍了在本地环境部署Spark的步骤，特别强调了Spark Local模式的配置和使用，对于初学者和开发者来说，提供了很好的实践指导。同时，也简单提到了如何在集群环境下运行Spark，为扩展到更复杂的分布式计算场景打下了基础。

按照提示，可以输入 conda activate pyspark 以切换虚拟环境

出现(pyspark) [root@node01 ~]#表示 anaconda 安装完成

继续 Spark local 单机部署

sudo su –

cd /export/server/anaconda3/

cd envs/ 找到虚拟环境

cd pyspark/ 进入虚拟环境

cd bin

输入 pwd

复制路径修改环境变量添加环境变量(/etc/profile)

export SPARK_HOME=/export/server/spark

export PATH=$PATH:$SPARK_HOME/bin

export PYSPARK_PYTHON=/export/server/anaconda3/envs/pyspark/bin/python3.8

export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

PYSPARK_PYTHON 与 JAVA_HOME 也需要配置在/root/.bashrc 中(vim ~/.bashrc)

export JAVA_HOME=/export/server/jdk

export PYSPARK_PYTHON=/export/server/anaconda3/envs/pyspark/bin/python3.8

测试

在此之前，断开并重连 node1 以生效刚刚配置的环境变量，然后

cd /export/server/spark/bin

./pyspark 进入解释器环境进行

（./spark-submit –mastter local[*] 加执行文件地址以提交任务给 spark 运行）

网页输入 node1:4040 进入监控页面（4040 是默认端口，有进程才有界面）

Standalone 环境搭建

## 新角色历史服务器

> 历史服务器不是 Spark 环境的必要组件, 是可选的.

剩余12页未读，继续阅读

HM760

粉丝: 42
资源: 5

Spark安装与配置：Anaconda3环境下的三种模式实战

在虚拟机中安装anaconda

k-means 基于anaconda的python3实现

Spark课设.zip

PySpark_Day02：安装部署及应用开发.pdf

2017年最新机器学习入门与实战精品高清全套视频教程附讲义作业(anaconda2 4.3Pytyhon2.7 jupyter) 70课

Linux实战：12步部署常用软件（数据库、Web应用、开发工具与云平台）

在线拍卖数据分析系统搭建与实现

Anaconda中的大数据处理：介绍Spark

Anaconda中Jupyter Notebook的优化与调优

【Python机器学习入门】：3小时学会使用Scikit-learn进行数据分析与预测

最新资源