Spark的安装与使用 第2关:安装与配置Spark开发环境
时间: 2024-03-07 14:39:42 浏览: 472
在安装和配置Spark开发环境之前,需要先准备好以下环境:
- Java环境(JDK8或以上版本)
- Hadoop环境(可选,如果需要使用Hadoop分布式环境)
- Scala环境(可选,如果需要使用Scala编写Spark应用程序)
接下来,我们来具体介绍如何安装和配置Spark开发环境。
### 安装Spark
1. 下载Spark
首先,需要从官网下载Spark安装包。访问官网https://spark.apache.org/downloads.html,选择适合自己的版本进行下载。最新版本可以去下面的链接下载:
```
https://downloads.apache.org/spark/spark-3.2.0/spark-3.2.0-bin-hadoop3.2.tgz
```
2. 解压Spark
下载完成后,将Spark解压到本地目录中。例如,将Spark解压到`/usr/local`目录下:
```
tar -xzvf spark-3.2.0-bin-hadoop3.2.tgz -C /usr/local
```
3. 配置Spark环境变量
编辑`/etc/profile`文件,添加以下内容:
```
export SPARK_HOME=/usr/local/spark-3.2.0-bin-hadoop3.2
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
```
使配置文件生效:
```
source /etc/profile
```
### 配置Spark
1. 修改Spark配置文件
进入Spark安装目录,将`conf`目录下的`spark-env.sh.template`文件复制一份,并将其重命名为`spark-env.sh`:
```
cd /usr/local/spark-3.2.0-bin-hadoop3.2/conf
cp spark-env.sh.template spark-env.sh
```
编辑`spark-env.sh`文件,添加以下内容:
```
export SPARK_HOME=/usr/local/spark-3.2.0-bin-hadoop3.2
export JAVA_HOME=/usr/local/jdk1.8.0_271
export HADOOP_HOME=/usr/local/hadoop-3.2.2
export HADOOP_CONF_DIR=/usr/local/hadoop-3.2.2/etc/hadoop
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
```
其中,`JAVA_HOME`和`HADOOP_HOME`根据自己的实际情况进行修改。
2. 配置Spark参数
进入Spark安装目录,将`conf`目录下的`spark-defaults.conf.template`文件复制一份,并将其重命名为`spark-defaults.conf`:
```
cd /usr/local/spark-3.2.0-bin-hadoop3.2/conf
cp spark-defaults.conf.template spark-defaults.conf
```
编辑`spark-defaults.conf`文件,添加以下内容:
```
spark.driver.memory 4g
spark.executor.memory 4g
spark.executor.instances 5
spark.executor.cores 2
spark.default.parallelism 100
```
其中,各个参数的含义如下:
- `spark.driver.memory`:Driver进程的内存大小,默认为1g。
- `spark.executor.memory`:Executor进程的内存大小,默认为1g。
- `spark.executor.instances`:Executor的实例数,默认为2。
- `spark.executor.cores`:Executor的CPU核心数,默认为1。
- `spark.default.parallelism`:RDD的默认分区数,即并行度,默认为当前集群的CPU核心数。
### 启动Spark
启动Spark可以通过以下命令:
```
start-all.sh
```
此命令将会启动Master和Worker进程。可以通过`jps`命令来查看是否启动成功。成功启动后,可以通过访问Master的Web UI(http://localhost:8080)来查看集群状态。
阅读全文