在Ubuntu 20.04系统上详细指导如何安装Pyspark?
时间: 2024-12-23 13:17:53 浏览: 9
在Ubuntu 20.04系统上安装Apache Pyspark,可以按照以下步骤操作:
1. **更新包列表并安装依赖**
首先,确保您的系统是最新的,运行以下命令:
```
sudo apt-get update
sudo apt-get upgrade
```
2. **安装Java Development Kit (JDK)**
Pyspark需要Java环境,因此首先安装OpenJDK。在终端输入:
```
sudo add-apt-repository ppa:openjdk-r/ppa
sudo apt-get update
sudo apt-get install openjdk-11-jdk
```
或者选择您喜欢的版本。
3. **确认JDK已安装**
运行`java -version`检查是否安装成功。
4. **下载Spark源码**
下载最新的Spark发行版,例如2.4.x,到本地目录:
```
wget https://www.apache.org/dist/spark/spark-2.4.6/spark-2.4.6-bin-hadoop2.7.tgz
```
5. **解压并移动到合适位置**
解压缩文件并移动到 `/opt` 目录下:
```
tar xvf spark-2.4.6-bin-hadoop2.7.tgz
sudo mv spark-2.4.6-bin-hadoop2.7 /opt/spark-2.4.6
```
6. **配置环境变量**
创建一个名为 `.bashrc` 的隐藏文件,在`~/.bashrc`添加以下内容,然后执行 `source ~/.bashrc` 使更改生效:
```bash
export SPARK_HOME=/opt/spark-2.4.6
export PATH=$PATH:$SPARK_HOME/bin
```
7. **验证安装**
现在你可以通过 `pyspark` 来启动Pyspark Shell,如果一切顺利,你应该能看到Pyspark欢迎界面。
8. **设置环境变量永久保存**
如果你想让这些环境变量在每次登录时自动加载,可以在系统的`etc/profile`文件中添加相应的路径,然后重启终端。
阅读全文