如何在 Jupyter Notebook 中运行 PySpark
时间: 2024-05-30 18:06:40 浏览: 316
在 Jupyter Notebook 中运行 PySpark,需要先安装 PySpark 和 Java 环境,并设置环境变量。具体步骤如下:
1. 安装 Java
PySpark 运行需要 Java 环境,可以在官网下载 Java 并进行安装。
2. 安装 PySpark
可以使用 pip 安装 PySpark:
```
pip install pyspark
```
3. 设置环境变量
在系统环境变量中添加如下两个变量:
```
SPARK_HOME = /path/to/your/spark/
PATH = $SPARK_HOME/bin:$PATH
```
其中,/path/to/your/spark/ 表示你的 Spark 安装路径。
4. 启动 Jupyter Notebook
在命令行中输入以下命令启动 Jupyter Notebook:
```
jupyter notebook
```
5. 创建 PySpark Notebook
在 Jupyter Notebook 中创建一个新的 Notebook,选择 Python3 内核,输入以下代码测试 PySpark 是否正常运行:
```
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("Test").getOrCreate()
df = spark.read.csv("path/to/your/file.csv")
df.show()
```
其中,"path/to/your/file.csv" 表示你的数据文件路径。
阅读全文