pyspark 读取非 hdfs 上的 csv 文件
时间: 2024-10-10 08:11:44 浏览: 35
Pyspark 可以通过 `pandas` 库或者 Spark SQL 的 `SparkSession.read.csv()` 方法来读取本地 CSV 文件,即使数据存储不在 HDFS (Hadoop Distributed File System) 上。以下是一些示例:
1. **使用 pandas**:
```python
import pandas as pd
# 如果csv文件在当前工作目录下
data = pd.read_csv('your_local_file.csv')
# 或者指定完整路径
data = pd.read_csv('/path/to/your/local/file.csv')
# 然后你可以将DataFrame转换为Spark DataFrame,如果需要的话
from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()
spark_df = spark.createDataFrame(data)
```
2. **使用 Spark SQL**:
```python
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName('local-csv').getOrCreate()
df = spark.read.format('csv') \
.option('header', 'true') \
.load('your_local_file.csv')
```
这里设置了 `format='csv'`,并且指定了 `load` 参数为本地文件路径。
**
阅读全文