首页pyspark 读取非 hdfs 上的 csv 文件

pyspark 读取非 hdfs 上的 csv 文件

时间: 2024-10-10 08:11:44 浏览: 35

Pyspark 可以通过 `pandas` 库或者 Spark SQL 的 `SparkSession.read.csv()` 方法来读取本地 CSV 文件，即使数据存储不在 HDFS (Hadoop Distributed File System) 上。以下是一些示例： 1. **使用 pandas**: ```python import pandas as pd # 如果csv文件在当前工作目录下 data = pd.read_csv('your_local_file.csv') # 或者指定完整路径 data = pd.read_csv('/path/to/your/local/file.csv') # 然后你可以将DataFrame转换为Spark DataFrame，如果需要的话 from pyspark.sql import SparkSession spark = SparkSession.builder.getOrCreate() spark_df = spark.createDataFrame(data) ``` 2. **使用 Spark SQL**: ```python from pyspark.sql import SparkSession spark = SparkSession.builder.appName('local-csv').getOrCreate() df = spark.read.format('csv') \ .option('header', 'true') \ .load('your_local_file.csv') ``` 这里设置了 `format='csv'`，并且指定了 `load` 参数为本地文件路径。 **

阅读全文