pyspark写csv
时间: 2023-12-08 21:04:42 浏览: 79
可以使用pyspark中的DataFrameWriter来将数据保存为csv格式。具体操作如下:
1. 导入pyspark模块并创建SparkSession对象:
```python
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("WriteCSV").getOrCreate()
```
2. 读取需要保存为csv格式的数据,并将其转换为DataFrame对象:
```python
data = [("Alice", 25), ("Bob", 30), ("Charlie", 35)]
df = spark.createDataFrame(data, ["name", "age"])
```
3. 使用DataFrameWriter的csv方法将DataFrame保存为csv格式文件:
```python
df.write.csv("path/to/save/csv/file", header=True)
```
其中,path/to/save/csv/file为需要保存的csv文件路径,header=True表示保存时携带DataFrame的列名。如果不需要保存列名,可以将header参数设置为False。
完整代码如下:
```python
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("WriteCSV").getOrCreate()
data = [("Alice", 25), ("Bob", 30), ("Charlie", 35)]
df = spark.createDataFrame(data, ["name", "age"])
df.write.csv("path/to/save/csv/file", header=True)
```
这样就可以将DataFrame保存为csv格式文件了。
阅读全文