pysparkdataframe保存数据
时间: 2023-07-25 10:45:14 浏览: 95
数据库文件保存
在 PySpark 中,可以使用 DataFrame 的 `write` 方法将数据保存到文件系统中。
以下是一个示例代码:
```python
# 导入 PySpark 模块
from pyspark.sql import SparkSession
# 创建 SparkSession 对象
spark = SparkSession.builder.appName("SaveData").getOrCreate()
# 创建一个 DataFrame
data = [("Alice", 25), ("Bob", 30), ("Charlie", 35)]
df = spark.createDataFrame(data, ["name", "age"])
# 将 DataFrame 写入文件系统
df.write.mode("overwrite").csv("path/to/save/data")
```
在上面的示例中,我们首先创建了一个 SparkSession 对象,然后创建了一个 DataFrame,并将其写入文件系统中的指定路径。在这里,我们使用了 `mode` 参数来指定写入模式,它可以是 `overwrite`、`append` 或 `ignore`,分别表示覆盖、追加和忽略。我们还使用了 `csv` 方法指定了写入的文件格式,当然也可以是其他格式,如 JSON、Parquet 等。
阅读全文