scala将dataframe写成parquet文件
时间: 2023-12-03 09:17:45 浏览: 147
Spark DataFrame
好的,下面是将DataFrame写入Parquet文件的Scala代码示例:
```scala
import org.apache.spark.sql.{DataFrame, SaveMode}
// 将DataFrame写入Parquet文件
def writeParquet(df: DataFrame, outputPath: String): Unit = {
df.write
.mode(SaveMode.Overwrite)
.parquet(outputPath)
}
// 示例使用
val spark = SparkSession.builder.appName("WriteParquet").getOrCreate()
val data = Seq((1, "John"), (2, "Amy"), (3, "Mike")).toDF("id", "name")
writeParquet(data, "path/to/output/parquet")
```
在这个示例代码中,我们定义了一个名为`writeParquet`的函数,该函数接受两个参数:DataFrame和输出路径。在函数中,我们使用DataFrame的write方法将数据写入Parquet文件。我们还使用了SaveMode.Overwrite来覆盖任何现有文件。最后,我们使用parquet方法指定输出格式为Parquet。
在示例的使用部分,我们创建了一个SparkSession对象,并使用Seq.toDF方法创建了一个简单的DataFrame。然后我们调用了`writeParquet`函数将DataFrame写入Parquet文件。
希望这个代码示例可以帮助您将DataFrame写入Parquet文件。
阅读全文