scala spark读多个列数不同的csv文件,合并成一个dataframe
时间: 2024-03-07 15:24:58 浏览: 94
可以使用Spark的API中的read.csv方法读取多个列数不同的csv文件,然后使用Spark的API中的union方法将它们合并成一个dataframe。具体代码可以参考以下示例代码:
```scala
import org.apache.spark.sql.SparkSession
object CsvUnionExample {
def main(args: Array[String]): Unit = {
val spark = SparkSession.builder()
.appName("CsvUnionExample")
.master("local[*]")
.getOrCreate()
// 读取多个列数不同的csv文件,每个文件的列数可以不同
val df1 = spark.read
.option("header", "true")
.option("inferSchema", "true")
.csv("path/to/csv/file1.csv")
val df2 = spark.read
.option("header", "true")
.option("inferSchema", "true")
.csv("path/to/csv/file2.csv")
val df3 = spark.read
.option("header", "true")
.option("inferSchema", "true")
.csv("path/to/csv/file3.csv")
// 合并多个dataframe成一个dataframe
val result = df1.union(df2).union(df3)
result.show()
spark.stop()
}
}
```
希望这个回答能够帮助到你!
阅读全文