spark sql读写csv文件案例
时间: 2023-04-21 19:03:31 浏览: 120
Spark SQL可以读写CSV文件,下面是一个简单的案例:
1. 导入CSV文件
假设我们有一个名为“data.csv”的CSV文件,包含以下内容:
```
id,name,age
1,John,25
2,Jane,30
3,Bob,35
```
我们可以使用以下代码将其导入Spark SQL中:
```python
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("CSV Reader").getOrCreate()
df = spark.read.format("csv").option("header", "true").load("data.csv")
df.show()
```
这将创建一个名为“df”的DataFrame对象,并将其显示在控制台上。
2. 导出CSV文件
我们可以使用以下代码将DataFrame对象导出为CSV文件:
```python
df.write.format("csv").option("header", "true").save("output.csv")
```
这将在当前目录下创建一个名为“output.csv”的文件,并将DataFrame对象写入其中。
以上就是Spark SQL读写CSV文件的简单案例。
相关问题
spark sql读取csv文件带表头
在 Spark SQL 中读取 CSV 文件可以使用 `spark.read` 方法,并指定读取选项。如果 CSV 文件带有表头,可以通过设置 `header` 选项为 `true` 来指定表头。
以下是一个读取 CSV 文件的示例代码:
```scala
val spark = SparkSession.builder()
.appName("Read CSV with Header")
.getOrCreate()
val df = spark.read.format("csv")
.option("header", "true")
.load("path/to/csv/file")
df.show()
```
其中,`format` 方法指定了读取的文件格式为 CSV,`option` 方法设置了读取选项,`load` 方法指定了 CSV 文件的路径。读取后的 DataFrame 可以使用 `show` 方法查看数据。
Spark SQL读取csv文件带表头 不加val
在 Spark SQL 中读取 CSV 文件可以使用 `spark.read` 方法,并指定读取选项。如果 CSV 文件带有表头,可以通过设置 `header` 选项为 `true` 来指定表头。
以下是一个读取 CSV 文件的示例代码:
```scala
import org.apache.spark.sql.SparkSession
// 创建 SparkSession
val spark = SparkSession.builder()
.appName("Read CSV with Header")
.getOrCreate()
// 读取 CSV 文件
var df = spark.read.format("csv")
.option("header", "true")
.load("path/to/csv/file")
// 打印 DataFrame 中的数据
df.show()
```
其中,`format` 方法指定了读取的文件格式为 CSV,`option` 方法设置了读取选项,`load` 方法指定了 CSV 文件的路径。通过在变量定义时不加 `val`,将其定义为可变变量,可以在后续的代码中对其进行修改。但是,这种做法可能会导致代码的可读性和可维护性降低,不建议在实际项目中使用。
阅读全文