spark读取csv文件
时间: 2023-09-14 22:05:03 浏览: 130
读取CSV文件
在 Spark 中读取 CSV 文件可以使用 Spark SQL 的 CSV 数据源。以下是一些基本步骤:
1. 导入必要的包:
```python
from pyspark.sql import SparkSession
from pyspark.sql.functions import *
from pyspark.sql.types import *
```
2. 创建 SparkSession:
```python
spark = SparkSession.builder.appName("Read CSV").getOrCreate()
```
3. 使用 `read` 方法读取 CSV 文件:
```python
df = spark.read.csv("path/to/file.csv", header=True, inferSchema=True)
```
其中,`header=True` 表示第一行是列名,`inferSchema=True` 表示自动推断列的数据类型。
4. 查看数据:
```python
df.show()
```
如果需要指定列的数据类型,可以使用 `StructType`:
```python
schema = StructType([
StructField("id", IntegerType(), True),
StructField("name", StringType(), True),
StructField("age", IntegerType(), True)
])
df = spark.read.csv("path/to/file.csv", header=True, schema=schema)
```
这样就可以将 `id` 列设置为整型,`name` 列设置为字符串型,`age` 列设置为整型。
阅读全文