SPARK读取csv
时间: 2023-12-21 19:05:03 浏览: 119
在Spark中,可以使用`spark-csv`库来读取CSV文件。以下是一个示例代码:
```python
from pyspark.sql import SparkSession
# 创建SparkSession
spark = SparkSession.builder \
.appName("Read CSV") \
.getOrCreate()
# 读取CSV文件
df = spark.read \
.format("csv") \
.option("header", "true") \
.option("inferSchema", "true") \
.load("path/to/csv/file.csv")
# 显示数据
df.show()
# 关闭SparkSession
spark.stop()
```
在这个示例中,我们首先创建了一个`SparkSession`对象,然后使用`spark.read.format("csv")`来指定读取CSV文件的格式。我们还使用`.option("header", "true")`来指定CSV文件是否包含标题行,并使用`.option("inferSchema", "true")`来自动推断列的数据类型。最后,使用`.load("path/to/csv/file.csv")`来加载CSV文件。
请注意,你需要将`"path/to/csv/file.csv"`替换为实际的CSV文件路径。
相关问题
spark读取csv
以下是使用Apache Spark读取CSV文件的示例代码:
```python
from pyspark.sql import SparkSession
# 创建SparkSession对象
spark = SparkSession.builder.appName("Read CSV").getOrCreate()
# 读取CSV文件
df = spark.read.csv("path/to/sales.csv", header=True, inferSchema=True)
# 显示DataFrame中的数据
df.show()
```
在上面的代码中,我们首先创建了一个SparkSession对象,然后使用`spark.read.csv()`方法读取CSV文件。`header=True`表示第一行是列名,`inferSchema=True`表示自动推断列的数据类型。最后,我们使用`df.show()`方法显示DataFrame中的数据。
spark读取csv文件
在 Spark 中读取 CSV 文件可以使用 Spark SQL 的 CSV 数据源。以下是一些基本步骤:
1. 导入必要的包:
```python
from pyspark.sql import SparkSession
from pyspark.sql.functions import *
from pyspark.sql.types import *
```
2. 创建 SparkSession:
```python
spark = SparkSession.builder.appName("Read CSV").getOrCreate()
```
3. 使用 `read` 方法读取 CSV 文件:
```python
df = spark.read.csv("path/to/file.csv", header=True, inferSchema=True)
```
其中,`header=True` 表示第一行是列名,`inferSchema=True` 表示自动推断列的数据类型。
4. 查看数据:
```python
df.show()
```
如果需要指定列的数据类型,可以使用 `StructType`:
```python
schema = StructType([
StructField("id", IntegerType(), True),
StructField("name", StringType(), True),
StructField("age", IntegerType(), True)
])
df = spark.read.csv("path/to/file.csv", header=True, schema=schema)
```
这样就可以将 `id` 列设置为整型,`name` 列设置为字符串型,`age` 列设置为整型。
阅读全文