spark sql加载csv文件并筛选
时间: 2023-04-25 11:02:31 浏览: 250
spark解析csv文件,存入数据库
可以使用Spark SQL加载CSV文件并筛选数据。具体步骤如下:
1. 使用SparkSession创建一个Spark SQL上下文。
2. 使用SparkSession的read方法读取CSV文件,可以使用option方法指定CSV文件的格式和选项。
3. 将读取的CSV文件注册为一个临时表。
4. 使用Spark SQL的select语句筛选数据。
5. 使用show方法显示筛选后的数据。
示例代码如下:
```
from pyspark.sql import SparkSession
# 创建SparkSession
spark = SparkSession.builder.appName("CSV Filter").getOrCreate()
# 读取CSV文件
df = spark.read.format("csv").option("header", "true").load("path/to/csv/file")
# 注册为临时表
df.createOrReplaceTempView("csv_table")
# 筛选数据
result = spark.sql("SELECT * FROM csv_table WHERE column_name = 'value'")
# 显示结果
result.show()
```
其中,path/to/csv/file需要替换为实际的CSV文件路径,column_name和value需要替换为实际的列名和筛选条件。
阅读全文