PySpark 查询航班数据
时间: 2024-05-02 20:18:33 浏览: 17
以下是使用PySpark查询航班数据的示例代码:
```python
from pyspark.sql import SparkSession
# 创建SparkSession
spark = SparkSession.builder.appName("FlightsAnalysis").getOrCreate()
# 读取CSV文件
flights_df = spark.read.csv("flights.csv", header=True, inferSchema=True)
# 显示数据
flights_df.show()
# 查询最长的航班距离
flights_df.selectExpr("max(distance)").show()
# 查询最短的航班距离
flights_df.selectExpr("min(distance)").show()
# 查询平均航班距离
flights_df.selectExpr("avg(distance)").show()
# 查询起飞延误时间最长的航班
flights_df.filter("dep_delay = (select max(dep_delay) from flights)").show()
# 停止SparkSession
spark.stop()
```
在此示例中,我们使用SparkSession创建了一个名为“FlightsAnalysis”的应用程序,并使用read.csv()方法读取了名为“flights.csv”的CSV文件,该文件包含航班数据。我们使用show()方法显示了数据,并使用selectExpr()方法对数据进行了一些聚合查询。最后,我们使用stop()方法停止SparkSession。