用R语言探索 nycflights13 数据集 1. 从 flights 数据中找出到达时间延误 2 小时或者更多的所有航班,并将生成的新数据 保存为 flight_arr2hr。(5 分) 2. 将生成的 flight_arr2hr 数据集根据目的地(dest)进行分组,统计出抵达每个目的地 的航班数量,筛选出抵达航班数量前十名的目的地,将结果命名为 top10_dest。(5 分) 3. 从 weather 表中挑选出以下变量:year, month, day, hour, origin, humid, wind_speed, 并将其与 flight_arr2hr 表根据共同变量进行左连接, 生成的新数据保存为 flight_weather (5 分) 4. 基于 flight_weather 数据集,根据不同出发地(origin)在平行的三个图中画出风速 wind_speed(x 轴)和出发延误时间 dep_delay(y 轴)的散点图,以及平滑曲线。 (5 分) 5. flights 中每家航空公司在 2013 年有多少班次的航班被取消了?提示:依据 dep_time 来判断某班次航班是否被取消(5 分) 6. 找出 flights 中每一家航空公司的航班最常去的目的地机场,以及 flights 中每家航空 公司飞往最常去的目的地机场的航班数量 (10 分)
时间: 2024-03-10 10:47:13 浏览: 448
好的,以下是针对nycflights13数据集的R语言代码:
1. 找出到达时间延误 2 小时或者更多的航班,并将生成的新数据保存为flight_arr2hr:
```R
library(nycflights13)
flight_arr2hr <- filter(flights, arr_delay >= 120)
```
2. 将生成的flight_arr2hr数据集根据目的地(dest)进行分组,统计出抵达每个目的地的航班数量,筛选出抵达航班数量前十名的目的地,将结果命名为top10_dest:
```R
top10_dest <- flight_arr2hr %>%
group_by(dest) %>%
summarize(n = n()) %>%
arrange(desc(n)) %>%
slice(1:10)
```
3. 从weather表中挑选出以下变量:year, month, day, hour, origin, humid, wind_speed, 并将其与flight_arr2hr表根据共同变量进行左连接, 生成的新数据保存为flight_weather:
```R
flight_weather <- left_join(flight_arr2hr, select(weather, year, month, day, hour, origin, humid, wind_speed),
by = c("year", "month", "day", "hour", "origin"))
```
4. 基于flight_weather数据集,根据不同出发地(origin)在平行的三个图中画出风速wind_speed(x 轴)和出发延误时间dep_delay(y 轴)的散点图,以及平滑曲线:
```R
library(ggplot2)
ggplot(data = flight_weather, mapping = aes(x = wind_speed, y = dep_delay)) +
geom_point() +
geom_smooth(method = "lm") +
facet_wrap(~ origin, ncol = 3)
```
5. flights中每家航空公司在2013年有多少班次的航班被取消了?依据dep_time来判断某班次航班是否被取消:
```R
flights_cancelled <- flights %>%
filter(year == 2013, is.na(dep_time)) %>%
group_by(carrier) %>%
summarize(n = n())
```
6. 找出flights中每一家航空公司的航班最常去的目的地机场,以及flights中每家航空公司飞往最常去的目的地机场的航班数量:
```R
most_common_dest <- flights %>%
group_by(carrier, dest) %>%
summarize(n = n()) %>%
group_by(carrier) %>%
filter(n == max(n)) %>%
select(-n)
```
阅读全文