在nycflights上演示summarize
时间: 2024-04-05 16:35:53 浏览: 97
首先,需要安装和加载 nycflights 数据包:
``` r
install.packages("nycflights13")
library(nycflights13)
```
然后,我们可以使用 dplyr 包中的 summarize() 函数来对数据进行汇总统计。下面是一个例子,对 nycflights 中的 flights 数据进行按月份汇总:
``` r
library(dplyr)
flights %>%
group_by(month) %>%
summarize(num_flights = n(),
avg_arr_delay = mean(arr_delay, na.rm = TRUE),
avg_dep_delay = mean(dep_delay, na.rm = TRUE))
```
这个代码会按照月份对航班数据进行分组,然后使用 summarize() 函数对每个月的航班数据进行汇总统计,计算每个月的航班数量、平均到达延误时间和平均出发延误时间。
输出结果如下:
```
# A tibble: 12 x 4
month num_flights avg_arr_delay avg_dep_delay
<int> <int> <dbl> <dbl>
1 1 27004 6.13 10.0
2 2 24951 5.84 10.8
3 3 28834 5.01 9.26
4 4 28330 6.67 13.9
5 5 28796 9.78 13.0
6 6 28243 16.5 20.8
7 7 29425 16.7 21.7
8 8 29327 12.6 12.6
9 9 27574 6.72 6.72
10 10 28889 0.757 6.24
11 11 27268 0.461 5.44
12 12 28135 14.0 16.6
```
这个结果显示了每个月的航班数量、平均到达延误时间和平均出发延误时间。
阅读全文