按tailnum分组,去除arr_delay,dep_delay,tailnum的NA值。找出所有的坏飞机,即存在该组飞机的数据表对应的行数中满足(1)有arr_delay>120或dep_delay>120的行,(2)情况(1)出现比例高于5%,(3)该飞机数据表对应的行数大于20次。然后tailnum按字母顺序,由小至大。第二列为chengshi,值为tailnum数据表对应的行数中origin最多的城市值(去除NA),如最多值有多个值时,按字母顺序,由小至大全部保留
时间: 2024-04-26 10:24:03 浏览: 12
好的,让我解释一下这个问题的意思。
首先,我们需要根据 `tailnum` 分组,并且去除 `arr_delay` 和 `dep_delay` 中的缺失值。然后,我们需要找出所有的坏飞机,即对于每个分组,如果有超过 5% 的行有 `arr_delay` 或者 `dep_delay` 大于 120 分钟,并且该分组的行数大于 20,那么这个分组就是一个坏飞机分组。最后,我们需要按照 `tailnum` 的字母顺序排序,并且找出每个分组中 `origin` 最多的城市(不包括缺失值),如果最多值有多个,那么将它们全部保留,并按照字母顺序排序。第一列是 `tailnum`,第二列是对应的城市值。
相关问题
在r语言的某一个数据集中,#按tailnum分组,去除arr_delay,dep_delay,tailnum的所有NA值。然后tailnum按字母顺序,由小至大。接着保留每一架飞机arr_delay或dep_delay最大值的相应数据表的行,有多个保留多个。结果数据为三列,tailnum, arr_delay, dep_delay
好的,让我来解答您的问题。
首先,您提到的是R语言的数据集,因此我们可以使用R语言中的数据处理函数来完成您的要求。
您的要求可以分为以下几个步骤:
1. 按照tailnum分组,去除arr_delay、dep_delay和tailnum的所有NA值。
我们可以使用dplyr包中的group_by和filter函数来实现:
```R
library(dplyr)
data <- data %>%
group_by(tailnum) %>%
filter(!is.na(arr_delay) & !is.na(dep_delay) & !is.na(tailnum))
```
2. 按照tailnum的字母顺序排序。
我们可以使用dplyr包中的arrange函数来实现:
```R
data <- data %>%
arrange(tailnum)
```
3. 保留每一架飞机arr_delay或dep_delay最大值的相应数据表的行,有多个保留多个。
我们可以使用dplyr包中的slice_max函数来实现:
```R
data <- data %>%
group_by(tailnum) %>%
slice_max(arr_delay, dep_delay, n = Inf)
```
4. 最后,只保留三列数据:tailnum、arr_delay和dep_delay。
我们可以使用dplyr包中的select函数来实现:
```R
data <- data %>%
select(tailnum, arr_delay, dep_delay)
```
综上所述,完整的R代码如下:
```R
library(dplyr)
data <- data %>%
group_by(tailnum) %>%
filter(!is.na(arr_delay) & !is.na(dep_delay) & !is.na(tailnum)) %>%
arrange(tailnum) %>%
group_by(tailnum) %>%
slice_max(arr_delay, dep_delay, n = Inf) %>%
select(tailnum, arr_delay, dep_delay)
```
希望我的回答能够帮助到您!
在r语言中,在flights中,#按tailnum分组,去除arr_delay,dep_delay,tailnum的NA值。找出所有的好飞机, 即该飞机组对应的数据表的所有行均满足arr_delay<200且dep_delay<200。按字母顺序,由小至大。然后计算每架飞机arr_delay<120且dep_delay<120的行数占该组总行数的比例。结果为两列,tailnum和prop
以下是代码实现:
```R
library(dplyr)
# 读取数据
flights <- read.csv("flights.csv")
# 按tailnum分组,去除arr_delay,dep_delay,tailnum的NA值
flights_grouped <- flights %>%
group_by(tailnum) %>%
filter(!is.na(tailnum) & !is.na(arr_delay) & !is.na(dep_delay))
# 找出所有的好飞机
good_planes <- flights_grouped %>%
group_by(tailnum) %>%
filter(all(arr_delay < 200 & dep_delay < 200)) %>%
select(tailnum) %>%
distinct() %>%
arrange(tailnum)
# 计算每架飞机arr_delay<120且dep_delay<120的行数占该组总行数的比例
prop <- flights_grouped %>%
group_by(tailnum) %>%
summarize(prop = mean(arr_delay < 120 & dep_delay < 120)) %>%
inner_join(good_planes, by = "tailnum") %>%
arrange(tailnum)
# 结果输出
prop
```
结果为两列,tailnum和prop。其中,tailnum为飞机号码,prop为arr_delay<120且dep_delay<120的行数占该组总行数的比例。按字母顺序,由小至大排列。
相关推荐
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)