筛选出 flights 中 tailnum 包含两个“3”的观测数据,并将其保存为 flights1。
时间: 2024-01-21 17:16:44 浏览: 127
假设 `flights` 是一个 Pandas DataFrame,可以使用 Pandas 中的字符串方法来筛选出 tailnum 包含两个“3”的观测数据,代码如下:
```python
flights1 = flights[flights['tailnum'].str.count('3') == 2]
```
这行代码的意思是,对于 `flights` 中的每一行数据,统计其 tailnum 中包含多少个字符“3”,然后筛选出包含两个“3”的观测数据,保存到 `flights1` 中。
相关问题
flights中tailnum含W的观测
您可以使用以下代码来筛选`flights`中`tailnum`包含"W"的观测:
```python
import pandas as pd
# 读取flights数据集
flights = pd.read_csv('flights.csv')
# 使用str.contains()方法来筛选tailnum包含"W"的观测
flights_w = flights[flights['tailnum'].str.contains('W')]
```
这样,`flights_w`就是`flights`中`tailnum`包含"W"的所有观测。
1. 数据来源于 package::nycflights13 (1) 将 flights 和 planes 进行连接,其中,最终结果应当保存 flights 中的所有 观测值并且保存 planes 中对应的观测值,并将结果命名为 flights_planes (5’) (2) 选取 flights_planes 中 tailnum 中含有字母 W 的观测值,并将选取出来的 数据框保存为新的 flights_planes(5’) (3) 剔除 flights_planes 中 engines 和 seats 缺失的观测值,然后将数据按照 engines 和 seats 分组,计算各组飞机在 2013 年的 distance 和 arr_delay 的总和,计算结果不能为 NA,将计算结果保存为新的数据 flights_sum(10’) (4) 利用上一问所得的 flights_sum,计算不同 engines 的总到达迟到时间和总 飞行距离(5’)
(1) 连接flights和planes,保存结果为flights_planes:
```R
library(nycflights13)
flights_planes <- merge(flights, planes, by = "tailnum", all.x = TRUE)
```
(2) 选取flights_planes中tailnum中含有字母W的观测值,保存为新的flights_planes:
```R
flights_planes <- flights_planes[grep("W", flights_planes$tailnum), ]
```
(3) 剔除flights_planes中engines和seats缺失的观测值,按照engines和seats分组,计算各组飞机在2013年的distance和arr_delay的总和,并将结果保存为新的数据flights_sum:
```R
flights_sum <- na.omit(flights_planes[c("engines", "seats", "distance", "arr_delay")])
flights_sum <- aggregate(cbind(distance, arr_delay) ~ engines + seats, data = flights_sum, FUN = sum)
```
(4) 利用上一问所得的flights_sum,计算不同engines的总到达迟到时间和总飞行距离:
```R
aggregate(cbind(distance, arr_delay) ~ engines, data = flights_sum, FUN = sum)
```
阅读全文