2. 本题使用数据集 nycflights13::flights （1）请首先剔除数据中实际出发时间（dep_time）缺失的观测值，然后生成一个新的变量 dep_interval，用来将数据中的实际出发时间分为上午（6:01‐ 12:00）、下午（12:01‐18:00）、晚上（18:01‐24:00）和凌晨（0:01‐6:00）四组，将每一年每一月每一天内每个dep_interval 分组（year, month, day, dep_interval），计算每一组的平均到达延误时间和到达延误的方差，以及到达的机场数量（注意：相同机场不能重复计算）（20’）（2）选取平均到达延误在 30 分钟以内同时平均到达机场数据不低于 50 个的小组，并按照平均到达延误由大到小排列（5’）

时间: 2023-06-25 17:07:51 浏览: 90

首先，我们需要加载数据集 nycflights13::flights，并剔除实际出发时间（dep_time）缺失的观测值。 ```R library(nycflights13) library(dplyr) flights <- flights %>% filter(!is.na(dep_time)) ``` 接着，我们可以创建一个新的变量 dep_interval，用来将数据中的实际出发时间分为上午（6:01‐12:00）、下午（12:01‐18:00）、晚上（18:01‐24:00）和凌晨（0:01‐6:00）四组，并将每一年每一月每一天内每个 dep_interval 分组（year, month, day, dep_interval），计算每一组的平均到达延误时间和到达延误的方差，以及到达的机场数量（注意：相同机场不能重复计算）。 ```R flights <- flights %>% mutate(dep_interval = case_when( dep_time >= 601 & dep_time <= 1200 ~ "morning", dep_time > 1200 & dep_time <= 1800 ~ "afternoon", dep_time > 1800 & dep_time <= 2400 ~ "evening", dep_time > 0 & dep_time <= 600 ~ "midnight" )) %>% group_by(year, month, day, dep_interval) %>% summarize(avg_arr_delay = mean(arr_delay, na.rm = TRUE), arr_delay_var = var(arr_delay, na.rm = TRUE), num_arr_airports = n_distinct(dest)) %>% ungroup() ``` 最后，我们可以选取平均到达延误在 30 分钟以内同时平均到达机场数据不低于 50 个的小组，并按照平均到达延误由大到小排列。 ```R flights_filtered <- flights %>% filter(avg_arr_delay <= 30, num_arr_airports >= 50) %>% arrange(desc(avg_arr_delay)) head(flights_filtered) ```

阅读全文

相关推荐

Python数据集：航班时间序列分析文件下载

精选机器学习与数据分析常用数据集指南

Seaborn数据集探索与应用教程

利用r语言帮我写一段代码，使它可以剔除数据集nycflights13：：flights中实际出发时间（dep_time）缺失的观测值

根据nycflights13::flights中的dep_time和arr_time计算出出发和到达时刻（精确到分）。dep_time和arr_time都是整数型的列，数值格式是HHMM或HMM.

确定nycflights13::flights 数据集中每列的类型

修改这段代码解决其中dep_time_ 与dep_time日期不一致的问题：flights_dt %>% mutate(dep_time_ = sched_dep_time + dep_delay * 60) %>% filter(dep_time_ != dep_time) %>% select(dep_time_, dep_time, sched_dep_time, dep_delay)

利用数据包 nycflights13: 1. 利用 flights 和 planes，找到平均服役时间最长前十种型号（model）的飞机

在r语言的flights中完成：去掉 flights 表中 dep_delay 为缺失值的行后，计算出发日期为 1 月的航班中出发延 误(dep_delay > 0)的比例是多少(保留小数点后三位)

Seaborn数据集深入解析与应用教程

机器学习与深度学习常用数据集——seaborn数据分析源

【数据驱动】复杂网络的数据驱动控制附Matlab代码.rar

最新推荐

【数据驱动】复杂网络的数据驱动控制附Matlab代码.rar

(源码)基于Qt框架的智能家居管理系统.zip

【路径规划】一种考虑拥塞的改进路径规划算法CCPF-RRT附Matlab代码.rar

基于springboot高性能计算中心的高性能集群共享平台源码数据库文档.zip

深入浅出：自定义 Grunt 任务的实践指南

管理建模和仿真的文件

数据可视化在缺失数据识别中的作用

ABB机器人在自动化生产线中是如何进行路径规划和任务执行的？请结合实际应用案例分析。

网络物理突变工具的多点路径规划实现与分析

"互动学习：行动中的多样性与论文攻读经历"

在r语言的flights中完成：去掉 flights 表中 dep_delay 为缺失值的行后，计算出发日期为 1 月的航班中出发延误(dep_delay > 0)的比例是多少(保留小数点后三位)