利用 forcats::gss_cat 数据解决下列问题。 1.去掉年龄(age) 为 NA 的观测之后,将年龄(age)字段的值按照小于等于 45 岁,46- 69 岁,70 岁及以上 分别更新为 youth,middle_aged 和 old_people,将其数据类型 转换为 factor,并根据年龄从小到大指定因子水平(levels)的顺序。每一年龄组的样本 分别是多少?(6 分) 2.在上述数据的基础上,统计不同年份(year)、年龄段(age)与人(race)组合的样本数 量;并通过长宽表转化(tidyr)使得每一个 year-race 组合只有一行观测,对每一行计 算年轻人(youth)所占比例。最终所生成的数据集有几行几列?(8 分) 3.绘制折线图,描述样本中不同种族年轻人所占比例随时间的变化趋势,图中用不同的颜 色来区分种族,每个观测值表示为一个点,并用线把同一种族的点连接起来,最后为其添加 有意义的坐标轴名称与标题。图中排在最上方的线对应的种族是什么?
时间: 2024-03-18 07:38:41 浏览: 69
forcats::cat::cat::cat::cat::用于处理分类变量(因子)的工具
1. 首先去掉年龄为 NA 的观测:
```R
library(forcats)
library(dplyr)
df <- gss_cat %>% filter(!is.na(age))
```
然后根据年龄分组,更新为对应的年龄段,并转换为 factor 类型:
```R
df$age_group <- ifelse(df$age <= 45, "youth",
ifelse(df$age <= 69, "middle_aged", "old_people"))
df$age_group <- factor(df$age_group, levels = c("youth", "middle_aged", "old_people"))
```
最后,计算每个年龄段的样本数量:
```R
df %>% count(age_group)
```
2. 首先按照年份、年龄段和人种分组,计算每组的样本数量和年轻人所占比例:
```R
df2 <- df %>% group_by(year, race, age_group) %>%
summarise(count = n(),
youth_prop = mean(age_group == "youth", na.rm = TRUE)) %>% ungroup()
```
然后使用 tidyr 包中的 spread 函数将数据从长表格转换为宽表格:
```R
df3 <- df2 %>% spread(age_group, count) %>%
spread(age_group, youth_prop, suffix = "_youth_prop")
```
最后统计数据集的行数和列数:
```R
dim(df3)
```
3. 首先按照年份、种族和年龄段分组,计算年轻人所占比例的均值:
```R
df4 <- df2 %>% group_by(year, race) %>%
summarise(youth_prop_mean = mean(youth_prop, na.rm = TRUE)) %>% ungroup()
```
然后使用 ggplot2 包绘制折线图:
```R
library(ggplot2)
ggplot(df4, aes(x = year, y = youth_prop_mean, color = race)) +
geom_line(size = 1) +
scale_color_manual(values = c("#E69F00", "#56B4E9", "#009E73", "#F0E442", "#0072B2", "#D55E00", "#CC79A7")) +
labs(x = "Year", y = "Percentage of Youth",
title = "Percentage of Youth by Race over Time")
```
图中排在最上方的线对应的种族是什么,需要根据具体数据集来确定。
阅读全文