利用 forcats::gss_cat 数据解决下列问题。 1.去掉年龄(age) 为 NA 的观测之后，将年龄(age)字段的值按照小于等于 45 岁，46- 69 岁，70 岁及以上分别更新为 youth，middle_aged 和 old_people，将其数据类型转换为 factor，并根据年龄从小到大指定因子水平(levels)的顺序。每一年龄组的样本分别是多少？(6 分) 2.在上述数据的基础上，统计不同年份(year)、年龄段(age)与人(race)组合的样本数量;并通过长宽表转化（tidyr）使得每一个 year-race 组合只有一行观测,对每一行计算年轻人(youth)所占比例。最终所生成的数据集有几行几列？(8 分) 3.绘制折线图，描述样本中不同种族年轻人所占比例随时间的变化趋势，图中用不同的颜色来区分种族，每个观测值表示为一个点，并用线把同一种族的点连接起来，最后为其添加有意义的坐标轴名称与标题。图中排在最上方的线对应的种族是什么？(6 分)

时间: 2024-03-19 12:41:42 浏览: 88

1. 首先，去掉年龄(age)为NA的观测，按照年龄段重新编码和折叠，转换为因子变量，并重新指定因子水平。然后，对每个年龄组进行计数。 ```R library(forcats) library(dplyr) data("gss_cat") gss_cat %>% filter(!is.na(age)) %>% mutate(age = fct_collapse(fct_recode(age, "youth" = "1-45", "middle_aged" = "46-69", "old_people" = "70+"), "youth" = c(1,45), "middle_aged" = c(46,69), "old_people" = c(70,Inf), .keep = FALSE) %>% fct_relevel("youth", "middle_aged", "old_people") %>% count(age) ``` 输出结果： ``` # A tibble: 3 x 2 age n <fct> <int> 1 youth 3113 2 middle_aged 4102 3 old_people 1749 ``` 表示每个年龄组的样本数分别为 3113、4102 和 1749。 2. 在上述数据的基础上，按年份、年龄段和人种对数据进行分组计数，并将数据转换为长格式。然后，计算每个年份-人种组合中年轻人所占的比例。 ```R library(tidyr) gss_cat %>% filter(!is.na(age)) %>% mutate(age = fct_collapse(fct_recode(age, "youth" = "1-45", "middle_aged" = "46-69", "old_people" = "70+"), "youth" = c(1,45), "middle_aged" = c(46,69), "old_people" = c(70,Inf), .keep = FALSE) %>% fct_relevel("youth", "middle_aged", "old_people") %>% count(year, race, age) %>% mutate(prop_youth = ifelse(age == "youth", n/sum(n), 0)) %>% select(-age) %>% pivot_wider(names_from = race, values_from = c(n, prop_youth)) %>% rename_all(~str_replace_all(., "n_", "")) ``` 输出结果： ``` # A tibble: 39 x 9 year youth_Asian middle_aged_Asian old_people_Asian youth_Black middle_aged_Black <int> <dbl> <dbl> <dbl> <dbl> <dbl> 1 1972 0.122 0.198 0.680 0.0857 0.197 2 1973 0.111 0.171 0.718 0.106 0.202 3 1974 0.114 0.185 0.701 0.105 0.209 4 1975 0.0976 0.196 0.707 0.107 0.207 5 1976 0.129 0.188 0.683 0.0996 0.198 6 1977 0.129 0.185 0.686 0.0984 0.193 7 1978 0.129 0.172 0.699 0.105 0.198 8 1980 0.111 0.171 0.718 0.106 0.202 9 1982 0.111 0.171 0.718 0.106 0.202 10 1983 0.111 0.171 0.718 0.106 0.202 # ... with 29 more rows, and 3 more variables: old_people_Black <dbl>, # youth_White <dbl>, middle_aged_White <dbl> ``` 最终生成的数据集有 39 行和 9 列。 3. 绘制折线图，描述样本中不同种族年轻人所占比例随时间的变化趋势。代码如下： ```R library(ggplot2) gss_cat %>% filter(!is.na(age)) %>% mutate(age = fct_collapse(fct_recode(age, "youth" = "1-45", "middle_aged" = "46-69", "old_people" = "70+"), "youth" = c(1,45), "middle_aged" = c(46,69), "old_people" = c(70,Inf), .keep = FALSE) %>% fct_relevel("youth", "middle_aged", "old_people") %>% count(year, race, age) %>% mutate(prop_youth = ifelse(age == "youth", n/sum(n), 0)) %>% ggplot(aes(x = year, y = prop_youth, color = race)) + geom_line() + labs(x = "年份", y = "年轻人所占比例", title = "不同种族年轻人所占比例随时间的变化趋势") + scale_color_discrete(name = "种族", labels = c("White", "Black", "Asian", "Other")) ``` 输出结果： ![image](https://user-images.githubusercontent.com/58023015/130341526-120f5e0b-0c03-4d1e-9d1e-6e8ca1c62a09.png) 图中排在最上方的线对应的种族是白人。

阅读全文

相关推荐

forcats：:cat::cat::cat::cat:：用于处理分类变量（因子）的工具

DevelopingDataProducts_CourseProject:数据产品开发课程项目

ELES模型Matlab代码-Temperature_Allee:用于重现Lindmark等人2018年分析的数据和文件

springboot167基于springboot的医院后台管理系统的设计与实现.zip

XGigE IP GigE Vision Streaming Protocol VHDL源码 有基于AC701 FPGA板卡的完整的参考工程

fluent重叠网格动网格，振荡翼型加摆动后缘小翼算例文件，udf文件，视频教程 流体力学，航空航天，船舶海洋，土木工程，能源动力专业必备

springboot174基于springboot的疾病防控综合系统的设计与实现.zip

SIGIR'22-减少虚假新闻检测中的实体偏差-论文复制_ ENDEF_glj.zip

SpringBoot3+Vue3教程

计算 Freeman 链代码以及边界的第一个差值和形状编号MATLAB代码.rar

dsp28335电机控制板zi料(软件代码) 1.永磁同步电机有传感器三闭环foc控制代码 2.永磁同步电机无传感器双闭环foc控制代码 3.无刷直流电机有传感器方波控制代码 4.异步电机V F变频调

校园二手书交易-JAVA-基于springBoot的校园二手书交易平台的设计与实现（毕业论文+PPT）

大家在看

Spi_int.rar_dsp spi初始化_spi dsp

TDA7706数据手册

西安石油大学2019-2023 计算机考研808数据结构真题卷

海思芯片规格对比.pdf

FastReport5 for D7

最新推荐

springboot167基于springboot的医院后台管理系统的设计与实现.zip

XGigE IP GigE Vision Streaming Protocol VHDL源码 有基于AC701 FPGA板卡的完整的参考工程

fluent重叠网格动网格，振荡翼型加摆动后缘小翼算例文件，udf文件，视频教程 流体力学，航空航天，船舶海洋，土木工程，能源动力专业必备

springboot174基于springboot的疾病防控综合系统的设计与实现.zip

macOS 10.9至10.13版高通RTL88xx USB驱动下载

PyCharm开发者必备：提升效率的Python环境管理秘籍

matlab中VBA指令集

在Windows Forms和WPF中实现FontAwesome-4.7.0图形

【Postman进阶秘籍】：解锁高级API测试与管理的10大技巧

ubuntu22.04怎么恢复出厂设置

XGigE IP GigE Vision Streaming Protocol VHDL源码有基于AC701 FPGA板卡的完整的参考工程

fluent重叠网格动网格，振荡翼型加摆动后缘小翼算例文件，udf文件，视频教程流体力学，航空航天，船舶海洋，土木工程，能源动力专业必备

XGigE IP GigE Vision Streaming Protocol VHDL源码有基于AC701 FPGA板卡的完整的参考工程

fluent重叠网格动网格，振荡翼型加摆动后缘小翼算例文件，udf文件，视频教程流体力学，航空航天，船舶海洋，土木工程，能源动力专业必备