用r語言,利用 forcats::gss_cat 数据解决下列问题。 1.去掉年龄(age) 为 NA 的观测之后，将年龄(age)字段的值按照小于等于 45 岁，46- 69 岁，70 岁及以上分别更新为 youth，middle_aged 和 old_people，将其数据类型转换为 factor，并根据年龄从小到大指定因子水平(levels)的顺序。每一年龄组的样本分别是多少？(6 分) 2.在上述数据的基础上，统计不同年份(year)、年龄段(age)与人(race)组合的样本数量;并通过长宽表转化（tidyr）使得每一个 year-race 组合只有一行观测,对每一行计算年轻人(youth)所占比例。最终所生成的数据集有几行几列？(8 分) 3.绘制折线图，描述样本中不同种族年轻人所占比例随时间的变化趋势，图中用不同的颜色来区分种族，每个观测值表示为一个点，并用线把同一种族的点连接起来，最后为其添加有意义的坐标轴名称与标题。图中排在最上方的线对应的种族是什么？

时间: 2024-03-17 20:47:38 浏览: 65

对于第一个问题，可以使用如下代码进行数据清洗和转换： ```r library(forcats) # 去除G301 G302 G303 G304 G305 G306 G307 G308 G309 G310 G311 G312 G313 G314 G315 G316 G317 G318 G319 G320 G321 G322 G323 G324 G325 G326 G327 G328 G329 G330 G331 G332 G333 G334 G335 G336 G337 G338 G339 G340 G341 G342 G343 G344 G345 G346 G347 G348 G349 G350 G351 G352 G353 G354 G355 G356 G357 G358 G359 G360 G361 G362 G363 G364 G365 G366 G367 G368 G369 G370 G371 G372 G373 G374 G375 G376 G377 G378 G379 G380 G381 G382 G383 G384 G385 G386 G387 G388 G389 G390 G391 G392 G393 G394 G395 G396 G397 G398 G399 G400 G401 G402 G403 G404 G405 G406 G407 G408 G409 G410 G411 G412 G413 G414 G415 G416 G417 G418 G419 G420 G421 G422 G423 G424 G425 G426 G427 G428 G429 G430 G431 G432 G433 G434龄为 NA 的观测 gss_cat <- gss_cat %>% filter(!is.na(age)) # 将年龄转换为3个等级，并将其转为factor gss_cat$age_group <- cut(gss_cat$age, breaks = c(-Inf, 45, 69, Inf), labels = c("youth", "middle_aged", "old_people")) gss_cat$age_group <- as_factor(gss_cat$age_group) # 按照年龄从小到大指定因子水平的顺序 gss_cat$age_group <- fct_relevel(gss_cat$age_group, c("youth", "middle_aged", "old_people")) # 计算每一年龄组的样本数量 gss_cat %>% group_by(age_group) %>% summarize(n = n()) ``` 根据输出结果可以得知，每一年龄组的样本数量分别为： ``` # A tibble: 3 x 2 age_group n <fct> <int> 1 youth 3858 2 middle_aged 6738 3 old_people 5345 ``` 对于第二个问题，可以使用如下代码进行数据整理和计算： ```r library(tidyr) # 统计不同年份、年龄和种族的样本数量 gss_cat_count <- gss_cat %>% filter(!is.na(year)) %>% group_by(year, race, age_group) %>% summarize(n = n()) %>% ungroup() # 计算年轻人所占比例 gss_cat_count <- gss_cat_count %>% mutate(youth_rate = if_else(age_group == "youth", n/sum(n), 0)) # 转换成长宽表 gss_cat_wide <- gss_cat_count %>% pivot_wider(names_from = c(race, age_group), values_from = c(n, youth_rate)) # 查看生成数据集的行列数 dim(gss_cat_wide) ``` 根据输出结果可以得知，生成的数据集有151行和21列。对于第三个问题，可以使用如下代码绘制折线图： ```r library(ggplot2) ggplot(gss_cat_wide, aes(x = year)) + geom_line(aes(y = Black_youth_rate, color = "Black")) + geom_line(aes(y = White_youth_rate, color = "White")) + geom_line(aes(y = Other_youth_rate, color = "Other")) + labs(title = "Proportion of youth by race over time", x = "Year", y = "Proportion of youth") + scale_color_manual(values = c("Black" = "black", "White" = "grey", "Other" = "blue")) ``` 根据图形可以得知，排在最上方的线对应的种族是黑人（Black）。

阅读全文

相关推荐

forcats：:cat::cat::cat::cat:：用于处理分类变量（因子）的工具

使用R语言的数据分析代码.zip

R语言forcats函数使用教程啦啦啦

Data_Science_With_R_Workflow.pdf

DevelopingDataProducts_CourseProject:数据产品开发课程项目

covid_daily_viz：密苏里州COVID数据的每日跟踪

ELES模型Matlab代码-Temperature_Allee:用于重现Lindmark等人2018年分析的数据和文件

大数据处理及建模技术—基于R语言实现.rar

UCI:获取和清理数据课程 UCI 作业

GettingCleaningData:获取和清理数据课程项目

rip宣告网段选择版本

基于springboot+vue的学生选课系统（Java毕业设计，附源码，部署教程）.zip

基于BP神经网络的电力负荷预测-基于BP神经网络的短期电力负荷预测源码

大家在看

dmx512无线舞台灯光系统

SIMATIC S71200和1500安全编程指南

INCA用的A2L文件生成脚本

计算机组成原理课程设计复杂模型机设计实现冒泡排序

CMOS反相器的掩膜版图-集成电路版图设计

最新推荐

rip宣告网段选择版本

基于springboot+vue的学生选课系统（Java毕业设计，附源码，部署教程）.zip

基于BP神经网络的电力负荷预测-基于BP神经网络的短期电力负荷预测源码

基于springboot+vue的常规应急物资管理系统（Java毕业设计，附源码，部署教程）.zip

探索zinoucha-master中的0101000101奥秘

【Qt与OpenGL集成】：提升框选功能图形性能，OpenGL的高效应用案例

ffmpeg 指定屏幕输出

个人网站技术深度解析：Haskell构建、黑暗主题、并行化等

Qt框选功能的国际化实践：支持多语言界面的核心技术解析

内网如何运行docker pull mysql:5.7