题目: 假设你有一份包含学生信息的数据集,其中包括学生姓名、年龄、性别和成绩。你需要进行数据清洗,处理缺失值和重复值,并确保数据类型正确。 数据集示例: # 创建示例数据集 students <- data.frame( name = c("Alice", "Bob", "Charlie", NA, "Emily"), age = c(20, 22, NA, 18, 21), gender = c("F", "M", "M", "F", NA), score = c(85, 92, 78, 80, 88) ) 练习要求: 删除包含缺失值的行。 删除重复的行。 将年龄列和分数列的数据类型转换为整数型。 确保性别列的值只包括 "M" 和 "F",对于其他值进行处理(例如,将其他值设置为缺失值)。利用R语言
时间: 2023-10-05 19:10:09 浏览: 150
数据清洗之 缺失值处理
好的,根据你的要求,以下是针对示例数据集的R代码进行数据清洗:
# 删除包含缺失值的行
students <- na.omit(students)
# 删除重复的行
students <- unique(students)
# 将年龄列和分数列的数据类型转换为整数型
students$age <- as.integer(students$age)
students$score <- as.integer(students$score)
# 确保性别列的值只包括 "M" 和 "F",对于其他值进行处理
students$gender[students$gender != "M" & students$gender != "F"] <- NA
# 检查数据结构
str(students)
这样就可以完成数据清洗,包括删除包含缺失值的行,删除重复的行,将年龄列和分数列的数据类型转换为整数型,以及确保性别列的值只包括 "M" 和 "F",对于其他值进行处理。
阅读全文