使用r语言对泰坦尼克号乘客生存数据集完成以下数据分析任务: (1)填充age一列的缺
时间: 2024-02-19 21:58:22 浏览: 70
失值;(2)计算男女乘客的平均年龄;(3)计算不同等级船舱的幸存率;(4)计算不同出发港口的幸存率。
好的,让我逐一回答您的问题:
1. 填充age一列的缺失值:
使用r语言中的median()函数可以计算age一列的中位数,然后使用replace()函数将缺失值替换为中位数即可。代码如下:
```
median_age <- median(df$age, na.rm = TRUE)
df$age[is.na(df$age)] <- median_age
```
其中,df是指您的数据框对象,age是指需要填充缺失值的列名。
2. 计算男女乘客的平均年龄:
使用r语言中的aggregate()函数可以按照性别对年龄进行分组计算平均值,代码如下:
```
aggregate(age ~ sex, data = df, FUN = mean)
```
其中,df是指您的数据框对象,sex是指性别列名,age是指需要计算平均值的列名。
3. 计算不同等级船舱的幸存率:
使用r语言中的aggregate()函数可以按照船舱等级对生存情况进行分组计算平均值,代码如下:
```
aggregate(survived ~ pclass, data = df, FUN = mean)
```
其中,df是指您的数据框对象,pclass是指船舱等级列名,survived是指生存情况列名。
4. 计算不同出发港口的幸存率:
使用r语言中的aggregate()函数可以按照出发港口对生存情况进行分组计算平均值,代码如下:
```
aggregate(survived ~ embarked, data = df, FUN = mean)
```
其中,df是指您的数据框对象,embarked是指出发港口列名,survived是指生存情况列名。
阅读全文