rstudio预测泰坦尼克号存活率
时间: 2023-09-17 15:12:05 浏览: 90
您好!关于使用RStudio预测泰坦尼克号存活率,您可以按照以下步骤进行:
1. 导入数据集:在RStudio中使用read.csv()函数导入泰坦尼克数据集。
2. 数据清洗:对数据集进行清洗,去除缺失值、异常值等。同时,将字符型变量转换为数值型变量,以便于后续模型的建立。
3. 特征工程:根据数据集中的特征,提取出有用的特征,例如性别、年龄、船舱等级等。
4. 模型建立:使用机器学习算法建立模型,例如逻辑回归、决策树、随机森林等。
5. 模型评估:使用交叉验证等方法对模型进行评估,选择最优的模型。
6. 模型预测:使用训练好的模型对测试集进行预测,得出预测结果。
下面是一个简单的示例代码,供您参考:
```
# 导入数据集
titanic <- read.csv("titanic.csv")
# 数据清洗
titanic <- na.omit(titanic)
titanic$Sex <- as.numeric(factor(titanic$Sex))
titanic$Embarked <- as.numeric(factor(titanic$Embarked))
# 特征工程
features <- c("Pclass", "Sex", "Age", "SibSp", "Parch", "Fare", "Embarked")
titanic <- titanic[, features]
# 模型建立
library(caret)
trainIndex <- createDataPartition(titanic$Survived, p = .7, list = FALSE)
train <- titanic[trainIndex, ]
test <- titanic[-trainIndex, ]
fitControl <- trainControl(method = "cv", number = 5)
model <- train(Survived ~ ., data = train, method = "glm", trControl = fitControl)
# 模型评估
model
# 模型预测
predictions <- predict(model, newdata = test)
```
希望能对您有所帮助!
阅读全文