R语言 randforest函数的案例
时间: 2024-10-18 11:07:29 浏览: 32
R语言中的`randomForest`包提供了一个非常流行的随机森林算法,用于分类和回归任务。随机森林是一种集成学习方法,它通过构建许多决策树并取它们的平均预测结果来提高模型性能。下面是一个简单的例子,展示如何使用`randforest`函数创建一个随机森林模型对数据集进行分类:
```r
# 首先,需要加载randomForest和一些基础库
library(randomForest)
library(dplyr) # 数据操作
library(caret) # 数据预处理和交叉验证
# 假设我们有一个名为"mydata"的数据框,其中包含一个目标变量"target"和一些特征变量
data <- read.csv("mydata.csv") # 替换为你的数据文件路径
# 对数据进行预处理,如编码分类变量、缺失值处理等
data_processed <- data %>%
preProcess(methods = c("center", "scale")) %>%
as.data.frame()
# 划分训练集和测试集
set.seed(123) # 设置随机种子保证结果可复制
trainIndex <- createDataPartition(data_processed$target, p = .8, list = FALSE)
train_data <- data_processed[trainIndex, ]
test_data <- data_processed[-trainIndex, ]
# 构建随机森林模型
rf_model <- randomForest(target ~ ., data = train_data, ntree = 500, mtry = sqrt(ncol(train_data) - 1))
# 训练完成后,可以使用模型对测试集进行预测
predictions <- predict(rf_model, newdata = test_data)
# 评估模型性能,例如计算准确率
accuracy <- confusionMatrix(predictions, test_data$target)$overall['Accuracy']
#
阅读全文