BAGGING

时间: 2025-03-24 12:10:55 浏览: 20

Bagging算法的核心概念

Bagging（Bootstrap Aggregating）是一种集成学习方法，旨在通过减少模型方差来提高预测性能。其核心思想是对原始数据集进行多次有放回的随机采样（即Bootstrap），从而生成多个子数据集[^3]。基于这些子数据集分别训练独立的基础模型（通常是决策树）。最后通过对基础模型的结果取平均值（回归问题）或投票表决（分类问题）得到最终预测。

随机抽样的重要性

如果不采用随机抽样技术，则每次构建的数据集相同，导致所有基础模型高度相似甚至完全一致，这违背了Bagging的目的——降低个体模型间的相关性并提升整体泛化能力。

实现过程中的关键技术点

在实际应用中，可以通过caret包中的trainControl()函数设置交叉验证方式以及重复次数等参数[^2]。下面是一个简单的GBM（Gradient Boosting Machine）建模例子展示如何利用Bagging的思想：

library(caret)

set.seed(123)
fitcontrol <- trainControl(method="repeatedcv", number=10, repeats=1, verboseIter = FALSE)
gbmfit <- train(CHURN_FLAG ~ ., data=balancedData, method="gbm", trControl=fitcontrol, verbose=FALSE)
print(gbmfit)