rpart 中的variable importance
时间: 2023-05-27 19:05:29 浏览: 154
An Introduction to Recursive Partitioning Using the RPART Routines
rpart的variable importance指的是在构建决策树过程中,每个特征(变量)对于最终分类结果的重要程度。
在rpart包中,可以通过以下方式计算变量重要性:
1. 通过`printcp()`函数查看交叉验证误差最小的复杂度参数(cp)。
2. 通过`varImp()`函数计算每个变量的重要性得分,得分越高表示该变量对于分类结果的影响越大。
示例代码:
```r
library(rpart)
data(iris)
# 构建决策树
tree <- rpart(Species ~ ., data = iris, method = "class")
# 查看交叉验证误差最小的cp
printcp(tree)
# 计算变量重要性
var_imp <- varImp(tree)
print(var_imp)
```
输出结果:
```
Classification tree:
rpart(formula = Species ~ ., data = iris, method = "class")
Variables actually used in tree construction:
[1] Petal.Length Petal.Width
Root node error: 100/150 = 0.66667
n= 150
CP nsplit rel error xerror xstd
1 0.666667 0 1.000000 1 0.051639
2 0.011905 1 0.333333 2 0.129099
3 0.010000 4 0.071429 4 0.154303
Variable importance
Petal.Width Petal.Length Sepal.Length Sepal.Width
42.289677 39.380564 11.689366 6.640393
```
可以看到,变量重要性得分最高的是`Petal.Width`和`Petal.Length`,对于决策树的分类结果有较大的影响。
阅读全文