sklearn.tree.DecisionTreeClassifier.fit.feature_importances_是基于决策树模型的特征重要性计算方法,其计算公式如下: 对于每个节点,计算该节点的纯度(Gini impurity或entropy)与父节点的纯度差值,该值与该节点所包含的样本数的乘积作为该节点的重要性得分(即该节点的不纯度减少量),并累加到该节点所在的特征的重要性得分上。 对于每个特征,将所有节点的重要性得分累加,得到该特征的总重要性得分。 对于每个特征,将其总重要性得分除以所有特征的总重要性得分,得到该特征的相对重要性得分。 因此,sklearn.tree.DecisionTreeClassifier.fit.feature_importances_是一个数组,其中按照特征顺序存储每个特征的相对重要性得分。有示例代码吗?
时间: 2024-03-08 18:50:16 浏览: 92
Python决策树算法sklearn代码 DecisionTreeClassifier示例
5星 · 资源好评率100%
当我们使用决策树模型进行分类或回归任务时,我们可以通过以下代码获取特征重要性得分:
```python
from sklearn.tree import DecisionTreeClassifier
# 构建决策树模型
clf = DecisionTreeClassifier()
# 训练模型
clf.fit(X_train, y_train)
# 获取特征重要性得分
importance = clf.feature_importances_
```
其中,X_train是训练集的特征数据,y_train是训练集的标签数据。得到的importance是一个数组,其中按照特征顺序存储每个特征的相对重要性得分。我们可以通过以下代码将其可视化:
```python
import matplotlib.pyplot as plt
# 绘制特征重要性柱状图
plt.bar(range(len(importance)), importance)
plt.title('Feature Importances')
plt.show()
```
该代码将绘制出特征重要性得分的柱状图,方便我们对特征重要性进行直观的比较和分析。
阅读全文