哑变量化后如何绘制变量重要性排序图
时间: 2023-07-20 22:06:20 浏览: 102
Important-degree-evaluation.rar_排序熵_熵排序_重要度_重要度 matlab_重要度排序
哑变量化后得到的数据集可以使用一些机器学习算法进行训练,例如随机森林、XGBoost等。这些算法在训练时会给出各个变量的重要性得分,可以使用这些得分来绘制变量重要性排序图。
例如,对于随机森林算法,可以使用 `feature_importances_` 属性获取各个特征的重要性得分,并使用 Matplotlib 库绘制条形图:
```python
from sklearn.ensemble import RandomForestClassifier
import matplotlib.pyplot as plt
# 构建随机森林模型
rfc = RandomForestClassifier(n_estimators=100, random_state=42)
rfc.fit(X_train, y_train)
# 获取特征重要性得分
importances = rfc.feature_importances_
# 绘制变量重要性排序图
indices = np.argsort(importances)[::-1]
plt.figure(figsize=(12,6))
plt.title("Feature Importance")
plt.bar(range(X.shape[1]), importances[indices])
plt.xticks(range(X.shape[1]), X.columns[indices], rotation='vertical')
plt.show()
```
其中 `X_train` 和 `y_train` 分别为训练数据集的特征和标签,`X.shape[1]` 表示特征数量,`X.columns[indices]` 表示按照重要性得分排序后的特征名称。
阅读全文