使用Python随机森林筛选变量代码
时间: 2023-07-06 07:33:56 浏览: 126
以下是使用Python进行随机森林筛选变量的示例代码:
```python
from sklearn.ensemble import RandomForestClassifier
import pandas as pd
# 读取数据
data = pd.read_csv('data.csv')
# 定义特征和标签
X = data.drop('label', axis=1)
y = data['label']
# 建立随机森林模型
rfc = RandomForestClassifier(n_estimators=100)
# 训练模型
rfc.fit(X, y)
# 获取特征重要性
importances = rfc.feature_importances_
# 将特征重要性排序
indices = np.argsort(importances)[::-1]
# 打印特征重要性排名
for f in range(X.shape[1]):
print("%d. feature %d (%f)" % (f + 1, indices[f], importances[indices[f]]))
# 选择重要性较高的特征
X_selected = X.iloc[:, indices[:10]]
```
在以上代码中,我们首先导入了随机森林模型和Pandas库。然后,我们读取了数据并将其分成特征和标签。接着,我们建立了一个包含100棵决策树的随机森林模型,并使用训练数据对其进行训练。然后,我们获取了特征重要性,并将其按照重要性从高到低进行排序。最后,我们选择了重要性排名前10的特征作为模型的输入。
阅读全文