r随机森林重要性排序
时间: 2023-11-26 20:13:28 浏览: 201
随机森林模型在拟合数据后,会对数据属性列进行变量重要性的度量。在sklearn中,可以通过随机森林模型的feature_importances_参数来获取特征的重要程度。这个参数返回一个numpy数组对象,对应于随机森林模型认为训练特征的重要程度。数值越大的属性列对于预测的准确性更加重要。
随机森林算法的步骤包括:
1. 从样本集中随机选择n个样本作为一个训练集(有放回抽样)。
2. 使用抽样得到的样本集生成一棵决策树。在生成树的每一个节点时,随机选择d个特征,并利用这d个特征对样本集进行划分,找到最佳的划分特征(可以使用基尼系数、增益率或者信息增益)。
3. 重复步骤1到步骤2共k次,k即为随机森林中决策树的个数。
4. 使用训练得到的随机森林模型对测试样本进行预测,并通过投票法决定预测结果。
对于每棵树,随机森林会按照不纯度给特征进行排序。对于分类问题,不纯度一般使用Gini指数进行计算;对于回归问题,不纯度一般使用方差mse(均方差)进行计算。整个森林会取特征重要性的平均值作为最终的重要性排序。
因此,通过随机森林模型的feature_importances_参数可以获取特征的重要性排序。特征重要性越大,代表该特征对于预测的准确性更加重要。<span class="em">1</span><span class="em">2</span><span class="em">3</span>
#### 引用[.reference_title]
- *1* *2* [随机森林做特征重要性排序和特征选择](https://blog.csdn.net/weixin_43290383/article/details/123114875)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"]
- *3* [随机森林RF原理总结](https://blog.csdn.net/weixin_44052055/article/details/107972276)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"]
[ .reference_list ]
阅读全文