python随机森林算法及其优化详解_随机森林中基尼系数 - CSDN文库

126 浏览量更新于2023-03-03 评论 2 收藏 90KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

资源详情

资源评论

资源推荐

python 随机森林算法及其优化详解随机森林算法及其优化详解

前言前言

优化随机森林算法，正确率提高1%~5%（已经有90%+的正确率，再调高会导致过拟合）

论文当然是参考的，毕竟出现早的算法都被人研究烂了，什么优化基本都做过。而人类最高明之处就是懂得利用前人总结的经

验和制造的工具（说了这么多就是为偷懒找借口。hhhh）

优化思路优化思路

1. 计算传统模型准确率

2. 计算设定树木颗数时最佳树深度，以最佳深度重新生成随机森林

3. 计算新生成森林中每棵树的AUC，选取AUC靠前的一定百分比的树

4. 通过计算各个树的数据相似度，排除相似度超过设定值且AUC较小的树

5. 计算最终的准确率

主要代码粘贴如下主要代码粘贴如下（注释比较详细，就不介绍代码了）

#-*- coding: utf-8 -*-

import time

from csv import reader

from random import randint

from random import seed

import numpy as np

from numpy import mat

from group_11 import caculateAUC_1, plotTree

# 建立一棵CART树

'''试探分枝'''

def data_split(index, value, dataset):

left, right = list(), list()

for row in dataset:

if row[index] < value:

left.append(row)

else:

right.append(row)

return left, right

'''计算基尼指数'''

def calc_gini(groups, class_values):

gini = 0.0

total_size = 0

for group in groups:

total_size += len(group)

for group in groups:

size = len(group)

if size == 0:

continue

for class_value in class_values:

proportion = [row[-1] for row in group].count(class_value) / float(size)

gini += (size / float(total_size)) * (proportion * (1.0 - proportion))# 二分类执行两次，相当于*2

return gini

'''找最佳分叉点'''

def get_split(dataset, n_features):

class_values = list(set(row[-1] for row in dataset))# 类别标签集合

b_index, b_value, b_score, b_groups = 999, 999, 999, None

# 随机选取特征子集，包含n_features个特征

features = list()

while len(features) < n_features:

# 随机选取特征

# 特征索引

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余6页未读，立即下载

评论0

weixin_38555019

粉丝: 10
资源: 921

会员权益专享

图片转文字

全年可省5，000元立即开通

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈