python实现决策树C4.5算法详解(在ID3基础上改进)_python决策树公式 - CSDN文库

150 浏览量更新于2023-03-03 评论收藏 131KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

资源详情

资源评论

资源推荐

python实现决策树实现决策树C4.5算法详解算法详解(在在ID3基础上改进基础上改进)

一、概论一、概论

C4.5主要是在ID3的基础上改进，ID3选择（属性）树节点是选择信息增益值最大的属性作为节点。而C4.5引入了新概念“信息

增益率”,C4.5是选择信息增益率最大的属性作为树节点。

二、信息增益二、信息增益

以上公式是求信息增益率（ID3的知识点）

三、信息增益率三、信息增益率

信息增益率是在求出信息增益值在除以。

例如下面公式为求属性为“outlook”的值：

四、四、C4.5的完整代码的完整代码

from numpy import *

from scipy import *

from math import log

import operator

#计算给定数据的香浓熵：

def calcShannonEnt(dataSet):

numEntries = len(dataSet)

labelCounts = {} #类别字典（类别的名称为键，该类别的个数为值）

for featVec in dataSet:

currentLabel = featVec[-1] if currentLabel not in labelCounts.keys(): #还没添加到字典里的类型

labelCounts[currentLabel] = 0;

labelCounts[currentLabel] += 1;

shannonEnt = 0.0

for key in labelCounts: #求出每种类型的熵

prob = float(labelCounts[key])/numEntries #每种类型个数占所有的比值

shannonEnt -= prob * log(prob, 2)

return shannonEnt; #返回熵

#按照给定的特征划分数据集

def splitDataSet(dataSet, axis, value):

retDataSet = [] for featVec in dataSet: #按dataSet矩阵中的第axis列的值等于value的分数据集

if featVec[axis] == value: #值等于value的，每一行为新的列表（去除第axis个数据）

reducedFeatVec = featVec[:axis] reducedFeatVec.extend(featVec[axis+1:])

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余3页未读，立即下载

评论0

weixin_38509504

粉丝: 1
资源: 952

会员权益专享

图片转文字

全年可省5，000元立即开通

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈