决策树分类详解：从ID3到C4.5及CART算法

PDF格式 | 600KB | 更新于2024-08-29 | 27 浏览量 | 举报

"这篇博客主要探讨了监督学习中的分类方法——决策树，涵盖了决策树的基本概念、特征选择、决策树的生成与修剪，并通过实际案例介绍了如何应用决策树进行预测。文章提到了ID3、C4.5和CART等算法在决策树学习中的重要性。" 决策树是一种在机器学习领域广泛应用的模型，特别是在分类问题中。它以树状结构呈现，每个内部节点代表一个特征测试，每个分支代表一个测试输出，而叶节点则代表最终的类别决策。决策树学习的目标是构建一个能够最小化预测错误的树模型。决策树学习过程包含三个主要步骤： 1. 特征选择：在构建决策树时，需要从所有可用特征中选择最能区分不同类别的特征。常用的选择标准包括信息增益、信息增益比、基尼指数等。信息增益衡量的是引入一个特征后，数据集纯度的提高程度；基尼指数则衡量数据集中分类不纯度的减少。 2. 决策树的生成：以信息增益为例，选择具有最高信息增益的特征作为当前节点的分裂依据，将数据集分割成子集，并递归地在子集中重复此过程，直到满足停止条件，如达到预设的最大深度、最小样本数或者特征数量。 3. 决策树的修剪：为了防止过拟合，生成的决策树通常会进行修剪，去除那些对分类影响不大的分支。修剪策略包括预剪枝和后剪枝。预剪枝是在树生成过程中设定提前停止条件，如达到特定深度或叶节点样本数。后剪枝则是在树完全生长后，自底向上检查非叶节点，如果替换为叶节点能减少泛化误差，则进行修剪。文章中提及的ID3算法是最早的决策树算法之一，它基于信息增益来选择特征。C4.5是ID3的改进版，解决了信息增益偏向于选择取值多的特征的问题，引入了信息增益率作为选择标准。CART（Classification and Regression Trees）算法则用于生成二叉树，适用于分类和回归任务。案例部分展示了如何使用决策树进行预测，例如通过决策树预测隐形眼镜类型和鸢尾花数据集的分类。在Python中，可以使用scikit-learn库的DecisionTreeClassifier来实现决策树模型的构建和预测。决策树模型的优点包括易于理解、解释性强，可以处理离散和连续的特征，以及不需要严格的线性关系假设。然而，它们可能对噪声敏感，容易过拟合，且在面对大量特征时可能表现不佳。通过集成学习方法，如随机森林和梯度提升机，可以克服这些限制，提升模型的稳定性和性能。

　　(a)所示的根结点的特征是年龄，有3个取值，对应于不同的取值有不同的子结点。(b)所示的根结点的特征是有工作，有2

个取值。对应于不同的取值有不同的子结点。两个决策树都可以从此延续下去。

3：究竞选择哪个特征更好些：究竞选择哪个特征更好些?

　　于是就要求一种能够确定选择特征的准则，信息增益信息增益(information gain) 就能够很好地表示这一直观的准则.

2.1 信息增益信息增益

了解信息增益，首先引入熵的定义。

　　熵：熵：熵(entropy) 是表示随机变量不确定性的度量。在不同的学科中也有引申出的更为具体的定义，是各领域十分重要的

参量。

　　设X是一个取有限个值的离散随机变量，其概率分布为

　　　　　　　　　　　　　　　　　　　P(X=xi)=pi,i=1,2,…..,nP\left( {X = {x_i}} \right) = {p_i},{\kern 1pt} {\kern 1pt} {\kern

1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} i = 1,2,…..,nP(X=xi)=pi,i=1,2,

…..,n

则随机变量X的熵定义为

　　　　　　　　　　　　　　　　　　　　H(X)=−∑i=1npilog⁡piH\left( X \right) = – \sum\limits_{i = 1}^n {{p_i}\log

{p_i}}H(X)=−i=1∑npilogpi

由定义可知，熵只依赖于X的分布，而与X的取值无关。

例如：当随机变量只取两个值1、0时，及X的分布为：

　　　　　　　　　　　　　　　P(X=1)=p,P(X=0)=1−p,0≤p≤1P\left( {X = 1} \right) = p{\kern 1pt} {\kern 1pt} {\kern 1pt} ,

{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} P\left( {X = 0} \right) = 1 –

p{\kern 1pt} {\kern 1pt} {\kern 1pt} ,{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt}

{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} 0 \le p \le 1P(X=1)=p,P(X=0)=1−p,0≤p≤1

熵为：

　　　　　　　　　　　　　　　　H(p)=−plog⁡2p−(1−p)log⁡2(1−p)H\left( p \right) = – p{\log _2}p – \left( {1 – p} \right){\log

_2}\left( {1 – p} \right)H(p)=−plog2p−(1−p)log2(1−p)

我们发现当p=0或p=1时，H(p)H\left( p \right)H(p)=0，随机变量完全没有不确定性。当p=0.5 时，H(p)H\left( p \right)H(p)=1，

熵取值最大，随机变量不确定性最大。　

　　信息熵（香农熵）信息熵（香农熵）：是一种信息的度量方式，表示信息的混乱程度，也就是说：信息越有序，信息熵越低。

　　条件熵条件熵H(Y| X)：表示在已知随机变量X的条件下随机变量Y的不确定性。

　　随机变量X给定的条件下随机变量Y的条件熵(conditional entropy) H(Y\X), 定义为X给定条件下Y的条件概率分布的熵对X

的数学期望。

　　　　　　　　　　　H(Y∣X)=∑i=1npiH(Y∣X=xi)H\left( {Y|X} \right) = \sum\limits_{i = 1}^n {{p_i}H\left( {Y|X = {x_i}}

\right)}H(Y∣X)=i=1∑npiH(Y∣X=xi) 其中，pi=P(X=xi)i=1,2,…..,n{p_i} = P\left( {X = {x_i}} \right){\kern 1pt} {\kern 1pt} {\kern

1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} i = 1,2,…..,npi=P(X=xi)i=1,2,…..,n

当熵和条件熵中的概率由数据估计(特别是极大似然估计)得到时，所对应的熵与条件熵分别称为经验熵经验熵(empiricalentropy)

和经验条件熵经验条件熵(empiricalconditional entropy)。

　　信息增益信息增益：在划分数据集前后信息发生的变化称为信息增益。

　　特征 A对训练数据集D的信息增益g(D,4)，定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差，

即：

　　　　　　　　　　　　　　　　　　　　　g(D,A)=H(D)−H(D∣A)g\left( {D,A} \right) = H\left( D \right) – H\left( {D|A}

\right)g(D,A)=H(D)−H(D∣A)　　

　　在模式识别书籍中，熵H(Y)与条件熵H(Y |X)之差称为互信息(mutual information)。决策树学习中的信息增益等价于训练

数据集中类与特征的互信息。

2.2 代码计算经验熵代码计算经验熵

设训练数据集为D, ∣D∣|D|∣D∣表示其样本容量，即样本个数。设有K个类Ck{C_k}Ck, k=1,2…,K，∣D∣|D|∣D∣为属于类

Ck{C_k}Ck的样本个数，∑k=1k∣Ck∣=∣D∣\sum\limits_{k = 1}^k {|{C_k}|} = |D|k=1∑k∣Ck∣=∣D∣。设特征A有n个不同的取

值{a1,a2,…,an}\left\{ {{a_1},{a_2},…,{a_n}} \right\}{a1,a2,…,an}根据特征A的取值将D划分为n个子集 D1,D2,…,Dn{{D_1},

{D_2},…,{D_n}}D1,D2,…,Dn，∣Di∣|D_i|∣Di∣为DiD_iDi的样本个数，∑i=1n∣Di∣=∣D∣\sum\limits_{i = 1}^n {|{D_i}|} =

|D|i=1∑n∣Di∣=∣D∣。记子集DiD_iDi中属于类CkC_kCk的样本的集合为Dik{D_{ik}}Dik，即Dik=Ck∩Di{D_{ik}} = {C_k} \cap

{D_i}Dik=Ck∩Di，∣Dik∣|{D_{ik}}|∣Dik∣为Dik{D_{ik}}Dik的样本个数。

(1) 计算数据集计算数据集D的经验熵的经验熵：H(D)H\left( D \right)H(D)

　　　　　　　　　　　　　　　　　　　　　　　H(D)=−∑k=1K∣Ck∣∣D∣log⁡2∣Ck∣∣D∣H\left( D \right) = –

\sum\limits_{k = 1}^K {\frac{{|{C_k}|}}{{|D|}}} {\log _2}\frac{{|{C_k}|}}{{|D|}}H(D)=−k=1∑K∣D∣∣Ck∣log2∣D∣∣Ck∣

剩余13页未读，继续阅读

weixin_38726186

粉丝: 5

决策树分类详解：从ID3到C4.5及CART算法

遥感影像监督分类与非监督分类的比较（pdf）

随机森林,随机森林是属于有监督还是无监督,matlab

envi-监督分类超详细

13-提交-监督学习 -knn-nb-决策树模型.pdf

Python机器学习(scikit-learn)：监督学习 - 决策树、随机森林、梯度提升决策树-谢TS的博客.pdf

英文论文--决策树分类算法

机器学习实战-手撕决策树

机器学习-基于决策树开发的分西瓜算法（西瓜书数据集）

西电数据挖掘上机作业--基于决策树的分类算法，属性的选择采用ID3 或C4.5策略，采用如下的数据建立分类决策树。

上海大学-机器学习-决策树实验

最新资源