决策树与集成学习详解：从ID3到随机森林

需积分: 0 41 浏览量更新于2024-06-30 收藏 1.84MB PDF 举报

"第8章主要讲解了决策树与集成学习的概念、算法及应用。内容涵盖了决策树的基本思想，如冠军球队的例子，信息的度量，以及决策树的生成算法如ID3和C4.5。此外，还讨论了决策树的剪枝技术，CART算法，集成学习的思想和不同类型，如Bagging、Boosting和Stacking，并介绍了随机森林的原理、特征重要性评估。最后，通过泰坦尼克号生还预测的数据集，实际展示了如何运用决策树进行预测分析。" 决策树是一种基于树状结构进行决策的机器学习模型，它通过一系列规则对数据进行分割，最终形成易于理解和解释的决策规则。在8.1.1中，"冠军球队"的例子是用来直观地解释决策树的基本概念，即通过一系列问题来逐步缩小答案范围，最终确定结果。 8.1.2中提到的"信息的度量"是决策树划分依据的重要概念，通常使用信息熵或基尼不纯度来衡量数据集的纯度，指导决策树的分支选择。 8.1.3的小结是对决策树基本思想的概述，强调了决策树在分类问题中的应用。 8.2至8.5详细阐述了决策树的构建和优化过程，ID3和C4.5算法是两种经典的决策树生成方法，它们根据信息增益或信息增益率选择最优特征进行划分。C4.5相对于ID3改进了处理连续属性和缺失值的方法。8.4中提到了决策树的剪枝技术，用于防止过拟合，提高模型泛化能力。CART算法是另一种决策树算法，支持二类和多类分类任务。 8.6介绍了集成学习，它通过组合多个弱预测器构建强预测器。其中，Bagging通过 bootstrap 抽样减少模型波动，Boosting如AdaBoost则逐步提升弱分类器的权重，Stacking则是通过多个模型的组合并利用验证集进行模型融合。 8.7随机森林是集成学习的一种实现，它构建了多棵决策树并取平均结果，提高了模型的稳定性和准确性。同时，随机森林可以评估特征的重要性。 8.8通过泰坦尼克号生还预测案例，展示了如何使用决策树进行数据预处理和模型训练，实际操作了决策树在实际问题中的应用。本章内容深入浅出地介绍了决策树及其相关技术，包括从理论到实践的完整流程，对于理解和应用决策树及其集成学习方法具有重要价值。

8.2 决策树的生成之 ID3 与 C4.5

在正式介绍决策树的生成算法前，笔者先将 8.1.1 节中介绍的几个概念重新梳理一下；

并且同时再通过一个例子来熟悉一下计算过程，以便于后续更好的理解决策树的生成算法。

8.2.1 基本概念与定义

1) 信息熵

设

是一个取值有限的离散型随机变量（例如上一小节中可能夺冠的 16 只球队），其

概率分布为

( ) , 1,2,...,

P X x p i n= = =

（每个球队可能夺冠的概率），则随机变量

的信

息熵定义为

( ) log

H X p p

=−



(8-5)

其中，若

p =

，则定义

0log0 0=

；且通常

log

取 2 为底或

为底时，其熵的单位分

别称为比特（Bit）或纳特（Nat）。如无特殊说明，默认以 2 为底。

3) 条件熵

设有随机变量

( , )XY

，其联合概率分布分

( , )

i i ij

P X x Y y p= = =

，其中

1,2,...,in=

，

1,2,...,jm=

；条件熵

( | )H Y X

表示在已知随机变量

的条件下，随机变量

的不确定性，

其定义为

( | ) ( | )

H Y X p H Y X x



(8-6)

其中，

( ), 1,2,...,

p P X x i n= = =

。

同时，当信息熵和条件熵中的概率由样本数据估计（特别是极大似然估计）得到时，所

对应的信息熵与条件熵分别称之为经验熵（Empirical Entropy）和经验条件熵（Empirical

Conditional Entropy）。这里暂时看不懂没关系，请结合后续计算示例。

3) 信息增益

从 8.1.1 节的内容可知，所谓信息增益指的就是事物

的信息熵

()HU

，在引入外部信

息

后的变化量

( ) ( | )H U H U I−

。因此，可以将特征

对训练数据集

的信息增益

( , )d D A

定义为集合

信息熵

()HD

与特征

给定条件下

的条件熵

( | )H D A

之差，即

( , ) ( ) ( | )g D A H D H D A=−

(8-7)

定义：设训练集为

，

表示所有训练样本总数；同时

有

个类别

, 1,2,..., ;| |

C k K C=

为属于类

的样本总数，即

| | | |



；设特征

有

个不同

的取值

, ,...,

a a a

，根据特征

的取值将

划分为

个子集

, ,...,

D D D

，

为子集

中的样本个数，即

| | | |



；同时记子集

中，属于类

的样本集合为

，即

ik k

D CD=

，

为

的样本个数。此时如下定义

①

❑ 数据集

的经验熵

()HD

为

①

李航，统计机器学习，清华大学出版社

| | | |

( ) log

| | | |

=−



(8-8)

从式(8-8)可以看出，它计算的是“任意样本属于其中一个类别”这句话所包含的信息量。

❑ 数据集

在特征值

下的经验条件熵

( | )H D A

为

1 1 1

| | | | | | |

( | ) ( ) log

| | | | |||

n n K

i i ik ik

i i k

D D D D

H D A H D

D D D D

= = =

= = −

  

(8-9)

从式(8-9)可以看出，它计算的是特征

在各个取值条件下“任意样本属于其中一个类

别”这句话所包含的信息量。

❑ 信息增益为

( , ) ( ) ( | )g D A H D H D A=−

(8-10)

8.2.2 计算示例

如果仅看上面的公式肯定会不那么容易理解，下面笔者再进行举例说明（将上面的公式

同下面的计算过程对比看会更容易理解）。下表 8-1 同样是 6.1.3 节中用过的一个信用卡审

批数据集，其一共包含 15 个样本和 3 个特征维度。其中特征

(1)

{0,1}XA=

表示有无工

作，特征

(2)

{0,1}XA=

表示是否有房，特征

(3)

{ , , }X A D S T=

表示学历等级，

{0,1}YC=

表示是否审批通过的类标记。

表 8-1 示例计算数据

样本

(1)

(2)

(3)

1) 计算信息熵

根据式(8-8)可得

5 5 10 10

log log 0.918

15 15 15

()



+







−



(8-11)

2) 计算条件熵

由表 8-1 可知，数据集有 3 个特征（工作、房子、学历）

1 2 3

,,A A A

；接下来根据式(8-9)

来计算

分别在 3 个特征取值条件下的条件熵

( | )

H D A

。

❑ 已知外部信息“工作”的情况下有

1 1 2

2 2 2 2

( ) ( )

15 15

7 3 3 4 4 8 7 7 1 1

log log log log 0.75

( | )

15 7 7 7 7 5 8 8 8 8

H HDA D H D







   

= − + − + 

   

   

(8-12)

式(8-12)中，

,DD

分别是

取值为“无工作”和“有工作”时，训练样本划分后对应

的子集。

❑ 已知外部信息“房子”的情况下有

剩余38页未读，继续阅读

透明流动虚无

粉丝: 41
资源: 306

决策树与集成学习详解：从ID3到随机森林

第八章 集成学习1

决策树与集成算法

李航老师《统计学习方法》第2版课件：第5章 决策树.rar

完整版 数据分析 数据挖掘与统计学应用 系列课程10 第十章 决策树 （共81页）.rar

Decision_iris_决策树，iris_决策树算法_

深入理解决策树与随机森林算法

Matlab实现决策树与随机森林代码演示

提升预测准确性：决策树集成学习方法的实战演练

决策树算法高级应用：集成学习与随机森林深入剖析

集成学习在决策树模型中的运用：随机森林与梯度提升树详解

最新资源

第八章集成学习1

李航老师《统计学习方法》第2版课件：第5章决策树.rar

完整版数据分析数据挖掘与统计学应用系列课程10 第十章决策树（共81页）.rar