决策树算法详解：从C4.5到随机森林与GBDT

需积分: 0 77 浏览量更新于2024-08-05 收藏 812KB PDF 举报

本章深入探讨了决策树在机器学习中的重要地位，涵盖了单变量决策树（如C4.5、ID3和CART）以及多变量决策树的构建原理。决策树以其直观易懂的结构，能够将复杂的问题分解为一系列简单的规则，从而实现数据分类和预测。单变量决策树如C4.5和ID3主要基于信息增益或信息增益率来选择最佳特征进行划分，而CART则更关注减少节点的不纯度，如基尼指数。这些算法在处理离散和连续特征时各有优劣，但都旨在通过不断分裂数据集，形成一棵层次化的决策树。多变量决策树则涉及如何处理多个特征之间的相互作用，这可能是通过递归分割或者其他方法，如CART的Coxeter生长法。在这个阶段，理解特征之间的影响关系和特征选择策略至关重要。接着，章节转向了决策树的集成方法，特别是Bagging（随机森林）和Boosting（GBDT、XGBoost、LightGBM）。Bagging通过构建多棵独立的决策树并投票决定结果，降低了过拟合风险，提高了模型的稳定性和泛化能力。而Boosting则是通过迭代的方式，侧重于那些被前一轮错误分类的样本，逐步提升模型的性能。作者强调，本章尽量避免复杂的数学知识，仅需基本的微积分、线性代数和概率论作为前提，通过实例和解释确保初学者能理解。文章通过信息论基础（如熵、条件熵和互信息的概念）来阐述决策树的学习过程，以及如何衡量信息的不确定性和依赖性。此外，文中穿插了丰富的练习和问题，旨在帮助读者巩固理论知识，并引导他们探索更深入的领域。总结来说，本章是机器学习工程师面试中不可忽视的一环，对于理解和应用决策树算法具有重要的参考价值。

第七章决策树

张皓

https://haomood.github.io/homepage/

zhangh0214@gmail.com

摘要

本章介绍决策树算法, 包括单变量决策树

(C4.5、ID3、CART)、多变量决策树、以决策树

为集学习器的 Bagging 集成 (随机森林) 和以

决策树为集学习器的 Boosting 集成 (GBDT、

XGBoost、LightGBM).

本系列文章有以下特点: (a). 为了减轻读者的

负担并能使尽可能多的读者从中收益, 本文试

图尽可能少地使用数学知识, 只要求读者有基

本的微积分、线性代数和概率论基础, 并在第

一节对关键的数学知识进行回顾和介绍. (b).

本文不省略任何推导步骤, 适时补充背景知识,

力图使本节内容是自足的, 使机器学习的初学

者也能理解本文内容. (c). 机器学习近年来发

展极其迅速, 已成为一个非常广袤的领域. 本

文无法涵盖机器学习领域的方方面面, 仅就一

些关键的机器学习流派的方法进行介绍. (d).

为了帮助读者巩固本文内容, 或引导读者扩展

相关知识, 文中穿插了许多问题, 并在最后一

节进行问题的 “快问快答”.

1 准备知识

1.1 信息论基础

熵 (entropy) 是对信息中不确定性的一种度量. 如

果在计算机通信中传输的信息是无损编码的, 熵提供了

一个理论上信息的最短二进制编码. 信息论中常用术语

对应表如表 1 所示, 熵、条件熵和互信息之间的关系如

图 1 所示.

Figure 1: 熵、条件熵和互信息之间的关系. 其中, 红色

圆圈代表 H(X), 蓝色圆圈代表 H(Y ). 本图源于 [18] .

引理 1. 若 X 有 n 个取值, H(X) ∈ [0, lg n].

Proof. 当存在某个 i 使得 p(X = x

) = 1 时, H(X) = 0.

当 p(X) 是一个离散均匀分布时, H(X) = lg n.

引理 2. (X, Y ) 中包含的信息量是 X 中的信息量以及

Y 中不依赖 X 的那部分 (即 Y 中除去了 X 影响的那

部分) 的信息量之和

H(X, Y ) = H(X) + H(Y | X) . (1)

Proof.

− E[lg p(X)] − E[lg p(Y | X)] = − E[lg p(X)p(Y | X)]

= − E[lg p(X, Y )] . (2)

推论 3. 通常条件熵是不对称的 H(Y | X) = H(X | Y ).

然而, 互信息是对称.

I(X, Y ) = H(X)−H(X | Y ) = H(Y )−H(Y | X) = I(Y, X) .

(3)

下载后可阅读完整内容，剩余6页未读，立即下载

断脚的鸟

粉丝: 24
资源: 301

决策树算法详解：从C4.5到随机森林与GBDT

机器学习工程师面试宝典-06-集成学习1

机器学习工程师面试宝典-03-模型评估1

西瓜书《机器学习》---第四章 决策树python代码实现

机器学习-算法工程师面试宝典

Python机器学习实践：k-近邻与决策树算法探索

机器学习算法面试宝典：历年名校真题详解

机器学习深度学习面试宝典：300+经典题目详解

机器学习作业答案解析：章节2-5关键题目解答与决策树构建

机器学习入门：K-means与DBSCAN聚类算法解析

探索热门开源Python机器学习项目：Scikit-learn至Shogun

最新资源

西瓜书《机器学习》---第四章决策树python代码实现