决策树详解：构造、流程与信息增益算法

需积分: 0 161 浏览量更新于2024-08-04 收藏 864KB DOCX 举报

第四章主要探讨了决策树在机器学习中的核心应用。决策树作为一种基础的分类与回归方法，其本质是一种树形结构，用于指导根据特征对输入实例进行分类的过程。它不仅具有直观易懂的特性，而且分类速度较快，这使得它在众多机器学习算法中备受欢迎。决策树的学习过程通常包含三个关键步骤：特征选择、决策树生成和决策树修剪。特征选择是决定树结构的关键环节，它通过信息增益、信息增益比和基尼指数等准则来评估特征的重要性。信息增益衡量的是特征对减少不确定性的作用，信息增益比则考虑了特征纯度提升的程度，而基尼指数则衡量的是分类的不纯度，选择信息增益最大、信息增益比最大或基尼指数最小的特征进行分裂。决策树的生成是通过递归的方式进行，从根节点开始，计算每个特征的信息增益或基尼指数，选择最优特征进行分支，直至达到叶节点（分类结果）。这个过程是一个搜索过程，但由于可能的决策树数量巨大，实际应用中通常使用启发式算法寻找近似最优解，而不是穷举所有可能的树结构。在本章中，作者举例说明了决策树模型如何被转化为if-then规则的集合，以及如何通过条件概率分布来理解决策树。此外，还强调了决策树构建的目标——找到一个既能很好地拟合训练数据，又保持简单性的模型，因为寻找全局最优决策树是一个复杂的优化问题。总结来说，第四章深入讲解了决策树的基础概念，特征选择的重要性，以及决策树生成和修剪的具体方法。这对于理解和应用决策树算法在实际问题中进行分类和预测具有重要的指导作用。

4、决策树（Decision Tree）

-决策树（decision tree）是一种基本的分类与回归方法。

-决策树模型呈树形结构，在分类问题中，表示基于特征对实例进行分类的过程。它可以认

为是 if-then 规则的集合，也可认为是定义在特征空间与类空间上的条件概率分布。

--损失函数：正则化的极大似然函数，策略：最小化损失函数

-优点：可读性、分类速度快

-基本流程：

--学习时，利用训练数据，根据损失函数最小化的原则建立决策树模型。

--预测时，对新的数据，利用决策树模型进行分类。

--决策树学习通常包括三个步骤：特征选择、决策树生成、决策树修剪。

本章概要

1.分类决策树模型是表示特征对实例进行分类的树形结构。决策树可以转换为一个 if-then

规则的集合，也可以看作是定义在特征空间划分上的类的条件概率分布。

2.·决策树旨在构建一个与训练数据拟合很好，并且复杂度小的决策树。因为从可能的决策

树中直接选取最优决策树是 NP 完全问题。现实中采用启发式学习次优的决策树。决策树

算法包括 3 部分：特征选择、树的生成和树的剪枝。常用的算法有 ID3、C4.5 和 CART。

3．特征选择的目的在于选取对训练数据能够分类的特征。特征选择的关键是其准则。常用

的准则如下：

（1）样本集合 D 对特征 A 的信息增益（ID3）

特征 A 对训练数据集 D 的信息增益 g(D,A)，定义为集合 D 的经验熵 H(D)与特征 A 给定条

件下 D 的经验条件熵 H(D|A)之差，即

其中，H(D)是数据集 D 的熵，H(Di)是数据集 Di 的熵，H(D|A)是数据集 D 对特征 A 的条件

熵。 Di 是 D 中特征 A 取第 i 个值的样本子集，Ck 是 D 中属于第 k 类的样本子集。n 是特

征 A 取值的个数，K 是类的个数。

（2）样本集合 D 对特征 A 的信息增益比（C4.5）

特征 A 对训练数据集 D 的信息增益比 gR(D,A)定义为其信息增益 g(D,A)与训练数据集 D 的

经验熵 H(D)之比

下载后可阅读完整内容，剩余7页未读，立即下载

KerstinTongxi

粉丝: 25
资源: 277

决策树详解：构造、流程与信息增益算法

西瓜书《机器学习》---第四章 决策树python代码实现

第三章 决策树算法-2.pdf

机器学习-第四章决策树

-第四章 决策树python代码实现

机器学习-西瓜书学习笔记-第四章决策树及代码

第4章：决策树2017v2.pptx

第4章：决策树27v2.pptx

第4章：决策树-2017-v2.pptx

数据分析与模型讲义第六章决策树随机森林与梯度提升树.zip

李航老师《统计学习方法》第2版课件：第5章 决策树.rar

最新资源

西瓜书《机器学习》---第四章决策树python代码实现

第三章决策树算法-2.pdf

-第四章决策树python代码实现

李航老师《统计学习方法》第2版课件：第5章决策树.rar