决策树学习：特征选择与模型生成

需积分: 0 152 浏览量更新于2024-08-05 收藏 839KB PDF 举报

"决策树是一种常见的机器学习算法，主要用于分类任务。它以树形结构来表示实例的分类过程，每个内部节点代表一个特征，每个分支代表一个特征值，而每个叶子节点则代表一个类别。决策树的优势在于模型的可解释性强，分类效率高。在构建决策树的过程中，损失函数通常采用正则化的极大似然函数，目标是找到一个既能良好拟合训练数据又尽可能简单的树。由于寻找最优决策树是NP完全问题，实际操作中会采用启发式方法，例如ID3、C4.5和CART算法。决策树的学习过程主要包括三个步骤： 1. 特征选择：这一阶段的目标是挑选出对训练数据分类最有帮助的特征。特征选择的准则有多种，如信息增益（ID3）、信息增益比（C4.5）和基尼指数（CART）。 - 信息增益衡量了特征A引入的分类纯度提升，即数据集D的经验熵H(D)与特征A条件下的经验条件熵H(D|A)之差。 - 信息增益比在信息增益的基础上考虑了特征A的值的数量，防止偏好具有更多值的特征。 - 基尼指数则反映了集合的不纯度，基尼指数越低，集合的纯度越高。 2. 决策树生成：按照选定的特征选择准则，从根节点开始，通过比较不同特征的评价标准（如信息增益最大、信息增益比最大或基尼指数最小），递归地划分数据集，直到满足停止条件（如达到预设的深度、包含的样本数过少等）。 3. 决策树剪枝：为了防止过拟合，生成的决策树通常过于复杂。剪枝是通过牺牲一定的训练集拟合度来提高泛化能力的方法，包括预剪枝和后剪枝。预剪枝是在树生成过程中提前停止，避免生成过深的树；后剪枝则是先生成完整的树，然后自底向上地删除子树，如果子树替换为叶节点导致的误差增加不超过某个阈值。决策树在实际应用中广泛，但需要注意的是，它们对异常值敏感，且对于线性可分的数据效果可能不如其他算法。通过集成学习方法，如随机森林和梯度提升机，可以进一步增强决策树的稳定性和性能。"

4、决策树（Decision Tree）

-决策树（decision tree）是一种基本的分类与回归方法。

-决策树模型呈树形结构，在分类问题中，表示基于特征对实例进行分类的过程。它可以认

为是 if-then 规则的集合，也可认为是定义在特征空间与类空间上的条件概率分布。

--损失函数：正则化的极大似然函数，策略：最小化损失函数

-优点：可读性、分类速度快

-基本流程：

--学习时，利用训练数据，根据损失函数最小化的原则建立决策树模型。

--预测时，对新的数据，利用决策树模型进行分类。

--决策树学习通常包括三个步骤：特征选择、决策树生成、决策树修剪。

本章概要

1.分类决策树模型是表示特征对实例进行分类的树形结构。决策树可以转换为一个 if-then

规则的集合，也可以看作是定义在特征空间划分上的类的条件概率分布。

2.·决策树旨在构建一个与训练数据拟合很好，并且复杂度小的决策树。因为从可能的决策

树中直接选取最优决策树是 NP 完全问题。现实中采用启发式学习次优的决策树。决策树

算法包括 3 部分：特征选择、树的生成和树的剪枝。常用的算法有 ID3、C4.5 和 CART。

3．特征选择的目的在于选取对训练数据能够分类的特征。特征选择的关键是其准则。常用

的准则如下：

（1）样本集合 D 对特征 A 的信息增益（ID3）

特征 A 对训练数据集 D 的信息增益 g(D,A)，定义为集合 D 的经验熵 H(D)与特征 A 给定条

件下 D 的经验条件熵 H(D|A)之差，即

其中，H(D)是数据集 D 的熵，H(Di)是数据集 Di 的熵，H(D|A)是数据集 D 对特征 A 的条件

熵。 Di 是 D 中特征 A 取第 i 个值的样本子集，Ck 是 D 中属于第 k 类的样本子集。n 是特

征 A 取值的个数，K 是类的个数。

（2）样本集合 D 对特征 A 的信息增益比（C4.5）

特征 A 对训练数据集 D 的信息增益比 gR(D,A)定义为其信息增益 g(D,A)与训练数据集 D 的

经验熵 H(D)之比

下载后可阅读完整内容，剩余7页未读，立即下载

嘻嘻哒的小兔子

粉丝: 34
资源: 321

决策树学习：特征选择与模型生成

西瓜书《机器学习》---第四章 决策树python代码实现

第三章 决策树算法-2.pdf

机器学习-第四章决策树

-第四章 决策树python代码实现

机器学习-西瓜书学习笔记-第四章决策树及代码

第4章：决策树2017v2.pptx

第4章：决策树27v2.pptx

第4章：决策树-2017-v2.pptx

数据分析与模型讲义第六章决策树随机森林与梯度提升树.zip

李航老师《统计学习方法》第2版课件：第5章 决策树.rar

最新资源

西瓜书《机器学习》---第四章决策树python代码实现

第三章决策树算法-2.pdf

-第四章决策树python代码实现

李航老师《统计学习方法》第2版课件：第5章决策树.rar