决策树工作原理与ID3算法详解

需积分: 0 59 浏览量更新于2024-08-05 收藏 3.6MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

"决策树是一种广泛应用的机器学习算法，用于分类和回归问题。它通过创建树状模型来表示特征与结果之间的关系。决策树的工作原理是通过一系列问题（基于特征）来逐步划分数据，最终达到预测目标。在决策树的构建过程中，节点有不同的角色：根节点代表初始问题，中间节点代表特征测试，而叶子节点则代表类别标签。决策树的目标是在全局最优和局部最优之间找到平衡，防止过拟合。" 在构建决策树时，通常涉及不同的算法，如ID3、C4.5和CART。ID3算法是早期的决策树构建方法，基于信息熵和信息增益来选择最优特征。例如，它可能会在数据集中寻找能最大化信息增益的特征来划分数据。然而，ID3存在局限性，如对连续变量处理不理想，易受离群值影响，以及偏好选择具有更多取值的特征。 1.2.1 ID3算法构建决策树 ID3算法以信息熵作为衡量分类纯度的标准，信息增益作为选择特征的准则。在每一步，它选择能导致数据集纯度最大提升的特征作为分割依据。然而，由于信息增益可能偏向于选择具有更多类别的特征，ID3在处理连续或缺失值时会遇到困难。 1.2.2 简单实例以动物分类为例，ID3算法会通过询问诸如“是否为哺乳动物”、“是否有羽毛”等特征来划分数据。每个中间节点都是根据某个特征进行的测试，每个分支对应该特征的一个可能值。 1.2.3 ID3的局限性 ID3算法的局限性主要体现在以下几个方面： - 它不能处理连续型特征，因为其基于离散特征的信息增益计算。 - 对于多值特征，信息增益可能会偏向于那些具有更多类别的特征。 - 对于缺失值处理不足，需要额外的策略来处理。 1.3 C4.5算法和CART算法 C4.5是ID3的改进版本，解决了ID3的一些问题，例如使用信息增益比来克服偏好多类别特征的问题，并能处理连续变量。C4.5通过将连续变量转换为一组分割点来处理这类问题。 CART（Classification and Regression Trees）算法则同时适用于分类和回归问题，采用基尼指数作为分裂标准，对连续变量的处理更加灵活。它生成的是二叉树，每个内部节点都是特征的二元测试。 1.3.1 修改局部最优化条件 C4.5和CART算法在构建树的过程中，每次分裂都是局部最优的选择，即在当前节点上选择最优的特征和分割点。但这样的局部最优并不保证全局最优，因此需要设定停止条件，如最小样本数、信息增益阈值等，以避免过拟合。 1.3.2 连续变量处理手段 C4.5和CART算法会自动处理连续变量，将它们转化为离散的决策边界，如找到最优的分割点来划分数据，使得每个子集尽可能纯。决策树算法在理解和应用上具有很大的优势，但构建高效且泛化能力好的决策树需要谨慎处理特征选择、剪枝策略以及防止过拟合等问题。通过不断优化和改进，如引入随机森林、梯度提升树等集成学习方法，决策树在现代机器学习中扮演着至关重要的角色。

资源详情

资源推荐

关键概念：贪心算法

通过实现局部最优来达到接近全局最优结果的算法，所有的树模型都是这样的算法。

重要概念：不纯度

决策树的每个叶子节点中都会包含一组数据，在这组数据中，如果有某一类标签占有较大的比例，我们就说叶子

节点“纯”，分枝分得好。某一类标签占的比例越大，叶子就越纯，不纯度就越低，分枝就越好。

如果没有哪一类标签的比例很大，各类标签都相对平均，则说叶子节点”不纯“，分枝不好，不纯度高。

要在这么多棵决策树中去一次性找到分类效果最佳的那一棵是不可能的，如果通过排列组合来进行筛选，计算量过于

大而且低效，因此我们不会这样做。相对的，机器学习研究者们开发了一些有效的算法，能够在合理的时间内构造出

具有一定准确率的次最优决策树。这些算法基本都执行”贪心策略“，即通过局部的最优来达到我们相信是最接近全局

最优的结果。

最典型的决策树算法是Hunt算法，该算法是由Hunt等人提出的最早的决策树算法。现代，Hunt算法是许多决策树算

法的基础，包括ID3、C4.5和CART等。Hunt算法诞生时间较早，且基础理论并非特别完善，此处以应用较广、理论

基础较为完善的ID3算法的基本原理开始，讨论如何利用局部最优化方法来创建决策模型。



1.2.1 ID3算法构建决策树

ID3算法原型见于J.R Quinlan的博士论文，是基础理论较为完善，使用较为广泛的决策树模型，在此基础上J.R

Quinlan进行优化后，陆续推出了C4.5和C5.0决策树算法，后二者现已称为当前最流行的决策树算法，我们先从ID3

开始讲起，再讨论如何从ID3逐渐优化至C4.5。

为了要将表格转化为一棵树，决策树需要找出最佳节点和最佳的分枝方法，而衡量这个“最佳”的指标叫做“不纯度”。

不纯度基于叶子节点来计算的，所以树中的每个节点都会有一个不纯度，并且子节点的不纯度一定是低于父节点的，

也就是说，在同一棵决策树上，叶子节点的不纯度一定是最低的。

这个其实非常容易理解。分类型决策树在叶子节点上的决策规则是少数服从多数，在一个叶子节点上，如果某一类标

签所占的比例较大，那所有进入这个叶子节点的样本都回被认为是这一类别。距离来说，如果90%根据规则进入叶子

节点的样本都是类别0（叶子比较纯），那新进入叶子节点的测试样本的类别也很有可能是0。但是，如果51%的样本

是0，49%的样本是1（极端情况），叶子节点还是会被认为是0类叶子节点，但此时此刻进入这个叶子的测试样本点

几乎有一半的可能性应该是类别1。从数学上来说，类分布为（0,100%）的结点具有零不纯性，而均衡分布

（50%,50%）的结点具有最高的不纯性。如果叶子本身不纯，那测试样本就很有可能被判断错误，相对的叶子越

纯，那样本被判断错误的可能性就越小。

Tsai Tsai

菜菜的sklearn课堂直播间： https://live.bilibili.com/12582510

sklearn专题第一期：决策树原理

剩余12页未读，继续阅读

无能为力就要努力

粉丝: 17
资源: 332

决策树工作原理与ID3算法详解

决策树算法原理详解

决策树分类算法原理

决策树回归算法

python 决策树原理

决策树的原理、决策树剪枝

Python实现决策树分类原理

决策树原理和python实现

CART决策树基本原理

cart决策树基本原理

决策树的工作原理和工作流程

袋装决策树的原理是什么

决策树算法原理以及代码实现

3.2.1.梯度决策树分类原理

决策树算法的原理和操作PPT

机器学习 决策树 原理源码

决策树及对应算法原理1

决策树原理，设计过程，实例.docx

最新资源

机器学习决策树原理源码