决策树原理详解：ID3算法与局限性

需积分: 0 105 浏览量更新于2024-08-05 收藏 3.74MB PDF 举报

"决策树原理更新1" 决策树是一种在机器学习中广泛应用的有监督学习算法，主要用于分类和回归任务。其工作原理基于一系列特征的测试，通过构建一个树形结构来表示不同特征值与最终类别之间的关系。在决策树中，每个内部节点代表一个特征，每个分支代表该特征的一个可能值，而叶节点则对应类别决策。 1.1 决策树是如何工作的决策树算法首先从整个数据集开始，通过选择最优特征来划分数据，形成树的根节点。接着，算法会递归地对子数据集进行同样的特征选择过程，直到满足停止条件（如达到预设的最大深度、最小样本数或信息增益阈值等）。在决策过程中，算法会尝试找到使数据集纯度（例如，Gini指数、熵或信息增益）最大化的特征，以达到局部最优的分类效果。 1.2 构建决策树 1.2.1 ID3算法 ID3（Iterative Dichotomiser 3）是最早的决策树算法之一，它使用信息增益作为特征选择的标准。然而，ID3算法存在局限性，比如对连续特征的处理不足，且容易受离群值影响，还可能导致过拟合。 1.2.2 简单实例在构建决策树的过程中，通常会遇到一个简单的例子：根据动物的特征（如是否哺乳、是否有鳞片等）来分类动物。ID3算法会根据信息增益选择最佳特征，然后根据该特征的各个值创建分支，直到所有数据被正确分类。 1.2.3 ID3的局限性 ID3算法对于连续变量处理不理想，且容易偏向于选择具有更多取值的特征，这可能导致树结构过于复杂。此外，如果所有特征都是连续的，或者数据集中存在缺失值，ID3就无法正常工作。 1.3 C4.5算法 & CART算法为了克服ID3的局限性，出现了C4.5和CART（Classification and Regression Trees）算法。C4.5引入了信息增益比，解决了ID3对多值特征的偏好问题，并能处理连续变量。CART则用于同时处理分类和回归问题，采用基尼不纯度或Gini指数作为分裂标准，并支持二元切分。 1.3.1 修改局部最优化条件 C4.5和CART算法在构建决策树时，不再单纯追求局部最优，而是考虑全局最优。它们通过设定剪枝策略，如预剪枝和后剪枝，防止决策树过深导致过拟合。 1.3.2 连续变量处理手段 C4.5和CART算法对连续变量的处理方式是将连续范围划分为多个区间，每个区间作为一个新的特征值，然后进行特征选择和树的构建。决策树的生长过程涉及许多策略和调整，如特征选择方法、剪枝策略、停止条件等。这些策略直接影响决策树的准确性和泛化能力。在实际应用中，决策树常与其他技术（如随机森林、AdaBoost）结合，以提高模型性能并减少过拟合的风险。通过理解和掌握决策树的基本原理，我们可以更好地利用这一强大工具解决各种实际问题。

关键概念：贪心算法

通过实现局部最优来达到接近全局最优结果的算法，所有的树模型都是这样的算法。

重要概念：不纯度

决策树的每个叶子节点中都会包含一组数据，在这组数据中，如果有某一类标签占有较大的比例，我们就说叶子

节点“纯”，分枝分得好。某一类标签占的比例越大，叶子就越纯，不纯度就越低，分枝就越好。

如果没有哪一类标签的比例很大，各类标签都相对平均，则说叶子节点”不纯“，分枝不好，不纯度高。

要在这么多棵决策树中去一次性找到分类效果最佳的那一棵是不可能的，如果通过排列组合来进行筛选，计算量过于

大而且低效，因此我们不会这样做。相对的，机器学习研究者们开发了一些有效的算法，能够在合理的时间内构造出

具有一定准确率的次最优决策树。这些算法基本都执行”贪心策略“，即通过局部的最优来达到我们相信是最接近全局

最优的结果。

最典型的决策树算法是Hunt算法，该算法是由Hunt等人提出的最早的决策树算法。现代，Hunt算法是许多决策树算

法的基础，包括ID3、C4.5和CART等。Hunt算法诞生时间较早，且基础理论并非特别完善，此处以应用较广、理论

基础较为完善的ID3算法的基本原理开始，讨论如何利用局部最优化方法来创建决策模型。



1.2.1 ID3算法构建决策树

ID3算法原型见于J.R Quinlan的博士论文，是基础理论较为完善，使用较为广泛的决策树模型，在此基础上J.R

Quinlan进行优化后，陆续推出了C4.5和C5.0决策树算法，后二者现已称为当前最流行的决策树算法，我们先从ID3

开始讲起，再讨论如何从ID3逐渐优化至C4.5。

为了要将表格转化为一棵树，决策树需要找出最佳节点和最佳的分枝方法，而衡量这个“最佳”的指标叫做“不纯度”。

不纯度基于叶子节点来计算的，所以树中的每个节点都会有一个不纯度，并且子节点的不纯度一定是低于父节点的，

也就是说，在同一棵决策树上，叶子节点的不纯度一定是最低的。

这个其实非常容易理解。分类型决策树在叶子节点上的决策规则是少数服从多数，在一个叶子节点上，如果某一类标

签所占的比例较大，那所有进入这个叶子节点的样本都回被认为是这一类别。距离来说，如果90%根据规则进入叶子

节点的样本都是类别0（叶子比较纯），那新进入叶子节点的测试样本的类别也很有可能是0。但是，如果51%的样本

是0，49%的样本是1（极端情况），叶子节点还是会被认为是0类叶子节点，但此时此刻进入这个叶子的测试样本点

几乎有一半的可能性应该是类别1。从数学上来说，类分布为（0,100%）的结点具有零不纯性，而均衡分布

（50%,50%）的结点具有最高的不纯性。如果叶子本身不纯，那测试样本就很有可能被判断错误，相对的叶子越

纯，那样本被判断错误的可能性就越小。

菜菜的sklearn课堂直播间： https://live.bilibili.com/12582510

sklearn专题第一期：决策树原理

剩余12页未读，继续阅读

嗨了伐得了

粉丝: 21
资源: 290

决策树原理详解：ID3算法与局限性

决策树算法原理详解

决策树分类算法原理

决策树回归算法

python 决策树原理

决策树的原理、决策树剪枝

Python实现决策树分类原理

决策树原理和python实现

最新资源