决策树算法详解：从ID3到C4.5及CART

需积分: 20 48 浏览量更新于2024-09-08 收藏 114KB DOCX 举报

"这份文档详细介绍了决策树的构建方法，包括基于信息增益的ID3算法、信息增益率的C4.5算法，以及CART决策树。同时，文档还讨论了树剪枝的优缺点。" 决策树是一种广泛应用的机器学习算法，它通过创建类似于流程图的结构来做出预测。决策树的核心思想是通过选择最佳特征来逐步分割数据，直到达到预设的停止条件或达到纯度标准。 ID3算法是决策树早期的代表，它利用信息增益作为特征选择的标准。信息增益衡量了某个特征对数据集纯度的提升程度，纯度通常用熵来表示。熵是信息理论中的一个概念，用于描述数据的不确定性。在决策树构建过程中，选取信息增益最大的特征作为节点，使得数据集的熵减少最多，从而提高分类的准确性。描述中的例子展示了如何计算信息增益。以天气数据为例，计算每个特征（如“阴晴”、“刮风”、“湿度”和“温度”）的信息增益，然后选择信息增益最大的特征作为根节点。然而，ID3算法的一个问题是它倾向于选择具有更多划分选项（即更多值）的特征，即使这些特征可能不是最优的。为了解决这个问题，C4.5算法引入了信息增益率，它在计算信息增益的基础上，考虑了特征分裂数据集后的子节点数量和规模，避免了ID3的偏好问题。C4.5通过分裂信息熵来惩罚具有更多分支的特征，使得算法更倾向于选择能有效区分类别的特征。 CART（Classification And Regression Tree）算法则既可用于分类任务，也可用于回归任务。CART模型通过构建二叉树来学习输入变量X对输出变量Y的条件概率分布。与ID3和C4.5不同，CART不仅关注离散特征，还能处理连续特征，并且可以生成二叉树，简化了决策路径，使模型更容易理解和解释。树剪枝是决策树建模中重要的一步，其目的是防止过拟合，即模型过于复杂，对训练数据过度适应而失去泛化能力。剪枝可以分为预剪枝和后剪枝，前者在树生长阶段就限制树的大小，后者是在树完全生长后去除不必要的分支。剪枝虽然可能导致模型的预测性能稍有下降，但通常能提高模型的泛化能力，避免在新数据上的表现不佳。总结来说，决策树是一种直观且强大的工具，通过信息增益、信息增益率等方法选择最佳特征，构建出能够解释性强、易于理解的模型。CART则扩展了决策树的应用范围，适用于分类和回归任务。树剪枝则在保持模型解释性的同时，确保了其在未知数据上的泛化能力。

对应的正负样本数（2+，3-），（4+，0-），（3+，2-）

那么三个节点上的信息熵：

Entropy(S|”阴晴”=sunny)=

−2

log

−

log

=0.971（位）

Entropy(S|”阴晴”=overcast)=

−4

log

−

log

=0 （位）

Entropy(S|”阴晴”=rainy)=

− 3

log

−

log

= 0.971（位）

所以，以“阴晴”为根节点，平均信息值(条件熵)为：

Entropy （ S|” 阴晴 ” ） =

∗Entropy

(

”阴晴”=sunny

)

∗Entropy

(

” 阴晴”=overcast

)

∗Entropy

(

” 阴晴”=rainy

)

∗0.971+

∗0+

∗0.971=0.693 （位）

信息增益为：

IG(“阴晴”)=Entropy（S）-Entropy（S|”阴晴”）=0.247（位）

同理：

IG(“刮风”)=Entropy（S）-Entropy（S|”刮风”）=0.048（位）

IG(“湿度”)=Entropy（S）-Entropy（S|”湿度”）=0.152（位）

IG(“温度”)=Entropy（S）-Entropy（S|”温度”）=0.029（位）

综上所述，显然，以“阴晴”为特征的信息增益最大，故根节点为“阴

晴”。同理，根据信息增益大小来选择作为节点。重复以上步骤即可

构建决策树。

使用信息增益选择最优特征，存在一定的问题：

倾向于选择拥有较

多取值的特征

尤其是特征集中包含 ID 类特征时，ID 类特征会最先被

选择为分裂特征，但在该类特征上的分支对预测未知样

本的类别并无意义，降低了决策树模型的泛化能力，也

剩余10页未读，继续阅读

tiki_taka_

粉丝: 28
资源: 22

决策树算法详解：从ID3到C4.5及CART

说明形成干扰的基本要素,以及如何抗干扰的方法

机器学习算法总结决策树.docx

如何学习决策树.docx

C4.5 分类决策树.docx

昆明理工大学天气决策树.docx

昆明理工大学 天气决策树.docx

基于信息增益的决策树.docx

规则引擎教程-决策树.docx

机器学习实验二之决策树.docx

机器学习算法总结_决策树.docx

最新资源

昆明理工大学天气决策树.docx