如何利用到达决策树某节点处的训练集度量该节点的不纯度? (三种典型的节点不纯度度量方式)
时间: 2024-02-19 22:02:07 浏览: 49
决策树3种算法,以及原理
当决策树到达某一个节点时,需要度量该节点的不纯度,以便进行决策树的分裂。以下是三种典型的节点不纯度度量方式:
1. 基尼不纯度(Gini impurity):它是衡量当随机选择一个样本时,被错误分类到其他类别的概率的期望值,即:
$$\text{Gini}(p) = \sum_{i=1}^C p_i(1-p_i)$$
其中,$C$ 表示类别数,$p_i$ 表示样本属于第 $i$ 个类别的概率。
2. 信息熵(Information entropy):它是衡量样本的不确定性,即:
$$\text{Entropy}(p) = -\sum_{i=1}^C p_i\log_2 p_i$$
其中,$C$ 表示类别数,$p_i$ 表示样本属于第 $i$ 个类别的概率。
3. 分类误差(Classification error):它是衡量被错误分类的样本数占总样本数的比例,即:
$$\text{Error}(p) = 1 - \max\{p_1, p_2, \ldots, p_C\}$$
其中,$C$ 表示类别数,$p_i$ 表示样本属于第 $i$ 个类别的概率。
在决策树的分裂过程中,选择最小化节点不纯度的分裂方式,以保证决策树的准确性和泛化能力。
阅读全文