entropy 决策树
时间: 2023-11-28 22:45:41 浏览: 309
根据提供的引用内容,我们可以了解到熵(entropy)是决策树算法中的一个重要概念。熵是用来衡量样本集合的纯度,纯度越高,熵越低。在决策树算法中,我们希望通过选择最优的特征来划分样本集合,使得划分后的子集合的熵尽可能地低,即纯度尽可能地高。因此,熵是决策树算法中用来衡量特征选择的重要指标。
在决策树算法中,熵的计算公式为:
$$H(X)=-\sum_{i=1}^{n}p_i\log_2p_i$$
其中,$X$表示样本集合,$n$表示样本集合中类别的个数,$p_i$表示样本集合中属于第$i$个类别的样本所占的比例。
当样本集合中只有一种类别时,熵为0,表示样本集合完全纯净;当样本集合中不同类别的样本比例相同时,熵最大,为$\log_2n$,表示样本集合最不纯净。
因此,在决策树算法中,我们希望通过选择最优的特征来划分样本集合,使得划分后的子集合的熵尽可能地低,即纯度尽可能地高。
相关问题
决策树模型entropy可以说明什么
决策树是一种用于分类和回归的机器学习模型。Entropy是在建立决策树时用来度量数据集的无序程度的一种指标。具体来说,如果一个数据集中的样本属于同一类别的概率较高,那么数据集的熵就较小;如果样本属于不同类别的概率较高,那么数据集的熵就较大。在建立决策树时,通常会在熵较大的数据集上进行分裂,因为这样可以更有效地区分不同的类别,从而提高决策树的准确度。
请用具体数字实例阐述GINI或Entropy在决策树中的使用(不与课件例子重复),并分析其区别。
假设有一组数据,其中有5个正例和5个反例,每个样本都有两个特征x1和x2,数据如下:
| x1 | x2 | y |
|----|----|---|
| 1 | 0 | 0 |
| 1 | 1 | 0 |
| 1 | 1 | 1 |
| 0 | 1 | 1 |
| 0 | 0 | 1 |
| 0 | 0 | 0 |
| 0 | 1 | 0 |
| 1 | 0 | 1 |
| 1 | 0 | 0 |
| 1 | 1 | 1 |
我们需要根据这些数据构建一个决策树。
首先,我们需要选择一个特征作为根节点,可以计算每个特征的GINI或Entropy,选择最小值作为根节点。
我们先计算x1的GINI和Entropy:
- x1=0: 正例有3个,反例有2个,GINI=1-(3/5)^2-(2/5)^2=0.48,Entropy=-3/5*log2(3/5)-2/5*log2(2/5)=0.971
- x1=1: 正例有2个,反例有3个,GINI=1-(2/5)^2-(3/5)^2=0.48,Entropy=-2/5*log2(2/5)-3/5*log2(3/5)=0.971
因此,x1的GINI和Entropy都是0.48,没有区别。我们可以随意选择一个作为根节点,这里选择x1=0。
接下来,我们需要选择x1=0分支和x1=1分支的子节点。我们可以计算x2的GINI或Entropy,选择最小值作为子节点。
我们先计算x2在x1=0分支的GINI和Entropy:
- x2=0: 正例有2个,反例有2个,GINI=1-(2/4)^2-(2/4)^2=0.5,Entropy=-2/4*log2(2/4)-2/4*log2(2/4)=1
- x2=1: 正例有1个,反例有1个,GINI=1-(1/2)^2-(1/2)^2=0.5,Entropy=-1/2*log2(1/2)-1/2*log2(1/2)=1
因此,在x1=0分支中,x2的GINI和Entropy都是0.5,没有区别。我们可以随意选择一个作为子节点,这里选择x2=0。
接下来,我们计算x2在x1=1分支的GINI和Entropy:
- x2=0: 正例有1个,反例有1个,GINI=1-(1/2)^2-(1/2)^2=0.5,Entropy=-1/2*log2(1/2)-1/2*log2(1/2)=1
- x2=1: 正例有1个,反例有2个,GINI=1-(1/3)^2-(2/3)^2=0.44,Entropy=-1/3*log2(1/3)-2/3*log2(2/3)=0.918
因此,在x1=1分支中,x2的GINI为0.44,Entropy为0.918,我们选择Entropy最小的x2=1作为子节点。
最终的决策树如下:
```
x1=0
/ \
x2=0 x2=1(y)
| |
y x1=1
/ \
x2=0 x2=1
(y) |
y
```
从上面的例子中可以看出,GINI和Entropy都是用来衡量数据集的不纯度,它们的差别在于:
- GINI指标更注重分类的准确性,适用于多分类问题,计算简单,但它对于少数类样本比较敏感。
- Entropy指标更注重信息增益,适用于二分类问题,计算稍微复杂一些,但它对于少数类样本比较不敏感。
阅读全文