决策树分类在持征选择时,选择特征的准则中常用的信息增益及信息增益比分别是什么;着对如下的数据售构造决策树时,根结点将会报据信息增益选取持征,请你计算备个特征的值息增益,
时间: 2024-03-14 15:45:52 浏览: 126
信息增益和信息增益比是决策树分类中常用的特征选择准则。其中,信息增益是指在决策树构建中选择某个特征进行划分后,相对于没有进行划分前,样本集合的信息不确定性减少的程度。信息增益比则是在信息增益的基础上,对特征本身固有的信息量进行了惩罚,避免选择取值较多的特征。信息增益比计算公式为:信息增益比 = 信息增益 / 特征熵。
在给定数据集中,计算某个特征的信息增益的步骤如下:
1. 计算数据集的信息熵,即对于每个类别计算其概率,然后将概率代入公式H=-∑p*log2(p),求和得到信息熵H(D)。
2. 计算按照该特征划分后的信息熵,即对于每个特征值,计算其在该特征下的样本集合,然后按照类别计算概率,最后将概率代入公式H=-∑p*log2(p),求和得到信息熵H(D|A)。
3. 计算信息增益,即信息增益 = H(D) - H(D|A)。
举个例子,假设有如下数据集,其中“是”和“否”为类别标签,A、B、C为特征:
```
| A | B | C | 类别 |
|:-:|:-:|:-:|:----:|
| 0 | 0 | 0 | 是 |
| 0 | 1 | 0 | 是 |
| 1 | 0 | 0 | 否 |
| 1 | 1 | 1 | 否 |
```
我们以特征A为例进行计算:
1. 计算数据集的信息熵:H(D) = -(2/4)*log2(2/4)-(2/4)*log2(2/4) = 1。
2. 计算按照特征A划分后的信息熵:
- 当A=0时,样本集合为{(0,0,0), (0,1,0)},类别为“是”和“是”,概率分别为1/2和1/2,因此H(D|A=0) = -(1/2)*log2(1/2)-(1/2)*log2(1/2) = 1。
- 当A=1时,样本集合为{(1,0,0), (1,1,1)},类别为“否”和“否”,概率分别为1/2和1/2,因此H(D|A=1) = -(1/2)*log2(1/2)-(1/2)*log2(1/2) = 1。
- 因此,按照特征A划分后的信息熵为H(D|A) = (2/4)*1 + (2/4)*1 = 1。
3. 计算信息增益:信息增益 = H(D) - H(D|A) = 1 - 1 = 0。
因此,特征A的信息增益为0,说明按照特征A进行划分并不能对样本集合的信息不确定性进行有效的减少,因此不是一个好的特征。
阅读全文