给我决策树基尼系数的数学公式
时间: 2024-05-30 11:05:33 浏览: 102
5.2决策树(1)1
决策树中常用的划分标准有信息增益和基尼系数。基尼系数是一种衡量样本集合纯度的指标。在分类问题中,假设有K个类别,样本点属于第k类的概率为$p_k$,则概率分布的基尼指数定义为:$$Gini(p)=\sum_{k=1}^{K}p_k(1-p_k)=1-\sum_{k=1}^{K}p_k^2$$
其中,当样本点只有一类别时,基尼系数最小为0,当样本点每个类别出现的可能性相等时,基尼系数最大为$1-\frac{1}{K}$ 。Python示例代码如下所示:
```python
def gini(p):
return 1 - sum([pk**2 for pk in p])
```
阅读全文