C4.5决策树分裂详解(离散属性和连续属性)
时间: 2023-11-08 18:35:15 浏览: 63
C4.5决策树是一种基于信息熵的分类算法,其分类过程就是通过构建决策树来实现的。在构建决策树的过程中,就需要对数据进行分裂,以便将不同类别的数据划分到不同的子节点中去。下面详细介绍C4.5决策树的分裂过程。
C4.5决策树的分裂过程分为两种情况:针对离散属性和针对连续属性。
1.离散属性的分裂
首先,对于每个属性,计算其信息增益比。信息增益比的计算公式为:
$$GainRatio(A)=\frac{Gain(A)}{SplitInfo(A)}$$
其中,$Gain(A)$表示属性$A$的信息增益,$SplitInfo(A)$表示属性$A$的分裂信息。信息增益的计算公式为:
$$Gain(A)=Ent(D)-\sum_{v=1}^{V}\frac{|D^v|}{|D|}Ent(D^v)$$
其中,$Ent(D)$表示数据集$D$的熵,$D^v$表示属性$A$取值为$v$时的数据子集,$|D^v|$表示$D^v$的样本个数,$V$表示属性$A$的取值个数。
分裂信息的计算公式为:
$$SplitInfo(A)=-\sum_{v=1}^{V}\frac{|D^v|}{|D|}log_2\frac{|D^v|}{|D|}$$
计算出所有属性的信息增益比后,选择信息增益比最大的属性作为当前节点的分裂属性。
2.连续属性的分裂
对于连续属性,需要进行二分法处理。首先,将连续属性的取值按照从小到大的顺序排序。然后,对于每个相邻的取值,计算其中点,将数据集按照中点进行分裂,计算每个分裂点的信息增益,选择信息增益最大的分裂点作为当前节点的分裂点。
以上就是C4.5决策树的分裂过程,针对离散属性和连续属性的分裂均有详细介绍。
相关推荐
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)