决策树算法及原理详解：ID3、C4.5和CART的选择特征方法介绍

需积分: 0 188 浏览量更新于2024-01-15 收藏 805KB PDF 举报

决策树算法在机器学习中是一个经典的算法系列，既可以作为分类算法，也可以作为回归算法，同时也特别适合集成学习比如随机森林。本文对决策树算法原理做了一个总结，主要分为两个章节。第一章对ID3和C4.5算法进行了总结，介绍了决策树的算法思想和选择特征的关键。1970年代，一个叫昆兰的大牛用信息论中的熵来度量决策树的决策选择过程，提出了ID3算法。随后有很多改进算法，比如C4.5、C5.0。第二章重点介绍了CART算法，选择CART作为重点介绍的原因是scikit-learn使用了优化版的CART算法作为其决策树算法的实现。 ID3算法的信息论基础是熵的概念，熵度量了信息的不确定性，而决策树的目标就是根据特征的信息增益来确定节点的分裂。C4.5算法在ID3的基础上进行了改进，引入了信息增益比来解决特征取值数目较多时偏向于选择取值数目较多的特征的问题，使得决策树对取值数目较多的特征不那么敏感。 CART算法是一种既可以用于分类也可以用于回归的决策树算法。它使用基尼系数来选择特征，基尼系数是衡量数据的不纯度。CART算法的特点是可以处理混合型数据，既可以处理连续型特征也可以处理离散型特征，而且无需对数据进行分箱处理，极大地简化了特征选择的复杂度。决策树算法在实际应用中有着广泛的应用，比如在医疗领域可以用于疾病诊断，根据患者的症状和体征来预测患某种疾病的可能性；在金融领域可以用于信用评分，根据客户的基本信息和历史信用记录来评估其还款能力；在广告推荐系统中可以用于用户行为预测，根据用户的历史行为来推荐相关广告。另外，决策树算法还可以与集成学习算法相结合，比如随机森林，通过多个决策树的集体决策来提高模型的准确性。总之，决策树算法是一种简单而有效的算法，通过对数据特征的划分来进行决策，适用于各种领域的预测和分类问题。它的原理简单，易于理解和实现，同时在一定程度上也具有一定的抗噪声能力。然而，决策树算法也有一些局限性，比如对于高维数据和特征相关性较强的数据，决策树容易过拟合，需要采用剪枝策略来避免。另外，决策树算法对于处理连续型的特征和类别型的特征没有很好的处理方式，需要进行一定的数据预处理。综上所述，决策树算法是一种值得进一步研究和应用的经典机器学习算法。

为1，1个输出为0。

样本D的熵为：

样本D在特征下的条件熵为：

信息增益 I(D, A) = H(D) − H(D|A) = 0.971 - 0.888 = 0.083

具体算法过程：



1.3 Python3 实现ID3

贴上以前学习时写的一个简单的ID3算法

1)初始化信息增益的阈值ϵ

2）判断样本是否为同一类输出D'，如果是则返回单节点树T,标记类别为D'

3) 判断特征是否为空，如果是则返回单节点树T，标记类别为样本中输出类别D实例数最多的类别

4）计算A中的各个特征（一共n个）对输出D的信息增益，选择信息增益最大的特征A'

5) 如果F'的信息增益小于阈值ϵ，则返回单节点树T，标记类别为样本中输出类别D实例数最多的类别

6）否则，按特征A'的不同取值A'i将对应的样本输出D分成不同的类别Di。每个类别产生一个子节点。对应特征值

 A'i，返回增加了节点的树T。

7）对于所有的子节点，令D=Di,A = A−{A'}递归调用2-6步，得到子树Ti并返回

# -*- coding: utf-8 -*-

"""

Created on Thu Apr 5 21:30:54 2018

@author: Administrator

"""

def calcshannonEnt(dataSet):

 from math import log

 numEntires = len(dataSet) # 返回数据集的行数

 labelCounts = {} # 保存每个标签(label)出现次数的字典

剩余14页未读，继续阅读

马虫医生

粉丝: 29
资源: 324

决策树算法及原理详解：ID3、C4.5和CART的选择特征方法介绍

决策树算法

Cardiovascular-disease-using-decision-trees-and-random-forest-classifier-:决策树算法可用于预测心血管疾病并使用随机森林分类器和探索性数据分析来提高准确性

决策树生成算法哦

C45决策树算法 C45决策树算法

什么时候用决策树算法，决策树算法的优点

决策树3种算法，以及原理

最新资源