决策树和朴素贝叶斯算法简介 - CSDN文库

57 浏览量更新于2023-05-04 收藏 131KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

资源详情

资源推荐

决策树和朴素贝叶斯算法简介决策树和朴素贝叶斯算法简介

本节主要介绍数据挖掘中常见的分类方法决策树和朴素贝叶斯算法。

决策树算法决策树算法

决策树（Decision Tree，DT）分类法是一个简单且广泛使用的分类技术。

决策树是一个树状预测模型，它是由结点和有向边组成的层次结构。树中包含3种结点：根结点、内部结点和叶子结点。决策

树只有一个根结点，是全体训练数据的集合。

树中的一个内部结点表示一个特征属性上的测试，对应的分支表示这个特征属性在某个值域上的输出。一个叶子结点存放一个

类别，也就是说，带有分类标签的数据集合即为实例所属的分类。

1. 决策树案例决策树案例

使用决策树进行决策的过程就是，从根结点开始，测试待分类项中相应的特征属性，并按照其值选择输出分支，直到到达叶子

结点，将叶子结点存放的类别作为决策结果。

图 1 是一个预测一个人是否会购买电脑的决策树。利用这棵树，可以对新记录进行分类。从根结点（年龄）开始，如果某个

人的年龄为中年，就直接判断这个人会买电脑，如果是青少年，则需要进一步判断是否是学生，如果是老年，则需要进一步判

断其信用等级。

图 1 预测是否购买电脑的决策树

假设客户甲具备以下 4 个属性：年龄 20、低收入、是学生、信用一般。通过决策树的根结点判断年龄，判断结果为客户甲是

青少年，符合左边分支，再判断客户甲是否是学生，判断结果为用户甲是学生，符合右边分支，最终用户甲落在“yes”的叶子

结点上。所以预测客户甲会购买电脑。

2. 决策树的建立决策树的建立

决策树算法有很多，如 ID3、C4.5、CART 等。这些算法均采用自上而下的贪婪算法建立决策树，每个内部结点都选择分类效

果最好的属性来分裂结点，可以分成两个或者更多的子结点，继续此过程直到这棵决策树能够将全部的训练数据准确地进行分

类，或所有属性都被用到为止。

1）特征选择）特征选择

按照贪婪算法建立决策树时，首先需要进行特征选择，也就是使用哪个属性作为判断结点。选择一个合适的特征作为判断结

点，可以加快分类的速度，减少决策树的深度。

特征选择的目标就是使得分类后的数据集比较纯。如何衡量一个数据集的纯度？这里就需要引入数据纯度概念——信息增益。

信息是个很抽象的概念。人们常常说信息很多，或者信息较少，但却很难说清楚信息到底有多少。

1948 年，信息论之父 Shannon 提出了“信息熵”的概念，才解决了对信息的量化度量问题。通俗来讲，可以把信息熵理解成某

种特定信息的出现概率。信息嫡表示的是信息的不确定度，当各种特定信息出现的概率均匀分布时，不确定度最大，此时嫡就

最大。反之，当其中的某个特定信息出现的概率远远大于其他特定信息的时候，不确定度最小，此时熵就很小。

所以，在建立决策树的时候，希望选择的特征能够使分类后的数据集的信息熵尽可能变小，也就是不确定性尽量变小。当选择

某个特征对数据集进行分类时，分类后的数据集的信息嫡会比分类前的小，其差值表示为信息增益。信息增益可以衡量某个特

征对分类结果的影响大小。

ID3 算法使用信息增益作为属性选择度量方法，也就是说，针对每个可以用来作为树结点的特征，计算如果采用该特征作为树

结点的信息增益。然后选择信息增益最大的那个特征作为下一个树结点。

2）剪枝）剪枝

在分类模型建立的过程中，很容易出现过拟合的现象。过拟合是指在模型学习训练中，训练样本达到非常高的逼近精度，但对

检验样本的逼近误差随着训练次数呈现出先下降后上升的现象。过拟合时训练误差很小，但是检验误差很大，不利于实际应

用。

决策树的过拟合现象可以通过剪枝进行一定的修复。剪枝分为预先剪枝和后剪枝两种。

预先剪枝是指，在决策树生长过程中，使用一定条件加以限制，使得在产生完全拟合的决策树之前就停止生长。

预先剪枝的判断方法也有很多，例如，信息增益小于一定阈值的时候通过剪枝使决策树停止生长。但如何确定一个合适的阈值

也需要一定的依据，阈值太高会导致模型拟合不足，阈值太低又导致模型过拟合。

后剪枝是指，在决策树生长完成之后，按照自底向上的方式修剪决策树。后剪枝有两种方式，一种是用新的叶子结点替换子

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38703626

粉丝: 3
资源: 974

会员权益专享

图片转文字

全年可省5，000元立即开通

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈