《RapidMiner数据分析与挖掘实战》第11章决策树与神经网络_Rapidminer处理健康疾病预测 - CSDN文库

需积分: 48 139 浏览量更新于2023-03-16 评论 2 收藏 1.4MB DOC 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

资源详情

资源评论

资源推荐

《RapidMiner 数据分析与挖掘实战》第 11 章

第1章决策树与神经网络

11.1 理解决策树

决策树方法在分类、预测、规则提取等领域有着广泛应用。在 20 世纪 70 年代后期和

80 年代初期，机器学习研究者 J.Ross Quinilan 提出了 ID3

[5-2]

算法以后，决策树在机器学习、

数据挖掘邻域得到极大的发展。Quinilan 后来又提出了 C4.5，成为新的监督学习算法。

1984 年几位统计学家提出了 CART 分类算法。ID3 和 ART 算法大约同时被提出，但都是采

用类似的方法从训练样本中学习决策树。

决策树是一树状结构，它的每一个叶节点对应着一个分类，非叶节点对应着在某个属

性上的划分，根据样本在该属性上的不同取值将其划分成若干个子集。对于非纯的叶节点

多数类的标号给出到达这个节点的样本所属的类。构造决策树的核心问题是在每一步如何

选择适当的属性对样本做拆分。对一个分类问题，从已知类标记的训练样本中学习并构造

出决策树是一个自上而下，分而治之的过程。

常用的决策树算法见表 11-1。

表 11-1 决策树算法分类

决策树算法算法描述

ID3 算法

其核心是在决策树的各级节点上，使用信息增益方法作为属性的选

择标准，来帮助确定生成每个节点时所应采用的合适属性。

C4.5 算法

C4.5 决策树生成算法相对于 ID3 算法的重要改进是使用信息增益率

来选择节点属性。C4.5 算法可以克服 ID3 算法存在的不足：ID3 算

法只适用于离散的描述属性，而 C4.5 算法既能够处理离散的描述属

性，也可以处理连续的描述属性。

CART 算法

CART 决策树是一种十分有效的非参数分类和回归方法，通过构建

树、修剪树、评估树来构建一个二叉树。当终结点是连续变量时，

该树为回归树；当终结点是分类变量，该树为分类树。

本节将详细介绍 ID3 算法，也是最经典的决策树分类算法。

1. ID3 算法简介及基本原理

231

《RapidMiner 数据分析与挖掘实战》第 11 章

1 2

( ) ( , ,..., ) ( )

m

Gain A I s s s E A= -

（11-3）

显然越小，的值越大，说明选择测试属性 A 对于分类提供的信息越大，

选择 A 之后对分类的不确定程度越小。属性 A 的个不同的值对应的样本集的个子集

或分支，通过递归调用上述过程（不包括己经选择的属性），生成其他属性作为节点的子

节点和分支来生成整个决策树。ID3 决策树算法作为一个典型的决策树学习算法，其核心

是在决策树的各级节点上都用信息增益作为判断标准来进行属性的选择，使得在每个非叶

节点上进行测试时，都能获得最大的类别分类增益，使分类后的数据集的熵最小。这样的

处理方法使得树的平均深度较小，从而有效地提高了分类效率。

2. ID3 算法具体流程

ID3 算法的具体详细实现步骤如下：

1）对当前样本集合，计算所有属性的信息增益；

2）选择信息增益最大的属性作为测试属性，把测试属性取值相同的样本划为同一个

子样本集；

3）若子样本集的类别属性只含有单个属性，则分支为叶子节点，判断其属性值并标

上相应的符号，然后返回调用处；否则对子样本集递归调用本算法。

下面将结合餐饮案例实现 ID3 的具体实施步骤。T 餐饮企业作为大型连锁企业，生产

的产品种类比较多，另外涉及的分店所处的位置也不同，数目比较多。对于企业的高层来

讲,了解周末和非周末销量是否有大的区别，以及天气、促销活动这些因素是否能够影响门

店的销量这些信息至关重要。因此，为了让决策者准确了解和销量有关的一系列影响因素

需要构建模型来分析天气、是否周末和是否有促销活动对销量的影响，下面以单个门店来

进行分析。

对于天气属性，数据源中存在多种不同的值，这里将那些属性值相近的值进行类别整

合。如天气为“多云”、“多云转晴”、“晴”这些属性值相近，均是适宜外出的天气，不会对产

品销量有太大的影响，因此将它们为一类，天气属性值设置为“好”，同理对于“雨”、“小到

中雨”等天气，均是不适宜外出的天气，因此将它们为一类，天气属性值设置为“坏”。

对于是否周末属性，周末则设置为“是”，非周末则设置为“否”。

对于是否有促销活动属性，有促销则设置为“是”，无促销则设置为“否”。

产品的销售数量为数值型，需要对属性进行离散化，将销售数据划分为“高”和“低”两类

将其平均值作为分界点，大于平均值的划分到类别“高”，小于平均值的划分为“低”类别。

233

剩余22页未读，继续阅读

评论0

海晏

粉丝: 5
资源: 36

会员权益专享

图片转文字

全年可省5，000元立即开通

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈