决策树与随机森林：构建分类树分析

需积分: 0 39 浏览量更新于2024-08-05 收藏 3.77MB PDF 举报

"决策树和随机森林的介绍及Carseats数据集的分类树构建" 在机器学习领域，基于树的方法是常见的预测模型，包括决策树和随机森林。决策树是一种直观且易于理解的模型，它通过一系列规则（即树枝结构）进行分类或回归。在本章中，我们将探讨如何使用R语言中的`tree`包来构建决策树，并以Carseats数据集为例进行实战演练。首先，我们加载必要的包`tree`和`ISLR`，`tree`包用于构建决策树，而`ISLR`包包含了Carseats数据集。Carseats数据集包含了关于儿童汽车座椅销售的信息，其中有一个连续变量`Sales`（销售量）和一个分类变量`High`，表示销售量是否高于8单位。为了将`Sales`转化为分类变量，我们创建了一个新的变量`High`，当`Sales`大于8时，`High`取值为"Yes"，否则取值为"No"。接下来，我们将处理后的数据集`Carseats`与`High`变量合并，并使用`tree`函数建立一个分类树，以`High`为目标变量，用`Carseats`中除`Sales`之外的所有其他变量作为预测因子。`tree`函数的输出提供了关于树结构的关键信息，包括用于构建树的变量、终端节点的数量以及训练集上的错误率。在Carseats数据集的分类树中，`ShelveLoc`（货架位置）、`Price`（价格）、`Income`（收入）、`CompPrice`（竞争价格）和`Population`（人口）等变量被用于划分数据。训练错误率表示的是模型在训练数据上的表现，如果错误率低，说明模型对训练数据的拟合度较高。在这个例子中，训练错误率为9%，表明有9%的样本在树的预测下被错误分类。决策树的图形表示可以帮助我们直观理解模型的决策过程。通过`plot`函数，我们可以可视化这棵决策树，其中每个内部节点代表一个特征测试，分支表示测试结果，而叶节点（终端节点）则对应于最终的类别预测。星号标记的终端节点表示它们是基于数据自然划分形成的，而非人为设定的阈值。除了单棵决策树，随机森林是一种集成学习方法，它通过构建多棵决策树并取其平均预测结果来提高预测性能和鲁棒性。在随机森林中，每棵树都在随机子集的特征和样本上构建，这样可以减少过拟合风险并提高泛化能力。虽然本章没有直接涉及随机森林，但了解决策树的基础是进一步学习随机森林的前提。总结来说，决策树是一种基于树形结构进行预测的算法，易于解释且能处理不同类型的数据。通过`tree`包在R中构建的决策树模型，我们可以直观地看到影响目标变量的重要因素，并评估模型在训练数据上的表现。随机森林则通过集成多棵决策树来增强模型的预测能力和稳定性。在实际应用中，决策树和随机森林常被用来解决分类和回归问题，特别是在数据特征复杂且需要解释性强的模型时。

．

实验

」决策

，

3 实

验

：

决

策

树

，

1构

建

分类

树

加载

“

。

包

以建

立

分

类

树

和

回

归

树。

library(tree)

首先

用分

类树

分

析

carseats

（

座

椅

）

数

据

集

量，

所以

需

要将

它

记

为

：

元

变

量

。

用

函

数

！

。

！

。

“

由

于

数

创

据

建

中

一

的

个

名

sales

为

（

销

（

量

高

）

销

是

量

一

）

个

的

连

变

续

量

变

，

若

sales

的

值

大

于

，

变

量

皿

就

取 Y

“

，

否

则

取

“ 。

library

〈ISLR)

attach(Carseatg)

High—ifelse(Sales<•8,"Non,"Yeg")

最后用函数

data.

frame

将

变

量

High

与

carseats

数据集

中的其他数据合并。

Carseatg=data.

,High)

现在

用函数

tree

0 建

立

分

类树

，

用

除

sales

之

外的

所有变

量预

测

High0 函数

乜：。

。0 的语

法与函数工- 以

> tree

，

carseats—tree(HighN.—Sa1es

,Carseats)

函数

summary

0 列出了用于生成终

端结点的所有变量、终端结

点个数和

（训练）错误率。

> summary

(tree

.carseats)

Classification tree

：

tree (formula

= High

～

Sales，

data “

Carseats)

Variables actually

used in

tree'

'construction

：

[

〕"ShelveLoc

以

"Price"

皿

come

" CompPrice

[ 5

〕．

'"Population

"Advertising

Number 0

terminal

nodeg

：

Residual

mean

deviance

．

0．4575

“

170．7 /

373

M土

sclass

土

土cat

攵

error

rate

：

．

/ 400

可知训练错

误率

是

％

。

函数

summary

输

出的

分

类树

偏差

由下式给出：

这

里

的

，

“是

第

“

个

终

端

结

点

处

属

于

第

类

的

观

测值

的个

数

。

偏差小说明

一

棵

树

很好

地拟合

了

（训练）数据

。

输

出

的

平

均

残

差

是

用

偏

差

除

以

，到

得

到的，

在这里

为

400

一27

：

373。

树

最吸

引

人

的

特

点

之

一

就

是

它

可

以

用

图

形

表

示。用

函数邙）

显

示

树的结

构，

用函

数

。

“ 0 显

示

结

点

标

记。

参

数

“

展

示各个类

名

的

首

字

母

。

、 plot

（

：

，

：

）

、

，

、

：

“

！

'pretty•0)

对 “ ！“ 最

重

要

的

指

标

应

该

是

架

设

位

置

，

位置进行了

区分

。

使

“输

出

所

有定

性

预测变

量的类

别

名，

而不

是仅仅

因

为

第

一

个

分

支就

将

。。

位置

与 000

和 “

。

如

、

只

输

树

对

象

的

名

字

，

“

会

输

树

，

、

一

分

支

的

、

测

值

数

、

偏

，

个

分

支

、

。

“会

、

、、

！例

、

“ 、

。

一

分

、

的

体 0

“

“ ）

一

下载后可阅读完整内容，剩余7页未读，立即下载

柏傅美

粉丝: 32
资源: 325

决策树与随机森林：构建分类树分析

chapter6_机器学习_决策树_

Chapter 3_随机森林_预测_数据挖掘_

决策树实战代码

随机信号分析答案王永德chapter6

创建数据库chapter2,字符集设置为utf8,校验规则为utf8_general_ci： 1）在chapter2数据库下将表tb_user通过Transact-SQL语言创建。

111equation chapter 1 section 1".

在reportlab中，如何使用<seq template="%(Chapter)s" >来设置Chapter的数字编号。

<seq template="%(Chapter)s-%(FigureNo+)s"/> 代码中的Chapter如何设置数字序号?

error: user-defined function cannot be indexed with { error: called from chapter8_1/chapter8_1_test.m at line 7 column 6

最新资源