CART回归决策树算法详解与Python实现

需积分: 50 162 浏览量更新于2024-09-08 10 收藏 516KB PDF 举报

"这篇文档详细介绍了决策树回归算法，包括其原理、实例解析以及Python实现。文档主要关注CART（Classification and Regression Tree）算法，这是一种二叉树结构，用于根据特征向量预测连续输出值。内容包括如何选择切分点（最小二乘法）以及确定输出值（单元内均值）。" 回归决策树是一种广泛应用的机器学习方法，它基于特征的二元决策路径来预测数值型输出。CART算法是决策树回归的主要实现方式，它构建的树结构由一系列“是/否”判断构成，这些判断沿着特征空间将数据分割成多个区域。每个区域内，输出值是通过所有样本的均值计算得出的。在建立回归树的过程中，关键步骤包括切分点的选择和输出值的确定。对于切分点选择，文档提到使用最小二乘法，这是一种优化策略，旨在最小化划分后的两个子集内部的平方误差和。具体而言，算法会遍历所有特征及其取值，寻找能够最均衡地减少两部分数据平方误差总和的分割点。对于输出值的确定，文档指出在每个划分单元内，通常是计算所有样本输出值的平均值作为该区域的预测输出。这样做的原因是，均值是最能代表一组数值中心趋势的统计量，能够有效地近似单元内的总体输出。以文档中的例子说明，一个二维平面被决策树划分为多个区域，每个区域都有一个固定的输出值。新样本（例如(6,6)）通过沿着决策树的路径进行判断，最终落在特定区域，从而获得对应的输出值𝑐3。在实际应用中，Python是常用的数据科学和机器学习语言，文档中可能包含了使用Python实现决策树回归的代码示例，这有助于读者理解理论概念并将其转化为可执行的程序。决策树回归是一种强大的工具，适用于非线性关系的建模，尤其在数据挖掘和预测分析中。通过理解文档中的内容，读者可以深入学习如何构建和理解回归决策树，以及如何利用Python进行实际操作。

决策树—回归

作者：归去来兮 2018.8.19

核心：划分点选择 + 输出值确定。

一、概述

决策树是一种基本的分类与回归方法，本文叙述的是回归部分。回归决策树主要指

CART(classification and regression tree)算法，内部结点特征的取值为“是”和“否”，为二叉树

结构。

所谓回归，就是根据特征向量来决定对应的输出值。回归树就是将特征空间划分成若干

单元，每一个划分单元有一个特定的输出。因为每个结点都是“是”和“否”的判断，所以划分

的边界是平行于坐标轴的。对于测试数据，我们只要按照特征将其归到某个单元，便得到对

应的输出值。

【例】左边为对二维平面划分的决策树，右边为对应的划分示意图，其中



,



,



,



,



是对应每个划分单元的输出。

比如现在对一个新的向量(6,6)决定它对应的输出。第一维分量 6 介于 5 和 8 之间，第二

维分量 6 小于 8，根据此决策树很容易判断(6,6)所在的划分单元，其对应的输出值为



划分的过程也就是建立树的过程，每划分一次，随即确定划分单元对应的输出，也就多

了一个结点。当根据停止条件划分终止的时候，最终每个单元的输出也就确定了，也就是叶

结点。

二、回归树建立

既然要划分，切分点怎么找？输出值又怎么确定？这两个问题也就是回归决策树的核心。

[切分点选择：最小二乘法]; [输出值：单元内均值].

1. 原理

假设 X 和 Y 分别为输入和输出变量，并且 Y 是连续变量，给定训练数据集为

󰇝

󰇛









󰇜



󰇛









󰇜

󰇛







󰇜󰇞，其中



󰇛



󰇛



󰇜





󰇛



󰇜





󰇛



󰇜

󰇜为输入实例(特征向量)，n 为特

征个数，，N 为样本容量。

对特征空间的划分采用启发式方法，每次划分逐一考察当前集合中所有特征的所有取值，

根据平方误差最小化准则选择其中最优的一个作为切分点。如对训练集中第个特征变量

󰇛󰇜

和它的取值 s，作为切分变量和切分点，并定义两个区域



󰇛



󰇜

󰇝

󰇛󰇜

󰇞 和 



󰇛



󰇜



󰇝

󰇛󰇜

󰇞，为找出最优的 j 和 s，对下式求解





󰇯





 󰇛



 



󰇜











󰇛󰇜

 





 󰇛



 



󰇜











󰇛󰇜

󰇰

下载后可阅读完整内容，剩余4页未读，立即下载

禺垣

粉丝: 4802
资源: 62

CART回归决策树算法详解与Python实现

ELM-CART: 提升CART回归精度的极端学习机优化算法

Python决策树分类算法详解

增强CART回归算法提升煤矿瓦斯涌出量预测精度

人工智能和机器学习之回归算法：决策树回归：决策树回归算法基础.docx

线性回归算法算法和决策树回归算法基本思想概述

决策树回归算法与模型解释

决策树回归算法matlab

matlab 决策树回归算法

决策树回归matlab算法

决策树回归预测算法matlab

最新资源