"菜菜的scikit-learn课堂：决策树 full version1"

需积分: 0 28 浏览量更新于2024-01-16 收藏 3.31MB PDF 举报

本文将对决策树(full version 1)的生成过程进行详细介绍，总结包括导入算法库和模块、数据探索、训练集和测试集的划分、模型的建立以及树的可视化等步骤。首先，为了实现决策树(full version 1)，我们需要导入所需的算法库和模块。这些库包括scikit-learn库，用于构建机器学习模型和进行数据预处理。我们还可以使用numpy和pandas库来处理和操作数据。接下来，我们进入数据探索的阶段。这一阶段的目的是了解数据的特征和结构，为后续的建模和分析做准备。我们可以通过查看数据的前几行，了解数据集中的变量和它们的取值范围。还可以计算数据的统计指标，例如均值、方差等，以及数据的缺失值情况。在数据探索之后，我们需要将数据划分为训练集和测试集。训练集用于构建决策树模型，而测试集则用于评估模型的性能。通常，我们会将数据集的70%用作训练集，剩下的30%用作测试集。我们可以使用scikit-learn库中的train_test_split函数实现这一步骤。随后，我们可以开始建立决策树模型。使用scikit-learn库中的DecisionTreeClassifier类可以很方便地构建决策树。在构建模型之前，我们需要将数据集中的自变量和因变量分开。我们可以使用pandas库中的iloc函数实现这一步骤。接下来，我们要对模型进行训练。通过调用模型的fit方法，我们可以将训练集传入模型进行拟合操作。在模型建立之后，我们可以绘制一棵树来展示模型的结构和分支规则。通过使用graphviz库和scikit-learn库中的export_graphviz函数，我们可以将决策树模型转换为.dot文件格式，并使用GraphViz软件生成一棵可视化的树。最后，我们总结了构建决策树(full version 1)的步骤。我们首先导入所需的算法库和模块，然后进行数据探索，了解数据的特征和结构。接着，我们将数据划分为训练集和测试集，然后建立决策树模型，并将其可视化展示出来。这些步骤可以帮助我们全面了解决策树(full version 1)的生成过程。

在这个流程下，分类树对应的代码是：



2 DecisionTreeClassiﬁer与红酒数据集

class

sklearn.tree.DecisionTreeClassifier (criterion=’gini’, splitter=’best’, max_depth=None,

min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=None,

random_state=None, max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None,

class_weight=None, presort=False)



2.1 重要参数

2.1.1 criterion

为了要将表格转化为一棵树，决策树需要找出最佳节点和最佳的分枝方法，对分类树来说，衡量这个“最佳”的指标

叫做“不纯度”。通常来说，不纯度越低，决策树对训练集的拟合越好。现在使用的决策树算法在分枝方法上的核心

大多是围绕在对某个不纯度相关指标的最优化上。

不纯度基于节点来计算，树中的每个节点都会有一个不纯度，并且子节点的不纯度一定是低于父节点的，也就是

说，在同一棵决策树上，叶子节点的不纯度一定是最低的。

Criterion这个参数正是用来决定不纯度的计算方法的。sklearn提供了两种选择：

1）输入”entropy“，使用信息熵（Entropy）

2）输入”gini“，使用基尼系数（Gini Impurity）

from sklearn import tree #导入需要的模块

clf = tree.DecisionTreeClassifier()   #实例化

clf = clf.fit(X_train,y_train) #用训练集数据训练模型

result = clf.score(X_test,y_test) #导入测试集，从接口中调用需要的信息

Tsai Tsai

菜菜的sklearn课堂直播间： https://live.bilibili.com/12582510

sklearn专题第一期：决策树

剩余31页未读，继续阅读

光与火花

粉丝: 27
资源: 335

"菜菜的scikit-learn课堂：决策树 full version1"

深入解析决策树模型及其归类应用

Python决策树算法应用案例详解

Python实现决策树算法教程与实例解析

1 决策树 full version.pdf

随机森林 full version1

递归树内存管理：避免泄漏与递归深度限制

决策树算法详解：从概念到SKlearn实现

精选毕设项目-微笑话.zip

在线教育系统-springboot毕业项目，适合计算机毕-设、实训项目、大作业学习.zip

基于智能推荐的卫生健康系统-springboot毕业项目，适合计算机毕-设、实训项目、大作业学习.zip

最新资源