【进阶】Scikit-Learn：决策树与随机森林

![python机器学习合集](https://img-blog.csdnimg.cn/img_convert/7a3f7a5d50af30202e2976fcac10e01c.png) # 2.1 决策树模型的评估指标决策树模型的评估指标主要用于衡量模型的性能和泛化能力。常用的评估指标包括： - **准确率 (Accuracy)**：预测正确的样本数占总样本数的比例。 - **召回率 (Recall)**：实际为正类且被预测为正类的样本数占实际正类样本数的比例。 - **F1 值 (F1 Score)**：准确率和召回率的调和平均值，综合考虑了模型的准确性和召回性。 # 2. 决策树模型的评估与调优 ### 2.1 决策树模型的评估指标决策树模型的评估指标通常用于衡量模型在给定数据集上的性能。常用的评估指标包括： **2.1.1 准确率、召回率和 F1 值** * **准确率（Accuracy）：**正确预测的样本数量占总样本数量的比例。 * **召回率（Recall）：**实际为正例的样本中被正确预测为正例的比例。 * **F1 值：**准确率和召回率的加权调和平均值。 **代码块：** ```python from sklearn.metrics import accuracy_score, recall_score, f1_score # 计算准确率、召回率和 F1 值 accuracy = accuracy_score(y_true, y_pred) recall = recall_score(y_true, y_pred) f1 = f1_score(y_true, y_pred) # 输出评估结果 print("准确率：", accuracy) print("召回率：", recall) print("F1 值：", f1) ``` **逻辑分析：** 该代码块使用 `sklearn.metrics` 模块中的 `accuracy_score`、`recall_score` 和 `f1_score` 函数计算准确率、召回率和 F1 值。这些函数接受真实标签 `y_true` 和预测标签 `y_pred` 作为输入，并返回相应的评估指标。 **2.1.2 ROC 曲线和 AUC** * **ROC 曲线（Receiver Operating Characteristic Curve）：**绘制真实正例率（TPR）与假正例率（FPR）之间的关系。 * **AUC（Area Under the Curve）：**ROC 曲线下面积，表示模型区分正负例的能力。 **代码块：** ```python from sklearn.metrics import roc_curve, auc # 计算 ROC 曲线和 AUC fpr, tpr, thresholds = roc_curve(y_true, y_pred) auc_score = auc(fpr, tpr) # 绘制 ROC 曲线 plt.plot(fpr, tpr, label="ROC 曲线") plt.xlabel("假正例率") plt.ylabel("真实正例率") plt.title("ROC 曲线") plt.legend() plt.show() # 输出 AUC 值 print("AUC：", auc_score) ``` **逻辑分析：** 该代码块使用 `sklearn.metrics` 模块中的 `roc_curve` 和 `auc` 函数计算 ROC 曲线和 AUC。`roc_curve` 函数返回假正例率、真实正例率和阈值，而 `auc` 函数计算 ROC 曲线下面积。 ### 2.2 决策树模型的调优决策树模型的调优旨在通过调整超参数和特征来提高模型的性能。 **2.2.1 超参数优化** 超参数是决策树模型中不可学习的参数，需要手动设置。常用的超参数包括： * **最大深度：**决策树的最大深度。 * **最小样本分割：**分割内部节点所需的最小样本数。 * **最小叶子节点样本数：**叶子节点所需的最小样本数。 **代码块：** ```python from sklearn.model_selection import GridSearchCV # 定义超参数网格 param_grid = { "max_depth": [3, 5, 7], "min_samples_split": [2, 5, 10], "min_samples_leaf": [1, 2, 5] } # 使用网格搜索进行超参数优化 grid_search = GridSearchCV( DecisionTreeClassifier(), param_grid, cv=5, n_jobs=-1 ) grid_search.fit(X, y) # 获取最佳超参数 best_params = grid_search.best_params_ # 输出最佳超参数 print("最佳超参数：", best_params) ``` **逻辑分析：** 该代码块使用 `sklearn.model_selection` 模块中的 `GridSearchCV` 类进行超参数优化。`GridSearchCV` 遍历超参数网格，在交叉验证数据集上评估每个超参数组合的性能，并选择具有最佳性能的超参数。 **2.2.2 特征选择和工程** 特征选择和工程涉及选择和转换特征以提高模型的性能。特征选择技术包括： * **过滤式特征选择：**基于统计度量（如信息增益或卡方检验）选择特征。 * **包装式特征选择：**使用机器学习算法迭代选择特征。特征工程技术包括： * **特征缩放：**将特征值归一化或标准化。 * **特征编码：**将类别特征转换为数值特征。 **代码块：** ```python from sklearn.feature_selection import SelectKBest, chi ```

最低0.47元/天解锁专栏

买1年送3月

点击查看下一篇

百万级高质量VIP文章无限畅学

千万级优质资源任意下载

C知道免费提问 ( 生成式Al产品 )

相关推荐

李_涛

知名公司架构师

拥有多年在大型科技公司的工作经验，曾在多个大厂担任技术主管和架构师一职。擅长设计和开发高效稳定的后端系统，熟练掌握多种后端开发语言和框架，包括Java、Python、Spring、Django等。精通关系型数据库和NoSQL数据库的设计和优化，能够有效地处理海量数据和复杂查询。

专栏简介

欢迎来到 Python 机器学习合集，这是一个涵盖机器学习基础知识的全面指南。本专栏从 Python 基础语法开始，包括数据类型、变量、控制流语句、函数和模块。接下来，深入了解 NumPy，一个用于数组操作和运算的强大库。您将学习如何创建和操作数组，以及使用各种常用函数。通过这些基础知识，您将为探索更高级的机器学习概念做好准备，例如数据预处理、模型训练和评估。本专栏适合初学者和希望提升 Python 和机器学习技能的任何人。通过循序渐进的教程和清晰易懂的解释，您将获得在机器学习领域取得成功的必要基础。

专栏目录

最低0.47元/天解锁专栏

买1年送3月

百万级高质量VIP文章无限畅学

千万级优质资源任意下载

C知道免费提问 ( 生成式Al产品 )

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

专栏目录

最低0.47元/天解锁专栏

买1年送3月

百万级高质量VIP文章无限畅学

千万级优质资源任意下载

C知道免费提问 ( 生成式Al产品 )

【进阶】Scikit-Learn：决策树与随机森林

相关推荐

用Scikit-Learn与TensorFlow实践智能系统：实战教程

实践Scikit-Learn与TensorFlow：打造智能系统的实战指南

scikit-learn实战：精通机器学习第二版

【进阶】Scikit-Learn：机器学习基本概念

TensorFlow与Scikit-learn：决策树算法的机器学习框架集成实战

实践Scikit-Learn与TensorFlow：打造智能系统指南

实践Scikit-Learn与TensorFlow：构建智能系统的实用教程

《Hands-On Machine Learning》：Scikit-Learn与TensorFlow实战

机器学习实战：使用Scikit-Learn与TensorFlow

【scikit-learn进阶必备】：2大秘籍助你精通参数调优与模型选择

专栏目录

最新推荐

【Tetgen 1.6版本入门教程】：从零开始学习Tetgen，掌握最新网格生成技术

从零开始：深入ArcGIS核密度分析，掌握数据密度可视化最佳实践

HFM报表设计速成：打造直观数据展示的六大技巧

【网络走线与故障排除】：软件定义边界中的问题诊断与解决策略

【打包设计技巧揭秘】：Cadence高效项目管理的3大策略

【数据中心管理革新】：AST2400在系统效率提升中的应用（专家分享：如何利用AST2400提高管理效能）

【MOSFET节点分布律】：Fairchild技术视角下的7大解析秘籍

【Windows 11故障排除指南】：PL2303驱动最佳实践

多频阶梯波发生器的挑战与突破：设计与实现详解

专栏目录