机器学习第四章实验：决策树与剪枝

需积分: 0 165 浏览量更新于2024-08-04 收藏 27KB DOCX 举报

"本次实验主要涉及机器学习中的决策树模型，包括分类和回归任务的应用，以及决策树的剪枝技术。实验使用了pyecharts库进行数据可视化，并涉及多个数据集，如Dota2比赛结果、Kaggle房价数据、LendingClubSafeLoans数据集和白葡萄酒质量数据集。" 实验内容主要分为以下几个部分： 1. **安装与准备**：首先，需要安装`pyecharts`库，通过在命令行或终端中输入`pip install pyecharts`来完成。之后，启动Jupyter Notebook以进行后续的实验操作。 2. **决策树处理分类任务**：使用`sklearn.tree.DecisionTreeClassifier`来解决Dota2比赛结果的分类问题。实验要求计算最大深度为10时，通过十折交叉验证得到的精度（accuracy）、查准率（precision）、查全率（recall）和F1值。同时，绘制决策树在不同最大深度下的精度变化图，以观察模型性能随深度的变化情况。 3. **决策树处理回归任务**：应用`sklearn.tree.DecisionTreeRegressor`对Kaggle房价预测问题进行建模。计算最大深度为10时，训练集上的均方根误差（RMSE）和平均绝对误差（MAE），并画出深度从1到30时，训练集和测试集上MAE的变化曲线，以寻找最佳的模型复杂度。 4. **决策树实现**：在LendingClubSafeLoans数据集上实现信息增益、信息增益率和基尼指数三种划分标准的决策树，并进行训练。比较在最大深度为10时，这三种决策树在训练集和测试集上的精度、查准率、查全率和F1值。 5. **预剪枝**：实现基于信息增益率的预剪枝策略。比较剪枝和未剪枝的决策树在最大深度为6时，在LendingClubSafeLoans数据集上的各种评估指标，结果保留四位小数。 6. **选做：后剪枝**：可选部分是实现基于后剪枝的决策树。选择任意数据集进行实验，并比较剪枝前后的性能差异。 7. **数据集介绍**： - **LendingClubSafeLoans数据集**来源于Coursera上的机器学习课程，用于决策树的实现和剪枝实验。 - **白葡萄酒质量数据集**，虽然在此实验中未直接使用，但可能是用于其他相关的机器学习任务，如质量预测或分类。整个实验旨在深入理解决策树的工作原理，掌握其在分类和回归任务中的应用，以及如何通过剪枝技术优化模型性能。通过实际操作，学习者将能更好地理解和运用决策树算法。

机器学习第四章实验内容

一、准备工作

安装 pyecharts

启动 cmd/powershell/terminal，使用 pip install pyecharts 安装 pyecharts 后，再启动 jupyter

notebook 打开作业题。

我们需要安装这个库绘制决策树。

二、实验内容

详细内容见提供的 jupyter notebook

2.1 决策树处理分类任务

1. 使用 sklearn.tree.DecisionTreeClassifier 完成 dota2 比赛结果预测问题

2. 计算最大深度为 10 时，十折交叉验证的精度(accuracy)，查准率(precision)，查全率

(recall)，F1 值

3. 绘制最大深度从 1 到 10 的决策树十折交叉验证精度的变化图

2.2 决策树处理回归任务

1. 使用 sklearn.tree.DecisionTreeRegressor 完成 kaggle 房价预测问题

2. 计算最大深度为 10 的决策树，训练集上十折交叉验证的 MAE 和 RMSE

3. 绘制最大深度从 1 到 30，决策树在训练集和测试集上 MAE 的变化曲线

4. 选择一个合理的树的最大深度，并给出理由

下载后可阅读完整内容，剩余3页未读，立即下载

陈莽昆

粉丝: 28
资源: 290

机器学习第四章实验：决策树与剪枝

机器学习第三章实验内容1

机器学习第五章实验内容1

"澳大利亚国家残疾保险机器学习预算缩小实验

机器学习与知识工程检测社交网络假新闻-调查与实验评估

"冬季2022芯片1，半导体机器学习评论人工智能

预算约束下的机器学习研究：巴黎第六学院博士论文总结

"突尼斯方言音译研究：基于序列标记技术的机器学习方法及实验结果

机器学习 第四章答案 csdn

机器学习及r应用陈强第四章代码

azure机器学习实验

最新资源

机器学习第四章答案 csdn