优化xgboost模型：从SVM到0.977高分

需积分: 0 158 浏览量更新于2024-08-04 收藏 31KB DOCX 举报

本篇实验报告由朱志儒撰写，主要关注于使用机器学习方法优化模型性能，特别是针对一个未详尽的IT任务。作者在Windows 10 64位系统上运行，配备了Intel Core i5-6300HQ处理器和NVIDIA GeForce GTX 950M GPU，利用Python进行数据分析和建模。首先，数据预处理是关键步骤。训练集包含空缺值，数据类型多样，包括float、int和字符串。作者通过删除含有全空列，用平均值填充数值型空缺，用最常见的值填充非数值型空缺，并使用LabelEncoder将类别数据转化为数值。接着，对所有数据进行了min-max标准化，尽管维度较低，但保持了原始特征的多样性。初始尝试使用了sklearn库的LinearSVC进行线性支持向量机（SVM）模型训练，但因为其输出是0/1标签而非概率，不适合以AUC作为评价指标，导致得分仅为0.86323。随后，作者调整了SVC参数，如kernel设为linear，probability设为True，并通过网格搜索确定C值为1.5，虽然提高了得分至0.94539，但效果仍不理想。考虑到SVM模型对数据预处理的敏感性，作者转向了更强大的xgboost模型。初始设置下，xgboost表现良好，得分为0.97699，明显优于之前的SVM。为了进一步优化模型性能，作者采用了调参策略，可能包括网格搜索或者随机搜索，以确定最佳参数组合。具体过程可能涉及了交叉验证，如5折验证，来评估模型在不同参数下的稳定性和泛化能力。在整个实验中，朱志儒重点在于探索适合问题的模型和参数调整方法，以便提高预测准确性和AUC值。通过一系列尝试和优化，作者展示了如何在IT项目中有效地处理缺失值、选择合适的模型，并通过调参实现性能提升的过程。这种实践对于理解和应用机器学习模型具有很高的参考价值。

实验报告

16337341 朱志儒

一、环境说明

系统：windows 10 64 位

处理器：Intel® Core™ i5-6300HQ CPU @ 2.30GHz 2.30GHz

内存：8.00GB

GPU：NVIDIA GeForce GTX 950M

语言：Python

调用的库：pandas-0.24.2 xgboost-0.82 numpy-1.15.4 sklearn-0.20.3

二、流程

1. 数据处理方法

训练集中的数据存在空缺值，数据类型有 float 型、int 型和字符串类型，所以需要对这

些数据进行预处理。读入训练集后，将整列为 NaN 的列删除；对于数值类型的列，将该列

的平均值填入该列中的空缺位置；对于非数值类型的列，将该列中出现次数最多的值填入列

中的空缺位置，再使用sklearn.preprocessing.LabelEncoder将该列的数据全部转为数值类型。

填补所有的空缺值后，再将训练集中的所有数据 min-max 标准化。由于整个训练集数据只

有 200 多维，计算的时间成本不会太高，为了保留原始数据中的各种特征，我没有选择降

维。

2. 选择模型

一开始我就想使用线性 SVM，所以我使用 sklearn 库中的 LinearSVC 分类算法，但实际

预测结果并不是特别理想，提交后得分只有 0.86323。LinearSVC 的预测输出是 0、1 标签，

下载后可阅读完整内容，剩余8页未读，立即下载

魏水华

粉丝: 18
资源: 282

优化xgboost模型：从SVM到0.977高分

16337341+朱志儒+61

16337341-朱志儒-个人总结报告2

16337341+朱志儒+911

16337341+朱志儒+721

16337341+朱志儒+121

16337341+朱志儒+21

16337341+朱志儒+51

16337341+朱志儒+421

16337341+朱志儒+511

16337341+朱志儒+41

最新资源