HistGradientBoosting：sklearn新秀，速度提升，处理缺失值

需积分: 0 37 浏览量更新于2024-08-03 收藏 182KB PDF 举报

"这篇文档主要介绍了sklearn库中新增的 HistGradientBoosting 模型，这是一个在速度和处理缺失值方面都有显著优势的梯度提升算法。 HistGradientBoosting 分为 HistGradientBoostingClassifier 和 HistGradientBoostingRegressor，其设计灵感来源于 LightGBM。在处理大量样本时，它的速度比传统的 GradientBoosting 方法快几个数量级，并且能够直接处理数据中的缺失值，无需额外的预处理步骤。" 在机器学习领域，梯度提升是一种强大的集成学习方法，通过逐步构建弱预测器并结合它们来创建一个强预测器。Scikit-learn 的新版本引入了 HistGradientBoosting 系列模型，旨在解决大数据集的高效训练以及缺失值处理问题。基于直方图的梯度提升算法（Histogram-based Gradient Boosting）通过在每个特征上构建直方图，加速了决策树的构建过程，特别是在数据量庞大的情况下。 HistGradientBoostingClassifier 和 HistGradientBoostingRegressor 的最大区别在于它们针对不同的问题类型：分类和回归。在使用时，它们的参数设置与传统的 GradientBoosting 方法类似，但有两点需要注意： 1. `max_iter` 参数取代了 `n_estimators`，用于控制提升过程的迭代次数。这意味着用户不再指定树的数量，而是设定迭代次数，直到达到预定的性能或达到最大迭代次数。 2. 支持缺失值输入是 HistGradientBoosting 的一大优点。模型会自动处理缺失值，无需像其他模型那样先用插值或其他方法填充缺失值。在回归问题中，HistGradientBoostingRegressor 提供了多种损失函数选择，如 'squared_error'（均方误差），适合常规回归任务；'absolute_error'（绝对误差），对异常值较为鲁棒；以及 'poisson'（泊松分布），适用于计数或频率预测。对于分类问题， HistGradientBoostingClassifier 主要使用 'log_loss'（对数损失），尤其适用于二元分类问题，因为它可以处理概率预测。在实际应用中，如参加 Kaggle 数据科学竞赛，这些新模型可以提供更快的训练速度，节省计算资源，同时保持良好的预测性能。由于能够处理缺失值，这使得数据预处理流程更加简洁，减少了对数据清洗的时间投入。 HistGradientBoosting 是 Sklearn 针对大规模数据和缺失值处理的一种优化解决方案，它在保证预测效果的同时，提升了模型训练的效率，降低了对数据预处理的要求，对于处理复杂、大规模的数据集具有显著的优势。在进行机器学习项目时，尤其是面对高维度、大样本量和存在缺失值的数据，HistGradientBoosting 值得考虑作为首选的模型之一。

sklearn新增模型HistGradientBoosting：效果更好、

速度更快、支持缺失值输入

https://scikit-

learn.org/stable/modules/ensemble.html#histogram-based-

gradient-boosting

Scikit-learn

0.21引入了两种新的梯度提升树实现，分别是HistGradientBoostingClass

ifier和HistGradientBoostingRegressor，灵感来自于LightGBM。

 速度优势

这些基于直方图的估计器在样本数量超过数万个样本时可以比GradientBoo

stingClassifier和GradientBoostingRegressor快上数个数量级。

 支持缺失值输入

它们还内置了对缺失值的支持，避免了需要使用一个填充器（imputer）的

必要。

使用案例

大多数参数与GradientBoostingClassifier和GradientBoostingRegressor

保持不变。唯一的例外是max_iter参数，它代替了n_estimators，控制了B

oosting过程的迭代次数：

>>> from sklearn.ensemble import HistGradientBoostingClassifier

>>> from sklearn.datasets import make_hastie_10_2

>>> X, y = make_hastie_10_2(random_state=0)

下载后可阅读完整内容，剩余3页未读，立即下载

白话机器学习

粉丝: 1w+
资源: 7673

HistGradientBoosting：sklearn新秀，速度提升，处理缺失值

用sklearn进行数据预处理：缺失值处理、数据标准化、归一化.pdf

sklearn机器学习笔记：数据预处理与特征工程.pdf

sklearn-practice:sklearn学习，持续更新..

sklearn.pdf

Python-sklearn-DataAnalysis:Pyhon数据分析和机器学习，这个仓库里放着本人的陈旧的代码，也包括了一些资料文件，读者自行获取，记得点个star

sklearn_transformers:实现多个sklearn变压器以实现多种应用

sklearn_0.21.3中文手册.pdf

sklearn官方PDF指南：从安装到高级应用

sklearn.impute.SimpleImputer：数据缺失值高效填充策略

sklearn特征工程详解：数据预处理与特征选择

最新资源