Facebook GBDT+LR CTR预测模型解析

需积分: 0 102 浏览量更新于2024-08-05 收藏 488KB PDF 举报

"这篇阅读笔记主要探讨了Facebook在2014年发表的关于使用GBDT（Gradient Boosting Decision Tree）和LR（Logistic Regression）组合预测点击率（CTR）的经典论文。文中提到，GBDT用于创建新的特征，增强LR模型的理解能力，而LR则因其在线学习的能力，适应Facebook大规模数据的实时预测需求。模型结构是先通过GBDT生成特征，再用这些特征训练LR，以预测CTR。" 在CTR（点击率）预测领域，GBDT+LR的结合提供了一种有效的方法来提升预测性能。GBDT是一种监督学习算法，特别适用于处理非线性和高交互效应的特征。它通过构建一系列弱决策树并逐步优化误差来工作。在论文中，GBDT被用来挖掘特征之间的复杂关系，生成新的虚拟特征，这些特征可能在LR的线性组合中无法捕捉到。这样，GBDT为LR提供了更丰富的特征空间，帮助LR模型更好地理解和建模数据。 LR模型简单且易于解释，常用于分类问题，尤其是二分类问题，如CTR预测。它的优点在于可以快速在线更新权重，适应快速变化的数据流。在Facebook的场景下，由于每天产生大量新数据，GBDT无法频繁训练以保持实时性，而LR可以使用随机梯度下降等在线学习方法，持续适应新数据，从而实现实时的CTR预测。论文中的模型结构清晰地展示了这一过程：GBDT首先对每个样本进行分类，生成新的特征向量。例如，一个样本可能在第一棵树中分到第二个叶节点，在第二棵树中分到第一个叶节点，这些位置信息就构成了新的特征。然后，LR模型会对这些由GBDT构造出的特征进行加权求和，输出CTR的预测值。总结来说，GBDT+LR模型的优势在于结合了GBDT对特征间复杂关系的捕捉能力和LR的高效在线学习特性，以适应大规模实时预测的需求。这种组合方法在实际应用中已被证明能够提高CTR预测的准确性和效率，是广告推荐系统等领域的重要技术。

GBDT+LR预测CTR经典论文阅读笔记

本文要介绍的CTR预估方法来自Facebook发表于2014年的一篇文章（Practical Lessons from

Predicting Clicks on Ads at Facebook）。这篇文章通过GBDT+LR的组合方式，相比于其中任意单一方

法，带来了CTR预估性能的提升。有关LR、GBDT的介绍可以参考之前的文章（逻辑回归简介及实现、

梯度提升树（GBDT）简介）。其实有关这篇经典论文的专业解读已经很多了，我作为小白把自己的阅

读笔记整理在这里只是为了加深理解，如果有写的不对的地方，还请大家指出，不胜感谢！

论文立意

这篇文章采用了GBDT+LR的组合结构，需要说明的是这两部分模型是分开训练的，也就是先训练好

GBDT为每个数据构造新的特征，然后根据新特征来训练LR的。

首先关于使用GBDT这部分，给我的感觉来说，是为了添加一部分LR考虑不到的特征，因为如果单纯使

用LR模型，只会考虑到每个特征本身对结果的影响，也就是所有特征的线性加权组合，但是如果使用

GBDT构造出一部分特征的规则，就会使得LR考虑到特征之间的关系，虽然论文内容里给出的是单纯使

用GBDT构造的特征来进行学习，但我们同样的可以利用数据的原有特征再加上GBDT特征共同预测

CTR。

其次关于LR这部分，因为Facebook每天会产生特别多的新数据，GBDT是无法快速进行online learning

的，因为数据量大，每次训练GBDT可能要花费几天的时间，但是LR是可以通过学习新数据来调整权重

的，比如采用随机梯度下降的方法学习新的样本。所以GBDT可以采用每隔几天训练一次，但是LR采用

实时更新的方式来预测CTR。

模型结构

这篇文章最大的改进点在于利用GBDT方法为每个样本构造了一系列特征，之后利用LR方法对特征加权

求和，进而预估CTR。其模型结构如下图所示：

下载后可阅读完整内容，剩余3页未读，立即下载

FelaniaLiu

粉丝: 33
资源: 332

Facebook GBDT+LR CTR预测模型解析

基于Spark streaming+Kafka+Redis/HBase的GBDT+LR推荐排序模型

广告点击率(CTR)预测经典模型 GBDT + LR 理解与实践（附数据 + 代码）.zip

基于GBDT+LR预测动态高危路段python源码含详细项目说明.zip

gbdt+lr广告点击率ctr

广告点击率(CTR)预测经典模型 GBDT + LR 理解与实践（python源码+项目说明）.zip

GBDT+LR-Demo.zip

基于Spark streaming+Kafka+RedisHBase的GBDT+LR推荐排序模型.zip

基于Spark streaming+Kafka+RedisHBase的GBDT+LR推荐排序模型文档+源码+优秀项目+全部资料.zip

GBDT+LR广告点击率预测模型实践教程

使用GBDT+LR模型进行广告点击率预测实践教程

最新资源