广告平台CTR预估模型演进：从LR到深度学习

需积分: 0 47 浏览量更新于2024-08-05 收藏 1.13MB PDF 举报

CTR预估模型的进化历程是一个广告平台优化收益的关键环节，尤其在CPC广告系统中，准确预测用户点击率(CTR)至关重要。这篇文章主要探讨了CTR预估模型的发展脉络，从最早的逻辑回归（LR）作为基础模型，到后续的更复杂和适应不同场景的模型。 1. **背景**：广告平台的目标是最大化收益，通过CPC（每次点击成本）定价来实现。CTR（点击率）预测是排序的重要依据，因为它影响了广告的展示和价格决策。CTR预估模型需要平衡用户体验和收入，通过调节因子来控制广告展现策略。 2. **LR与离散特征（广点通精排）**：逻辑回归作为CTR预估的初始模型，它处理大量离散特征的能力强，适合处理广告的高维度数据。LR通过Logistic函数将线性模型的输出映射到0-1之间，便于理解和解释。正则化，如L1和L2，有助于防止过拟合，L1常导致模型稀疏，而L2则提供模型稳定性。 3. **GBDT和连续特征（Yahoo&Bing）**： GBDT（梯度提升决策树）在处理少量低纬度连续特征时表现出色，尤其在Yahoo&Bing等场景。相比于LR，GBDT能够捕捉非线性关系，提高预测精度。 4. **Facebook的GBDT+LR**： Facebook在模型融合上进行了创新，结合了GBDT和LR的优点，利用GBDT处理复杂结构，LR处理离散特征，从而提升整体性能。 5. **FM+DNN（百度凤巢）**： FM（Factorization Machines）与深度神经网络(DNN)的结合，如百度凤巢使用的模型，DNN提供了强大的表达能力，FM则引入了因子分解来捕捉特征间的交互效应。 6. **MLR（阿里妈妈）**： MLR（混合线性模型）可能是阿里巴巴妈妈采用的一种模型，它可能在LR的基础上进行了扩展或改进，以适应阿里巴巴特定的业务需求。 7. **FTRL-Proximal（Google）**： Google的FTRL-Proximal算法是在线学习的一种，适合实时环境，通过频繁更新参数来适应变化的环境。文章作者对这些模型进行了对比分析，旨在帮助读者了解不同模型在实际应用中的优势和局限，以便根据自身业务特点选择合适的CTR预估模型。随着技术的发展，CTR预估模型将继续演进，集成更多先进的机器学习技术以应对日益复杂的广告市场。

如上图：最优解出现在损失函数的等值线和约束函数 L1 相切的地方，即凸点，而菱形的凸点往往出现在坐标轴上

（系数 w1 或 w2 为 0），最终产生了稀疏性。



正

则

通过构造一个所有参数都比较小的模型，

防

止

过

拟

合

。但 L2 正则不具有稀疏性，原因如下图，约束函数 L2

在二维平面下为一个圆，与等值线相切在坐标轴的可能性就小了很多。



2.2

离

散

化



LR 处理离散特征可以得心应手，但处理连续特征的时候需要进行离散化。通常连续特征会包含：大量的反馈 CTR 特

征、表示语义相似的值特征、年龄价格等属性特征。

以年龄为例，可以用

业

务

知

识

分

桶

：用小学、初中、高中、大学、工作的平均年龄区间做分桶；也可以通过

统

计

量

分

桶

，使各个分桶内的数据均匀分布。

剩余11页未读，继续阅读

IYA1738

粉丝: 577
资源: 270

广告平台CTR预估模型演进：从LR到深度学习

CTR预估模型讲义pdf

CTR预估模型：神经网络模型讲义pdf

从FM推演各深度CTR预估模型(附代码)1

CTR预估模型的开源项目

python实现ctrv模型

kaggle比赛criiteo经典CTR预估数据集(小型）

可以获取到的转化样本比较少的场景下，cvr预估业界常用的模型是什么？

Ctr 为什么用交叉熵损失函数

如何衡量 ctr 模型的特征重要性

deepctr中DIN模型参数use_negsampling=True

最新资源