粗排技术：发展历程与深度学习应用

版权申诉

5星 · 超过95%的资源 63 浏览量更新于2024-07-05 收藏 3.95MB PDF 举报

"该文档是关于粗排技术体系与最新进展的报告，由阿里定向广告算法团队的王哲撰写。报告共25页，涵盖了粗排的发展历程、最新技术进展以及未来的总结与展望。" 粗排技术是大规模排序系统中的关键环节，特别是在互联网广告、搜索引擎等领域，用于从海量候选中筛选出小部分高质量的项进行后续处理。在多阶段级联架构中，粗排通常需要在10-20毫秒的时间限制内，从百万级别的召回集筛选出一万级别的候选集，以满足后链路的需求，如点击率、转化率等。粗排技术主要分为两大技术路线：集合选择技术和精准值预估技术。集合选择技术关注于构建满足特定需求的候选集合，而非单个最佳项，这通常依赖于对后链路的深入学习，但可控性相对较弱。常见的方法包括多通道、Listwise（如LambdaMART）、序列生成算法、集合评估器和集合生成器。而精准值预估技术则直接对最终系统目标进行精确预测，具有更强的可控性，但计算成本较高，代表技术有Pointwise等。在2016年以前，粗排技术主要采用传统机器学习模型，如逻辑回归（Logistic Regression），基于广告的历史平均点击率（CTR）来计算质量分，这种方式虽然实时性强，但表达能力有限。随着深度学习的发展，2016年后出现了双塔结构的向量内积模型，用户特征和广告特征通过深度神经网络（DNN）转换为向量，然后计算内积，这种模型能引入更复杂的用户行为序列建模，如Transformer，并且由于向量计算的高效性，能在保持低延迟的同时提升模型复杂度。双塔模型的出现标志着粗排进入深度学习时代，它优化了计算效率，使得在满足实时性的前提下，可以使用更复杂的模型进行预估。然而，这也带来了新的挑战，如何在有限的计算资源下设计更高效的模型，同时减少选择偏差问题，是粗排技术未来研究的重要方向。总结与展望部分可能涉及对现有技术的评估，对未来发展趋势的预测，以及可能出现的新技术或优化策略。这可能包括探索更高效的模型架构、集成学习方法、在线学习和离线优化的平衡，以及如何更好地利用大规模数据进行模型训练等。随着技术的不断进步，粗排技术将更加精细化，以适应不断增长的数据规模和更复杂的服务场景。

粗排的两大技术路线

集合选择技术精准值预估技术

ü 以集合为建模目标，选出满足后链路

需求的集合

ü 依赖对后链路的学习，可控性较弱

ü 算力消耗一般较小

ü 代表技术：

• 多通道

• Listwise，如LambdaMART

• 序列生成算法

• 集合评估器

• 集合生成器

ü 以值为建模目标，直接对最终系统

目标进行精确值预估

ü 可控性更强

ü 算力消耗一般较大

ü 代表技术：

• Pointwise

剩余24页未读，继续阅读

行业报告

粉丝: 4
资源: 6218

粗排技术：发展历程与深度学习应用

最新资源