粗排技术:发展历程与深度学习应用
版权申诉
5星 · 超过95%的资源 63 浏览量
更新于2024-07-05
收藏 3.95MB PDF 举报
"该文档是关于粗排技术体系与最新进展的报告,由阿里定向广告算法团队的王哲撰写。报告共25页,涵盖了粗排的发展历程、最新技术进展以及未来的总结与展望。"
粗排技术是大规模排序系统中的关键环节,特别是在互联网广告、搜索引擎等领域,用于从海量候选中筛选出小部分高质量的项进行后续处理。在多阶段级联架构中,粗排通常需要在10-20毫秒的时间限制内,从百万级别的召回集筛选出一万级别的候选集,以满足后链路的需求,如点击率、转化率等。
粗排技术主要分为两大技术路线:集合选择技术和精准值预估技术。集合选择技术关注于构建满足特定需求的候选集合,而非单个最佳项,这通常依赖于对后链路的深入学习,但可控性相对较弱。常见的方法包括多通道、Listwise(如LambdaMART)、序列生成算法、集合评估器和集合生成器。而精准值预估技术则直接对最终系统目标进行精确预测,具有更强的可控性,但计算成本较高,代表技术有Pointwise等。
在2016年以前,粗排技术主要采用传统机器学习模型,如逻辑回归(Logistic Regression),基于广告的历史平均点击率(CTR)来计算质量分,这种方式虽然实时性强,但表达能力有限。随着深度学习的发展,2016年后出现了双塔结构的向量内积模型,用户特征和广告特征通过深度神经网络(DNN)转换为向量,然后计算内积,这种模型能引入更复杂的用户行为序列建模,如Transformer,并且由于向量计算的高效性,能在保持低延迟的同时提升模型复杂度。
双塔模型的出现标志着粗排进入深度学习时代,它优化了计算效率,使得在满足实时性的前提下,可以使用更复杂的模型进行预估。然而,这也带来了新的挑战,如何在有限的计算资源下设计更高效的模型,同时减少选择偏差问题,是粗排技术未来研究的重要方向。
总结与展望部分可能涉及对现有技术的评估,对未来发展趋势的预测,以及可能出现的新技术或优化策略。这可能包括探索更高效的模型架构、集成学习方法、在线学习和离线优化的平衡,以及如何更好地利用大规模数据进行模型训练等。随着技术的不断进步,粗排技术将更加精细化,以适应不断增长的数据规模和更复杂的服务场景。
行业报告
- 粉丝: 4
- 资源: 6218
最新资源
- WebMiniProject
- ns-react-18next:[未维护]命名空间中的i18next本地化ReactSwift
- TemplateVue-bootstrap3-sass:模板
- 一组医疗图标 .xd .sketch .svg .fig素材下载
- Rad Studio XE 10.4 Patch 补丁合集 截止2020.7.29
- 基于HTML实现的仿智慧园区触屏版html5手机门户网站模板下载(css+html+js+图样).zip
- rhythmless.github.io:我的互联网片段
- BalanceCar调试版,计算机博弈大赛c语言源码,c语言
- qblueRed42.github.io
- torchdrift-redisai:RedisAI中的TorchDrift
- rnp-find:用于探索RNA与蛋白质相互作用的生物信息学工具
- ant-apache-bcel-1.9.3.zip
- C1220G1_NguyenDucHau
- flutter-localized-locales:Flutter插件,它提供语言环境代码到563个语言环境的名称映射
- html推箱子.zip
- 基于PCB的最新PCB及相关材料IEC标准信息 国际电工委员会.zip