知乎搜索排序模型演进:从UnbiasLTR到SessionAware
版权申诉
118 浏览量
更新于2024-07-05
收藏 3.94MB PDF 举报
"这篇文档是关于知乎搜索排序模型的探索实践,由知乎搜索算法团队的王瑞欣在2020年11月分享。文档介绍了知乎搜索的发展历程,包括从传统的GBDT到深度神经网络(DNN)的迁移,以及一系列先进的排序模型和技术的应用,如UnbiasLTR、ContextAware、End2End、SessionAware等。同时,文档讨论了多目标排序的重要性,以及在实际应用中如何优化模型以提升用户体验和各种关键指标,如点击率、阅读时长、用户留存等。"
知乎搜索排序模型的发展始于2017年,随着技术的不断迭代,从2018年的深度语义相关性,到2019年引入BERT和语义向量索引,再到同年将GBDT升级为DNN,知乎搜索一直在寻求更先进的方法来提升搜索效果。2019年10月,引入了UnbiasedLTR,旨在减少排序中的偏差;2019年11月,采用MultiTaskLTR进行多任务学习,以处理不同目标之间的关系;2020年之后,又进一步发展了SERank、Answer Static Score DNN模型、LTREnd2End、LTRMMoE以及LTRSessionAware等,逐步提高了用户的使用体验。
搜索架构的变化是从GBDT迁移到DNN,这主要归因于两个原因:一是数据量的增加使得更高复杂度的模型成为可能;二是为了应用最新的研究进展,如多目标排序。这一迁移带来了明显的收益,包括点击率、点展比和人均时长的显著提升。
排序模型是基于TensorFlow的Ranking库开发的,使用Ranking loss和metrics,并通过Estimator API实现。多目标排序是其中的关键,其目的是综合预估多个指标,如点击率、阅读时长、点赞、收藏、关注、分享和评论,以提升用户满意度。初始版本采用了hard sharing的SharedBottom结构,随后发展为MMOE(多门混合专家)结构,以更好地处理不同任务间的关联性。这种优化带来了人均阅读时长和次日留存率的提升,并且在在线预测时,模型会根据不同的任务计算相应的Loss。
知乎搜索排序模型的探索实践是围绕提升用户搜索体验展开的,通过不断的技术创新和模型优化,实现了对多种用户行为的精准预测,从而提高了整体的搜索质量和用户黏性。
2021-06-03 上传
2021-03-08 上传
2020-02-12 上传
2023-05-18 上传
2021-12-15 上传
2021-09-11 上传
2021-08-08 上传
2022-03-04 上传
2022-03-04 上传
普通网友
- 粉丝: 13w+
- 资源: 9195
最新资源
- 教程 Madaline Rule II - 神经网络的训练算法:关于 Madaline Rule II 算法的西班牙语教程。 仅用于学术和教育用途。-matlab开发
- 通讯录列表
- ACCESS酒店房间预约系统ASP毕业设计(源代码+论文).zip
- anbible
- learnr-lubridate:R软件包,其中包含专门用于学习lubridate日期管理软件包基础的学习者教程
- discord-clone:using使用React + Redux + Firebase的简单Discord克隆
- Accuinsight-1.0.19-py2.py3-none-any.whl.zip
- yschools
- sopia-bot.github.io
- 用于在移动机器人中实现基于地图的定位的光线投射:该代码是用于获得模拟距离测量的光线投射的有效实现。-matlab开发
- 基于PHP的最新仿小刀娱乐网模板PHP版(带7色皮肤)源码.zip
- site:KSZLAGK网站
- 行业分类-设备装置-基于智慧校园环境下的简易多媒体教室控制系统.zip
- PegGame:JS中的CS300钉游戏
- Icons-Theme-OpenCore:Itens de Boot Personalizados que fiz pro Opencore
- Лайфхакер-crx插件