京东搜索推荐:Alink与Tensorflow on Flink的实战应用与架构解析

版权申诉
0 下载量 163 浏览量 更新于2024-07-04 收藏 638.46MB PDF 举报
本文档深入探讨了Alink和Tensorflow on Flink在京东的广泛应用,特别是在京东搜索推荐业务中的角色。两位作者,张颖和刘露,作为京东的算法工程师,分享了他们在实际项目中的实践经验。 首先,京东搜索推荐场景涵盖了多个关键业务模块,如“猜你喜欢”、“秒杀推荐”、“直播推荐”、“新品推荐”等,这些都依赖于深度学习技术来提升个性化推荐的精准度。其中,Alink作为一种灵活的开源库,被用于实现在线学习,它支持实时用户画像、风控、排序、召回等任务,因其能够处理高并发和低延迟的要求而受到青睐。 Tensorflow on Flink的应用主要体现在模型服务架构的设计上,包括Merger、Main Searcher、Extend Searcher等组件,它们协同工作以提供高效、准确的搜索结果。此外,还提到了一种名为“ModelHub”的模型管理平台,以及对PyTorch和TensorFlow的兼容,这使得京东能够利用多样化的深度学习框架进行模型开发。 京东搜索推荐模型采用了两种形态:小模型分布式训练适合快速迭代,而大规模分布式训练则通过Horovod+allreduce通讯加速方案来提高性能。特别地,京东自主研发了PS(Parameter Server)系统,实现了User/Item Embedding的存储和优化,如Adam/GradientDescent优化器,以及自定义customop以加速计算过程。 文章强调了Alink的在线/离线统一架构,使得模型能够在离线环境中进行训练,在线实时预测,同时具备多scope和多版本的管理能力。数据并行策略是基于Flink的数据处理能力,通过不同并行方式有效利用计算资源。训练与预估的整合进一步提升了效率。 此外,文档还提到了GPU和CPU predictor,以及与底层数据服务的接口,如ItemDetail、UserDetail、UserFeedback等,以及搜索服务相关的索引、样本生成、特征提取等环节。最后,模型评估与KPI分析也是京东推荐系统的重要组成部分,如基于Alink构建的控制流程。 这篇论文详细展示了京东如何结合Alink和Tensorflow on Flink的优势,优化搜索推荐业务,实现了高效、个性化的用户体验,同时也反映了京东在人工智能和深度学习领域的技术创新和实践。