"该文档详细介绍了汽车之家推荐系统的排序算法迭代过程,涵盖了从基础的排序逻辑到高级的深度学习模型的应用。文档由汽车之家的李晨旭分享,内容包括用户模型、资源池、召回与排序策略、不同阶段的模型以及特征工程等关键环节。在模型迭代过程中,涉及到LR、XGBoost、FM以及DeepFM等多种机器学习和深度学习模型,通过不断优化,实现了CTR(点击率)的显著提升,并关注了在线学习、实时特征处理以及模型更新策略。文档还提到了样本不均衡问题的解决方法和工程实践中的挑战,如模型服务的更新与稳定性,以及如何利用Flink进行流式计算。"
正文:
汽车之家的推荐系统是基于一系列复杂的算法和策略来实现的。首先,系统通过召回策略从海量资源中筛选出可能对用户有价值的百万级甚至上千万级别的商品,这通常涉及倒排索引和向量技术。然后,这些资源会经过排序算法,根据用户画像、特征及运营标签进行精细化打分,以决定最终的展示顺序。
在模型层面,文档中提到了一系列的迭代模型。初期,可能采用了逻辑回归(LR)作为基础模型,随后升级到XGBoost,这些传统机器学习模型能够处理离线特征。随着技术的发展,汽车之家引入了因子分解机(FM)和DeepFM,它们能够捕捉特征间的二阶和高阶交互,DeepFM还支持在线学习,允许模型快速适应用户实时行为。这些深度学习模型显著提升了CTR,例如,DeepFM相对于XGBoost,CTR提升了约6%。
特征工程是整个推荐系统的核心部分。系统不仅利用离线特征,还结合实时特征,进行特征二阶组合和高阶组合的探索,以提高模型的表达能力。为了应对大规模样本和实时性需求,文档中提到了30天的小批量在线学习策略,使得模型能分钟级地更新。此外,为了解决样本不均衡问题,采用了负样本下采样和等频分桶等技术,以增强模型的稳定性和抗过拟合能力。
在模型服务和工程实现方面,汽车之家关注模型预测服务的响应时间,如首次上线时的20ms平响时间,并通过GPU部署进一步优化至45ms。同时,文档中提到了模型更新策略的自动化与人工检查的结合,以确保模型的时效性和质量。最后,通过引入Flink这样的流处理框架,实现了对用户行为序列的实时分析,以及用户画像特征的动态构建。
汽车之家推荐系统的迭代之路展示了从传统机器学习到深度学习的演进,以及如何通过特征工程、在线学习和优化策略来不断提升推荐的准确性和用户体验。这个过程体现了推荐系统设计的复杂性和对实时性、效率及模型性能的持续追求。