知乎信息流推荐系统:机器学习与深度学习的应用

需积分: 0 0 下载量 32 浏览量 更新于2024-08-05 收藏 5.69MB PDF 举报
"该资料主要讲述了知乎首页信息流系统的框架及其在推荐策略中应用的机器学习技术,特别是GBDT和深度学习方法的引入对系统性能的影响。" 在知乎的信息流推荐系统中,机器学习扮演了至关重要的角色。系统经历了从基于关注关系的Timeline,到基于EdgeRank的排序,再到引入GBDT和深度学习模型的演进过程。GBDT(Gradient Boosting Decision Tree)的引入,对于2016年10月的排序系统优化起到了关键作用,而深度学习模型的逐步应用则进一步提升了推荐的精准度。 2017年10月,召回侧开始采用深度神经网络(DNN)模型,2018年2月,基于DNN的CTR(点击率)预估模型被引入,同年7月,通过引入Attention机制或LSTM(长短期记忆网络)来增强模型对用户行为的理解。这些改进显著提高了用户在Feed流中的使用时长和阅读量,用户渗透率达到88%,使用时长占比达到76%。 在深度学习的推荐召回策略上,知乎采用了两种版本的模型: 1. **基于深度学习的推荐召回-v1.0**: - 从用户行为序列中收集数据,包括用户的Profile(历史和实时行为)和Context(如搜索词和阅读历史)。 - 对Feed进行频次过滤,排除低频Feed。 - 用户的Profile和历史行为被表示为128维向量。 - 使用Faiss作为向量量化近似最近邻(ANN)召回的后端,以找到与用户最匹配的Feed。 - 在线使用UserRepresentationNetwork生成UserEmbedding,并更新新产生的Feed和已有内容的Embedding。 2. **基于深度学习的推荐召回-v2.0**: - UserRepresentationNetwork中引入FM Pooling层,学习用户的高频消费行为交叉特征,提高模型的表达能力。 - 通过训练ContentEmbeddingNetwork,直接从原始内容特征中得到Content Embedding,解决了新内容的召回问题。 - 利用“展示未点击的Skip数据”作为特征,指导采样,优化了模型的训练和预测性能。 这些技术的运用表明,知乎不断探索和优化其推荐系统,通过深度学习和GBDT等先进算法,提升用户体验,确保信息流的个性化和相关性,从而增加用户黏性和活跃度。随着技术的发展,可以预见未来推荐系统会更加智能化,更好地满足用户的需求。