稀疏特征Embedding优化：推荐系统与CTR预估的新探索

需积分: 0 93 浏览量更新于2024-08-03 收藏 374KB PDF 举报

"这篇文档是2023年3月1日由张俊林撰写的，探讨了在推荐系统和点击率预估任务中优化稀疏特征 Embedding 表示方法的重要性和最新进展。文章主要介绍了两个相关研究，分别来自阿里妈妈在DLP-KDD2019和2020的论文，旨在解决如何在大规模稀疏环境下构建有效的特征Embedding，并特别关注用户行为序列中的ItemEmbedding表示。" 在推荐系统和人工智能领域，尤其是Kaggle竞赛中，处理稀疏特征是一项核心挑战。这些特征通常是由于引入了大量的ID类特征，如用户ID、商品ID等，导致在大量的训练数据中出现频率极低。深度学习网络（DNN）在排序系统中的应用中，找到合适的特征Embedding表示对于提升系统性能至关重要。传统的处理方式是将稀疏特征Onehot编码转化为稠密的Embedding向量，但这种方法可能无法充分利用特征的信息。近年来，研究人员开始探索更有效的方法。其中，阿里妈妈在DLP-KDD2019的论文提出了一种新的观点，即在大规模稀疏条件下，特征Embedding的表示方式对模型的泛化性能有着显著影响。第一篇论文关注的是用户行为序列中的ItemEmbedding。在推荐系统中，用户的购买历史或浏览行为序列可以被看作是其兴趣的反映。由于物品数量庞大且多数物品稀疏，如何设计有效的ItemEmbedding以捕捉用户兴趣的相似性成为一个关键问题。Res-embedding方法提出，CTR模型的泛化误差与Item在Embedding空间的分布直接相关，它主张相近兴趣的Item在Embedding空间应保持相近，以此增强模型对用户行为的理解和预测。另一篇论文则可能是DLP-KDD2020研讨会中的成果，它可能探讨了非行为序列推荐模型中特征Embedding的优化策略。传统上，人们通常通过实验来确定最佳的EmbeddingSize作为超参数，但这种方法既耗时又可能错过最优解。该论文可能提出了新的方法，以自动化或更智能的方式寻找合适的Embedding大小，从而提高模型的效率和准确性。这两篇论文都致力于解决推荐系统中稀疏特征Embedding表示的难题，通过对用户行为序列中的ItemEmbedding进行深入研究，以及寻求更高效的非行为序列特征Embedding方法，它们为推荐系统和点击率预估模型的优化提供了新的思路和实践方向。这些研究成果不仅有助于提升模型的预测性能，也有助于在实际的大规模推荐系统中实现更有效的资源利用和更高的推荐质量。

推荐系统中稀疏特征Embedding的优化表示方法

张俊林

2023-03-01原文

↑↑↑关注后"星标"Kaggle竞赛宝典

kaggle竞赛宝典

作者：张俊林

推荐或者 CTR

预估任务有一个很突出的特点：存在海量稀疏特征。海量意味着数量巨大，稀

疏意味着即使在很大的训练数据里，大量特征出现频次也非常低，这往往是由

于引入了大量 ID 类特征带来的。对于 DNN

排序系统，是否能够找到好的特征 Embedding

表达方式，对于系统效果是至关重要的。

虽然说，如何更好地表征稀疏特征对于模型的泛化能力至关重要，但是，关于

这块的研究，除了经典的特征 Onehot 到稠密 Embedding

映射模式外，之前并未太受到重视，最近开始逐步涌现出一些相关工作。对于

序列行为中的 Item Embedding ，拥有怎样性质的 Embedding

表达方式是较好的？对于非行为序列的推荐模型，关于特征

Embedding ，大家常规采用的做法是：将特征的 Embedding Size

作为超参，通过手工测试来寻找好的 Embedding

大小。然而，是否有更好的方式？这些都是悬而未决的问题。

本文将介绍两个与稀疏特征 Embedding

相关的工作，一篇来自于阿里妈妈发表在 DLP-KDD2019

的论文，回答了第一个问题 DLP-KDD2020

研讨会集中探讨大规模稀疏条件下可落地的推荐广告等技术方案

用户行为序列中的 Item Embedding

下载后可阅读完整内容，剩余5页未读，立即下载

白话机器学习

粉丝: 1w+
资源: 7671

稀疏特征Embedding优化：推荐系统与CTR预估的新探索

优化形式下的稀疏表示分类器的人脸识别.pdf

千亿级在线学习框架的工程实践 - 2023大规模稀疏训推框架工程实践.pdf

行业分类-物理装置-一种图深度学习中高维稀疏特征的处理方法和系统.zip

6-4+稀疏模型训练引擎-DeepRec.pdf

5-3 搜索场景下的智能实体推荐.pdf

3-3+多目标排序在58二手房推荐系统中的实践.pdf

智能推荐系统研究综述.pdf

深度学习视域下的文本表示方法研究.pdf

基于鉴别稀疏保持嵌入的人脸识别算法.pdf

1-4 基于向量的召回算法及其在个性化广告新闻中的应用实践-刘政.pdf

最新资源