基于变分嵌入学习框架的CTR预测冷启动问题研究

110 浏览量更新于2023-11-29 收藏 1MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

27基于变分嵌入学习框架的CTR预测冷启动问题研究Xiaoxiao Xu，Chen Yang，Qian Yu，Zhiwei Fang，JiaxingWang，Chaosheng Fan，Yang He，Changping Peng，ZhangangLin，Jingping ShaoBusiness Growth BU，JD.com中国{xuxiaoxiao1,yangchen198,yuqian81,fangzhiwei2,wangjiaxing41}@jd.com{fanchaosheng1,landy,pengchangping,linzhangang,shaojingping}@jd.com摘要针对CTR预测中的严重冷启动问题，提出了一种通用的变分嵌入学习框架（VELF）。VELF通过两种方式缓解由数据稀疏性引起的过拟合来解决冷启动问题：学习概率嵌入，以及合并可训练和正则化的先验，其利用冷启动用户和广告（Ad）的丰富的边信息。这两种技术自然地集成到变分推理框架中，形成端到端的训练过程。在基准数据集上的大量实证测试充分证明了我们提出的VELF的优势。此外，扩展的实验证实，我们的参数化和正则化的先验提供了更多的泛化能力比传统的固定先验。CCS概念• ·推荐系统;关键词CTR预测，冷启动，嵌入学习，变分推理ACM参考格式：Xiaoxiao Xu，Chen Yang，Qian Yu，Zhiwei Fang，Jiaxing Wang，，Chaosheng Fan ， Yang He ， Changping Peng ， Zhangang Lin ，Jingping Shao.2022年用变分嵌入学习框架解决CTR预测中的冷启动问题在ACM Web Conference 2022（WWW'22）的会议记录中，2022年4月25日至29日，虚拟活动，法国里昂。 ACM， New York ， NY ， USA ， 9 页。https://doi.org/10.1145/3485447.35120481引言尽管近几十年来深度学习取得了令人印象深刻的发展，但冷启动问题仍然成为许多任务中的通常情况下，数据稀缺是冷启动问题的主要原因，通过细化模型结构的帮助是有限的。如图1所示，严重的冷启动问题1https://tianchi.aliyun.com/dataset/dataDetail? dataId=56允许免费制作本作品的全部或部分的数字或硬拷贝，以供个人或课堂使用，前提是制作或分发副本的目的不是为了盈利或商业利益，并且副本的第一页上有本声明和完整的引用。版权的组成部分，这项工作所拥有的其他人比ACM必须尊重。允许使用学分进行摘要以其他方式复制、重新发布、在服务器上发布或重新分发到列表，需要事先获得特定许可和/或付费。请求权限请发邮件至permissions@acm.org。WWW©2022计算机协会ACM ISBN 978-1-4503-9096-5/22/04。. . 十五块https://doi.org/10.1145/3485447.3512048(a)（b）第（1）款(c)（d）其他事项图1：统计数据来自淘宝展示广告点击1数据集：显示了（a）广告和（c）用户的严重长尾分布，并且在每日更新中有超过（b）12%的新广告和（d）16.9%的新用户网络广告中的“长尾效应”通常是由两个问题引起的：1）激烈的长尾现象，这是一个广泛认可的事实; 2）显著的实时新用户和广告更新。作为深度神经网络在在线广告中最成功的应用，点击率（CTR）预测任务也受到冷启动问题的困扰。最先进的深度CTR模型大多采用嵌入&网络范式，如图2所示，其中嵌入模块作为代表性映射器[6，8，17]。嵌入模块将每个不同的特征值映射到一个低维稠密嵌入向量，其中离散特征覆盖所有的分类特征和离散化的数值特征。深度CTR模型中可训练参数的数量主要集中在Embedding模块中，Embedding模块决定了后续特征交互模块和MLP模块的输入分布。训练一个好的嵌入模块需要相当多的数据，这使得在推荐系统中为用户和广告提供合理的嵌入是一项具有挑战性的任务，只有很少或没有支持样本[20]。因此，提高嵌入模块的泛化能力和鲁棒性对于缓解CTR预测中严重的冷启动问题至关重要。28WWW为冷启动用户和广告获得合理的嵌入是一项具有挑战性的任务，并且一直是一个活跃的研究领域[4，12，18现有的工作主要集中在两个方面各种方法，即，基于内容的方法[18，22，24元学习涉及方法[4，12，19，20，33]。基于内容的方法引入了更丰富的用户或广告属性，以获得更鲁棒的用户或广告嵌入。元学习通过精心设计的训练过程和样本划分，将其他用户或广告的知识转移到冷启动的用户或广告。基于内容和元学习的方法都被证实是有效的。然而，这些方法都是基于点估计，即，尝试在嵌入空间中为每个用户和Ad定位可靠的单个点。先前的研究表明，由于训练样本稀缺，点估计具有导致冷启动用户和Ad的孤立和不可靠嵌入的巨大风险[30]。此外，用于嵌入点估计的模型易于过拟合，除非为参数调整配备精心设计的正则化[23]。为了更好地利用有限的数据，以获得更可靠的嵌入冷启动用户和广告，并避免过拟合，我们提出了一个通用的变分嵌入学习框架（VELF）。VELF将嵌入学习看作分布估计而不是点估计. 通过建立基于贝叶斯推理的概率嵌入框架，可以共享用户和广告之间的统计强度，特别是冷启动广告。贝叶斯方法已被证实在数据稀缺性方面更稳健[15]，更具可解释性。通过变分推理（VI），可以避免计算的困难性的分布估计为了更好地在用户和广告之间共享全局和统计强度，我们提出用神经网络和用户和广告的属性作为输入来参数化先验。为了进一步避免过拟合，提出了一种将参数化先验与固定标准正态先验相结合的正则化和参数化先验框架。 VI将分布估计作为优化问题来解决，因此概率嵌入框架和随后的区分CTR预测网络的参数以端到端的方式联合学习。在本文中，我们专注于显示广告场景中的点击率预测这里讨论的方法可以应用于遭受冷启动问题的类似场景，诸如个性化推荐、赞助搜索等。本文的主要贡献是：我们提出了一个通用的变分嵌入学习框架（VELF），它具有可解释的概率嵌入生成过程，以减轻CTR预测中的冷启动问题。嵌入分布和判别CTR预测网络参数是端到端学习的。新的参数化和正则化先验自然利用设计了丰富的边信息以进一步提高模型的泛化能力。在三个基准数据集。结果验证了我们提出的VELF的有效性和提出的参数化和正则化先验的优越性。图2：CTR预测的传统嵌入网络范例结构的说明。2相关工作本节将从冷启动推荐和推荐中的变分推理两个方面介绍相关的工作冷启动建议：冷启动问题通常是由两个问题引起的：长尾现象普遍存在以及新用户和广告的不断更新由于数据的限制，为冷启动用户和广告提供建议是具有挑战性的。在本文中，我们专注于冷启动问题缓解CTR预测任务嵌入优化。为了通过提高嵌入泛化能力来缓解CTR预测中的冷启动问题，基于内容的方法和涉及元学习的方法与我们的工作属于同一领域。基于内容的方法引入了冷启动ID的辅助信息，即，使用用户和项目属性[18，22，24DropoutNet[28]是基于内容的方法的代表与不使用这些丰富功能的经典方法相比，它们可以提高冷启动性能。然而，它们并不直接改善用户ID和广告ID元学习的目的是在相似的学习任务中学习一般的知识，以便基于少量的示例快速适应新的任务。元学习方法已经被广泛提出用于冷启动推荐，例如，学习元学习器以更好地初始化CTR预测模型[4，20]，利用元嵌入[12，33]，其中MWUF [33]是最先进的。这些方法已被验证是有效的，但它们需要仔细调整精心设计的培训程序。最重要的是，基于内容的方法和涉及元学习的方法都是基于点估计的，这仍然具有导致冷启动用户和Ad的孤立和不可靠嵌入的巨大风险[30]。此外，嵌入点估计的模型容易过拟合[23]。推荐中的变分推理：变分推理（VI）已经被应用于推荐中，但与自动编码器耦合，即，可变自动编码器（VAE）[10]。在推荐中，VAE专注于协同过滤，并试图对用户和项目表示的不确定性进行建模，然后共同重建和预测用户偏好[1，9，15，27]。与这些方法不同的是，我们将VI应用于判别模型，即， CTR预测任务，缓解冷启动问题。在我们的工作中，我们选择VI技术···29L（）∈（一）|）的方式（）（）联系我们（）∈DD（）下一页（）下一页（一）|）（一）|）的方式（一）|）（）/（）（·）（一）|）（·）用变分方法解决CTR预测中的冷启动问题嵌入式学习框架WWW函数θ，θ与基于梯度的优化方法。在传统的点估计CTR预测模型中，目标函数等于负对数似然l（θ，θ）：L（θ，θ）=l（θ，θ）−ylogy（四）表1：重要符号。避免了贝叶斯推理在用户分布估计和项目嵌入中的计算困难问题3方法在3.1节中，我们首先回顾CTR预测的背景，变分推理的基本原理和点估计的冷启动问题然后，我们在第二节中描述了我们提出的变分嵌入学习框架中的分布估计3.2. 我们在3.3节的训练和3.4节的预测中进一步深入研究了实现的细节表1中总结了注释。3.1预赛3.1.1CTR预测问题公式化。点击率预测是在给定用户、候选广告和展示场景中的上下文的情况下，推断点击事件的概率。CTR预测模型主要被公式化为监督逻辑回归任务，并用i.i.d.从历史印象中收集的数据集每个实例x，y包含暗示用户、Ad、上下文的信息的特征x，以及从用户隐式反馈观察到的标签y 0，1。令u表示用户ID索引，i表示Ad ID索引，c u和c i表示课程特征，即，u和i的属性，实例特征x可以表示为：x=[u ， c （ u ）， i ， c （ i ）， context]（1）其中context包含诸如位置、时间等的场景信息。随着神经网络研究和应用的不断深入，目前的CTR预测模型大多采用嵌入式多层感知器（MLP）模型。具体地，在每个实例中，x N m是特征ID索引的向量，并且m表示所选择的特征的总数。因为所选的特征是ID索引，所以必须将它们编码为实值以应用优化方法。嵌入模块通过将这些ID索引映射到低维表示中并随后将它们连接以形成MLP模块的输入来解决这个问题，即，z=<$i（x）（2）3.1.2变分推理变分推理是一种分析近似技术，用于学习潜在变量z在观测变量x条件下的后验分布p z x。通过将深度学习中的贝叶斯推理问题公式化为基于优化的方法，变分推理可以很好地与深度学习一起工作。因此，可以采用随机梯度下降优化方法。现在我们总结一下变分推理的基本原理很明显，后验可以基于贝叶斯规则表示为pzx=px，zpx。然而，边际似然px=px，z dz没有解析解或有效估计量。为了避免计算上的困难，变分推断通过最大化关于变分参数的证据下限（ELBO）来获得最佳近似后验分布q<$qz xpz x：ELBO（logq）= E（log p（x |z））− DKL（q<$q（z）|（x）||p（z））（5）3.1.3点估计的冷启动问题在现有的点估计方法中，嵌入模块显式地将用户ID和广告ID映射到期望相似ID接近的低维嵌入空间中。然而，由于普遍存在的数据稀疏性问题，冷启动用户和广告的嵌入点往往是孤立的。为了缓解这一问题，除了采用交互式协同过滤机制引入的相似性客观监督外，已有的研究成果对基于内容和基于元学习的方法结合身份标识属性的使用具有启发意义。然而，存在两个重要问题：1）用户和广告的属性仅被利用作为训练前的ID点初始化或用于推理的ID点的固定最终表示。因此，在训练过程中，冷启动用户或广告的嵌入仍然存在被隔离的2）点估计存在过拟合问题。为了进一步缓解这些问题，我们有动力专注于估计每个用户ID u和Ad ID i的分布，这在端到端训练期间利用了全局知识，并且更具可解释性。此外，它是在我们的工作中证实，我们提出的分布估计方法是更有效和更强大的点估计方法时，数据是有限的。3.2分布估计结果在本节中，我们将重点讨论其中reд（·）表示Embedding模块的功能，并且我们建议的方法，实施细节将涵盖ϕ让在第3.3和3.4节中。表示其参数。随后，估计的CTRy可以通过以下判别模型获得3.2.1CTR预测中的变分嵌入框架我们支持-y=σ（fθ（z））（3）提出了可变嵌入学习框架（VELF），旨在预测每个用户的分布和广告嵌入。在这其中fθ是指由θ参数化的MLP模块的函数，σ是S形激活函数。通过最大化目标来学习模型参数θ和θ方式，要学习的模型被认为是p，θ y x，z和z表示未观察到的潜在变量，即，嵌入空间，并且必须估计的分布是z的后验，u，zui，ziдϕc（·）用户id及其嵌入Ad id及其嵌入ID的属性数嵌入模MLP模的fθ普普q<$q（z |x）近似后验分布嵌入分布∫30（一）|）的方式（一）|）（|）q（）（|）p（）下一页（|））（）DQpWWW图3：用于CTR预测的变分嵌入学习框架的说明称为pzx。我们对VELF中的所有分布都采用高斯假设选择变分推理（VI）来获得近似后验分布q<$z xpz x，因为它是有效的参数化和计算的神经网络。根据第3.1.2节，很明显，VI将潜在变量z的分布估计转换为优化问题。通过神经网络参数化VI中的概率模型，可以应用基于计算可扩展随机梯度的优化方法[11]。在VELF中，我们的目标函数自然等于证据下限（ELBO）：正态高斯分布我们认为，固定的先验限制了我们的方法的泛化能力，由于不同的用户和广告之间的巨大差异在我们提出的方法中，我们通过神经网络将用户ID和广告ID的粗特征c作为输入，将pz参数化为pzc，其中pp表示指定的神经网络参数。这样，我们就可以充分利用数据集中的信息，获得合理的先验。具有相似属性的ID可以在潜在嵌入空间中自然地聚类在一起，因为它们是从相似的分布中采样的，这些分布被KL发散正则化限制为接近相似的先验分布。因此，每个集群中的全局知识可以是L（λq，θ）=ELBO（λq，θ）E（log p（x |z））− DKL（q<$q（z）|（x）||p（z））（六）由冷启动ID共享，其中包含很少的样本在全局知识的指导下，即使是冷启动过程的辨识也能得到合理的结果根据等式6，我们的优化目标包括两项。第一项试图最大化似然以提高预测的置信度，第二项试图通过最小化KL散度来找到近似的后验分布。对于CTR预测场景中的二进制数据集，预测的置信度Elog p x z计算为对数损失l，θ [10]。采用与[15]相同的观点，即KL发散项可以被视为正则化，我们引入参数α来控制模型拟合数据的程度与训练期间近似后验与先验p z的接近程度之间的权衡。为了减少选择α的时间，我们也采用了类似于[15]的退火方法：我们从α=0开始，逐渐将α增加到1。嵌入最后，我们的最大化目标可以重写为：L（θ，θ）=l（θ，θ）−α·DKL（q<$q（z|（x）||pϕp(z))(7)where ϕ =[ϕq, ϕp].3.2.2平均场变分嵌入框架在本文中，我们的目标是减轻用户和广告的冷启动问题。有两个不同的潜在变量，即，用户潜在嵌入zu和Ad潜在嵌入zi。在平均场理论[2]的基础上，我们假设zu和zi是相互独立的，并且分别由变分密度中的不同因子控制。然后我们的最大化目标变成：L（θ，θ）=l（θ，θ）现在，让我们讨论p（z）的细节，这是另一个关键，−α·（DK L（q<$u（zu|u）||pϕu(zu))（八）我们的方法p（z）表示潜在em-qp的先验分布贝叶斯学习中的beddingz，主要分配给某个+DKL（qi（zi|（一）||pϕi(zi)))31pQpQpppQF（）Q（）下一页.QQppQ用变分方法解决CTR预测中的冷启动问题嵌入式学习框架WWW其中，=[u，i，u，i]。在本文中，它被固定为1KL-散度项3.2.3正规化的先验。如前所述，我们引入不固定的参数化先验的ID与ID因此在ELBO中，可以根据高斯分布的给定定义我们可以充分利用数据集中的信息来获得推理-σpσ2+（µq−µp）2知识共享，促进知识共享。相似的属性。然而，参数化的现有技术仍然DKL（q||p）= log σq +2σ2（十六）通过引入额外的分布参数有过拟合的风险。为了减轻过拟合风险，我们建议通过强制参数化先验接近标准正态超先验来正则化先验：p（zu）=N（0，Iu）我们将等式15和等式16应用于等式10，得到可微ELBO，即，我们的目标函数通过最大化可微分ELBO，以端到端的方式联合学习变分参数θ和判别模型参数θ。计算可扩展的小批量随机梯度算法p（zi）=N（0，1i）（9）在KL发散项中增加一个分量，我们可以将目标函数重写为：L（u，i，θ）=l（u，i，θ）在训练过程中，采用了ent下降方法3.4用分布预测如图3所示，给定一个按照3.3节训练的VELF模型−α·（DKL（q<$u（zu|xu）||pϕu(zu))+和参数化先验，即，分配的手段这里，我们以用户嵌入zu的获取为例，DKL（qi（zi|（i）||pϕi(zi)))（十）并且可以以相同的方式获得Ad嵌入zi利用参数化先验的方法来弥补不可靠性−α·（DKL（p<$u（zu））||p(zu))+DKL（pi（zi）||p(zi)))3.3分销培训在本章中，我们将描述非常罕见的或新的ID的后验zu=<$（u）µq（u）+（1−<$（u））µp（c（u））（17）作为以u的统计作为输入的S形函数的变体[001 pdf 1st-31files]设计用于控制µu和µp（u）的权重，以形成VELF，如图3所示。这里，我们以用户嵌入zu的获得为例，广告嵌入zi可以以相同的方式获得与在推断期间u的最终表示1<$（u）=1+e−F（u）+f（十八）参数化的神经网络，后验分布和先验分布可以通过数据相关函数获得其中u是训练数据集中u的累积频率而对于数值稳定性，λ是一个小常数通过这种方式，u uu2建立了一定的灵活性令人信服的估计后验qu（z|u）=N（μq（u），σq（u））（11）领导角色的频繁ID，而令人信服的先前平衡pu（zu）=pu（zu|c（u））= N（μu（c（u）），σu 2（c（u）（12）一个新的或非常罕见的身份的不可靠的后验作为啪啪啪啪如图3所示，然后通过公式14计算y。如图3所示，后验分布参数μuq很容易看出我们的VELF模型的优势我们可以-从具有DNN的特征IDu计算σq，从属性计算先验有效地预测不频繁和新用户和广告p p你的DNN。通过端到端地评估后验分布和先验分布用于在VELF中，用户IDzu的潜在嵌入通过重新参数化技巧从估计的后验中采样给定实例x，y，每个采样的结果用户嵌入可以计算为：不频繁用户或广告，相似和频繁用户或广告之间的全局知识可以在训练和推理期间共享全局知识的中心用于表示新用户或广告，以提高推理时的准确性。zu=µq（u）+σq（u）uϵu∼ N(0,I)（十三）4实验在本节中，我们进行实验，目的是回答如图3所示，用户、Ad、上下文以及用户和Ad的属性的嵌入被级联以获得用于判别模型的输入嵌入zy=σ（fθ（concat（zu，zi，zc（u），zc（i），zcontext）（14）样品（x，y）的所得对数损失可以通过以下公式获得以下三个研究问题：RQ1从嵌入的角度来看，VELF与现有的冷启动方法RQ2VELF在插入各种网络主干时如何运行？RQ3分布估计的影响，参数化32（）下一页1Ll（θ，θ）=LK=（−ylogy（k）−（1–日志（1–（十五）和正规化的前科吗4.1数据集其中，每个y=k由等式14计算，其中随机采样L是每个样本的总Monte Carlo抽样数我们在三个公开的数据集上评估了我们提出的方法的性能：133WWWMovieLens-1 M2：最知名的基准数据集之一。该数据集由数千部电影和用户的100万部电影排名组成。电影评级转换为二进制（评级至少为4的转换为1，其他转换为0）。淘宝展示广告点击3：数据集由2600万个114万用户在淘宝网站8天内产生的广告展示/点击记录CIKM2019 EComm AI4：电子商务推荐dataset包含6200万个实例，每个实例由一个项目、一个用户和一个行为标签（'pv'、'buy'、'cart'、'fav'）组成。为了匹配问题，我们将实例标签转换为二进制（1/0表示用户是否购买了商品）。我们现在描述训练集和测试集的准备。训练集：我们遵循以前的研究工作中常用的训练设置。对于MovieLens-1 M，我们使用按时间排序的每个用户的前80%实例作为训练集[13]，并进一步将评论少于30的用户移动到测试集。对于淘宝展示广告点击，前7天生成的点击数据用作训练集，最后1天的数据是我们实验中的测试集[32]。对于CIKM2019EComm AI，我们使用该数据集的默认训练集[33]。测试集：为了测试，我们准备了5个不同的测试集，新用户/项目的会话推荐性能，表2：特征和测试集构造。不经常使用的用户/项目。每个测试的相应定义表2中给出了设置。请注意，非频繁用户/项目占总用户/项目的比例约为20%，这与长尾的定义相似[20]。三个数据集的统计数据见表3，使用的特征见表2。在表2和表3中，“Infreq”是“Infrequent”的缩写，“fea”是“features”的缩写。我们采用的数据集包括一个在线广告数据集和两个个性化推荐数据集。因此，我们通常称“Ad”和“Item”为“Item”。4.2基线我们根据他们的方法将基线分为两组第一组包含处理冷启动问题的最先进的方法（1）DropoutNet[28]是一种著名的冷启动方法，它使用交互项目/用户的平均表示来改善用户/项目表示。（2）MWUF [34]引入了Meta Scalingand Shifting Networks，为每个项目构建缩放和移位函数，缩放函数直接将冷项目ID嵌入转换为暖特征空间，移位函数从噪声嵌入中产生稳定嵌入。第二组包括为总体推荐而开发的常见的双头杂交技术。第二组作为基线，没有冷启动缓解组件以及骨干，以测试我们提出的VELF的泛化能力和适应性。（1）DeepFM [7]是一种深度推荐方法，可以学习领域之间的低级和高级交互(2)Wide Deep [3]共同开发宽线性模型和深度神经网络，以增强各自的能力。（三）2http://www.grouplens.org/datasets/movielens/3https://tianchi.aliyun.com/dataset/dataDetail? dataId=564https://tianchi.aliyun.com/competition/entrance/231721/introduction? lang=en-us表3：数据集统计#test表示不同测试集中的实例数量DCN [29]基于DNN，在每一层明确应用特征交叉，消除了对人类特征工程的需要。（4）xDeepFM [14]直接在矢量级别生成特征交互，允许它在低阶和高阶级别明确学习特定的有界度特征交互(5)PNN [21]采用特征提取器来研究字段间类别之间的特征交互。4.3实验设置4.3.1实施细节。我们对每个数据集上的所有方法使用相同的模型设置，以提供公平的比较。对于所有三个数据集，我们将嵌入大小固定为8，DNN为3个FC层，具有200个隐藏单元。此外，对于xDeepFM和DCN，我们将交叉层的数量设置为2。我们使用mini-batch Adam优化所有方法，其中学习率从{1e-5，5e-4，1e-4，...，1e-2}。此外，MovieLens-1M数据集的所有模型的批量大小设置为256，其他数据集的批量大小设置为4096。4.3.2评价 AUC [5]是推荐[34]和广告[32]的常用指标。它衡量的是··MovieLens-1M项目feaUser fea标题，发行年份，类型唯一ID、年龄、性别、职业新用户New itemInfrequserInfreqitem评论少于30次的用户1997年以后上映的电影80%的用户按摆姿势评论的数量排序，80%的电影按与之互动的用户数量排序。淘宝展示广告点击项目feaUser fea广告ID、类别ID、活动ID、品牌ID、广告主ID、价格用户ID、微型组ID、cms_group_id、性别、年龄、con-消费等级，购物深度，职业，城市层次新用户新项目Infreq用户干扰项仅存在于默认测试集中的用户仅存在于默认测试集中的项60%的用户按相关点击80%的项目由用户互动的数量订购with it.CIKM2019项目feaUser fea项目ID、类别ID、商店ID、品牌用户ID、性别、年龄、购买力新用户新项目Infreq用户干扰项仅存在于默认测试集中的用户仅存在于默认测试集中的项20%的用户按相关点击次数的多少排序。80%的项目由用户互动的数量订购with it.·数据集MovieLens淘宝广告CIKM2019#用户名6,0401,141,7291,050,000#项目3,706864,8113,934,201#训练样本630,60221,929,92758,751,493测试次数（全部）369,6073,099,5083,677,047#test（新用户）18,169275,7233,677,047#测试（新项目）196,05987,894114,906#test（Infreq用户）177,380391,00781,96434≈AUC（基础模型）−0。5用变分方法解决CTR预测中的冷启动问题嵌入式学习框架WWW表4：三个数据集的模型比较。我们记录5次运行的平均结果。标准差0.1%，在非配对t检验下具有极显著的统计学意义。* 表示在AUC的最佳基线上，在0.05的显著性水平下，改善具有统计学显著性‘Infreq’ is short forMovieLens-1M方法新用户新项目Infreq用户干扰项所有AUC RelaImprAUCRelaImprAUCRelaImprAUCRelaImprAUCRelaImpr宽型深0.6771百分之五点零0.6488百分之十六点八0.69554.7%0.67864.9%0.72763.0%PNN0.6701百分之零点九0.6470百分之十五点四0.69554.7%0.68408.1%0.72752.9%DCN0.67855.9%0.6460百分之十四点六0.6946百分之四点二0.67784.5%0.72803.2%xDeepFM0.67815.6%0.6476百分之十五点九0.69584.8%0.67995.7%0.7294百分之三点八DeepFM0.66860.0%0.62740.0%0.68680.0%0.67020.0%0.72100.0%DropoutNet（DeepFM）0.6640-2.7%0.62981.9%0.68750.4%0.6711百分之零点六0.7216百分之零点三MWUF（DeepFM）0.6712百分之一点五0.6573百分之二十三点五0.69916.6%0.6886百分之十点八0.7342百分之六点零VELF（DeepFM）0.7112磅百分之二十五点三0.7106米百分之六十五点三0.7117米百分之十三点三0.7009米18.0%0.7551磅百分之十五点四淘宝展示广告点击方法新用户新项目Infreq用户干扰项所有AUC RelaImprAUCRelaImprAUCRelaImprAUCRelaImprAUCRelaImpr宽型深0.5573-30.1%0.5995-8.3%0.5713-18.2%0.5964-12.5%0.6204-8.1%PNN0.5535-34.8%0.6064-1.9%0.5547-37.3%0.5991-10.1%0.6140-13.0%DCN0.58432.8%0.61415.2%0.5873百分之零点一0.6157百分之五点零0.6256-4.1%xDeepFM0.5831百分之一点三0.6104百分之一点八0.5874百分之零点二0.6129百分之二点五0.63281.4%DeepFM0.58200.0%0.60850.0%0.58720.0%0.61020.0%0.63100.0%DropoutNet（DeepFM）0.5848百分之三点四0.61798.7%0.58841.4%0.6303百分之十八点二0.63402.3%MWUF（DeepFM）0.5819-0.1%0.61172.9%0.58962.8%0.6244百分之十二点九0.6322百分之零点九VELF（DeepFM）0.5895磅9.1%0.6220磅百分之十二点四0.5998万百分之十四点四0.6332磅百分之二十点九0.6394米6.4%CIKM2019 EASHAI方法新用户新项目Infreq用户干扰项所有AUCRelaImprAUCRelaImprAUCRelaImprAUCRelaImprAUCRelaImpr宽型深0.74670.0%0.6877百分之零点一0.7451百分之零点三0.7139百分之零点三0.74670.0%PNN0.74680.0%0.6882百分之零点三0.7433-0.4%0.7145百分之零点六0.74680.0%DCN0.74680.0%0.68830.4%0.7449百分之零点二0.7143百分之零点五0.74680.0%xDeepFM0.7464-0.1%0.6867-0.5%0.7438-0.2%0.71320.0%0.7464-0.1%DeepFM0.74670.0%0.68760.0%0.74430.0%0.71320.0%0.74670.0%DropoutNet（DeepFM）0.74670.0%0.6886百分之零点五0.7455百分之零点五0.7138百分之零点三0.74670.0%MWUF（DeepFM）0.7483百分之零点六0.6887百分之零点六0.7450百分之零点三0.7164百分之一点五0.7483百分之零点六VELF（DeepFM）0.7497百分之一点二0.6967米4.9%0.74922.0%0.7228磅4.5%0.7497百分之一点二通过预测对所有项目进行因此，在冷启动工作[20，34]之后，我们采用AUC作为主要指标。此外，我们遵循[32，34]引入RelaImpr度量来衡量模型的相对改进。对于随机猜测者，AUC的值为0.5。因此，RelaImpr定义为：RelaImpr=（AUC（测量模型）-0。5− 1）× 100%（19）4.4与最新技术水平（RQ 1）的比较我们从嵌入学习的角度比较了我们的VELF和SOTA方法来缓解[28]第34话：不信邪在DeepFM [7]上进行了与最先进技术的比较，DeepFM是工业中最流行的模型结构之一为了更详细和更有针对性的分析，我们还报告了前面提到的第二组基35线模型的结果对三个基准数据集进行评价，以报告五次运行的平均结果。结果示于表4中。VELF的有效性VELF在三个数据集上的表现优于所有基线。特别是在“New”和“Infreq”测试数据集上的AUC改善比“All”测试数据集显著得多数据集。结果证实了VELF在缓解CTR预测中的冷启动问题方面的有效性。讨论。首先，使用VELF，类似于DropoutNet和MWUF，“项目”数据集上的AUC改进比“用户”数据集上的AUC改进更显著。这是因为在这三个数据集中，项目的数据稀疏性问题比用户的数据稀疏性问题更严重。其次，使用DropoutNet，MovieLens数据集上的性能远远弱于淘宝展示广告和CIKM2019。为了解释，回想一下淘宝展示广告和CIKM2019对于MovieLens中相对有限的用户和物品具有更丰富的属性。因此，基于内容的方法对边信息的限制更敏感第三，在CIKM2019数据集上，“新用户”和“所有”的AUC结果原因是测试数据集和训练数据集中的用户在默认的分割设置下不重叠4.5泛化实验（RQ2）在第4.4节中，我们评价了VELF在DeepFM脊柱上的有效性。为了进一步评估VELF的泛化能力，我们将VELF与DropoutNet和MWUF在另外四个不同的流行网络骨干网中进行了比较，包括WideDeep，PNN，DCN36≈pp（一）（b）第（1）款WWW(c)（d）其他事项图4：MovieLens-1 M在四个流行的跨功能主干上的性能：（a）Wide Deep，（b）PNN，（c）DCN，（d）xDeepFM。xDeepFM 实验在MovieLens-1 M数据集上进行。与DropoutNet和MWUF一样，我们的VELF可以通过替换用户和项目嵌入模块来适应任何网络骨干。实验结果见图4。结果表明，VELF可以不断取得最佳性能与不同的基础模型。4.6消融研究（RQ 3）在本节中，我们将展示我们提出的分布估计、参数化和正则化先验在VELF中的优势。我们在MovieLens-1 M数据集上进行了消融研究，评估了几个基于DeepFM的模型，DeepFM是最轻的结构之一：（1）VELF：整体框架;（2）VELF（Point）：通过直接采用µu作为zu和µ i作为zi，将分布估计退化为点估计;（3）VELF（No-R）：退化参数-表5：消融研究。报告5次运行的平均AUC结果。标准差0.1%，在非配对t检验下具有极显著的统计学意义。方法新用户新项目Infreq用户干扰项所有VELF0.71120.71060.71170.70090.7551VELF（No-R）0.68430.70370.70580.69350.7502VELF（固定）0.67230.68310.70700.68710.7402VELF（点）0.65680.65080.68690.67230.731将参数化先验约束为接近正态超先验有助于进一步提高泛化能力。5结论在本文中，我们提出了一个通用的变分嵌入学习框架（VELF），以提高嵌入学习的泛化能力和鲁棒性的冷启动用户和广告。VELFqq将嵌入学习视为分布估计过程，通过仅保留pu（zu）和pi（zi），将先验信息化和正则化为一层参数化先验信息而不进行正则化;（4）这意味着嵌入是基于贝叶斯推理从一系列共享分布中推断出来的因此，嵌入，VELF（Fixed）：将参数化和正则化的先验退化为一层固定的正态先验。5次运行的平均AUC结果报告见表5。首先，根据表4和表5，VELF（点）并没有比DropoutNet好多少。这表明分布估计优于点估计。其次，VELF（No-R）优于VELF（Fixed），这证实了我们提出的参数化先验可以提高泛化能力。第三，VELF比VELF（No-R）更有效这表明特别是冷启动的广告，可以受益于所有用户和广告之间此外，我们开发了一种参数化和正则化的先验机制，可以自然地利用丰富的边信息来进一步抑制过拟合。嵌入分布和判别CTR预测网络参数是端到端学习的，而不需要严格的额外训练数据或训练阶段。在多个推荐任务上的实验表明，使用VELF的CTR模型可以获得更好的推荐效果。我们未来的工作将包括37用变分方法解决CTR预测中的冷启动问题嵌入式学习框架WWW基于VELF的用户与广告交互建模以及VELF下的特征交叉技术引用[1] Bahare Askari，Jaroslaw Szlichta，and Amirali Salehi-Abari. 2020.联合变量自动编码器的建议与隐式反馈。 arXiv预印本arXiv：2008.07577（2020）。[2] David M Blei，Alp Kucukelbir，and Jon D McAuliffe.2017年。变分推理：统计学家评论。美国统计协会杂志112，518（2017），859[3] Heng-Tze Cheng，Levent Koc，Jeremiah Harmsen，Tal Shaked，TusharChandra，Hrishi Aradhye，Glen Anderson，Greg Corrado，Wei Chai，Mustafa Ispir，et al. 2016.推荐系统的广泛深度学习在第一届推荐系统深度学习研讨会上。

下载后可阅读完整内容，剩余1页未读，立即下载