协同过滤的变分自动编码器

148 浏览量更新于2023-10-16 收藏 13.7MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Track: User Modeling, Interaction and Experience on the WebWWW 2018, April 23-27, 2018, Lyon, France6890协同过滤的变分自动编码器0Dawen LiangNetflix Los Gatos,CAdliang@netflix.com0Rahul G. KrishnanMIT Cambridge, MArahulgk@mit.edu0Matthew D. HoffmanGoogle AI San Francisco,CAmhoffman@google.com0Tony Jebara NetflixLos Gatos, CAtjebara@netflix.com0摘要0我们将变分自动编码器（VAE）扩展到隐式反馈的协同过滤。这种非线性概率模型使我们能够超越仍然主导协同过滤研究的线性因子模型的有限建模能力。我们引入了一个具有多项式似然的生成模型，并使用贝叶斯推断进行参数估计。尽管多项式似然在语言建模和经济学中被广泛使用，但在推荐系统文献中受到的关注较少。我们为学习目标引入了一个不同的正则化参数，这对于实现竞争性性能至关重要。值得注意的是，有一种有效的方法来使用退火来调整参数。所得到的模型和学习算法与最大熵判别和信息瓶颈原理具有信息论上的联系。实证上，我们展示了所提出的方法在几个真实世界数据集上显著优于几种最先进的基线方法，包括最近提出的两种神经网络方法。我们还进行了扩展实验，将多项式似然与潜在因子协同过滤文献中其他常用的似然函数进行比较，并展示了有利的结果。最后，我们确定了采用基于原则的贝叶斯推断方法的优点和缺点，并确定了它提供最显著改进的设置。0关键词0推荐系统，协同过滤，隐式反馈，变分自动编码器，贝叶斯模型0ACM参考格式：Dawen Liang，Rahul G. Krishnan，Matthew D. Hoffman和TonyJebara。2018年。协同过滤的变分自动编码器。在《2018年网络会议论文集（WWW2018）》中。ACM，纽约，纽约，美国，10页。https://doi.org/10.1145/3178876.31861500本文根据知识共享署名-非商业性使用-禁止演绎 4.0国际许可协议发布。作者保留在个人和公司网站上传播作品的权利，并附上适当的归属。WWW 2018，2018年4月23日至27日，法国里昂 © 2018IW3C2（国际万维网会议委员会），根据知识共享CC BY-NC-ND 4.0许可证发布。ACMISBN 978-1-4503-5639-8/18/04。https://doi.org/10.1145/3178876.318615001 引言0推荐系统是网络的一个重要组成部分。在典型的推荐系统中，我们观察一组用户与一组物品的互动。利用这些数据，我们希望向用户展示一组他们之前未见过但会喜欢的物品。随着网络规模的增长，良好的推荐系统将在帮助用户更有效地与更多内容进行交互方面发挥重要作用。协同过滤是推荐系统中最广泛应用的方法之一。协同过滤通过发现和利用用户和物品之间的相似模式来预测用户喜欢的物品。潜在因子模型[13, 19,38]在协同过滤研究文献中仍然占据主导地位，因为它们简单而有效。然而，这些模型本质上是线性的，这限制了它们的建模能力。之前的研究[27]已经证明，在线性潜在因子模型中添加精心设计的非线性特征可以显著提升推荐性能。最近，越来越多的工作涉及将神经网络应用于协同过滤设置，并取得了有希望的结果[14, 41, 51,54]。在这里，我们将变分自动编码器（VAE）[24,37]扩展到隐式反馈的协同过滤。VAE推广了线性潜在因子模型，并使我们能够在大规模推荐数据集上探索由神经网络驱动的非线性概率潜变量模型。我们提出了一个具有多项式条件似然的神经生成模型。尽管多项式似然在语言建模和经济学中被广泛使用[5,30]，但在协同过滤文献中，特别是在潜在因子模型的背景下，研究较少。推荐系统通常使用基于排名的度量来评估，例如平均精度和归一化折现累积增益[21]。直接优化Top-N排名损失是困难的，之前关于直接排名损失最小化的工作采用了松弛和近似方法[49,50]。在这里，我们展示了多项式似然非常适合建模隐式反馈数据，并且相对于更流行的似然函数（如高斯和逻辑函数），它更接近排名损失的代理。尽管推荐通常被认为是一个大数据问题（由于推荐系统中通常存在大量用户和物品），但我们认为，相反，它代表了一个独特具有挑战性的“小数据”问题：大多数用户只与一小部分物品进行交互，我们的目标是共同地xui log πi (zu ).(2)logpθ (xu | zu ) c= −�icui2 (xui − fui )2.(3)logpθ (xu | zu ) =�ixui logσ (fui )+(1−xui ) log(1−σ (fui )), (4)6900通过对每个用户的偏好进行明智的推断，以利用用户的稀疏信号并避免过拟合，我们构建了一个概率潜变量模型，该模型在用户和项目之间共享统计强度。实证上，我们表明采用基于贝叶斯的方法更加稳健，无论数据的稀缺性如何。尽管 VAE在图像建模和生成方面已经得到了广泛研究，但在推荐系统中应用VAE 的工作却很少。我们发现，在这个任务中，有两个调整对于使用VAE 获得最先进的结果至关重要：0•首先，我们使用多项式似然作为数据分布。我们表明，这个简单的选择实现了优于更常用的高斯和逻辑似然的模型。0• 其次，我们重新解释和调整标准的 VAE目标函数，我们认为它过度正则化。我们将我们提出的正则化方法导致的学习算法与信息瓶颈原理和最大熵判别相联系。0结果是一个使 VAE成为这个重要问题的实用解决方案的方法。实证上，我们的方法在几个真实世界的数据集上显著优于最先进的基线方法，包括两种最近提出的神经网络方法。02 方法0我们使用 u ∈ {1, . . . , U} 来索引用户，i ∈ {1, . . . , I}来索引项目。在这项工作中，我们考虑使用隐式反馈进行学习[19,34]。用户-项目交互矩阵是点击 1 矩阵 X ∈ NU × I。小写 x u = [xu1, . . . , x uI] � ∈ NI是一个包含每个用户的每个项目的点击次数的词袋向量。为了简化起见，我们对点击矩阵进行二值化。将其扩展到一般计数数据是很直接的。02.1 模型0我们在本文中考虑的生成过程类似于深度潜在高斯模型[37]。对于每个用户 u，模型首先从标准高斯先验中采样一个 K 维潜在表示 zu。通过非线性函数 f θ (∙) ∈ RI 对潜在表示 z u进行变换，以生成概率分布 π (z u )，从中假设点击历史 x u被绘制出来：0z u � N(},0x u � Mult(N u , π (z u )). (1)0非线性函数 f θ (∙) 是一个具有参数 θ 的多层感知机。通过 softmax函数对该变换的输出进行归一化，以生成整个项目集上的概率向量 π(z u ) ∈ S I − 1（一个 (I - 1)-simplex）。给定用户 u 的总点击次数N u = ∑ i x ui ，假设观察到的词袋向量 x u 是从具有概率 π (z u )的多项分布中采样得到的。这个生成模型推广了潜在因子模型——通过将 f θ (∙)设置为线性并使用高斯似然，我们可以恢复经典的矩阵分解[38]。01为了具体起见，我们使用“点击”这个动词，它可以是任何类型的交互，包括“观看”、“购买”或“听”。0用户 u 的对数似然（在潜在表示的条件下）是：0log p θ (x u | z u ) c= ∑0这个多项式似然在语言模型（例如，潜在狄利克雷分配[5]）和经济学（例如，多项式逻辑选择模型[30]）中常用。它也用于多类分类的交叉熵损失[2]。例如，它已经在用于基于会话的顺序推荐的循环神经网络[8, 15, 16, 42, 45]和应用于 Youtube推荐的前馈神经网络[9]中使用。多项式似然在矩阵分解和自编码器等潜在因子模型的背景下研究得较少。一个值得注意的例外是协同竞争过滤（CCF）模型[53]及其后续模型，它利用了关于哪些选项被呈现给哪些用户的更细粒度的信息。（如果有这样的信息可用，它也可以被纳入我们基于 VAE的方法中。）我们认为多项式分布非常适合建模点击数据。点击矩阵的似然（公式2）奖励模型将概率质量放在 x u的非零条目上。但是，模型的概率质量有限，因为π (z u )必须总和为1；项目必须在这个有限的概率质量上竞争[53]。因此，模型应该将更多的概率质量分配给更有可能被点击的项目。在一定程度上，它将在推荐系统常常使用的 top-N排名损失下表现良好。作为比较，我们提供了在潜在因子协同过滤中常用的两种似然函数选择：高斯似然和逻辑似然。将 f θ (z u ) ≡ [fu1, . . . , f uI] � 定义为生成函数 f θ (∙) 的输出。用户 u的高斯对数似然为0我们采用Hu等人的约定[19]，引入一个“置信度”权重 c x ui ≡ cui ，其中 c 1 > c 0来平衡大多数点击数据中远远超过观察到的1的未观察到的0。这也等价于使用未加权的高斯似然和负采样来训练模型。用户 u的逻辑似然函数为：0其中 σ ( x ) = 1 / ( 1 + exp ( − x ))是逻辑函数。我们在第4节中将多项式似然与高斯和逻辑函数进行了比较。02.2 变分推理0为了学习等式1中的生成模型，我们对估计 θ （f θ ( ∙ )的参数）感兴趣。为了做到这一点，对于每个数据点，我们需要近似计算难以处理的后验分布 p ( z u | x u )。我们采用变分推理[22]来近似计算难以处理的后验分布：变分推理用一个更简单的变分分布来近似真实的难以处理的后验分布。02 多类别分类的交叉熵损失是从分布中进行单次抽样的多项式似然。3逻辑似然也是二元分类的交叉熵损失。0Track: 用户建模，Web上的交互和体验 WWW 2018，2018年4月23-27日，法国里昂q(zu ) =(µu, diag σ2u ).дϕ (xu )[µϕ (xu ),σϕ (xu )]R2Kqϕ (zu | xu ) = N (µϕ (xu ), diag{σ2ϕ (xu )}).logp(xu;θ) ≥ Eqϕ (zu | xu ) [logpθ (xu | zu )] − KL(qϕ (zu | xu )∥p(zu ))≡ L(xu;θ,ϕ)(5)ϕuu )∥p(zu )).(6)6910分布 q ( z u ) 我们将 q ( z u )设置为一个完全分解（对角）的高斯分布：0变分推理的目标是优化自由变分参数 { µ u , σ 2 u } ，使得Kullback-Leiber 散度 KL ( q ( z u ) ∥ p ( z u | x u )) 最小化。02.2.1分摊推理和变分自编码器：使用变分推理时，要优化的参数数量 { µu , σ 2 u }随着数据集中用户和项目的数量增加而增加。对于具有数百万用户和项目的商业推荐系统来说，这可能成为一个瓶颈。变分自编码器（vae）[24，37]用一个数据相关的函数（通常称为推理模型）替换了个别的变分参数：0由 ϕ 参数化，其中 µ ϕ ( x u ) 和 σ ϕ ( x u ) 都是 K维向量，并设置变分分布如下：0也就是说，使用观测数据 x u作为输入，推理模型输出相应的变分分布的变分参数 q ϕ ( z u | xu ) ，当优化时，这个变分分布近似于难以计算的后验分布 p ( z u | x u ) 。将 q ϕ ( z u | x u ) 和生成模型 p θ ( x u | z u )结合在一起，我们得到了一个类似于自编码器的神经结构，因此称之为变分自编码器。变分自编码器利用了分摊推理的方法[12]：它们灵活地重复使用推理来回答相关的新问题。这与协同过滤的理念是一致的：通过利用从过去经验中推断出的相似模式来分析用户偏好。在第2.4节中，我们讨论了这如何使我们能够高效地进行预测。学习变分自编码器：与使用变分推理学习潜变量模型的标准方法一样[4]，我们可以对数据的对数边际似然进行下界。这形成了我们要最大化的用户u的目标函数（数据集的目标函数通过对所有用户的目标函数求平均得到）：0这通常被称为证据下界(elbo)。请注意，elbo是θ和ϕ的函数。我们可以通过对z u � q ϕ进行采样并执行随机梯度上升来获得elbo的无偏估计。然而，挑战在于我们不能通过这个采样过程简单地对ϕ进行梯度计算。重参数化技巧[24, 37]绕过了这个问题: 我们采样ϵ � N(0, IK)并重参数化zu =µϕ(xu) + ϵ ⊙σϕ(xu)。通过这样做，采样过程中的随机性被隔离出来，可以通过采样的zu反向传播关于ϕ的梯度。vae的训练过程在算法1中总结。04 在实现中，推断模型将输出变分分布的方差的对数。为了简洁起见，我们继续使用σϕ(xu)表示。0算法1: 使用随机梯度下降训练协同过滤vae。0输入: 点击矩阵X ∈ RU × I0随机初始化θ,ϕ，当未收敛时进行以下操作0对于每个用户u在用户批次U中进行采样0采样ϵ � N(0, IK)并通过重参数化技巧计算zu计算带有zu的噪声梯度�θL和�ϕL 从批次中平均噪声梯度通过采取随机梯度步骤更新θ和ϕ 返回θ, ϕ02.2.2elbo的另一种解释。我们可以从不同的角度看待等式5中定义的elbo:第一项可以解释为(负的)重构误差，而第二项KL可以看作是正则化。我们采用这种观点是因为它允许我们进行权衡，这是我们方法的关键。从这个角度来看，引入一个参数β来控制正则化的强度是很自然的:0L β ( x u ; θ , ϕ ) ≡ Eqϕ(zu | xu) [ log pθ(xu| zu) ]0虽然原始vae(使用等式5中的elbo进行训练)是一个强大的生成模型，但我们可能会问在推荐系统中解决问题是否需要生成模型的所有统计属性。特别是，如果我们愿意牺牲执行祖先采样的能力，我们能否提高性能?elbo的正则化视图(等式6)在数据拟合和近似后验保持接近之间引入了权衡。我们建议使用β ≤1。这意味着我们不再优化对数边际似然的下界。如果β <1，则我们还削弱了先验约束1U∏uq(z | xu) ≈ p(z) = N(z; 0, IK)[18]；这意味着模型通过祖先采样生成新的用户历史的能力较弱。但是，我们的目标是做出好的推荐，而不是最大化似然或生成想象的用户历史。因此，将β视为自由正则化参数对我们来说没有成本，并且正如我们将看到的，可以显著提高性能。选择β:我们提出了一个简单的启发式方法来设置β: 我们从β =0开始训练，并逐渐增加β到1。我们在大量的梯度更新到θ,ϕ上缓慢线性退火KL项，并记录其性能达到峰值时的最佳β。我们发现这种方法效果很好，并且不需要训练多个具有不同β值的模型，这可能是耗时的。我们的过程受到KL退火[7]的启发，这是一种常用的启发式方法，用于在担心模型被低估时训练vae。0会议: Web上的用户建模、交互和体验 WWW 2018，2018年4月23日至27日，法国里昂0204060801006920图1说明了基本思想（我们在不同数据集上一致观察到相同的趋势）。在这里，我们绘制了没有KL退火的验证排名指标（蓝色实线）和将KL退火一直到β =1的情况（绿色虚线，β在大约80个时期达到1）。可以看出，没有任何KL退火时性能较差。通过退火，验证性能随着训练的进行而首先增加，然后在β接近1时下降到仅比完全不退火稍好的值。在确定了基于峰值验证指标的最佳β之后，我们可以使用相同的退火计划重新训练模型，但在达到该值后停止增加β（在图1中显示为红色点划线）。这可能与彻底的网格搜索相比不是最优的。然而，它更高效，并给出了有竞争力的实证性能。如果计算预算有限，则在单次运行中，我们可以在注意到验证指标下降时停止增加β。这个过程不会增加学习标准vae的运行时间。我们将这个部分正则化的具有多项式似然的vae称为Mult-vae pr。0时期0验证排名指标0不退火退火到β = 10退火到β = 0.20图1：使用不同的退火配置的验证排名指标。对于绿色虚线曲线，β在大约80个时期达到1。02.2.3计算负担。以前的神经网络协同过滤模型[14，51]是使用随机梯度下降进行训练的，在每一步中，从点击矩阵中随机选择一个（用户，项目）条目来执行梯度更新。在算法1中，我们对用户进行子采样，并采用他们的整个点击历史记录（点击矩阵的完整行）来更新模型参数。这消除了（用户，项目）条目子采样方案中常用的负采样的必要性（因此也消除了选择负例数量的超参数调整）。然而，我们方法面临的一个计算挑战是，当项目数量巨大时，计算多项式概率π（zu）可能会计算上昂贵，因为它需要计算所有项目的预测值进行归一化。这对于语言建模来说是一个常见的挑战，其中词汇表的大小达到数百万甚至更多[32]。在我们对一些中等到大型数据集进行的实验中，项目数不到50K（第4.1节），这还没有成为计算瓶颈。如果在处理更大的项目集时出现瓶颈，可以轻松地应用Botev等人提出的简单而有效的方法[6]来近似计算π（zu）的归一化因子。05我们发现这比在整个训练过程中保持β的最佳值要稍微好一些。0有效地方法。02.3 自编码器的分类0在第2.2节中，我们介绍了在非线性生成模型（Eq.1）下使用近似贝叶斯推断的vae的最大边际似然估计。现在，我们从学习自编码器的角度描述我们的工作。常规自编码器的最大似然估计采用以下形式：0θ AE，ϕ AE = argmaxθ，ϕ0u E δ（zu−дϕ（xu））[log0= argmaxθ，ϕ0u log pθ（xu | дϕ（xu））（7）0有两个值得注意的关键区别：（1）自编码器（和去噪自编码器）通过使用delta变分分布qϕ（zu |xu）=δ（zu−дϕ（xu））有效地优化了vae目标中的第一项（Eq.5和Eq. 6），它不像vae那样将qϕ（zu | xu）调整到任何先验分布。（2）δ（zu−дϕ（xu））是一个仅在дϕ（xu）的输出处具有质量的δ分布。与vae相比，vae的学习是使用变分分布完成的，即дϕ（xu）输出高斯分布的参数（均值和方差）。这意味着vae能够捕捉潜在状态zu的每个数据点的方差。在实践中，我们发现学习自编码器极易过拟合，因为网络学习将所有概率质量放在xu的非零条目上。通过在输入层引入dropout[43]，去噪自编码器（dae）不容易过拟合，我们发现它也能给出有竞争力的实证结果。除了Mult-vaepr之外，我们还研究了具有多项式似然的去噪自编码器。我们将这个模型称为Mult-dae。在第4节中，我们对使用Mult-vaepr显式参数化每个用户方差与使用Mult-dae点估计之间的权衡进行了表征。为了提供对自编码器不同变体的统一视图，并澄清我们的工作所处的位置，我们在图2中描述了文献中常见的自编码器变体。对于每个变体，我们指定了模型（虚线箭头表示采样操作）并描述了用于参数估计的训练目标。在图2a中，我们有自编码器。它的训练目标与Eq.7中的目标相同。向自编码器的输入（或中间隐藏表示）添加噪声会产生图2b中的去噪自编码器。训练目标与自编码器相同。Mult-dae属于这个模型类别。协同去噪自编码器[51]是这个模型类别的一个变体。vae在图2c中表示。它不使用delta变分分布，而是使用由ϕ参数化的推理模型来产生近似变分分布的均值和方差。vae的训练目标在Eq.6中给出。将β设置为1可以恢复原始的vae公式[24，37]。Higgins等人[17]研究了β>1的情况。我们的模型Mult-vaepr对应于学习具有β∈[0，1]的vae。02.4 预测0Track: User Modeling, Interaction and Experience on the Web WWW 2018, April 23-27, 2018, Lyon, FranceTrack: User Modeling, Interaction and Experience on the WebWWW 2018, April 23-27, 2018, Lyon, France6930x0x0θ0ϕ0x0ϵ0x0θ0ϕ0x0µ σ0z ϵ0x0θ0ϕ ϕ0(a) 自编码器 (b) 去噪自编码器 (c) 变分自编码器0图2：自编码器的分类法。虚线箭头表示采样操作。0或Mult-dae（第2.3节），我们以相同的方式进行预测。给定用户的点击历史x，我们根据未归一化的预测多项式概率fθ(z)对所有物品进行排名。对于x的潜在表示z的构造如下：对于Mult-vaepr，我们简单地取变分分布的均值z =µϕ(x)；对于Mult-dae，我们取输出z =дϕ(x)。使用自编码器的优势很容易看出。我们可以通过评估两个函数-推理模型（编码器）дϕ(∙)和生成模型（解码器）fθ(∙)有效地为用户进行预测。对于大多数潜在因子协同过滤模型，例如矩阵分解[13,19]，当给出不在训练数据中的用户的点击历史时，通常需要执行某种形式的优化来获得该用户的潜在因子。这使得在工业应用中使用自编码器特别有吸引力，因为重要的是以低成本和低延迟进行预测。03 相关工作0VAE在稀疏数据上的应用。变分自编码器（VAE）[24,37]自问世以来，在图像领域得到了广泛应用。Doersch[10]对VAE在图像数据上的不同应用进行了综述。Miao等人[31]研究了VAE在文本数据上的应用。Krishnan等人[25]的最新研究发现，VAE（使用Eq.5进行训练）在建模大规模、稀疏、高维数据时容易欠拟合。我们注意到，在没有退火的情况下拟合VAE（图1）或将β设为1时也存在类似问题。通过放弃模型中的祖先采样能力，并设置β≤1，得到的模型不再是一个合适的生成模型，尽管对于协同过滤任务，我们总是在用户的点击历史条件下进行预测。VAE与信息论的联系。在Eq.6中，ELBO的正则化视图类似于最大熵判别[20]。最大熵判别试图将判别估计与贝叶斯推断和生成建模相结合。在我们的情况下，Eq.6中的β作为一个旋钮来平衡模型的判别和生成方面。Eq.6中的过程具有Alemi等人[1]描述的信息论联系。作者提出了深度变分信息瓶颈，它是信息瓶颈原理的变分近似[46]。他们表明，作为一个特例，他们可以恢复VAE使用的学习目标。他们报告了β<1时更稳健的监督分类性能。这与我们的发现一致。Higgins等人[17]提出了β-VAE，它导致与Eq. 6相同的目标。0他们激励β-VAE以学习从图像中获得解缠的表示（基本视觉概念，如形状、尺度和颜色）。然而，他们的工作中设置了β�1，实际上对潜在编码z施加了更强的独立先验假设。虽然他们的动机与我们的动机非常不同，但有趣的是，从探索β的全谱值中出现了正交的研究线。神经网络用于协同过滤。早期基于神经网络的协同过滤模型的研究集中在显式反馈数据上，并在评估评分预测任务上进行[11, 39, 41,54]。随着对隐式反馈的重视逐渐增加，因此最近的大部分研究，如本文，都集中在隐式反馈上。与我们的方法最相关的两篇论文是协同去噪自编码器（CDAE）[51]和神经协同过滤（NCF）[14]。协同去噪自编码器（CDAE）[51]通过在输入中添加每个用户的潜在因子来增强标准的去噪自编码器（在第2.3节中描述）。CDAE模型的参数数量与用户数量和物品数量呈线性增长，使其更容易过拟合。相比之下，VAE的参数数量与物品数量呈线性增长。CDAE还需要额外的优化来获取未见用户的潜在因子以进行预测。在论文中，作者研究了高斯和逻辑似然损失函数 -如我们所示，多项式似然在推荐系统中更加稳健。神经协同过滤（NCF）[14]探索了用户和物品潜在因子之间的非线性交互模型，而不是常用的点积。作者在两个小数据集上证明了NCF相对于标准基线的改进。与CDAE类似，NCF的参数数量也与用户数量和物品数量呈线性增长。我们发现这对于更大的数据集来说是有问题的。我们在第4节与CDAE和NCF进行了比较。非对称矩阵分解[35]也可以解释为自编码器，如Steck[44]所述。我们可以通过将fθ(∙)和дϕ(∙)都设置为线性来恢复这项工作。除了应用于基于会话的顺序推荐（见第2.1节）外，还有各种方法[2, 28, 47,48]将神经网络应用于合作过滤模型以更好地处理冷启动问题。这些方法与我们的方法是互补的。ML-20MNetflixMSD6https://github.com/dawenl/vae_cf7http://www.netflixprize.com/Recall@R(u,ω) :=�Rr=1 I[ω(r) ∈ Iu]min(M, Iu ).6940表1：预处理后数据集的属性。交互是非零条目。交互占比指的是用户-项目点击矩阵 X的密度。保留用户数是验证/测试用户数占总用户数的比例。0用户数 136,677 463,435 571,355 项目数 20,10817,769 41,140 交互数 10.0M 56.9M 33.6M交互占比 0.36% 0.69% 0.14%0保留用户数 10,000 40,000 50,0000我们评估了 Mult- vae pr 和 Mult- dae的性能。通过探索得到的拟合结果，我们提供了对它们性能的洞察。我们强调以下结果：0• Mult- vae pr在与各种基准模型进行比较时，在三个真实世界数据集上取得了最先进的结果，包括最近提出的基于神经网络的协同过滤模型。0•对于去噪和变分自编码器，多项式似然性能优于更常见的高斯和0• Mult- vae pr 和 Mult- dae都能够产生有竞争力的实证结果。我们确定当明确地参数化不确定性（如 Mult- vae pr）时，相比于 Mult- dae使用的点估计，哪种方法更好或更差，并列出两种方法的优缺点。0可在 GitHub 上获取用于重现实验结果的源代码 6 。04.1 数据集0我们研究了来自不同领域的三个中等到大规模的用户-项目消费数据集：MovieLens-20M(ML-20M)：这些是从电影推荐服务中收集的用户-电影评分数据。我们将显式数据二值化，保留四分以上的评分，并将其解释为隐式反馈。我们只保留至少观看过五部电影的用户。Netflix Prize(Netflix)：这是来自 Netflix Prize 的用户-电影评分数据 7 。与ML-20M类似，我们将显式数据二值化，保留四分以上的评分。我们只保留至少观看过五部电影的用户。Million Song Dataset(MSD)：该数据包含作为 Million Song Dataset的一部分发布的用户-歌曲播放次数 [ 3]。我们将播放次数二值化，并将其解释为隐式偏好数据。我们只保留至少有20首歌曲在其听歌历史中的用户和被至少200个用户收听过的歌曲。表1总结了预处理后所有数据集的维度。04.2 指标0我们使用两个基于排名的指标：Recall@ R和截断归一化折扣累积增益 (NDCG@ R)。对于每个用户，这两个指标都将预测的保留项目的排名与其真实排名进行比较。对于 Mult- vae pr 和 Mult-dae，我们通过对非归一化的多项式概率 f θ ( z )进行排序来获得预测的排名。Recall@ R 认为在前 R个排名内的所有项目都是同等重要的，而 NDCG@ R则使用单调递增的折扣来强调较高排名与较低排名的重要性。形式上，将 ω ( r ) 定义为排名为 r 的项目，I [ ∙ ] 是指示函数，I u 是用户u 点击的保留项目的集合。用户 u 的 Recall@ R 为0分母中的表达式是 R 和用户 u 点击的项目数的最小值。这将使Recall@ R的值归一化为最大值为1，这对应于将所有相关项目排在前 R个位置。截断折扣累积增益 (DCG@ R ) 是0DCG@R(u, ω):=0R�0r=102I[ω(r)∈Iu]−10log(r+1).0NDCG@R是将DCG@R线性归一化到[0,1]，除以最佳可能的DCG@R得到的结果，其中所有保留的物品都排在前面。04.3实验设置0我们在强泛化[29]下研究了各种模型的性能：我们将所有用户分为训练/验证/测试集。我们使用训练用户的完整点击历史来训练模型。为了评估模型，我们从保留（验证和测试）用户的点击历史中获取一部分来学习模型所需的用户级表示，然后通过查看模型如何对来自保留用户的未见点击历史进行排序来计算指标。这相对于弱泛化更加困难，弱泛化中用户的点击历史可以同时出现在训练和评估中。我们认为这更加现实和鲁棒。在表1的最后一行，我们列出了保留用户的数量（我们对验证和测试使用相同数量的用户）。对于每个保留用户，我们随机选择80%的点击历史作为“fold-in”集，以学习所需的用户级表示，并在剩余的20%点击历史上报告指标。我们通过在验证用户上评估NDCG@100来选择模型的超参数和架构。对于Mult-vaepr和Mult-dae，我们使生成模型fθ(∙)和推理模型дϕ(∙)的架构对称，并探索具有0、1和2个隐藏层的多层感知器（mlp）。我们将潜在表示的维度K设置为200，任何隐藏层设置为600。作为一个具体的例子，假设I是物品的总数，具有1个隐藏层mlp生成模型的Mult-vaepr/Mult-dae的整体架构将是[I → 600 → 200 → 600 →I]。我们发现增加层数并不能提高性能。表现最好的架构是具有0或1个隐藏层的mlp。我们在层之间使用tanh非线性作为激活函数。0Track: User Modeling, Interaction and Experience on the Web WWW 2018, April 23-27, 2018, Lyon, FranceWe compare results with the following standard state-of-the-artcollaborative filtering models, both linear and non-linear:Weighted matrix factorization (wmf) [19]: a linear low-rankfactorization model. We train wmf with alternating least squares;this generally leads to better performance than with SGD. We setthe weights on all the 0’s to 1 and tune the weights on all the 1’sin the click matrix among {2, 5, 10, 30, 50, 100}, as well as the latentrepresentation dimension K ∈ {100, 200} by evaluating NDCG@100on validation users.Slim [33]: a linear model which learns a sparse item-to-itemsimilarity matrix by solving a constrained ℓ1-regularized optimiza-tion problem. We grid-search both of the regularization parametersover {0.1, 0.5, 1, 5} and report the setting with the best NDCG@100on validation users. We did not evaluate Slim on MSD because thedataset is too large for it to finish in a reasonable amount of time(for the Netflix dataset, the parallelized grid search took about twoweeks). We also found that the faster approximation of Slim [26]did not yield competitive performance.Collaborative denoising autoencoder (cdae) [51]: augmentsthe standard denoising autoencoder by adding a per-user latentfactor to the input. We change the (user, item) entry subsamplingstrategy in SGD training in the original paper to the user-levelsubsampling as we did with Mult-vaepr and Mult-dae. We generallyfind that this leads to more stable convergence and better perfor-mance. We set the dimension of the bottleneck layer to 200, anduse a weighted square loss, equivalent to what the square loss withnegative sampling used in the original paper. We apply tanh activa-tion at both the bottleneck layer as well as the output layer.8 Weuse Adam with a batch size of 500 users. As mentioned in Section 3,the number of parameters for cdae grows linearly with the num-ber of users and items. Thus, it is crucial to control overfitting byapplying weight decay. We select the weight decay parameter over{0.01, 0.1, · · · , 100} by examining the validation NDCG@100.Neural collaborative filtering (ncf) [14]: explores non-linearinteractions (via a neural network) between the user and item latentfactors. Similar to cdae, the number of parameters for ncf growslinearly with the number of users and items. We use the publiclyavailable source code provided by the authors, yet cannot obtain6950请注意，对于Mult-vaepr，由于将дϕ(∙)的输出用作高斯随机变量的均值和方差，我们不对其应用激活函数。因此，具有0隐藏层mlp的Mult-vaepr实际上是一个对数线性模型。我们按照第2.2.2节中描述的过程调整Mult-vaepr的正则化参数β。

下载后可阅读完整内容，剩余1页未读，立即下载