协同过滤的混合中心损失

8 浏览量更新于2023-11-29 收藏 1.12MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2339→MCL：协同过滤的混合中心损失多伦多大学多伦多，加拿大zhaolin. mail.utoronto.caJianningSunLayer 6 AI加拿大多伦多jianing@layer6.ai摘要赵岳成Layer6 AI加拿大多伦多joey@layer6.ai马克西姆斯·科廖夫斯Layer 6 AI加拿大多伦多maks@layer6.aiACM参考格式：FelipePérezLayer 6AI加拿大多伦多felipe@layer6.ai最近在潜在协同过滤（CF）方面的大部分工作都集中在开发新的模型架构来学习准确的用户和项目表示。典型地，标准成对损失函数（BPR，Triplet等）并对如何从已有的偏好信息中最优地提取信号进行了探索在隐式设置中，对负样本进行采样，并且这些损失分配权重，该权重仅取决于观察到的（正）和负项目对之间的用户距离的差异。这可能会忽略来自其他用户和项目的有价值的全局信息，并导致次优结果。出于这个问题的动机，我们提出了一种新的损失，首先利用挖掘来选择信息量最大的对，然后通过加权过程来分配更多的权重给更难的例子。我们的加权过程由四个不同的组件组成，并结合了来自其他用户的距离信息，使模型能够更好地定位学习到的表示。我们进行了大量的实验，并证明我们的损失可以适用于不同类型的CF模型，导致每种类型的显特别是，通过将我们的损失应用于图卷积架构，我们在四个不同的数据集上获得了新的最先进的结果。进一步的分析表明，与其他损失相比，通过我们的损失，模型能够学习更好的用户项表示空间。完整的代码可以在这里找到： https://github.com/layer6ai-labs/MCL。CCS概念• 信息系统推荐系统;协同过滤;个性化;计算方法学→神经网络。关键词推荐系统，协同过滤，个性化，图神经网络作者对这项工作的贡献是平等的。本作品采用知识共享署名国际协议（Creative Commons AttributionInternational）授权4.0许可证。WWW©2022版权归所有者/作者所有。ACM ISBN978-1-4503-9096-5/22/04。https://doi.org/10.1145/3485447.3512106Zhaolin Gao ， Zhaoyue Cheng ， Felipe Pérez ， Jianning Sun ， andMaksims Mrsovs. 2022. MCL：协作过滤的混合中心损失。在ACMWeb Conference 2022（WWW '22）的会议记录中，2022年4月25日至29日，虚拟活动，法国里昂。ACM，New York，NY，USA，9页。网址：//doi. 电话：+86-10 - 85512106传真：+86-10 - 855121061引言随着在线可用信息量的增加，提供准确的推荐对于诸如多媒体流、电子商务和社交媒体的在线平台变得至关重要。协同过滤（CF）嵌入方法通常用于对用户和项目隐式反馈（例如，在这些平台上。从矩阵分解[11，13，22]到最近的基于图的方法[7，18，29，32，37]，生成高质量的用户和项目嵌入是推荐系统最新进展的核心。嵌入CF模型通常使用成对损失进行训练，通常以贝叶斯个性化排名（BPR）损失[26]或三重损失[9]的形式。成对学习涉及推动积极的（交互的）项目比消极的（不交互的）项目更接近用户为了降低计算复杂度，在每次迭代时对负项进行采样BPR损失通常用于潜在模型[6，14，23，26]，最近用于图卷积。典型模型[7，12，18，39]，而三重损失主要出现在深度度量学习方法中[10，24，33]。其他常用的成对CF损失是交叉熵[1，8，31]和均方误差[15，27，38]。最近在推荐系统和计算机视觉等其他领域的研究发现，由于信息丢失，成对损失可能导致次优模型训练。于Li等[16]，作者认为，常见的成对损失只使用了正负项之间的用户距离差异，而没有考虑其他重要信息，如项本身之间的关系。计算机视觉中的相关工作[2，21，28]表明，对负项的随机抽样在寻找困难的例子时效率低下，并且可能导致对更容易和信息量更少的数据进行次优训练。为了解决这些问题，已经提出了不同的采样技术和训练方案，以充分利用偏好数据中的信息[10，30，36]。然而，这一领域仍然没有得到充分的探索，因为潜在CF的研究主要集中在设计更好的模型架构来生成用户和项目嵌入。2340{}∈{}∈uj.=≤ujujWWW在这项工作中，我们研究成对学习，并提出了一个新的学习框架，我们结合了硬实例挖掘与一个新的混合中心损失函数。损失函数分配的权重不仅取决于每对的相对硬度，还取决于与其他用户和项目的全局对齐具体来说，我们的加权策略有四个组件：一个用户项目为中心的组件，衡量一个给定的项目如何与用户，一个相同/不同类型的中心组件，对比积极和消极的项目，为用户，和一批中心组件，提供一个全球范围内的项目相关的不同用户。我们使用三种领先的CF方法实现了我们的学习框架：CML [10]，NeuMF [8]和LightGCN [7]。在多个公共数据集进行的大量实验表明，使用我们的方法进行训练可以显着提高所有三种模型的性能，相对增益高达60%。此外，使用我们的方法训练的LightGCN在每个数据集上都获得了新的最先进的结果。对学习到的用户/项目嵌入的分析表明，我们的方法可以更好地分离嵌入空间，具有稳定的性能，随着负对的数量而提高，并且对维度的变化更具鲁棒性。本文的主要贡献概述如下：我们分析了用于训练CF模型的传统损失，并通过成对权重分析评估其缺点。• 我们提出了一个损失函数，利用挖掘找到最建议在一个批次内的样本之间成对使用在最近的CF模型中，Li等人。[16]在损失中添加了一个分量，以推动积极和消极的项目彼此远离。Ma等人。[19]将显式用户-用户和项目-项目相似性建模纳入目标函数。我们建立在这些方法的基础上，首先从基于权重的角度分析常见的成对损失。然后，我们提出了一个新的损失，结合负样本挖掘与本地信息从目标用户和全球信息从其他用户在批。3成对损失的权重分析给定一个用户u，让Pu表示用户已经与之交互的正项集合，让Nu表示u没有与之交互的负项集合正对定义为u，j，其中jPu，负对定义为u，k，其中k Nu。潜在CF模型旨在为用户和项目找到嵌入，对应于相关性。我们将用户u和物品i之间的邻近度度量表示为Eui，常见的度量包括欧几里得距离和点积。在成对学习中，损失L通常被设计为将正项推得更靠近用户，而将负项推得更远。推送的大小由每个用户-项目对的梯度决定，我们可以将其作为权重进行分析：信息对，以及结合本地公司简介–将来自目标用户的全局信息与来自该批中其他用户的全局信息进行比较wuj= Euj，wuk （1）计算公式• 我们在现有的领先模型上实现我们的损失，其中，w+和wu−k是位置的标量gradient权重，并且证明它导致在多个数据集上实现最先进的结果我们分析了学习的嵌入空间，并研究了每个分量的影响，包括负数的数量，维度和其他超参数。负对分别。使用这个框架，我们分析了两个常用的CF损失三重和BPR。三重损失三重损失旨在使差异是-正负对的补间距离大于边距λ：2相关工作成对模型在不同的机器领域中很常见L三元组（u，j，k）=[Euj −Euk+λ]+（2）其中E是Euclidean距离。相关权重由下式给出：学习CF，计算机视觉，NLP和其他领域的应用[7，28，36]。优化这些模型的常用方法是+=wu−k1，如果Euj+λ>Euk0，否则（三）通过在整个学习过程中随机抽样配对。然而，候选空间通常很大，并且可以包含许多uninfor。因此，三重损失选择满足Euj抛弃那些+λ>Euk和肯定或容易的例子，所以随机抽样可能会导致低于标准的结果。CF中已经提出了许多方法来通过开发策略来改善采样对的质量来解决这个问题。Ding等人。[3]提出通过强化学习训练来生成高质量的对。 Park和Chang [25]通过对抗抽样和训练获得更多信息样本。Ding等人[5]显示了分数变化和假阳性之间的关系，并使用它来设计抽样策略。与这些方法不同的是，这些方法主要集中在生成或Euj + λEuk. 所有选定的对都具有相同的权重为1，而丢弃的对的权重为0。BPR损失BPR损失旨在使正对的点积高于负对的点积LBPR（u，j，k）=logσ（Euk−Euj）（4）其中E是相应的用户和项目嵌入之间的点积，σ是sigmoid函数。权重由下式给出：1为了得到高质量的对，特别是负样本，我们使用了一个更简单的挖掘策略，它可以很好地处理损失，并分配不同的+=wu−k=−1+eEuk−Euj（五）对采样对的权重。除了更好的抽样，其他方法也探索了不同的损失，以纳入用户和项目之间的额外信息。在深度度量学习中，角度损失[35]考虑了角度关系，而提升结构损失[21]= −σ（Euj−Euk）因此，BPR使用正负对之间的点积差来分配权重。这可以被视为三重损失的软版本，而不是使用具有恒定权重的铰链函数，BPR权重使用S形函数进行缩放··WWMCL：协同过滤WWW2341.----.123=.uTriplet和BPR损失都可能在训练过程中错过重要信息。一方面，Triplet loss对每个合格的配对都进行了同等的加权，这可能是次优的，特别是在训练的后期阶段，我们希望模型专注于困难的配对。另一方面，BPR通过点积差损失权重对，这允许动态权重分配以强调较难的对。然而，由于这些对是随机抽样的，因此具有高度变化难度的两个对可以一起抽样，导致不一致的权重分配。例如，如果用硬负对对容易正对进行采样，则所得到的权重对于容易正对可能过大，而对于硬负对可能不足。我们还注意到，这两个损失仅依赖于正负对之间的差异来确定权重，而忽略了批次中的其他信息，例如与其他用户和项目的关系由于项目嵌入空间在用户之间共享，因此从批次中挖掘信息可以提供对嵌入的额外约束并促进学习。在下面的部分中，我们将探讨这些概念，并提出一个新的损失来解决这些缺点。4我们的方法在本节中，我们将介绍我们的学习框架，该框架由配对挖掘和我们新颖的混合中心损失函数组成。在第3节的权重分析的基础上，我们证明了在我们的框架下，对权重由四个分量组成。具体来说，我们表明，对挖掘可以被视为不同类型的中心组件，对比积极和消极的项目为一个给定的用户。同时，由混合中心损失分配的权重直接受到三个分量的影响：以用户为中心的分量测量给定项目与用户的关系，以相同类型为中心的分量比较用户的相同类型（正面或负面）的项目，以及以批次为中心的分量比较不同用户之间的项目。我们在下面正式定义每个组件并讨论它们的重要性。图1：配对挖掘过程示意图，线长代表到用户的距离。左：到用户的距离小于最大负项减去边距的距离的正项被丢弃，所有其他项被保留。右：与用户的距离大于最远的正项加上边距的负项被丢弃，所有其他项被保留。权重为0。在实践中，负项的集合Nu可以非常大，为了降低每次迭代的计算复杂度，我们随机抽取负项的一个小子集，并将挖掘过程应用于该子集。混合中心损失（MCL）在对挖掘之后，我们将用户u的所选正项和负项分别表示为Ps和Ns。自我监督中受相关工作影响的对挖掘从计算机视觉领域学习[36]，在每次迭代很好给定一批m个用户B乌乌我们将损失定义为：我们的目标是找到模型关注的正面和负面的例子。从概念上讲，我们将一个硬性的正例定义为LMCL=1log[ 1+1 . .eα（Euj+λp）]比至少一个否定项更远离用户的项α mu∈Bj∈Ps（八）类似地，硬否定示例是比至少一个肯定项更接近用户的项这构成了我们+1log [1+1。ue−β（Euk+λn）]挖掘过程，在每次迭代中，我们丢弃don’t 为了解释β mu∈Bk∈Ns嵌入空间（和相应的距离）在整个学习过程中不断变化，我们在比较项目之间的距离时添加一个余量形式上，选择正对u，j，如果：Euj > minEuk−（6）这里，λp和λn是控制正对和负对的裕度容限的超参数，α、β分别控制正对和负对的损耗贡献。等式8中的第一项旨在降低所有选择的正对的距离，并且第二项旨在提高所有选择的正对的距离。哪里k∈NuE是欧几里得距离，Nu是负项的集合，负对。在这种损失下，正对u，j由下式给出：u，而Δ n是控制分离度的裕度参数。类似地，选择负对{u，k}，如果：EukmaxEuj+（7）<+1UJM·e − αλp +1eαEujeαEu′ij∈Pumu′∈Bi∈Ps其中Pu是u的正项集合。采矿程序是U′11如图1所示，并且可以被视为二元铰链的形式=m·w+（u，j）+w+（u，j）+w+（u，j）（9）W权重，其中所选项目的权重为1，而丢弃的项目WWWZhaolin Gao，Zhaoyue Cheng，Felipe Pérez，Jianning Sun，and MaksimsMogovs2342313.u′∈--ujmi∈Ns.图2：混合中心损失中三个权重分量的图示。圆圈代表用户，三角形代表项目。每条线的长度表示相应的用户项对之间的距离。线的宽度代表该对的重量该权重可以被划分为三个分量w+、w+和w+。表1：复杂性分析。N表示总数量，w+：w+（u，j）=e−α（Euj+λp）1 2 对，U表示用户的总数，I表示项目的总数，D表示嵌入维数。w+（ u， j）=1M.eα（Eui−Euj）2w+（u，j）=i∈Ps1m′I.Pseα（Eu′i−Euj）武武∈u′类似地，负对u，k的权重可以分解为三个类似的分量：11w−=·（十）表2：数据集统计。ukmw1−（u，k）+w2−（u，k）+w3−（u，k）其中：w1−（u，k）=eβ（Euk+λn）w2−（u，k）=1 .eβ（Euk−Eui）u1Mw3−（u，k）=.eβ（Euk−Eu′i）成分此组件提供了跨mu′∈Bi ∈Ns′用户，其中损失旨在将所有积极的项目，乌乌乌每个用户都有相同的距离距离远得多的一对为了简洁起见，我们重点说明积极的组成部分是w+、w+和w+影响总权重w+，类似于ar-整体重量更大，在训练中强调1 2 3+这在图2（c）中示出。对于负权重，仪表保持不变w1是以用户项为中心的分量，并且仅取决于u和j之间的距离。离用户较远的较硬的正项具有较小的w+和更大的总重量w+，这种效果如图-这些组件共同传达关于目标项如何与用户相关的本地上下文和关于项如何与来自目标用户以及数据集中的其他用户的相同类型的其他项相关的全局上下文结合当地和全球背景1个uj图2（a）. 在w+中，目标项j与所有其他正项进行比较，使模型能够对嵌入执行更严格的一致性第2页中的项目空间，正如我们在实验部分所示，导致更好的通过挖掘标准的u因此，该分量可以被视为以相同类型为中心的，其中如果距离Euj大于u与相同类型的其他项目之间的距离，则增加总权重w+。这会对物品产生正则化效果用户项嵌入的分离和显著的准确性提高。复杂性分析嵌入空间，其中损失有利于使相同类型的所有项目在与用户相似的距离内，并且离群值受到强烈惩罚;图2（b）展示了这种效果。最后，W+MCL的时间复杂度可以分为两部分：对挖掘和损失计算。给定一个用户u，令n u |N u|表示为该用户采样的负对的数量，并且p u = |P u|比较目标对距离E3具有其他用户项距离的ui积极对的数量采样对的总数eu′i，可以解释为以批处理为中心的所有用户都被N表示，其中N=。u∈Upu+nu. Wenote方法时间复杂度空间复杂度业务流程重新设计[26]三重[9]SML[16]O（ ND）O（ ND）O（（ U+I） D）O（（ U+I） D）[4]O（ ND）O（（ U+I） D）MCLO（ND）O（（U+I）D）O（ NDS）O（（ U+I） D）数据集用户数量#项目互动次数密度亚马逊数字音乐5,5413,56846,8460.237%亚马逊杂货店14,6848,713108,0170.084%亚马逊图书52,406 41,2641,856,7470.086%Yelp202197,462 48,2942,209,7550.047%MCL：协同过滤WWW2343.O（）表3：以CML、NeuMF和LightGCN作为基础模型的所有数据集的召回（上）和NDCG（下）结果每个数据集和基础模型的最佳性能模型以粗体突出显示，次佳模型以下划线突出显示。使用SML、SRNS和我们的损失训练的模型分别用“+SML”、“+SRNS”和“+MCL”表示括号中显示了与第二个最佳模型相比的相对改进星号表示根据Wilcoxon符号秩检验的统计学显著改善数据集CMLCML+SMLCML+SRNSCML+MCLNeuMFNeuMF+SMLNeuMF+SRNSNeuMF+MCLLightGCNLightGCN+SMLLightGCN+SRNSLightGCN+MCL亚马逊-数字音乐R@5R@10R@200.04050.11570.21290.04530.12150.21690.04150.12530.22340.0459（+1.32%）0.1400（+11.7%*）0.2447（+9.53%*）0.08750.13300.19760.12030.18250.25200.11370.16150.22060.1429（+18.8%*）0.2120（+16.2%*）0.2937（+16.5%*）0.14260.21000.28020.12890.19160.26520.15180.20780.28210.1612（+6.19%*）0.2308（+9.90%*）0.3082（+9.25%*）亚马逊-杂货店R@5R@10R@200.03030.06430.11520.03180.06830.11850.03250.06710.11650.0365（+12.3%*）0.0732（+7.17%*）0.1230（+3.80%）0.03670.05950.09510.04360.06590.10240.04070.06420.09460.0585（+34.2%*）0.0896（+36.0%*）0.1360（+32.8%*）0.05900.08880.13060.04730.07800.12040.06070.09090.13530.0699（+15.2%*）0.1051（+15.6%*）0.1492（+10.3%*）亚马逊图书R@50.0417 0.05100.05310.0608（+14.5%*）0.02960.03460.02340.0488（+41.0%*）0.05420.04760.04650.0634（+17.0%*）R@100.0695 0.08320.08530.0957（+12.2%*）0.04940.05830.04020.0802（+37.6%*）0.08710.07740.07620.1000（+14.8%*）R@200.1102 0.13000.13300.1450（+9.02%*）0.08040.09440.06590.1253（+32.7%*）0.13480.11930.11810.1495（+10.9%*）R@50.02340.03000.02670.0316（+5.33%）0.02020.02020.01620.0298（+47.5%*）0.03270.02420.02960.0361（+10.4%*）Yelp2021R@10R@200.04210.07380.05220.08770.04830.07730.0555（+6.32%*）0.0921（+5.02%）0.03480.05810.03560.05950.02820.04710.0514（+44.4%*）0.0861（+44.7%*）0.05420.08810.04230.07080.05020.08230.0607（+12.0%*）0.0976（+10.8%*）数据集CMLCML+SMLCML+SRNSCML+MCLNeuMFNeuMF+SMLNeuMF+SRNSNeuMF+MCLLightGCNLightGCN+SMLLightGCN+SRNSLightGCN+MCL亚马逊-数字音乐N@5N@10N@200.02090.04710.07430.02180.05010.07660.02130.05130.07860.0223（+2.29%）0.0550（+7.21%*）0.0841（+7.00%*）0.07210.08450.10220.08960.11100.13110.08630.10240.11920.1093（+22.0%*）0.1334（+20.2%*）0.1563（+19.2%*）0.10760.13120.15140.09730.11950.14050.11380.13370.15500.1211（+6.41%*）0.1453（+8.68%*）0.1676（+8.13%*）亚马逊-杂货店N@5N@10N@200.01710.02900.04320.02030.03270.04680.02040.03230.04510.0232（+13.7%*）0.0342（+4.59%）0.0485（+3.63%）0.02740.03540.04550.03190.03980.05010.02940.03780.04560.0415（+30.1%*）0.0524（+31.7%*）0.0657（+31.1%*）0.04410.05450.06640.03400.04480.05680.04390.05460.06720.0507（+15.0%*）0.0631（+15.6%*）0.0757（+12.6%*）亚马逊图书N@50.0606 0.07320.07560.0881（+16.5%*）0.04430.05100.03430.0711（+39.4%*）0.07710.06860.06680.0927（+20.2%*）N@100.0681 0.08170.08370.0961（+14.8%*）0.04920.05740.03900.0792（+38.0%*）0.08540.07640.07440.1010（+18.3%*）N@200.0824 0.09790.10210.1127（+10.4%*）0.06010.07020.04830.0949（+35.2%*）0.10200.09110.08930.1175（+15.2%*）N@50.02770.03560.02980.0376（+5.62%）0.02410.02400.01910.0355（+47.3%*）0.03870.02870.03540.0437（+12.9%*）Yelp2021N@10N@200.03420.04510.04300.05520.03710.04810.0457（+6.28%*）0.0582（+5.43%）0.02900.03700.02940.03780.02320.02980.0427（+45.2%*）0.0546（+44.4%*）0.04570.05740.03500.04500.04220.05320.0516（+12.9%*）0.0641（+11.7%*）计算pair对的得分的复杂度与嵌入维数D具有相同的顺序，因此计算所有相关对的得分的复杂度为ND。一旦获得这些分数，等式6和等式7就增加每个用户的额外成本nu+pu。剩下的计算时间用于通过这些等式选择正对和负对，这增加了对得分和最大值/最小值之间的N次比较因此，对挖掘的总复杂度为：O（N（D+2））=O（N（D+1u∈U每个选定对的损失计算是恒定的，因此额外的计算量由N限定。我们得到总的复杂度是：O（N（D+2）+N）=O（N（D+ 3））=O（ND）（12）MCL的时间复杂度与BPR、Triplet（见表1）和SML相同，而SRNS由于在内存库中进行分数计算而具有更高的复杂度。对于空间复杂度，SML是唯一需要额外空间来存储用户和项目偏好的方法，而其他四种方法只需要嵌入的空间然而，对于SML，空间上的加法是恒定的，因此所有五种方法的空间复杂度是相同的。复杂度分析表明，我们的损失具有相同的时间和空间复杂度的BPR，三元组，和SML，而SRNS具有更高的时间复杂度。MCL：协同过滤WWW23445实验我们在公共数据集上评估我们的方法，并与领先的CF基线进行比较我们使用Amazon-Digital-Music、Amazon-Grocery、Amazon-Books和Yelp 2021数据集。这些数据集的统计数据总结见表2。数据集的大小和密度各不相同，提供了模型性能的全面视图。根据之前的工作[16，18，40]，我们随机选择80%的交互用于训练，10%用于验证，10%用于测试。为了评估每个模型的前k排名性能，我们采用了两个广泛使用的指标：召回率和归一化贴现累积增益（NDCG）[18，34，37]。基线我们使用CML [10]、NeuMF [8]和LightGCN [7]作为基础模型，因为它们代表了度量学习、神经网络和图卷积CF文献中的领先模型我们将最先进的损失函数和我们提出的MCL方法应用于基础模型，以衡量相对改善。对于我们利用的损失函数：SML[16]为每个用户引入了一个自适应偏差，以允许不同的基本偏好，以及一个对称的以项目为中心的度量，以将消极项目从积极项目中推开，同时保持用户和积极项目之间的距离。SRNS[4]通过支持记忆中的高方差负项来减少采样过程中的假阴性实例除了损失函数，我们还将我们的结果与其他领先的CF模型进行了比较：··WWWZhaolin Gao，Zhaoyue Cheng，Felipe Pérez，Jianning Sun，and MaksimsMogovs2345表4：以VAE-CF、BPRMF、LRML、NGCF和IMP-GCN为基线的所有数据集的召回（上）和NDCG（下）结果每个数据集和指标的最佳性能模型以粗体突出显示，次佳模型以下划线突出显示。使用我们的损失训练的模型用“+MCL”表示，相对改进在括号中显示星号表示根据Wilcoxon符号秩检验的统计学显著性改善。数据集VAE-CFBPRMFLRMLNGCFIMP-GCNLightGCN+MCL亚马逊-数字音乐R@5R@10R@200.12110.17300.24690.11810.17510.24310.04960.07660.11630.11440.16890.24500.14930.20520.27730.1612（+7.97%*）0.2308（+12.5%*）0.3082（+11.1%*）亚马逊-杂货店R@5R@10R@200.04830.07740.11660.04510.07430.10750.02120.03570.05730.03200.05760.09280.06020.08970.12780.0699（+16.1%*）0.1051（+17.2%*）0.1492（+16.7%*）亚马逊图书R@50.03710.03490.03440.04520.05650.0634（+12.2%*）R@100.05640.05890.05610.07280.09110.1000（+9.77%*）R@200.08250.09410.08680.11350.14130.1495（+5.80%）R@50.02040.02410.01850.02800.03320.0361（+8.73%*）Yelp2021R@10R@200.03310.05280.04230.07030.03170.05230.04790.07850.05680.09350.0607（+6.87%*）0.0976（+4.39%）数据集VAE-CFBPRMFLRMLNGCFIMP-GCNLightGCN+MCL亚马逊-数字音乐N@5N@10N@200.09120.11050.13170.09190.11200.13160.03850.04790.05930.08510.10440.12590.10960.12960.15020.1209（+10.3%*）0.1468（+13.3%*）0.1684（+12.1%*）亚马逊-杂货店N@5N@10N@200.03640.04640.05760.03310.04330.05290.01530.02060.02680.02320.03230.04210.04450.05490.06570.0507（+13.9%*）0.0631（+14.9%*）0.0757（+15.2%*）亚马逊图书N@50.06190.03880.05250.06540.08110.0927（+14.3%*）N@100.06320.05240.05750.07220.08970.1010（+12.6%*）N@200.07110.06830.06790.08640.10930.1175（+7.50%*）N@50.02600.02340.02370.03420.03960.0437（+10.4%*）Yelp2021N@10N@200.02960.03620.03260.04370.02740.03440.04070.05110.04740.05940.0516（+8.86%*）0.0641（+7.91%*）VAE-CF[17]是一种基于变分自编码器的贝叶斯协同过滤方法。BPR[26]建议使用BPR损失和矩阵分解（MF）。LRML[33]采用增强内存模块来构建潜在关系，而不是简单的推拉机制进行深度度量学习。NGCF[37]通过执行嵌入传播将图卷积网络应用于用户项二分图。IMP-GCN[18]将用户项图划分为子图，并在子图内使用高阶图卷积。对于所有模型，我们将嵌入维数设置为64，每个正对的负对数量设置为10，以使比较公平。我们使用交叉验证围绕各自作者建议的最佳设置为每个基线设置其他超参数。对于温度参数，我们从{1，5，5，5，5}中选择α，从{1，2，3，4，5}中选择β保证金·····WWWZhaolin Gao，Zhaoyue Cheng，Felipe Pérez，Jianning Sun，and MaksimsMogovs2346PyTorch在一台服务器上运行，配备40个Intel XeonCPU@2.20GHz内核和Nvidia Titan V GPU。5.1与其他损失具有不同损失函数的四个数据集的结果如表3所示。我们将使用SML，SRNS和我们的损失训练的模型分别表示为“+SML”，“+SRNS”和“+MCL”，CML，NeuMF和LightGCN作为基础模型。我们可以看到，添加MCL显著提高了四个数据集上所有模型的性能，与SML和SRNS的相同模型相比，使用MCL的模型实现了最高的性能，证明了MCL损失在与不同基础模型组合时的有效性。在基线中，我们发现当使用NeuMF作为基础模型时，SML在所有数据集上的表现都优于SRNS，而SRNS在使用CML和LightGCN作为基础模型时表现更好43 2参数，λp和λn选自{0，0.5，1，.，9.5，10}和{-3，-2.5，2.5，3}。采矿保证金固定为1。混合中心损失的所有超参数都是通过交叉验证设置的，我们讨论了它们在消融分析中的作用。我们将每个数据集的批量大小设置为1K用户，并使用Adam优化器，CML，NeuMF和LightGCN的所有其他超参数都设置为默认值。实验进行与5.2与其他方法的表4显示了与其他最先进的协同过滤方法的性能比较结果。在基准模型中，VAE-CF的性能与NGCF相当，并且都优于LRML和BPRMF。IMP-GCN具有MCL：协同过滤WWW2347(a) 用户和项目嵌入投影到1D，标准差（σ）显示在左侧。(b) 用户和项目嵌入投影到2D。图3：三种损失的学习嵌入的可视化通过在Amazon-Digital-Music数据集上训练相同的Light-GCN模型架构，然后使用t-SNE将学习到的嵌入投影到1D（图3a）和2D（图3b）空间来获得可视化三个损失的召回@20如下三重：0。2656，BPR：0。2802，MCL：0。3082.在所有四个数据集的基线中表现最好。我们提出的添加到LightGCN模型（LightGCN + MCL）的损失在所有数据集上实现了新的最先进的结果，并且始终优于所有其他方法。特别是，当与NDCG@20方面最强的基线 IMP-GCN 相比时，我们的模型在Amazon-Digital-Music ，Amazon-Grocery ，Amazon-Books 和Yelp 2021数据集上分别实现了12.1%，15.2%，7.5%和7.91%的相对改进。这些结果表明，通过更有效地利用偏好数据中的信息，并对嵌入空间施加额外的约束，我们可以在不改变底层模型架构的情况下实现性能的显著提升。5.3嵌入可视化我们损失的高性能的一个重要因素是以批处理为中心的组件，它添加了来自批处理中其他用户的全局信息我们讨论过，这个组件充当正则化器，并鼓励相同类型的项目（积极或消极）在每个用户的可比距离内为了进一步评估MCL学习对嵌入空间的影响，我们通过使用t-SNE将学习的嵌入投影到一维（1D）和二维（2D）空间来可视化它们。我们使用相同的LightGCN模型架构，并在Amazon-Digital-Music数据集上使用Triplet，BPR和MCL损失对其进行训练，投影嵌入图如图3所示。我们认识到，积极的降维可以扭曲嵌入空间，并根据经验验证，投影表示近似用户项的距离相当不错。图3a示出了1D投影用户的分布，项目嵌入和相应的标准差。三重损失的用户和项目分布都具有很高的峰值，标准差很小。这种效应可以进一步观察到在图3b中的2D投影图中。三重损失投影具有放射状形状，其中大多数用户在中间，并且项目分组在用户周围的圆形区域中。这两个图都反映了三重损失的主要缺点之一：权重不是根据每对的难度来因此，简单的积极因素会获得很大的权重，将用户和积极因素聚集在一起，形成大的集群。由于非常接近的用户会得到类似的推荐，因此大的用户集群可能会产生不期望的效果，模型很难识别特定的用户并提供真正个性化的推荐。BPR损失能够通过使用取决于对距离之间我们看到，BPR的1D投影比Tripletloss的标准差大10倍以上，2D投影显示了分布在整个嵌入空间中的清晰的用户子集群。然而，在中心仍然有大量的用户和项目集群。该集群包含超过30%的用户，这些用户彼此非常接近，可能会导致次优推荐。相对于BPR，我们的MCL损失进一步增加了50%以上的标准差，并且从2D投影中我们可以看到，用户和项目现在都被分成了更紧密的集群，这些集群跨越了整个嵌入空间。这反过来又导致了显着的准确性提高，其中MCL将Recall@20分别提高了16%和10%，而不是Triplet和BPR损失。5.4消融分析负样本的数量在MCL中起着可以为每个用户精确地计算到最远的正项的距离，但是从负样本估计到最近的负项的距离因此，更大的样本集导致更好的距离近似，这反过来提供了更好WWWZhaolin Gao，Zhaoyue Cheng，Felipe Pérez，Jianning Sun，and MaksimsMogovs23484∈{}∈{− −}≪表5：在亚马逊数字音乐和亚马逊图书数据集上的召回@20，因为底片的数量（n）从1变化到20。数据集模型n=1n=2n=3n=5n=10n=20亚马逊-LightGCN0.28800.28310.28200.28120.28010.2771数字音乐LightGCN+MCL0.29620.30380.30560.30710.30820.3093亚马逊-LightGCN0.14110.13860.13750.13620.13480.1335书LightGCN+MCL0.12330.13650.14250.14510.14950.1532表6：当嵌入维度d从16变化到64时，亚马逊数字音乐和亚马逊图书数据集上的Recall@20。模型亚马逊数字音乐亚马逊图书d=64D=32D=16d=64D=32D=16LightGCN0.28010.27010.2407 0.13480.10880.0841L

下载后可阅读完整内容，剩余1页未读，立即下载