基于注意力的协同排序模型LRML的研究与应用

114 浏览量更新于2023-10-15 收藏 12.86MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

7290通过基于记忆的注意力进行潜在关系度量学习，用于协同排序0YiTay新加坡南洋理工大学ytay017@e.ntu.edu.sg0Luu AnhTuan新加坡信息通信研究所at.luu@i2r.a-star.edu.sg0Siu CheungHui新加坡南洋理工大学asschui@ntu.edu.sg0摘要0本文提出了一种用于隐式反馈的协同排序的新型神经架构。我们的模型LRML（潜在关系度量学习）是一种新颖的推荐度量学习方法。具体而言，我们提出学习描述每个用户-项目交互的潜在关系，而不是简单的用户-项目对之间的推拉机制。这有助于缓解现有度量学习方法的几何不灵活性。这不仅可以提高性能，还可以更广泛地建模能力，使我们的模型能够扩展到更多的交互数量。为了做到这一点，我们采用了一个增强的记忆模块，并学习对这些记忆块进行注意力调节以构建潜在关系。基于记忆的注意力模块由用户-项目交互控制，使得学习到的关系向量对每个用户-项目对具体化。因此，这可以被解释为学习每个用户-项目交互的独特和最优的关系转换。所提出的架构在多个推荐基准上展示了最先进的性能。在Netflix和MovieLens20M等大型数据集上，LRML在Hits@10和nDCG@10方面的性能比其他度量学习模型提高了6% -7.5%。此外，定性研究还证明，尽管只是在隐式反馈上进行训练，我们提出的模型能够推断和编码显式的情感、时间和属性信息。因此，这证实了LRML在隐式数据集中揭示隐藏关系结构的能力。0关键词0协同过滤；推荐系统；神经网络0ACM参考格式：Yi Tay，Luu Anh Tuan和Siu CheungHui。2018。通过基于记忆的注意力进行潜在关系度量学习，用于协同排序。在WWW2018：2018年网络会议上，2018年4月23日至27日，法国里昂。ACM，纽约，美国，11页。https://doi.org/10.1145/3178876.318615401 引言0现代社会是一个信息过载的世界。信息爆炸，也被称为大数据时代，是实用推荐系统研究和开发的巨大动力。一般来说，这些系统致力于解决的关键问题是0本文根据知识共享署名4.0国际（CC BY4.0）许可发布。作者保留在个人和公司网站上传播作品的权利，并附上适当的归属。WWW 2018，2018年4月23日至27日，法国里昂©2018IW3C2（国际万维网会议委员会），根据知识共享CC BY 4.0许可发布。ACM ISBN978-1-4503-5639-8/18/04。https://doi.org/10.1145/3178876.31861540解决的问题是用户常常面临的“内容太多，时间太少”的难题。毕竟，在任何给定时间，都有数百万部电影、数千首歌曲和数百本书可供选择。有效的推荐系统通过向用户提供最相关的内容来改善这个问题。我们的工作针对的是在隐式数据（如点击、喜欢、书签）上运行的推荐系统，也被称为协同过滤（CF）系统[27]。在这种设置下，矩阵分解（MF）仍然是最流行的基线之一，它已经激发了相当多的变体[7,8,13,25]。MF的一般思想如下：用户和项目被表示为矩阵，然后被分解为潜在组件，这也可以被解释为使用内积对用户和项目之间的关系进行建模。因此，这允许推断缺失值，从而提供了对推荐问题的近似解决方案。最近，Hseih等人[9]揭示了使用内积来建模用户-项目关系的潜在影响。他们的论证是建立在内积违反三角不等式的事实上，而三角不等式对于建模用户的细粒度偏好至关重要。相反，作者提出了一种基于度量的学习方案，该方案最小化了正交互动的用户和项目向量（p和q）之间的距离。同时，这也在向量空间中学习了用户-用户相似性和项目-项目相似性。作为对他们主张的证据，他们提出的算法，协同度量学习（CML）算法[9]在许多基准数据集上展示了极具竞争力的性能。尽管CML取得了成功，但它面临着几个弱点。首先，CML的评分函数显然是几何限制性的。给定一个用户-项目交互，CML试图将这对配对到向量空间中的同一点。考虑到协同排序问题的多对多性质，从几何角度来看，在向量空间中强制实现良好的拟合可能非常具有挑战性，特别是由于每个用户和项目的最优点现在是向量空间中的一个单一点。直观地说，这试图将用户及其所有互动项目都适应到同一点上，即在几何上拥挤和不灵活。虽然可能学习用户-用户和项目-项目相似性簇，但这是以精度和排名问题为代价的，特别是对于可能存在数百万次互动的大型数据集。其次，从更具理论基础的角度来看，CML是一个不适定的代数系统，这进一步加剧了几何不灵活性的问题。相关工作部分描述了证明和更多细节。0Track: User Modeling, Interaction and Experience on the Web WWW 2018, April 23-27, 2018, Lyon, France7300在这项工作中，我们提出了一种灵活和自适应的协同过滤和排序度量学习算法。我们的模型LRML（潜在关系度量学习）学习用户和项目交互之间的自适应关系向量，找到每个交互对之间的最佳转换向量。不用说，我们的工作受到了最近在NLP领域取得的进展的启发，其中包括备受赞誉的词嵌入[18]和知识图嵌入[2, 15,32]，这些进展推广了向量空间中的语义翻译的概念。在我们提出的方法中，我们假设隐式交互数据中存在潜在的关系结构，因此我们的目标是通过引入关系向量来建模用户和项目之间的潜在关系。总的来说，我们的主要直觉可以描述如下：对于每个用户和项目的交互，我们学习一个解释这种关系的向量r，即关系向量r将用户向量连接到项目向量。理想情况下，这个向量r应该捕捉到每个隐式交互之间的隐藏语义，并且通过神经注意机制在辅助记忆模块上进行学习。辅助记忆模块可以被解释为一个概念的记忆存储，通过线性组合构建一个关系向量。这个记忆模块的内容寻址是用户和项目相关的，这确保了几何空间中足够的灵活性。除了可解释的注意模块的明显好处外，LRML也可以被认为是对CML算法[9]的改进。我们的方法通过向量空间中的自适应（用户-项目特定）翻译来解决几何上的不灵活性问题。这使得模型在度量空间中具有更大的灵活性和建模能力，使得我们的模型能够扩展到具有数百万交互的大型数据集。01.1 我们的贡献0受深度学习的成功的启发，无论是在推荐系统领域还是在其他领域，我们的想法都以一种神经网络架构的形式实现，该架构利用了神经注意机制和增强记忆模块的最新进展[28]。总的来说，本文的主要贡献有：0•我们提出了LRML（潜在关系度量学习），这是一种新颖的、端到端的神经网络架构，用于隐式交互数据的协同过滤和排序。我们首次采用用户和项目特定的潜在关系向量来建模用户-项目交互之间的关系。•我们提出了一种新颖的潜在关系注意力记忆（LRAM）模块，以生成潜在关系向量。LRAM模块在算法的灵活性和建模能力方面提供了改进。此外，神经注意力还提供了对模型的更深入理解和可解释性。•我们在十个公开可用的基准数据集上评估了我们提出的LRML。这包括像NetflixPrize和MovieLens20M这样的大规模网络数据集。我们提出的方法在所有数据集上都展示出极具竞争力的结果，不仅优于CML，还优于许多其他强大的基线模型，如NeuMF[7]。此外，在大型数据集上，我们的模型相比CML和其他模型的性能提高了6%至7.5%。0•我们进行了广泛的定性分析。通过检查注意力权重，我们提出的LRML能够推断出明确的信息，如评级（例如，1-5星），时间和项目属性信息，尽管它只是在隐式二进制数据上进行训练。这证实了LRML在揭示看似非关联数据集中隐藏的潜在结构方面的能力。0我们的工作涉及到带有隐式反馈的协同过滤。我们首先阐述了问题的形式化，并讨论了旨在解决该问题的现有算法。然后，我们详细说明了协同度量学习算法的潜在弱点。02.1 隐式协同过滤0隐式协同过滤的任务涉及通过隐式交互数据进行学习，例如点击、书签、喜欢等。设P为所有用户的集合，Q为所有物品的集合。隐式CF的问题可以描述如下：0yui = �01，如果存在交互<用户，物品> 0，否则（1）0其中Y∈R|P|×|Q|是用户-物品交互矩阵。隐式CF模型用户和物品的交互，需要记住的是，值为0并不一定意味着负反馈。在大多数情况下，用户对物品的存在是不知情的，这是推荐问题的基石，即估计Y中未观察到的条目的分数。在过去的十年中，矩阵分解（MF）技术是协同过滤的高度流行的算法，并产生了大量的变体[7,8]。由于MF不属于我们工作的核心重点，为了简洁起见，我们省略了MF的技术描述，并将感兴趣的读者参考[7,9]获取更多细节。02.2 协同度量学习（CML）0CML[9]是一种最近提出的用于CF的算法，尽管它很简单，但在几个基准测试中表现出高竞争力。其关键思想是CML在度量空间中运作，即在欧几里得空间中最小化每个用户-物品交互的距离。CML的评分函数定义为：s(p,q) = ∥p - q∥22（2）0其中p，q分别是用户和物品向量。CML通过成对的hinge损失进行学习，这类似于贝叶斯个性化排序（BPR）[25]。CML遵循三角不等式，根据作者的说法，这是在向量空间中细粒度拟合用户和物品的先决条件。然而，CML并非没有缺陷。正如前面提到的，CML的评分函数在几何上是有限制的，因为目标函数试图将每个用户-物品对拟合到向量空间中的同一点。不幸的是，这种固有的几何不灵活性会导致01在本文中，我们将协同过滤和协同排序这两个术语互换使用。0Track: User Modeling, Interaction and Experience on the Web WWW 2018, April 23-27, 2018, Lyon, France7310当数据集很大或很密集时，CML会产生不良后果，因为CML试图将用户的所有物品交互强制到同一点上。其次，从更具理论基础的角度来看，我们证明了CML是一个不适定的代数系统[36]，这进一步加剧了几何不灵活性的问题。下面的证明详细阐述了这个问题。0定理2.1. CML的目标函数：s(p,q) = ∥p -q∥22在存在大量交互时可以被视为一个不适定的代数系统。0证明。设d为向量p和q的维数。从代数的角度来看，每个用户-物品交互可以被视为方程p - q = 0。通过考虑pi -qi，其中i是向量p和q的索引，每个交互的方程数为d。设N为总交互数，则总方程数为N×d。另一方面，自由变量的数量只有(|P| +|Q|)×d。由于在大多数情况下N � d(|P| +|Q|)，CML是一个不适定的代数系统。□0由于隐式推荐数据集中的交互数量往往达到数百万次，而唯一的物品和用户数量明显较少，因此从数学角度来看，可以认为CML提出了一个不适定的代数系统。这在训练和优化CML的目标函数时会引入不稳定性。02.3 在向量空间中进行平移0我们提出的LRML方法通过自适应平移来改善CML的缺陷。由于我们的自适应平移是通过神经注意力对增强记忆进行加权表示学习的，这为用户和物品向量在向量空间中的平移引入了极大的可能性。具体来说，通过softmax函数学习的注意力向量学习了增强记忆的连续加权表示。因此，这显著扩展了度量学习算法的灵活性。在LRML中，用户向量现在根据目标物品进行自适应平移（反之亦然）。因此，这使得LRML能够避免CML的上述缺陷，并在向量空间中实现更精确和细粒度的拟合。在向量空间中进行平移受到了自然语言处理（NLP）的启发，特别是对语义（知识图谱）进行推理。在这个领域，Bordes等人的一项具有重要影响力的工作（TransE）[2]提出了在向量空间中进行平移以建模知识图谱中实体之间的关系。词嵌入[18]也被认为在向量空间中具有语义平移，即两个词之间的关系可以用一个关系向量来解释。将用户和物品建模为交互矩阵的CF领域与图形和网络嵌入[17, 21,29]密切相关。据我们所知，我们的工作是第一个通过假设潜在关系（3D）结构将用户-物品CF的2D结构扩展为3D结构的工作。直观地说，这也可以解释为从用户-物品交互图中引入潜在知识图。图1描述了LRML和CML之间的关键区别-虽然CML试图将用户和物品放在向量空间中的同一位置0空间，LRML学习使用自适应可训练的潜在向量来拟合用户和物品。具体来说，LRML学习了每个用户-物品交互之间的最佳平移。回顾第2.2节，我们先前已经确定CML由于是一个病态代数系统而导致不稳定性，以及几何上的不灵活性，即来自过多交互的推拉效应。为了减轻这个弱点，我们提出的方法采用了注重和自适应的用户-物品特定平移，从学习加权（线性组合）表示的大量可能性中受益。最后，我们注意到最近由He等人提出的另一个基于平移的推荐模型TransRec[6]，其中作者提出使用平移来建模序列数据。虽然TransRec也利用了平移原理，但LRML是一个完全不同的模型。首先，TransRec学习了用于顺序推荐的平移，例如，用户与之交互的第二个物品由第一个物品的平移表示。其次，LRML的总体目标不同，即LRML利用平移进行灵活和自适应的度量学习。第三，LRML使用神经注意力来学习潜在关系，这也是TransRec中缺少的一个特征。0用户0物品0系0用户0物品0（a）LRML0用户0物品0平移向量/潜在关系0用户0物品0（b）CML0图1：潜在关系度量学习（LRML）和协同度量学习（CML）在度量空间中建模用户-物品关系的几何比较。02.4 深度学习0在本节中，我们提供了一些关于推荐系统深度学习的基础知识。02.4.1推荐系统的深度学习。近年来，我们可以很容易地观察到为各种推荐任务设计的神经网络模型的增加数量。值得注意的是，循环神经网络[38]和卷积神经网络[30]已被用于序列感知推荐。还有一系列关注使用评论进行表示学习的工作，例如Deep Co-operativeNetworks（DeepCoNN）[43]。最近的一项工作，多指针共同注意力网络[35]是使用指针注意力进行表示学习的最先进的基于评论的CF模型。基于自动编码器的模型[14,42]也被提出用于CF。在隐式反馈的协同过滤领域中，神经矩阵分解（NeuMF）[7]是一种最新的最先进的深度学习模型，它学习了0Track: User Modeling, Interaction and Experience on the Web WWW 2018, April 23-27, 2018, Lyon, FranceK1K2K3K4K5K6User Embedding LayerM1M2M3M4M5M6Relation Layer| ! + # − & |SoftmaxHadamardProductJoint EmbeddingInner ProductLatentRelation Vector #Memory SlicesUser-Item KeysPairwise Hinge LossTranslation Layer| !′ + # − &′ |LRAMRelationModeling LayerNegativeSamplingItem Embedding LayerItem Vector &User Vector !Item Vector &′User Vector !′7320使用深度神经网络建模用户和物品之间的交互函数。NeuMF是一个综合框架，将基于内积的MF与多层感知机（MLP）连接在一起。详细的综述可以在[41]中找到。02.4.2神经注意力。我们的工作借鉴了深度学习的最新进展。具体而言，LRML使用神经注意机制在增强记忆模块上生成潜在向量。神经注意机制在计算机视觉[20, 39]和自然语言处理[16, 23, 26, 31,34]领域很受欢迎，已知可以提高深度学习模型的性能和可解释性。注意力的关键思想是学习多个样本（或嵌入）之间的加权表示，减少噪声并选择更具信息量的特征进行最终预测。注意力使用softmax函数进行操作，将注意力向量转换为概率分布。随后，该向量被用于学习一系列向量的加权和。值得注意的是，注意力机制最近也被用于协同过滤问题，特别是基于内容的推荐，如多媒体推荐[3]。然而，我们模型的新颖之处在于，我们的模型采用神经注意机制在增强记忆模块上生成潜在关系向量。这与基于内容的注意力模型有根本的区别，后者学习对特征进行关注并学习预测。虽然关注选择的关键思想相似，但我们模型的目标是通过利用注意机制来找到隐藏的关系结构。此外，我们提出的LRAM的内部机制与端到端记忆网络[28]和键值记忆网络[19]非常相似，后者是问题回答、机器理解和方面感知情感分析[33]的竞争模型。03我们提出的模型0在本节中，我们介绍了LRML，我们的新型深度学习推荐架构。整体模型架构如图2所示。LRML旨在使用关系向量对用户和物品进行建模。这就是我们所说的平移原则，即p + r ≈q。注意，关系向量r是我们的模型与简单的度量学习方法（如CML）的区别所在，后者通过p ≈q进行操作。让我们从对我们模型的简单高级概述开始：0（1）使用嵌入层（查找层）将用户和物品转换为密集向量表示。p和q分别是用户和物品向量。（2）给定p和q，使用神经注意机制在增强记忆矩阵M上生成关系向量r。关系向量r是可训练的LRAM模块上的加权表示。r依赖于用户和物品，并且被学习以最好地解释用户和物品之间的关系。（3）我们的模型通过成对排名（hinge loss）和负采样来优化∥p + r - q∥≈0。0图2：我们提出的LRML架构示意图，一个端到端可微分的神经架构。LRML的特点是其关键地址化LRAM模块，该模块学习用户-物品特定的关系向量。在这个示例中，内存的大小N=6个切片。03.1嵌入层0LRML接受一个用户-物品对<用户，物品>作为输入。用户和物品的输入通过独特的索引键进行独热编码表示为向量。在嵌入层，这个独热编码向量被转换为低维实值密集向量表示。为了实现这一点，这个独热向量与嵌入矩阵P∈Rd×|U|和Q∈Rd×|I|相乘，它们分别存储用户和物品的嵌入。d是用户和物品嵌入的维度，|U|和|I|分别是用户和物品的总数。该层的输出是一对嵌入<�p，�q>，分别是用户和物品的嵌入。03.2 LRAM - 潜在关系注意力记忆模块0我们的 LRML模型的主要目标之一是诱导用户-项目对之间的潜在关系。然而，在传统的协同过滤中，用户-项目对之间的显式语义关系是不可用的。因此，我们引入了潜在关系注意力记忆（LRAM）模块。LRAM模块是一个集中式的记忆存储，用于构建潜在关系。LRAM模块的记忆矩阵表示为 M ∈ R N × d，其中 d是用户-项目嵌入的维度，N 是一个用户指定的超参数，用于控制LRAM 模块的表达能力和容量。在矩阵 M 中，我们将每个行切片 mi ∈ R d 称为一个0Track: 用户建模、交互和 Web 体验 WWW 2018，2018 年 4 月 23-27 日，法国里昂Sof tmax(ai ) =r =7330记忆切片。LRAM 的输入是一个用户-项目对 < p, q >。LRAM模块返回与 p 和 q 维度相同的向量 r。03.2.1 联合用户-项目嵌入。给定用户-项目对 < � p, � q >，LRAM模块首先应用以下步骤学习用户和项目的联合嵌入：0s = p ⊙ q (3)0其中 ⊙ 简单地表示哈达玛积（或逐元素乘法）。生成的向量 s ∈ Rd 与 p 和 q 的维度相同。请注意，虽然其他函数如多层感知机MLP(p, q) 也是可行的，但我们发现简单的哈达玛积效果更好。03.2.2用户-项目关键地址。接下来，使用联合用户-项目嵌入，我们旨在学习一个注意力向量 a。注意力向量是从 K ∈ R N × d中学习的，我们将其称为关键矩阵。注意力向量 a 的每个元素可以定义为：0a i = s T k i (4)0其中 k i ∈ K ∈ R N × d，生成的向量 a ∈ R d 与 p、q 和 s的维度相同。为了将 a 归一化为概率分布，我们可以简单地使用Softmax 函数：0⊙ j e a j . (5)0由于我们的注意力机制使用了 softmax函数，它确保了我们的网络是端到端可微分的。03.2.3通过基于记忆的注意力生成潜在关系。最后，为了生成潜在关系向量r，我们使用注意力向量 a 来从记忆矩阵 M中选择相关信息的加权表示，即从记忆矩阵 M中自适应地选择相关信息。0i a i m i (6)0LRAM 模块的输出是一个特定于用户和项目的潜在关系向量r。潜在关系向量是 M 的加权表示。直观地说，记忆矩阵 M可以被解释为描述用户和项目之间关系的概念构建块的存储。LRAM模块的机制设计受到记忆网络的启发，也可以解释为神经注意力，这使得我们的模型具有更好的可解释性。请注意，LRAM 模块是 LRML的一部分，并且是端到端训练的。最后，LRAM模块添加的参数总数仅为 2 × N × d，由于我们在实验中通常设置 N< 100，因此 LRAM 模块产生的参数成本可以忽略不计。03.3 优化和学习0在本节中，我们介绍网络的最后一层、目标函数和我们训练方案中使用的正则化方法。LRML 是端到端可微分的，因为它利用了对 LRAM模块的软注意力。因此，我们能够通过随机梯度下降（SGD）方法简单地训练它。03.3.1 关系建模层。对于每个用户-项目对 p 和 q，评分函数定义为：0s(p,q) = ||p+r-q||2 2 (7)0其中r是从LRAM模块构建的潜在关系向量，||.||22实际上是向量p+r-q的L2范数。直观上，该评分函数惩罚(p+r)与向量q的任何偏差。03.3.2目标函数。LRML采用成对排名损失或hinge损失进行优化。对于每对正用户-项目< p,q >，我们采样一个损坏的对，记为< p',q'>。与正例类似，用户和项目的损坏对分别经过相同的用户和项目嵌入层。成对排名/ hinge损失定义如下：0L = �0(p,q) ∈ ∆0(p',q') � ∆ max(0,s(p,q)+λ−s(p',q')) (8)0其中∆是所有用户-项目对的集合，λ是分离黄金对和损坏样本的边界。max(0,x)也称为relu函数。请注意，我们对负例使用相同（生成的）潜在关系向量。这是基于我们早期的实证结果，通过为负例生成单独的关系向量，性能要好得多。03.3.3正则化。最后，我们通过将所有用户和项目嵌入规范化为欧几里得球体来应用正则化。在每个小批量的末尾，我们应用约束∥p�∥2 ≤1和∥q�∥2 ≤1进行正则化和防止过拟合。为了强制执行这一点，我们可以在开始时或每次训练迭代后手动将所有嵌入投影到单位球体中。04性能评估0在本节中，我们评估了我们提出的LRML与其他最先进的算法。我们的实验评估旨在回答几个研究问题（RQs）。0• RQ1：LRML是否优于其他协同排名的基线和最先进方法？ •RQ2：LRML和CML在不同数据集大小上的相对性能如何不同？• RQ3：与其他基线相比，LRML的可扩展性和运行时间如何？•RQ4：LRML的LRAM模块学习了什么？我们能否从中获得关于LRML内部工作方式的定性洞察？ •RQ5：关系向量代表什么？它们是否有意义？04.1数据集0为了保证实验的严谨性，我们在各种数据集上进行评估。0• Netflix Prize - 由于整个NetflixPrize数据集非常庞大，我们构建了一个著名的NetflixPrize数据集的子集。具体来说，我们只考虑了2005年的电影-项目评级，并过滤掉了互动次数少于100次的用户。0跟踪：用户建模，Web上的交互和体验 WWW 2018，2018年4月23日至27日，法国里昂7https://www.tensorflow.org/Track: User Modeling, Interaction and Experience on the WebWWW 2018, April 23-27, 2018, Lyon, France7340• MovieLens -一个被广泛采用的用于协同过滤的基准数据集，用于向用户推荐电影。具体来说，我们使用了该基准数据集的两个配置，即MovieLens1M和MovieLens20M [5]。 • IMDb -从IMDb获得的电影推荐数据集，该数据集在[4]中介绍。 • LastFM -该数据集包含来自Last.fm在线音乐系统的社交网络、标签和音乐艺术家收听信息3。 • Books -这是一个用于[44]中使用的图书推荐数据集。 • Delicious -该数据集包含来自Delicious Social BookmarkingSystem4的2K用户的社交网络、书签和标签信息。该数据集与lastFM数据集一起源自Hetrec 2011研讨会5。 • Meetup -一个基于事件的社交网络6。我们使用[22]提供的数据集，其中包括来自纽约的事件-用户对。 • Twitter -这是由[40]构建的签到数据集，其中包含用户及其签到信息。该数据集有两个子集，即Twitter（WW）和Twitter（USA）。总之，我们在十个不同的数据集上评估我们提出的算法，这些数据集具有不同的大小和交互密度，即用户-项目交互矩阵中非零值的百分比。对于所有数据集，除了NetflixPrize数据集外，我们确保每个用户至少有20次互动。所有数据集的统计数据报告在表1中。0数据集交互数用户数项目数 %密度0Netflix Prize 44M 75K 13K 4.5 MovieLens20M 16M 53K 27K1.1 MovieLens1M 1M 6K 4K 4.2 IMDb 117K 0.8K 114K 0.13LastFM 92K 1.9K 175K 0.28 Books 285K 7.4K 291K 0.01Delicious 43K 1.7K 69K 0.36 Meetup 11K 2.6K 16K 0.26Twitter (WW) 18K 4K 36K 0.01 Twitter (USA) 171K 4K 36K0.120表1：我们实验评估中使用的所有数据集的统计信息。04.2 基线0在本节中，我们介绍了与我们提出的LRML进行比较的关键基线。•贝叶斯个性化排序（BPR）[25]是一种强大的CF基线，它最小化了�i�j，k−logσ(pTiqj−pTiqk)+02 https://grouplens.org/datasets/movielens/ 3http://last.fm 4 http://www.delicious.com 5https://grouplens.org/datasets/hetrec-2011/ 6https://www.meetup.com/0λ v ∥ u i ∥ 2 + λ q ∥ q j ∥ 2 ，其中（p i，q j）是正交互，（pi，qk）是负样本。•矩阵分解（MF）是CF的标准基线，它使用内积来建模用户和项目之间的关系。我们使用[7]中的广义版本，将用户项目对得分为s(p,q)=σ(hT(p⊙q))。•多层感知机（MLP）是[7]中提出的基线神经架构，其中作者提出使用多层非线性来建模用户和项目之间的关系。•神经矩阵分解（NeuMF）[7]是将MF与MLP结合的最先进统一框架。NeuMF将MF和MLP的输出连接起来，并使用回归层来预测用户项目评分。请注意，NeuMF对于MF和MLP使用单独的嵌入表示用户和项目。•协同度量学习（CML）[9]可以被认为是我们模型的基线，它不包括用户和项目向量之间的关系转换。由于CML和NeuMF已经超过了许多其他基线，如WMF [10]，eALS [8]和FactorizationMachines[24]，我们不再进一步报告它们。此外，为了公平比较和可扩展性问题，我们不使用WARP [37]来进行CML和LRML的训练。04.3 评估协议和指标0我们的评估协议与He等人[7]非常接近。同样，我们采用了留一法评估协议，即测试集包含所有用户的最后一个项目。如果数据集中没有时间戳可用（例如Delicious和LastFM），则随机抽样测试样本。还随机抽样每个用户的一个项目形成开发集。由于对每个用户的所有项目进行排序太耗时，我们随机抽样了100个与目标用户没有交互的项目，并根据这100个项目对测试项目进行排序。这与许多研究[1, 7, 8,25]一致。由于我们的问题本质上是学习排序，我们根据信息检索和推荐系统中广泛采用的标准指标来评估模型的性能：归一化折扣累积增益（nDCG@10）[11]和命中率（H@10）。直观地说，nDCG@10指标是一种位置感知的排序指标，而H@10指标仅考虑真实结果是否排在前10个项目中。有关更详细的解释，我们将读者引用到[7]。0我们在Linux机器上使用TensorFlow7实现了所有模型。为了调整超参数，我们选择在开发集上表现最好的模型，根据nDCG指标报告该模型在测试集上的结果。模型参数每50个epoch保存一次。所有模型都训练到收敛，即如果在50个epoch后开发集上的性能（nDCG指标）没有改善。模型最多训练500个epoch。对于像MovieLens20M和NetflixPrize这样的大型数据集，我们在100个epoch时停止训练。BPRMLPMFNEUMFCMLLRMLH@10nDCG@10H@10nDCG@10H@10nDCG@10H@10nDCG@10H@10nDCG@10H@10nDCG@10Netflix48.6731.9733.7722.3447.0730.2532.2722.5946.1229.4853.7135.78MovieLens20M69.6846.6875.8154.3872.9849.0175.8254.3777.6453.0184.4761.52MovieLens1M72.3753.3348.5933.1168.8749.1768.6150.6572.1654.1373.9754.53IMDb4.624.234.113.795.264.894.874.559.477.1611.928.45LastFM20.7313.587.363.7518.1712.0214.899.6119.7512.0321.7114.38Books22.0716.1312.8910.0315.6110.7512.547.6525.8618.7026.7219.43Delicious78.5077.7877.0573.8078.9178.0978.7978.1179.3178.4380.3179.01Meetup44.9136.0831.3323.1947.2338.2932.7625.7947.0436.6450.1940.48Twitter (WW)76.3975.2753.3335.6876.9375.4376.6674.8675.8674.7278.9277.17Twitter (USA)75.8875.0477.9176.2376.4775.6270.7569.7978.3076.5079.3677.857350表2：十个基准数据集上的实验结果。最佳性能以粗体显示，次佳性能以下划线显示。LRML在所有数据集上都取得了最佳性能，在许多强大的神经基线模型上表现出色。在Netflix Prize或MovieLens20M等大型数据集上的改进要大得多。0用户和项目嵌入 d 在 { 20 , 50 , 100 } 之间进行调整。批次数 B在 { 10 , 100 , 1000 }之间进行调整。为了适应GPU的内存，NetflixPrize和MovieLens20M的最小批次数为100。我们使用Adam优化器[12]对所有模型进行优化。所有模型的学习率在 { 0 . 01 , 0 . 005 , 0 . 001 }之间进行调整。对于最小化合页损失的模型，边界 λ 在 { 0 . 1 , 0 .2 , 0 . 25 , 0 . 5 }之间进行调整。对于NeuMF和MLP模型，我们遵循He等人提出的配置和架构，即金字塔架构的3个全连接层。然而，为了公平比较所有模型，我们在NeuMF模型中不使用预训练的MLP和MF模型，因为这实际上是一个集成分类器。对于LRML，内存切片数 M 在 N = { 5, 10 , 20 , 25 , 50 , 100 }之间进行调整。为了简化起见，每个训练实例只与一个负样本配对。所有嵌入和参数的标准差通常初始化为0 .01。对于大多数数据集和基线模型，我们发现以下超参数效果良好：学习率 = 0 . 001，批次数 B = 10， λ = 0 .2。较大的嵌入大小始终表现更好，即 d =100。LRAM的大小取决于数据集。我们发现将 N = 20设置为大多数数据集效果良好（超过50不会降低性能，但也不会提高性能）。然而，我们发现将 N = 100 设置为NetflixPrize和MovieLens20M等大型数据集效果更好。04.5实验结果0我们提出的模型和基线模型在10个基准数据集上的实证结果如表2所示。我们提出的LRML在所有数据集上都表现出极高的竞争力，并在所有数据集上的nDCG@10和H@10指标上取得最佳性能。这回答了RQ1，表明我们提出的LRML能够有效地进行协同排名。此外，许多竞争基线模型的排名在不同数据集上波动，我们可以看到第二佳性能分散在不同的模型之间。04.5.1与CML的比较。总体而言，LRML在所有数据集上的H@10和nDCG@10指标上表现优于CML。我们将会0我想引起读者对两个数据集的注意，即NetflixPrize和MovieLens20M数据集，LRML在这两个数据集上的性能提升明显超过竞争模型。这证实了我们之前关于CML的缺陷（无法扩展到大型数据集）以及我们提出方法的优势的说法。具体而言，LRML在nDCG@10指标上在MovieLens20M上比CML的性能提升约为7.5％，在NetflixPrize上约为6％。在命中率（H@10）指标上的性能提升也同样高。当数据集较小时，性能提升不太明显。例如，在MovieLens20M中的性能提升要比在MovieLens1M中大得多。在较小的数据集上的性能提升范围从微小的1％-2％（例如Books和Delicious）到相当大的3％-4％（例如Meetup或Twitter（WW））数据集。因此，关于LRML和CML的比较的结论可以总结如下：在大型数据集上，LRML相对于CML的性能提升较大。然而，在较小的数据集上，LRML至少表现得同样好，有时甚至更好。这回答了关于数据集大小对LRML和CML相对性能的影响的RQ2。我们的实验证据表明，我们提出的LRML是有效的，并证实了我们在度量学习中使用自适应翻译的方法。04.5.2与其他基线的比较。关于其他基线的性能，我们发现MF和BPR的性能非常有竞争力，即MF和BPR在几个数据集上优于CML。另一方面，MLP的性能只在MovieLens20M上表现得相对较好，在大多数数据集上表现得非常糟糕。请注意，我们还尝试了非金字塔结构，但并没有改善性能。将MLPs与MF结合的模型NeuMF的性能通常优于纯MLP，但在大多数情况下仍不及MF。值得注意的是，NeuMF在MovieLens20M、NetflixPrize和MovieLens1M上表现得相对较好。这可能意味着在较小的数据集上使用双嵌入空间（一个用于MF，一个用于MLP）可能会过拟合。0Track: User Modeling, Interaction and Experience on the Web WWW 2018, 2018年4月23日至27日，法国里昂and MovieLens20M. We make several observations. First, the dif-ference in runtime between LRML and CML is quite insig

下载后可阅读完整内容，剩余1页未读，立即下载