`树增强嵌入模型提供可解释推荐`

154 浏览量更新于2023-10-16 收藏 13.5MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

Track: Web Search and MiningWWW 2018, April 23-27, 2018, Lyon, France15430TEM：可解释推荐的树增强嵌入模型0新加坡国立大学王翔xiangwang@u.nus.edu0何向南�0新加坡国立大学向南何xiangnanhe@gmail.com0新加坡国立大学冯福利fulifeng93@gmail.com0山东大学聂立强nieliqiang@gmail.com0新加坡国立大学蔡达成dcscts@nus.edu.sg0摘要0尽管协同过滤是个性化推荐中的主要技术，但它仅模拟用户与项目的交互，并不能提供具体的推荐原因。同时，与用户项目交互相关的丰富的附加信息（例如用户人口统计信息和项目属性）尚未充分探索提供解释。在技术方面，基于嵌入的方法（如Wide&Deep和神经分解机）提供了最先进的推荐性能。然而，它们像黑盒子一样工作，无法明确呈现预测的原因。另一方面，决策树等基于树的方法通过从数据中推断决策规则来进行预测。虽然可解释，但它们无法推广到未见过的特征交互，因此在协同过滤应用中失败。在这项工作中，我们提出了一种名为Tree-enhanced EmbeddingMethod的新颖解决方案，它结合了基于嵌入和基于树的模型的优势。我们首先采用基于树的模型从丰富的附加信息中学习明确的决策规则（即交叉特征）。然后，我们设计了一个嵌入模型，可以将明确的交叉特征并推广到用户ID和项目ID上的未见交叉特征。我们嵌入方法的核心是一个易于解释的注意网络，使推荐过程完全透明和可解释。我们在两个旅游景点和餐厅推荐的数据集上进行实验，展示了我们解决方案的卓越性能和可解释性。0CCS概念0• 信息系统 → 推荐系统；0关键词0可解释的推荐，基于树的模型，基于嵌入的模型，神经注意网络0�向南何是通讯作者。0本文发表在知识共享署名4.0国际许可证（CC BY4.0）下。作者保留在个人和公司网站上传播作品的权利，并附上适当的归属。WWW2018，2018年4月23日至27日，法国里昂，© 2018IW3C2（国际万维网会议委员会），根据知识共享CC BY 4.0许可证发布。ACM ISBN978-1-4503-5639-8/18/04。https://doi.org/10.1145/3178876.31860660ACM参考格式：Xiang Wang，Xiangnan He，Fuli Feng，LiqiangNie和Tat-SengChua。2018年。TEM：可解释推荐的树增强嵌入模型。在WWW2018：2018年网络会议上，2018年4月23日至27日，法国里昂。ACM，纽约，纽约，美国，10页。https://doi.org/10.1145/3178876.318606601 引言0个性化推荐是许多在线面向客户的服务的核心，例如电子商务，社交媒体和内容共享网站。从技术上讲，推荐问题通常被视为一个匹配问题，其目标是基于用户和项目的可用配置文件估计它们之间的相关性得分。无论应用领域如何，用户的配置文件通常包含一个ID（用于标识特定用户）和一些附加信息，如年龄，性别和收入水平。同样，项目的配置文件通常包含一个ID和一些属性，如类别，标签和价格。协同过滤（CF）是构建个性化推荐系统的最常见技术[21,26]。它利用用户对项目的交互历史来选择适合用户的相关项目。从匹配的角度来看，CF仅将ID信息用作用户和项目的配置文件，并放弃其他附加信息。因此，CF可以作为一种通用的推荐解决方案，而不需要任何领域知识。然而，缺点是它缺乏对推荐的必要推理或解释。特别是，解释机制要么是因为你的朋友也喜欢它（即基于用户的CF[24]），要么是因为该项目与您之前喜欢的项目相似（即基于项目的CF[35]），这些解释过于粗略，可能不足以说服用户接受推荐[14,39,45]。为了说服用户对推荐采取行动，我们认为除了相似的用户或项目外，提供更具体的原因至关重要。例如，我们向用户Emine推荐iPhone7 RoseGold，因为我们发现年龄在20-25岁之间，月收入超过10,000美元（这是Emine的人口统计信息）的女性通常喜欢粉色的苹果产品。为了用这样的信息理由增强推荐系统，底层的推荐系统应能够（i）从用户和项目的丰富附加信息中明确地发现有效的交叉特征，并且（ii）以可解释的方式估计用户-项目匹配分数。此外，我们期望使用附加信息将有助于提高推荐的性能。然而，现有的推荐方法都无法同时满足上述两个条件。在文献中，ˆyMF (u,i) = b0 + bu + bi + p⊤u qi,(1)ˆyF M(x) = w0 +n�t=1wtxt +n�t=1n�j=t+1v⊤t vj · xtxj,(2)15440基于嵌入的方法，如矩阵分解[23, 26,34]是最流行的协同过滤方法，因为嵌入在从稀疏的用户-物品关系中进行泛化方面具有强大的能力。已经提出了许多变体来整合辅助信息，例如因子分解机(FM)[32]，神经FM[20]，Wide&Deep[12]和DeepCrossing[36]。虽然这些方法可以从原始数据中学习特征交互，但我们认为交叉特征效应在学习过程中只以相当隐含的方式被捕捉到；最重要的是，交叉特征无法明确呈现[36]。此外，现有的使用辅助信息的研究主要集中在冷启动问题[5]，对推荐的解释相对较少。在这项工作中，我们旨在填补研究空白，开发一种既准确又可解释的推荐解决方案。通过“准确”，我们希望我们的方法能够达到现有基于嵌入的方法[32,36]的性能水平。通过“可解释”，我们希望我们的方法在生成推荐时能够透明，并能够识别预测的关键交叉特征。为此，我们提出了一种名为“Tree-enhanced EmbeddingMethod”(TEM)的新颖解决方案，它将基于嵌入的方法与基于决策树的方法相结合。首先，我们在用户和物品的辅助信息上构建了梯度提升决策树(GBDT)来提取有效的交叉特征。然后，我们将交叉特征输入到基于嵌入的模型中，该模型是一个精心设计的神经注意力网络，根据当前的预测对交叉特征进行重新加权。由于GBDT提取的显式交叉特征和易于解释的注意力网络，整个预测过程是完全透明和自解释的。特别地，为了生成推荐的原因，我们只需要根据它们的注意力分数选择最具预测性的交叉特征。作为主要的技术贡献，本工作提出了一种将基于嵌入和基于树的方法的优势统一起来的新方案，据我们所知，这种方法以前从未被研究过。02 预备知识0我们首先回顾基于嵌入的模型，讨论其在支持可解释推荐方面的困难。然后介绍基于树的模型，并强调其解释机制。02.1 基于嵌入的模型0基于嵌入的模型是表示学习的典型例子[6]，旨在从原始数据中学习特征以进行预测。矩阵分解(MF)[26]是一种简单而有效的基于嵌入的协同过滤模型，其预测模型可以表示为：0其中，b 0，b u，b i是偏差项，p u ∈ R k和q i ∈ Rk分别是用户u和物品i的嵌入向量，k表示嵌入大小。除了ID之外，用户(物品)通常与丰富的辅助信息相关联，这些信息可能包含用户对物品的相关性信号。由于大多数这些信息都是分类变量，它们通常通过独热编码[20, 32]转换为实值特征向量。设x u和xi分别表示用户u和物品i的特征向量。为了预测yui，一个典型的解决方案是将x u和x i连接起来，即x = [x u, x i] ∈ Rn，然后将其输入到预测模型中。FM[5,32]是这类预测模型的代表，其公式为：0其中，w 0和w t是偏差项，v t∈R k和v j∈Rk分别表示特征t和j的嵌入。我们可以看到，FM将每个特征与一个嵌入相关联，通过它们的嵌入的内积建模每两个（非零）特征的交互。如果只使用用户ID和物品ID作为x的特征，则FM可以精确恢复MF模型；通过将ID和边缘特征一起输入x，FM模型可以对ID和边缘特征之间的所有成对（即二阶）交互进行建模。随着深度学习的最新进展，神经网络方法也被用于构建基于嵌入的模型[12，20，36]。特别地，Wide&Deep[12]和DeepCrossing[36]通过将多层感知机（MLP）放置在非零特征的嵌入的串联上来学习特征交互；据称MLP能够学习任意阶的交叉特征。神经FM（NFM）[20]首先对特征嵌入进行双线性交互池化（即� n t =1 � n j =t +1 x t v t ⊙ x j vj）以学习二阶特征交互，然后通过MLP学习高阶特征交互。尽管现有的基于嵌入的方法在建模边缘信息方面具有很强的表示能力，但我们认为它们不适合提供解释。FM仅模型二阶特征交互，无法捕捉高阶交叉特征效应；此外，它均匀地考虑所有二阶交互，并不能区分哪些交互对于预测更重要[46]。而神经嵌入模型能够捕捉高阶交叉特征，但通常是通过非线性神经网络在特征嵌入之上实现的。神经网络堆叠多个非线性层，理论上保证适应任何连续函数[25]，但拟合过程是不透明的，无法解释。据我们所知，没有办法从神经网络中提取明确的交叉特征并评估它们对预测的贡献。0Track：Web搜索和挖掘WWW 2018，2018年4月23日至27日，法国里昂�� w�w�w�w�w�� w�w�w��̸̸ˆyGBDT (x) =Ss=1ˆyDTs (x),(3)15450图1：具有两个子树的GBDT模型示例。2.2基于树的模型0与表示学习方法相比，基于树的模型不会为预测学习特征，而是通过从数据中学习决策规则来进行预测。我们将树模型的结构表示为Q ={V，E}，其中V和E分别表示节点和边。V中的节点有三种类型：根节点v0，内部（又称决策）节点VT和叶节点VL。图1展示了一个决策树模型的示例。每个决策节点vt通过两个决策边来划分特征xt：对于数值特征（例如时间），它选择一个阈值aj并将特征划分为[xt

下载后可阅读完整内容，剩余1页未读，立即下载