比较解释可解释性推荐系统的有效性

103 浏览量更新于2023-11-29 收藏 832KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

3113酒店B游泳池很小，但是很干净。加热。摘要建议的比较说明杨傲波1，王楠1，蔡仁琴1，邓洪波2，王洪宁11弗吉尼亚大学，夏洛茨维尔，美国2中国杭州阿里巴巴集团{ay6gv，nw6a，rc7ne}@virginia.edu，dhb167148@alibaba-inc.com，hw5x@virginia.edu由于推荐本质上是一个比较（或排名）过程，因此一个好的解释应该向用户说明为什么一个项目被认为比另一个项目更好，即，对推荐项目的比较理想情况下，在阅读说明后，用户应该达到与系统相同的项目排名不幸的是，很少有研究注意到这种比较的解释。在这项工作中，我们开发了一个提取和细化架构来解释一组排名项目从推荐系统之间的相对比较。对于每个推荐项目，我们首先从相关评论中提取一个句子，最适合与一组参考项目进行所需的比较。然后，通过生成模型将该提取的句子进一步与目标用户相连接，以更好地解释为什么推荐该项目我们设计了一个新的解释质量指标的基础上BLEU指导提取和细化组件的端到端的训练，这避免了通用内容的生成。两个大型推荐基准数据集上的大量离线评估和一系列最先进的可解释推荐算法的严肃用户研究证明了比较解释的必要性和我们解决方案的有效性。CCS概念• 信息系统→推荐系统;·计算方法学→自然语言生成。关键词可解释性推荐，比较解释，文本生成，提炼ACM参考格式：杨傲波1人，王楠1人，蔡仁琴1人，邓洪波2人，王洪宁1人。2022.建议的比较说明。在ACM Web Conference 2022（WWW '22）的会议记录中，2022年4月25日至29日，虚拟活动，法国里昂。ACM，美国纽约州纽约市，11 页。https://doi.org/10.1145/3485447.35120311介绍现代推荐系统从根本上塑造了我们的日常生活[1，6，14，19，28，31，43]。因此，如何解释算法提出的建议成为建立用户信任的关键。本作品采用知识共享署名国际协议（Creative Commons AttributionInternational）授权4.0许可证。WWW©2022版权归所有者/作者所有。ACM ISBN978-1-4503-9096-5/22/04。https://doi.org/10.1145/3485447.3512031酒店C游泳池还可以，但是工作人员没有条理而且粗鲁酒店很好，游泳池也很好。好.图1：关于比较解释的必要性的说明推荐的酒店A、B、C按降序排列，并提供说明以证明排名的合理性。但如果我们用仪表板中的解释替换C酒店系统[47]。以前的研究表明，解释说明如何产生建议[22，30]或为什么用户应该注意建议[33，39，46]，可以显着加强用户与系统的互动，并更好地帮助他们做出明智的决策[4，15，32]。当呈现一个推荐列表时，通常按降序排序，用户需要做出选择。换句话说，提供的解释应该帮助用户比较推荐的项目。图1说明了比较解释的必要性通过阅读图中推荐的酒店的解释，人们可以很容易地知道为什么系统将它们按这样的顺序排列。但是，如果系统在虚线框中为旅馆C提供解释，则它将使用户对排名感到困惑，例如，酒店C可以说是与排名第一的酒店A相媲美，但它排在名单的底部不幸的是，这损害了用户现有的可解释的推荐解决方案没有被优化以帮助用户做出这样的比较决定，这有两个主要原因。首先，推荐项目的解释通常是独立生成的，而不考虑推荐列表中的其他项目。如图1所示，一个低质量的生成（虚线框中的那个）可能会妨碍用户对整个推荐列表的其次，普遍采用的神经文本生成技术已知其通用内容输出存在缺陷[16，41]。特别是，像最大似然训练和序列贪婪解码这样的技术会导致由全局频繁单词组成的简短和重复的句子[42]。这种通用内容不能满足HotelA游泳池很宽敞，工作人员也很很友好3114C1122MMWWW需要区分推荐的项目。再次考虑图1中所示的示例，“酒店很好”是一个非常通用的解释，因此没有信息。其模糊的描述（例如，词语“好”）并且缺乏特异性（例如，单词“旅馆”）使其适用于许多旅馆，使得用户很难从这样的解释中分辨出推荐项目的相对比较。在这项工作中，我们解决的问题，比较的推荐，以帮助用户了解推荐项目之间的比较。我们专注于解释一个项目如何与另一个项目进行比较;然后通过使用一组共同共享的项目作为参考（例如，用户之前已经查看过的项目），则出现推荐项目之间的比较。例如，如果解释表明项目A比项目B好，项目C比项目B差，则在阅读相关解释后，A和C之间的比较是显而易见的。我们的解决方案被设计为一般工作在其他现有的推荐系统之上我们对推荐算法如何对项目进行排名没有任何假设（例如，协同过滤[31]或基于内容的[3]），但只要求它为我们的模型提供每个项目的排名分数（即，顺序排名），其反映了用户对推荐项目的偏好。这使得我们的解决方案很容易适用于解释大量有效的推荐算法部署在实践中。我们设计了一个提取和细化的文本生成架构[12，42]，以每次向用户解释一个排名项目，以他们的推荐分数和相关评论为条件。我们将排名列表中要解释的项目称为目标项目，将我们正在解释的用户称为目标用户。首先，该模型从关于目标项目的现有评论句子中提取一个句子作为原型，目标是最大化与目标用户为其他参考项目撰写的评论进行比较的可能性然后，我们通过生成模型细化提取的原型，以进一步为目标用户打磨内容在该两阶段过程中，提取模块利用已经提供的关于目标项目的内容来确保所生成的解释的相关性（例如，避免提及目标项中不存在的特征）;并且精化模块进一步改进解释（例如，信息性和内容的多样性），超越现有内容的限制我们基于BLEU设计了一个新的解释质量指标来指导这两个模块的端到端训练，特别注重惩罚生成的解释中的简短和通用内容。我们将所提出的解决方案与两个大规模推荐数据集上用于解释生成的一组丰富的最先进的基线进行了比较。此外，我们还进行了广泛的用户研究，让真实用户对生成的解释进行评估在离线和在线实验中获得的积极结果表明，比较解释在帮助用户更好地理解推荐和做出更明智的选择方面是有效的。2相关工作大多数可解释的推荐解决方案都利用用户评论作为训练数据的来源他们要么直接从评论中摘录，要么合成内容来模仿评论。基于提取的解决方案直接从目标现有例如，NARRE [7]选择最关注的评论作为解释，基于最初学习的注意力来丰富用户和项目表示以进行推荐。CARP [20]使用胶囊网络用于相同的Wang等人[40]采用强化学习来提取与给定推荐系统的评级预测相匹配的最相关评论文本Xian等人[45]从评论中提取属性，以根据用户的偏好解释一组项目然而，由于这些解决方案仅限于一个项目的现有审查，其有效性取决于可获得的内容和质量。对于有限暴露的物品，例如，作为一个新的项目，这些解决方案几乎不能提供任何信息性的解释。基于生成的解决方案综合了不限于现有评论的文本解释。一个分支侧重于从相关评论中预测项目的重要方面（如项目特征）作为解释[2，5，13，35，39]。例如，MTER [39]和FacT [35]预测对用户证明推荐最重要的项目特征它们依赖于预定义的文本模板来提供预测的功能。另一个分支应用神经文本生成技术来合成大小自然语言句子。特别是，NRT [21]在共享的用户和项目嵌入空间中对项目推荐和解释生成进行建模。它使用其预测的推荐评级作为解释生成的初始状态的一部分。 MRG [36]集成了来自用户评论的多种形式，包括评级，文本和相关图像，用于多任务解释建模。我们的工作与最近的两项研究DualPC [33]和SAER [46]密切相关，这两项研究的重点是加强建议和解释之间的关系。具体而言，DualPC引入了基于解释和建议的联合概率的对偶正则化，以提高建议和生成的解释之间的相关性。SAER在解释生成中引入了情感对齐的思想。然而，它们都以逐点方式操作，即，跨项目的独立解释生成。我们的解决方案侧重于解释项目之间的比较。我们还应该强调，我们的解决方案是解释一组推荐项目之间的比较，而不是找到可比较的项目[9，25]。还有一些解决方案利用其他类型的信息进行可解释的推荐，例如项目-项目关系[8]，知识图[44]和社交网络[17]。但它们显然超出了这项工作的范围。3比较解释生成项目推荐本质上是一个排名问题：估计给定用户下每个项目的推荐得分并相应地对项目进行排名，从而使推荐的效用最大化[18，29]。我们的工作不是解释推荐分数是如何获得的，而是强调解释排名项目之间的比较是如何得出的。为了学习解释模型，我们假设来自预期应用领域（例如，酒店评论）。每个评论唯一地与用户u和项目c相关联，并且用户提供的评级ru建议他/她对项目的意见。我们对与用户u相关联的评论进行分组以构建他/她的简档，（xu，ru）}，3115C（一）|）（）下一页JJCXuJ（一）|）CJCJCJJCJCJC 拉乌判断句子是否C关于JCJJCJCuJ建议的比较说明WWW其中Xu是从用户u的评论中提取的第i个评论句子，而Ru是相应的意见评级。当i详细的方面评级可用时，ru可以很容易地获得ed [38];否则，货架情感分析方法可用于该目的（感兴趣的用户可以参考[39，48]了解更多详情）。至于没有评论的用户的冷启动，可以使用通用配置文件来代替，这些配置文件从通过其他非评论相关特征（例如评级历史）聚类的类似用户中采样评论。我们创建项目配置文件为：{xc，xc，...，xc}，其中xc是第j次审查π（x）下的解释|u，c），J=ExP （ x|u ， c ， r u ） [π （ x|u ， c ） ]（2）在这项工作中，我们提出了一个定制的蓝色分数专门用于比较解释生成问题，以惩罚简短和通用的内容。接下来，我们将深入研究CompExp的详细设计，3.1 ，然后在第3.2节和第3.3节中给出我们用于参数估计的度量π x u，c，最后说明如何估计每个12nj摘录自c项现有评论的句子与用户配置文件不同，项目配置文件不包括评级。这是因为来自不同用户的评级不具有直接可比性，因为个人对数字评级的理解或使用不同。我们的解决方案对每个用户和项目中的用户配置文件CNOU和项目配置文件CNOC中的条目数量是不可知的。我们对来自用户u的元组（x，ru）施加生成过程CompExp中的端到端组件，见第3.4节。3.1提取和优化架构我们提出的CompExp模型架构如图2所示，简而言之，它是一个完全连接的分层神经网络。用户项对u、c的解释经由提取和细化过程生成，在等式（1）中正式描述。比较关于c项，条件是和Cu是到现有的纯世代为基础的解释方法[21，33，46]，审查项目cu。假设用户我们的解决方案的另一个好处是确保c中，他/她将首先选择一个现有的句子，该句子与他/她想要涵盖的关于该项目的方面最相关。直观地说，这可以理解为用户将首先浏览该项目的现有评论，以了解其他用户如何评价该项目。然后，他/她将重写这个选择的句子，以反映他/她的意图和自己的写作风格。这可以被认为是一个序列生成问题。为了我们的解释生成的目的，我们只关心生成的解释：它避免提及与目标项目无关的属性。为了解决直接使用现有内容的局限性，例如，未对齐的内容风格或情感极性，细化步骤进一步重写所提取的句子以使其内容更好地适合于比较解释的目的，例如，改善由π（x）定义的质量|u，c）。我们将其称为Pext（xc|ru，r_u）作为提取器，Pref（x|xc，ru，u）生成固执己见的文本x.因此，我们采用意见评级ru作为提炼者。接下来，我们将放大到每个组件来讨论作为输入，这导致我们得出以下公式，c其设计原则和技术细节。P（x|u，c，ru）=.Pref（x|xc，ru，u）Pext（xc|（1）第一章：一个人的世界CJCJCxc∈c其中Pext（xc |ru，u）指定xc从项目用户u将选择p r文件，并且Pref（x|xc，ru，u）s pecifies用户u将xc重写为x的概率。我们将结果模型命名为Comparative Explainer，简称CompExp。在等式（1）中，Pext（xc |ru，u）对于捕获比较而言是必不可少的，嵌入在用户U的历史固执己见的文本内容中的主动文本模式为了理解这一点，我们可以简单地重写它的条件-问题部分：定义ru=ru−ru，我们有（ru，u）={（xu，ru）}m;因此，P（十c）|ru，i）ci中国Xi=1项C被限定为表征以用户U的历史内容RtU和目标评级RtU为条件的期望意见差异。例如，一个否定词u表示在CI j预期比x中的正性小I. 同样，Pref（x|xc，ru，nu）量化，如果x是x c的g od重写，以满足用户u对项目c的期望意见评级ru。C一个可以参数化P（十c）|ru，）和P（x）|xc，ru，n）并基于最大似然原理对以单位时间为单位的观测值估计相应的参数。然而，仅仅像- lihood这样的数据不足以产生高质量的解释，因为我们还应该强调流畅性，简洁性和多样性。图2：提取和细化模型架构生成的解释。为了实现这个广义目标，假设度量π x u，c测量用户u关于项目c的生成解释x的质量，CompExp的训练目标被设置为最大化其生成解释x的预期质量。CompExp.提取器从项目c梯度项简档文本编码器User Profile候选人引用冯-米塞斯-费歇尔分布提取器方向原型解释细化剂RNN解码器MLPextexturef3116JJJJJ（）下一页（）下一页（）下一页（·）（一）|）（一）|）JJ我J如果u是一个标量，我们使用一个独热向量eκcos（xj，hi）我–我我我我JCJ∈∈C我J为了在评级为光盘记录时对其进行加密，我们使用WWW3.1.1提取器。提取器的目标是选择一个原型传感器-由Pext（x c）的梯度表示|ru，nu）相对于xc，即，tencexc从项目c对于给定的意见评级ru，JCC最快的方向Cu j。jcccxj以增加Pext（xj）的值|rc，u）最好地满足由用户简档Uu建议的比较性。我们指的是xc作为提取候选，作为参考，该提取器采用双向GRU [10]作为因此，我们的细化器只需将xc沿着这个梯度方向：zj = xcPext（xc|ru，u）通用文本编码器，用于转换所述提取候选项，以及引用到连续的嵌入向量中。由于成对J.Mc我C. H|XC||hi|斑点胡鲶J|XC|2非线性多层感知器（MLP）作为评级编码器。直观地说，在一维评分空间中，我们可以很容易地从评分中恢复出预期句子由于细化步骤应该只抛光提取的原型，而不是显着改变它，我们规范化梯度ucu并在所有情况下将步长限制为1，即，参考句子ri和所需的评级差Rrri。作为一个类比，我们认为评级差异向量作为反式-x=xc+zj/|zj|. 最后，我们包括一个单层的GRU，形式方向，表示从参考句子xu到潜在文本空间中的理想比较解释，表示为f（xu，ru）→h。因此，h是文本嵌入向量，attention [23]作为文本解码器，将文本转换为细化矢量最后的解释句x。将这两个模块连接在一起，CompExp生成ex-理想的比较解释。提取器实现这样的使用MLP的变换，将文本嵌入向量和评级差嵌入向量的级联作为输入。给定期望的比较解释hi，提取候选可以通过它们与hi的相似性来评估。这指定了在潜在文本嵌入空间中以h i为中心的方向分布Q x; hi。由于余弦是文本嵌入的常用相似性度量，因此我们将Qx;hi公式化为所有提取候选项上的Q（x;hi）<$fv MF（x;hi，κ）=Cp（κ）eκcos（x，hi）其中fv MF是概率密度函数，κ是浓度参数，Cpκ是关于k的归一化函数。因为每个参考句子xu都会暗示一个不同的方向，在Mises-Fisher分布的基础上，我们将V_i推广到复盖多个质心并定义Pext（xc |ru，nu）如下，为了理解为什么生成的解释具有比较性，我们可以将用户的配置文件fixu视为锚点。因为所有的解释都是根据这个锚点产生的，所以解释之间的比较就出现了。3.2解释质量指标为了在等式（2）下训练CompExp，我们需要定义解释质量度量π x u，c。在社区中还没有普遍认可的离线解释质量指标获取真实的用户反馈对于离线模型训练是不可行的目前，大多数可解释的推荐解决方案[21，33，46]采用度量生成的解释和用户评论之间的重叠内容的指标，例如BLEU [26]。然而，最初为机器翻译设计的BLEU度量在对at的解释评估中存在问题Jc至少有两个重要原因。首先，它偏向于较短的森-Pext（xc|ru，u）.我fv MF。xc;f（xu，ru），κ（3）紧张作为一个基于精度的指标，BLEU克服了短-JCxu∈uj ii通过引入简洁惩罚来解决长度问题，当生成的长度小于其“最佳”时的精度直观地，在等式（3）中，每个理想嵌入hi表明哪个牵引候选者更好地符合嵌入在CQU中的比较性。对每个参考句子的评价在候选句子xc上的总和κ作为超参数匹配长度The “best match length” design is reasonable机器翻译，因为所有参考句子都是覆盖源语言中包含的信息的有效翻译不管它们的长度差异。但是，在使用reviewJ这塑造了提取概率分布：较大的κ句子作为解释的代理，值导致串状分布。我们可以使用它来控制在基于策略梯度的模型训练期间对提取候选项的探索，这将在第3.4节中介绍。3.1.2精炼机。细化器的目标是重写前向原型以进一步改进质量度量π x u，c。正如我们之前所讨论的，一个更好的解释应该更支持用户配置文件所要求的成对比较因此，假设提炼器成功地将原型xc转换成用户u的项目c之外的更好框架的句子xcab，一份审查报告可以描述同一项目的完全不同的方面，在篇幅和所载信息方面差别很大由于短长度生成有利于精确度（不太容易出现错误的单词选择），BLEU倾向于利用短引用作为“最佳匹配”的解释。因此，它推动模型生成的解释通常比评论中的平均句子长度短得多，因此无法详细解释项目。第二，尽管基于精确度，BLEU无法区分参考文献中不同单词的重要性j j句子。在机器翻译中，单词的价值是平等的，但它们的那么当我们把x_c和x_c一起返回到提取器时，解释的影响因用户而异。例如在J J提取者应该更喜欢修订后的版本，而不是原来的版本。另外，我们应该继续对x进行改进，直到提取器认为它无法再改进为止。因此，细化器需要找到一个方向，使得Pext（xc|ru ， u）

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

比较解释可解释性推荐系统的有效性

推荐系统比较

解释推荐系统对用户体验的作用

AI可解释性技术具体应用案例

movielens推荐系统_基于深度学习的推荐系统

菜品推荐系统国内外研究现状

写一下音乐推荐系统的文献综述

图书推荐系统的研究现状和不足

协同过滤算法推荐系统的可行性分析

解释完备性和最优性的区别

解释性增强的pc恶意代码可视化分析方法研究

动漫排行榜爬取可视化的系统可靠性

详细解释一下系统设计与实施

人工智能中可信度的概念

kali pycharm提示请选择有效的pythone解释器

Al系统可以分为芯片层，调度层、算子层、框架层、算法层和应用层，针对不同层均有对应的测试任务，那么AI测试任务可以分为以下哪几类？

举一个现实生活中的例子来解释计算机中三级存储系统的工作原理

基于人工智能技术的智能安全监测系统的研究方向

解释一下什么是鲁棒性

最新资源