成对排序推荐框架解决推荐系统暴露偏差问题

16 浏览量更新于2024-01-25 收藏 310KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

软件影响11（2022）100208原始软件出版物一个无偏可解释的两两排序推荐框架Khalil Damak Khenissi，Sami Khenissi， Olfa Nasraoui美国路易斯维尔大学计算机科学与工程系知识发现与网络挖掘实验室A R T I C L E I N F O关键词：推荐系统公平性去偏机器学习成对排序暴露偏倚A B标准推荐系统中的最新研究已经证明了成对排序在推荐中的优势。在这项工作中，我们专注于最先进的成对排序损失函数，贝叶斯个性化排名（BPR），并旨在解决其两个局限性，即：（1）缺乏可解释性和（2）暴露偏差。我们提出了一个建议框架，包括各种损失的功能，是基于BPR，旨在减轻上述限制。我们的开源框架包括在基准数据集上训练和调整最先进的成对排名推荐系统的代码，并根据排名准确性，可解释性和流行度去偏这三个标准代码元数据当前代码版本v1用于此代码版本的代码/存储库的永久链接https://github.com/SoftwareImpacts/SIMPAC-2021-158可再生胶囊的永久链接https://codeocean.com/capsule/7889543/tree/v1GNU通用公共许可证GNU General Public Licensev3.0使用Git的代码版本控制系统使用的软件代码语言、工具和服务我们使用Python机器学习框架PyTorch 1.7.1。编译要求、操作环境依赖性如果可用，链接到开发人员文档/手册https://github.com/KhalilDMK/EBPR/blob/main/README.md技术支持电子邮件：khalil. louisville.edu1. 介绍贝叶斯个性化排名（BPR）是一种成对排名方法[1]，由于其能够以高准确度对隐式反馈数据进行排名[2]，最近在推荐系统社区中受到了极大的赞誉。为了使相关项的排序高于不相关项，成对排序推荐系统通常假设所有非交互项都是不相关的。后一种假设产生了暴露偏差，这是内隐反馈推荐中的一个臭名昭著的问题，通常表现为对不太受欢迎的项目的偏见，这些项目具有较低的被观察倾向[3]。此外，大多数最先进的推荐系统，包括BPR，都是黑盒子，不能证明为什么或如何向用户推荐一个项目。如果向用户推荐特别不适当的内容，则在这在这种情况下，知道为什么推荐一个项目可能有助于诊断推荐并减轻不公平。此外，缺乏可解释性可能限制用户在选择遵循推荐时做出明智决定的能力。事实上，解释带来了更多的上下文，用户将在此基础上做出决定，这在早期的工作中显示，以提高用户满意度[4，5]。在我们以前的工作[6]中，我们提出了新的成对排序推荐损失函数，旨在提高BPR的可解释性并减轻暴露偏差。在这篇文章中，我们提出了我们相关的开源框架，该框架允许使用这些建议的损失函数[6]训练，评估和调整矩阵分解[7]（MF）模型。我们的框架旨在促进将可解释性和曝光去偏纳入成对排名模型的建议。我们还可以轻松实现新模型，本文中的代码（和数据）已由Code Ocean认证为可复制：（https://codeocean.com/）。更多关于生殖器的信息徽章倡议可在https://www.elsevier.com/physical-sciences-and-engineering/computer-science/journals上查阅。∗通讯作者。电子邮件地址：khalil. louisville.edu（K. Damak）。https://doi.org/10.1016/j.simpa.2021.100208接收日期：2021年11月7日;接收日期：2021年12月13日;接受日期：2021年12月18日2665-9638/©2021作者。由Elsevier B.V.出版。这是一篇开放获取的文章，使用CC BY许可证（http://creativecommons.org/licenses/by/4.0/）。可在ScienceDirect上获得目录列表软件影响杂志首页：www.journals.elsevier.com/software-impactsK. Damak，S.Khenissi和O.Nasraoui软件影响11（2022）1002082��除了矩阵分解，因此扩展了我们框架的使用范围。最后，我们的框架提供了一个评估管道，评估模型在排名准确性，可解释性和流行性去偏方面的性能。在下面的部分中，我们将更详细地研究我们框架的不同特征和功能2. 描述在本节中，我们首先描述我们提出的框架中包含的损失函数和机器学习模型。然后，我们描述了我们的框架2.1. 损失函数我们提出的框架旨在训练，调整，评估和比较机器学习模型，以实现具有不同程度的可解释性和曝光去偏的成对排名推荐。后一种程度的可解释性和去偏性与我们以前的工作[6]中讨论的各种损失函数有关，在我们提出的建议框架中实施。实现了以下损失函数• 贝叶斯个性化排名（BPR）[1]：这是在[1]中提出的香草BPR损失。该损失函数旨在为给定用户将交互的项目排名高于非交互的项目• 无偏贝叶斯个性化排名（UBPR）[8]：这是[8]中提出的BPR损失函数的无偏版本。这种方法依赖于反向倾向评分（IPS）[9]，理论上消除了BPR损失中的暴露偏差• 可解释贝叶斯个性化排名（EBPR）：这是我们提出的可解释BPR损失函数[6]。该损失函数基于BPR，并依赖于基于邻域的可解释性[5，10，11]，以将相关和可解释的推荐排名在用户推荐列表的顶部。在这种情况下，解释的形式是• 部分无偏可解释贝叶斯个性化排名（pUEBPR）：这是我们在[6]中为部分无偏和可解释的BPR提出的损失函数。在这个损失函数中，我们使用IPS来消除原始的BPR暴露偏差，到UBPR。然而，正如在[6]中所证明的，基于邻域的可解释性引入了一些额外的暴露偏倚。这种广告曝光偏差是导致损失函数部分无偏的原因。• 无偏可解释贝叶斯个性化排名（UEBPR）：这是我们提出的无偏和可解释的BPR损失函数[6]。该损失函数促进将相关且可解释的项目排名在推荐列表的顶部，用户，并且同时在理论上没有曝光偏差。我们使用了类似的基于IPS的方法来消除上述来自可解释性的额外暴露偏倚，如[6]所述2.2. 模型在我们提出的框架中，我们使用矩阵分解（MF）[7]模型实现上述损失函数。MF模型由两个嵌入矩阵分别为用户和项目，每个嵌入矩阵都有一个潜在的因素。�� 在本例中，是用户数，是项目数。�� 用户（项目）嵌入矩阵的每一行对应于一个潜在表示，或隐向量（latentvector）。因此，用户的��偏好��通过用户和项目潜在向量的点积来确定项目的潜在向量，使得：然后，将此预测偏好馈送到来自上一小节的相应损失函数中，以训练模型来学习虽然我们框架的最初目标是评估引入BPR损失的拟议可解释性和去偏组件出于这个原因，我们可以很容易地将一个新模型引入到框架中，并使用我们提出的损失函数对其进行训练。事实上，MF模型因此，用任何其他成对排序模型的类替换这个类应该是直接的，并且应该允许用新模型测试我们框架的所有2.3. 训练模型我们提出的框架提供的第一个功能是使用指定的损失函数训练MF模型，并根据排名准确性，可解释性和流行度去偏来评估它。实施的评价指标总结见表1。存储库中的“README.md”文件解释了如何启动训练，并总结了可以调优的所有超参数作为命令中的参数。值得注意的是，我们的框架准备在四个基准数据集上进行训练，分别是“Movielens100 K”，“Movielens 1 M”，“Yahoo！R3”和“Last.FM 2K”数据集。此外，在损失函数之间切换就像更新“模型”参数的值一样容易。为了评估我们的模型，我们依靠休假 One Out（LOO）评估过程[12]，其中每个用户的最后一次交互都被排除在测试之外，倒数第二次交互则被被排除在验证之外。排名准确性度量将这些测试和验证实例与每个用户的100个随机抽样否定进行比较。最后，当使用我们提出的框架训练模型时，模型在训练集上进行训练，并在每个时期的测试集上进行评估。最后输出最佳历元上的测试性能注意，如[6]中所述，实现的损失函数与[6]中提出的估计量的不同之处在于以下三个方面：首先，由于我们在数据集中没有真实的暴露倾向，我们用相对项目流行度来估计它们。第二、由于我们实际上不能对所有可能的（用户、正项、负项）元组进行训练，并将所有未交互的项视为负项，因此我们使用负采样，并按照[1]中使用的相同方法，在训练中对每个正交互采样一个负交互。最后，为了确保公平比较所有模型（无偏和非无偏），并真正评估损失中每个组件的影响，我们在完全相同的训练元组上训练所有模型。2.4. 调整模型的我们提供了在验证时调整给定模型的可能性使用随机搜索通过单个命令设置，如“README.md”文件中所述。在这种情况下，一组超参数配置从用户指定的超参数值池中采样。然后，使用所有这些超参数配置对模型进行训练，以获得指定数量的重复数据。对于每次运行，将保存验证集上的最佳结果。最后，将所有模型的结果汇总到一个表中，并保存为逗号分隔值（CSV）文件。3. 影响我们提出了一个公平的推荐框架，允许对机器学习模型进行训练、调整和评估，��,��=��⋅��（一）明智的排名建议与各种新颖的损失函数，K. Damak，S.Khenissi和O.Nasraoui软件影响11（2022）1002083表1评价指标已落实。评价标准NDCG@k截止点k处的归一化贴现累积增益。该度量评估每个用户的前k个推荐的排名质量，其中推荐列表顶部的项目更受重视。截止点k处的HR@k命中率。该指标评估每个用户的前k个推荐中的命中比例。点击对应于出现的相关项目在Top K建议中。MEP@k在截止点k处的平均解释精度。在[13]中提出的这个评估指标测量了每个用户的前k个推荐列表中推荐的可解释项目的比例。如果满足以下条件，��如[6]中所解释的，该项目对用户的可解释性值��WMEP@k加权平均解释精度在截止点k。该评价指标，建议在[6]中，提供了对前k个推荐项目的可解释性的更平滑的评估，如[ 6 ]中所解释的，通过用项目的可解释性值来加权项目��截止点k处的EFD@k预期自由发现在[14]中提出的这个评价指标人气去偏根据新颖性来评估模型，新颖性是系统推荐相关长尾项目的能力的度量。Average_Pop@k截止点k处的平均流行度。该评估度量根据推荐项目的平均受欢迎度来评估每个用户的前k个推荐。平均流行度越低，模型的流行度去偏能力越好。Div@k截止点k处的多样性。该评估度量计算前k个推荐列表中的项目之间的平均成对相似度[14]。推荐项目之间的平均成对相似度越低，推荐列表的多样性越高。具有可解释性和曝光消除偏见的能力。我们的框架对推荐系统研究的影响可以总结如下：• 我们的框架实现了几种最先进的机器学习模型，用于基于成对排名的推荐[1，6，8]。• 我们的框架允许使用单个命令训练和调整机器学习模型，用于基于成对排名的推荐。模型的超参数可以指定为命令的参数，这很方便。• 我们的框架可以与矩阵分解（MF）模型和五个最先进的损失函数一起使用，用于从隐式反馈中进行成对排名，从而实现可解释性和去偏。• 虽然我们的框架将MF实现为基础模型，但实现任何其他成对排名模型并在我们的框架中使用它• 我们的框架可以与最近研究论文中常用• 我们的框架允许评估推荐系统emperically在三个方面的排名准确性，可解释性，和流行去偏。竞合利益作者声明，他们没有已知的竞争性财务利益或个人关系，可能会影响本文报告的工作致谢这项工作得到了国家科学基金会资助IIS-1549981，DRL-2026584和CNS-1828521的部分支持。引用[1]Steffen Rendle ， Christoph Freudenthaler ， Zeno Reynner ， Lars Schmidt-Thieme，BPR：Bayesian personalized ranking from implicit feedback，2012，arXiv preprintarXiv：1205.2618.[2]Ruining He，Julian McAuley，VBPR：视觉ballet个性化排名来自隐式反馈，见：AAAI人工智能会议论文集，第30卷，第1期，2016年。[3]Jiawei Chen， Hande Dong， Xiang Wang， Fuli Feng， Meng Wang， XiangnanHe，Bias and debias in recommender system：A survey and future directions，2020，arXiv preprintarXiv：2010.03240.[4] Mustafa Bilgic，RaymondJ. Mooney，解释建议：满意度与推广，在：超越个性化研讨会，IUI，卷。1999，p.153.[5]Behnoush Abdollahi，Olfa Nasraoui，使用约束矩阵分解的可解释性，在：第十一届ACM推荐系统会议论文集，2017年，第11页。79比83[6]Khalil Damak，Sami Khenissi，Olfa Nasraoui，从隐式反馈中去除偏见的可解释的成对排名，在：第十五届ACM推荐系统会议，在：RecSys美国、国际标准书号： 9781450384582, 2021, pp.321http://dx.doi.org/10.1145/3460231.3474274。[7]Yehuda Koren，Robert Bell，Chris Volinsky，推荐系统的矩阵分解技术，计算机42（8）（2009）30 http://dx.doi.org/10。1109/MC.2009.263。[8]Yuta Saito， Unbiased pairwise learning from implicit feedback， NeurIPS 2019Workshop on Causal Machine Learning，2019。[9]Tobias Schnabel ， Adith Swaminathan ， Ashudeep Singh ， Navin Schmidak ，Thorsten Joachims，作为治疗的建议：去偏见学习和评估，2016，arXiv预印本arXiv：1602.05352。[10] Ludovik Coba ， Panagiotis Symeongland， Markus Zanker， Personalised novelandexplainablematrix factorisation，Data Knowl. Eng. 122（2019）142[11] ShuoWang ， HuiTian ， XuzhenZhu ， ZhipengWu ， Explainablematrixfactorization with constraints on neighborhood in the latent space， in：InternationalConferenceon Data Mining and Big Data，Springer，2018，pp. 102-113[12] 何向南，廖丽子，张汉旺，聂立强，夏胡主席，达生Chua，Neuralcollaborative filtering，in：Proceedings of the 26th International Conference onWorld Wide Web，2017，pp. 173-182.[13] Behnoush Abdollahi，Olfa Nasraoui，Collabo- rative滤波的可解释矩阵分解，在：第25届万维网国际会议论文集，2016年，pp. 五比六[14] Saúl Vargas，Pablo Castells，Rank and relevance in novelty and diversity metricsfor recommender systems ， in ： Proceedings of the Fifth ACM Conference onRecommender Systems，2011，pp. 109比116解释性排名准确度

下载后可阅读完整内容，剩余1页未读，立即下载