推荐系统中的选择性删除

165 浏览量更新于2023-11-29 收藏 771KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

2768建议忘却陈冲1人，孙飞2人，张敏1人，丁柏林2人1人工智能研究所计算机科学与技术系清华大学北京国家信息科学技术研究中心，北京1000842阿里巴巴集团达摩cc17@mails.tsinghua.edu.cn，z-m@tsinghua.edu.cn，2{opinion.sf，bolin.ding}@ alibaba-inc.com摘要推荐系统通过从收集的数据中学习用户的个人偏好来提供必要的网络服务。然而，在许多情况下，系统也需要忘记一些训练数据。从隐私的角度来看，用户希望有一种工具可以从训练的模型中删除其敏感数据的影响。从效用的角度来看，如果系统的效用被一些坏数据破坏，系统需要忘记这些数据来重新获得效用。虽然遗忘是非常重要的，但它在现有的推荐系统中没有得到很好的考虑。虽然有一些研究已经研究了机器学习问题，但现有的方法不能直接应用于推荐，因为它们无法考虑协作信息。在本文中，我们提出了RecEraser，一个通用的和有效的机器学习框架定制的推荐任务。RecEraser的主要思想是将训练集划分为多个分片，并用这些分片训练子模型具体来说，为了保持数据的协作信息，我们首先设计了三种新的数据划分算法，将训练数据划分为平衡的组。然后，我们进一步提出了一种自适应聚合方法，以提高全局模型的效用。在三个公共基准上的实验结果表明，RecEraser不仅可以实现有效的去学习，而且在模型效用方面优于最先进的去学习方法源代码可以在https://github.com/chenchongthu/Recommendation-Unlearning 上找到CCS概念• 信息系统→推荐系统;·安全和隐私→隐私保护。关键词机器学习;选择性删除;推荐系统;协同过滤;这项工作是Chong Chen在阿里巴巴实习时完成的†通讯作者。允许免费制作本作品的全部或部分的数字或硬拷贝，以供个人或课堂使用，前提是制作或分发副本的目的不是为了盈利或商业利益，并且副本的第一页上有本声明和完整的引用。版权的组成部分，这项工作所拥有的其他人比ACM必须尊重。允许使用学分进行摘要以其他方式复制、重新发布、在服务器上发布或重新分发到列表，需要事先获得特定许可和/或付费。请求权限请发邮件至permissions@acm.org。WWW©2022计算机协会ACM ISBN 978-1-4503-9096-5/22/04。. . 十五块https://doi.org/10.1145/3485447.3511997ACM参考格式：Chong Chen，Fei Sun，Min Zhang，and Bolin Ding.2022年建议忘却。在ACM Web Conference 2022（WWW '22）的会议记录中，2022年4月25日至29日，虚拟活动，法国里昂。ACM，美国纽约州纽约市，10页。https://doi.org/10.1145/3485447.35119971引言推荐系统为用户提供个性化服务以缓解信息过载问题，在电子商务[14，38]、社交媒体[8，10，16，48]、新闻门户[41]等广泛应用中发挥着越来越重要的作用。个性化推荐系统的关键被称为协同过滤[28，31，37，42]，它根据用户视图、点击和评级）。一旦一个推荐系统被建立起来，它就有可能记录下训练数据。然而，在许多情况下，推荐系统也需要忘记某些敏感数据及其完整的血统，这在本文中被称为推荐Unlearning首先考虑隐私，最近的研究表明，用户的敏感信息可能会从训练的模型中泄露，例如，推荐系统[50]，大的预训练[4]和微调的自然语言模型[49]。在这种情况下，用户需要一种工具来消除他们的敏感信息对训练模型的影响第二个原因是效用。如今，越来越多地收集新数据，以进一步完善现有模型[51]。然而，坏数据（或称为脏数据），例如，中毒攻击[33]或分布外（OOD）数据[3]中的污染数据将严重降低推荐的一旦这些数据被识别，系统需要忘记它们以重新获得效用。此外，一般用户例如，想要购买移动电话的用户将乐于看到关于移动电话的推荐。但在pur-chase之后，她/他将在一段时间内对新手机的推荐不感兴趣在这种情况下，用户会希望删除某些数据，以便系统可以提供更有用的建议。最简单的unlearning方法是在删除需要忘记的样本后从原始数据重新训练然而，该方法应用的难点在于大规模数据的计算代价昂贵。一些努力已经致力于解决计算机视觉和自然语言处理领域中机器非学习的低效率问题[1，2，13，22，24]。例如，SISA方法[1]将训练数据随机分为几个不相交的分片，然后基于每个分片训练子模型然后，通过多数投票或平均，从子模型的聚合中获得最终的预测结果。当需要一些数据样本时2769WWW为了被遗忘，只需要重新训练相应的子模型然而，现有的方法不能直接应用于推荐任务。由于推荐系统依赖于跨用户和项目的协作信息，因此将数据随机划分为碎片可能会严重损害推荐性能。此外，现有的学习方法中的聚合部分通常为每个子模型分配静态权重。虽然最近的方法GraphEraser[13]使用基于学习的方法来分配权重，但在预测不同的用户-项目交互时，权重不能自适应地改变。鉴于现有解决方案的上述问题，在这项工作中，我们提出了一种新的和有效的可擦除推荐框架，即RecEraser，实现高效的学习，同时保持高推荐性能。RecEraser的总体思路是将训练集划分为多个分片，并为每个分片训练一个子模型为了保持数据的协同信息，我们设计了三种数据划分策略，分别基于与传统的社区检测和聚类方法[15，23，34]不同，我们的数据划分策略旨在实现均衡划分，从而使学习效率不会受到不均衡碎片大小的影响。此外，考虑到推荐系统通常面对各种各样的用户和项目，子模型应该有不同的预测不同的用户项目对的贡献。为了进一步提高推荐性能，我们提出了一种基于注意力的自适应聚合方法。为了评估我们的方法，我们将RecEraser应用于三个真实世界的数据集进行了广泛的实验。由于RecEraser的架构对于基础模型是模型不可知的，因此我们使用三个代表性的推荐模型BPR [42]，WMF [11，31]和LightGCN [28]作为其基础模型。实验结果表明，RecEraser不仅可以实现高效的unlearning，而且在性能方面优于SISA [1]和GraphEraser [13]等最先进的进一步的消融研究也表明了我们提出的数据划分策略和自适应聚合方法的有效性。这项工作的主要贡献是：(1) 据我们所知，这是第一个解决推荐机器学习问题的工作提出了一个通用的可擦除推荐框架RecEraser，以实现高学习效率和高性能。(2) 我们设计了三种数据分割策略来将数据分割成均衡的分片，并提出了一种基于注意力的自适应聚合方法来进一步提高RecEraser的性能(3) 我们在三个真实世界的数据集和三个有代表性的推荐模型上进行了广泛的实验。结果表明，RecEraser不仅可以实现有效的学习，而且在推荐性能方面优于最先进的学习框架。2相关工作2.1项目推荐早期推荐方法[36，37]在Netflix挑战赛中得到普及，旨在通过以下方式对用户将用户和项目映射到潜在因子空间，如矩阵因子化。后来，研究人员发现用户主要通过隐性反馈与物品进行互动，例如在电子商务网站上购买和在线视频平台上观看然后提出了一系列推荐方法，用于从隐式反馈中学习[9，12，30，31，42]。具体而言，Hu et al.[31]提出了一种基于非采样的方法WMF，它假设所有未观察到的项目都是负样本。最近的一些研究也被用来解决非采样学习的低效率问题. 例如，Chen et al.[11]为推荐模型导出灵活的非采样损失，从而实现有效和高效的性能。在另一条研究线上，Rendle等人。[42]提出了一种成对学习方法BPR，这是一种基于抽样的方法，它基于用户对项目对的相对偏好来由于深度学习的普及，有大量文献利用不同的神经网络用于推荐系统。在[30]中，He et al. 提出了一种神经协同过滤（NCF）框架，通过联合学习矩阵分解和前馈神经网络来处理隐式反馈数据NCF框架已被广泛扩展，以适应不同的建议方案[27，45]。最近，探索新提出的深度学习架构在推荐中的应用已经成为一种趋势。例如注意力机制[7，47]，卷积神经网络[29，52]，递归神经网络[41]和图形神经网络[6，19，46]。具体而言，Wang et al. [46]提出NGCF通过在用户-项目交互图上传播嵌入来利用高阶接近度NGCF然后通过移除非线性激活函数和特征变换进一步扩展到LightGCN [ 28 ]。LightGCN比vanilla GCN模式更有效，并且在Top-K推荐任务中达到了最先进的性能。2.2机器学习机器学习1，也称为机器学习中的选择性遗忘[24]或数据删除/删除[21，26]，是指旨在根据训练模型的请求去除训练数据的指定子集的影响的过程以往关于机器学习的研究主要分为近似学习和精确学习两大类。近似遗忘提供了关于数据删除的统计保证，因此也称为统计遗忘[24，26，32]。基本的想法是放松对精确删除的要求，即，它只提供了一个统计保证，即无法将未学习的模型与从未在移除的数据上训练过的模型区分开来[26]。它们通常采用基于梯度的更新策略来快速消除被请求删除的样本的影响[40]。例如，Guo et al.[26]，Golatkar et al. [24]和Golatkar et al.[25]提出了不同的牛顿方法来近似凸模型的再训练，例如，线性回归、逻辑回归和神经网络的最后一个全连接层。一种替代方案是消除需要删除的样本对学习模型的影响，1值得注意的是，遗忘的目的不同于差分隐私（DP）方法[18，20]，后者旨在保护用户的隐私信息，而不是删除它们。此外，遗忘通常需要比DP更严格的保证建议忘却WWW2770\[]{}表1：符号和注释总结符号描述U、 V分别为用户和项的集合Y用户-项目交互矩阵K碎片的数量SiShardsi在Si上训练的子模型p<$u，q<$v分别用于数据分区的用户u和项v的预训练数据集对于推荐遗忘，如果用户u想要撤销项v的一个记录（即，yuv），推荐系统需要获得在Yyuv上训练的未学习模型。从形式上讲，推荐遗忘的任务是实现三个一般目标。可证明保证：这是反学习的基本要求，要求被撤销的数据必须是真正的反学习的，并且不影响模型参数。高遗忘效率：遗忘所需样本的遗忘过程应该尽可能快。pi，qi用户u和项目v的嵌入通过• 比较性能：联合国的性能，uvMi，分别学习模型pu，qv分别是用户u和项v的聚合嵌入影响函数[32]。与精确去学习相比，近似去学习方法通常更有效。然而，它们的保证是概率性的，很难应用于深度神经网络等非凸模型。这使得它们不太适合推荐系统的应用，推荐系统受到法律的严格监管，例如，GDPR和CCPA。精确的unlearning旨在确保请求数据完全从学习模型中删除。早期的工作通常旨在加速简单模型或某些特定条件下的精确非学习[2，5，43]，例如SVM（支持向量机）的留一交叉验证[5，35]，k均值聚类中可证明有效的数据删除[21]，以及基于统计查询学习的朴素贝叶斯快速数据删除，假设训练数据处于确定的顺序[2]。最近，代表性的工作是SISA（Sharded，Isolated，Sliced，and Aggregated）[1]。 SISA是一个非常通用的框架，其核心思想可以抽象为三个步骤：（1）将训练数据划分为若干不相交的分片;（2）独立地训练子模型（即，没有通信）;（3）聚集来自所有碎片的结果用于最终预测。通过这种方式，可以通过仅重新训练受影响的子模型来有效地实现遗忘。随后，Chen et al.[13]将这一思想应用于图的去学习，提出了一种改进的分片算法。本文的RecEraser算法与现有算法的不同之处在于：（1）设计了新的数据划分方法以保持数据的协同信息;（2）提出了自适应聚合方法以提高全局模型的效用。这些设计使我们的RecEraser更适合推荐任务。3建议不学习我们首先介绍了关键符号，然后制定推荐的unlearning任务，并讨论其与现有方法的差异和挑战。3.1符号和问题表述表1描述了本文中使用的符号和关键概念我们将用户集和项集分别表示为U和V用户-项交互矩阵被表示为Y = yuv 0，1，指示u是否与项v具有交互。给定一个目标用户u，推荐任务是推荐一个u可能感兴趣的项目列表。从零开始再培训3.2建议学习的挑战现有的机器学习方法主要是在计算机视觉和自然语言处理领域设计的，不能直接应用于推荐任务。例如，最先进的非学习方法SISA[1]使用随机方法将训练数据划分为多个分片。然而，推荐的输入是用户-项目交互，其中包含丰富的协作信息。随机划分训练数据会破坏协同信息，从而影响推荐性能. 一种有前途的方法是使用社区检测或聚类方法[15，23，34]。然而，由于现实世界的数据的底层结构，这些方法可能会导致高度不平衡的数据分区。因此，如果所需样本属于大分片，则会影响去学习效率为了解决上述问题，我们需要设计新的平衡的数据划分方法，可以保持用户和项目之间的协作信息此外，现有的学习方法通常在推理阶段使用静态聚合策略，这不适合通常面对各种用户和项目的推荐系统。虽然最近的方法GraphEraser[13]使用基于学习的方法来分配权重，但在预测不同的用户-项目交互时，权重不能自适应地改变。为了进一步提高推荐学习框架的性能，子模型的权重应该取决于它学习单个用户（或项目）的特征的程度。4RECERASER方法在本节中，我们首先介绍了RecEraser框架的一般概述，然后详细介绍了我们提出的模型的两个关键组成部分：1）平衡数据划分和2）基于注意力的自适应聚合。4.1概述RecEraser的总体框架如图1所示。从图中，我们首先对我们的方法做一个简单的概述：(1) RecEraser由三个阶段组成：平衡数据分区，子模型训练和基于注意力的自适应聚合。(2) 平衡数据划分部分的设计是为了在保持协同信息的前提下对训练数据进行在数据被划分之后，针对以下中的每一个训练子模型（Mi）：··WWWChong Chen，Fei Sun，Min Zhang，andBolin Ding2771------←∪||------（）（）←∪{}12m（）（）我--p′ a我–u 2=p<$a，j−p<$u，j2（：第 10个数据碎片图1：第三分片模型：要忘记的预测基于注意力的自适应聚合Y1123��…Y1123$…非学习平衡数据分区原始训练数据图1：RecEraser框架的图示，它由三个部分组成：数据分区、子模型训练和子模型聚合。当接收到数据的非学习请求时，仅需要重新训练对应的子模型和聚合部分。分片数据（Si）。所有子模型共享相同的模型架构，并且可以并行训练以加快训练过程。在预测阶段，对于每一个单独的预测，基于注意力的自适应聚合策略，以找到不同的子模型的最佳权重。(3) 当数据需要被取消学习时，只有一个子模型的碎片包含要取消学习的点和聚合部分需要重新训练，这比从头开始重新训练整个模型4.2平衡数据分区如前所述，用于推荐任务的数据通常包含丰富的协作信息。为了保存协作信息，一种有前途的方法是依靠社区检测和聚类方法[15，23，34]。然而，直接应用它们可能会导致高度不平衡的数据分区. 受[13]的启发，我们提出了三种新的平衡数据分区方法，即基于用户的平衡分区（UBP），基于项目的平衡分区（IBP）和基于交互的平衡分区（InBP）。与[13]通过所有节点嵌入的k-means划分数据不同，我们的三种数据划分策略基于用户，项目和交互的相似性算法1基于用户的平衡分区算法（UBP）要求：对用户进行预训练，即P<$=p<$1，p<$2，. . . ，p<$m;用户-项目交互Y;分片数量K;每个分片的最大数量t确保：分片S = S1，S2，. . . 、SK1：随机选择K个锚点A = a1，a2，. . . ，从U中取K2：当不符合停止标准时，3：对于A do中的每个ai4：对于U中的每个U5：计算距离Eai，u = dist ai，u（等式10）(1))6：结束7：结束8：按升序对E排序，得到Es9：空S10：对于Es中的每个ai和u，11：如果Sit和u尚未被分配，则<第12章：我是你13：如果结束14：结束15：通过等式更新A。(2)16：结束时17：返回S算法2基于交互的平衡分区算法（InBP）要求：对用户进行培训，使其满足以下条件：P<$=p<$ ，p<$，. . . ，p<$;itemembeddingsQ<$=q<$1，q<$2，. . . ，q<$n;用户-项目交互Y;分片数量K;每个分片的最大数量t确保：分片S = S1，S2，. . . 、SK1：随机选择K个锚点A = a1，a2，. . . 从Y到K2：当不符合停止标准时，3：对于A do中的每个ai4：对于Y do中的每个yuv5：计算Eai，yuv = dist ai，yuv（等式10）(3))6：结束7：结束8：按升序对E排序，得到Es9：空S10：对于Es中的每个ai和yuv，11：如果|SI|

下载后可阅读完整内容，剩余1页未读，立即下载