我们是否遗忘了什么？用最佳训练窗口正确评估推荐系统

88 浏览量更新于2023-09-05 收藏 11.96MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

0我们是否忽视了什么？使用最佳训练窗口正确评估推荐系统0Robin Verachtert 1,2，Lien Michiels 1,2和Bart Goethals 1,2,301 比利时Froomle N.V.02比利时安特卫普大学03 澳大利亚莫纳什大学0摘要推荐系统部署在不断变化的兴趣和可用性的动态环境中。这些系统的超参数优化通常在从实际系统中提取的静态数据集上进行。虽然众所周知，计算模型的质量在很大程度上取决于其训练数据的质量，但在这些优化中往往忽视了这一点。例如，当数据发生概念漂移时，模型很可能学习与目标预测数据不一致的模式。有趣的是，大多数关于推荐系统的科学文章通常在整个数据集上进行评估，而不考虑其固有质量或其部分的质量。首先，我们展示了仅使用数据集的较新部分可以大大提高推荐系统的性能，并提出在评估和部署之前将其视为标准超参数。其次，我们发现在优化训练数据窗口之前和之后比较知名的基线算法的性能会发生显著变化。01. 引言0推荐系统广泛应用于帮助用户从大型目录中找到最相关的产品和文章，例如新闻网站和电子商务商店。它们所部署的环境产生大量的信息流，模型需要在这些信息流上进行训练。除了在线学习方法和增量模型外，通常的方法是在数据流的静态切片上训练模型。确定这个切片的最佳宽度是一个具有挑战性的工程问题。使用的数据太少可能导致模型无法学到有用的信息。使用更多数据通常会导致更长的训练时间和更长时间的预测。然而，在学术研究中，这通常不被认为是一个问题。用于实验评估的典型数据集是静态的，并且几乎总是在其整体上使用。已经采取重要的步骤来正确评估推荐技术0推荐系统评估视角研讨会（PERSPECTIVES2022），2022年9月22日，与第16届ACM推荐系统会议在美国华盛顿州西雅图举行。 �robin.verachtert@froomle.com（R. Verachtert）; lien.michiels@froomle.com（L. Michiels）;bart.goethals@uantwerpen.be（B. Goethals） � 0000-0003-0345-7770（R. Verachtert）;0000-0003-0152-2460（L. Michiels）; 0000-0001-9327-9554（B. Goethals）02022年版权由作者拥有。根据知识共享署名4.0国际许可证（CC BY 4.0）许可。0ISSN 1613-0073 CEUR Workshop Proceedings (CEUR-WS.org)0通过时间或留下最后一个的分割[1,2,3,4]来评估算法时，通过使用所有历史事件来训练模型，这些评估在一定程度上对数据集的最早交互进行了隐含的信任，以添加有用的信息。挑战这种信任，已经设计了降低旧交互影响的算法[5]。在算法的评估中，我们表明在训练过程中完全忽略早期交互可以显著提高多种设置下推荐系统的性能。从直觉上讲，对于简单的流行度基线来说是正确的：过去一周受欢迎的物品对下周的预测更具预测能力，而过去一年受欢迎的物品则不那么具有预测能力[6]。但是，对于更复杂的个性化推荐算法来说，这也是正确的吗？在本文中，我们考虑了一个交互的最大“年龄”，即自交互发生以来的时间，在模型训练过程中作为一种额外的超参数。在本文的其余部分，我们将把用于训练的事件的最大年龄称为超参数�。我们调查并回答以下三个问题：0• RQ1：�的优化如何影响算法的个体性能？ •RQ2：�的优化是否改变了算法之间的相对性能？ •RQ3：�的选择如何影响运行时间和项目目录的覆盖率等次要指标？0此外，通过我们的实验，我们展示了超参数�的最佳值对算法和数据集的模型准确性有显著影响。在对时间不敏感的算法中发现了最大的改进，特别是当它们在在线新闻等高度动态环境中部署时。我们的发现加强了我们的信念，在确定哪个模型表现最佳方面，超参数�是一个重要的考虑因素，无论是在未来的学术研究还是生产环境中。我们将将具有超参数�最佳值的算法的全面基准测试留给未来的工作。在第2节中，我们重点介绍了相关的相关工作。第3节描述了�应该被视为超参数，并如何设置评估以模拟实际情况。在第3节中，我们还介绍了选择的算法、数据集和评估指标。最后，在第4节中，我们讨论了实验结果与三个研究问题有关，并呈现了在新闻网站上进行的两次试验的结果，以证实我们的结果。我们还利用我们的实验为�的值选择提供建议。02. 相关工作0数据科学中的研究已经认识到数据漂移是训练高质量模型的重要因素数十年[7,8,9,10]。更具体地说，Fan[11]提出了在二进制分类背景下盲目使用旧数据的问题。正如他们得出的结论：“[...]盲目使用旧数据就像赌博”。当数据集发生漂移且算法没有处理这种漂移的能力时，仅使用较新数据，即明确定义�，是避免训练性能较差的模型的一种简单方法[11]。推荐系统在高度动态的环境中使用，因此自然而然地必须处理数据漂移。我们可以区分两个与处理数据漂移相关的研究方向，即在数据漂移下测量准确性和执行推荐算法的算法。0对于数据漂移问题，已经提出了改进的数据分割技术，更好地反映了实际推荐场景，例如定时分割[12,13]，序列最后一项预测分割[14]和重复的时间感知分割[15,1]。关于后者，多年来已经提出了大量的时间和序列感知算法。为了全面了解，我们将有兴趣的读者引用到Campos等人的综述[12]，Ludewig和Jannach[16]，Quadrana等人的综述[17]和Bogina等人的综述[5]。与我们的工作相关的是，Vinagre和Jorge[18]总结了两种处理数据流中概念漂移的通用方法。第一种方法是利用预先确定的�，并将其用作滑动窗口在数据上滑动。第二种方法是利用衰减因子，使旧的交互对相似性的影响较小。Ludmann[19]使用了一种上下文流行度算法，�设为五分钟、三十分钟和一小时，在2017年的CLEF倡议中取得了巨大的成功。同样，Ji等人[6]表明，使用较小的�计算流行度或使用衰减因子可以提供更强的基线。Jannach和Ludewig[20]以及Jannach等人[14]也发现在零售环境中，训练数据的新鲜度很重要。我们的工作受到了这些早期研究的启发，并旨在进一步将流行度和基于相似性的算法的发现固定和拓宽到其他类型的推荐算法，例如时间和会话感知算法。这类时间感知算法的示例是使用衰减因子的基于邻域的模型[21,22,23,24,25,26]，类似于Vinagre和Jorge[18]。最近，我们看到了使用顺序和会话感知算法学习顺序模型的序列和会话感知算法。这类方法的示例包括STAN [27]，Sequential Rules [20]，VS-KNN [20]和GRU4Rec[28]。在GRU4Rec之后，越来越多的深度学习方法被提出，其中包括顺序和/或时间信息。[例如29,30,2]。最近的可重现性研究在各个领域挑战了这些复杂深度学习方法的性能。在最近的两项工作中，Dacrema等人[31,32]发现“11个可重现的神经方法中有11个可以被概念上简单的方法超越”，例如ItemKNN或UserKNN。Ludewig等人[33]在会话环境中研究了深度学习方法与简单基线的性能。他们发现“在大多数情况下[...]简单技术优于最新的神经方法”。我们遵循他们的结果，并在我们的实验中专注于更简单的基线。03. 方法论03.1. 推荐场景0在许多实际应用中，推荐系统用于为用户生成推荐，而用户在浏览其他文章或产品时使用。在这些用例中，用户的兴趣通常主要由他们最近的交互所捕捉。模拟这种情况的标准评估协议是执行留一法拆分[2,3,4]或迭代揭示[33]。我们修改了留一法评估，以最佳逼近通常用于生产环境中的重复训练和服务架构，并避免将未来信息泄漏到我们的模型训练中[34]。只有在时间戳�之前，即模型在提供服务之前重新训练的时间，之前的数据才会用于训练。给定计算的显著计算成本0在我们的实验中，我们使用了一个评估窗口，并将重复评估作为Scheidt和Beel[15]建议的未来工作。形式上，给定用户集�和物品集�，令�={(�,�,�):�∈�,�∈�,�∈�}为交互数据集，其中�是用户�与物品�最后交互的时间戳。为了获得训练数据集，我们在时间戳�上拆分数据集；在�之前（�<�），将数据用作算法的训练数据。除了每个算法的其他超参数之外，我们引入了超参数�，并进一步限制了用于训练的数据集，只使用�−�之后的数据，即{(�,�,�)∈�<�|�−�<�<�}。小的�值限制了训练数据，只包括靠近截止时间�的交互。�越大，用于训练模型的数据越多。为了创建测试数据集，我们提取了只有至少1个事件发生在�之后的用户，并使用除最后一个交互之外的所有交互（包括�之前的交互）作为历史记录来预测他们的最后一个交互，就像在经典的留一法场景中一样。为了正确调整超参数，我们引入了第二个截止时间� ��<�，使得我们在超参数优化期间的训练数据集是事件{ (�,�,�)∈�<� ��|� ��−�<�<��}。为了获得验证评估数据集，我们提取了在��<�<�之间有交互的用户，并且与测试数据集类似，使用所有先前的交互来预测这些用户的最后一个交互。在为用户预测物品时，在验证和测试期间，我们从推荐中删除他们先前访问过的物品，这在实际世界中经常这样做。我们将在这种设置中考虑重新消费的评估作为未来的工作。03.2. 数据集0对于我们的实验，我们使用了五个数据集，其中两个来自新闻领域，三个来自零售领域。我们选择了这两个领域，因为它们是典型的现实世界推荐用例，并且我们希望这些领域展示出不同的行为模式。新闻领域的文章很快变得不相关，而在零售领域中，产品相关性通常稳定更长时间。直观上，我们期望当�值较大时，零售数据集会受益于更大的�值，因为它们经历较弱的数据漂移，而当�值过大时，新闻数据集的性能会遭受更大的影响。在选择数据集时，我们要求它们具有足够的大小（>1百万交互）并包含时间戳信息以用于训练模型。对于新闻，我们使用了Adressa数据集[35]以及从实时推荐系统中提取的专有数据集，我们将其称为NEWS。这两个数据集均在7天内收集。在拆分这些数据集时，我们使用倒数第二天的12:00到23:59作为验证目标数据集的来源，最后一天的12:00到23:59作为测试目标数据集。对于零售，我们使用了2015年RecsysChallenge的Yoochoose数据集[36]、CosmeticsShopKaggle数据集[37]以及从实时推荐系统中提取的第二个专有数据集，我们将其称为RETAIL。这三个数据集的时间跨度都比两个新闻数据集长，CosmeticsShop数据集为152天，Yoochoose数据集为182天，RETAIL数据集为98天。对于CosmeticsShop和Yoochoose数据集，我们使用了14天的验证和测试集，对于略短但更密集的RETAIL数据集，我们使用了连续的7天窗口。0表1 离线实验中使用的数据集属性0数据集 |�| | U | | I | 期间基尼系数(物品)0RETAIL 24 237 016 1 302 909 18 255 98天 0.70 Yoochoose 16 044 427 1882 684 44 415 182天 0.76 CosmeticsShop 7 877 677 483 080 27 019152天 0.60 NEWS 5 943 609 381 797 3 810 7天 0.87 Adressa 2 532 729228 462 2 790 7天 0.920通过使用专有数据集和公共数据集，我们可以将离线实验结果与在线试验相联系。数据集的属性可以在表1中找到。我们报告了事件数（|�|）、用户数（|�|）、物品数（|�|）、数据收集的时间段以及用于比较每个物品访问的基尼系数[38]。基尼系数是一个衡量分散性的统计指标，高基尼系数表示少数物品具有最多的交互，而其他所有物品的交互频率要低得多。新闻数据集通常具有较高的基尼系数，因为每天只有少数文章对所有用户来说是相关的。03.3. 算法0我们选择了一组与时间无关的基线算法、序列感知算法和时间感知算法，以比较优化�对它们的影响。0流行度对每个用户推荐最常访问的物品。由于根据场景（见第3.1节）从推荐中删除了用户之前交互的物品，因此推荐只是最小程度上的个性化。0Item-kNN是基于邻域的协同过滤中最知名和最常用的基线算法之一[39,40]。该模型包含一个与项-项矩阵�∈R|�|×|�|进行的单次矩阵乘法：�(�)=��。其中，��,�保存了项�和�之间的相似度。要使用的相似度度量被认为是一个超参数。在我们的工作中，我们使用了Deshpande andKarypis[40]中定义的余弦相似度和条件概率。最近的关于神经新闻推荐的研究强调了简单的基于邻域的方法与更复杂的替代方法相比的显著竞争力[16,41]。0带衰减因子的Item-kNN我们使用两个带衰减因子的ItemKNN方法版本。第一个版本由Ding和Li[42]提出，在进行预测时，对用户历史进行指数衰减。与ItemKNN算法完全相同，计算物品-物品相似度矩阵。预测函数改变为�(�)=�(�)�，其中�对交互矩阵�进行指数衰减。用户物品交互的衰减值为��,�=�−�(�0−��,�)，其中�0表示当前时间，��,�表示用户�访问物品�的上次时间，�是一个超参数。尽管在预测过程中应用了衰减因子0预测，我们在讨论中认为该算法与时间无关，因为训练模型与时间无关。我们在本文的剩余部分中将此方法称为“IKNNDing”。刘等人提出的第二种方法[22]在计算相似性�之前，在二进制交互矩阵上应用指数衰减函数。相似性�是通过衰减后的交互矩阵的列之间的余弦相似度计算的：�(�)。衰减函数�与IKNN中使用的函数相同，预测函数�也相同。衰减函数的超参数� fit和�predict可以独立选择进行训练和预测，从而增加了灵活性。我们将这个算法称为“IKNNLiu”。0EASE r是一个扩展了著名的SLIM方法[43,44]的模型。在EASEr中，通过一个最小二乘优化问题找到了项目-项目矩阵�，从而允许有一个闭式解。这使得该模型在计算效率上比迭代优化的替代方法如神经网络更高，同时产生了高度竞争力的结果。由于优化需要求逆Gramian项-项矩阵，随着项目目录的大小增长，EASE r的计算成本也越来越高。0GRU4Rec是第一个利用GRU组件来建模会话或用户历史中的顺序模式的深度学习推荐模型[45]。该模型受到文本分析方法的启发，旨在捕捉在特定顺序中经常一起出现的词之间的关系。在我们的实验中，我们使用了具有贝叶斯个性化排名(BPR)损失的变体来优化模型，而不是使用交叉熵损失。BPR更适合我们的情况，因为它解决了一个排名问题，而不是将问题作为二元分类任务来处理。此外，这种损失计算效率更高，因此训练时间更短。0顺序规则(SR)是一种基于项目之间的顺序关联规则的基线算法。该模型推荐与用户最后看到的物品相关的物品:�(�)=��.��是二进制的最后访问矩阵，��(�,�)=1只有在�是用户�最后访问的物品时才成立。物品i和j之间的非对称相似度:��,�,� ,的计算公式为∑�0间隙(�,�,�)。其中 1(�,�,�)0是一个指示函数，只有当用户�在物品�之后看到物品�时才返回1，而gap返回从�到�所需的步骤数。超参数max_steps指定在忽略共现之前，这个间隙最大可以是多大。Ludewig等人[33]发现，尽管该算法很简单，但在顺序推荐任务中表现出竞争力。03.4.评估指标0我们考虑的问题是物品的最佳排序，也称为Top-K推荐问题。我们使用归一化折扣累积增益(NDCG)[46]、目录覆盖率(Coverage)[47]、召回率[46]和平均倒数排名(MRR)[40]作为指标。这些指标是在前K个推荐中评估的，其中�∈[10,20,50]。我们在实验中设定的目标是生成一个最佳的物品排序，以作为要向用户展示的列表0由于篇幅限制，本文仅报告NDCG@10和Coverage@10。其他结果可以在公共代码存储库1中找到。我们的主要指标是NDCG。我们选择这个指标是因为它奖励将正确的物品放在列表中较高位置的模型。除了这个主要指标外，我们还报告算法的覆盖率，因为推荐的物品数量通常被视为次要目标[48]。03.5.参数优化0我们通过在超参数空间上进行搜索并在验证数据集上评估性能，确定了每个算法和数据集组合的最佳超参数。使用网格搜索，即使是粗略的设置，对于某些算法的大量参数也是不可行的，而且还需要检查�在大范围的潜在值上的变化。我们没有使用随机搜索，而是利用了Python的hyperopt库2中实现的Tree-structure Parzen Estimator[49]。虽然我们的超参数空间中没有包含依赖性超参数，但该方法仍能找到较少试验中的最佳超参数组合。我们没有设置固定数量的试验次数，而是给予每个算法-数据集对固定的试验时间来找到最佳参数。所有算法被赋予六个小时来找到最佳超参数，然而，只有GRU4Rec在这个时间范围内无法达到收敛。所有其他方法往往在两个小时内就收敛了，往往少于两个小时。这样，所有实验都可以在一周内在一个8核虚拟机上运行，该虚拟机配有52 GB的RAM和一块NVIDIATesla T4GPU，而无需并行计算。由于RAM不足，我们无法在Yoochoose和RETAIL数据集上训练EASE算法，也无法在RETAIL数据集上训练GRU4Rec。为了能够探索更多的GRU4Rec超参数，我们在优化过程中没有将其训练至完全收敛。这可能导致优化结果的性能损失，但每个试验的时间都能节省，因此我们可以找到最佳的参数组合。对于测试数据集上的最终结果，我们将GRU4Rec模型训练20个epochs，以实现收敛。01https://github.com/verachtertr/short-intent2https://hyperopt.github.io/hyperopt/04.结果0表2中显示了在优化过程中找到的�的最佳值，舍入到最近的小时。0数据集RETAIL Yoochoose CosmeticsShop NEWS Adressa0EASE r - - 389 3 3 GRU4Rec - 733 1562 9 121 ItemKNN 877 228 2368 2 5Popularity 3 25 286 1 1 SR 2059 185 2976 3 18 IKNN Ding 530 214 2278 25 IKNN Liu 2139 280 1939 3 1170在本节中，我们分享了实验的结果，并回答了三个研究问题。为了使实验可复制和重用，我们已将代码存储库公开3。04.1.研究问题1: “�的优化如何影响算法的个体性能？”0在表2中，我们展示了在优化过程中找到的delta的最佳值，并在表3中展示了相应的NDCG@10值。我们对使用所有训练数据训练的模型(� = ∞)以及优化�(� =optim)进行了NDCG计算。�的最佳选择取决于数据集和算法的组合。流行度算法在仅使用最新数据时效果最佳。大多数数据集上，其最佳训练窗口小于一天，只有CosmeticsShop数据集表现出足够稳定的行为，适合10天作为最佳窗口。在新闻数据集中，我们发现最显著的改进，Adressa数据集上最高可达30倍。流行度算法在新闻数据集和特别是Adressa数据集上的非凡性能可以通过这些数据集中的极端流行度偏差来解释。在表1中，您可以看到对于Adressa数据集，物品的基尼系数为0.92，在测试数据集上，基尼系数甚至更高：0.98。这表明几乎所有事件都发生在非常小的一组热门物品上。在新闻数据集中，最新数据的相关性反映在最佳�值上，时间无关的方法在训练最近几个小时时表现最佳。只有时间感知的ItemKNN模型(IKNNLiu)和GRU4Rec能够在Adressa数据集上使用超过一天的数据而不会丧失质量。对于这两个数据集，我们看到仅使用最近数据训练的时间无关算法的性能有显著提高。对于NEWS数据集，由于相关性变化更快，我们发现所有算法，即使是时间感知算法，也仅使用最近几个小时的数据时表现最佳。在零售数据集中，我们看到最佳�值反映了它们的稳定性。CosmeticsShop是一个非常稳定的数据集，大多数算法在几乎所有数据上表现最佳(�的最大值为124*24=2976小时)。对于RETAIL数据集，我们注意到最佳�通常小于CosmeticsShop数据集上的最佳�，但性能增益很小。这意味着03 https://github.com/verachtertr/short-intent0表3中是使用优化的 � 值和 � = ∞ 的NDCG@10结果（以％为单位）。在表的底部，我们报告了使用 � = ∞训练的算法的排名与使用优化的 � 训练的算法的排名之间的相关性。0数据集 RETAIL Yoochoose CosmeticsShop NEWS Adressa delta ∞ optim ∞ optim ∞ optim ∞optim ∞ optim0EASE r - - - - 4.84 4.60 2.01 5.47 0.82 6.98 GRU4Rec - - 13.57 13.61 3.30 2.93 3.67 3.15 4.063.87 ItemKNN 6.42 6.43 16.50 17.84 4.89 4.90 1.27 4.91 0.44 5.40 Popularity 0.71 0.82 0.361.12 0.88 1.07 0.95 4.82 0.37 12.57 SR 9.30 9.30 19.04 20.69 7.23 7.23 3.23 4.47 3.59 4.53IKNN Ding 8.50 8.51 17.10 18.52 6.44 6.43 1.49 5.76 0.60 6.44 IKNN Liu 8.81 8.81 18.84 18.686.41 6.40 2.60 3.56 3.92 3.910相关性 1.00 1.00 1.00 -0.43 -0.710我们发现，使用较少的数据集可以构建出好的模型，但是添加额外的数据并不会像在新闻用例中那样对性能造成太大的损害。Yoochoose是影响最大的零售数据集。大多数算法在使用最近10天的数据时性能最佳，只有GRU4Rec需要一个月的数据才能得到最佳模型。GRU4Rec算法在验证和测试数据之间显示了最不一致的行为。在优化过程中找到的最佳数值似乎不能在测试过程中实现最佳性能。这可能的一个原因是模型训练时间更长，因此可以检查的参数组合更少。选择正确的 �对于在给定数据集上获得算法的最佳性能很重要。在某些情况下，数据集将足够稳定，使用所有数据是最佳的。然而，在其他情况下，只有最后几个小时才包含构建即将来临的模型所需的相关事件。04.2. RQ2: "优化 � 是否改变了算法之间的相对性能？"0我们比较了按NDCG排序的算法在从 � = ∞ 到优化的 �的转变中的排名变化。为了进行比较，我们使用了两个算法的排名之间的Kendall'sTau相关性[51]。我们在表3的底部报告了这些相关性。在两个新闻数据集中，我们注意到排名之间存在明显的不一致。两者的相关性值均低于零，表明排名发生了 drastical 改变。当 � = ∞时，基于时间和序列的方法显示出优越的性能，然而，在给定优化的 �的情况下，这种情况不再存在。基线方法超过了深度学习方法，并且现在表现最佳。对于零售数据集，我们没有看到这种效果，要么 � = ∞是最佳的（CosmeticsShop和RETAIL），要么不考虑时间的算法已经优于深度学习方法，并且它们的改进进一步确定了它们的排名（Yoochoose）。然而，并不能保证排名总是保持不变，我们可以想象，对于某些算法组合，这种排名可能会发生变化。特别是在比较基于时间的模型和不考虑时间的基线模型时。基于时间的模型将具有更高的0表4中是使用优化的 � 和使用 � = ∞ 的Coverage@10结果（以％为单位）。减小 �通常会导致覆盖范围更小，因为不再推荐较旧的物品。0数据集 RETAIL Yoochoose CosmeticsShop NEWS Adressa delta ∞ optim ∞ optim ∞ optim ∞optim ∞ optim0EASE r - - - - 60.86 56.81 34.12 24.78 23.19 13.91 GRU4Rec - - 71.52 52.75 70.02 66.84 41.0018.53 34.52 32.69 ItemKNN 94.03 89.93 76.51 63.10 59.95 61.30 25.77 21.21 10.39 16.74Popularity 0.22 0.17 0.07 0.13 0.20 0.15 3.70 1.50 1.94 0.90 SR 89.65 89.52 85.83 65.46 92.4792.47 47.82 24.44 41.29 23.23 IKNN Ding 90.86 81.12 88.47 71.90 93.68 93.99 14.38 22.05 14.6217.03 IKNN Liu 88.17 88.15 78.28 73.22 93.19 93.98 65.70 30.42 71.36 68.570当使用整个数据集时，性能有所提高，但基准算法在优化其训练窗口时能够弥补差距。我们可以看到在Yoochoose上，IKNN Ding的性能几乎与IKNN Liu在优化�时相匹配，而在� =∞设置下被IKNN Liu超越。在大多数科学文章中，使用� =∞进行比较，因此不考虑交互的顺序和/或时间的方法可以轻松被能够考虑到交互顺序和/或时间的方法击败。然而，基于时间的基线方法在更相关的-最近的-数据部分上进行了训练，变得更难以改进，甚至在我们的一些实验中表现最佳。这凸显了为什么优化 �如此重要。如果不这样做，我们就有可能得出错误的结论。04.3. RQ3: � 的选择如何影响运行时间和覆盖率等次要指标？0在表4中，我们提供了算法-数据集配对的Coverage@10结果。我们可以看到，通常情况下，最佳 �的覆盖率较低。这是可以预料的，因为使用更少的数据的一个副作用是较旧的文章没有事件，因此不会被推荐。只有在Adressa的ItemKNN和IKNNDing中，我们看到了相反的效果：缩小训练窗口增加了推荐物品的数量。当历史数据淹没了最近的交互时，这种行为就会发生，以至于即使考虑了用户的最近历史，模型仍然主要推荐一组较旧的物品。减小 �为较新的物品提供了更公平的机会，因此可以根据用户的兴趣推荐更多的较新物品。�选择的另一个受影响的指标是算法的运行时间。在较少的数据上训练模型通常会导致更低的训练和预测时间。我们将运行时间定义为训练时间和预测时间的总和，因此可以同时考虑训练缓慢和预测缓慢。这两者都受到使用数据量的影响，都会对生产环境中的问题产生影响。在表5中，报告了使用最佳 � 和最大 �进行优化试验的运行时间（以秒为单位）。使用较少的数据会导致较低的运行时间。对于生产环境来说，这是一个重要的洞察。例如，在Yoochoose数据集上使用SR算法时，0表5中是优化和非优化的 � 的运行时间（以秒为单位）。运行时间是训练时间和预测时间的总和。减小 �也会降低运行时间，因为需要处理的数据较少。0数据集 RETAIL Yoochoose CosmeticsShop NEWS Adressa delta ∞ optim ∞ optim ∞ optim ∞optim ∞ optim0EASE r - - - - 815 791 38 30 14 7 GRU4Rec - - 7233 2990 5649 3824 1850 451 809 699ItemKNN 198 188 96 20 117 55 43 14 15 4 Popularity 33 28 32 27 12 10 17 15 6 6 SR 2504538 953 94 959 722 572 26 158 26 IKNN Ding 174 126 105 52 116 82 33 16 14 4 IKNN Liu194 67 100 57 128 87 44 16 19 110当切换到最佳 �时，性能有所提高，但运行时间减少了10倍。这意味着模型可以更频繁地进行更新，并且计算成本更低。这突显了为什么应该考虑使用更少的数据的最后一个原因。当使用尽可能多的数据时，我们不仅会冒险降低性能，还会产生更高的计算成本，并在构建模型和生成推荐时产生更大的延迟。04.4. 在线测试0补充离线结果，我们还在不同的新闻网站上进行了两次在线试验。这些试验的目标是优化向用户提供一系列热门物品的推荐框。在使用 �的自动优化之前，工程师们通过编辑的一些输入手动选择训练窗口。通过执行本文建议的 �的优化，我们发现原始值并不是最佳的，通过使用较小的 �值可以改进。在第一次测试中，使用从NEWS数据集提取的网站，框架位于主页上。手动设置是每3个小时训练一次。因此我们将 � = 3 � 作为我们的对照组。在离线实验中，我们发现 � = 1 �的性能最佳，因此我们将其作为测试组的训练窗口。AB测试结果显示，优化后的 � = 1 �训练窗口在为期三天的时间内，推荐框上的CTR提高了7%。在测试结束后，我们将新设置应用于所有用户。由于高流量，我们可以使用较短的测试窗口。两个组合组共生成了三百万个推荐列表。我们在线上找到的7%的改进与我们在离线上找到的10%的改进类似。在不同的新闻网站上的第二次测试中，我们发现 � = 2 �是最佳窗口。在这个更广泛的测试中，我们在网站的多个位置部署了类似的推荐列表，以确保积极效果的一致性。此外，测试持续了两周，以允许不同天之间的变化。我们使用了两个对照组，一个使用训练窗口 � = 6 � ，另一个使用 � = 10 �。根据推荐框的位置，我们发现CTR在两个对照组上都提高了7%到8%。0这些实验仅使用基于流行度的算法进行，但它们显示了在部署算法到生产环境之前优化�参数的价值。我们在离线实验中发现的这个算法的改进在在线实验中得到了验证。05. 结论0“我们忘记了什么？”我们在标题中写道，答案显然是：是的！在训练和评估推荐系统时，我们通常忽视了考虑数据的质量，甚至只考虑给定数据集的（最）近期部分的使用。正如我们在本文中所展示的，当仅在数据的近期部分进行训练时，最先进的算法的性能会发生显著变化。此外，当使用最佳训练窗口大小�时，最先进的（基线和神经）算法的性能排名也会发生显著变化。我们认为我们已经清楚地表明�的选择很重要，既可以找到各个算法的最佳性能，也可以在算法之间进行公平比较。在推荐系统的评估中，为每个算法优化�应成为标准做法。不优化�将只偏向于考虑漂移的算法。06. 限制和未来工作0在这项工作中，我们关注了新闻和零售数据集，以及一些基线算法的选择。在未来的工作中，我们希望扩展实验，包括其他相关领域，如娱乐、旅游和音乐，并使用更近期提出的最先进的顺序推荐方法。由于运行时间的考虑，我们没有考虑重复评估。为了巩固我们的发现，并确保它们在多个数据划分上保持一致，我们计划在将来的实验中报告随时间变化的结果。这项工作的实验重点是短期效果，将这些结果推广到用户保留等长期效果是未来研究的一个有趣方向。0参考文献0[1] O. Jeunen, K. Verstrepen, B. Goethals,用于隐式反馈推荐系统的公平离线评估方法与MNAR数据, 在ACM RecSys Workshop onOffline Evaluation for Recommender Systems, REVEAL ’18中, 2018.0[2] C. Lonjarret, R. Auburtin, C. Robardet, M. Plantevit,基于频繁序列的度量模型的顺序推荐, 《数据挖掘与知识发现》35卷(2021)1087–1133.0[3] I. Bayer, X. He, B. Kanagal, S. Rendle, 一种用于从隐式反馈学习的通用坐标下降框架,在第26届国际万维网大会上的论文集中, 2017, pp. 1341–1350.0[4] W.-C. Kang, J. McAuley, 自我注意的序列推荐,在2018年IEEE国际数据挖掘会议(ICDM)上, IEEE, 2018, pp. 197–206.0[5] V. Bogina, T. Kuflik, D. Jannach, M. Bielikova, M. Kompan, C. Trattner,考虑时间因素的推荐系统: 一项调查, 《用户建模和用户自适应互动》(2022)1–39.0[6] Y. Ji, A. Sun, J. Zhang, C. Li, 在推荐系统中流行度基线的重新审视, 在第43届国际ACMSIGIR信息检索研究与开发大会上的论文集中, 2020, pp. 1749–1752.0[7] A. Bifet, R. Gavalda, 适应窗口的时间变化数据学习, 在2007年SIAM国际数据挖掘会议上,SIAM, 2007, pp. 443–448.0[8] R. Klinkenberg, I. Renz, 自适应信息过滤: 在概念漂移存在时的学习,《文本分类的学习》(1998)33–40.0[9] J. Gama, I. Žliobait � e, A. Bifet, M. Pechenizkiy, A. Bouchachia, 概念漂移适应的调查,ACM计算调查 46卷(2014).0[10] G. Widmer, M. Kubat, 在概念漂移和隐藏语境存在时的学习,《机器学习》23卷(1996)69–101.0[11] W. Fan, 用于挖掘概念漂移数据流的系统性数据选择, 在第10届ACMSIGKDD国际知识发现与数据挖掘会议上, 2004, pp. 128–137.0[12] P. G. Campos, F. Díez, I. Cantador, 时态感知推荐系统:一项全面调查和现有评估协议分析, 《用户建模和用户自适应互动》24卷(2014)67–119.0[13] U. Panniello, M. Gorgoglione, C. Palmisano,在协同上下文推荐系统中比较预过滤和后过滤方法: 一项应用于电子商务的研究,在国际电子商务和Web技术会议上, Springer, 2009, pp. 348–359.0[14] D. Jannach, M. Ludewig, L. Lerche, 电子商务中基于会话的项目推荐:关于短期意图、提醒、趋势和折扣的研究, 《用户建模和用户自适应互动》27卷(2017)351–392.0[15] T. Scheidt, J. Beel, 推荐系统的时间相关评估, 在《RecSys的观点》中, 2021.0[16] M. Ludewig, D. Jannach, 会话推荐算法的评估,《用户建模和用户自适应互动》28卷(2018)331–390.0[17] M. Quadrana, P. Cremonesi, D. Jannach, 顺序感知的推荐系统, ACM计算调查(2018).0[18] J. Vinagre, A. Jorge, 可扩展协同过滤的忘记机制,《巴西计算机学会杂志》18卷(2012)271–282.0[19] C. A. Ludmann, 用于CLEF新闻推荐评估实验室的数据流管理系统Odysseus的新闻文章推荐,在CLEF(Working Notes)中, 2017.0[20] D. Jannach, M. Ludewig, 当循环神经网络遇见基于邻域的会话推荐,在第11届ACM会议上的推荐者的论文集中.0系统, RecSys ’17

下载后可阅读完整内容，剩余1页未读，立即下载