推荐系统优化方法及数据集选择的研究

130 浏览量更新于2023-12-04 收藏 681KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

CEUR诉讼http://ceur-ws.org我们是不是忘了什么？用最优训练窗口正确评价推荐系统罗宾Verachtert1，2，连战1，2和巴特Goethals1，2，31Froomle N.V.，比利时2比利时安特卫普大学3澳大利亚墨尔本莫纳什大学摘要推荐系统部署在动态环境中，不断变化的兴趣和可用性的项目，文章和产品。这种系统的超参数优化通常发生在从实时系统中提取的静态数据集上。尽管众所周知，计算模型的质量高度依赖于它所训练的数据的质量，但在这些优化中，这在很大程度上例如，当数据中出现概念漂移时，模型可能学习到与目标预测数据不一致的有趣的是，大多数关于推荐系统的科学文章通常对整个数据集进行评估，而不考虑其内在质量或其部分。首先，我们证明了只使用数据集的最近部分可以大大提高推荐系统的性能，并且我们认为它应该是一个标准的超参数，在评估和部署之前进行调整其次，我们发现，比较优化训练数据窗口显着改变了性能排名。1. 介绍推荐系统被广泛用于帮助用户从大多数网站（如新闻网站和电子商务商店）的大型目录中找到最相关的产品和文章。部署它们的环境会产生大量的信息流，模型需要在这些信息流上进行训练。除了在线学习方法和增量模型之外，通常的方法是获取此数据流的静态切片并在此切片上训练模型确定这种切片的最佳宽度是一个具有挑战性的工程问题。使用太少的数据可能会导致模型挨饿，并且无法学习任何相关内容。使用更多的数据通常会导致更长的训练时间，以及更大的模型，需要更长的时间来预测。然而，在学术研究中，这通常不被认为是一个问题。用于实验评估的典型数据集是静态的，并且它们几乎总是完整地使用。已经采取了重要的步骤来正确评估推荐技术Perspectives on the Evaluation of Recommender Systems Workshop（PERSPECTIVES 2022），2022年9月与第16届ACM推荐系统会议在美国华盛顿州西雅图举行verachtert@www.example.comfroomle.com（R. Verachtert）;lien. froomle.com（L.（uantwerpen.beB.Goethals）0000-0003-0345-7770（R. Verachtert）;0000-0003-0152-2460（L. 0000-0001-9327-9554（B. Goethals）©2022本文版权归作者所有。在知识共享许可署名4.0国际（CC BY 4.0）下允许使用讲习班ISSN 1613-0073 CEUR研讨会论文集（CEUR-WS.org）通过时间或leave-last-one-out分裂[1，2，3，4]。然而，通过使用所有历史事件来训练模型，这些评估对数据集中最早的交互进行了隐式信任，以添加有用的为了维护这种信任，算法被设计成减少旧交互的影响[5]。在算法的评估中，我们表明，在训练过程中完全忽略早期的交互可以显着提高推荐系统在多种设置中的性能。直觉上，这对于一个简单的流行度基线是正确的：在过去一周流行的项目比在过去一年流行的项目更能预测下周。但对于更复杂、更个性化的推荐算法来说也是如此在本文中，我们考虑的最大自其发生以来的时间，用于在模型训练期间构建模型的额外超参数在本文的其余部分，我们将把训练中使用的事件的最大年龄称为超参数。我们调查并回答以下三个问题：• RQ1：优化如何��影响算法的个体性能？• RQ2：优化是否会��改变算法之间的相对性能？• RQ3：的选择��如何影响次要指标，如运行时间和项目目录的覆盖范围？此外，通过我们的实验，我们表明，最佳的搜索引擎对算法和数据集的模型准确性有显着的最大的改进是那些与时间无关的算法，特别是当部署在高度动态的环境，如在线新闻。我们的研究结果加强了我们的信念，即在未来的学术研究和生产环境中，在确定哪种模型表现最佳时，超参数的选择是一个我们留下了一个全面的基准算法的最佳值的超参数优化未来的工作。在第二节中，我们重点介绍了相关的工作。第3节描述了如何将��其视为超参数，以及如何设置评估以模拟真实场景。在第3节中，我们还介绍了所选的算法、数据集和评估指标。最后，第4节讨论了关于这三个研究问题的实验结果，并给出了两个新闻网站的实验结果，证实了我们的结果。我们还使用我们的实验，给出建议的值的选择？2. 相关工作数据科学的研究已经认识到，数据漂移是几十年来训练高质量模型的一个重要因素[7，8，9，10]更具体地说，Fan [11]提高了人们对在二进制分类背景下盲目使用旧数据相关问题的他们总结道：不加选择地使用旧数据就像赌博当数据集包含漂移并且算法不具备处理这种漂移的能力时，仅使用更新的数据，即显式定义��，是避免训练性能差的模型的直接方法[11]。推荐系统用于高度动态的环境中，因此自然必须处理数据漂移。我们可以区分与处理数据漂移相关的两个研究方向，即在数据漂移和推荐算法下测量精度，在数据漂移下关于前者，已经提出了更好地反映现实推荐场景的改进的数据分割技术，例如，时间分割[12，13]，顺序的最后一项预测分割[14]和重复的时间感知分割[15，1]。关于后者，多年来已经提出了大量的时间和序列感知算法。对于一个全面的概述，我们建议感兴趣的读者坎波斯等人。[12]，Ludewig和Jannach [16]，Quadrana等人[17]和Bogina等人。[5]的文件。与我们的工作相关，Vinagre和Jorge [18]总结了两种处理数据流中概念漂移的通用方法。第一种方法是利用预定义��并将其用作数据上的滑动窗口。第二种是利用衰落因子，使得较旧的交互对相似性的影响较小。 Ludmann [19]使用了上下文流行度算法，��等于5分钟，30分钟和1小时，在2017年的CLEF计划中取得了巨大成功。类似地，Ji et al. [6]表明，使用较小��或使用衰减因子的计算流行度提供了更强的基线。[20] Jannach和Ludewig [20]和Jannach等人。[14]发现类似的迹象表明，训练数据的新近性在零售环境中很重要我们的工作受到这些早期努力的启发，旨在进一步锚定和扩大他们的研究结果，关于流行和基于相似性的算法，以其他类型的推荐算法，如时间和会话感知算法。这种时间感知算法的示例是使用衰落因子的基于邻域的模型[21，22，23，24，25，26]，类似于Vinagre和Jorge[18]。最近，我们看到了序列和会话感知算法，它们利用用户历史中的顺序来学习序列模型。这种方法的例子是STAN [27]，顺序规则[20]，VS-KNN [20]和GRU 4 Rec [28]。在GRU 4 Rec之后，越来越多的深度学习方法被提出来合并顺序和/或时间信息。[e.g.29、30、2]。最近的可重复性研究对这些复杂的深度学习方法在各个领域的性能提出了挑战。在两个最近的作品，Dacrema等人。[31，32]发现Ludewig等人[33]研究了深度学习方法的性能，与会话环境中的简单基线相比。他说：“在大多数情况下，[…] 事实证明，简单的技术优于最近的神经方法我们遵循他们的结果，并在我们的实验中专注于更简单的基线3. 方法3.1. 建议方案在许多现实世界的应用中，推荐系统用于在用户查看其他文章或产品时为用户生成在这些用例中，用户的兴趣通常主要通过他们最近的交互来捕获。模拟这种情况的标准评估协议是执行leave-last-one-out拆分[ 2，3，4 ]或迭代揭示[33]。我们修改了leave-last-one-out评估，以最好地近似生产环境中通常使用的（重复）训练和服务架构，并避免将未来的信息泄露到我们的模型训练中[34]。只有时间戳之前的数据��，即模型在服务之前重新训练的时间，才用于训练。考虑到{∈}|−}-{∈|−}在运行我们的实验时，我们使用单个评估窗口，并按照Scheidt和Beel [15]的建议为将来的工作保留重复评估。对于给定的一组用户��和一组项目��，设=（，）：��， ��， N是交互的数据集，其中是用户上次与项目交互的时间戳。为了获得训练数据集，我们将数据集按时间戳��进行分割;之前的数据��（ 1M交互），并包含项目视图事件的时间戳信息，这些信息将用于训练模型。对于新闻，我们使用Adressa数据集[35]以及从实时推荐系统中提取的专有数据集，我们称之这两个数据集都是在7天内收集在分割这些数据集时，我们使用倒数第二天的12：00到23：59作为验证目标数据集的源，并使用最后一天的12：00到23：59作为测试目标数据集。对于零售，我们使用来自2015年Recsys Challenge的Yoochoose数据集[36]，CosmeticsShopKaggle数据集[37]和第二个专有数据集，从实时推荐系统中提取，我们这三个数据集的时间跨度都比两个新闻数据集长，CosmeticsShop收集了152天，Yoochoose收集了182天，RETAIL收集了98天。对于CosmeticsShop和Yoochoose数据集，我们使用了14天的验证和测试集，对于稍短但更密集的RETAIL数据集，我们使用了连续7天的窗口。||||||∈表1离线实验中使用的数据集的属性数据集|||U||I|期间基尼系数（项）零售24 237 0161 302 90918 25598d0.70Yoochoose16 044 4271 882 68444 415182d0.76化妆品商店7 877 677483 08027 019152d0.60新闻5 943 609381 7973 8107d0.87阿德雷萨2 532 729228 4622 7907d0.92通过使用专有数据集和公共数据集，我们可以将离线实验结果与在线试验联系起来。数据集的属性可以在表1中找到。我们报告了事件数量（）、用户数量（）、项目数量（）、收集数据的时间段以及比较每个项目访问次数的基尼系数[38]。基尼系数是离散度的统计度量，高基尼系数表明少数项目具有最多的交互，而所有其他项目的交互频率要低得多新闻数据集通常具有较高的基尼系数，因为每天只有少数文章与所有用户相关3.3. 算法我们选择了时间不可知的基线算法，序列感知算法和时间感知算法的组合，以比较优化每个算法所产生的影响��受欢迎度访问次数最多的项目会推荐给每个用户。建议仅最低限度地个性化，因为根据场景，用户之前与之交互的项目将从建议中删除（参见第3.1节）。Item-kNN是基于邻域的协同过滤的最知名和最常用的基线算法之一[39，40]。该模型由单个矩阵乘法组成，项-项矩阵SR|��|：（）= S .|��|:��()=S. 其中，S，具有与项目和。要使用的相似性度量被认为是超参数。在我们的工作中，我们使用Deshpande和Karypis [40]中定义的余弦相似性和条件概率最近关于神经新闻推荐的工作突出了简单的基于邻域的方法与更复杂的替代方法相比的显着竞争力[16，41]。带衰减因子的Item-kNN我们使用带衰减因子的ItemKNN方法的两个版本。第一种是由Ding和Li [42]提出的，当使用用户历史进行预测时，对用户历史应用指数衰减项-项相似性矩阵的计算与ItemKNN算法完全相同。将预测函数改为��（）=（）S，其中对相互作用矩阵应用指数衰减。的衰减值用户项交互是，=-（0-，），其中0表示nw，并且，用户最后一次访问项的时间和是超参数。��尽管在使用期间应用了衰落因子，gap（，，）∈预测，我们在讨论中认为该算法是时间不可知的，因为训练的模型是时间不可知的。在本文的其余部分，我们将此方法称为第二种方法提出了刘等人。[22]在计算相似度S之前，对二元交互矩阵应用指数衰减函数。相似度S被计算为衰减的相互作用矩阵的列之间的余弦相似度：衰减函数与IKNN中使用的衰减函数相同，预测函数也是如此。的可以独立地选择衰减函数的超参数fit和predict用于训练��和预测，从而允许更大的灵活性。我们EASEr该模型是作为众所周知的SLIM方法的扩展而提出的[43，44]。在EASEr中，项目-项目矩阵S是通过允许封闭形式解的最小二乘优化问题找到的这使得该模型的计算效率比迭代优化的替代方案（如神经网络）高得多，同时产生极具竞争力的结果。由于优化需要反转Gramian项目-项目矩阵，因此随着项目目录大小的增加，EASE r的计算成本变得更高。GRU4Rec推荐的第一个深度学习模型，利用GRU组件对会话或用户历史中的序列模式该模型受到文本分析方法的启发，旨在捕捉以特定顺序频繁出现的单词之间的关系。在我们的实验中，我们使用贝叶斯个性化排名（BPR）损失的变体来优化模型，而不是使用交叉熵损失。 BPR更适合我们的场景，因为它解决了排名问题，而不是将问题作为二元分类任务来处理。此外，这种损失的计算效率也更高，因此训练时间更短。序列规则（SR）基线算法使用项目之间的序列关联规则。模型推荐与用户搜索到的最后一个项目相关的项目：��（）=S。是二进制最后一次访问矩阵，仅当是用户访问的最后一个项目时，��的项目i和j之间的不对称相似性：、，计算为∑∈1（，，. Where1（，，）是一个指示器函数，仅当用户已查看项目后项目，gap返回从到所需的步数。超参数max_steps指定在忽略同现之前该间隙最大可以有多大Ludewig等人[33]发现，尽管算法简单，但它在顺序推荐任务中表现得很有竞争力3.4. 评价指标我们考虑项目的最优排名问题，也称为Top-K推荐问题。我们使用归一化贴现累积增益（NDCG）[46]，目录覆盖率（Coverage）[47]，召回率[46]和平均倒数排名（MRR）[40]作为指标。这些指标是在前K个建议上进行评估的，其中有10个[10，20，50]。我们为实验设定的目标是生成一个最佳的项目排名，以列表的形式显示给用户。建议.出于空间考虑，本文仅报告NDCG@10和Coverage@10。其他结果可以在公共代码库1中找到。我们的主要指标是NDCG。我们选择这个指标是因为它会奖励那些将正确的项目放在列表中更高位置的模型除了这个主要指标，我们还报告了算法的覆盖率，因为推荐的项目数量通常被视为推荐的次要目标[48]。3.5. 参数优化我们通过在超参数空间上进行搜索并在验证数据集上评估性能来确定每个算法和数据集组合的最佳超参数。使用网格搜索，即使是粗略设置的网格搜索，也是不可行的，因为某些算法的参数量��很大，并且需要在很大的潜在值范围内进一步添加要检查的参数。我们没有使用随机搜索，而是使用了在Pythonhyperopt库2[50]中实现虽然我们的超参数空间都不包含依赖超参数，但该方法仍然能够在比随机搜索更少的试验中找到最佳超参数组合。我们所有算法都有六个小时的时间来寻找最佳超参数，然而，只有GRU4Rec无法在这段时间内找到收敛性。所有其他方法收敛得更快，通常不到两个小时。通过这种方式，所有实验都可以在一周内运行，而无需在具有52 GB RAM和单个NVIDIA Tesla T4 GPU的8核虚拟机上进行并行计算。由于RAM不足，我们无法在Yoochoose和RETAIL数据集上训练EASE算法，也无法在RETAIL数据集上训练GRU4Rec。为了使GRU4Rec能够探索更多的超参数，我们在优化过程中没有这可能会导致优化结果的性能损失，但是，每个参数组合的损失都是相似的，因此我们可以找到最佳参数组合，同时节省每次试验的时间。对于测试数据集上的最终结果，我们对GRU4Rec模型进行了20个epoch的训练，从而实现了收敛。1https://hyperopt.github.io/hyperopt/https://github.com/verachtertr/short-intent∞*4. 结果表2��在优化过程中找到的最佳值，四舍五入到最接近的小时。数据集零售Yoochoose化妆品商店新闻阿德雷萨EASEr--38933GRU4Rec-73315629121ItemKNN877228236825人气32528611Sr20591852976318丁凯宁530214227825刘毅213928019393117在本节中，我们分享我们的实验结果，并回答三个研究问题。为了能够复制和重用我们的实验，我们已经公开了代码库3。4.1. RQ1：��“在表2中，我们给出了优化过程中发现的delta的最佳值，在表3中，我们给出了相应的NDCG@10值。我们为在所有训练数据（=）和优化的（=optim）上训练的模型计算NDCG值最佳的选择依赖于数据集和算法的组合流行度算法只使用最新的数据效果最好。它的最佳训练窗口在大多数数据集上都小于一天，只有CosmeticsShop表现出足够稳定的行为10天才是最佳的。在新闻数据集上，我们发现了最大的改进，Adressa数据集上的改进高达30倍 Popularity算法在新闻数据集上的非凡表现，特别是Adressa，可以通过这些数据集中存在的极端流行偏见来解释。在表1中，您可以发现Adressa项目的基尼系数为0.92，而在测试数据集中，基尼系数甚至更高：0.98。这表明几乎所有的事件都发生在一小部分受欢迎的项目上。在新闻数据集上，最近数据的相关性反映在最佳��值中，时间不可知方法使用最后几个小时进行训练。只有时间感知的ItemKNN模型（IKNN Liu）和GRU4Rec能够使用超过一天的数据，而不会损失Adressa数据集的质量。对于这两个数据集，我们看到仅在最近数据上训练的时间不可知算法的性能有了明显的提高。对于NEWS数据集，相关性变化更快，我们看到所有算法，甚至是时间感知算法，都只使用最后几个小时的数据来实现最佳性能。在零售数据集上，我们看到它们的稳定性反映在最佳的零售价值上。 CosmeticsShop是一个非常稳定的数据集，大多数算法使用几乎所有的数据（最大值��为124 24 = 2976小时）进行优化。对于RETAIL，我们注意到最优的最小值通常比CosmeticsShop小，但是性能增益很小。这意味3https://github.com/verachtertr/short-intent∞∞∞表3NDCG@10（%），用于优化��值，且��= ∞。在表格的底部，我们报告了使用��= ∞训练的算法和使用优化的算法之间的排名关系��。数据集零售Yoochoose CosmeticsShop新闻Adressa三角洲∞Optim∞Optim∞Optim∞Optim∞OptimEASEr----4.844.602.015.470.826.98GRU4Rec--13.5713.613.302.933.673.154.063.87ItemKNN6.426.4316.5017.844.894.901.274.910.445.40人气0.710.820.361.120.881.070.954.820.3712.57Sr9.309.3019.0420.697.237.233.234.473.594.53丁凯宁8.508.5117.1018.526.446.431.495.760.606.44刘毅8.818.8118.8418.686.416.402.603.563.923.91相关性1.001.001.00-0.43-0.71我们可以使用更少的数据构建一个好的模型，但是添加额外的数据并不会像在新闻用例中那样损害性能 Yoochoose是零售数据集，其中优化��具有最大的影响。大多数算法在使用过去10天左右的数据时表现最好，只有GRU4Rec需要一个月的数据才能获得最佳模型。GRU4Rec算法显示了验证和测试数据之间最不一致的行为。在优化过程中发现的最佳值似乎并不能在测试过程中转化为最佳性能。一个可能的原因是，模型需要更长的时间来训练，并且到目前为止可以检查的参数组合更少。选择正确的算法对于给定数据集的算法获得最佳性能非常重要在某些情况下，数据集将足够稳定，使用所有数据是最佳的。然而，在另一些国家，只有在最后几个小时才举行相关活动，为即将到来的未来建立一个模型。4.2. RQ2：“优化算法是否会改变算法之间的相对性能？“我们比较了如果我们从=到优化，按NDCG排序的算法的排名如何变化��。对于这种比较，我们使用两种算法之间的Kendall Tau相关性[ 51 ]。我们在表3的底部报告了这些相关性。在两个新闻数据集上，我们注意到排名之间存在强烈的不协调两者的相关值都低于零，这表明排名发生了巨大的变化。当��=时，时间和序列感知的方法显示出优越的性能，然而，这不再是给定最优的情况��。基线方法超越了深度学习方法，现在表现最好。对于零售数据集，我们��有然而，不能保证排名将始终保持不变，我们可以想象，对于某些算法组合，该排名将改变。特别是当比较时间感知模型与时间不可知基线时。时间感知模型将具有更高的∞∞∞表4Coverage@10in % for optimized ��and using ��= . 减少��通常会导致更低的覆盖率，因为不再推荐较旧的项目。数据集零售Yoochoose化妆品商店新闻Adressa三角洲∞Optim∞Optim∞Optim∞Optim∞OptimEASEr----60.8656.8134.1224.7823.1913.91GRU4Rec--71.5252.7570.0266.8441.0018.5334.5232.69ItemKNN94.0389.9376.5163.1059.9561.3025.7721.2110.3916.74人气0.220.170.070.130.200.153.701.501.940.90Sr89.6589.5285.8365.4692.4792.4747.8224.4441.2923.23丁凯宁90.8681.1288.4771.9093.6893.9914.3822.0514.6217.03刘毅88.1788.1578.2873.2293.1993.9865.7030.4271.3668.57当使用整个数据集时，基线能够在优化其训练窗口时缩小差距我们可以在Yoochoose上看到这种情况，IKNN Ding��在大多数科学文章中，结果将使用a��=设置，因此时间不可知算法可以被设法考虑交互的顺序和/或时间的方法轻易击败然而，在数据的更相关部分（最近的部分）上训练的简单基线变得更难改进，甚至在我们的一些实验中表现最好这突出说明了为什么优化可伸缩性如此重要。如果我们不这样做，我们就有可能得出错误的结论。4.3. RQ3：选择EJB会如何影响次要指标，如运行时间和覆盖率？在表4中，我们给出了算法-数据集对的Coverage@10结果我们看到，一般情况下，最优覆盖率较低��。这是意料之中的，因为使用较少数据的副作用之一是旧文章没有事件，因此不会被推荐。只有在Adressa上的ItemKNN和IKNN Ding，我们看到了相反的效果：缩小训练窗口增加了推荐的项目数量。当历史数据淹没了最近的交互时，这种行为就会发生，即使考虑到用户的最近历史，模型仍然主要推荐一组较旧的项目。减少广告位可以为更新的项目提供公平的竞争环境，因此可以根据用户的兴趣推荐更多的项目第三个受选择优先级影响的指标是算法的运行时间在较少的数据上训练模型通常会导致较低的训练和预测时间。我们将运行时间计算为训练时间和预测时间之和，从而同时考虑了慢速训练和慢速预测。两者都受到所使用数据量的影响，并且都导致生产环境中出现问题。在表5中，使用最优算法的优化试验的运行时间报告了最大和最大的温度使用更少的数据可以缩短运行时间。对于生产环境，这是一个重要的见解。例如，在使用SR算法的Yoochoose数据集表5优化和非优化的运行时间（以秒为单位）��。时间是训练和预测时间的总和减少��也会减少运行时间，因为需要处理的数据更少。数据集零售Yoochoose CosmeticsShop新闻Adressa三角洲∞Optim∞Optim∞Optim∞Optim∞OptimEASEr----8157913830147GRU4Rec--72332990564938241850451809699ItemKNN1981889620117554314154人气332832271210171566Sr2504538953949597225722615826丁凯宁17412610552116823316144刘毅19467100571288744161911当改变到最佳时，性能有小的提高��，但运行时间也减少了10倍。这意味着模型可以更频繁地更新，并且计算成本更低。这突出了为什么应该考虑使用更少数据的最后一个原因当使用尽可能多的可用数据时，我们不仅面临性能降低的风险，而且在构建模型和生成建议时，我们还会产生更高的计算成本和更大的延迟4.4. 在线测试为了补充离线结果，我们还在不同的新闻网站上进行了两次在线试验。这些试验的目标是优化推荐框，为用户提供一系列受欢迎的项目在使用自动优化的训练窗口之前，训练窗口是由工程师手动选择的，编辑提供了一些输入通过执行在这项工作中建议的最佳化，我们发现，原始值不是最佳的，可以通过使用较小的最佳值来改善。在第一个测试中，使用提取NEWS数据集的网站，在主页上找到了这个盒子手动设定是每三个小时训练因此，使用��= 3 μ g作为我们的对照处理。在离线实验中，我们发现��=1表现最佳，因此对于测试组，我们将其用作训练窗口。AB测试的结果表明，优化的训练窗口在三天的时间内导致CTR（在盒子上）提高了7%��之后，我们结束了测试，并为所有用户启用了新设置由于高流量，我们可以使用一个短的测试窗口;为两组组合生成了300万个推荐列表。7%的改善我们在网上发现的，和我们在网上发现的10%的改善差不多在另一个新闻网站上的第二个测试中，我们发现在参数调整后，最佳窗口为λ=2λ 在这个更广泛的测试中，我们在网站上的多个位置部署了一个类似的推荐列表，以确保积极的效果是一致的。此外，测试运行两周以允许天与天之间的变化。我们使用了两个对照组，一个训练窗口为6μ s，另一个训练窗口为10μ s。��根据盒子的位置，我们发现CTR比两个对照组提高了7%到8%它们的性能几乎相同。尽管这些实验仅使用基于流行度的算法完成，但它们显示了��在生产环境中部署算法之前优化参数的价值。我们在离线实验中发现的改进反映在我们的在线实验中。5. 结论“Are 我们在标题中写道，我们的答案很明确：是的！在训练和评估推荐系统时，我们通常会忘记考虑数据的质量，甚至只考虑使用给定数据集的（最）最近部分。正如我们在本文中所介绍的，当只对最近的一部分数据进行训练时，最先进的算法的性能会发生巨大的变化。此外，当使用最佳训练窗口大小时，最先进的（基线和神经）算法的性能排名会发生显着变化。我们认为，我们已经清楚地表明，��重要的是，既要找到各个算法的最佳性能，又要在算法之间进行公平的比较。对��每个算法的优化应该是推荐系统评估的标准实践。不优化算法只会有利于那些考虑漂移的算法。6. 局限性和未来工作在这项工作中，我们专注于新闻和零售数据集，以及一系列基线算法。在未来的工作中，我们希望扩展实验，包括其他相关领域，如娱乐，旅游和音乐，以及使用最近提出的最先进的顺序推荐方法。在这样做的时候，我们希望提供一个全面的基准的最先进的顺序推荐。由于运行时间问题，我们没有考虑重复评估。为了巩固我们的发现，并确保它们保持不止一个分裂，我们的目标是在未来的实验中报告结果。这项工作引用[1] O. Jeunen，K.韦斯特雷彭湾Goethals，使用MNAR数据的隐式反馈推荐系统的公平离线评估方法，在：ACM RecSys推荐系统离线评估研讨会，REVEAL[2] C.隆雅雷河奥伯廷角Robardet，M. Plantevit，Sequential recommendation withmetric models based on frequent sequences ， Data Mining and KnowledgeDiscovery 35（2021）1087[3] I. Bayer， X.他， B.Kanagal，S.Rendle， A generic coordinate descent framework forlearning from implicit feedback，in：Proc. 第26届万维网国际会议，2017年，pp。公元1341 - 1350年。[4] W.- C. Kang，J. McAuley，Self-attentive sequential recommendation，in：2018 IEEEInternational Conference on Data Mining（ICDM），IEEE，2018，pp. 197-206.[5] V. Bogina，T. Kuflik，D. Jannach，M.别利科娃，M.孔潘角Trattner，ConsideringTemporal Aspects in Recommender Systems：A Survey，User Modeling and User-Adapted Interaction（2022）1[6] Y. Ji，黑穗醋栗A.作者简介：张杰，王建.李，重新访问推荐系统中的流行度基线，在：第43届国际ACM SIGIR信息检索研究与开发会议论文集，2020年1749-1752年。[7] A.比费特河Gavalda，从具有自适应窗口的时变数据中学习，在：Proc. 2007年SIAM国际数据挖掘会议，SIAM，2007年，第10页。443-448[8] R. 克林肯贝格岛 Renz， Adaptive information filtering ： Learning in the presence ofconcept drifts，Learning for Text Categorization（1998）33-40.[9] J. 加马岛Liobaite，A.比费特，M.Pechenizkiy，A.Bouchachia，A survey on conceptdrift adaptation，ACM Computing Survey 46（2014）。[10] G. Widmer ， M. Kubat ， Learning in the presence of concept drift and hiddencontext，Machine Learning 23（1996）69[11] W. 范，系统的数据选择，以挖掘概念漂移数据流，在：Proc。第10届ACMSIGKDD知识发现和数据挖掘国际会议，2004年，第10页。128比137[12] P. G. Campos，F.代兹岛Cantador，时间感知推荐系统：对现有评估协议的全面调查和分析，用户建模和用户自适应交互24（2014）67[13] 联合Panniello，M.戈尔戈廖内角Palmisano，Comparing pre-filtering and post-filteringapproach in a collaborative contextual recommender system：an application toe-commerce ， in ： International Conference on Electronic Commerce and WebTechnologies，Springer，2009，pp.348-359.[14] D. Jannach，M.路德维希湖Lerche，电子商务中基于会话的项目推荐：关于短期意图，提醒，趋势和折扣，用户建模和用户自适应交互27（2017）351[15] T. Scheidt，J.Beel，推荐系统的时间相关评估in：Perspectives@ RecSys，2021.[16] M. Ludewig，D.Jannach，基于会话的推荐算法的评估，用户建模和用户自适应交互28（2018）331[17] M. 夸德拉纳山口 Cremonesi ， D.Jannach ， Sequence-aware recommendersystems，ACM Computing Surveys（2018）。[18] J. Vinagre ， A. Jorge ， Forgetting mechanisms for scalable collaborative filtering ，Journal of the Brazilian Computer Society 18（2012）271-282.[19] C. A. Ludmann，在clef新闻推荐评估实验室中使用数据流管理系统odysseus推荐新闻文章in：CLEF（Working Notes），2017.[20] D. Jannach，M.Ludewig，When recurrent neural networks meet the neighborhoodforsession-based recommendation ， in ： Proc. of the 11th ACM Conference onRecommender系统，RecSys '17，ACM，2017年，pp. 306-310[21] T. Q. 李，Y。帕克湾，澳-地Park，A time-based approach to effective recommendersystems using implicit feedback， Expert systems with applications 34 （ 2008 ）3055-3062.[22] N. Liu，M.Zhao，E.湘角，澳-地Yang，Online evolutionary collaborative filtering，in：Proc.第四届ACM推荐系统会议，RecSys'10，ACM，2010年95比102[23] C. Xia、X.Jiang，S.Liu，Z.Luo，Z.Yu，带时间衰减的动态基于项目的推荐算法，2010年第六届国际自然计算会议，第1卷，IEEE，2010年，pp.242-2

下载后可阅读完整内容，剩余1页未读，立即下载