推荐系统优化：动态数据集选择与训练窗口影响分析

53 浏览量更新于2024-06-18 收藏 681KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

"这篇研究论文探讨了推荐系统优化方法，特别是关注数据集的选择和训练数据窗口的影响。作者提出，仅使用数据集的最新部分可以显著提高推荐系统的性能，并且优化训练数据窗口会改变性能排名。文章指出，推荐系统在动态环境中运行，面临用户兴趣和项目可用性的持续变化，而现有的优化方法往往基于静态数据集。" 推荐系统是信息技术领域的一个重要应用，广泛应用于新闻、电商等多个领域，帮助用户从海量信息中筛选出个性化的内容。在实际部署中，推荐系统需要处理持续变化的信息流，这要求模型能够适应快速更新的数据。优化推荐系统的性能通常涉及选择合适的训练数据量。太少的数据可能导致模型过拟合，无法捕获足够的信息；而过多的数据则可能导致训练时间过长，增加预测延迟。然而，学术研究中常常忽视这一问题，采用静态数据集进行全量评估。本文提出，只使用最近部分的数据（即优化训练数据窗口）可以有效地提高推荐系统的性能。这是因为，随着环境的变化，近期数据更能反映用户的即时兴趣和行为模式。通过对比不同窗口大小，可以发现性能表现的显著差异，这表明选择合适的训练窗口是优化过程中的一个重要超参数。此外，论文还指出，推荐系统的评估不应仅依赖于整个数据集，而应考虑数据内在的质量和部分。当数据中存在概念漂移（即数据分布的变化）时，模型可能会学习到与目标预测不符的特征。因此，对数据集的子集进行分析和评估是必要的。在评估推荐系统性能时，常用指标包括精度、召回率、覆盖率和多样性等。论文建议，应当引入更多这样的评估维度，同时考虑时间因素，以更全面地理解模型在动态环境中的表现。这篇研究强调了推荐系统优化中数据选择的重要性，提倡在评估和部署前调整训练数据窗口，并提出了将数据集的最新部分作为标准超参数进行优化的新思路。这对于提升推荐系统的实时性和准确性具有重要指导意义，为未来推荐系统的研究和实践提供了新的视角和方法。

资源详情

资源推荐

在数据漂移下关于前者，已经提出了更好地反映现实推荐场景的改进的数据分割技术，

例如，时间分割，，顺序的

最后一项预测分割



和重复的时间感知分割



，



。

关于

后者，多年来已经提出了大量的时间和序列感知算法。对于一个全面的概述，我们

建议感兴趣的读者坎波斯等人。



，



和

 

，



等人



和



等人。



的文件。

与我们的工作相关，



和

 

总结了两种处理

数据流中概念漂移的通用方法。

第一种方法是利用预定义



并将其用作数据上的滑动

窗口。第二种是利用衰落因子，使得较

旧的交互

对相似性的影响较小。

 

使用了上下文流行度算法，



等于



分钟，



分钟和小时，在年的计划中取得了巨大成功。类似地，   表明，使用

较小或使用衰减

因子的计算流行度提供了更强的基线。

 

和

 

和



等人。



发现类似的迹象表明，训练数据的新近性在零售环境中很重要我们的工

作受到这些早期努力的启发，旨在进一步锚定和扩大他们的研究结果，关于

流行和基于相似

性的算法，以其他类型的推荐算法，如时间和会话感知算法。这种时间感知算法的示例

是

使用衰落因子的基于邻域的模型



，



，



，



，



，



，类似于



和

。最近，我们看到了序列和会话感知算法，它们利用用户历史中的顺序来学习

序列

模型。这种方法的例子是

 

，

顺序规则



，

 

和

   

。在

  

之后，越来越多

的深度学习方法被提出来合并顺序和



或时间

信息。



、

、。

最近的可重复性研究对这些复杂的深度学习方法在各个领域的性能提出了挑战。在

两个最近的作品，等人。，

发现

等人研究了

深度学习方法的

性能，与会话环境中的简单基线相比。他说：

在大多数情况下， 事实证明，简单的技术

优于最近的神经方法我们遵循他们的结果，并在我们的实验中专注于更简单的基线

方法

3.1.

建议方案

在许多现实世界的应用中，推荐系统用于在用户查看其他文章或产品时为用户生成在这

些用例中，用户的兴趣通常主要通过他们最近的交互来捕获。

模拟这种情况

的标准评估

协议是执行



拆分

 

，



，

 

或迭代揭示



。

我们修改了



评估，以最好地近似生产环境中通常使用的（重复）训练和

服务架构，并避免将未来的信息泄露到我们的模型训练中



。只有时间戳之前的数据



，

即模型

在服务之前重新训练的时间，才用于训练。考虑到

剩余14页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

推荐系统优化：动态数据集选择与训练窗口影响分析

推荐系统研究

推荐系统数据集

推荐算法数据集

bookcrossing数据集 推荐

电影推荐系统已有的研究工作基础、已具备的研究条件及实现研究目标的可行性分析怎么写

flickr lastfm数据集

amazonproducts gnn数据集

介绍一下德国亚琛工业大学汽车工程研究所发布的HighD数据集

criteo ctr数据集

ngsim us101数据集

deepmimo数据集你为什么用

fclab 燃料电池数据集

github 光伏发电数据集

绝缘子posun数据集

eachmovie 数据集

pemsd8数据集和对应时间的气候数据集

uwb 卡尔曼 数据集

歌曲推荐系统拟用的研究思路

severstal steel数据集

assist2009数据集处理

最新资源

bookcrossing数据集推荐

uwb 卡尔曼数据集