模拟用户与推荐系统互动：选择模型对用户影响的研究

171 浏览量更新于2023-12-04 收藏 12.55MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

CEURWorkshopProceedings0学习选择模型以模拟用户与推荐系统的互动�0Naieme Hazrati�，FrancescoRicci0意大利博尔扎诺自由大学0摘要为了更好地了解推荐系统（RSs）对用户选择的长期影响，一些最近的研究模拟了用户与RSs的互动。然后通过衡量模拟选择的全局属性、它们的分布和质量来量化RS对用户的影响。模拟用户选择模型（CM）的准确性，即模拟用户在考虑推荐项目时如何做出选择，对结果的有效性有很大的贡献。事实上，虽然一些CM被认为是合理的，但没有一个被证明能够生成与实际选择“接近”的选择，即真实用户在接受相同推荐时所做的选择，或将要做的选择。在本文中，我们研究了两种CM：多项式Logit（MNL）和基于CatBoost的模型，这是一种基于决策树的梯度提升算法（ML）。我们训练这些模型以正确预测目标用户在给定一组系统生成的推荐时的选择。我们发现，ML模型在传统准确性指标（精度和平衡准确性）方面优于MNL模型，而MNL生成的选择更好地复制了真实选择的分布（基尼指数、香农熵和目录覆盖）。因此，我们认为，在模拟用户行为时，MNL更适合于理解部署RS的全局影响。0关键词推荐系统，选择模型，模拟01.介绍0推荐系统（RSs）是旨在支持用户选择过程的工具，通常通过衡量生成的推荐的准确性和质量来进行评估[1]。然而，要评估RS的真正价值，也重要的是要了解它对用户选择行为的影响，例如，用户在考虑推荐时所做选择的分布和质量[2,3,4,5,6,7,8,9,10,11]。一些先前的研究尝试评估RS如何影响用户的选择[12,13,14]010,15,16]。这些研究利用模拟用户在时间间隔内与RS的重复互动，假设用户通过采用给定和“合理”的选择模型（CM）在推荐项目中选择项目。假设CM的有效性，这些研究分析了RS对其用户选择分布的聚合度量。图1中的模式显示了文献中提出的模拟的一般设计[11,10,13,17,15]。0推荐系统评估展望研讨会（PERSPECTIVES2022），2022年9月22日，与第16届ACM推荐系统会议同时举行，地点：美国华盛顿州西雅图。�通讯作者。邮箱：nhazrati@unibz.it（N. Hazrati）；fricci@unibz.it（F. Ricci）0© 2022 本文的版权归作者所有。根据知识共享署名4.0国际许可证（CC BY 4.0）许可使用。0ISSN 1613-0073 CEUR研讨会论文集（CEUR-WS.org）0在模拟设计中，必须正确选择一些重要组件：RS，用户的CM，意识集（用户对项目目录的了解）以及每个用户的模拟选择数量。虽然模拟获得了有趣的结果，但必须解决一些问题以增加它们的有效性：0图1：RSs中用户选择模拟的架构。01.单一标准CM：过去研究中使用的CM是通过参考设计者认为重要的简单决策标准而设计的。当模拟用户接受推荐时，会根据这个单一标准做出反应，例如，要么是项目的流行度，要么是其评级[10,15,18,19]。因此，假设用户与RS的互动非常简单，并且是由于希望孤立这些标准对用户和他们的选择的影响。然而，真实用户的CM预计会更复杂，并且同时受到各种因素的影响，例如项目流行度和感知质量的组合[20]。02.CM的准确性：模拟结果的可靠性严重依赖于CM的准确性。我们注意到，一个适当的CM应该在用户暴露于系统生成的推荐（选择集）时正确识别目标用户的选择。事实上，用户的选择取决于整个选择集，而不仅仅是独立考虑的个别项目。然而，据我们所知，以前的研究要么依靠一般启发式（例如，用户倾向于选择顶部推荐的项目）来定义CM，要么通过调整一类CM的参数，使得模拟选择与真实用户的观察到的选择共享一些目标属性来定义CM：例如，模拟选择的选择多样性类似于真实选择数据的多样性）[10，17，14]。0为了解决这些限制，我们考虑了两个CMs[21]，并对其进行调整，以再现用户在暴露于一组推荐时的观察到的选择行为。CMs是多项式LogitCM（MNL）和CatBoost，这是一种基于决策树的梯度增强算法（ML）。用于学习CMs的数据集包含用户与特定RS（操作性RS）的历史交互。数据包括用户展示的推荐和随后的选择。此外，这些CMs依赖于用户和项目的几个特征，因此CMs包含了几个标准。0在使用历史选择信息训练CMs之后，利用CMs模拟多个时间间隔的选择。更确切地说，CMs最初是用截止到给定时间戳 � 0收集的选择数据进行训练的，然后我们模拟用户在连续的时间间隔内的选择。在每个时间间隔模拟结束时，CM将重新训练，使用在过去时间间隔内模拟的选择。这种方法更有潜力显示模拟的预测能力：在给定时间戳 � 0之后，没有提供有关真实用户行为的额外信息给模拟。最终，我们评估了所考虑的CMs在再现真实观察到的选择方面的准确性（在 � 0之后）。我们首先衡量了CMs预测实际用户选择的准确性。通过使用经典的评估指标（精度和准确性），我们发现ML选择模型比MNL模型更准确。在第二阶段，我们比较了两个CMs如何再现实际选择的全局分布。我们测量了基尼指数、香农熵和目录覆盖率等指标。我们观察到，与准确性指标不同，在这种情况下，MNL模型更好地再现了实际用户选择的分布，与ML模型相比。因此，在这方面，MNL可能是模拟和预测用户的集体选择行为的更好选择。总之，我们的研究表明，模拟有潜力描绘RS的长期影响，因此可以帮助RS研究人员预测已部署RS的长期影响。然而，模拟用户的CM的选择和调整是一个需要适当定义和训练的重要组成部分。02. 相关工作0受经济学文献启发，大多数模拟研究旨在理解推荐系统对用户选择行为的影响，采用了多项式Logit（MNL）模型。MNL假定用户在暴露于一组项目（选择集）后通过计算它们的效用来评估它们。然后，用户选择一个项目的概率随着项目的效用增加而增加。项目的效用是根据模拟设计者选择的附加假设或启发式定义/学习的。例如，Fleder等人[13]生成了一个用户和项目配置文件的合成数据集，以随机生成的向量的形式。随着用户和项目配置文件之间的欧几里德距离增加，项目的效用减小；因此，用户和项目配置文件之间的距离越小，用户选择该项目的可能性就越大。尽管他们的方法存在一些局限性，但他们的研究具有影响力。首先，模拟基于依赖于随机生成的用户和项目配置文件之间距离的CM，没有证据表明它能够正确描绘真实用户的实际选择行为。事实上，他们的发现只能提供用户在实际应用中如何做出选择的有限图片。为了解决这一限制，在本文中，我们使用了真实用户与RS的交互数据集。考虑的CMs是使用这些交互进行训练的；因此，我们构建了具有更好潜力产生与用户实际CM相匹配的输出的CMs。在我们之前的研究[10]中，我们使用了真实评分数据集，以定义一个可以忠实预测RS用户实际选择行为的模拟过程。我们还假设"0用户的CM遵循MNL模型，但是对商品的用户效用被估计为与商品的预测评分成比例。假设用户在他们的选择集中选择商品，这里称为意识集，包含推荐和一些受欢迎和高效用的商品。模拟是使用替代RSs运行的。CM行为被调整以获得类似于实际用户选择计算的基尼系数。此外，假设用户在做选择时只考虑一个标准，即所考虑商品的评分。然而，事实上，CM的正确性并没有得到适当的测试。实际上，即使我们调整了CM以重现“正确”的基尼系数，我们也无法适当地拟合模型，因为我们没有关于实际用户选择集的信息，这在做出观察到的选择时被考虑。我们注意到，模拟选择的全局分布取决于模拟用户的选择集，它们的分类和分布，这些信息应该在CM的训练中被利用。此外，在[10]中使用的MNL模型仅取决于商品的预测评分，因此它做出了一个简化的假设，即用户在选择时受到单一标准的影响。为了解决这些局限性，在本文中，我们利用了一个用户选择的数据集，其中我们有关于用户实际选择集的信息，即提供给用户的推荐以及他们随后的选择。我们使用这个数据集来学习两个候选CMs（MNL和ML），这取决于用户和商品的多个特征。然后我们评估了这两个CMs在模拟用户选择方面的准确性。其他研究调查了替代用户CM对用户选择分布的影响。通过模拟简单的用户CM，这些研究旨在理解特定选择行为对选择的全局分布的影响。例如，Yao等人[7]模拟了替代的CMs，改变了用户选择受欢迎商品的倾向。尽管这些CMs很简单，而且可能与真实用户的CM相距甚远，但这些研究有助于发展对某些特定行为影响的定性理解。此外，Szlávik等人[14]在用户收到推荐时建模了替代CMs，评估了用户依赖推荐对选择多样性的影响。在最近的一项关于用户评分行为的模拟研究中[15]，考虑了几种用户选择模型，这些模型在那里被称为消费策略。该研究旨在了解用户依赖推荐对RS性能的影响。最后，在[19]中，作者对四种替代选择行为进行了建模，分析了用户更倾向于选择更受欢迎、更近期、评分更高的商品，或者更依赖推荐（建模商品位置偏见）的影响。03. 数据集0我们使用了Recombee公司提供的数据，这些数据是从一个销售健康和与运动相关产品的零售网站记录下来的，例如运动服装、与运动相关的配件和蛋白质补充剂。用户与网站的时间戳交互被存储了下来。准确地说，对于每个用户，记录了每个用户收到的带有时间戳的推荐，以及随后的点击、购买和加入购物车的情况。数据来自网站系统日志，该系统具有多个“端点”，在这些端点上向目标用户呈现推荐，例如在主页上，在商品详细视图网页的底部，或0在用户的购物车页面上。每个端点的推荐数量可能不同。我们对这个数据集的样本进行了分析，这个数据集是仅从这些端点中获取的。更确切地说，我们考虑的端点是每个商品页面的底部区域，用户会看到12个推荐。推荐来自不同的RSs；一些推荐与页面上呈现的主要商品相关，而其他推荐则由另一个特定的推荐算法生成，我们忽略了。用户可能会点击一些推荐的商品，其中一些点击可能会导致购买。我们对数据进行了为期六个月的分析，考虑了至少有20次记录购买的用户。这个筛选是为了减少数据量，跳过具有不完整资料的用户。在最终使用的数据集中，有250,000个推荐请求，涉及935个用户和5600个商品。我们的分析旨在对用户在接受系统生成的推荐时的选择进行建模。这里用户的选择是对接收到的推荐中的一个“点击”。这个点击将把用户带到商品的详细页面，该页面再次增加了另一组12个推荐。我们注意到用户可能会在不点击任何推荐商品的情况下离开页面。每个推荐的商品都由一些特征描述，例如品牌、类别、商品类型（单品或捆绑包）、部分和价格。用户还具有一些特征，例如年龄、城市、邮政编码和性别。我们还使用了每个推荐商品在过去 � 天（ � ∈ {1, 5, 10, 30}）中的流行度，商品的年龄（商品发布日期和推荐时间之间的时间差），用户和商品的嵌入（来自ALS矩阵分解），用户和商品的协同过滤分数（嵌入的点积）。我们注意到嵌入是使用整个数据集计算的。表1显示了我们的CMs中使用的特征。0表1 考虑的 CM 中使用的用户/项目交互特征0推荐排名，项目类别，过去 � 天内项目的流行度（ � ∈{1, 5, 10, 30}），项目子类别0项目年龄，用户所在城市，价格，用户年龄，常规价格，用户性别，出口（布尔值），项目嵌入，品牌，用户嵌入，项目类型（捆绑或单个），用户-项目嵌入点积。0我们旨在构建一个模拟过程，从系统日志数据的初始集合开始，即在时间 � 0之前的日志中的数据，模拟用户在暴露于系统生成的推荐时做出的后续选择。 �是用户集合，项目集合由 � 表示。我们假设已生成了 RS生成的选择集和相应的用户选择；用户在选择集中选择了一个或多个项目时̂̂̂(1)0暴露于一系列选择集（每个选择集由一组推荐项目组成）。记录到时间 � 0 的选择存储在集合 � 0中。该集合的元素是三元组（� � ，� � ，� � ），� = 1，…，� 0 ，� 0 = |� 0 |。每个三元组由选择项目 � �∈ � 的用户 � � ∈ � 组成，当选择集为 � � � � 时选择了该项目。请注意， � � ∈ � �，用户可能多次出现在此集合中，因为在时间 � 0 之前可能进行了多次选择。在 � 0之后观察到的其余选择数据分为 � 个时间间隔。我们用 � � 表示在时间间隔 ]� �−1 , � � ]内记录的观察到的选择集。我们希望通过使用在 � 0 ∪ � � 1 ∪ � ∪ � � �−1中包含的选择的知识来模拟每个间隔 � ∈ {1, …，�} 中的选择。我们用 � � � 表示时间间隔 ]� �−1 , � � ]中模拟的选择集。换句话说，时间间隔内的选择模拟使用了在 � 0之前观察到的选择和先前间隔内的模拟选择的知识。通过使用选择模型（CM）来模拟选择；给定一个观察到的选择集（存在于数据集中），CM模拟/预测用户在暴露于该选择集时所做的选择。我们使用两个 CM来模拟/预测用户在暴露于系统生成的推荐时的选择：多项式Logit（MNL）模型和CatBoost模型。每个模型的详细信息将在接下来讨论。0多项式Logit（MNL）选择模型基于计算用户对项目 � 的效用 � �� = � ′ � � �� ，其中 � �� 是 � 和 � 的联合特征向量表示，而 � ′加权了用户和项目的特征的重要性。 � ′0必须通过一组训练选择进行学习。我们注意到，除了 �中的项目外，我们假设在选择集中，存在一个始终存在的虚拟项目，标记为 � 0。这代表用户的无选择行为，即当用户不选择推荐项目中的任何一个时。我们强制无选择的效用为零，即 � �� 0 = 0。我们还注意到，在真实观察到的选择集中，用户可以选择多个项目。因此，在 MNL中，我们独立处理每个选择，并为每个被选择的项目创建一个单独的数据点。例如，如果向用户� 推荐了 � = {1, 2, 3, …，12} 并选择项目 1 和2，则我们的历史记录将包含两个三元组：（�，1，{1, 2, 3, …，12, � 0 }）和（�，2，{1, 2, 3,…，12, � 0 }）。根据多项式Logit选择模型，如果为用户 � 生成了一组推荐 � 选择集，则用户 �选择项目 � ∈ � 的概率为：0我们注意到分母中的值1用于在将虚拟物品添加到 �以形成选择集时正确定义概率分布。这样，由于 � �� 0 总是等于0，选择虚拟物品的概率等于1/(1 + ∑ �∈� � � ′ �� )。我们的学习目标是：给定一组观察到的选择， Γ ，例如 � 0中的选择，计算最小化适当成本函数的向量 � ′：模拟和真实选择之间的不匹配。我们使用最大似然估计（MLE）来估计 � ′系数。因此，MLE问题被表述如下：̂̂̂̂0max � ℓℓ(�|Γ) (2)0其中Log-likelihood的0ℓℓ(�|Γ) = ∑ (�,�,�)∈Γ � ′ � � �� − log (1 + ∑ �∈� � � ′ �� ) (3)0由于我们使用的数据集极度不平衡，即95%的选择是不选择，我们选择10%的不选择事件以及所有真正的选择到合适的物品，并使用随机梯度上升来解决方程3。然而，由于选择和不选择数据的相对大小被操纵，我们高估了 � ′的大小，这导致了对选择概率相对于不选择的高估。因此，我们通过一个常数系数 � 来缩小 �的值。 � 的值是使用验证数据集学习的。0选择模拟正如我们之前提到的，我们的目标是模拟用户在给定时间点 � 0 之后的 �个时间间隔中的选择。因此，在第一步中，MNL模型在 � 0 中的选择上进行训练，以模拟 ]� 0 , � 1 ]中的选择并产生一组选择 � � 1 。然后，在后续时间间隔（ ]� �−1 , � � ] ， � = 2, … , � ），MNL在选择集 Γ = � 0 ∪ � � 1 ∪ � ∪ � ��−1 上进行训练，以生成模拟选择 � � � 。也就是说，MNL模型被训练在 � 0 中的观察选择0连同前面时间间隔中的模拟选择一起，被迭代地用于重新训练CM。04.2. ML - 基于CatBoost的选择模型0我们使用MNL中使用的相同数据和特征来训练第二个CM。计算目标是为了预测每对用户和推荐的物品，该物品是否被用户选择。因此，我们解决了一个二元分类问题，其中类1与“选择”相关联，类0与“不选择”相关联。我们通用地将这个CM称为ML。ML与MNL不同，不利用来自选择是12个推荐之一的事实的任何信息，并独立地处理每个推荐。用于选择预测的精确ML模型是CatBoost[22]（简称“分类提升”）；它是一种基于决策树的梯度提升算法。CatBoost是在精度和召回性能的初步分析基础上从多个测试模型（ADA、XGboost、随机森林和逻辑回归）中选择的。选择CatBoost的另一个动机是它在多种类型的输入特征（数值、分类和有序）上具有良好的分类性能[21，22]。我们回顾一下，我们的输入特征向量（用户和物品的联合表示）包含多种特征类型：数值（例如嵌入）、有序（例如推荐物品的排名）和分类（例如品牌）。CatBoost被训练以最小化交叉熵，并且模型的参数是通过验证数据集进行调整的。与MNL不同的是，在这里，我们不为不选择选项引入虚拟物品，不选择选项被隐式考虑：如果没有推荐被预测为用户选择（即，所有12个推荐的标签都被预测为0），则预测为不选择。此外，MNL假设当呈现一组12个推荐时，用户只能选择其中一个物品。而ML，由于独立地对每个推荐进行分类，可以预测更多的推荐被选择。为了使这两个模型可比较，我们修改ML，以便如果预测选择多于一个推荐，我们将具有最高预测置信度的物品设置为用户选择。5. Experimental Results5.1. Choice Prediction Precision and AccuracyWe first compare our models in terms of precision and balanced accuracy scores. Precision iscalculated for each choice set, and it is the ratio of the choice sets where the model has simulatedthe correct choice. Giving label 0 when a recommendation is not chosen, and label 1 when it ischosen, balanced accuracy measures the average of accuracy in predicting each label. Table 2shows the precision and balanced accuracy scores calculated for all the predictions over the 𝐿time intervals. The shown metrics are the average values calculated over five repetition of thesimulation. In the Table we also show the standard deviation of the metrics.Clearly, ML outperforms MNL. Hence, one can conclude that the ML model is better atpredicting individuals’ choices. However, in general, the accuracy of both of the models is notvery high. The reason for these small precision scores could be the inherent noise that exists inthe data: humans are not consistently making choices. Moreover, if a user does not respondto a slate of recommendations (no-choice), we do not know whether the user did not like tochoose any of the items, or she simply did not even see them. Finally, our prediction models areclearly limited and introduce specific biases to make the prediction problem solvable (e.g., theutility that drives the MNL model is a linear function of the selected features).Table 2Performance of MNL and ML models on the predictions of users’ choices.Precision (std)Balanced Accuracy (std)MNL0.11 (± 0.004)0.13 (± 0.003)ML0.16 (± 0.006)0.21 (± 0.006)5.2. Choice Distribution MetricsHere, we compare the CMs by analysing the distribution of the generated choices. The metricshere considered are:1. Gini index: the choice diversity is measured using the Gini index, which is used in theliterature to quantify item consumption inequality [23, 12, 13, 14, 24, 25]. A high Giniindex indicates a low diversity of the choices. Gini index is close to 1 when there is a highinequality, and it is 0 when there is a perfectly uniform distribution across items [26].2. Choice Coverage: Choice Coverage measures the fraction of the items that have beenchosen (in the simulation) at least once by any user. We note that the number of items maychange over time since some new items may be added to the catalogue at the beginning0推荐中，只能选择其中一个物品。而ML，由于独立地对每个推荐进行分类，可以预测更多的推荐被选择。为了使这两个模型可比较，我们修改ML，以便如果预测选择多于一个推荐，我们将具有最高预测置信度的物品设置为用户选择。of each time interval. We also note that while the Gini index quantifies how much thechoices are uniformly distributed among the items in the catalogue, and it is sensitive tohow many times an item is chosen, Choice Coverage measures the spread of the choices.3. Shannon Entropy: is another measure of diversity and it is defined as follows:𝐻 = −𝑛∑𝑖=1𝑝𝑖𝑙𝑜𝑔(𝑝𝑖);(4)where 𝑛 (𝑛 ≤ |𝐼|) is the number of unique items that have been chosen at least once,𝑝𝑖 is the probability of choosing item 𝑖, estimated as the number of times the 𝑖-th itemwas chosen, divided by the total number of choices recorded. As the maximum valueof 𝐻 depends on the number of items 𝑛 that have been chosen at least once, 𝐻 is thennormalised by dividing it by 𝑙𝑜𝑔(𝑛).4. Popularity: is the average of the number of times the chosen items were actually chosen.5. Chosen Items’ Age: is the average (in days), on the chosen items, of the time passed fromwhen the chosen items were first available in the catalogue.6. Average Rank of the Chosen Items: measures the rank of the chosen items in the recom-mendation list.Figure 2 shows the evolution of the considered metrics over the simulation intervals. We notethat at the ‘< 𝑡0’ value on the x axis it is shown the metric calculated on the actual choices up to𝑡0. On the other values of the 𝑥 axis (‘𝑙 = 1’, ..., ‘𝑙 = 5’) are shown the metric value computed onthe simulated choices from 𝑡0 until the end of the corresponding interval. Hence, for instance, inFigure 2 (a), at point ‘𝑙 = 4’ it is shown the Gini index calculated over the accumulated choicesmade in months 1, 2, 3 and 4. One could also show the metric values calculated over choicessimulated within every single time interval; a similar, but less smooth, overall behaviour can beobserved We opted to show the accumulated metrics to offer a clearer understanding of theevolution of the choices’ distribution.Moreover, to precisely quantify the differences between the simulation and real curves shownin Figure 2, in Table 3 we show the Root Mean Squared Error (RMSE): the data points on asimulation curve metric (MNL and ML) are compared to the data points on the REAL curvemetric. For instance, the RMSE for the Gini index of the choices simulated by the MNL model(0.007), represents the difference between the “REAL” Gini index computed on the real choicesand the Gini index of the choices simulated by MNL (over 5 simulation months). We note thatthis value is the average of the RMSE over the five simulation runs.We first focus on the three metrics that show different forms of choice diversity: Gini index,Choice Coverage and Shannon Entropy. We note that the Gini index values of the choicessimulated by the MNL model are more similar to those computed on the real choices in thedata set (“REAL”), compared to the corresponding Gini index values computed for the choicessimulated by ML. The Gini index values of the ML model are much larger than the Gini indexvalues of the observed choices. This means that with ML, there is a significant concentrationof the choices over a small set of items. The smaller Gini index obtained by MNL could berelated to the stochastic nature of MNL; while the ML model predicts the label based on alearned probability threshold, the MNL model assumes that a target user, when receives a set

下载后可阅读完整内容，剩余1页未读，立即下载