时间矩阵分解：用户偏好和项目属性动态变化的推荐系统

94 浏览量更新于2023-12-09 收藏 959KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

埃及信息学杂志22（2021）285利用时间矩阵分解Idris Rabiua，b，Naomie Salima，Aminua马来西亚技术大学计算机学院工程系，81310马来西亚新山b拉派Ibrahim Badamasi Babangida大学计算机科学系，P.M.B. 11、尼日尔州，尼日利亚阿提奇莱因福奥文章历史记录：收到2020年2020年10月11日接受2020年10月24日网上发售关键词：推荐系统协同过滤概念漂移时间模型时间矩阵分解A B S T R A C T及时向目标用户推荐可持续产品是消费者在线商店购买的关键驱动力近年来，推荐系统被引入了不同的机制，例如滑动获胜或衰落因子，以使其适应用户偏好的动态变化。这些技术已经被研究并证明可以提高推荐的准确性，尽管他们处理的用户行为非常不稳定。然而，以前的方法只考虑了用户偏好的动态变化，而忽略了项目属性的动态变化。在本文中，我们提出了一种新的时间矩阵分解方法，它不仅可以捕捉到普通用户的行为和重要的项目属性，但也发生随着时间的推移，用户的兴趣和项目属性的变化。在各种真实世界数据集上的实验结果表明，我们的模型显着优于所有的基线方法。©2021 THE COUNTORS.由Elsevier BV代表计算机和人工智能学院发布开罗大学法律系这是一篇CC BY-NC-ND许可证下的开放获取文章（http：//creative-commons.org/licenses/by-nc-nd/4.0/）上提供。1. 介绍在现代社会中，推荐系统领域的研究需要被激活，以应对信息过载的潜在挑战，这阻碍了用户通过互联网及时访问感兴趣的项目[1]。然而，这需要通过过滤、优先化和有效地向用户提供相关信息来找到解决信息过载的方法，因此推荐系统诞生了[1]。推荐系统被认为是通过利用关于用户、项目和用户-项目交互的过去记录的各种知识和信息来在用户与系统交互期间，他的动作和反馈（例如，评级、喜欢/不喜欢、购买、浏览历史等）可以被系统管理。通常被收集并存储在数据库中，该数据库可以用于为下一次用户-系统交互生成新的推荐。*通讯作者：马来西亚科技大学计算机学院工程系，81310 Johor Bahru，马来西亚。电子邮件地址： idrisrabiu43@gmail.com （ I.Rabiu ）， naomie@utm.my（N.Salim）。开罗大学计算机和信息系负责同行审查。尽管推荐系统基于特定用户的动作和反馈来建议看起来最可能对他有用的项目，但是重要的是要注意，用户兴趣有时是动态的并且随时间而改变此外，由于不断生成关于新用户和项目的更多数据，这导致用户和推荐项目之间的基本关系发生了很大变化[2]。这些复杂和动态的特征伴随着流数据，由于用户和推荐项目之间的关系的这些变化，对有效的推荐提出了巨大的挑战[3]。关于这一点，几项研究已经考虑了对用户行为模式建模的问题，并表明用户的偏好可能会随着他们对新产品的了解而为了满足用户当前的需求，构建一个整体推荐系统的适当方法是在用户兴趣和偏好随着时间的推移而演变时对其进行适当的这些研究表明，随着时间的推移，建模这样的用户偏好动态可以提高预测精度。最近，文献 [9] 提出了一种时间矩阵分解（ Temporal MatrixFactorization，简称TMF）方法，该方法通过监测用户隐向量的演化，只考虑了用户偏好的动态变化，而忽略了变化的项目特征。然而，现有的时态模型在捕捉用户为https://doi.org/10.1016/j.eij.2020.10.0031110-8665/©2021 THE COMEORS.由Elsevier BV代表开罗大学计算机和人工智能学院出版。这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表埃及信息学杂志杂志主页：www.sciencedirect.comI. Rabiu，N. Salim，A. Da’u et埃及信息学杂志22（2021）285286BXR¼P：Q 1/4P：Q=1jsMnIJ.Σ我例如，喜欢最新纪录片的用户最初对所推荐的电影给出良好的评级，因为该推荐要么是最新的，要么在其他人中获得更高的知名度。但是，当同一用户第二次请求推荐，并且他被推荐比前一部老得多且不令人满意的纪录片时，则他对该推荐的评分将较低，反映他对该推荐的不满意。这意味着用户与以往的研究不同，我们提出了一种新的检索方法，考虑到用户偏好的动态变化和变化的项目特征。一般来说，时间模型背后的直觉是，当在时间点t接收到一组新的评级时，我们获得了关于用户偏好的更多信息，这可能会扭曲预测模型的精度因此，这保证了用户偏好模型（潜在矩阵P）的调整[10]。类似地，项目随着时间的推移而流行和流行，例如新近效应或周期效应，这也有助于项目偏好模型（潜在矩阵Q）的动态变化。然而，这否定了项目潜在因素是时间不变量的说法为了捕捉每个单独的用户潜在向量和项目潜在向量中的动态变化，我们建议对用户进行建模，表1符号列表m用户数量n的项目T T是预测时间，而T-1是训练周期K个潜在因素RR ijm×n评级矩阵项目j P K×m用户特征矩阵Rij用户i评分预测第i个潜在向量在时间t1/2学习的第i个用户潜在向量;·· ·T -1Pi T是在时间T预测的第i个用户潜在向量 QK ×n项特征矩阵第j项潜在向量在时间t1/2学习的第j个项目潜在向量;·· ·T -1在时间T预测的第j个Iij指示函数，如果用户i对项目j进行评级，则该指示函数等于1，否则该指示函数eij预测误差eijt t t学习速率k调节器参数DPt在时间t1/4; 2;·· · T- 1的 DQ在时间t1/4 1; 2;·· · T- 1时潜向量变化的SD标准差项目潜在特征分离：建立使用动态用户潜在向量和项目特定模型是使用动态项潜在向量构建的。为此，本文的主要贡献可归纳如下：i. 我们提出了一个利用用户动态的DUI-矩阵R转化为用户特征矩阵P和项目特征矩阵Q的乘积，其中P和Q都是m×K和n×K矩阵，秩kminfm;ng。每一行p 在P中是用户i和项目潜在向量，以捕捉每个用户的变化，对k的我Q中的q表示和项目功能。这种方法不仅打破了它克服了基本的矩阵分解（MF）方法的局限性，也为商家提供了一种工具，可以准确地推荐满足用户当前需求的商品ii. 我们进行了实验，使用的加权值估计的基础上的变化，每个单独的用户和项目的潜在向量。iii. 我们进一步比较了我们的dui模型与最先进的方法，以证明其有效性的基础上四个真实世界的数据集。第j个项目对k个特征的亲和力。基于这一假设，它遵循的是，每个评级是近似的每个用户特征向量和项目特征向量的点积，如在方程。（1）：K不Js1MF方法考虑等式中的优化问题（2）学习P和Q：本文的其余部分如下。第二节审查了1X X。T21 .一、 22Σ相关的作品介绍。在第3节中，我们定义了一般的收视率预测问题，并提出了捕获的方法，P;QMin21/1j1Ii;j Rij-Pi：Qj2002年PQQð2Þ用户和项目潜在特征的变化以及评分预测在第4节中给出。第5节给出了在各种真实数据集上的实验结果，以验证所提出的方法。最后，本文建议，其中优化参数P和Q可以通过SGD算法[10]学习，该算法循环训练集中的所有评级。对于每个训练样本Rij，首先在等式（3）中计算相关联的预测误差，如下：第六节提出了未来的研究方向符号列表本文中使用的数据见表1。e¼R-P：Qð3Þ2. 相关工作本节简要回顾了MF方法和几种最近的时间方面的方法，这些方法将时间信息与MF集成用于推荐系统，包括时间相关和时间无关的MF方法[37]。2.1. 矩阵分解在上下文推荐系统中，MF由于其在评级预测任务中的优异性能而引起了相当大的关注[11，12]。MF方法背后的动机是易于通过潜在因素来表示单个用户和项目，这些潜在因素表征来自历史评分矩阵R的用户和项目交互。具体来说，基本思路是将评级进行分解然后，对于通过评级的每个循环，Pi和Qj矩阵可以在等式1中的梯度的相反方向上更新（4）和（5）如下：P i← P ia.eij：Qj-k：PiQj←Qjaeij：Pi-k：Qj 5其中a和k分别是学习参数和调节器这种迭代和增量学习方法为MF方法扩展到大规模和更动态的场景提供了关键的构建块。2.2. 时间相关协同过滤在Netflix的竞争之后，考虑到时间变化的TDCF研究变得更加活跃。不IJJI. Rabiu，N. Salim，A. Da’u et埃及信息学杂志22（2021）285287FG2009年，韩国队从那时起，它已成为一种适当的工具，以帮助建议的过程，考虑到数据的动态性质，并解决基于内容的方法的局限性[4]。以相同的方式，作为经典的CF系统，DCFM使用一种协作方法，该方法利用用户信息，例如年龄，国家，城市和在处理推荐时所追求的项目[13]。基于该信息，系统寻找共享相同偏好的用户，然后建议由类似用户购买的相关物品DCFM方法基本上有两种类型，即基于时间记忆的方法[14]和基于时间模型的方法[15]。基于记忆模型的时间CF方法有几个先前的工作，例如[16-在这种方法中，基于窗口的[20]和加权函数[21]是最广泛用于解决用户偏好的动态变化的方法。这两种方法是基于这样的假设，即最近的评级比旧的评级更能反映用户具体而言，基于窗口的方法丢弃可能与当前状态不太相关的旧数据实例，并仅考虑最近的实例[22]。在该模型中，给定时间窗口内的所有评级都被赋予同等重要性，这在变化是突然类型时最适合，但在变化是渐进类型时则不太适合[4]。另一方面，加权函数通过对旧的评级应用递减的权重来惩罚旧的偏好，并对最近的评级给予更多的重视尽管这些技术在一定程度上提高了预测精度，但仍存在一些问题。这些方法可能的缺点是，通过惩罚或丢弃可以提供关于用户一般偏好的更好信息的旧评级，它们往往会丢失太多数据，这使得它们更容易受到影响数据稀疏性问题[23]。除了基于记忆的时间模型之外，还对基于时间因子的CF模型进行了几次尝试，以解决用户兴趣的动态变化问题，这也考虑了先前技术的稀疏性限制[20，24这类模型中的一个著名模型是时间矩阵分解（TMF）模型[20，28，29]。由于矩阵分解（MF）方法解释潜在因素的灵活性，在推荐系统中，用户偏好和项目吸引力的不同依据可以通过捕捉用户行为或项目特征的动态变化来表现。这些可以通过采用基于新近度的方法[20，30，31]或通过在建模用户行为时并入时间变量[25]来实现。2.3. 非时变模型成对相互作用张量分解（PITF）是一种将时间信息适当地结合起来的基本方法。PITF是一个经典的张量模型，对于学习和预测任务都具有线性运行时间[32]。在这种情况下，用户，项目和标签之间的成对交互由该模型共同学习[32]。在给定用户-项目-时间评分矩阵的情况下，以时间感知的方法替换标签维度，其中可以对所得到的矩阵进行因子分解以获得对应的特征模型。在这方面，[33]提出了一种基于基本水平学习（BLL）的时间感知方法，该方法利用时间特征来捕获用户偏好的时间动态，并利用项目流行标签来处理新用户的冷启动然而，BLL方法仅适用于个人和目标资源级别，因此无法捕获用户近几贡献[15]，提出了一种统一的标签推荐模型，该模型通过集成时间感知和个性化方面并分别为用户标签和项目标签交互添加更多权重来扩展PITF方法[32]。与现有时间模型[33]采用的常见幂形式函数不同，作者采用了指数强度函数形式的时间权重，这在建模用户-项目交互方面被证明更有效。[34]提出了一种新的方法，主要集中在识别从用户侧信息中提取的语义属性，包括用户情感、交互次数和客观性等。为了实现这一点，作者采用了一种考虑时间变化的三维MF方法。然而，张量模型的缺点之一是稀疏性问题。也就是说，张量模型的阶数越高，稀疏性问题就越严重[34]。这导致学习过程空间复杂度高、耗时长、收敛速度慢此外，先前的时间模型[20]基于一个强假设，即用户偏好的概念漂移被转移矩阵捕获采用这种方法，即使不是不可能，也很难测量定量漂移率。其次，它是不够的项目变化属性的可处理性，因为它假设项目的特征是不随时间变化的，因此只关注个人用户的偏好变化。在本文中，我们要删除的假设，即项目的功能是时不变的和跟踪项目的功能的变化，可以导致一个改进的解决方案。通过这样做，我们测量的概念漂移的个人用户的基础上的用户的潜向量和概念漂移的项目特征的基础上的项目的潜向量。此外，我们还验证了个人用户和项目偏好向量以不同的方式变化。结果表明，一些用户和项目的潜在向量都有相当大的变化，在我们的工作中包括项目的动态性是改进的主要因素我们提出的时间模型。3. 问题定义在介绍我们新的动态用户和项目特征的评分模型（dui-评分）之前，我们首先定义了基于MF的评分预测问题，该问题已被修改为在评分预测中使用时间信息的评分预测问题[9]。给定一个时间戳评分矩阵R，其基本思想是将评分矩阵R分解为用户特征矩阵P和项目特征矩阵Q的乘积，其中P和Q都是秩为k的m×k和n×k矩阵最小值m;n分别然而，考虑到协会的...用户-项目交互的指定时间信息、用户评分矩阵表示为四个元组：ði;j;r; tÞ假设每个评级可以是实数，并且每个项目通常由用户最多评级一次。当评级矩阵的时间戳被丢弃时，则评级可以以具有元素（Rij）的m×n矩阵的形式表示，其中Rij表示用户i对项目j的评级，如果用户i实际上对项目j进行了评级。相反，如果用户i没有对项目j进行评级，则Rij被称为缺失评级。在实际意义上，矩阵R可以是具有许多缺失值的稀疏矩阵。因此，给定稀疏矩阵，评级预测目标是预测稀疏矩阵R中的缺失评级。为了证明推荐系统的有效性，预测算法的性能通常通过将评分矩阵分成两个集合来评估，这两个集合包括训练集和测试集。训练集被提供给学习I. Rabiu，N. Salim，A. Da’u et埃及信息学杂志22（2021）285288X.-bijij-×bRtPt：Qt6g/gJ算法来“学习”预测模型的期望参数。另一方面，测试集不呈现给学习模型，而仅用于测试预测模型的准确性。在文献中，一些性能指标已被用来评估时间推荐算法。在本文中，我们采用时间平均RMSE来衡量我们提出的方法的性能。TARMSE是基于RMSE的时间准确度度量，其根据直到特定时间点为止的评级计算，如下所示：vu1步骤3：使用用户隐向量的时间序列{Pi（t），t= 1，2，.. . ，T- 1}，以及项潜在向量的时间序列，{Q，j（t），t = 1，2，.. . ，T1}。步骤4：在该步骤中，计算基于在步骤3中获得的概念漂移的动态的加权的用户和项目潜在向量，以更新先前的模型。步骤5：在该步骤中，通过使用在时间T处针对用户潜在矩阵和项目潜在矩阵预测的PTA RMSE utjTestsettj不R1/1ij-brij2ð5ÞI. 构建评级矩阵建立大鼠时间序列的一种可能方法是其中r和r是预测和实际额定值，以及测试集t是在时间t之前进行的测试评级的集合。在这种情况下，较低的TA RMSE值表示较好的精度。4. 提出的时间矩阵分解方法鉴于第3节中讨论的预测问题，我们提出了一种双重跟踪方法，不仅可以跟踪用户潜在向量的变化，还可以跟踪项目潜在向量的变化。图1示出了基于用户和项目潜在特征的动态的用于采用时间矩阵分解的所我们的方法遵循与文献[10，20]中错误使用的时间方法相同的假设。其中包括：1) 如在原始MF中定义的，存在m个用户，索引为i = 1，2，.. . ，m和n个项目，索引为j = 1，2，.. . ，n，使得评级矩阵R可以分解为用户特征矩阵P和项目特征矩阵Q的乘积，其中P和Q都是m×k和n×k秩k矩阵minfm;ng。潜用户i的向量，由Pi表示，是用户潜在矩阵P的第i列。同样，项目j的潜在向量，由Qj表示，是项目潜在矩阵Q的第j列：因此，项目j的用户i评级可以预测为Pi和Qj两者的内积2) 由于人们随时间改变了他们对项目的偏好，因此用户偏好模型在一个时间可能对于预测未来时间的用户偏好无效同样地，项目潜在向量随着项目流行度随时间变化而变化。为此，我们用P（t）表示时间t处的用户特征矩阵P，并且用Pi（t）表示时间t处的用户潜在向量，其中i = 1，2，.. . ，m.类似地，Q（t）和Qj（t）也以相同的方式定义。基于这些假设，我们工作的关键因素是在训练数据集上训练所提出的方法，以研究每个用户潜在向量中可能的漂移，这意味着用户对k个特征的偏好和项潜在向量，项潜在向量表示各个项对k个特征的亲和性。为此，我们的方法所涉及的主要步骤是如下所示步骤1：在该步骤中，m个评级矩阵的时间序列{R（t），t = 1，2，.. . ，T1}，通过使用训练数据集中的评级反馈来构造。步骤2：在该步骤中，使用评级矩阵{R（t），t = 1，2，.. . ，T-1}，用户潜在向量Pi（t）和项目潜在向量Qj（t），{t = 1，2，... ，T- 1}被学习。ing矩阵R t;t1; 2;T要么是通过对原始的评级矩阵，使得项目根据用户的评级提交按时间顺序出现，在这里，我们选择后一种方法，其中原始评级矩阵根据其邮票进行分割。为了避免创建稀疏数据的可能性（这是使用基于分区的方法保证的），我们使用滑动窗口方法，该方法将多个连续切片中的评级组合到单个时间步长中，如[21]中所采用的。II. 学习用户和项目潜在向量的时间序列时间演进的用户潜在因素背后的直觉是，当在时间t接收到一组新的评级时，我们获得了更多关于用户偏好的信息，这可能会扭曲预测模型的精度。因此，这保证了参考模型（用户潜在向量P1）的调整。以前的作者[9]提出的时间方法假设用户潜在向量总是反映用户偏好，不仅与特定时间步长的用户评级相关，而且还反映整体行为。基于这一主张，他们提出了一种方法，该方法以规则的时间间隔更新用户偏好模型，并基于项目特征是时不变的并且不会改变的主张来保持项目的特征向量固定。我们认为项目特征在一定的时间间隔内会经历多次变化，因此我们采用了与[9]不同的方法。为了学习单个用户的用户潜在向量的时间序列，我们首先分解t = 1处的评级矩阵，并确定用户特征矩阵P和项目特征矩阵与此时间步长相关的Q。因此，用户-项目交互使用所提出的DUI对每个时间段进行建模，定义如下：不国际新闻报有鉴于此，我们首先将Pit和Qjt设置为原始用户和项目潜在向量Pi和Qj：然后，使用该时间步观察到的评级分别学习Pit和Qjt当接收到新的一批评级时，我们然后递增地训练模型以获得更新的潜在用户向量Qjjj解决优化问题，我们采用随机梯度下降（SGD）方法，以获得优化的学习参数：eijtRijt-Pit：QTtPit←Pita.eijt：Qjt-k：Pit8Qjt←Q j ta.eijt：Pit-k：Q j t9I. Rabiu，N. Salim，A. Da’u et埃及信息学杂志22（2021）285289ðþ Þ ð Þð Þ ðþ Þð ððþ Þð ÞÞÞFig. 1. 提出了时态矩阵分解模型。这意味着，对于每一个新的评级，除了最后的偏好之外，我们还可以获得更多关于用户偏好的信息，从而根据这些新的评级更新与用户和项目相关的潜在向量这种方法在以下方面保持平衡：旧的偏好和新的偏好，并确保适应数据分布中逐渐或突然变化的好处[35]。该策略由以下公式正式表示：hPt1;Pt1：rkpP1pP2潜在向量中的漂移被及时处理。i ip2i¼1i我的天III. 学习Pit和Q j t在现实生活中的推荐系统中，个人用户在不同的时间点或速率经历兴趣对于一些用户，变化率经常发生，例如当用户在节日期间购买物品作为礼物送给他人时，或者当几个人共享一个帐户时。而其他用户以更慢的速度改变他们的日历在任何一种情况下，学习关于这些动态变化的模型都会扭曲预测模型的精度在本节中，我们假设隐向量Pi和Qj随时间变化，并分析这些变化在隐向量中发生了多少。为了跟踪感知到的改变的偏好，我们首先存储在时间点t的潜向量，表示为P it和Q jt。然后，我们执行更新训练，并获得新的潜在用户向量Pi t 1和相应的项目向量Q jt 1。计算两个概念之间的相异性有不同的方法 Matuszyk策略是通过计算P i t 1和P i t之间的平方差来确定潜在因素与前一时间点相比发生了多大变化[10]第10段。然而，只有当所涉及的变化是渐进式变化时，这种策略才被证明是足够的。因此，我们提出了一种Hellinger距离测度来计算相似性得分。Hellinger距离测量是一种基于特征的漂移检测方法，漂移分数揭示了一个重要的证据，即用户是否具有一致的品味，或者物品特征是否是时不变的。得分值越低，概念漂移发生的可能性越大。为了测试是否发生了变化，我们采用与[10]相同的原理，通过计算与前一时间点相比，潜在特征改变了多少的标准偏差SD h Pi t1;Pi t在这种情况下，如果满足以下不等式，则决定改变，否则没有发生改变：hPit1;Pit>a：SDhPit1;Pit 11其中参数α控制忘记旧偏好的灵敏度。在每种情况下，a的选择都是特别选择的，对于每个数据集，必须通过实验确定同样的策略也适用于测量Q it1和Q it中的概念漂移。IV. 计算加权的用户和项目潜在因素在分析两个时间点之间潜在用户向量Pi和项目潜在向量Qj变化的基础上，对偏好模型（潜在向量Pi和项目潜在向量Qj）进行了适当的调整。如果新的评级与该用户的偏好一致，则隐向量在Pi t和Pi t1预期是最小的。但是，如果在新批次上训练后潜在向量发生了显著变化，I. Rabiu，N. Salim，A. Da’u et埃及信息学杂志22（2021）285290--j-不J示出了用户偏好已经偏离了过去的偏好。因此，我们通过乘以指数函数来更新用户偏好的模型（潜在项向量），该指数函数的值取决于用户偏好的变化率这在等式（12）和（13）中表示如下。以及用于跟踪其潜在向量中的变化的项我们在实验中采用的参数是：因子= 40，的学习率 a=0.003,和调节器k = 0。01.为了获得每个时间段的潜在因素，我们执行了50次SGD迭代用于计算用户的参数在我们的方法中，设置每个时间段的项目潜在向量皮-皮-托-！我的天啊！我的天啊！t你..你..我的天啊！我的天啊！tð12Þð13Þ与基线相同。我们将结果与三种基线方法在不同方面进行比较，以显示跟踪潜向量中概念漂移的好处。这些基线包括：指数函数控制惩罚的程度具体地说，该函数取范围[0，1）中的值，a> 1。对于漂移分数的高值，指数函数产生较低值，并且因此，惩罚旧偏好，更多.V. 评价预测一旦在时间段T-1内获得了加权的用户和项目潜在向量，即，PiT-1和QjT-1;然后我们可以使用等式（14）和（15）预测时间T处的潜在向量，如下所示：MF。矩阵分解方法是推荐任务中最广泛和最有效的评级预测方法[31，32]。在这里，我们假设用户行为以及项目特征是时间不变的，因此忽略跟踪它们的变化情况。timeSVD++。该方法通过对每个用户和每个项目的随时间变化的评级偏差的简单总和以及传统MF的估计来对用户的时间动态进行建模[4]。- 是的这是一种最先进的方法，用于跟踪每个用户偏好随时间的概念漂移它是基于一个线性系统模型与用户特定的过渡矩阵皮-皮-皮！Ta-SDhPit1;Pit：P-i-T---！1ÞQ！T-- T--T-！1Þð14Þð15Þ表示用户偏好在每个时间步的概念漂移。我们在python3.5中实现了这个模型，基于时间感知RMSE的参数，并报告结果在学习了时间T处的潜在因子P和Q之后，可以使用等式（6）中的PiT和QjT潜在向量两者的内积来预测未看见项的未来预测，即：RbijTPiT：QjT165. 实验在本节中，我们使用四个真实世界的数据集进行了一系列实验来评估所提出的方法的性能。这些数据集包括MovieLens 1 M、Flixster、Ciao和Eppery数据集。这些数据集是根据它们具有时间戳信息的事实精心选择的，并且广泛用于协同过滤研究项目，这些项目涉及跟踪推荐系统中概念漂移的动态。具体来说，MovieLens 1 M数据集包含了2000年加入ML的用户在三年内（从2000年到2003年）的评级因此，该类别中的评级对应于这些用户三年的随访，因此数据集具有足够的用户、项目和评级来检测用户偏好的趋势。具体来说，该数据集有10000054个评分，分别由6040个用户提供的3,900个项目。Flixster是一家美国的社交电影网站，为客户提供分享电影评级或评论的应用程序。该数据集包含114，747名用户对44，439个项目的评分7，837，76。Ciao是一家总部位于欧洲的在线网站，在欧洲每月有2840万独立用户。在Ciao数据集中，我们对数据集的一个子集进行了采样，其中包含1，947名用户的5，004个评级中的22，894个评级。Epperly是最大的用户评论网站之一，成立于1999年，由世界上数千名用户和产品记录组成。这些数据集为用户提供基于5分制李克特量表对电影进行评级的服务。因此，它提供了关于用户、项目、用户偏好评级的信息以及相关联的时间戳信息。关于这些数据集的统计数据见表2。为了能够正确跟踪更改检测，新用户和删除新项目，即数据集中出现少于20次的用户或项目，并关注现有用户基于测试数据集。所有的模型都用随机梯度下降算法训练，直到至少50次迭代收敛。表3显示了在利用用户和项目特性的动态变化时，三个基线和改进方法的性能。图2显示了四个数据集上的实验结果，并提供了明确的评级反馈，以便更好地解释。首先，与以前的方法相比，所提出的时间模型在所有四个数据集的RMSE方面提高了性能。然而，不同基线的性能从图2中可以看出，在所有数据集上，timeSVD++和MF与MF相比表现最好，这表明时间模型优于非时间模型。此外，我们注意到，时间模型在不同的场景下显示出不同的功能。具体而言，timeSVD++和ESPIN在Ciao和Epinion数据集中表现得相当好，这可能是这些数据集中较长时间跨度和对动态偏好敏感的结果这解释了跟踪概念漂移效应的性能增益取决于域数据集的事实，作为一些内在属性的结果至于我们的dui_parameter模型，我们实现了最好的性能改进相比，所有的基线方法。具体来说，在Ciao上，我们获得了14%的改进，而在Epinion数据集中，我们获得了10%的改进，这意味着这些数据集在用户潜在向量和项目潜在向量方面都更有利于概念漂移。但在其他数据集中，用户其次，为了检查跟踪动态的有效性，从用户和项目模型的潜在向量的变化，我们还研究了用户潜在向量以及项目潜在向量随时间变化的影响（见图2）。 3）。在这里，关于跟踪项目潜在向量变化的重要性，意见以前的研究假设项目向量随时间不变，因此忽略了项目的动态属性[20]。因此，我们的研究验证了项目属性的动态变化的影响，并且在表3-6中提供了示出用户潜在向量以及项目特征两者的演变的结果。然而，由于篇幅限制，为了更容易比较，我们只报告Ciao和I. Rabiu，N. Salim，A. Da’u et埃及信息学杂志22（2021）285表2291数据集统计。数据集用户数量的项目评分次数密度早日结束日期ML 1 M60403,90010,000,0540.80%April 2000二月2003Flixster114,74744,4397,837,765百分之零点一四号决定2005Nov. 2009Ciao1,9425.00422,8940.23%2000年1月四月2011Epinions21,752242,842853,6640.02%七月199May 2011表3实验结果基于RMSE的四个数据集。MovieLens M1FlixsterCiaoEpinionsMF0.83931.14891.10991.1598时间SVD ++0.79571.20061.11241.0341TMF0.80401.11021.05401.1089兑0.79311.08430.91311.0043改进百分之一点零九2.59%百分之十四点零九百分之十点四六图二.所有数据集上MF、timeSVD++、dui和dui-dui的结果比较。MovieLens数据集。从用户偏好的角度来看，我们的研究结果表明，用户往往会改变他们的兴趣在不同的方式，这需要一个更强大的方法来考虑用户的偏好漂移的差异。这意味着，即使两个用户在一段时间内对相同的项目有相同的看法，他们也可能在未来的某个时候有不同的看法。此外，用户的偏好改变的速率在不同用户之间变化。一些用户基本上倾向于比其他人更快地为了更好地了解这些概念，我们进行了定性分析。首先，我们考虑基于MovieLens数据集以及Ciao数据集的表示用户63和用户155潜在向量的用户偏好的前五个潜在因子的变化。在表4中，我们记录了不同时间段t的用户潜在向量的前五个因子，以及用户潜在向量Pi（T）的预测因子，其中T= 6。在用户63的情况下，使用所提出的方法在时间段6处的预测的潜在向量与在时间1处的初始潜在向量显著不同，并且在第五时间段之后更快速地发生变化。但如果票数相等对于如表5中所报告的用户154，变化速率相对较慢。该用户在时间段6的预测潜在向量非常接近于在原点处获得的潜在向量第三，从项目潜在因素的角度，表6分析了计算项目潜在向量动态变化的优势。从表中可以看出，结果表明，每个潜在因素的项目亲和度值也会不时变化这些变化的发生有几个原因，例如当一个特定的项目成为流行的结果，一个特定的演员在电影中的存在这些因素有改变对项目潜在因素偏好的趋势。例如，我们显示了Ciao和MoveLens数据集中项80和项218的潜在向量的前五个潜在因子的演变还观察到，项目特征的变化在项目之间是不同第80章、前一图3. Cio和MovieLens数据集上用户潜在向量动态变化的结果左图显示了Cio数据集中用户63的用户潜在向量的变化而右图显示了MovieLens数据集中用户154的用户潜在向量的变化I. Rabiu，N. Salim，A. Da’u et埃及信息学杂志22（2021）285表42922用户63 Ciao数据集中前五个因子的潜在向量因素12345Pi0.48780.34680.48690.40850.3670Pi 10.50780.44680.57690.48850.4670电话：+86-021 - 8888888传真：+86-021 - 8888888Pi= 0.4835 0.3934 0.44550.40430.38130.39350.4236Pi 40.4948 0.3447 0.47480.36990.3887Pi= 0.4344 0.3785 0.56930.38950.3703Pi= 0.4740 0.4207 0.55800.47110.4575表5用户154 MovieLens数据集中前五个因子的潜在向量因素12345Pi0.68780.64430.67870.58320.8241Pi 10.67580.63530.67870.58320.8241Pi2 0.6419 0.6445Pi= 0.5582 0.73540.61440.64800.99320.58370.62410.7241Pi 40 0.5437 0.75430.56750.54320.7133Pi 500 0.5418 0.73120.58190.59850.7345Pi= 0.6966 0.69230.62310.56250.8584表6Ciao数据集中前五个因子的第80项潜在向量因素12345QJ0.52350.70340.72550.71130.5236qj1qj20.58350.57480.80270.71740.85150.72840.86130.78690.50360.4987qj 30 0.4085 0.64610.61630.70750.4311qj40.4023 0.61780.73050.72390.4856qj 500 0.4158 0.65540.75590.76050.4721qj 60.5748 0.71740.82840.86690.5087使用所提出的方法在时间段6处的口述潜在向量与在时间1处的初始潜在向量显著不同，并且在第四时间段之后更快速地发生变化。然而，在项目218的情况下，变化率相对较慢。如表7所示，该用户在时间段6处的预测潜在向量非常接近于在原点处获得的潜在向量。第四，为了进一步分析分别计算每个用户和项目的动态变化的优势，我们使用以下配置运行了dui，从[29]中采用：（a）dui-1-c：其中如等式（11）和（12）中那样为每个单独的用户和项目潜在向量计算动态漂移分数;（b）dui-1-c：其中公共漂移分数（c）用于所有用户和项目。我们为s选择了从小到大的三个值结果示于表8中。该实验的TA_RMSE如图所示。四、从结果中得到的有趣观察结果包括：（1）使用具有用户和项目潜在向量的适应概念漂移分数的dui-c-c比不考虑项目动态性的基线更好(2) dui通过计算所有数据集上的用户和项目向量的个体概念漂移分数，显著提高了推荐任务的性能，如图12所示。五、为了更好地理解使用不同c值时dui-c-c对单个潜在因子的性能，我们对Ciao数据集的测试集进行了定性分析我们发现，当c设置为0.1时，结果显示41个用户的性能更好，但发现347个用户的性能最差。当将c增加到0.5时，对于104个用户，它显示出改善，但是对于284个用户，它显示出恶化这意味着，对于104个用户，c = 0.5是比c =0.1更好的选择，但对于284个用户，情况相反当c增加到1时，也会出现同样的情况，c = 0.5。结果显示，对于218名用户，170个用户。一个值得注意的观察是，当使用不同的c值时，结果会对于c = 0.5，我们观察到，并非所有显示该值改善结果的用户也显示c = 1的改善。当移动到c = 1时，另外171名用户显示了更好的结果，而大约57名用户得到了最差的结果。该分析证明了我们的论点，即每个单独的用户或项目都有不同的漂移分数，不一定适合其他人。总之，结果表明，dui-turn清楚地捕捉到用户和项目特征的时间动态，并建议计算每个单独的用户和项目潜在特征的漂移分数比为每个维度分配一个共同的漂移值产生更好的结果6. 结论和今后的工作在本文中，我们介绍了dui-100，一个时间感知的方法，结合了概念漂移的影响，用户和项目的潜在向量，以改善推荐任务。基于用户的偏好向量和项目的隐向量与MF方法，我们计算特定于用户和特定于项目的漂移分数。因此，这些分数被用来权衡旧功能的重要性，使推荐系统更适应用户的偏好和项目的特定功能的动态变化这些权重控制潜在向量在未来预测中的贡献。这项工作的有趣发现是：（1）为了实现真实的推荐，在进行预测时必须考虑用户偏好的动态变化和项目特征的动态变化;以及（2）由于各个用户和项目在不同方向上漂移，I. Rabiu，N. Salim，A. Da’u et埃及信息学杂志22（2021）285293表7项218 MoveLens数据集中前五个因子的潜在向量因素12345QJ0.29980.43650.24600.21560.2907qj10.28450.56650.28600.23560.3407qj 20.2817 0.41940.30980.32940.2800qj 30.3249 0.40650.31780.32460.2727qj 40.2793 0.44820.34400.32190.2489qj50 0.2810 0.46450.37890.29690.2551qj 60.2854 0.55170.28640.22350.3412表8在Ciao数据集上对dui-cnt和dui-cnt- c进行RMSE比较ML 1MFlixsterCiaoEpinionsdui--0.10.80061.01140.82830.9997dui-0.50.79311.08430.91311.0043dui

下载后可阅读完整内容，剩余1页未读，立即下载