基于协同过滤的推荐系统的相似性度量：综述与实验比较

181 浏览量更新于2024-01-27 收藏 3.08MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

制作和主办：Elsevier沙特国王大学学报基于协同过滤的推荐系统的相似性度量：综述与实验比较FethiFkih计算机科学系，计算机学院，Qassim大学，沙特阿拉伯Buraydah，沙特阿拉伯BIND研究小组，计算机学院，Qassim大学，沙特阿拉伯BuraydahMARS研究实验室，苏斯大学，突尼斯阿提奇莱因福奥文章历史记录：2021年3月11日收到2021年8月23日修订2021年9月11日接受2021年9月16日网上发售关键词：推荐系统协同过滤相似性度量基于用户的协同过滤基于项目的CFA B S T R A C T协同过滤（CF）过滤可以由推荐系统（RS）根据目标用户的品味和偏好推荐给目标用户的数据流目标用户的配置文件是基于他与其他用户的相似性构建的由于这个原因，CF技术对用于量化两个用户（或两个项目）之间的依赖强度的相似性度量非常敏感。在本文中，我们提供了一个深入的审查相似性措施用于CF为基础的RS。对于每一项措施，我们概述了其基本背景，并通过实验研究测试其性能在三个标准数据集（MovieLens100k、MovieLens1M和Jester）上进行了实验事实上，结果表明，ITR和IPWR是最合适的相似性措施，基于用户的RS，而AMI是最好的选择，基于项目的RS。评估指标显示，在基于用户的方法下，ITR在MovieLens100k和MovieLens1M上获得的MAE分别为0.786和0.731。然而，IPWR在Jester上达到等于3.256的MAE此外，在基于项目的方法下， AMI 在 MovieLens100k 、 MovieLens1M 和 Jester 上的 MAE 分别等于 0.745 、 0.724 和3.281。©2021作者由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。内容1.导言76462.护士76472.1.基于用户的CF 76472.1.1.邻居选择76472.1.2.评分预测76472.2.CF 76482.2.1.邻居选择76482.2.2.评分预测76483.相似性度量：综述76483.1.向量相似度（余弦）76483.2.调整后的余弦矢量76483.3.皮尔逊相关系数（PCC）76483.4.调整后的互信息7648*地址：沙特阿拉伯布赖达卡西姆大学计算机学院计算机科学系电子邮件地址：f. qu.edu.sa沙特国王大学负责同行审查https://doi.org/10.1016/j.jksuci.2021.09.0141319-1578/©2021作者。由爱思唯尔公司出版代表沙特国王大学这是一个在CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comF. 弗基赫沙特国王大学学报76463.5.调整后的兰德指数76493.6.Spearman秩序相关系数76493.7.肯德尔..........................................................................................................................................................................................................................................................3.8.Jaccard 76493.9.欧氏距离76503.10.曼哈顿距离76503.11.Chebyshev距离76503.12.改进的三角形相似度与用户评分偏好（ITR）76503.13.RPB（IPWR）7651加权的改进PCC4.方法76514.1.数据集76524.2.评价指标76525.结果76535.1.基于用户的CF 76535.2.CF 76606.讨论76617.结论7668竞争利益声明确认7668参考文献76681. 介绍作为数字数据呈指数级增长的直接结果，推荐系统（RS）成为过滤在网络上流通的巨大信息流的必要条件，并且被假定为可由普通用户利用。这些系统能够提供适合于用户偏好和需求的推荐（Iovine等人，2020;Quijano-Sánchez等人，2020年）。与信息检索系统（Fkih和Omri，2020，2018）不同，用户不需要制定查询来获取所需的信息。相反，推荐系统试图制定一个“隐式”的查询，一个给定的用户可能会要求。该隐式查询建立在从用户简档提取的一组特征上，例如他的品味、他的偏好、他的友谊网络等。通常，推荐系统（RS）被分类为三种主要方法：基于内容的（deGemmis等人，2015），基于协作的（Najafabadi et al.，2017）和基于混合的（Jain等人，2020）技术。基于内容的过滤（CBF）利用用户预测他的偏好而不考虑关于其他用户的任何信息事实上，CBF可以被描述为一个信息过滤任务，因为它使用了各种各样的过程，涉及提供相关信息的人谁需要它（Abramowicz，2003）。过滤通常被解释为从传入流中删除不需要的数据（被视为噪声），而不是在该流中查找特定数据最流行的方法是基于项目的语义内容它起源于信息检索领域，并使用其许多原则：根据内容和用户配置文件的比较来此配置文件显示为一组项目和权重，由用户认为相关的项目建立。该方法简单、快速，并已在经典的信息检索模型中得到验证。协作过滤（CF）技术基于其他用户的意见向目标用户推荐项目（Cacheda等人，xxxx）。我们应该指出，CF方法比CBF有一些主要的优势，因为它可以应用于不包含与用户/项目相关的太多信息的上下文。它还可以用于很难从用户/项目简档中自动提取内容（例如情感和意见）的情况（Isinkaye等人，2015年）。混合滤波方法将两种或更多种滤波技术相结合，以便利用这些技术中的每一种的与许多混合滤波相比，技术， CF 有能力很容易地实现与低复杂性（时间和空间）（Bobadilla等人， 2013年）。基于CF的RS可以分为两个子方法：基于记忆的方法和基于模型的方法（Chen等人，2018年）。第一种方法使用整个数据库，以便找到一组与目标用户/项目相似的用户/项目。而第二种方法试图建立一个模型（机器学习），用户的行为，以预测他的选择。在实践中已经表明，基于存储器的方法在精度方面提供了更好的性能，而基于模型的方法对于处理大数据集更有效（McCarey等人，2006年）。此外，基于模型的方法更复杂，因为它们涉及训练模型和调整多个超参数（Valcarce等人， 2019年）的报告。协同过滤被广泛用于电子商务环境，其中用户为他们查看或购买的产品分配分数（Neapolitan and Jiang，2007）。这种方法包括通过在系统的用户中寻找“喜欢”和“不喜欢”产品之间的相关性来进行推荐例如，电影推荐系统将搜索与目标用户相似的用户;并且只有这些用户评价良好的电影将被推荐给目标用户。基于CF的RS通常通过将新情况与先前情况进行比较来进行。实际上，系统分析与目标用户相似的一组用户（客户）的行为或与目标物品相似的一组物品（产品）的特征（Jain等人，2020年）。这个比较过程包括把各种情况放在同一个空间里，检查它们彼此有多少相似之处，又有多少不同之处。例如，如果用户购买产品（书籍、汽车、电影等），系统将向与该用户具有相似品味的一组用户推荐相同的项目。这个问题被认为是一个聚类过程，因为它的目的是将一组用户/项目分类到同质组。这种聚类主要依赖于计算将组内的元素彼此连接的语义距离或相似度。因此，共享共同特征的元素越多，相似性值增加得越多。出于这个原因，选择一个合适的相似性度量之间的一个非常大的可用措施被认为是一个非常重要的任务时，实施RS。显然，相似性度量的效率对RS性能有影响F. 弗基赫沙特国王大学学报7647×我的天uuuuPv2NωÞFig. 1. 协同过滤方法的流程图。在这项工作中，我们打算进行深入的理论文献审查（特纳等人，2018年），通过实验比较研究。事实上，我们的目标是提出一套著名的相似性措施，经常使用在RS域的理论基础，然后，实验比较他们的表现。我们的主要目标是采取措施，为RS提供最大的效率（Fkih和Omri，2013a）。为了达到这个目的，我们在相同的数据集上应用这些措施，并使用相同的评级预测方法。这项工作的主要贡献可以概括为三点：第一，我们实证证明了RS性能和所使用的相似性度量之间的强依赖性。其次，我们表明，最好的选择的相似性度量随数据集的密度和所使用的过滤方法的类型。第三，我们证明了最近的相似性措施，使用经典的措施，改进了语义信息可以显着改善RS的性能。本文件其余部分的结构如下。在第2节中，我们给出了关于协同过滤域的描述。在系统中，识别一组相似的邻居，并且是否向用户推荐项目的决定将取决于他的邻居的成员的意见。协同过滤采用统计方法，根据用户的兴趣模式进行预测这些预测用于基于潜在用户的简档与具有类似兴趣和品味的其他用户的简档之间的相关性来对潜在用户进行预测在这种情况下，用户以评级的形式提供反馈，以建立他们的个人资料。这些评级与其他用户提供的评级进行比较，以生成相似性矩阵。通常，在基于CF的系统的保护伞下存在两种主要方法：基于用户的CF和基于项目的CF（Najafabadi等人， 2017年）。我们提到，图1总结了基于CF的建议的过程。以下部分提供了基于用户和基于项目的方法的基本背景。2.1. 基于用户的CF这个想法是根据社区中已经评论过条目的其他用户给出的评价来过滤传入条目的流。如果用户对某个项目感兴趣，它将自动推荐给过去有类似意见的用户。为了达到这个目标，该系统必须建立一个用户用户矩阵来存储用户之间的相似性得分。因此，将根据活跃用户的相似邻居来计算活跃用户对项目的潜在评级。这个过程包括三个步骤：相似度计算，邻域选择和评级预测。我们必须提到，相似性计算阶段将在第3节中进一步详细说明。2.1.1. 邻域选择在文献中，提出了两种方法用于选择最近邻居的集合：邻居的最大数量（ top-k ）（ Shardanand 和 Maes ， 1995 ）和相关阈值（Resnick等人，1994年）。top-k技术选择k个最近的用户（根据相似性），其中k表示用户的数量相关阈值技术定义了一个阈值，并只保留与活动用户的相似性超过阈值的用户。2.1.2. 评级预测为了预测活跃用户的评分，提出了许多措施。在该领域中最常用的测量是加权和方法（Sarwar等人， 2001年，如图所示。（1）：PvNiSimuvωrvi因此，我们在第3节中介绍了一组在推荐领域广泛使用的相似性度量的文献综述在第4节中，我们介绍了用于进行r~2uSIMv2Nuð1Þ实验对比研究在第5节中，我们提供了所获得的结果。最后，我们在第6节中讨论了所获得的结果，并提供了一些可能提高基于CF的RS的相似性度量性能的前景。我们必须提到的是，所有实验都是在三个标准数据集上进行的。其中，Ni是与用户u最相似并且对项目i进行了评级的邻居（前k个用户）的集合;v是属于Ni的用户，并且Simuv是用户u和v之间的相似度值。此外，（Aggarwal，2016）提出的均值中心预测函数是一种常见的聚合度量。当量2显示了均值中心公式（我们保持与Eq相同的变量）1）、2. 预赛协同过滤策略是基于这样的假设，r~ui<$ruiSimuvrv irvPv2Ni jSimuvjð2Þ如果一个用户正在寻找一个信息，他可以使用其他人所拥有的信息，已经找到并评估了。对于协作过滤器的每个用户-其中r u和rv 是由用户u和v分配的平均等级，分别F. 弗基赫沙特国王大学学报7648×我我P-我...i2IuvPC CP.2i jPC CPi2Iuv#21415;，超过门槛。u2Uijrui-ru2u2Uij ruj-ru2u2Uiju2Uiju UIVVAcosin epeculiar;juveniarpeculiar2ipeculiar.Σﬃﬃﬃﬃﬃﬃﬃﬃ ﬃﬃð8Þ2.2. 基于项目的CF这种技术使用一个项目矩阵来存储项目之间的相似性分数在实践中，系统将建议与已评定的一组项目最相似的项目其中，Iu和Iv分别表示用户u和v评分的项目集合，而Iuv表示用户u和v共同评分的项目集合。Rui和Rvi分别是由用户u和v给出的关于项目i活跃用户的得分很高。事实上，余弦i jPu2Uijruiruj6取决于项目与其相邻项目之间的相似性值相似性增加得越多，预测评级与评级与基于用户的CF技术相同;因此，基于项目的CF过程可以概括为三个步骤：相似度计算，邻域选择和评级预测。我们提到相似性计算阶段将在第3节中进一步详细描述。2.2.1. 邻域选择与基于用户的技术相同，有两种提出的方法：邻居的最大数量（前k）（Shardanand和Maes，1995）和相关阈值（Resnick等人，1994年）。top-k技术选择k个最近项，其中k表示其中Ui和Uj表示对项目i和j进行评级的用户的集合，并且Uij表示对项目i和j都进行评级的用户的集合。Rui和Ruij分别是由同一用户u对项目i和j3.2. 调整余弦向量调整后的余弦测量（Adomavicius等人， 2011）计算两个用户（公式（7））或两个项目（公式（8））之间的相关值。项目数相关阈值技术设置了一个ACosine uvPi2Irui-ri阈值和维护项目的相似性，与积极的;i2Iuvrui-rii2Iuvrvi-ri2.2.2. 评级预测对于收视率预测，提出了几种措施。更流行的测量如下：Z分数（Ricci等人， 2010）、加权和（Sarwar等人，2001）和均值中心聚合（Aggarwal，2016）。加权和公式如下：低（Eq.（3）：其中，Iuv表示由u和v共同评级的项目集合。ri表示i上的平均评级。Rui和Rvi分别表示用户u和v对项目i的评级。u Urui-r uruj-ruPqP。ﬃﬃﬃﬃﬃﬃﬃﬃﬃﬃﬃΣr~Pj2NuSimijωruj其中Uij表示对项目i和j都进行评级的用户集合。RuUI¼Pu jSimij表示u的平均评级。我们提到rui和ruj是j2Ni其中，Nu是与项目i最相似并且已经被用户u评级的邻居（前k个项目）的集合;j是属于Nu的项目，并且Simij是项目i和j之间的相似度值。平均中心聚合公式在等式中提供。（4）我们保持与Eq相同的变量。（3））：用户u分别对项目i和j3.3. 皮尔逊相关系数（PCC）这一措施是由卡尔皮尔逊（皮尔逊，1895年），线性关系的度量，在统计学领域得到了广泛的应用。PCC公式返回-1和1之间的值，其中：1 indi-r~rPj2NuSi mijω。ruj-rj我4表示强正相关，-1表示强负相关用户界面我的Pj2Nu jSimij相关性，0表示完全没有相关性（Resnick等人，1994年）。下面的公式9计算其中ri和rj分别是项目i和j3. 相似性度量：综述两个用户u和v：鲁伊鲁 rvirvqPiiirui-ru2qPirvi-rv2ð9Þ在本节中，我们概述了一组选定的相似性度量的理论基础对于每一个措施，我们提供了一个简短的描述和相应的公式。3.1. 向量相似度（余弦）其中，Iuv表示由u和v共同评级的项目集合。ru和rv分别表示用户u和v对Iuv中的项目i的平均评级。r ui和rvi 用户u和v的评级是否相同项目一公式（10）计算两个项目之间的相似度，和j：该技术（Breese等人，1998）将用户呈现为由他自己评定的评级的向量，并且将项目呈现为由用户集（Cacheda等人， xxxx）。两个向量之间的余弦u Urui-riruj -rjqPrui-ri2qP。ﬃﬃrﬃﬃuﬃﬃjﬃﬃ-ﬃﬃﬃﬃﬃrﬃﬃjﬃΣﬃﬃ2ﬃﬃð10Þ表示两个用户（或项目）的参数指示相似性彼此之间的价值。接近1的值表示两个变量之间存在强相关性。接近0的值表示不存在相关性（自变量）。式（5）和（6）（Chen等人，2018）分别表示用户和项目的余弦度量。其中Uij表示对项目i和j都进行评级的用户集合;ri和rj分别表示Uij中i和j的平均评级鲁伊和Ruj分别是用户u对项目i和j3.4.调整互信息根据香农（Shannon，2001），互信息余弦函数ruirvi<$qPu2Ir2 qPu2Ir2ið5Þ（MI）是信息论领域常用的一种度量方法。在我们的例子中，MI用于计算统计依赖性-两个用户（u和v）或两个项目（i和j）之间的差异（Brunuv我我u2Uiuiu2Ujuj2uv2uvF. 弗基赫沙特国王大学学报7649- 是的吉鲁伊vj测井ðÞ;v-.Σ¼2;v例如，2009年）。为此，用户被呈现为他对项目集合的评级的向量，并且项目被呈现为由用户集合对其评级的向量。MI公式表示核心-两个用户u和v之间的关系如下（11）：3.6. Spearman秩序相关系数斯皮尔曼相关性（Spearman，2010）评估两个变量之间的单调关系。在单调关系中，如果第一个变量的值改变，则值M Iu;第XX页。rui;rvjp r ;r你好。rvjð11Þ第二个变量的变化也是如此，但没有恒定的速率（不是线性的）。斯皮尔曼等级顺序相关系数，命名为q可以取一个值，1和1.它与人类的行为其中，Iu和Iv分别是由用户u和v评级的项目集合。此外，rui表示用户u对项目i的评级，rvj表示用户v对项目j的评级。当量（12）提供相关值在两个项目i和j之间。Spearman相关系数和Pearson相关系数之间的关系，由于qu;v被认为是秩变量之间的PCC，因此是有效的（什切潘斯卡，2011年）。到计算的Spearman秩相关性q，我们使用以下公式：（16）对于用户和Eq.（17）物品。M Ii; jXXp.r;r埃斯比略山口rui;rvj2012年2月2日UIVJ好的。r6我我 Ranku2Uiv 2Uj乌伊河qu;v1-2uvnn2-1ð16Þ其中，Ui和Uj分别是用户评定的项目i和j的集合。Rui表示用户u对项目i表示分配给项目j的评级用户V。调整互信息（AMI）是用于计算统计相关性的MI的变体（Vinh等人，2009），则返回一个介于0和1之间的值。如果由于统计变量之间的偶然性而发生一致性效应，则将通过AMI（偶然性调整）进行校正。下式（13）计算调整后的相互其中q=u;v=表示两个用户u和v之间的斯皮尔曼等级相关性;Iuv表示由u和v共同评级的项目集合;rui和rvi分别表示用户u和v的评级。关于议程项目i，Rankr ui和Rankrvi表示r ui和rvi的秩分别在向量u和v中。n表示数字u和v之间的共同评级。下午6Rankru i-Ran k.ruj2;-两个用户u和v之间的信息（项目i和j相同）。qi j1u2Uijnn2-1ð17Þ阿密乌密乌MaxHu;Hv-EfMIu;vgð13Þ其中q=i;j=表示两个之间的斯皮尔曼秩相关性项目i和j;Uij表示对两个项目i都进行评级的用户集合其中，Hu是u和EfMIu的熵;vg是两个用户u和v之间的预期互信息（Vinh等人， 2009年）。3.5. 调整后的兰德指数为了使用Rand指数（RI）测量，我们假设用户u和v（或项目i和j）是评级的集群。在我们的上下文中，用户被表示为他对项目集的评级的聚类，而项目被认为是其评级的聚类用户的集合。为了定义Rand指数的公式，我们必须定义以下3个参数（Rand，1971）：a是在两个集群中分组在一起的评级对的数量。b是在两个聚类中没有分组在一起的评级对的数量。● N是两个聚类中的评级总数。和j;rui和ruj分别表示用户u对项目i和j的评级。秩rui和秩ruj分别表示向量u中rui和ruj的秩;n表示i和j之间的公共等级的数量。3.7. 肯德尔作为Spearmans返回的值范围从1（一个变量的秩增加，另一个变量的秩减少）到1（两个变量的秩一起增加），而0表示两个变量之间没有关系。该测量主要基于对一致对（以相同方式排序）和不一致对（以不同方式排序）的计数（Conover，1971; Koh和Owen，2000）。用于计算两个评级向量之间的关联强度的肯德尔τ被定义为（等式2）。（18））：然后，Rand指数被定义如下（等式2）。14）：asc-dcdð18ÞRI¼ . N2ð14Þ其中c是一致对的数量，d是不一致对的数量。其中. N是一组N个评级中的无序对的数量。调整后的兰德指数（ARI）是对兰德指数的机会版本进行了校正（Rand，1971; Vinh等人，2009; Sinnott等人， 2016年）。它返回一个介于0（不存在相关性）和1（相同聚类）之间的值公式定义在Eq. 15（项目i和j相同）：3.8. JaccardJaccard指数（Jaccard，1912），用J表示，计算两个集合的相似性和多样性。两个有限集之间的Jaccard系数定义为交集的基数除以并集的基数。也就是说，它测量了两个集合之间共享的元素数量与两个集合中元素总数J索引需要阿里，你最大值RIu;R Iv-EfR Iu;vgð15Þ0和1之间的值，索引越接近1，两个向量越相似。下式（19）计算两个向量u和v的Jaccard指数，而u和v可以是用户（评级集合其中EfRIu;vg是两个聚类之间的预期Rand索引u和v（Vinh等人， 2009年）。由同一用户分配）或项目（分配给同一项目的一组评级）。●●i2Iuj 2IvF. 弗基赫沙特国王大学学报7650;v;ð ;vÞð；Þ ¼ðÞð ;vÞX（c）我是一个乌伊河J uju\vjju[vjð19ÞMS i j11天1天i;jð27Þ3.9. 欧氏距离从用户u到用户v（或从项目i到项目j）的欧几里德距离（欧几里得空间中两个用户（或项目）之间的线段空间实际上，每个用户都由其相对于项基的笛卡尔坐标表示（对于相对于用户基表示的项来说也是一样）。3.11.切比雪夫距离两个向量之间的切比雪夫距离是它们沿着任何坐标维度的差异中的最大值（Abello等人，2002年）。用户可以通过其相对于项目基础的坐标来建模（对于项目来说也是一样）。因此，Cheby-提供两个用户u和v之间的shev距离（dChebyshev如下（公式28）：并且两个用户（或两个项目）之间的距离是其坐标的数值差的绝对值的Chebyshev u;vjrvi-rui2018年12月28日表示两个用户u和v之间的相关性的欧几里德距离（d）公式如下（20）：其中，Iuv表示由u和v;rui和rvi分别表示用户u和v的评级，D UVsXrr2i2Iuv项目一。公式（29）给出了20其中，Iuv表示由u和dChebysh evi;jma xu2Uij.jruj-ruij29v;rui和rvi分别表示用户u和v对项目i的评级。公式（21）提供了两个项目i和j之间的欧几里德距离。其中，Uij表示对项目i和项目j都进行评级的用户集合;rui和ruj分别表示用户u对项目i和项目j的评级。用户和项目的相似性度量，使用Chebyshev距离，定义如下（公式30和31）：di;jsX。ﬃﬃrﬃﬃuﬃﬃjﬃﬃﬃ-ﬃﬃﬃﬃrﬃﬃuﬃﬃiﬃΣﬃﬃ2ﬃ ﬃu2Uijð21ÞChu1301Chebyshevu;v其中，Uij表示对项目i和项目j都进行评级的用户集合;rui和ruj分别表示用户u对项目i和项目j的评级。欧几里得距离应该被归一化以成为相似性度量。公式（22）和（23）分别定义用户和项目的欧几里德相似性（ESES u1221天;vES i j1231天;j3.10.曼哈顿距离两个向量之间的曼哈顿距离，也称为城市街区和出租车，等于向量之间距离的一范数（Szabo，2015）。为了使这种度量适应RS域，我们必须通过用户相对于项目基础的笛卡尔坐标来表示用户（对于项目来说也是一样的两个用户u和v之间的曼哈顿距离（d1）如下（公式24）：1ChebyshevChebyshevChebyshe;ChebyshevChebyshe;ChebyshevChebyshe; Chebyshe3.12. 改进的三角形相似度与用户评分偏好（ITR）最近在（Iftikhar et al.，2020），其由两个项的乘积组成：改进的三角形相似性si mTRIANGL E0 （Iftikhar等人， 2020）和用户评级偏好URP（Ahn，2008）。在实践中，simTRIANGL E0被认为是三角形相乘Jaccard（TMJ）相似性的改进（Sun等人， xxxx）。因此，改进的三角形相似性（ITR）不仅关注常见的评级，如TMJ测量，而且还考虑到非常见的评级，的用户。两个用户之间的ITR相似度并且v是定义如下（公式32）：simITRu;vsimTRIANGLE0u;vωsimURPu;v32我们注意到，simTRIANGLE0u;v和simURPu;v的定义如下：d1u;vjrvii2Iuv-rui24小时分别为（33）和（34）qPiIr-r212uv其中，Iuv表示由u和v;rui和rvi分别表示用户u和v的评级，项目一。公式（25）给出了simTRIANGLE0u;v第一报-qr2rXr2ð33Þ两个项目i和j。d1i;jX.jruj-ruij25其中，I uv表示由u或v评级的项目集合。r ui和rvi是用户u和v对同一项目i的评级。URP1其中Uu2Uij表示对项目i和j都进行评级的用户集SIM第1-1页exp你-你-rvjω jr u-rvjð34Þij; ui和ruj分别表示用户u对项目i和j的评级。为了将曼哈顿距离转换为相似性度量（MS），我们分别对用户和项目使用以下公式（30和31）。其中，ru和rv表示用户u和v对项目i的平均评分，Iuv，分别。ru（公式35）和rv分别表示u和vsPiirui-ru21MSð26Þru¼2UjIu jð35Þ1d1u;v其中Iu是用户u评分的项目集合。Þ ¼ðÞ两个项目i和j。i2Iuvuii2Iuv viF. 弗基赫沙特国王大学学报7651u2UiðÞPURP1ðÞP½ωÞ - ðω]ω ½ωÞ - ðω]i2Iuv表示对项目i或j进行评级的用户集;ru2Uij此外，ITR度量可以用于计算两个项目之间的相似性，公式（36）表示两个项目之间的相似性。两个项目i和j：其中ri表示项目i的平均评分。项目i的标准偏差（SDi）见公式（1）。（四十六）：simITRi;jsimTRIANGLE0i;jωsimURPi;j36其中，在公式（37）中定义了simTRIANGLE0i;j和simURPi;jSDi¼sPrui-ri2jUjið46Þ（38）分别。三角形E0i;j=1-qP。ﬃﬃrﬃﬃuﬃﬃiﬃﬃ-ﬃﬃﬃﬃﬃrﬃﬃuﬃjﬃﬃΣﬃﬃ2ﬃﬃð37Þ其中Ui是对项目i进行评级的用户的集合。两个用户u和v之间的改进的PCC相似性（Sim IPCC u;v）由公式（47）提供：- 是的- 是的ΣΣq气专委i ju2Uij½ruiωri-ruiωru]ωrujωrj-rujωru伊济河新世界报;这是一个很好的例子。ﬃﬃﬃﬃﬃﬃﬃﬃﬃﬃﬃﬃﬃﬃﬃﬃΣﬃﬃΣﬃﬃ2ﬃﬃUIuj分别是用户u对项目i和jð47Þ辛丑1¼- 1倍预期寿命-jri-rjjω jri-rjjð38Þ其中，Uij表示共同对i和i进行评级的用户集合，j;Ui和Uj是对项目i进行评级的用户的集合，我们提到，ri和rj表示Uij中i和j的平均评级，分别ri（公式39）和rj分别表示i和j的标准方差sPuUrui-ri2分别对项目j进行评级的用户。ri和rj表示平均值分别由Uij对项目i和j进行评级ru是平均值，用户URui和Ruj分别是用户u对项目i和jri¼2我jUijð39Þ4. 方法其中Ui是对项目i进行评级的用户的集合。3.13. 改进的RPB加权PCC（IPWR）在（Ayub et al.，2019年）的报告。该度量将改进的PCC（见第3.3节）（由Sim IPCC表示）与用户评级偏好行为（RPB）相结合。两个IPWR之间的相似性用户u和v被呈现为如下（等式2）。40）：IPWRu;vaωRPBu;vbωSimIPCCu;v40为RS提供最佳性能的a和b的最佳权重根据经验确定，如（Ayub etal.，2019年）的报告。RPB公式如下所示（Eq.41）：在本节中，我们对第3节中描述的13种相关性度量进行了实验比较研究：1. 向量相似性（余弦）：公式（5）和（6）。2. 调整后的余弦向量（ACosine）：公式（7）和（8）。3. 皮尔逊相关系数（PCC）：公式（9）和（10）。4. 调整后的互信息（AMI）：公式（13）。5. 调整后的兰德指数（ARI）：公式（15）。6. Spearman秩序相关系数（q）：公式（16）和（17）。7. Kendall8. Jaccard指数（J）：公式19）。9. 欧几里德相似性（ES）：公式（22）和（23）。RPBu;vcosjrv-rujω jSDv-SDujð41Þ10. 曼哈顿相似性（MS）：公式（22）和（23）。其中Rv表示用户v的平均评级。用户u（SDu）的标准偏差在等式中给出（四十二）：sPr-r211. 切比雪夫相似性（Ch）：公式30和31。12. 改进的三角形相似性与用户评级偏好（ITR）互补：公式（32）和（36）。13. RPB加权的改进PCC（IPWR）：公式（40）和SDU¼i2Iu维乌jIu jð42Þ（44）。为了达到这个目的，我们使用了其中Iu是用户u评分的项目集合。两个用户u和v之间的改进的PCC相似性（Sim IPCC u;v）由公式（43）提供：第二部分：计算相似度矩阵，选择邻域，预测缺失评分。对于预测阶段，我们使用加权和方程（1）和Sim IPCC鲁伊鲁鲁伊rirv irv rviRi<$qP（三）、我们必须提到的是，我们对基于用户和基于项目的CF进行了评估研究。i2Iui2Ivð43Þ实验测试在英特尔（R）酷睿TMi7上进行具有2.3 Ghz时钟频率和16 GB RAM的机器其中，Iuv表示由u和v共同评级的项目集合;Iu和Iv分别是由用户u评级的项目集合和由用户vru和rv表示平均评分用户u和v分别在Iuv上。ri是项目i的平均评分。Rui和Rvi是用户u和v对同一项目i的评级。此外，IPWR可以适于计算两个项目i和j之间的相似性，如公式44所示：IPWRi;jaωRPBi;jbωSimIPCCi;j44当量（45）提出了RPB公式：运行Windows 10和Python编程语言。为了评估基于CF的RS的相关性测量的技能并减少错误，我们使用10倍交叉验证程序。此外，我们将数据分为10部分，每次取9部分（90%）作为训练集，1部分（10%）作为测试集。请注意，每个部分由每个用户随机10%的评级最终结果将计算为10次测试提供的所有结果的平均值。我们必须提到，我们使用Python库来实现推荐系统和相似性度量（Pedregosa等人， 2011年）。在以下部分中，我们将介绍用于实验阶段，我们提出了不同的指标用于RPB-100;j-100 cos.jrj-rijω jSDj-SDijð45Þ评估每个相似性度量的性能其中UIJ和ru2Ui½ruiωri-ruiωru]u 2 Ujrujωrj- rujωruF. 弗基赫沙特国王大学学报7652n=1n¼Pn22表1数据集说明。数据集评级用户项目稀疏性密度评级范围电影镜头100k1000009431682百分之九十三点七6.3%1.. 5MovieLens1M100020960403900百分之九十五点七五4.25%1.. 5杰斯特18299742498310027.48%72.52%-10.. 104.1. 数据集对于实验研究，我们使用了3个标准数据集：表2基于用户的方法的每个度量的RMSE最小值。最佳值以粗体突出显示。低稀疏性），并且其等级范围在-10到10之间。RS预测的评级和用户给出的评级。它返回一个正值。归一化平均绝对误差（NMAE）：由于我们使用了具有不同评级范围的不同数据集，因此使用归一化版本的MAE来比较每个数据集提供的结果会更方便。该测量与评定量表无关，并返回0到1之间的值（Ekstrand等人， 2011年）。● 均方根误差（RMSE）：它计算出更大的差异1.2240 300Ch 1.0480 300意大利里拉0.9428 300IPWR 0.9529 300Jester PCC 4.2311 300AMI 4.8406 300s4.9063 300余弦4.3233 300q4.9139 300ARI 5.0184 300● R-squared（R）是一种广泛使用的拟合优度度量（ColinMAE、NMAE和RMSE在等式中定义（48）其中n表示待预测的评级数（数据测试中的评级总数），~ri为评级i的预测值;ri为评级i的实际值;rmax为最大值RMSE¼sPn~ri-ri2ð50Þ可用评级值， rmin 是评级量表中可用的最小评级值（ Polatidis 和Georgiadis，2017年。注意，MAE、NMAE和RMSE越接近0，RS性能越好。一般来说，R2（Eq.51）返回0和1之间的值在线性回归中，模型试图预测或解释一个结果.在我们的情况下，我们有一个观察到的收视率向量和一个预测的收视率向量。事实上，Y被称为独立MAE¼ni¼1 j~ri-rij48变量，Y~称为因变量。R2表示通过线性回归由Y预测或解释的Y~中方差的比例在最好的情况下，度量返回NMAEMAErmax-r minð49Þ1，这意味着模型执行最佳预测。0值表示模型预测结果变量（Y~）的能力较差。然而， R2可以是负的，这意味着Y和Y~之间的相关性是负的。1https://grouplens.org/datasets/movielens/100k/。2https://grouplens.org/datasets/movielens/1m/。nR 1-Pi1ri-~rið51Þ3https://goldberg.berkeley.edu/jester-data/。1/1●PmovieLens100k，1movieLens1M 2（Harper和Konstan，xxxx和Jester 3（Goldberg等人， 2001年）。表1提供了每一个的描述数据集电影镜头100k测量PCC最小RMSE1.0137Top-K用户300数据集。我们不得不提到，movieLens100k中的每个用户，AMI1.0565300movieLens1M至少评价了20个项目。然而，每个用户在Jes-S1.0542300ter已经对至少36个项目进行了评级，这些项目证明了该数据集的高密度。我们可以注意到MovieLens100k和MovieLens1M是余弦QAri1.01511.05431.0560210300300在许多方面类似，如高稀疏性（低密度）ACosine1.0238300以及评级范围（1缺点是，Jester是一个密集数据集（J1.0057300ES1.1213300MS1.1496300Ch1.04563004.2. 评估指标ITR0.9921300IPWR1.0014300为了评估RS的性能，我们打算利用每个MovieLens1MPCC0.9670300时间不同的相似性度量。因此，我们评估每-AMI0.9821300使用4个众所周知的评估指标对RS进行评估，S0.9745300被广泛用于评估回归模型（Silveira等人，2019年）：余弦QAri0.96720.97410.9841300300300ACosine0.988

下载后可阅读完整内容，剩余1页未读，立即下载