推荐系统的分类及优化模型研究

138 浏览量更新于2024-01-18 收藏 1.47MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

制作和主办：Elsevier沙特国王大学学报推荐范例优化随时间的演化巴姆巴哈杜尔辛哈河Dhanalakshmiba印度迪马普尔Chumukedima- 797103那加兰邦国家技术研究所b印度，卡拉卡尔，Thiruvettakudy，Puducherry国家技术学院，邮编：609 609。阿提奇莱因福奥文章历史记录：收到2019年2019年6月17日修订2019年6月19日接受在线预订2019年保留字：内容过滤协同过滤混合过滤优化相似性度量A B S T R A C T在过去的几十年里，推荐系统重塑了网站和用户之间的信息过滤方式。它有助于识别用户兴趣并为活跃用户生成产品建议。本文提出了一个启发性的分析，各种推荐系统，如基于内容的，基于协作的和混合推荐技术，以及一些优化模型，已被应用到即兴的参数正在考虑由上述技术。我们研究了1992年至2019年发表的125篇文章，以讨论与现有模型相关的问题。详细阐述了各种推荐模型的优缺点，包括输入方法。基于所探索的技术和未来的发展方向的研究问题的批判性评论也已涵盖。©2019作者（S）。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。内容1.导言. 10482.推荐系统1048的三层起源3.推荐系统的分类3.1.基于内容的系统10493.2.基于协作的系统10503.2.1.基于内存的协同过滤10513.2.2.基于模型的协同过滤10513.3.混合推荐系统10513.4.其他个性化服务10514.推荐系统参数4.1.推荐系统1052使用的相似性度量4.1.1.基于距离的相似度10524.1.2.基于相似性的相关性10544.2.推荐系统1055的评价指标4.2.1.平均绝对误差（MAE）10554.2.2.均方根误差（RMSE）10554.2.3.精密10554.2.4.召回10554.2.5.F 1评分&准确性。.............................................................................................................................................................................................................10554.3.推荐参数的优化*通讯作者。电子邮件地址：bambahadur@nitnagaland.ac.in（B.B. Sinha）。沙特国王大学负责同行审查https://doi.org/10.1016/j.jksuci.2019.06.0081319-1578/©2019作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.com1048B.B. 辛哈河Dhanalakshmi/沙特国王大学学报5.研究问题10555.1.大数据量（可扩展性）：10555.2.稀疏数据：10555.3.超规格：10565.4.冷启动：10565.5.灰羊：10565.6.浏览次数：10565.7.爬坡：10575.8.用户行为变化5.9.长尾：10575.10.推荐系统范围6.综述文章的统计调查7.结论和未来方向1057参考文献10571. 介绍互联网上信息内容的丰富性产生了对推荐系统的大规模需求。Recom- mender系统有助于过滤用户在互联网上产生的大量涌入数据的存在。它有助于平台的铺设，根据用户过去的记录和行为发现用户的兴趣。根据Deshpande和Karypis（Deshpande和Karypis，2004）：推荐系统是一种独立的技术，用于将用户可能感兴趣的“N”个项目进行分类。它还关注一个人是否会喜欢一个单独的项目或不。推荐系统第一次出现是在1992年。它被用于Tapestry（Goldberg，1992; Wei，2002），这是一个电子消息系统，授权用户对消息进行评级。这种挂毯方法还被用于执行过滤、检索和浏览在不间断的数据流上开发的电子文件等操作。典型地，推荐系统是一种个性化技术，其通过评估具有某些引用属性的个人简档来帮助用户找到产品或信息，诸如视频、歌曲、电子商务产品、电影等。参考特征帮助推荐系统决定用户对未探索项目的“偏好”。任何推荐系统的性能评估都因使用它们的场景而异（Regi和Sandra，2013）。大多数推荐系统模型倾向于做出准确的评级预测。但Karakaya（Karakaya和Aytekin，2018）还讨论了其他四个因素，即：覆盖率、多样性、新颖性和偶然性，这在代表用户满意度和模型的整体成功率方面起着至关重要的作用。覆盖率（Ge，2010）有助于衡量整个框架中填充的项目的领域。该术语主要基于两个概念：（i）模型能够产生推荐的人口百分比（ii）推荐给个人的可用人口的年龄百分比（Herlocker，2004; Shani和Gunawardana，2009）。多样性旨在制作多样化的推荐列表（Kunaver和Pozrl，2017）。它通常被称为过拟合问题的解决方案新颖性（Castells，2015）渴望向用户推荐人口中的新项目。它可以是燕尾形的，带有偶然性作为偶然性的衡量标准。意外发现一词（Kotkov，2016）聚焦于令人惊讶的个人通过向他们推荐人们意调查文章的其余部分如下：第2节解释了几代推荐系统以及用于构建任何个人投资组合的数据输入。第三章介绍了推荐系统的分类。第4节重点介绍了相似性度量、评估指标和几种现代优化技术，以选择最佳的推荐模型参数。第5节提出了与现有的个性化技术相关的研究问题。第6节总结了125篇综述文献的统计描述。第7概述了结论和未来的方向。2. 推荐系统推荐系统的基本三层生成也分别被称为Web 1.0，Web 2.0和Web3.0推荐系统（Singh，2017）。推荐系统的层次解释如下：a. 第一层推荐系统：第一层（Singh，2017）处理电子商务领域。它利用基于内容的，基于协作的和基于混合的过滤技术的决策过程。上述技术的详细解释在第3节中讨论。这一代人还使用邻域方法（Herlocker，1999）来做出推荐项目的协作b. 第二层推荐系统：为了克服第一层推荐系统的局限性，第二层推荐系统利用了社会信息。社交信息的可用性有助于系统维护用户组合，推荐模型可以进一步参考这些用户组合以找到相似的用户（Shvarts，2017）。c. 第三层推荐系统：该系统了解位置和其他因素，如心理和情感因素，以生成基于知识的模型（Nilashi，2018）。推荐系统的目标是从现有的数据中提取知识，以提高电子商务的销售。为此，它使用聚类技术，基于邻居的技术或模式形成技术。在销售记录中找到pat的方法之一是使用关联规则挖掘（Sarwaretal.， 2000年）。推荐系统使用的几个数据输入包括：统计数据，行为数据，评级数据，程序数据和生产数据。数据输入的决定是基于推荐系统被使用的情况3. 推荐系统分类图1描述了推荐系统的三种主要分类，即：基于内容的系统，基于协作的系统和混合系统。B.B. 辛哈河Dhanalakshmi/沙特国王大学学报1049Fig. 1.推荐系统的分类。3.1. 基于内容的系统内容过滤推荐系统依赖于两个显著的思想：a. 除了评级信息之外，作为补充信息的项目属性（Mladenic，1999; Bobadilla，2013）。b. 用户组合，包括用户兴趣信息（Adomavicius和Tuzhilin，2005; Aljunid和Manjaiah，2018）。它基本上保存了用户在过去表现出兴趣的项目。它有助于分析用户过去的行为。图2示出了使用推荐项的排名（Meteren和Someren，2000）来决定前N个推荐而部署的基于内容的过滤的工作。图二.基于内容的系统。1050B.B. 辛哈河Dhanalakshmi/沙特国王大学学报以下是基于内容的系统与其他推荐系统方法相比的一些优点和缺点：优点：i. 独立用户：为了构建个性化系统，基于内容的方法推荐列表可以通过分析用户的项目属性和配置文件来生成。ii. 足够的信息，以避免冷启动：新的项目可以推荐给任何用户，尽管有很少的评级信息，由其他用户在人口。iii. 透明的行为：这个系统让你知道项目的属性的基础上，建议已作出。缺点：i. 多样性和新颖性不足：这种制度可能会出现过度专业化的问题ii. 项目选择属性使用不准确的可能性。iii. 大量的领域知识（Balabanovic和Shoham，1997;Burke，2007）是成功实现基于内容的推荐模型所必需的。iv. 有界内容分析：如果项目没有足够的属性信息（Gulzar，2018; Tsymbal，2004），对于基于内容的推荐系统来说，给出更精确的推荐列表将是一项艰巨的工作。v. 面临推荐用户过去已经喜欢的类似项目。3.2. 基于协作的系统推荐系统的这种方法利用用户集或项目集之间的相似性指数（Isinkaye，2015; Singh和Solanki，2019基于协作的系统允许侥幸推荐（Konstan，1997; Wang和Li，2015），即，它可以基于类似用户“B”的兴趣向用户“A”推荐项目与基于内容的系统不同，该推荐系统能够在不依赖于项目属性的情况下自我学习。图3描述了使用推荐项目的相似性指数计算来决定前N个推荐的基于协作的过滤的工作（Resnick，1994）。以下是与其他推荐系统方法相比，基于协作的系统的一些优点和缺点：优点：i. 该系统感知用户行为随时间推移的变化（Koren等人， 2009年）。ii. 它产生多样化和偶然的个性化列表。iii. 它为基于内容的系统所面临的“过滤气泡”问题提供了解决方案iv. 基于协作的系统在大用户空间的情况下显示出显着的高性能（Adomavicius和Tuzhilin，2005）。图三.基于协作的系统。●●●B.B. 辛哈河Dhanalakshmi/沙特国王大学学报1051v. 在推荐的初始过程中，不需要域信息（Goldberg，2001）。缺点：i. 面临冷启动项目的问题，即，如果系统ii. 在非常高维的数据集的情况下，基于协作的系统可以充当复杂和昂贵的系统（Xue，2005）。计算数百万用户的相似性指数给系统带来了繁重的工作。iii. 现实生活中的大多数数据集都是稀疏的（Mohan，2007年，在自然界。在这种情况表1杂交方法。参考杂交描述（Pazzani，1999）加权这种混合方法的决策是基于从不同的推荐系统获得的分数每个推荐系统的结果被组合在一个单一的数值分量中，以决定最终的推荐列表。（Condliff，1999年）级联建议是基于链的建议，即，一个推荐由其它推荐系统的结果微调。使用协同系统可能会将推荐系统引向错误的方向。（McSherry，2002年）切换此方法能够选择一个技术从可用的推荐技术的集合。3.2.1. 基于记忆的协同过滤（Billsus，1999）混合不同的推荐系统工作共同对最终的个性化列表进行协作决策。它是也已知作为基于启发协同过滤（Goldberg，2001年）。它利用用户评分数据集来计算用户集或项目集之间的相似性指数。（Mooney&Roy，1999）一个建议系统被预先拥有作为另一个推荐系统的输入。示例：基于用户的协同过滤和基于项目的协同过滤。基于用户的过滤侧重于根据用户的评级行为计算用户之间的相似性（Wang，2018）。它有一定的局限性，如高计算成本和可扩展性问题。为了克服基于用户（Smyth &Feature）Cotter，2000年）（Zhang，2018）功能增强不同的知识源特征是聚集在一起形成一个单一的领域。计算一个知识源的特征，以使其兼容作为任何其他推荐算法的输入。1998年，Amazon.com引入了基于项目的过滤系统，该系统显著提高了系统性能，并且在可扩展性的情况下也有效地工作。3.2.2. 基于模型的协同过滤效用矩阵的群选择是一个著名的应用领域。效用矩阵包含总体中存在的几个用户对项目的评级。基于模型的系统（Breese，1998;Xue，2005）利用机器学习和数据挖掘技术来训练推荐系统。例如：关联挖掘模型、聚类模型、贝叶斯模型、神经网络模型、奇异值分解（SVD）模型等。3.3. 混合推荐系统这是一种混合方法（Billsus和Pazzani，2000年），它浓缩了不同的现有模型，如基于内容的，基于协作的或任何其他个性化技术。这种技术的出现是为了克服大多数广泛使用的协同系统所面临的瓶颈。它也可以被称为一种或多种技术的组合（例如，利用矩阵因子化来减少大数据集的维度并且随后使用协作信息过滤来生成个性化列表的系统可以被称为充当混合系统。以下是表1所示的几种杂交技术（Kumar和Fan，2015）：图4描绘了混合系统的示例之一。在该示例中，基于用户的方法和基于项目的方法被组合以形成混合模型。以下是混合动力系统的几个主要优点和缺点：优点：i. 它在结合不同推荐系统的优点方面非常有效（Prasad和Kumari，2012）。ii. 它提供了一个优化推荐模型的平台，这与大多数广泛使用的协同过滤不同。iii. 它克服了基于内容和基于协作的系统的主要缺点，如冷启动问题、稀疏问题、灰羊问题等。缺点：i. 实施成本很高。ii. 在时间和空间上的高度复杂性。iii. 使用由于隐私问题而难以收集的明确信息。3.4. 其他个性化服务除了在3.1、3.2和3.3节中讨论的基本推荐方法之外，还有一些其他的个性化服务，例如基于人口统计的系统、基于知识的系统和基于社区的系统。基于人口统计的系统：它根据人口统计数据对用户进行分类，如性别、年龄、位置、资格等（Safoury和Salah，2013年）。这种类型的推荐系统大多不适合现实生活中的应用程序，因为它基于知识的系统：它根据用户的需要提出建议（Watson，1997;Aha ， 1998; Aamodt 和 Plaza ， 1994 ）。它利用关于用户（Felfernig和Burke，2008; Pu和Faltings，2004）和项目的知识来决定满足用户需求的项目这种类型的系统依赖于基于明确偏好的服务（ Freuder andWallace ， 1992; Boutilier ， 2004;Dieberger，2000）。基于社区的系统：这种类型的推荐系统形成了一个共享共同兴趣的社区（Fatemi和Tokarchuk，2013）它在社区内部使用用户-项目交互，并在聚合从社区获得的决策（Tang，2019）后推荐项目。推荐系统方法的比较检查和调查如表2所示。●●●●●●1052B.B. 辛哈河Dhanalakshmi/沙特国王大学学报z-zX4. 推荐系统4.1. 推荐系统见图4。混合推荐系统。distz1;z 2 distz2;z1vutX1/1ð1Þ大多数推荐系统的性能仅仅依赖于相似性度量。精确的相似计算决定了模型的准确性。每个相似性度量都有一些与之相关的优点和缺点（Zhang，2002）。Pearson相关系数（PCC）是推荐系统中使用最广泛的相似性度量。相似性度量可以主要分类为：a. 基于距离的相似性b. 基于相关的相似性4.1.1. 基于距离的相似性它包含三个子部分，用于基于距离值测量相似性。它们是：a. 欧几里得距离：它测量欧几里得空间中两点或两个物体之间的距离（Wang，2015）。两个点z1和z2之间的欧几里得由方程给出。（一）.其中，z1和z2是欧几里得空间中的两个点或物体，我们要计算它们的相似度点z1 ={z 11，z 12，z 13，.. . ，z 1 n}和点z 2 = {z 21，z 22，z 23，.. . ，z2 n}以直角坐标格式表示。n表示欧几里得空间的维数。b. Manhattan 距离：这个距离度量计算网格线上的距离（Pazzani和Billsus，1997）。它是通过对任何一组点的水平和垂直分量求和来计算的等式（2）示出了两个点z 1 = {z 11，z12，z 13，.. . ，z 1 n}和点z 2 = {z 21，z 22，z 23，.. . ，z2n}。ndz1;z2dz2;z1jz1-z2j21/1c. Minkowski距离：它显示了Euclidean距离和Manhattan距离的广义表示。等式（3）表示点z1 = {z11，z12，B.B. 辛哈河Dhanalakshmi/沙特国王大学学报1053表2不同推荐系统方法的比较分析使用的参考方法数据集使用的技术算法评估结果缺点和未来方向（Safoury和Salah，基于内容1. Last.fm数据集相似度量1.平均平均精度所提出的模型可以建议（2013年）2. 美味的数据集和聚类2. 折扣累积通过基于标记的分析进行（Billsus和Pazzani，2000年）模型基于内容的推荐模型1. 自适应信息服务器2. 每日学员成绩数据技术基于隐式和显式用户偏好的机器学习技术。增益3. 精度1. 精度2. 召回和其他混合模型。评估结果表明，模型的效率取决于隐式数据，因此只有在常规用户的情况下才能反映出高效率。所提出的模型失败的情况下，显式数据被广泛认为是网络版本。（Gulzar，2018）基于内容的推荐模型（丁和李，2005）基于内容推荐模型BSAR crescent大学MedlinePlus1.一般医疗视频。2.糖尿病视频3.高血压视频1. 查询扩展2. 分类（n-gram）自然语言处理1. f测度2. 精度3. 召回4. 灵敏度1. 归一化贴现累计收益2. 精度实施具有相似品味的学习者思想将有助于提高模型的当前性能。缺乏实际健康客户的参与该模型仅由卫生专业人员进行了测试。（Esmaili等人， 2006）基于内容推荐模型（Shu，2018）基于内容的推荐模型MovieLens 1. 聚类2. 中心地位波斯语博客1. HITS排名2. 网页排名1. 精度2. 召回1. 覆盖2. 平均绝对误差使用聚类和中心性技术形成的网络缺乏多样性。该模型需要在不影响模型准确性的情况下提高结果的多样化。模型性能完全取决于链路密度。（Wang &Wang，2014）基于内容的推荐模型图书交叉卷积神经网络（CNN）平均绝对误差均方根误差精密度回忆F1评分模型是通用的，有效的工作。这个模型将无法生成意外物品。（Reddy，2018）基于内容的推荐模型（Goldberg，2001）协作系统（Xue，2005）协作系统Echo Nest味觉特征子集1. MovieLens2. 耶！Webscope R41. MS Web2. 尼尔森3. EachMovie1. 反向传播2. 深度信念网络1. 降维2. 奇异值分解3. 本体技术关联技术向量相似性方法贝叶斯网络聚类模型1. 均方根误差2. 精度1. 平均绝对误差2. 精度3. 召回1. 平均绝对偏差2. 方差分析（ANOVA）所提出的模型需要使用矩阵分解或任何其他降维技术，以加快计算速度。为了实现有效的降维，可以实现有效的集成聚类方法。网络模型的性能随着数据大小的增加而（Alotaibi和Vassileva，2016）合作系统CiteULike贝叶斯模型召回模型面临的可扩展性问题可以使用分布式方法解决。（Lopes，2016）协作系统CiteULike 1. Jaccard系数2. 对数似然相似度3. 余弦相似度方差分析（ANOVA）其中一个主要问题是网络面临的问题是相似性度量的选择。（Sarwar，2001）协作系统1 BootCrossing 2.电影镜头3. Amazon4.FilmTrust矩阵分解1平均值平均精密度2精密度3平均倒数秩4归一化贴现累积增益路径长度的作用是不检查。路径长度在使用矩阵分解优于基于图的模型中起着至关重要的作用。（Hassan和Hamada，2017）合作系统MovieLens基于内存的技术平均绝对误差最优邻域值选择决定了所提出的模型的成功。（Marlin，2003）协作系统耶！电影数据集模拟退火算法1. F-测量2。RMSE 3. MAE4.回忆5.精密度6. 和谐对的分数7.曲线下面积（AUC）8。归一化贴现累积收益该模型在精度方面的效率是高的。但计算时间成为模型的一个挑战。（接下页）1054B.B. 辛哈河Dhanalakshmi/沙特国王大学学报.Xcoshi¼1P1 i2我表2（续）参考所用办法数据集使用的技术算法评估结果缺点和未来方向（Chen，2005）（Vucetic和合作系统协同1.电影镜头2. EachMovie图书数据集1. K-最近邻2.线性判别分析（LDA）3.多线性主成分分析（mPCA）1. 基于图归一化平均绝对误差（NMAE）1. 精度与其他协作模型相比，该模型的误差值非常高。框架必须Obradovic，2005年）（Singh和Solanki，系统协同1. 每个电影数据2.算法2. 链路预测技术基于回归2.回忆3. F-测量4。排名分值1.平均绝对误差2.随着网络拓扑和网络连接的变化，偶尔进行更新。本文缺乏合适的模型2018年）（王，2018）系统协同小丑数据3.合成数据MovieLens算法k-最近邻覆盖范围3.中华民国4. 灵敏度1.平均绝对误差（MAE）与其他最先进的个性化技术相比。模型功能在不同的系统2. 覆盖域必须做。（Jamali和Ester，2010年）（Rohit，，2017）合作系统协同1. Epinions 2. Flixster1. Epinions 2. Flixster基于深度学习的矩阵分解矩阵分解1.均方根误差（RMSE）2.覆盖范围3.精密度4. F-measure均方根误差用户的信任关系会随着用户行为的变化而逐渐消失。在这种情况下，模型将无法做出准确的建议。所提出的模型受到系统冷启动问题模型couldn’t（Ravi，2019）混合动力系统IIF图书交叉1. k最近1.均方根误差它不能为新用户推荐，同时也临时设置物品类别数据集邻居2. 基于Pearson2. 均方误差必须完成（McSherry，2002年）混合动力系统1. 饮料相似性3.基于余弦的相似性贝叶斯模型1.伟大的意义2 组简单形式2. EachMovie意思是3.贝叶斯分层模型优于混合效应模型。还需要对模型，以检查其鲁棒性。（Dong，2017）混合动力系统MovieLens1. k最近1.均方根误差模特儿患上了过度-邻居2. 余弦相似度2. 均方误差专业化问题（罗伊，2015）混合系统MovieLens矩阵分解1。均方根（RMSE）2.召回性能比较使用其他的深度学习技术也需要做，以便即兴发挥。z 13，.. . ，z 1 n}和点z 2 = {z 21，z 22，z 23，.. . ，z2n}。p可以是任何实数集。B.余弦相似性：它主要用于高维正空间的情况（He，2019）。它有助于在某些基础上测量两个对象之间的相似性dz1;z2dz2;z 1ni¼11pjz2-z1jð3Þ美德.先知-愿余弦值有助于确定两个向量或对象之间的相似性（Isinkaye，2015;Li等人， 2003年）。对象z1之间的余弦相似度={z 11，z 12，z 13，.. . ，z 1 n}和点z 2={z 21，z 22，z 23，.. . ，z2 n}可以4.1.2. 基于相关的相似性a. Pearson相关系数：在此度量中，基于共同项目或评级计算对象或点之间的相似性。相似度值介于-1和-10之间-使用Eq. （五）、n z ：zðÞ ¼sﬃPﬃnﬃﬃﬃﬃzﬃﬃﬃ2ﬃﬃsﬃPﬃnﬃﬃﬃﬃzﬃﬃﬃ2ﬃﬃð5Þ1，其中1表示负相关，+1表示总正相关，0表示无相关性（Jian等人，2005; He，2019）。皮尔逊相关值1我1/12我1/1在点z 1={z 11，z 12，z 13，.. . ，z1 n}和点z2 ={z21，z 22，z 23，.. . ，z2 n}由等式给出。（四）、Pn1。z1i-z01m。z2i-z02mPC z;z±12C.调整后的余弦相似度：调整后的余弦相似度方法考虑了用户评分尺度的变化。调整后的余弦减去对象我是说，我是说，你好，我是说，ﬃﬃﬃzﬃﬃﬃﬃﬃﬃﬃﬃﬃﬃﬃzﬃﬃ0ﬃﬃΣﬃﬃ2ﬃﬃ我¼111/12p！1i-2i-B.B. 辛哈河Dhanalakshmi/沙特国王大学学报1055ð4Þ每一个共同的价值观。调整后的余弦相似度（Chen和George，1999）给出了项目I1和I2之间的由等式（六）、1056B.B. 辛哈河Dhanalakshmi/沙特国王大学学报ð Þ¼¼ ð Þ12A-ð Þ¼ruI1-r0uruI2-r0u12ð联系我们调整成本Pu2UI1;I2.ru I1-r0uI。ruI2-r0uI4.2.4. 召回6：：201;2秒的时间，你的时间。你知道吗，我是说，我是。ﬃﬃﬃﬃﬃﬃﬃﬃﬃﬃﬃﬃﬃﬃﬃﬃﬃﬃﬃΣﬃﬃ2ﬃﬃðÞu2UI1;I2u2UI1;I2它的定义是，在资产负债表中相关项目的比率在人群中相关项目的总数上的作用列表（Ristoski，2014）。其中，UI1、I2表示对项目I1和项目I2都进行了评级的用户集合。ruI1和ruI2分别表示用户u对项目I1和I2ruD. Jaccard相似度：它是一个用于计算Recall RTruePositiveTruePositiveFalseNegative4.2.5. F1评分准确性ð11Þ对象集合相似性和多样性。它被定义为交集除以并集（Popescul，2001; Desrosiers和Karypis，2011）。相似度值的范围在0和1之间，其中0表示低相似度，1表示高相似度。等式（7）反映了对象z1和z2之间的Jaccard相似性的数学表示。F1得分计算等式1的调和平均值（HM）。（10）和（11）。下式（12）表示精确度和召回率的HM（Cheng和Wang，2014）。F评分2ω PωR12P准确性衡量的是在整个时间段内正确预测的总数。JC z zjz1\z2jjz1\z2jjz1[z2j jz1j]j z2j-jz1\z2jð7Þ系统中存在的项目的数量（Cheng和Wang，2014）。准确度由Eq表示。（十三）、准确度<$TruePositiveTrueNegative4.2. 推荐系统推荐系统的性能在一定的场景下进行评估，以决定其效率。以下是一些最广泛使用的评价指标：4.2.1. 平均绝对误差（MAE）它测量预测值与实际值的偏差（Hassan和Hamada，2017）。设 Pi 为预测值， Ai 为项目 i [1ton] 的实际值然后，系统的平均（八）、PnjAi-PijTrue PositiveTrueNegativeFalsePositiveFalseNegativeð13Þ其中，True Positive表示相关的项目，并出现在建议列表中。假阳性表示不相关但仍存在于推荐列表中的项目。True Negative表示项目既不相关也不存在于推荐列表中，False Negative表示项目相关但不存在于推荐列表中。4.3. 推荐参数推荐系统参数的优化MAE¼1 2 3 4 5 6 78 9 10 1112 13 14 15 1617 18元启发式方法或生物启发式方法发挥了关键作用，在增强任何推荐模型的性能方面的作用生物启发的方法（邓，2016）的工作类似于任何生物-4.2.2. 均方根误差它用于计算预测任何对象值的误差。它取预测值和实际值之差的平方根。RMSE值越低，系统性能越好（Pazzani，1999; Hassan和Hamada，2017）。计算系统RMSE值的数学表示在Eq. （九）、vuPn2n有机体整体计算智能（Dianjin和Jain，2018; Yadav，2018）有助于即兴发挥几个领域，如基于电影的协作系统，文档推荐等。表3中讨论了用于优化推荐系统的几种优化技术的比较分析。5. 研究问题RMSE1ð9Þ以下是一些与rec相关的主要研究问题其中，Ai和Pi分别表示实际值和预测值。n表示已经对其进行预测的项目的总数。4.2.3. 精度它被定义为推荐列表中相关项目的总数与列表中项目的总数之比（Ristoski，2014）。命令系统：5.1. 大数据量（可扩展性）：大多数推荐系统都使用由用户和产品交互矩阵组成的数据集（Abbas，2015）。这种交互值通过任何用户对任何特定项目的评分值来反映（Patil和Bhosale，2017）。在大多数情况下，用户和项目的数量，如Netflix，Precision PTruePositiveTrue PositiveFalsePositi veð10ÞYouTube、Facebook等网站的数量呈指数级增长。上述场景需要专门的算法来处理这些数据（Khalid，2017; Papagelis等人，2005年）。即使如果其中，True Positive表示相关的项目，并出现在建议列表中。假阳性表示不相关但仍存在于推荐列表中的项目。模型给出了高精度的预测，但计算时间很长，这样就不能实现推荐系统的目的。B.B. 辛哈河Dhanalakshmi/沙特国王大学学报1057表3优化技术的比较分析。参考优化技术目的数据集描述结果（Katarya和Verma，2017）（Katarya和蝙蝠算法布谷鸟搜索这种元启发式方法用于计算项目的权重，以找到更好的邻居。布谷鸟搜索用于优化所获得Jester数据集MovieLens蝙蝠算法的性能优于人工蜂群（ABC）优化技术。模型的效率是合理的使用MAE，RMSE，维尔玛，2018年）使用k-means算法。适应度函数处理即兴发挥用户质心值。t值和标准偏差。该模型与最先进技术（Katarya，灰太狼采用灰狼优化算法确定初始MovieLens推荐模型该模型的主要缺点是数据稀疏性和计算复杂性。模型相对于时间2018年）优化器聚类位置和初始聚类。优于几个现有的推荐模型。MAE、标准差、精密度和该模型的召回值分别为0.68，0.54，（Ujjin和人工蜜蜂它优化了k-means聚类结果MovieLens0.55分别为0.49该模型提供了有前途的结果，Bentley，2003年）（Choudhary，菌落（ABC）颗粒聚类技术它用于获取活跃用户MovieLens准确性、个性化和可靠性。PSO系统的性能收益率为40（2017年）群优化（维和行动）因此有助于决定用户兴趣。公差为0时的准确度和公差=1时的60（Rad&Lucas，2007）（Alhijawi引力搜索算法入侵杂草它微调了特征权重，如（Choudhary，2017）中所述该算法有助于确定Jester数据集MovieLens在非线性系统中，GSA的性能优于PSO。IWO随时间变化的适应度函数评估还有基拉尼（2016年）优化（IWO）算法每个用户配置文件的不同用户集的特征。优于遗传算法和粒子群算法。（Sarwt，遗传提出了一种基于遗传算法的1. MovieLens建议的模型执行速度更快，2014年度）算法（GA）该算法抵制使用任何最广泛使用的相似性度量，如皮尔逊，余弦相似性。2.合成数据与余弦相似性和皮尔逊相似性比较。5.2. 稀疏数据：在几乎所有一流的网站，如Netflix，YouTube等，只有少数用户对少数几组项目进行评级，作为稀疏的数据集。在这种情况下的相似度计算是一个艰难的工作推荐系统。很少有研究人员建议使用信任网络（Chen，2011），即关联值来探索系统中存在的用户之间的关系。稀疏性约简技术也可以用于修剪具有高稀疏性百分比的属性（Huang，2004）。几乎所有的推荐系统都面临着数据稀疏问题，因为一个简单的事实是，很少有研究人员提出解决方案来在一定程度上降低稀疏水平（Aljunid和Manjaiah，2018年; Abelani等人， 2009年）。5.3. 质量标准过高：当系统具有关于用户感兴趣的项目的信息并且因此从不建议除该类别的项目之外的任何项目时，出现该问题这种类型的问题导致缺乏多样性（Lam等人， 2008年）。5.4. 冷启动：术语冷启动意味着系统没有足够的信息来推荐新用户或新项目（Gupta和Goel，2018）。以下是两种基本类型的冷启动问题：i. 冷启动用户（Ghazanfar和Bennett，2014）：当一个新用户进入任何系统时，系统缺乏关于他/她的信息，因此系统需要等待一段时间来获取有关用户的一些信息，并使系统足够温暖以进行推荐。ii. 冷启动项目（Ghazanfar和Bennett，2014）：当一个新的项目进入系统时，系统没有足够的关于该项目的评分信息，因此它无法被推荐系统捕获。5.5. 灰羊：灰色绵羊代表与其他用户的相关值非常低的用户（Zheng，2017）。他们的兴趣类别很少有研究人员建议使用离群值检测技术来识别系统中的灰色用户（Tran，2017）。系统通常将用户集分为两类：i. 白用户：拥有高用户相关值的用户集合。ii. 灰色用户：具有低相关值的用户集合5.6. 共享配置文件：共享配置文件只是指两个或两个以上的用户共享同一个帐户。如何对用户特征进行分析仍然是一个有待解决的问题。例如：父亲和女儿使用相同的配置文件将有完全不同的品味1058B.B. 辛哈河Dhanalakshmi/沙特国王大学学报表4综述文章的统计分析。年1992-19961997-20012002-20062007-20112012-20162017-2019参考（戈德堡，（Herlocker，1999年）;（Deshpande和Karypis，（Ge，2010）;（Shani和（Regi和Sandra，2013）; （Karakaya和Aytekin，（1992年）;（Sarwar等人，（2000年）;（Wei，2002）;Gunawardana，2009年）;（Castells，2015）;2018）;（Kunaver和Pozrl，（雷斯尼克，（Mladenic，1999年）;（Herlocker，2004年）;（Cantador等人， 2010年）;（Kotkov，2016）;2017）;（Singh，2017）;1994年）;（Meteren和Someren，（Adomavicius和（Koren等人，2009年）;（Isinkaye，2015年）;（Shvarts，2017）;（Nilashi，（费尔弗尼希2000）;（Billsus和Tuzhilin，2005）;（Wang，2018）;（Kumar（2018）;（Gulzar，2018）;还有伯克Pazzani，2000年）;（Mohan，2007年）;（Pazzani，和Fan，2015）;（Pu和（萨福里和萨拉赫，（Goldberg，2001年）;（Burke，2008年）;（Balabanovic和1999年）;（Billsus，1999年）;Faltings，2004）;（Rohit，，2013年）;（Burke，2002年）;2007）;（Prasad和Kumari，（布蒂利耶，Shoham，1997）;（Watson，1997年）;（Ristoski，2014）;（Tang，2019）;（Reddy，2012）;（Singh和Solanki，（2004年第10期）（Konstan，1997年）;（Breese，1998）;（Xue，2005）;（Condliff，1999年）;（McSherry，2002）;（Mooney and Roy，1999）史密斯和科特，2000）;（Zhang，2018）;（Freuder和

下载后可阅读完整内容，剩余1页未读，立即下载