没有合适的资源?快使用搜索试试~ 我知道了~
沙特国王大学学报基于神经网络的预训练多推荐生成模型Naina Yadav,Sukomal Kazakh,Anil Kumar Singh,Kartikey Singh印度北方邦瓦拉纳西市计算机科学与工程学院阿提奇莱因福奥文章历史记录:收到2021年2022年1月17日修订2022年2月10日接受2022年3月7日在线发布关键词:聚合多样性协同过滤矩阵分解推荐系统A B S T R A C T推荐系统是一种利用过去的交互和经验进行个性化建议的预测模型。协同过滤是最流行和最成功的方法。这种方法背后的核心思想是,过去表达类似偏好的用户被认为是相似的,并且将来会继续喜欢类似的推荐。然而,过去和未来参考文献之间的项目之间的相似性影响了推荐系统的多样性和覆盖范围在这项工作中,我们专注于一个不太常见的方向推荐系统,通过增加检索不寻常的和新的项目在推荐列表中,这是,或可以,也相关的用户的概率。大多数流行的技术纳入多样性是基于重新排名的方法,这缩小了用户的意外项目的曝光域为了克服这个问题,我们提出了一种方法EST-DR(基于排序器的多样性推荐),它使用用户的个体多样性,然后使用预训练的模型生成不同的推荐。而不是依赖于重新排名的方法,我们使用不同的聚类技术,有不同的用户组具有类似的多样性。实验结果表明,使用不同领域的数据集的建议的DSP-DR方法的多样性和覆盖率,同时保持可接受的精度水平版权所有©2022作者。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍如今,用户可以从各种各样的来源和设备访问广泛的项目集合,这些来源和设备可以在任何地方和任何时间使用,因为容易获得和容易访问 。 随 着 许 多 网 络 和 移 动 应 用 的 出 现 , 如 Amazon 、 Netflix 、Pandora、Spotify和Amazon Music、Goodbooks,推荐系统的使用已经促进了用户和供应商,并且在过去十年中增加了业务量(Beel等人,2016; Tavares和Collares,2020)。建立推荐系统(RS)的早期方法主要基于选择相关且准确的项目,用户基于他们过去与系统的交互。那里是非常公知和流行的技术,用于基于协作过滤(CF)、基于内容的过滤(CBF)、混合方法和基于网络的方法的推荐系统,这些方法主要用于预测用户或一组用户的未评级项目的评级(Ricci等人,2011年;Portugal等人,2018;Abdollahi和Nasraoui,2018)。这些方法的性能评估通常是基于它们的预测能力来完成的*通讯作者。电子邮件地址:spal. itbhu.ac.in(S. )。准确的用户-项目交互。换句话说,评估设置以及因此推荐系统是以准确性为中心的。然而,在协作的基础上只关注相关和准确的项目往往会导致推荐过于明显和不那么有趣,而且随着时间的推移,它可能会使用户与系统的交互变得引入多样性是解决这个问题的一种方法,这是由Bradley和Smyth(2001)在2001年提出的。因此,多样性的引入为丰富推荐系统的经验提供了很大的潜力。许多研究工作受到Bradley和Smyth的启发,他们在推荐系统中引入了不同的算法来实现 结 果 的 多 样 化 ( Bradley 和 Smyth , 2001; Adomavicius 和Kwon,2011; Karakaya和Aytekin,2018)。大多数旨在提高推荐多样性的方法都将多样性优化作为后处理步骤,而不管推荐生成模型如何。首先,为每个用户生成推荐。 然后,使用考虑用户意图和项目多样性 的 一 些 重 新 排 名 和 基 于 意 图 的 方 法 来 缩 短 和 修 改 列 表(Adomavicius 和Kwon,2011; Ziegler等人,2005; Wasilewskiand Hurley,2017).动机-在上述工作中,推荐系统的主要目标被认为是向用户提供具有高度独特或个性化的项目的多样性。一https://doi.org/10.1016/j.jksuci.2022.02.0101319-1578/©2022作者。由爱思唯尔公司出版代表沙特国王大学这是一个在CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.comN. 亚达夫,S.Anil Kumar Singh et al.沙特国王大学学报6386这些方法的主要缺点是现有数据集的覆盖范围如果一个算法推荐来自特定领域的项目,那么它将重新排列该列表中的项目,因此探索广泛的领域是不可能的(Kaminskas和Bridge,2016)。在基于CF例如,假设目标用户已经将她自己限制为仅喜剧和恐怖电影,并且她的类似用户在这种情况下,对目标用户的推荐也是从涉及目标用户及其合作者的所有流派生成的。这意味着现有的重新排序算法可以覆盖恐怖、动作和喜剧领域,而不是数据集中存在的其他领域我们认为多样性是个人需求,因此,最佳多样性可能会因每个用户过去的交互数据而异这可以用一个例子来假设一个系统中有两个用户虽然第一个用户只喜欢古典音乐,但另一个用户对所有类型的音乐(包括古典音乐)都感兴趣。第一种口味的多样性比较小,而第二种口味大多数现有的推荐技术不考虑这种个人偏好的多样性。即使他们解决多样性问题,他们在后处理和宏观层面考虑到所有用户。但我们认为,它应该考虑在推荐之前,并在个人用户的水平。我们还强烈认为,在推荐过程中平衡准确性和多样性非常重要因此,我们计算个体多样性得分(IDS),并将其作为推荐生成算法的核心。贡献-在本文中,我们提出了一个名为基于聚类的多样性推荐(IDS-DR),使用独立多样性得分(IDS)和项目特征得分(IFS)作为基于协同过滤模型的推荐生成的两个决定性标准。该方法的创新之处在于提出了一个统一的矩阵分解模型,利用Meta数据和评分信息,并在评分预测中考虑了用户提出的方法的主要目标是训练模型,为目标用户自动生成多样化该方法的主要目标是训练模型以提供多样化的推荐,同时使用用户过去的交互历史和使用用户评价的项目的特征信息来记住每个用户我们为每个用户提出IDS和IFS分数IFS分数考虑与每个项目相关联的项目特征信息。例如,在一个示例中,对于电影或音乐数据,它可以是流派信息,而对于书籍数据,它可以是用户定义的标签信息,如好、坏、平均等。该IFS分数背后的概念是基于用户特征矩阵为每个用户生成分数。使用用户-项目交互矩阵和项目-特征矩阵生成用户-特征矩阵。用户-特征矩阵包含IFS得分的条目IFS分数是用户在其过去偏好中使用的总特征数量与数据集中存在的唯一特征总数的比率IDS和IFS都是介于0和1之间的实数,并且对于给定用户是常数。这项研究有助于使用个性化的多样性评分和每个用户的项目特征得分进行用户聚类。据作者所知,这是第一个在协同过滤模型中包含个性化用户多样性的工作,用于生成多样化的IDS和IFS从两个方面捕捉单个用户的多样性水平,并用于对用户进行这样的聚类增加了模型然而,在大多数方法中,准确性和多样性具有相反的关系,即,对于准确的推荐,多样性将降低。任何试图为每个用户增加推荐列表的多样性的尝试无疑会降低他们的模型准确性。可以看出作为使用准确性(或类似的基于个性化偏好的度量)作为主要度量的问题。可以想象,我们需要更好的衡量标准来评估准确性背景下的多样性如果没有这些,除了准确性,我们还通过报告推荐系统常用的各种评估指标来验证我们的结果。本文的主要贡献如下。我们提出了个体多样性得分(IDS)和个体特征得分(IFS),这是根据用户过去的偏好计算的这两个分数作为每个用户在其推荐列表中的多样性包含的两个决定性标准接下来,我们包括一个基于集群的算法来对用户进行分组。用户聚类的基本策略是使用用户过去的交互历史来量化更多样化的用户。我们对用户使用了两种聚类策略:(1)用户的个体多样性,(2)使用项目的内容特征。我们提出的EST-DR模型涉及一个可调的超参数(ILD分数),用户可以使用它来调整他们的推荐列表的多样性水平针对具有更大聚集多样性的目标用户的模型训练的目标是包括不同用户之间的交互域,从而增加目标用户的探索域。我们还在三个真实世界的数据集上进行了广泛的实验,以证明我们的B-DR模型在推荐系统中使用各种基线算法进行多样化的有效性。2. 相关工作我们发现,到目前为止所做的相关研究可以从两个角度来看:i)推荐生成和ii)用户的个性化多样化虽然关于多样性的系统研究很少,但机器学习、深度学习和其他相关应用的一些研究是高度相关的,它们激励我们将多样性纳入推荐系统。我们考虑研究基于CF的推荐系统的多样性。因此,我们考虑各种协同过滤方法的相关工作,然后在推荐系统的多样性。2.1. 协同过滤在20世纪90年代初,协同过滤开始作为推荐系统的解决方案出现。在协同过滤中,预测步骤是为系统没有任何关于用户偏好的精确信息的项目生成相关性分数。我们考虑了三种具有代表性和最合适的算法进行评估。这个建议背后的思想是将用户-项目交互矩阵减少到低维潜在空间中,从中我们找到d维矩阵。这种方法的优点是它比原始的用户-项目交互矩阵需要更少的计算时间。矩阵分解技术的另一种变体SVD是信息检索中用于识别潜在语义的突出算法(Ranjan等人, 2019年)的报告。矩阵分解方法的另一个在SVD的早期,没有隐式反馈,因此出现了数据稀疏问题,但在SVD++中,包含隐式反馈解决了这个问题(Jia等人, 2014年)。然而,可以声称矩阵分解和SVD都遭受过拟合问题(Koren等人,2009),因此使用矩阵分解的另一种变体,如正则化核矩阵分解和非负矩阵分解(NNMF),其可以有效地避免该问题。NNMF用于●●●●N. 亚达夫,S.Anil Kumar Singh et al.沙特国王大学学报6387使用本质上非负的潜在因子模型从非负的大稀疏矩阵中提取潜在向量(Luo等人,2016; Bobadilla等人, 2017年)。基于CF的技术不能为实时用户提供推荐,因此在推荐系统中引入了基于强化学习(RL)的技术来克服这些问题。Chen等人(2019)提出了一种基于RL的方法,以克服使用基于树的策略梯度(TPGR)方法的连续动作表示之间的不一致性。Choi等人(2018)提出了一种使用双聚类技术的基于RL的推荐系统的方法。他们使用马尔可夫决策过程(MDP)和强化学习技术来解决推荐系统中的大空间离散行为问题。Chen等人(2020a)提出了一种行程规划方法。他们使用RL技术为行程建议建模,用户将在预算限制的情况下输入他们的开始和结束目的地。他们使用MDP和通过深度Q学习算法优化的变分代理来 Ie等人(2019)提出了一种使用Q学习的石板推荐系统的方法。在基于板的推荐系统中,推荐项目是从广泛的项目集合中选择的,该模型基于MDP和Q学习,其中使用具有经验重放的深度Q网络来学习这些Q值。Liu等人(2018)提出了一种使用Q-learning的slate推荐系统的方法。在基于板的推荐系统中,推荐的项目是从广泛的项目集合中选择的,并且基于用户行为和兴趣进行排名该模型基于MDP和Q学习,其中使用具有经验重放的深度Q网络来学习这些Q值。2.2. 推荐系统如上所述,本研究是在推荐生成中使用协同过滤模型中的多样性的两个研究领域的中间人在本节中,我们回顾了推荐系统中与多样性相关的研究。在这里,我们首先讨论多样性的各种定义和多种算法来增加推荐系统中的多样性随后,我们还回顾了用于衡量建议多样性的许多指标2.2.1. 定义和多样性指标多样性最早是在信息检索(IR)中引入的在IR中,已经注意到,检索到的文档受到与另一文档以及与用户发布的查询的文档相似性的假设用户搜索如果没有太多的信息来消除用户对相应搜索的兴趣的歧义,则在该点处,多样性通过同时建议两个项目而Ziegler等人(2005)将多样性定义为列表内的不相似性度量。推荐系统中的多样性是指个体多样性和集合多样性。个体分集的目标是最大化每个用户的覆盖范围和分集。个人多样性度量被定义为主题覆盖率以及a-nDCG(标准化贴现累积增益的变体)。Vargas(2014)提出了一种多样性方法,将意图用作用户需求。他们提出了一种多样性的度量方法,它将模糊性、多样性、冗余性和新颖性纳入到一个单一的动作中.Lathia等人(2010)使用用户的时间信息定义了个体多样性,因为数据随着用户行为的变化而变化 Castells等人(2015)将多样性定义为项目相关性,相似性值和推荐列表中排名的乘积。 弗勒德和霍萨纳加(2009)也使用多样性来评估推荐系统在销售多样性中的效果。作者只专注于为特定领域提供销售多样性。多样性的一些最近研究包括个性化多样性度量作为基本上用于长尾项搜索的算法(Yadav等人,2019年)的报告。2.3. 推荐系统推荐 系统中 的多 样性大 多被许 多研究 人员 视为后 处理过 程(Anelli等人,2021; Wasilewski和Hurley,2017; Hamedani和Kaedi , 2019;Hu 等 人 , 2017;Kyriakidi 等 人 , 2017;Abdollahpouri等人, 2021年)。在这里,我们讨论了一些最近的和有前途的方法,在推荐系统的多样性。除了贪婪重排序算法之外,意图感知多样化被用于推荐系统中,以利用用户的各种方面来对推荐列表进行重排序这些方面可以显式或隐式定义。隐式方面可以从用户的历史中导出这些是一些基于机器学习的方法。除此之外,一些深度学习方法也用于推荐系统中的多样性意识。Esmeli et al.(2019)提出了一种基于会话的个性化多样化推荐。多样性通过添加依赖于会话的最后交互项目的多样性级别的项目而被包括在推荐列表Sim-ilarlyHu et al.(2017)还提出了一种基于会话的推荐系统的深度学习模型,该系统使用上下文信息来个性化多样性。该方法也是一种重排方法,其基于某些给定上下文使用用户对项目的相关性来对推荐列表进行除了RS中的单一上下文考虑之外,许多作者还在建议中纳入了多个方面以提高多样性。Oliveira等人提出了一个多目标的方法,多样性和准确性的考虑,其中包括内容信息,如当代性,性别,流派,和地方。使用帕累托最优性实现多目标优化(Oliveira等人,2017年)。Nassif等人提出了一种使用Jaccard交换分集和子模块分集优化方法的音乐推荐中的多样化方法(Nassif等人, 2018年)。Volokhin等人提出了一种基于用户意图的多样性融合推荐模型。用户的意图是从调查中获得的He等人提出了多源子主题,这是一种用于子主题建模的框架,其使用基于随机行走的方法来估计从多个Web源提取的子主题之间的相似性,然后将相似性关系正则化以构建文档内容(He等人, 2012年)。最近的作品是使用传统的推荐系统的方法Suet al.(2013)提出了一种面向集合的多样性框架,该框架使用基于用户上下文信息的矩阵分解方法Wang et al.(2016)使用相似性网络引入个性化多样性,以更好地影响推荐系统。该方法将相似度函数和二分图相结合,利用相似度网络来改进资源分配过程。Chen等人(2020 b)提出了一种用于多样化的深度学习方法。他们使用顺序推荐模型和意图挖掘来增强多样性。该方法采用隐式意图挖掘方法自动挖掘用户意图在使用机器学习算法的多样性推荐系统中引入的另一个概念被称为DPP(确定点过程)。DPP是一种补充和令人鼓舞的方法,用作负相关、抽样、条件化、边缘化和许多其他推理任务的概率模型N. 亚达夫,S.Anil Kumar Singh et al.沙特国王大学学报6388ð Þ× ð × ÞðÞWilhelm et al.(2018)在他们的YouTube视频推荐工作中包括了DPP过程。DPP是一种不使用任何辅助信息的学习多样性的简单方法,因此该模型的计算成本呈指数级增长,因为可能的项目集也呈指数级增长。2.4. 推荐系统近年来,人们在推荐系统中提出了大量基于时间动态的研究工作在这些作品中,大部分的研究集中在添加时间动态的用户和他们的互动项目。推荐的另一个趋势是在推荐生成中包括用户和项目的多个方面在推荐系统中,用户的兴趣可能会随着时间的推移而近年来,许多研究已经进行,包括用户的时间动态信息。在早期阶段,Lathia等人(2010)提出了一种时间多样性度量方法及其对推荐的影响。他们提供了一个标准的时间多样性的基础上,用户调查不同的时间跨度。Wang等人(2019)提出了一种考虑用户时间动态的重复消费项目的方法他们提出了一种基于霍克斯过程的协同过滤模型,Ma等人(2020)提出了一种名为HRNN-meta的方法,该方法基于具有不同时间效应的用户和项目的上下文特征。该模型基于基于会话的矩阵分解方法,该方法考虑事件的时间顺序、上下文特征和关于项目的元数据。 You等人(2019)提出了一种方法HierTCN,用于基于时间卷积网络的序列多会话与项目的交互,利用会话内的长期和短期交互来预测下一次交互。Najafipour等人(2020)提出了一种基于神经网络的方法,该方法从短微博文本中生成子图。该方法计算两个用户之间的相关性得分我们还在表1中总结了相关工作。2.5. 多样化算法:基线在本节中,我们将讨论作为比较分析的一部分使用的多样化算法,方法。贪婪重排序方法被用作推荐系统中的后处理步骤,以提高多样性。这种方法的基本假设是,它采用传统的推荐系统来生成预测分数并生成推荐列表。使用Greedy Re-rank算法,我们显式地根据相异度值对推荐列表中的项目进行重新排名 Ziegler和Cai-Nicolas在2005年提出了贪婪重排序算法(Ziegler等人,2005年)。下一种方法是由Abdollahpouri等人(2019)和Abdollahpouri等人提出的xQuAD(显式查询方面多样化)。(2021)采用个性化的多样化来提高推荐度,减少大众化偏见。他们使用的概念是使用子配置文件感知多样化方法对推荐列表进行重新排名,同时具有准确性和多样性。除此之外,为了更好的多样性,他们包括长尾和短头的相关性,使用每个用户的两个类别的边际我们模型的另一个以多样性为中心的基线是最大边缘相关性(MMR),这是信息检索过程中使用的一个MMR试图减少检索到的文档的冗余度并增加文档的多样性(Carbonell和Goldstein,1998)。该算法的目标是最大化目标函数,该目标函数用于使用单个函数来平衡准确性和多样性之间的权衡3. 问题描述让我们有一组用户U^fu1;u2;u3. u mg和一组项目I^fi1;i2;i3. . I ng和我们有设置的项目特征F¼ ff1;f2;f3.. . fkg.因此,我们有一个用户-项目交互矩阵R的大小为m n和项目特征矩阵的大小为n k。在交互矩阵中,每个用户都对一些项目进行了评级,用户u对项目i的评级为rui,评级值范围在整数值1到5之间(5是最好的,1是最差的)。项目特征矩阵S是二进制矩阵,如果项目i具有特征k,则条目sik为1,否则为0(项目I不具有特征k)。给定交互矩阵Rm×n,项目特征矩阵Sn×k,生成用户特征矩阵Gm×k。对于一组目标用户,我们提出的模型的目标是预测目标用户对所有未评级项目的评级,并为每个目标用户推荐前N个表1文献综述总结。参考类别方法说明Ribeiro等人(2012年)机器学习重排序法他们提出了一个相关性评分,结合了准确性,多样性和新颖性。然后在一个联合模型中使用这个分数Hurley(2013)机器学习Su等人(2013)机器学习Xie等人(2021)图形神经网络重新排序方法重新排序方法重新排序方法提出了一个成对的重新排序模型,学习用户和项目的因素,通过最小化的目标函数,其中包括项目相异性,而不考虑推荐列表的大小。提出了一种基于项目集的两两重排序模型训练数据是基于成对的项目集并使用相关性和多样性标准来比较每对项目集来准备的该模型通过构建异构偏好网络来记录用户偏好,并使用异构图注意力网络进行节点聚合。两个不同阶段的匹配阶段侧重于准确性,而排序模块更侧重于多样性。Anderson等人(2020年)深度学习分类他们提出了一种基于音乐消费多样性来量化用户的方法,即,多面手和专家。他们研究了算法推荐与消费多样性的关系。Karako和Manggala(2018)深度学习重排序方法他们提出了一种方法,以公平意识的变化的最大边缘相关性(MMR)重新排序方法使用用户的人口统计信息。他们使用带有MMR的预训练CNN模型来获得推荐的公平性。Abdollahpouri等人(2019)机器学习重排序法他们提出了一个基于长尾项重排序方法的xQuAD模型。该模型用于推荐系统中流行度偏差的控制。Sonboli等人(2020年)深度学习Multi-aspect这项工作用于使用多个方面,如时间上下文(时间,日期等),为目标作者找到相似作者的子图,短文本(tweets)。Najafipour等人,2020深度学习多方面重新排名他们提出了一种重新排名的方法来实现公平意识的建议,该建议可以在多个公平维度(性别,部门,费率等)上学习用户的个人提供一个公平的建议。N. 亚达夫,S.Anil Kumar Singh et al.沙特国王大学学报6389nn相似性ij;ik第1页第1页nn-1j<$1k<$1j4. 拟议方法本节介绍了我们提出的EPD-DR模型的总体架构和操作方法(图1)。我们使用两投入:一user-item相互作用矩阵(Rm×n),及以下项目─特征矩阵(Sn×k)。虽然Rm×n很容易使用,但Sn×k需要以被处理以转换为用户特征矩阵。我们提出的EST-DR模型的工作流程可以分为三个部分。首先,计算用户的个体多样性和项目除了NNMF,我们还评估了SVD和SVDpp算法的模型性能。我们的目标是展示个性化的多样性,应该包括在推荐系统的评级预测之前。图2中示出了所提出的EPD-DR模型的流程图。我们提出的方法的整体架构分为两个部分在线和离线部分。在线部分包含我们计算IDS和IFS分数的输入。每当系统中引入新用户和项目时,这些分数都会更新,并且在离线部分,我们训练这些输入信息以生成推荐。4.1. 用户的个体多样性得分我们在这里描述了一种尝试,以量化用户多样性每个用户在日常生活中都有不同的偏好。例如,在电影领域中,用户在图二. 所提出的EST-DR推荐模型的流程图。Pmrpj:rpk我们的模型中引入了多样性,并引入了一个人用户的多样性得分(IDS),表示用户如何喜欢潜水员-q在她过去的偏好。用户的多样性得分被用作我们业务多样化的最低阈值。我们定义的余弦相似性的多样性。项目之间的相似性将使用等式计算。(二)、由用户u评级的项目之间的平均相异度被认为是用户u的个体多样性得分。由方程式计算用户u的多样性,其中ij和ik是用户u从其大小为n的过去交互项目列表中评定的两个不同项目。由方程式我们计算由用户u评定的两个项目ij和ik之间的余弦相似度,其中Rpj和Rpk是用户p对项目ij和ik的评定,m是数据集中存在的用户的数量。为每个用户计算IDS(u),并将其称为用户u的个体多样性得分。我们将IDS(u)作为用户u的一个门限,它决定了用户u4.2. 用户的项目特征得分IDS标准1X X1-simij;ik1在用户的物品选择中,物品特征信息也起到了一定的作用。重要的角色。 用户通常根据内容Fig. 1. 所提出的EST-DR推荐模型的体系结构。艺术家、流派等术语我们把这个用户特定的偏好考虑进去2ÞN. 亚达夫,S.Anil Kumar Singh et al.沙特国王大学学报6390ð ÞPP2fg项目特征源j<$1k<$1¼ ðÞJK0;否则诸如流派、年份、艺术家等信息。因此,我们认为,项目的特征信息也将是一个决定性的标准,在推荐系统的我们提出了一个项目特征得分为每个用户基于这个假设。在我们提出的算法中,我们使用电影和音乐的类型信息和书籍的标签信息来计算每个用户的特征分数,该特征分数定义了每个用户对于除流派分数之外的概括,我们还可以使用项目的其他内容信息,如音乐领域、艺术家、流派、语言等。我们使用MovieLens、LastFM和Goodbooks数据集,其中每部电影至少有两个gen-res,在LastFM和Goodbooks中,我们使用每个艺术家的标签信息标签是每个艺术家/书籍数据集中用户定义的标签/书架/流派。换句话说,我们对项目的元数据信息进行编码,4.4. 聚集簇多样性接下来,在我们提出的算法中,我们需要计算聚合聚类多样性。聚合集群分集是集群中存在的每个用户的个体分集的平均值。计算聚合集群多样性背后的迫切要求是,它包括具有相似多样性水平的用户。聚合聚类多样性的进一步使用是为我们的模型的训练建立聚类对。我们的模型训练背后的意图是,这些具有更多样化用户的集群将帮助其他不太多样化的用户,以便这些用户的交互域将扩展,并且模型将生成更多样化的解释。在算法1中描述了用于聚合集群分集的伪代码。每个用户的Itemsourcesu特定的用户交互信息。让用户u已评级从n个项目的完整集合中得到n 1个项目(n1 14n)。计算项目成本来源成本计算如下:Pn1 PQGij;fkn Q第1页k¼1Gij;fk在Eq。(3)我们计算用户u的ItemsourceSourceu。其中函数Gij;fk是如下定义的布尔函数Gði;f Þ¼. 1;如果i j具有特征f kð4Þ和f1;f2;. . fQ表示一组Q个不同的特征(类型),j1;.. . 其中n是数据集中存在的项目的总数。4.3. 聚类算法我们提出的算法的第二步是基于IDS和IFS的用户聚类。在我们提出的算法中,使用两种不同的技术进行聚类:1. 首先使用IFS2. 集群也是使用IDS执行的。我们的方法的灵活性在于,我们可以使用除体裁值之外的任何特征信息,并使用任何无监督聚类算法。首先,使用项目的特征信息执行聚类,即,使用用户的个体多样性来执行电影的类型信息和第二聚类。这两种算法的议程是不同的。包括体裁评分将携带具有相似体裁比例信息的项目。类似地,另一个聚类将聚类具有相同多样性水平的用户。我们使用k-means聚类算法。然而,任何无监督的算法也可以代替.在我们的方法中,k-均值算法的工作原理如下。将聚类的数量定义为数据集中存在的不同类型的总数。选择一组随机的k个数据点,然后计算质心,无需数据混洗。继续迭代,直到质心值停止变化。这也意味着分配给群集的数据值不会更改。计算从一个数据点到其他数据点的欧几里得距离,并将数据点分配到与它们具有最小距离的每个聚类,然后计算质心。ML-1 M数据集的聚合多样性是在应用k均值聚类算法计算聚类大小后计算的(k)= 18。聚类大小(k)的最佳值是从一组从不同k值执行的实验中选择的,详细分析在第6节中给出。簇的聚集簇多样性在表2和3中示出,并且它们的图形表示也在图1和2中示出。4和5.4.5. D-DR模型在本节中,我们将解释用于我们的EST-DR模型训练的不同预测算法。在找到用户的聚类所提出的EST-DR模型为每个用户生成前k个预测,这比其他最先进的推荐算法更多样化。所提出的方法的架构如图所示。1.一、EST-DR模型的预处理是计算每个用户的特征得分,其中我们首先计算每个用户的个体多样性得分和项目特征得分该分数还用于基于更多样化的用户将在同一组中的假设将用户聚类到组中用户集群C1、C1、C2、. Ck是通过使用无监督聚类算法获得的,在我们提出的模型中,我们使用k-means算法。一旦我们获得了聚类,模型训练就开始了,我们采用SVD,SVDpp和非负矩阵分解方法。我们提出的模型的训练是基于约束非负矩阵分解方法。我们的方法考虑NMF,●●●●ð3ÞN. 亚达夫,S.Anil Kumar Singh et al.沙特国王大学学报63912≈k-kð× ÞDFR jjUVR-UVF你看,图三. MovieLens数据集中项目受欢迎程度的长尾。定义除了用户项输入矩阵之外的附加数据的约束在我们所提出的方法中,从第4.3节中的数据预处理中获得的聚类作为EST-DR模型的训练对我们使用典型的矩阵分解算法(SVD,SVDpp和NNMF),产生多样化的推荐。我们使用NNMF模型实现了最佳预测。一个典型的NNMF被用作尺寸-所以简单的方法是使用Frobenius范数度量。误差最小化的NNMF成本函数定义如下:TüTüXu;vd1可写为RU:V的稳定性降低算法,其中U和V是具有非负值的两个矩阵(Aghdam等人,2015年)。在推荐系统中,U和V是用于表示用户和项目的列矩阵一般情况下,矩阵R中包含一些未知值,这些未知值是数据集中没有的用户项目评分信息的值数据被表示为用户-项目交互矩阵R2Rm×n。我们的目标是用两个低维矩阵的乘积来表示它,其中U2Rm×d和V2Rd×n。NNMF问题是我的P0VP0RU:V. 成本函数的目标最小化原始评级矩阵R与用户U和项目V的潜在向量的乘积之间的误差。NNMF的成本函数通常取决于概率分布表2基于ML-1 M数据集的类别得分聚类的聚集多样性群集IDAg-Diversity群集IDAg-Diversity10.993470.9535170.990540.9277120.983800.923150.981020.9221160.974160.910190.9717100.9087110.9580130.889930.956980.8758150.8750140.8581表3ML-1 M数据集基于用户个体多样性得分聚类的聚类聚合多样性。群集IDAg-Diversity群集IDAg-Diversity170.9956140.9702150.992840.960350.9905120.938160.989890.904600.980810.900120.979980.8948160.975870.881430.9748110.8604100.9708130.8582由方程式(5)计算了NNMF算法的误差,其中误差仅为大小矩阵的l~2M N其是从原始矩阵R和见图4。 使用k-means基于项目特征得分的用户聚类。图五. 使用k-means基于个体多样性得分的用户聚类。KUuf:Vfv5N. 亚达夫,S.Anil Kumar Singh et al.沙特国王大学学报6392ð Þ ð Þð Þ ð ÞM¼“XNFT#UX=Vgfi¼Vfv=XUf9其中U和V分别是用户和项目的潜在向量。这里M是用户总数,N是数据集中的项目总数,Ruv是原始评级由用户u给出的项v的值。上述成本函数是凸的关于矩阵U或矩阵V的条目,但不是两者。因此,不可能在找到全局最小值的意义上解决这个问题。然而,许多数值优化方法可以应用于发现局部最小值,所以我们采用梯度下降法来加快收敛速度。用户U和项目V的更新规则是使用梯度下降导出的。定义了多元函数F_(?)a_(?)的梯度下降,并证明了它在点A的邻域内是可微的.因此,对于非常小的学习率(g),它遵循规则b←a-gOfffa那么faPfb。现在U和V的更新规则,分歧如下:“XM不RumXT#用于我们的EST-DR模型训练的输入是聚类对,以及它们对应的用户-项目交互对,它们将根据第4.5节中讨论的模型描述进行处理。对于模型训练,我们需要定义一些用于模型训练的超参数,首先是k值定义聚类的数量。我们设置k¼18我们的模型并检查我们的结果k 1/410。另一超参数是学习率g零点零一分在集群对生成器之后-我们训练我们的模型用于三种预测算法。首先,我们使用(BN-NMF)算法来训练我们的模型,除了BN-NMF之外,我们还使用SVD(BN-SVD)和SVDpp(BN-SVDpp)算法来训练我们的模型,但是从BN-NMF得到的结果已经足够好了。在EST-DR模型中,训练是基于更多样化的用户的集群,这导致了稀疏性。我们严格限制自己,只有那些属于同一个集群或更多样化的集群推荐生成的用户。这可能会导致一些信息丢失,的模型和导致到稀疏性的簇对形成Uuf ¼Uufgufm¼1VfmT简体中文-Vfmm¼1ð6Þ限制了我们的模型搜索相似用户以生成目标用户推荐。为了解释,与传统的Vfv¼Vf vgfvNn1UTRnu中文(简体)N不NFn1ð7Þ基于CF的算法,在从完整的用户集列表中搜索相似用户的同时,将相似用户分簇搜索所以这可能是信息丢失的原因,这些规则用于计算用户和项目潜在因素。用户Uuf的更新规则定义在等式2中。(6)并且在等式(6)中定义项Vfv的更新。其中,guf和gfv是学习速率。我们使用基于发散的成本函数来最小化原始评级矩阵R与从用户和项目潜在因素获得的矩阵之间的差异由方程式(6)、(7)我们将学习率的值设置如下-M我们提出的模型的准确性下降。5. 实验在本节中,描述了用于所提出的算法稍后,性能比较的建议模型与基线推荐模型的报告。推荐模型的基线是格乌夫¼Uuf不FGg¼1ð8Þ在第2.5节中描述。5.1. 数据集N不Gg¼1尽管如此,主要目的是增加算法的多样性,因此算法的训练是诱导多样性的核心部分,我们将在下面的4.6节中讨论。4.6. EST-DR模型训练和建议生成在本节中,我们定义了我们的训练过程的EST-DR模型。我们使用电影,书籍和音乐领域的数据来训练我们的模型。我们首先计算用户-项目交互矩阵,然后分别计算4.1节和4.2节中讨论的每个用户的个体多样性和项目特征得分。在此基础上,我们应用k-means算法的用户聚类的基础上的个体多样性和项目的特征得分。使用个体多样性得分的聚类算法的假设是按照相同的多样性水平对用户进行分组。 对使用项目特征得分的聚类的推测是用户遵循相同的项目特征将在一个组中。每次,我们只使用一个分数进行聚类,以检查哪个分数在多样性方面表现更好。另一个重要的动机是检查内容信息对于推荐的多样化是否重要。一旦我们得到了用户的聚类,之后我们计算算法1中定义的每个聚类的聚合聚类多样性。聚合簇多样性的总体目标被用作基于用户的多样性水平的训练对生成的阈值。每个集群的聚合值只是集群中每个用户的个体多样性得分的平均值。 假设有三个聚类C1、C2和C3,它们的聚合多样性分别为0:988、0:899和0:901,则训练对为C1; C2;C2; C3和C1; C3。所以推荐系统基于用户物品的购买历史和他们的交互历史。在此基础上,它预测最适合用户的项目。因此,这些模型的一个基本需求是一组描述产品的用户项及其反馈。为了证明我们提出的方法的有效性,我们使用ML-1 M1和ML-100 k,2一个已建立的数据集的电影推荐系统,LastFM(2k)3数据集的音乐域和Goodbooks(10 k)4数据集的书域。数据集的统计数据见表4。2(k)和10(k)是数据集中使用的焦距,表示不同用户和交互的数量LastFM(2k)是一个音乐数据集,用于2000个不同用户的音乐收听数据集。类似地,Movielens(100k)是943个不同用户的电影数据集,在数据集中具有100000个用户和电影的交互。对于ML-1 M和ML-100 k数据集,每个电影都标记有类型信息。在这些数据集中,总共有18种不同的类型,每部电影都有不止一种类型的描述,例如类型幻想,科幻描述电影星球大战。在使用我们的方法生成推荐之前,第一步是对原始数据集进行预处理。同样,我们也使用不同的域数据集来提高模型的灵活性,我们使用音乐数据集LastFM。在这个数据集中,有一个播放计数值,它描述了每个用户对特定艺术家的播放总数,而不是评级。作为预处理步骤,我们将播放计数值转换为1至5的评级量表。类似地,在Goodbook数据集中,我们有用户,书籍及其相应的评分,以及每本书的作者和标签信息。对于结果生成,我们需要将每个预处理数据集转换为1https://files.grouplens.org/datasets/movielens/ml-1m
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- 京瓷TASKalfa系列维修手册:安全与操作指南
- 小波变换在视频压缩中的应用
- Microsoft OfficeXP详解:WordXP、ExcelXP和PowerPointXP
- 雀巢在线媒介投放策划:门户网站与广告效果分析
- 用友NC-V56供应链功能升级详解(84页)
- 计算机病毒与防御策略探索
- 企业网NAT技术实践:2022年部署互联网出口策略
- 软件测试面试必备:概念、原则与常见问题解析
- 2022年Windows IIS服务器内外网配置详解与Serv-U FTP服务器安装
- 中国联通:企业级ICT转型与创新实践
- C#图形图像编程深入解析:GDI+与多媒体应用
- Xilinx AXI Interconnect v2.1用户指南
- DIY编程电缆全攻略:接口类型与自制指南
- 电脑维护与硬盘数据恢复指南
- 计算机网络技术专业剖析:人才培养与改革
- 量化多因子指数增强策略:微观视角的实证分析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功