多样性推荐：基于用户建模的电影推荐系统

23 浏览量更新于2023-10-15 收藏 1.1MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

跟踪：ORSUM：在线推荐系统和用户建模研讨会WWW 2018，2018年4月23日至27日，法1381以用户为中心的电影应用领域设计多样性推荐系统米歇尔·扎尼蒂丹麦哥本哈根奥尔堡大学CMImzanit15@student.aau.dk索科尔·科斯塔丹麦哥本哈根奥尔堡大学CMIsok@cmi.aau.dk扬尼克·索伦森丹麦哥本哈根奥尔堡大学CMIjs@cmi.aau.dk摘要推荐系统（RS）已经在互联网上被广泛采用。然而，通过优化以准确性为中心的度量来强调个性化，可能出现过度个性化，对用户体验产生负面影响解决这个问题的一个对策是多样化推荐。在本文中，我们提出了一个解决方案，解决了这个问题的上下文中的电影应用程序域。该解决方案在四个相关维度上增强了多样性，即全球覆盖、局部覆盖、新颖性和冗余性。所提出的解决方案的目的是多样化的用户配置文件，仿照分类偏好，在同一组中的推荐过滤。我们在Movielens数据集上评估了我们的方法，并表明我们的算法与随机选择远邻相比产生了更好的结果，并且与当前最先进的解决方案之一相比表现相当关键词推荐系统;多样性推荐;用户建模;用户聚类;电影推荐;个性化ACM参考格式：Michele Zanitti，Sokol Kosta，and Jannick Sørensen.2018年。一个以用户为中心的电影应用领域多样性设计推荐系统。在WWW '18伴侣：2018年网络会议伴侣，2018年4月23日至27日，法国里昂。ACM，New York，NY，USA，9页。网址：//doi. 沪ICP备11014558号-11引言通过利用用户的偏好，推荐系统（RS）过滤掉不相关的选项，只选择一个个性化的项目的子集。此外，RS旨在促进内容的发现，以利用长尾分布式消费。关于内容过度个性化的问题存在越来越多的关注如果建议仅反映个人偏好，则由此产生的过度个性化可能会对用户满意度产生负面影响[1]。虽然准确性对于用户满意度很重要，但它只是一个因素。一种方法是使针对用户的推荐多样化，使得他们不完全满足他们的偏好[2]：多样化的推荐以不准确为代价，但是可以有助于更好的项目可发现性和对用户意图的多方面解释[3]。本文在知识共享署名4.0国际（CC BY 4.0）许可下发布。作者保留在其个人和公司网站上以适当的归属方式传播作品的权利WWW©2018 IW3C2（国际万维网会议委员会），在知识共享CC BY 4.0许可下发布。ACM ISBN 978-1-4503-5640-4/18/04。https://doi.org/10.1145/3184558.3191580我们的工作提供了以下贡献：i）一个以用户为中心的多元化框架，确定了多样性可以为RS建模的维度。ii）构建了一种新的基于类别的用户模型。iii）我们提出了一种推荐方法，该方法通过设计为电影应用领域实现多样性，其目标是找到不同的用户并从他们的首选类别中推荐项目。本文的组织如下：第2节提出了多样性作为一个理论概念，流行的指标评估质量的多样化算法。第3节全面概述了目前的多样化解决方案。在第4节中，我们描述了我们的贡献：建议的多元化框架和嵌入式多元化的推荐方法在第5节中，我们实现了所提出的方法，并通过寻找不同的用户达到的多样化水平进行评估。为了实现，我们通过使用Movielens数据集来准备数据，该Movielens数据集包含用户评级，结合与电影应用领域相关的评级电影的IMDb元数据。然后，我们比较所提出的方法的基础上随机多样化的用户和一个国家的最先进的方法的基线方法最后，在第6节中，我们讨论了实验评估的结果，并提供了我们未来工作的计划。2背景多样性的概念通常被理解为异质性。根据概念本身的解释，有几种技术可用于量化一组元素的多样性[4- 6 ]。Stirling [6]确定了与多样性相关的三个属性，并提出了一个通用框架，通过考虑元素可分类的类别来分析多样性：品种：存在于一个集合中的类别的数量是多样性的信号，该数量独立于每个集合中的元素。平衡：“是各类别要素分配模式的函数”。这通过要素的相对分布来评估各类别在多大程度上得到平等代表差异：“是指要素可以区分的方式和程度”。该属性评估每个类别的特异性如何能够容易地区分），确定相异度作为多样性的信号。一些作品已经提出了RS多样性的评价指标二项多样性（BD）[7]包括两个参数，用于评估多样性，以最大限度地减少相似项目的出现，并最大限度地增加与用户偏好和项目目录相关的推荐项目范围：覆盖率和冗余度。对于推荐列表L，BD被测量为：跟踪：ORSUM：在线推荐系统和用户建模研讨会WWW 2018，2018年4月23日至27日，法1382·我0否则.BDL=coveraдeLnonRedundancyL，其中coveraдeL可以在用户体验方面局部考虑，也可以在全局考虑，作为推荐器考虑多个项目类别的能力[8]。齐格勒等人将列表内相似性（ILS）定义为集合中的项目对之间的聚合相似性，使得它越低，多样性越高，反之亦然[9]。对于列表L中的所有项目，并且一对项目i和j，ILSL是：ILSL=1。.（i，j）（1）我们参考[13]，其提供了方法和评估度量的更新调查。齐格勒等人主题多样化[9]：该技术被设计为有趣的是，但也许并不令人惊讶的是项目相似性的应用，一个基于内容的度量，以使项目集多样化2i∈L j∈L，j≠i根据Stirling的定义[ 6 ]，我们提出了Ziegler的ILS的适应，该ILS考虑了一对类别的相似性，其中推荐的项目被分配，而不是单个项目。事实上，该度量可以考虑包含在推荐列表中的差异，其通过项目类别的相似性来测量。Murakami等人 [10]将非预期水平定义为推荐项与预期（明显）推荐集的差异。然而，由于该定义适用于单个项目，因此我们对其进行了调整，以考虑项目类别方面的用户配置文件。在本文的其余部分中，考虑到用户u的预期推荐类别Cu，我们定义推荐集L的非预期水平，如下所示：Vargas等人二项式多样性[7]：Vargas等人没有使用项目相似性。提出了一个定义的多样性，包括体裁覆盖率，体裁冗余和推荐列表的大小意识。尽管如此，由于它是通过对初始推荐进行重新排名来工作的，因此它属于后过滤方法。这里，有趣的是，该技术如何不仅考虑相似性，而且考虑覆盖率和冗余度来接近多样性：通过与所有流派相比较，找到推荐集中存在的流派，同时考虑到用户本身对某些流派具有偏好，因此一些流派比其他流派更相关，来实现覆盖。冗余度依次被定义为项目集中每个流派的频率。因此，所得到的方法旨在最大化考虑用户偏好的类型的覆盖，同时减少冗余类型[7]。ClusDiv[14]使用聚类对目录中的项目进行分组意外L = |Cu\CL||Cu|（二）从显式评分而不是项目描述（尽管这不是必要的先决条件），并从其中，推荐列表的项目类别是CL，其中每个项目被分配，并且除了针对用户已经体验的项目之外，类似地定义CU最后，我们制定了一个指标，用于估计获得的冗余度与一个给定的用户的建议列表中的项目属于同一类别的金额。我们主张-如果相似性不同的集群。与[9]等重新排序方法相比，使用项目聚类的结果更快，并获得了类似的多样化结果。作者采用k-Means作为聚类方法来生成聚类，这些聚类随后用于创建用户到聚类的权重矩阵。然而，由于它采用预先计算的推荐列表，因此它是一种后过滤方法。Neighbor Diversification[15]建议检索一组不同的类之间的关系如下：sim（C，c）=. 1Ci=c。用户，通过使用明确的评级，到一个活跃的用户;建议在这种情况下，所提出的度量仅考虑由u覆盖的类别Cu，其是预期的类别，并且对于推荐列表，同时考虑目录覆盖面、新颖性和准确性。一个意想不到的（也许是偶然的）发现是，在精确度和召回率方面，随着用户多样性阈值的增加，准确度水平不会下降，并且在某些情况下会下降。1 .一、冗余L，u=sim（Ci，c）（3）也增加，从而表明准确性之间的权衡2i∈L，Ci∈Cn∩CLc∈Cn其中，冗余度是相对于建议列表的每个覆盖类别的类别ILS L。3相关工作RS文献根据实现的水平区分了多样化方法的两种范式，即多样性建模和后过滤方法[11]。以前的解决方案旨在通过在提取一组推荐之前组合多样化标准来增强过滤步骤。相反，后过滤方法在过滤步骤之后通过重新排序策略处理候选项集合，以提取满足指定多样化和质量标准的子集[12]。Castells等人 [8]通过对评价指标的广泛调查，但对多样化方法的有限概述，提供了对多样化的统一理解。因此，我们认为，当考虑项目时，多样性可以保持，但是当考虑用户时，其他因素开始起作用XploDiv[16]采用Stirling的定义来表明平衡影响相关性和多样性之间的权衡，并且已经设计了一种新颖的多样化方法来处理权衡和用户的开放性倾向（探索新项目或利用她的偏好）。控制这两个权衡的参数是可调的和动态学习的，以允许对利用或探索多样性的细粒度控制与之前的方法不同，XploDiv被设计为后过滤方法，并且需要一组推荐项。4一种新颖的多样化框架鉴于所提出的指标侧重于评估推荐列表多样性的特定方面，我们统一了这些方面并提出以用户为中心的概念多元化框架然后从这些遥远的邻居中提取多样性是一种评价--跟踪：ORSUM：在线推荐系统和用户建模研讨会WWW 2018，2018年4月23日至27日，法1383图1：拟议的以用户为中心的多样化框架：每个小圆圈指的是基于类别的优选的大小（小：低偏好，参见左上角）;从中心开始的三个大圆圈指的是所处理的分集特性（全局覆盖、冗余、局部覆盖和新颖性）。（图1）建立在四个一般维度之上，其中可以控制和评估个体用户的多样性，即：局部覆盖、全局覆盖、冗余（等式3）和新性（等式2）。我们调整Stirling的定义[ 6 ]，以适应用户作为类别混合物的概念，并且项目的类别具有不同的权重，因为RS中的个性化和用户偏好（显式或隐式）的概念与原始定义同等重要地对待类别的多样性相冲突。特别是，用户偏好无疑会与平衡属性相冲突，而平衡属性则假设“平衡越均匀，多样性越大”[ 6 ]。因此，多样性定义的宽松版本将允许调整特定用户的个性化水平（在平衡方面），与她的偏好有关，同时由于其他属性（多样性和差异）而保持可接受的异质性水平。由于第3节中提出的大多数方法都属于后过滤类别，因此我们提出了一种与推荐过滤紧密耦合的多样化技术，因此与后过滤方法相比，可以将其制定为多样性建模。事实上，后过滤方法需要一组初始的候选推荐作为要多样化的输入这类方法依赖于集合，具有要求集合已经多样化的缺点这一步被其他类别的方法绕过，这可以说允许对多样化产出进行更大的控制我们的多样性建模方法背后的理性的高层次描绘在图2中可视化。我们建议利用项目的类别作为建模用户偏好的一种方式，然后，通过为活跃用户选择远邻来计算推荐列表。此外，为了在邻居过滤中保持基线水平的准确性，我们建议将用户分组在一起：图2：建议的多样化方法：过滤同一用户群中的远邻（橙色点）。当用户在同一个集群内时，只检索距离较远的用户，而过滤掉最近的邻居虽然检索最相似的用户可能是有益的系统的准确性，我们认为，提供建议，从遥远的用户可能会增加的可能性，项目是不同的，因此，偶然遇到新的项目的机会多样化的用户将通过允许来自不同类型的项目的体验的更多机会来帮助减少偏好极化。作为第一个想法，该方法将检索来自同一个集群的遥远的邻居，因为我们预计，基线组内相似性可以是一个阈值，考虑共同的喜好，因此，准确性与多样性的权衡，使用户可能不会完全不同。重要的是要记住，多样性被应用于个体活动用户简档;因此，我们考虑用户偏好和其他用户偏好之间的权衡可能出现的五个维度：邻居距离：准确度与分集的权衡由活动用户与同一组中的其他用户之间的成对分集来控制。因此，检索到的用户的多样性类别的多样性（全球覆盖）：应该出现在推荐列表中的类别的数量（不考虑它们的差异或对用户配置文件的新颖性）取决于所需推荐列表的长度，并且应该被控制以确保不会出现太多或太少的类别。通过控制类别的多样性，用户将有机会导航具有属于许多或少数类别的项目的推荐列表，因此，它也可以被理解为全局覆盖的属性。此外，多样性隐含地控制着类别差异，因为类别的多样性越低，差异越小，这似乎是合理的，反之亦然。类别的差异（新颖性和局部覆盖）：类别的异质性是活跃用户和遥远邻居的新颖性与局部覆盖权衡的结果跟踪：ORSUM：在线推荐系统和用户建模研讨会WWW 2018，2018年4月23日至27日，法1384项目的多样性：类似于选择推荐列表的类别的数量，项目的多样性考虑在列表中显示多少项目项目的多样性与类别的多样性成比例，随着类别数量的增加，项目的数量也应该增加。就列表大小而言，项目的多样性已被公认会影响推荐集的覆盖率和冗余度[7]。事实上，从与期望列表长度成比例的多个类别生成推荐（即，对于短名单，类别较少，反之亦然）;因此，建议相应地控制类别的种类。项目建议列表平衡（冗余）：最后的权衡由属于同一类别的项目数量控制，这些项目应该出现在最终的建议列表中。这种权衡是在平衡和冗余之间进行的，以控制每个类别的可见性;冗余越大，属于同一类别的项目就越多，反之亦然。设计技术的灵感来自杨等人。[15 ]第10段。然而，所提出的方法不同于i）在[15]中，通过最大化活跃用户与邻域中的用户之间的重要性来产生邻域，并且随后选择邻域。所提出的方法，而不是包括一个额外的步骤，用户组的形成，它认为在同一组内的用户之间的基线相似性。ii）在[15]中，计算两个用户之间的重要性以考虑由可调参数控制的准确度-分集权衡。所提出的方法提取同一组内的用户，并使用类似的方法，它控制的相似性与多样性的权衡。iii）[15]中说明的技术仅利用评级数据集，而我们同时利用评级和元数据。iv）在[15]中，目标是预测活跃用户未看到的项目的评分，而在这里，评分是对用户偏好进行分类的起点然而，在所提出的方法中可以存在附加的步骤，以预测活动用户的某个类别的相关性，给定用户和远程用户之间的相似性以及对他们的类别的偏好v）然而，主要的区别在于用户偏好的分类（除了用户组的创建），不包括在[15]中。4.1预处理模块我们设计了特征提取模块，将用户和项目配置文件转换为适合推荐过程的结构：项目分类、基于用户类别的用户特征建模和用户群体形成。4.1.1项目类别建设。推荐预处理方法的第一步应用多样性定义的视觉来组成项目类别的分类法（图3）。我们建议使用LSA方法[17]作为项目聚类分析的初步步骤，以基于原始提取的特征找到潜在相似性：计算特征发生矩阵，然后变换TF-IDF（对文档d中包含的项t进行操作的加权方案，属于文档D的集合）以找到潜在的无偏特征子集并计算他们的相关性得分图3：项目类别构造。图4：对基于类别的用户配置文件进行建模。每个项目。其次，检查项目配置文件的维度，并应用奇异值分解来降低数据集的维度，以提取潜在的特征，项目进行比较。根据相似性/距离度量、聚类算法和期望聚类的数量的标准，对因子化的项目简档执行聚类分析;具体地，聚类的数量从属于定性和定量分析，以便限制冗余聚类的创建（即，在单独的集群中具有类似的项目），这也可以是高度专门化的并且是过拟合的潜在原因。因此，创建了项目类别，并相应地标记了每个项目4.1.2基于类别的用户偏好建模。根据项目类别对用户简档进行我们根据用户的平均评分和个体阈值τ提取个体用户的正面评分，以消除不同评分尺度的偏差。这个模型假设，评级是明确的，然而，我们认为，同样的论点也可以适用于隐式评级。图4示出了使用先前预处理模块的输出作为输入来对用户偏好进行建模并提取基于类别的用户简档的过程两个矩阵用于此目的：R，包含用户u对项目i的正评级，以及聚类矩阵C，布尔项目i到聚类c关联矩阵。用户u的简档用矩阵Pu，c来构造，其中c是项目的集群（或类别），并且偏好矩阵的每个元素定义如下：从初步用户简档中，提取被分配有正面评级的项目的类别，并且简档最初用每个类别原始频率（等式（1）的分子）来编码。4）. 然后，将每个用户简档除以所经历的类别的数量。通过将原始类别频率变换成它们与用户简档的比例，使用简档比例，相对于经历更多类别的用户和具有更集中兴趣的用户的差异可以更具有可比性。跟踪：ORSUM：在线推荐系统和用户建模研讨会WWW 2018，2018年4月23日至27日，法1385·.Σ·|∈.Σ·|0，∈，∈是评分的项目集合.Σ·|∈--图5：用户聚类过程。而不是原始频率和平均收视率。图6：详细的多元化过程4.2.2远邻形成：准确性VS多样性。这是多样化过程的关键步骤，因为它涉及对同一集群内的用户之间的多样性的控制（图6），并且可以说，涉及对推荐的P=.i∈Iu，cCi，c，其中：（4）数据列表多样性。中最显著不同的用户乌角cc∈C .i∈Iu u，cCi，c相同的集群被过滤，而不是最近的邻居，根据-进入等式5。因此，我们希望项目的类别Iuτ=i ru，iτ，ru，iRu是由u正评级的项目的集合;• Ru是用户u的评级集合 ;=iCi，c≠我Iuτ CC由u，属于c类;Cu=c Ci，c≠ 0，c C，iIuτ 是u具有经验的类别的集合;Ci，c表示在阈值τ以上的评级中每个项目的类别的出现。4.1.3用户群的形成。我们假设用户可以根据他们相似的偏好形成组，否则协同过滤将是不可能的。此外，通过对用户进行聚类，可以保证与活动用户的基本相似性，这也定义了推荐相关性的隐式度量因此，通过接收基于类别的用户简档建模过程的输出，步骤在图5中示出。类似于项目分类，该过程将LSA [17]中使用的TFIDF的变体应用于基于类别的配置文件，即CFIUF（类别频率，逆用户频率），旨在通过对每个用户的类别得分进行加权来对用户的相似性进行建模。随后，归一化的CFIUF加权的用户配置文件用于聚类分析，其方法与项目分类过程相同。结果，创建了用户组，并且可以详细解释推荐过程4.2多样化模块我们将多样化过程分为两个主要步骤，这需要活跃用户的存在：（1）活跃用户到她的基于类别的配置文件的转换;和（2）形成遥远的邻居。4.2.1活动用户简档建模和分类。此模块是必需的，因为活动用户配置文件预期包含每个消费项目的原始评级。这里，在前一部分中描述的预处理模块的作用是将活动用户简档转换成基于类别的简档。一旦活动用户已经被转换成CFIUF加权简档，则通过选择最近的聚类来实现对用户组的分类，该最近的聚类可以使用聚类上的k-N最近邻居来计算。来自远方用户的推荐将看起来与活动用户不同，但不是完全不同（因为推荐的先决条件仍然是对活动用户偏好准确为了控制邻居多样化，我们引入了一个外部参数α来确定成对多样性的重要性，类似于[15]。对于给定用户和属于同一集群c的另一用户u，分集重要性s计算如下：s（u，v）=（1−α）·（ 1−d（u，v））+α·（d（u，v）），（5）其中，分集与α的增长成比例，因此，α越大，分集越大; d（u，v）是活动用户u和用户v之间的距离;并且（1 α）和α分别控制两个用户之间的相似性和距离权衡。因此，提取k个最重要的用户，使得用户u和v之间的重要性被最大化为：V=arдmaxv∈V（s（u，v））（6）其中，V，远邻的集合，是最大化多样化重要性的结果5执行和评价在这里，我们解决了项目分类和用户配置文件建模，我们完成提供的实验设置，以衡量通过提取遥远的邻居达到的多样化水平。我们假设项目可以形成或多或少同质的类别，用户可以根据这样的类别进行聚类，最后，在相同的clus-ters内的远程用户的选择可以满足准确性与多样性的权衡。5.1特征工程和数据准备作为此过程的结果，初始用户和项目配置文件被建模，并准备在第二阶段根据以下内容进行预处理完整的推荐程序。我们将所提出的多样化方法应用于由GroupLensResearch维护的小型Movielens数据集[18]，该数据集为671名用户提供了9125部电影的约10万个明确评级。与此数据集一起，我们从IMDb1中提取元数据来描述分类步骤的项目。1元数据已从www.example.com上的可用界面中提取http://www.imdb.com/interfaces/。跟踪：ORSUM：在线推荐系统和用户建模研讨会WWW 2018，2018年4月23日至27日，法1386图7：Movielens长尾分布。每个用户54321全局评级密度5.04.54.03.53.02.52.01.5平均评级分布1210864201002003004005006007000位用户ID每用户5.04.54.03.53.02.52.01.5意味图9：从IMDb检索的电影类型5.1.2从IMDb元数据表征电影为了提供具有基于内容的简档的项目而不依赖于评级，我们提取了描述性元数据（演员、公司、国家、导演、导演、演员、演员、导演、导演、演员、演员、导演、演员、导演、演员、演员、导演、演员、演员、导演、导演、演员、导演、演员、演员、导演、导演、演员、导演、导演、演员、导演、图8：Movielens评级模式分布。5.1.1在Movielens中表征用户评级我们分析Movielens数据集，以发现评级分布，流行性偏差和评级量表的差异，以区分热情和苛刻的用户。因此，我们选择了个人评级阈值来考虑积极的偏好。用户对电影的评分明显是长尾分布，图7更好地描述了这一点：大多数人对500部电影的评分都不到。图8通过全局评级密度和平均评级分布描绘了各个评级模式一般来说，个人平均值在3.5和4（在评级量表中）附近趋于更紧凑，用户倾向于给出高评级，但较低和较高平均值的存在表明并清楚地证明了用户具有不同的评级行为。不同评级量表的存在也得到了[19]的支持，并通过对评级量表粒度影响进行的分析得到了加强[20]。此外，我们发现了用户在对电影进行评级时坚持的主观尺度的存在[21]：由于偏好是主观的，我们需要标准化评级，以便消除个人偏见，从而客观地比较评级尺度，并最终提取积极的偏好。我们选择z分数标准化[21]来转换个人评级并仅提取积极的评级，因为我们假设积极的偏好只是高于个人平均水平的偏好。然而，这种方法仍然忽略了仅具有高评级的用户的偏好。因此，我们将低标准和高标准用户的阈值区分如下：流派、关键字、语言、作曲家、发行日期、作家），使用在Movielens中评级的电影的标识符。我们注意到，存在戏剧和喜剧类型的流行，其存在于约一半的提取的电影中，其次是惊悚片和浪漫片，存在于约20%的电影中，如类型检查所示，图9。我们还稳定了数据集，因为它在提取2之后呈现缺失值：(1) 从IMDb格式转换发布日期，仅显示发布年份，包括发布的国家、日期和月份。对于没有IMDb发布日期的电影，使用Movielens数据集中给出的发布日期。(2) 使用来自受影响电影的第一出现流派的常见实例来填充缺失的关键词，并确定相关性阈值。(3) 使用具有这些功能的电影中的常见实例保留剩余的缺失特征。5.2项目分类对于这项任务，我们从完整的Movielens数据集中抽取了至少3个评级和至少3个平均评级的电影然后，我们按照图3中描述的过程提取元数据。表1列出了项目分类中使用的参数。5.3用户组形成与我们如何实现项目分类过程类似，我们通过考虑采样的电影，根据等式4和下面的图4和图5对用户偏好进行建模;因此，高于单个阈值的评级数量占τu=.µu′i f µu4<（七）55416出82600为3685电影考虑。对于这项任务，4i f µu≥ 4，其中μu是标准化之前u的平均评级，使得阈值可以假设值4，其中平均值等于或小于4，并且对于其他用户，μu’（作为标准化之后的平均评级，其使用的参数列于表2中。我们选择层次聚类和评估的最佳集群的数量如下2我们执行稳定化过程，观察到缺少特征不能被天真地解释为错误（例如，纪录片缺乏演员阵容是由于通常不需要演员阵容的事实）。用户数平均难度等级计数评定量表跟踪：ORSUM：在线推荐系统和用户建模研讨会WWW 2018，2018年4月23日至27日，法1387df（t）----表1：用于项目分类的参数和方法项目分类参数值#电影3685TFIDF公式f（t，D）·log |D|+1最小文档频率2最大文档频率90%k奇异值（SVD）500因为它可以容易地集成在重要性分数公式中，这需要相似性和距离两者，并且更重要的是，因为欧几里德距离不具有相反的度量来计算相似性。然后，我们根据等式6检索前K个近邻。最后，我们根据以下方法评估所提出的多元化方法（N）：RANDN，在整个用户空间中随机提取邻居的基线方法。• FULLN，提取全用户空间中的邻居如下：距离度量归一化欧氏Ward凝聚聚类算法#集群43表2：用于用户组形成的参数和方法用户组形成参数值# ratings aboveτ55461用户数671TFIDF公式f（t，D）·log|D|下式5。DNCF，来自[15]的现有技术方法，其从活动用户的集群中提取远距离邻居来自[15]的FULLDNCF，从完整的用户空间中提取遥远的邻居。根据假设，我们预期用户多样性可以通过等式5来控制，考虑到在该阶段的评估仅允许测量远距离邻居的多样性并达到实际推荐，需要不同的实验过程。我们期待的多样性距离度量df（t）+1归一化欧几里得测试用户的远邻居与α成正比。此外，由于远邻居是从相同的邻居中选择的。Ward凝聚聚类算法#项目类别43#集群15合并高度肘曲线图，在组应该允许一定水平的异质性的标准下，因为集群大小隐含地控制用户多样化。对于多样化的工作方法，我们表现出一个集群的解决方案，既不会形成太具体，也不太通用的用户组搜索5.4多元化评估为了理解通过用户聚类和远距离邻域形成所达到的多样化，我们设置了以下实验评估。具体来说，我们的目标是量化我们提出的方法如何回答以下假设：该方法可以调整在相同的集群内的用户之间的多样化，因此，控制用户相似性和距离之间的权衡。该方法的表现优于基线多样化的方法，如随机多样化。• 该方法与[15]的状态相当集群，我们还期望i）所得到的分集不像随机邻域形成那样高，以及ii）比从完整用户空间提取的远邻居5.4.2评价程序设置。我们对用户数据集进行了拆分，以便80%的用户用于训练算法，学习用户偏好类别并形成用户集群。剩下的20%的用户被保留在测试阶段。我们使用建立在项目类别上的用户配置文件进行实验。关于分散参数α，我们研究了所提出的方法的值的行为：α = 0，0。2，0。四，零。6，0。八，一。值的范围分别从0（传统的基于相似性的邻居形成，预期的低异质性）到变化的多样化（预期的低到高异质性）和1（其中选择最远的用户，具有预期的高异质性）我们还研究了邻居的大小与k = 5，10，15顶部K邻居上产生的多样性的效果对于评估度量，我们采用来自[15]的ISS度量，将用户对之间的不相似性视为相似性的补充。此后，ISS度量被认为是组内分集度量（ISD），并且对于活动用户u的邻居集合Vu内的用户如下计算： .v，ıw∈Vıu，ıv≠wıd（v，w）艺术多样化方法。• 使用聚类的邻居提取产生较低的ISDVu=2ıVuı·（ıVuı−1）（八）最大化产生的多样性比没有（即完整的用户空间）。5.4.1远邻区形成的评价。Movielens的用户数据集需要一个训练阶段和一个测试阶段来进行离线评估。在训练阶段，我们使用表2中列出的参数对用户进行聚类。接下来，我们对在训练阶段创建的集群上的测试用户配置文件进行分类，通过对最接近的11个用户执行kNN来确定合适的集群。最后，对于每个分类的测试用户，针对不同的α值形成远距离近邻，其中等式5关于余弦距离以找到显著性分数。的余弦距离5.4.3用户多样化方法的实证结果和分析。实验的结果可以在图10中检查。 X轴表示已经进行用户多样化的值。在y轴上，产生所得的ISD分数，并且其表示针对所提出的方法N的用户的总体多样性，连同FULLN、DNCF和FULLDNCF方法以及基线RANDN方法的结果，所述基线RANDN方法用作分析的锚定测量。考虑到不同邻域大小（5、 10、 15）的重要邻域，对每条曲线进行·····跟踪：ORSUM：在线推荐系统和用户建模研讨会WWW 2018，2018年4月23日至27日，法1388≥不超过∼∼∼产品介绍图10：在全用户空间变量（FULLN）上提出的方法（N）、随机化方法（RANDN）和在α的增加值上基于远距离邻居的协作滤波（DNCF、FULLDNCF）的集合内分集比较。可以注意到从相同聚类（N）提取的远邻居的一般趋势：所提出的方法N示出了从低到高多样性的渐增趋势，其随着邻域大小的增加而趋于平滑。此外，对于N，ISD范围如预期的那样变化（在0. 25和0。对于k=5个邻居为52相反，FULLN方法的ISD范围更宽（介于0的情况。3和0。8，k=5）。令人惊讶的是，多样化水平确实如此并非如预期的那样是偶然的：不是遵循平滑曲线，而是多样性的变化是适度突然的，特别是对于k = 5。特别地，在α=0之间似乎存在不连续性。4，α = 0。6，这导致了这种趋势（对于N和FULLN两者），因为具有较小和较大的α，ISD不捕获邻居分集中的其他变化。此行为可归因于等式5，其控制活动用户的邻居提取：使用当前公式，所提取的邻居对于α 0是相同的。4和α0。6，因此，ISD分数不变化。另一方面，RANDN的结果看起来更恒定（ISD分数在0. 64）比N和FULLN，随着多样化水平的增加，多样性和矛盾的结果变化较小，产生了最初下降的ISD，在完全多样化（α= 1）时增加。使用DNCF和FULLDNCF方法，ISD评分更一致且变化更大，范围从 0. 26 比 0 DNCF 为 7 ， 0 。三比零。 9 为FULLDNCF。与N相比，DNCF在α=0时也产生相同的ISD评分，而在最大多样性（α = 1）时，结果显示ISD评分的可见变化：而N达到的最大ISD评分为0。55，占0。7为DNCF 。FULLN和FULLDNCF方法也以类似的方式执行（FULLDNCF具有更大的最大ISD 0。9与0相比8个FULLN）。该实验的结果表明更好地对相似性与多样性权衡（等式5）进行建模，以去除影响ISD分数的明显不连续性。尽管如此，我们可以确认关于多元化水平与所达到的多元化之间的比例的假设，这表明在本工作的下一阶段，建议的簇内邻居多样化可能值得考虑此外，关于相同集群内的远邻的增加的多样化水平的假设在相同集群中的任何一对用户之间的最大相异性的程度上是有效的：由于相同组内的用户共享理论基线相似性，因此也考虑到组大小，期望ISD分数的恒定增量将是不合理的。为了支持这种说法，使用用户集群的方法（N和DNCF）的最大ISD分数低于在全用户空间上操作的FULLN和FULLDNCF的分数。如图10所示，ISD分数受用户集群的影响： N 和 DNCF （集群内）的ISD低于FULLN和FULLDNCF的分数，FULLN和FULLDNCF在整个用户空间上运行，符合我们的最后一个假设。6结论和今后的工作在本文中，我们提出了一个以用户为中心的概念框架来控制个人用户的推荐多样性，考虑相关方面来评估个人偏好。因此，我们定义的四个属性的基础上的多样性：本地覆盖（熟悉当前的喜好），全球覆盖（系统的能力，以涵盖项目目录），新颖性（unfamiliarity与当前的喜好）和冗余（类似的项目的数量）。根据建议的框架，我们随后开发了一个多样化的程序，可以通过设计纳入推荐过滤之前提取的项目。我们开发了一个基于LSA的用户建模，它基于最喜欢的项目的类别（参见图4）。然后，我们将相似用户的组进行聚类，以允许每个组成员的偏好之间的基线准确性。我们通过采用ISD度量[15]评估了我们关于活跃用户的邻居多样化的方法，并证明了通过调整保持用户的多样性水平，可以提取不同的邻居（对于所提出的和最先进的方法），从中我们可以获得推荐列表。然而，等式5的限制，特别是采用简单的相似性与多样性权衡，是针对多样化水平α 0总是提取相同用户的主要原因。4和α 0。6，即使ISD分数与现有技术方法类似地变化（图10）。由于我们只测试了远距离邻居的多样化，我们将追求完整的推荐过程，并测试我们的方法如何在推荐质量方面影响用户满意度。此外，对偏好建模和邻居显著性公式的限制表明了未来优化的领域此外，我们将设计一个更好的项目cat-egorization过程，包括或删除特定的元数据，并根据它的个人或聚合元数据。最后，我们将扩展我们的框架与上下文因素（用户偏好，时间和位置的时间变化），因为多样性寻求行为背后的动机包括内部和外部因素[22]。为此，我们将在Movielens以外的其他数据集上测试我们的框架和方法，并结合在线实验。跟踪：ORSUM：在线推荐系统和用户建模研讨会WWW 2018，2018年4月23日至27日，法1389引用[1] T. T. Nguyen，P.-M. Hui，F.M. 哈珀湖Terveen和J.A. Konstan，“Exploring thefilter bubble”，in Proceedings of the 23rd international conference on Worldwide web - WWW '14. New York ， New York ， USA ： ACM Press ，2014 ， pp.677-686 [ 联机 ] 。可用网址： http://dl.acm.org/citation.cfm?2566486.2568012[2] J. L. Herlocker ， J. A. 康斯坦湖 G. Terveen 和 J. T. Riedl ， “Evaluatingcollaborativefilteringrecommendersystems”，ACMTransactionsonInformationSystems，vol.号 22 第 1 页。 5[ 联机 ] 。可用网址： http://portal.acm.org/citation.cfm ？doid=963770.963772[3] S. M. McNee ， J.Riedl 和 J.A. Konstan， “Being accurate is not enough ， ”inCHI '06 extended abstracts on Human factors in computing systems - CHIEA '06 ， 2006 ， p. 1097. [ 联机 ] 。可用网址： http://dl.acm.org/citation.cfm?1125451.1125659[4] K. Nehring和C.Puppe，70，不。第3页。1155[联机]。可通过以下网址获得：http://doi.wiley.com/10.1111/1468-0262。 00321[5] K. JUNGE，“关于多样性测量的想法的多样性”，《斯堪的纳维亚心理学杂志》，第35卷，第10期。第1页。16-26，3 1994. [联机]。可用网址：http://doi.wiley.com/10.1111/j.1467-9450.1994.tb00929.x[6] A. Stirling，“Ageneralframeworkforanalyzingdiversityinscience，technologyandsociety，”JournalofTheRoyalSocietyInterface，vol. 号42007年15日[联机]。可用网址：http://rsif.royalsocietypublishing.org/content/4/15/707[7] S. 巴尔加斯湖Baltrunas，A.Karatzoglou和P.Castells，“Coverage，redundancyand size-awareness in genre diversity for recommender systems”，Proceedingsof the 8th ACM Conference on RecSys’14。New Yor

下载后可阅读完整内容，剩余1页未读，立即下载