异构网络中多关系推荐模型及混合推荐系统的研究进展

88 浏览量更新于2023-12-04 收藏 1.25MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

→+Ⓧ异构网络中的多关系推荐Fateemeh Vahedian，Robin Burke和Bamshad Mobasher，DePaul大学15推荐系统是个性化信息搜索环境中的关键组成部分。然而，推荐的主要框架基本上是二维的，用户和项目之间的在许多情况下，例如社交网络，用户和项目被连接在一个复杂的关系网络中，而不容易被简化为单个值。最近的多关系推荐方法集中在用户和项目可能参与的直接的、邻近的关系上。我们的方法使用复杂的异构网络的框架来表示这样的推荐问题。我们提出了加权混合低维路由器（WHyLDR）推荐模型，它使用扩展关系，表示为约束网络路径，以有效地增加直接关系。该模型综合了网络中远端连接和近端连接的影响WHyLDR方法提出了组件无约束扩散的问题，这些组件是从不断扩展的网络路径构建的。我们发现，虽然组件的效用是不严格单调的路径长度，信息增益的基础上的措施可以有效地修剪和优化这样的混合动力车。CCS概念：信息系统社会推荐;个性化;协作过滤;社交网络;社会标签;附加关键词和短语：多关系推荐系统，混合推荐系统，异构信息网络，元路径，信息增益ACM参考格式：Fatemeh Vahedian，Robin Burke，and Bamshad Mobasher.2017年。异构网络中的多关系推荐ACM Trans.Web 11，3，Article 15（June 2017），34 pages.DOI：http://dx.doi.org/10.1145/30549521. 介绍诸如Twitter、Facebook和Flickr之类的社交网络已经成为大型复杂网络。在这些环境中，用户寻求寻找新信息，个性化信息访问是一个优先事项。此外，其他信息访问环境通过开放数据计划和API越来越多地与各种信息源相关联推荐，即个性化地提供项目和信息，是这些大规模信息生态系统的关键问题。这样的环境提供了大量的数据，推荐可以基于这些数据。然而，这些信息及其相关的复杂性给推荐系统带来了两个挑战：（1）将各种各样的数据有效地集成到推荐框架中的问题，以及（2）由于存在各种各样的项目而对许多潜在的推荐任务做出响应的问题。这项工作得到了美国国家科学基金会IIS-1423368（复杂异构网络中的多维推荐）的部分支持。作者瓦赫迪安河Burke，and B.Mobasher，DePaul大学网络智能中心，243S。Wabash Avenue，Chicago，IL 60604;电子邮件：{fvahedia，rburke，mobasher}@ cs.depaul.edu。允许制作部分或全部本作品的数字或硬拷贝供个人或课堂使用，不收取任何费用，前提是复制品不以营利或商业利益为目的制作或分发，并且复制品在第一页或显示器的初始屏幕上显示此通知以及完整的引用。本作品的版权归ACM以外的其他人所有，必须予以尊重。允许使用学分进行摘要复制，再版，张贴在服务器上，再分发到列表，或在其他作品中使用本作品的任何组成部分，需要事先特定的许可和/或费用。可向出版部索取，ACM，Inc.2 Penn Plaza ， Suite 701 ， New York ， NY 10121-0701 USA ，传真： 1 （ 212 ） 869-0481 ，或permissions@acm.org。c 2017 ACM 1559-1131/2017/06-ART15 $15.00DOI：http://dx.doi.org/10.1145/3054952ACM Transactions on the Web，卷。号113、第十五条，公布日期：2017年6月十五F. Vahedian等人−−→主要的，矩阵完成，推荐模型是不匹配的多目标推荐和信息多样性的孪生问题多目标问题将推荐任务从寻找单个类别的个性化推荐改变为寻找跨互连空间的许多类型的项目的推荐多样性的信息关系的存在提高了使用这种众多的关系，以打击数据稀疏性的问题的机会，但也面临着找到一个统一的技术，将这些关系整合到推荐计算的挑战。混合推荐是将多个信息源合并到推荐系统中的问题的众所周知的解决方案[Burke2002]。然而，社交媒体网络的复杂性和多变性使得单一的混合解决方案不太可能在所有情况下都有效所需要的是一个灵活的框架，在其中一个家庭的混合动力车可以表示和应用到不同的推荐问题。针对多目标推荐和信息异构性问题，设计了低维加权混合推荐方法（WHyLDR）这种方法建立在我们早期为社交标签系统构建加权混合体的工作基础上[Gemmell et al. 2012;Burke and Vahedian 2013; Burke et al. 2014;Vahedian and Burke 2014;Vahedian2014]。基本思想是构建一个简单推荐组件的集合，每个组件代表数据中的不同关系。我们将推荐组件组合在一个加权的混合体中，并使用优化来学习最佳权重。在社交标记数据的情况下，关系是数据中用户、资源和标记维度的各种组合。我们能够在先前的工作中表明，这种混合动力优于最先进的因子化模型（例如，张量因子分解）和支持多目标推荐通过重新学习的组件权重。WHyLDR的出发点是将用户和项目数据组织成一个复杂的异构网络[Sun and Han2012]。与由统一节点和边组成的同构网络相比，异构网络的特征在于不同类型的项和关系。例如，计算机科学中的DBLP出版物数据集可以表示为异构网络，其中节点是作者，论文和这些论文发表的地点。这些对象之间的许多类型的关系可以被认为是边。图1显示了这样一个发布网络的一个片段作者N.H.、R.B.、B.M.等与他们所写的论文P1、P2和P3相关联。这些论文依次与论文P4、P5和P6相关联，这些论文以引文形式出现在这些文件中。这些论文还与发表论文的各种场所（会议和期刊）有关。异构网络中的各种关系支持不同的推荐任务。例如，在DBLP网络中，可以考虑几种不同的可能性：- 给定一份文件，建议提交文件的地点- 给一个作者，推荐一个他或她可能考虑出版的地方- 给定一篇论文，推荐其中可能需要的额外引用- 给出一篇论文，推荐共同作者/合作者。在每种情况下，都有一个目标关系表示要进行的预测。这有时（但不总是）与为网络推荐边缘相同。例如，当任务是引用推荐时，目标关系这篇论文被引用了纸的关系但是，当推荐任务是ACM Transactions on the Web，卷。号113、第十五条，公布日期：2017年6月异构网络十五−−−−−−−→venue.- -- -Fig. 1.一个出版网络的碎片。地点推荐任务，关系由多个边组成：作者写道：论文发表于−−−→正如这个例子所示，关系的组合可以被看作是网络中边的遍历，从一个节点类型到另一个节点类型，跨越特定的边类别。在异构网络理论中，具有该属性的路径集合是已知的作为超能力者例如，使用作者写的论文发表于我们的Metapath，我们可以从一个特定的作者开始，例如m−p−l−e→R。B，d−a−r−r−iv−e−a→t，则ee t包含他出版过的所有场所：IJCAI，UMAP，CIKM。在所有的用户中，这种元路径诱导出一种关系，在这种关系中，每个作者都与他或她的出版物的地点集相关联虽然异构网络在形式上是一个有向网络，我们发现它是有用的，象征性的和实际的，把它作为一个无向的，并创建元路径，遍历任何方向的边缘。这相当于为每种边类型隐式添加了一个逆关系：将一篇论文连接到它出现的地点的因此，前面讨论的元路径将被写为author papervenue，缩写为apv。元路径可以是任意长度和组成，只要它们描述一个在网络架构上不间断地漫游例如，另一个作者-地点关系可以通过查看共同作者已经发表的地点来组成：具有四个元边的元路径：作者论文作者论文目录或apapv。在最近邻推荐中，我们可以区分基于用户的推荐和基于项目的算法：基于用户的算法比较用户简档以从对等用户推断评级，而基于项目的算法构建项目简档以构建类似的对等邻域。使用元路径，我们可以构建各种类型的配置文件例如，在DBLP网络中，可以基于不同的元路径生成作者简档直接作者-论文边缘让我们用术语来描述作者ACM Transactions on the Web，卷。号113、第十五条，公布日期：2017年6月十五F. Vahedian等人- -- -- -- −他或她所写的文章如果将路径扩展到两步元路径作者论文，则生成的作者配置文件将基于作者在其发表的论文中引用的论文由于生成的元路径的长度没有限制，因此可以有许多不同的方式来生成基于场所的配置文件，其中包括作者论文版本（作者论文的场所），作者论文版本（引用论文的场所）或作者论文作者论文版本（共同作者使用的场所），仅举三例。我们可以使用图1演示如何从DBLP网络的一个片段生成不同的我们看到，作者F.V只发表一个元路径只使用两个步骤，作者论文目录，将作者映射到她的论文发表的地点另一条长度为2的路径通向她的合著者。延伸这条路径可以引导我们找到合著者的论文，并最终找到这些作者的作品出现的地点。虽然我们在这里只关注一个作者，但很明显，当这种方法扩展到所有作者时，会产生一个用户配置文件的集合，每个用户配置文件都关注网络中的一组特定关联。利用这些配置文件，我们可以构建标准的协同过滤组件来选择用户的邻居并创建推荐。独立地，这样的组件作为混合推荐器的贡献者可能相对较弱然而，正如我们在以前的工作中所示，并在这里确认，这些组件的集成可以是有效的。扩展的元路径是否会产生有用的用户配置文件，这一点也不明显。然而，我们之前对WHyLDR系统的研究表明，在某些情况下，从更长的元路径构建的组件可能会对推荐混合体做出更大的贡献，而不是它们更狭窄的子集。由于较长的元路径不能完全被忽略，并且这些路径的集合是无界的，因此有必要控制混合大小-确定合并哪些组件和多少组件较大的混合是不可取的，因为它们需要更多的训练时间，并受到过拟合。我们已经发现，通过测量与每个组件相关联的信息增益，我们可以有效地修剪信息量较少的Meta路径，从而减少需要考虑的组件的集合此外，我们已经表明，可以直接使用信息增益值作为分量权重的估计，从而避免了对权重学习的需要并减少了训练时间。本文的主要贡献如下：- 我们提供了一个正式的描述的WHyLDR算法及其实现。- 我们使用多个指标和多个推荐任务在四个真实世界的数据集上证明了WHyLDR的有效性，并将其与基于因子分解的基线进行了比较。- 我们给出了一个正式的信息理论启发式的定义，并表明它可以用于混合形成，修剪组件的集合和估计组件的权重。该研究的部分内容先前发表在Burke和Vahedian [2013]和Burke et al. [2014]中。本文在以下几个方面对原工作进行了重要的扩展和改进。首先，目前工作的最重要的贡献是，我们引入了一个新的措施相结合的归一化信息增益值的每一个元路径与相应的recommendation组件的准确性的措施，以预测这些组件的贡献加权混合模型。我们之前的工作通过证明混合权重和信息增益值之间的关系提出了这种可能性[Vahedian and Burke2014]。第二，虽然我们早期的工作探索了加权混合模型，使用扩展的元路径在社会注释系统中，所有这些都具有基本相同的模式，这项工作适用于四个不同的异构ACM Transactions on the Web，卷。号113、第十五条，公布日期：2017年6月异构网络十五图二. DBLP、MovieLens、CCOL和LastFM数据集的模式。更复杂的网络。最后，在这项工作中，包括额外的实验结果比较WHyLDR模型的七个不同的基线和国家的最先进的模型。在相关研究中，我们扩展了多关系矩阵分解，以包括基于扩展元路径的关系[Vahedian et al.2015，2016a，2016b]，这是一种完全不同的生成建议的方法我们将此技术的应用留给本文中的数据集，以备将来使用。2. 方法2.1. 异构网络和元路径异构网络是具有多种类型的节点（例如，作者和论文）和多种类型的边（例如，作者和出版物之间的边类型由它们连接的节点类型定义。这样的网络是表达社交媒体应用中的信息类型之间的联系的多样性的自然方式网络模式是显示节点类型和边类型的异构网络的高级视图1图2中显示的四个模式提供了本文中使用的四个数据集的表示(1) DBLP：第一个模式用于来自书目数据库DBLP的科学出版物。有作者、论文和论文发表地点的节点。作者和他们写的论文之间，论文和他们出现的地点之间都有边缘此外，还有一个自循环：论文链接到其他论文的引用。1一般来说，网络在给定节点类型之间可能有多种边类型。例如，一个科学出版物网络可能同时有合著者和致谢链接，这些都是不同的边缘类型和不同的元路径元素，尽管它们都代表了科学家之间的联系。换句话说，在一般情况下，网络模式可以是多重图。ACM Transactions on the Web，卷。号113、第十五条，公布日期：2017年6月十五F. Vahedian等人+−→+(2) MovieLens：下一个模式是MovieLens数据集，它是MovieLens10M数据集的扩展，包含关于电影的个人评级和标签原始数据通过从互联网电影数据库（IMDb）2和烂番茄（RT）3电影评论系统中提取的数据进行扩充它包含五种节点类型：用户、电影、类型、演员和导演。目标关系是标记关系;如果用户标记了电影，则存在从用户到电影的链接一部电影属于一个或多个流派，也与演员和导演有关。(3) Chicago City of Learning（CCOL）：这个模式是针对中学生在线学习活动主要的关系是学生和他们参加的项目之间的关系此外，还有描述个人的年级、学校和位置（邮政编码）节点，以及与程序相关联的类别节点。(4) LastFM：最后一个模式来自面向音乐的社交网络LastFM。它在一个完整的网络中包含用户，标签和艺术家，并添加了一个与连接用户节点的“朋友”链接相对应的自循环有关每个数据集的更多详细信息将在第5节中稍后介绍。2.2. 元路径生成元路径是通过网络模式的一系列边-换句话说，是一系列边类型。遍历异构网络上的元路径意味着从一个节点到所有可能的后继节点都遵循给定类型的所有边。形式上，元路径可以定义如下。对于网络模式TG=（A，R），其表示关系Ri∈R，异构图G上的元路径定义为AR1R2Rk1一个2...Ak1，其中路径定义了节点类型A1和Ak1之间的复合关系，通过跟随类型R1，R2到Rk的边来创建。元路径可以是任意范围的，并且涉及模式中相同边的多次遍历在我们的实验中，我们生成两种类型的元路径：基于用户和基于项目回想一下，我们的推荐问题的特征在于一个目标关系，它指示要预测的期望推荐。例如，user-movie是MovieLens数据集中的目标关系。基于用户的元路径是通过将起始节点类型设置为用户来生成的。通常，如果目标关系是AB，则我们推荐针对类型A实体个性化的类型B实体。基于用户的元路径以类型A的节点作为其起点。基于项目的元路径是从与要推荐的项目相对应的节点开始的路径：类型B的节点。2.3. 加权混合推荐加权混合推荐系统是一个由多个推荐组件组成的系统，每个推荐组件为用户和项目的组合返回一个实值分数。将所有组分的评分合并为加权和[Burke 2002]。更正式地说，s（u，i）=.αj× sj（u，i），（1）其中s（u，i）是针对用户-项目组合计算的分数，sj（u，i）是由第j个组件计算的分数，并且αj是与第j个组件相关联的权重在不失一般性的情况下，我们将假设sj得分在0到1的范围内，并且αj值也在0到1的范围内，并且总和为1。2http://www.imdb.com。3 http://www.rottentomatoes.com。ACM Transactions on the Web，卷。号113、第十五条，公布日期：2017年6月J=.异构网络中的多关系推荐15：7因此，组件和权重是所需的构建块。权重通过如下所述的优化过程来学习。这些组件是推荐任务和网络结构的函数。2.4. 组件如前所述，WHyLDR组件构建在协作推荐中常用的二维矩阵上[Desrosiers and Karypis2011]。在WHyLDR模型中使用了两种类型的推荐组件，即基于用户的和基于项目的，并且它们的形成由推荐任务指导。每个推荐任务都带有一个例如，在向作者推荐可能的出版地点时，作者-地点关系是目标。在这种设置中，与左手侧的作者节点的任何关系都可以用于构建基于用户的推荐模型，其中该关系提供可以通过其构建对等邻居的特定用户模型。与左手边的地点的任何关系都可以类似地用于构建基于项目的推荐模型。为了本文的目的，我们将只使用二元关系，它可以表示为二元矩阵。基于用户的矩阵是这样一种矩阵，其中行是用户，列是可以围绕其组织用户配置文件的其他节点类基于项的矩阵与此类似，只是行是项。注意，已经应用于协作推荐器的所有优化也可以应用于单个WHyLDR组件，例如矩阵分解。在我们以前的工作中，我们发现，分解的组件矩阵只增加了最低限度的系统的准确性，虽然它可能有运行时性能的优势。由于运行时性能不是我们关注的重点，因此我们在实验中不协同推荐需要两个步骤：节点邻居的形成和评分的预测为了形成对等邻居，我们使用余弦相似性度量，对于用户简档pv和活动用户的简档pu，其被定义为：sim（u，v）pu. pv.（二）pu根据我们的经验，最佳邻域大小是用于构建它的元路径长度的函数，较长的元路径通常需要较大的邻域。在这项工作中，我们经验性地建立了一步，两步和三步元路径的邻域大小。我们选择了一个代表性的组件，并评估了召回率和精度值的邻域大小k从大小5开始，并停止时，性能增益停止。为了预测项目的偏好得分，我们使用众所周知的Resnick算法[Resnick和Varian1997]，其中活跃用户和项目（u，i）的每个项目对的个性化得分计算为：pr（u，i）= sim（u，v）θ（v，i），（3）v∈Nu其中sim（u，v）表示用户u和v之间的相似度值，如果项目i在用户v的简档中，则θ（v，i）将为1，否则为0基于项目的协同过滤[Deshpande and Karypis2004]被用作第二种类型的推荐模型，它依赖于发现项目之间的相似性，而不是用户之间的相似性。为了为给定项目i的目标关系UI生成推荐，我们将Ni定义为考虑相关项目的最接近i的k个ACM Transactions on the Web，卷。号113、第十五条，公布日期：2017年6月.−−15：8 F. Vahedian等人配置文件，然后将用户的个性化评分定义为pr（u，i）=sim（i，s）θ（u，s）.（四）s∈Ni在我们之前的工作中，除了这些协作组件之外，我们还构造了另外两种类型的简单组件：基于流行性的组件和基于相似性的组件。基于流行度的组件只是识别每个关系中最频繁出现的项目：例如，社交标签系统中最流行的标签。在异构网络中，我们发现基于流行度的组件不会增加最终混合模型的准确性，因此我们没有在这里包含它们基于相似性的模型对用户和项目的配置文件使用中间表示例如，在社交标签应用中，用户和项目都可以由标签表示：用户由他们已经应用的标签的简档表示，项目由已经应用于他们的标签的通过在这种表示下找到用户和项目之间的相似性来进行推荐我们对基于相似性的模型的实验是混合的。虽然我们的一些实验已经表明，这些组件可以是有效的，这些实验也表明，他们通常是多余的knn组件使用相同的元路径。由于每个额外的组件增加了权重学习时间并增加了过拟合的风险，因此我们选择在这项工作中不包括基于相似性的模型。2.5. 模型构建WHyLDR推荐模型分三个阶段构建- 元路径扩展和关系生成- 组件创建- 体重学习首先，有必要确定将用于构建组件的元路径在我们的实验中，我们通常使用定义查询任务的目标关系来定义元路径的端点例如，在向作者推荐场所时，目标关系是作者场所。我们构造所有可能的元路径，直到给定的路径长度，分别起源于术语用户在这里用引号括起来，因为目标关系的端点之一实际上并不总是用户。例如，在为一篇论文推荐引用时，目标关系是paper paper，作者不出现。然而，这并不意味着这种形式的推荐不是个性化的。作者隐含在将目标论文与其作者联系起来的边缘中，由不同作者撰写的同一篇论文可能会获得不同的推荐引用。一旦确定了所需的元路径，就必须计算展开简单的广度优先搜索可以用来遍历每个元路径，但由于我们生成的路径达到给定的长度，最长路径的所有中间扩展也是有用的扩展，实际上只需要O（nbk）的一次扩展，其中b是平均分支因子，k是最大元路径长度，在这项工作中，2或3。4元路径扩展产生从每个源节点经由给定元路径可到达的一组目的地节点。每一个这样的展开都可以变换成二元矩阵。请注意，此转换会丢弃可能有用的信息-[4] Yu[2012]将这种技术称为用户偏好扩散方法。ACM Transactions on the Web，卷。号113、第十五条，公布日期：2017年6月异构网络十五−∗−=+−=×1−− − −连接源节点和目标节点的路径数此信息用于计算信息增益（见下文）。在未来的工作中，我们计划探索这里讨论的算法的加权版本。一旦创建了二元矩阵，它们就可以用于通过基于用户或基于项目的方法生成推荐请注意，元路径的生成取决于应用程序和推荐类型。出于这项工作的目的，我们没有生成所有可能的长度元路径n.例如，在这项工作中没有使用itemitem，项目配置文件仅基于网络的直接链接生成。2.5.1. 学习组件权重。虽然任何非线性优化技术都可以应用于学习组件权重，但我们在这些实验中使用粒子群优化（PSO）[Kennedy和Eberhart 1995]。我们发现这种技术在这方面既有效又可靠PSO背后的基本思想是用多个点同时搜索优化空间（等式（1）中的α值我们的优化过程从40个随机选择的模型开始，这些模型在该算法中称为粒子PSO迭代更新每个粒子在α空间中的位置，跟踪适应度函数的全局和局部最优值在每次迭代中，使用速度函数基于局部最佳值（i-best）和全局最佳值（g-best）来更新粒子的值。在迭代t处的粒子i的速度函数被定义为：Vi，t=wt×Vi，t−1+c1r 1×（Pi−best−Xi−1，t）+c2×r 2×（Pi−gbest−Xi，t−1），(5)其中Xi，t1是粒子i在迭代t1时的位置，Pibest和Pigbest分别表示局部和全局最优解的位置（值）。参数r1，r2是随机选择的，严格在0到1的范围内，c1，c2是控制全局和局部最优值权重的学习常数在计算速度函数后，定义质点i的位置为Xi，tXi，t1Vi，t.我们已经发现，这个过程快速收敛到一组优化的权重，通常在50次迭代内。应用优化要求我们选择合适的适应度函数。我们在先前的实验中探索了几个优化标准（包括召回率和归一化折扣累积增益（NDCG））。我们发现最好的标准是F@5，它考虑了测试的精确度和召回率来计算分数：F2 查准率×查全率，（6）查准率+查全率其中针对大小为10的推荐列表计算召回率和精确率注意，可以应用其他优化方法来优化混合推荐器模型的权重。我们以前的工作使用随机重启爬山，并实现了类似的权重向量，尽管计算时间要长得多随机梯度下降是推荐环境中常用的另一种方法。然而，与诸如F@5的排序度量相关联的损失不是模型权重的直接凸函数此外，我们对PSO的性能感到满意由于权重学习技术不是本文的重点，因此我们没有对其他模型进行实验。ACM Transactions on the Web，卷。号113、第十五条，公布日期：2017年6月十五F. Vahedian等人- − −- − −|.2.6. 推荐生成推荐生成是简单的。当为用户-项目组合请求预测时，生成与每个组件相关联的预测，并使用学习的权重组合数值结果。3. 控制元路径生成生成元路径没有限制：节点和边可以被重新访问，就像author paper paper这样的关系一样。venue，甚至作者论文作者关系纸作者纸可以生成。因此，关系生成原则上是无限的。在充分连接的异构网络中，任何元路径关系的极限扩展是每个用户连接到每个项目的完整关系。这样的关系对于生成个性化推荐是没有用的有许多实际的原因，我们应该停止在生成组件的极限情况下。一个是我们必须学习集合中每个分量的权重，并且分量的数量越大，参数空间的维数越高，搜索它的计算成本就越大，过拟合的风险就越大。此外，由于网络中的分支因子，协同过滤技术已经针对稀疏关系进行了优化，而更密集的用户配置文件会产生更大的计算成本。这些密集的关系在大型网络中也有很高的计算尽管如此，先前的研究表明，包含一些较长的元路径可以显着提高推荐准确性[Burke etal. 2014]。因此，控制这个过程是很重要的，理想情况下，我们希望能够提前估计哪些关系可能会做出实质性的贡献，并能够权衡预期的准确性和增加它们的计算成本。为了实现这一目标，我们对每个元路径使用信息增益计算来估计要通过遵循它来创建的关系的值。直观地说，这个想法是每个合并的关系都应该向推荐计算添加信息如果它是多余的或过于嘈杂，那么它可以安全地省略，而不会影响准确性。考虑一个关系AB，它是由某个元路径M创建的，该元路径M以A开始，以B结束，并且在它们之间包含任意数量的组合关系。我们希望计算从A开始并通过此元路径到达B的信息我们将该值表示为信息增益GM，并如下计算：G M= H（A）− H M（A|B），其中H（A）是维度A的熵，并且HM（A B）是沿着路径M获得的条件熵。H（A）是实体类型A的熵。它是A中项目的概率的函数：H（A）= −p（δ）log（p（δ））。δ∈A因此，为了应用这个方程，我们需要一个给定类型的节点的概率的度量例如，《银翼杀手》在所有电影中的概率。我们可以用一个受欢迎程度来回答这个问题，计算这部电影在用户然而，出于我们在这里的目的，我们需要一个通用的度量，它可以扩展到所有类型的节点，甚至是那些可能不会直接出现在配置文件中的节点，以及可以通过多种方式到达的节点，例如ACM Transactions on the Web，卷。号113、第十五条，公布日期：2017年6月异构网络十五.Degree（n）nA|||- -=−DBLP网络可以通过作者链接和引用链接到达。我们对这个问题的解决方案是使用度中心性。流行节点可以被认为是高度节点（中心性的直接度量）或浏览网络时事实证明，这些度量是等价的，因为在随机游走中遇到节点的概率在极限情况下与节点我们对这个概率感兴趣，每次一维，所以我们通过相同类型的所有节点的总度进行规范化。p（δ）= 度（δ）∈在前面的等式中，度（δ）被定义为R1类型的边数其中R1是元路径AB中的第一个关系。条件熵度量一个维度的不确定性，给定另一个维度。考虑网络的AB投影，我们使用二维矩阵RM来计算给定A（p（B A））的维数B在维度B中到达节点β的概率被计算为从节点δ到节点β的元路径M的所有扩展在从节点δ到达B中某个节点的所有可能扩展中的分数。这是用于生成推荐组件的同一矩阵在被二进制化之前的标准化。R i，j= π {p|i ∈ A，j ∈ B，p ∈ M，i → pj}因此，条件概率计算为：pM（）=Rδ，β .β|δ.j∈BRδ，j例如，考虑M作者纸引文纸引文元路径和由此导出的作者-引文（AC）投影关系。我们使用作者节点的度计算作者维度的总体熵。然后，我们计算所有元路径的元路径扩展，并计算每个作者有多少次有了这些信息，我们可以计算这个元路径的H（AC）。请注意，此值可能与连接相同实体的不同元路径的计算值大不相同：纸例如，引用。如果H（A）和H（A C）大致相同，那么GM将接近于零，这表明这个特定的元路径并没有增加A维中已经包含的信息。3.1. 归一化信息增益信息增益度量的标准化是必不可少的，因为我们正在比较不同起始和结束实体类型的关系。我们计算网络中实体类型A和B的归一化信息增益（G）值，信息增益值通过二维熵乘积的平方根进行归一化[Correa和Lindstrom 2013]。GM（A）（B）（C）3.2. 应用信息增益归一化信息增益度量允许我们比较它们的信息值的关系。与低G的关系很可能成为知识和信息ACM Transactions on the Web，卷。号113、第十五条，公布日期：2017年6月G=M十五F. Vahedian等人.ˆthan others.因此，我们使用这个措施作为修剪阈值来选择关系，包括在混合模型。在接下来的实验中，使用信息增益阈值修剪的混合体被标记为P。我们不使用任何特定的阈值来修剪信息量较少的元路径。我们只是简单地排除了信息量最少的元路径。在我们之前的实验中，我们发现与元路径相关的信息增益与使用该元路径构建的组件的学习α权重之间存在显著相关性[Vahedian 2014; Vahedian and Burke 2014]。这表明，学习步骤可能被替换为基于G的组件效用的估计。然而，信息增益是独立的推荐任务，我们的实验表明，最佳分量权重向量（不令人惊讶地）高度依赖于任务。例如，在社交标签中，项目-标签关系对于为项目推荐标签是重要的，但在向用户推荐项目时不太重要出于这个原因，我们用一个代表组件在推荐任务中的单独准确性的因子来考虑了几种不同的测量方法，但为了我们的目的，这里使用的值是F@5，使用长度为5的列表的推荐任务上的组件的F1值设Fi为组分i经验确定的F@5值。那么我们估计可以计算每个Ch组件的α值的α值GMiFiαi=KGMjFjj=1.（七）估计混合权重比使用PSO优化混合更有效为了估计混合权重，对每个分量计算一次F1度量.在PSO方法中，优化函数被计算L次，其中L等于迭代次数乘以PSO配置中的粒子数。迭代和粒子的数量因不同的数据集而异，并取决于该数据集的大小和混合模型中组件的数量在我们的实验中使用的最小值分别为35和75的迭代次数和粒子数在下面的实验中，使用这些估计的权重而不是用G表示的混合。3.3. 组件生成过程图3显示了WHyLDR中的组件生成过程。系统的输入是网络本身，以节点之间的边表示，以及将为其创建组件的Meta路径。(Note实际的实现为了效率而一次处理所有的元路径。）关系生成步骤扩展给定的元路径，并为每个源节点生成可能的目的地节点的简档结果是一个二元关系，其中每个节点被映射到一组由路径相关的节点。该关系被表示为二元矩阵。从起点到终点的路径数用于计算信息增益G。下一步是基于二进制矩阵创建推荐组件根据源节点是在目标关系的左边还是右边，我们认为这是一个生成组件后，可以执行三种不同的混合配置策略（图4）。每种情况下的目标都是确定组件集ACM Transactions on the Web，卷。号113、第十五条，公布日期：2017年6月异构网络十五图三.WHyLDR：组件生成。见图4。WHyLDR：混合配置。ACM Transactions on the Web，卷。号113、第十五条，公布日期：2017年6月十五F. Vahedian等人- -并确定适当的权重。对于全混合（表示为h），使用所有组件，并且使用前面讨论的PSO学习它们的权重，使用一个数据进行训练。修剪的混合（h-P）增加了使用信息增益值来修剪分量集合的额外步骤，从而消除具有最小G值的那些分量。所估计的混合（h-GP）用先前讨论的用于权重的G值的计算来代替优化步骤。配置步骤还涉及针对每个路径长度调整邻域大小例如，考虑作者的论文在DBLP数据中创建（apv）元路径。关系生成步骤将创建一个二进制矩阵user xvenue，其中行是作者，列是地点：非零值意味着作者在该地点发表过文章。然后，该矩阵成为基于用户的推荐组件的基础。路径的数量和每个节点的度是用于计算该关系的单个G这个apv组件随后成为用于创建使用图4所示的三种技术之一的混合模型。在修剪过的Hybrids（h-P和h-GP），G_n得到的归一化d信息用于去除低信息组件。然而，apv具有相对高的信息增益，并且将被保留作为混合的一部分。下一步是确定所有组件的权重。在混合h和h-P中，PSO过程使用训练数据来优化不同权重的F1@10准则，最终收敛于每个分量的权重在估计的混合中，该步骤由权重的计算代替，需要使用训练数据的单个F4. 最新技术水平和基线算法在进行实验时，我们试图将我们的模型与其他有能力的模型进行比较，利用社交网络中的异构数据。我们比较我们的混合模型的准确性，两类算法：多关系因子分解和随机4.1. 多关系因子分解多关系因子分解被认为是异构推荐系统和关系预测的最新模型[Drumond et al. 2014年]。在多关系矩阵分解中，一个目标关系被预测，其余的辅助关系被用作边信息。例如，如果任务是向用户推荐电影，则用户-电影关系是目标关系，并且诸如电影类型和电影演员的节点之间的其他链接是辅助的。我们在这些实验中使用了三种因子分解变体：-DMF ：在Drumond等人[2014]中描述的多关系矩阵分解模型解耦的目标特定特征多目标分解（DMF）中，为每个关系定义不同的潜在特征模型参数是从因子分解过程中学习的，以这种方式，它们被优化为每个关系的最佳DMF模型将一个潜在特征向量模型与每个关系r相关联。对于不同的目标关系，不同的特征矩阵与每个关系r相关联。DMF损失函数在目标关系上分解，并且每个分量可以彼此独立地优化-CATSMF ： Drumond 等人提出了耦合的辅助和目标特定特征多目标因子分解（CATSMF）模型[2014]提高DMF模型应用于多个目标时的效率由于DMF模型必须单独地学习每个关系的参数，因此要学习的参数的数量以网络中关系的数量的因子为了解决这个问题，CATSMF通过耦合辅助关系来限制它们所需的参数ACM Transactions on the Web，卷。号113、第十五条，公布日期：2017年6月αβα异构网络中的多关系推荐15：15一起它还能够学习不同辅助关系之间的交互这种方法在我们的工作中是合适的，我们不假设每个网络中有一个单一的目标关系，可能有多个推荐任务要探索。在这种情况下，CATSMF的多目标功能是理想的。-MF ：除了这些多关系技术之外，我们还包括作为基线的矩阵分解（MF），仅使用每个推荐任务中的目标关系。为此，我们使用DMF实现中包含的矩阵分解基线在接下来的实验中，我们使用了作者提供的DMF和CATSMF的实现。5该实现是自包含的-在内部执行其参数估计-并且仅将关系的集合作为输入。4.2. 基于随机为了将我们的模型与基于图的推荐算法进行比较，我们使用基于随机-P3 [Christoffel et al.2015]：二分图中的节点基于用户和项目之间的短随机游走之后的转换概率进行排名P3执行从目标用户顶点开始的固定长度为3的随机游走该模型将转移概率提高到α的幂，以提高准确性。-RP3 ：提出的基于流行度的重新排名模型[Christoffel et al.2015年]以补偿推荐列表中流行项目的影响- hλ：一种提高推荐准确性和多样性的节点排名算法[Christoffel et al. 2015]。该模型是来自两种算法的分数的加权线性聚合：HeatS [Zhou et al.2010]，在二分用户-项目图上的热扩散，以及ProbS [Zhou et al.2010]，类似于P3的项目排名方法。-个性化PageRank [Kyrola2013]：用于估计节点的排名以将其个性化为起始节点的方式与全局PageRank的唯一区别[Page et al.1999]是当行走重新开始时，它将返回到起始节点。对于前三个模型P3、RP3和hλ，我们使用作者提供的代码6α β进行随机行走的为了构建一个基于个性化PageRank的推荐模型，我们使用了GraphChi上的开源代码，7其中为每个用户计算个性化PageRank模型作为起始节点，并将访问量最大的节点作为推荐列表推荐给用户。5. 评价和方法为了探索WHyLDR方法的功能，我们为前面介绍的四个数据集创建了混合模型对于每个数据集，我们从一个完整的网络边集合作为二维关系开始训练集和测试集是通过用户将目标关系随机划分为分区来创建的我们对每种情况下的

下载后可阅读完整内容，剩余1页未读，立即下载