基于链接开放数据和图特征的语义感知推荐系统

120 浏览量更新于2023-10-16 收藏 12.76MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1http://stats.lod2.eu/4570利用链接开放数据和基于图的特征的语义感知推荐系统0Cataldo Musto 计算机科学系 - 巴里阿尔多莫罗大学cataldo.musto@uniba.it0Pasquale Lops 计算机科学系 - 巴里阿尔多莫罗大学pasquale.lops@uniba.it0Marco de Gemmis 计算机科学系 - 巴里阿尔多莫罗大学marco.degemmis@uniba.it0Giovanni Semeraro 计算机科学系 - 巴里阿尔多莫罗大学giovanni.semeraro@uniba.it0摘要0在本文中，我们提出了一个基于分类算法（如随机森林和朴素贝叶斯）的混合推荐框架，该框架使用多个异构特征组。我们将特征分为两类：经典特征，如基于流行度、协同和基于内容的特征，以及从链接开放数据（LOD）云中收集的扩展特征，如基本特征（例如电影的类型或书籍的作者）和基于图的特征，这些特征是根据LOD云中连接用户、项目和属性的三元表示的不同拓扑特征计算得出的。在实验环节中，我们评估了我们的框架在不同特征组上的有效性，结果表明，基于LOD和基于图的特征都对算法的整体性能产生了积极影响，特别是在高度稀疏的推荐场景中。我们的方法还超过了几种最先进的推荐技术，从而证实了这项研究背后的见解。这个扩展摘要总结了在《知识系统》上发表的期刊论文[7]的内容。0CCS概念0• 信息系统 → 推荐系统；Web数据描述语言；• 计算方法 →通过分类进行监督学习；0关键词0推荐系统，机器学习，链接开放数据0ACM参考格式：Cataldo Musto，Pasquale Lops，Marco deGemmis和GiovanniSemeraro。2018。利用链接开放数据和基于图的特征的语义感知推荐系统。在WWW'18Companion：2018年Web会议伴侣，2018年4月23日至27日，法国里昂。ACM，纽约，美国，4页。https://doi.org/10.1145/3184558.31862330本文发表在知识系统上，采用知识共享署名4.0国际（CC BY4.0）许可证。作者保留在个人和公司网站上传播作品的权利，并附上适当的归属。WWW'18 Companion，2018年4月23日至27日，法国里昂，©2018IW3C2（国际万维网会议委员会），根据知识共享CC BY 4.0许可证发布。ACM ISBN978-1-4503-5640-4/18/04。https://doi.org/10.1145/3184558.318623301 引言0根据最近的统计数据，LOD云中现在有1500亿个RDF三元组和近10000个链接数据集：这些RDF三元组以语义感知的方式相互连接，涵盖了许多主题领域的信息，如地理位置、人物、书籍、电影、音乐等。这些数据的核心通常由DBpedia[1]表示，它是维基百科的RDF映射。这种大量的语义感知的机器可读数据吸引了内容推荐系统（RS）[4]领域的研究人员和从业者，他们希望研究如何利用这些信息来改进现有算法的效果或解决RS通常遇到的几个问题。在本文中，我们研究了这种外部知识对基于分类技术（如随机森林和朴素贝叶斯）的混合推荐框架性能的影响。在这项工作中，我们采用了通常称为特征组合的混合策略，即我们通过不同的异构特征组对项目进行表示，并使用这个唯一的表示来为分类器提供训练样本。然后，我们利用这个模型来将新的和未见过的项目分类为与目标用户相关或不相关。我们使用的特征大致分为两组：经典特征和扩展特征。在混合项目表示中通常使用的特征，如非结构化的基于内容的特征、协同特征和简单的基于流行度的特征，属于第一组。接下来，我们通过引入从LOD云中收集的数据点来扩展表示，这些数据点作为基本结构化特征（如电影的类型或书籍的作者）和基于图的特征，通过挖掘LOD云中连接用户、项目和属性的三元图表示的不同拓扑特征来计算。在实验环节中，我们评估了我们的框架在不同特征集上的有效性，并且结果提供了一些有趣的见解，因为结果表明，引入基于LOD和基于图的特征可以显著提高整体准确性。此外，我们获得的结果还超过了几种最先进的推荐技术。0论文追踪：WWW 2018期刊论文，2018年4月23日至27日，法国里昂...45802 方法论0在本节中，我们提供了我们方法的详细信息，介绍了我们用于提供分类算法输入的特征组以及描述我们的推荐框架。02.1 特征和推荐框架的描述0受欢迎程度特征。这组特征包括有关物品的基本受欢迎程度信息，例如物品收到的评分数量，物品收到的积极评分数量以及积极评分与总评分数量之间的比例。这（微小）一组特征可能看起来微不足道且无用，但对于推荐任务来说，这种数据通常非常有信息量，因为它提供了关于某个物品在用户中的受欢迎程度以及他们对其的总体看法的信息。正如Cremonesi等人已经展示的[3]，基于简单受欢迎度度量的非个性化算法可以获得与更复杂技术相当的性能。协同特征。这类特征模拟了通常在协同过滤（CF）算法中利用的用户-物品矩阵中编码的信息。与传统的CF算法不同，传统的CF算法使用整个矩阵来计算目标用户的邻居并预测用户可能感兴趣的物品，而我们的方法只关注提取模拟物品收到的评分的列向量，以便将其包含在我们的混合物品表示中。因此，我们为每个物品编码的协同特征的数量对应于矩阵的行数，也就是数据集中用户的数量。将这组特征包含在我们的混合表示中的选择非常直观，因为CF算法和矩阵分解技术在原始矩阵的稀疏性不高时往往能够获得非常好的性能。基于内容的特征。文本内容是另一个可以利用的有用和描述性特征的来源。例如，电影的情节包含了该物品的几个独特特征，可以从这些数据中提取出来。然而，文本描述通常是嘈杂的，因此在将其包含在物品表示中之前，有必要采用自然语言处理（NLP）技术对这些数据进行适当处理。在我们的流程中，首先对内容进行分词，然后去除停用词并识别文本中出现的实体。接下来，对剩余的标记进行词干处理。在这种情况下，添加到模型中的特征数量对应于词汇表的大小，也就是数据集中所有物品的描述中出现的不同标记的数量。基于LOD的特征。扩展特征的第一组包括从LOD云中收集的结构化基本属性，例如电影的流派或书籍的作者。为了收集基于LOD的特征，我们首先进行了映射过程，以获取数据集中每个物品的相应URI。映射过程的目标是为每个可用的物品确定其在LOD云中所指的相应元素。例如，我们将电影《黑客帝国》与其相应的0表1：从DBpedia中提取的LOD-based特征向量的部分表示，用于电影《黑客帝国》0property - value《黑客帝国》0dbo:director - dbr:沃卓斯基兄弟 10dbo:director - dbr:梅尔∙吉布森 00dbo:composer - dbr:恩尼奥∙莫里康内 00dct:subject - dbc:反乌托邦电影 10dct:subject - dbc:American_Horror_movies 00dbo:producer - dbr:Joel_Silver 10图1：三部分图的玩具示例，建模用户、项目和从LOD收集的属性。0URI在LOD云2中。值得强调的是，映射是获得LOD云的入口的必要和强制步骤。接下来，对于每个领域，我们通过利用我们先前的研究成果[5,6]定义了一组相关属性的子集，最后我们使用SPARQL提取这些数据。与内容特征一样，我们建立了一个基于LOD的属性词汇表，并为每个项目提供了这些新特征。如果项目通过该RDF属性进行描述，则将每个特征的分数设置为1，否则设置为0。表1报告了从LOD云中收集的描述《黑客帝国》的一些属性。在这种情况下，每个特征都通过<属性，值>对表示，因为每个实体在同一部电影中（以及不同的电影中）可能有不同的角色。基于图的特征。扩展特征的第二组是基于通过将用户与他们喜欢的项目连接起来，并且将项目与从DBpedia收集的属性连接起来而获得的基于图的表示（参见图1）。我们将这些特征称为三部分特征。鉴于这样的表示，我们决定挖掘这个图并计算描述其拓扑特征的一些度量。具体而言，在我们的项目表示中，我们对三部分用户-项目图计算了五个基于图的特征，即：02 http://dbpedia.org/resource/The_Matrix0论文追踪: WWW 2018期刊论文，2018年4月23日至27日，法国里昂3http://grouplens.org/datasets/movielens/1m/4http://challenges.2014.eswc-conferences.org/index.php/RecSys5http://www.cs.waikato.ac.nz/ml/weka/6https://lucene.apache.org/RFNBP+C0.56350.5642 (*)0.54830.5451P+T0.50510.50790.49650.4974C+T0.51870.51880.51800.5169P+C+T0.52460.52460.51890.51747http://snowball.tartarus.org/8http://jung.sourceforge.net/9http://rival.recommenders.net/Track: Journal Papers WWW 2018, April 23-27, 2018, Lyon, France4590度中心性，平均邻居度，PageRank得分，节点冗余性和聚类系数。推荐框架。在这项工作中，我们将推荐任务转化为分类任务，也就是说，我们将表示用户喜欢的项目的向量作为正例，将用户不喜欢的项目作为负例。接下来，我们训练分类器，并利用它们将用户尚未消费的所有项目分类为对她来说有趣或不有趣。总之，给定目标用户u，训练集TR(u)（用户先前评级的项目）和一组特征F，我们的分类器被提供了示例i F ∈TR(u)，我们使用分类模型来预测目标用户最感兴趣的项目。具体而言，测试集中的项目根据分类算法返回的预测的置信度进行排序，并将前K个项目返回给目标用户。在实验环节中，通过改变不同的特征集并使用两种不同的分类算法（随机森林和朴素贝叶斯）来评估我们推荐框架的整体有效性。03 实验评估0我们的实验设计基于三个不同的研究问题：LOD特征如何影响推荐的整体性能？（实验1）；基于图的特征如何影响推荐的整体性能？（实验2）；我们最佳配置相对于现有技术的性能如何？（实验3）。实验协议。实验是在两个最先进的数据集上进行的，即MovieLens-1M和DBbook。第一个是用于电影推荐的广泛数据集，第二个用于ESWC2014推荐系统挑战，并专注于图书推荐。采用了不同的协议进行实验。我们在MovieLens-1M上使用了80%的训练集和20%的测试集。对于DBbook，我们使用了提供的训练集和测试集。还采用了不同的协议来构建用户配置文件。在MovieLens-1M中，用户偏好以5分离散刻度表示，因此我们决定只将评分为4和5的评级视为正例。另一方面，DBbook数据集已经以二进制形式提供，因此不需要进一步处理。作为分类算法，我们使用WekaToolkit提供的随机森林和朴素贝叶斯的实现。流行度特征是通过简单处理原始数据并计算每个项目收到的评级来提取的。至于协同特征，我们用特殊字符替换缺失值，并使用二进制表示来编码正面和负面评级。接下来，为了生成基于内容的特征，我们使用ApacheLucene库中实现的方法进行分词、语言检测和停用词去除。文本描述都来自于维基百科页面的0表2：基于LOD特征对MovieLens数据的影响。0F1@5 无LOD LOD 无LOD LOD0热门（P） 0.5338 0.5312 0.5458 0.53200协作（C） 0.5618 0.5609 0.5486 0.54500基于内容（T） 0.4913 0.4943 0.4913 0.49320最后，利用Snowball库7对标记进行了词干化处理。如前所述，为了从LOD云中获取特征，将每个项目映射到DBpedia条目。为此，我们利用了文献中已有的一些映射。在我们的设置中，成功映射了3300个MovieLens-1M条目和6600个DBbook条目（占85%的项目，98.02%）。未找到DBpedia条目的项目仅使用基本特征组。最后，利用Jung框架8计算了基于图的特征，Jung是一个用于管理基于图的数据的Java库。如前所述，对于每个项目节点，我们计算了三部分图的度中心性、平均邻居度、PageRank分数、节点冗余性和聚类系数。通过Rival工具包9计算的F1@5评估了我们推荐框架的每个配置的性能。结果讨论。通过分析LOD特征在MovieLens数据上的行为（表2），可以看出唯一从这种注入中受益的配置是利用基于内容的特征。这可能是由于数据集的稀疏性较低，使得除了协作特征之外的大多数特征都是多余的。然而，即使这些实验设置表明必须仔细评估LOD特征的采用，但整体最佳配置（用(*)标记）实际上包括LOD特征，因为合并热门、协作和LOD特征的配置获得了更高的F1@5。在DBbook上也观察到了类似的模式，因为RF是从基于LOD的特征中获得最佳结果的算法。这个实验的一个有趣结果是，当数据稀疏时，如DBbook，基于LOD的数据点也是代替协作特征的一个很好的选择。事实上，在这个实验中，Popular+LOD获得了最佳的整体F1@5。这意味着，当评分模式存在噪声时，LOD特征可以用来丰富表示，提供新的和相关的信息。接下来，我们评估了基于图的特征对我们的推荐框架的影响。对于每个数据集，我们将前面表格中表现最好的配置作为基准，并引入三部分特征来扩展表示。考虑到MovieLens数据集，一个积极的RFNBP+C0.56270.56300.56150.5580P+T0.55670.55690.54670.5497C+T0.55490.55530.54640.5491P+C+T0.55830.55600.54680.5497MovieLensDBbookRFNBRFNBBaseline0.56350.54860.56270.5615Baseline+Trip.0.56210.54830.56070.5542Baseline+LOD0.56420.54510.56590.5580Baseline+LOD+Trip.0.5678(*)0.54810.5667(*)0.558910http://www.mymedialite.net/11http://jung.sourceforge.net/LOD-RecSys0.56780.5667U2U-KNN0.42700.5193I2I-KNN0.43200.5111BPRMF0.52180.5290BPRMF+LOD0.52150.5304PPR0.53970.5502PPR+LOD0.54000.5540[1] S. Auer, C. Bizer, G. Kobilarov, J. Lehmann, R.Cyganiak, and Z. G. Ives. 2007.DBpedia: A Nucleus for a Web of Open Data. In ISWC 2007 (Lecture Notes inComputer Science), Vol. 4825. Springer, 722–735. DOI:http://dx.doi.org/10.1007/978-3-540-76298-0_52[2] R. Burke. 2002. Hybrid recommender systems: Survey and experiments. UMUAI12, 4 (2002), 331–370.[3] P. Cremonesi, Y. Koren, and R. Turrin. 2010. Performance of recommenderalgorithms on top-n recommendation tasks. In ACM RECSYS. ACM, 39–46.[4] M. de Gemmis, P. Lops, C. Musto, F. Narducci, and G. Semeraro. 2015. Semantics-Aware Content-Based Recommender Systems. In Recommender Systems Hand-book. Springer, 119–159.[5] C. Musto, P. Basile, P. Lops, M. de Gemmis, and G. Semeraro. 2017. Introducinglinked open data in graph-based recommender systems. Information Processing& Management 53, 2 (2017), 405–435.[6] C. Musto, P. Lops, P. Basile, M. de Gemmis, and G. Semeraro. Semantics-awareGraph-based Recommender Systems Exploiting Linked Open Data. In Proceedingsof the 2016 Conference on User Modeling Adaptation and Personalization (UMAP2016). ACM, 229–237.[7] C. Musto, P. Lops, M. de Gemmis, and G. Semeraro. 2017. Semantics-awareRecommender Systems exploiting Linked Open Data and graph-based features.Knowledge-Based Systems 136, Supplement C (2017), 1 – 14.[8] C. Musto, G. Semeraro, P. Lops, and M. de Gemmis. 2011. Random Indexing andNegative User Preferences for Enhancing Content-Based Recommender Systems.In EC-Web 2011 (Lecture Notes in Business Inf. Processing), Vol. 85. Springer, 270–281.4600表3：基于LOD特征对DBbook数据的影响。0F1@5 无LOD LOD 无LOD LOD0热门（P） 0.5610 0.5659 (*) 0.5576 0.55770协作（C） 0.5421 0.5560 0.5610 0.55640基于内容（T） 0.5532 0.5551 0.5465 0.54940表4：基于图的特征的影响。0当基于图的特征与基于LOD的特征合并时，才出现了影响。事实上，RF和NB都能够在利用三部图的特征时显著提高F1@5。这意味着从LOD云中获取的特征注入的拓扑信息可以提高我们框架的性能。总体而言，ML数据的最佳配置是基于基于LOD和三部图的特征的配置，使用RF。如果考虑DBbook数据的结果，也会出现类似的结果。在这种情况下，当将LOD特征包含在表示中时，基于图的特征会显著增加F1@5。在最后的实验中，我们将我们的混合推荐方法与几种最先进的推荐算法进行了比较，如用户到用户（U2U-KNN）、物品到物品协同过滤（I2I-KNN）、贝叶斯个性化排序（BPRMF）和带先验的PageRank的实现。此外，我们还将我们的方法与其他基于LOD的推荐技术进行了比较。作为未来的工作，我们计划将我们的方法与其他语义感知的RS进行比较。具体而言，我们使用从LOD中收集的特征作为BPRMF的辅助信息，并且我们还将带有LOD特征的PageRank与先前的研究中进行了扩展。PPR使用默认设置运行（80%的权重分配给用户喜欢的物品）。为简洁起见，我们只报告了表现最佳的配置所得到的结果（U2U-KNN和I2I-KNN的80个邻居，BPRMF的100个因子，带有辅助信息的BPRMF的50个因子）。对于U2U-KNN、I2I-KNN和BPRMF，我们利用了MyMediaLite10中已有的实现，而使用Jung框架 11来运行PPR。0表5：与最先进算法的比较0算法 MovieLens-1M DBbook0如表5所示，我们的混合推荐框架始终优于MovieLens-1M和DBbook数据上的所有基线。所有增加都具有统计学意义。值得注意的是，与经典基线以及其他基于LOD的技术（如BPRMF+LOD和PPR+LOD）相比，我们的方法获得了更好的结果。总之，这些实验得出了几个有趣的结果：首先，RF是能够充分利用我们的混合数据表示的分类算法。另一个有趣的结果是数据集的稀疏性与模型中包含的特征选择之间的关系。当数据集不稀疏时，协同特征以及非个性化的基于流行度的特征是最具信息量的特征。另一方面，当数据稀疏时，协同特征需要被替换或与不同的信息源相结合。这些结果进一步证实了这项研究的结果，因为它们清楚地显示出从LOD云中获取的外部数据点（以语义感知的基于内容的特征和拓扑三部图特征的形式）的注入可以显著提高我们推荐框架的预测准确性，从而在所有最先进的基线上实现有趣的改进。0参考文献0会议论文: Journal Papers WWW 2018, 2018年4月23日至27日, 法国里昂

下载后可阅读完整内容，剩余1页未读，立即下载