基于用户图像的旅游推荐系统：Vis2Rec

63 浏览量更新于2023-10-16 收藏 1.17MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2987Vis2Rec：用于访视推荐Micha eül Soumm1michael. cea.fr阿德里安·波佩斯库1adrian. cea.frBertrand Delezoide2bertrand. amanda.com2Amanda，34Av enue Des Champs Elyse' es，F-75008，巴黎，法国1Univ ersite′P alaiseau-Saclay，CEA，List，F-91120，Palaiseau，France摘要大多数旅游推荐数据集都局限于一个世界区域，并依赖于明确的数据，如签到。然而，在现实中，游客参观世界各地，并记录他们的旅行主要是这些图像包含丰富的原始信息，可用于捕获用户视觉内容已经在过去的作品中使用，但是对于推荐系统来说，不存在允许访问用户的个人图像的大规模公开可用的数据集。由于这样的资源将为新的基于图像的推荐算法打开大门，我们引入了Vis2Rec，这是一个基于从用户Flickr照片流中提取的访问数据的新数据集GoogleLandmarks v2被用作辅助数据集，使用最先进的图像匹配深度架构来识别用户照片中的兴趣点。基于图像的用户简档然后通过聚合针对每个用户检测到的兴趣点来构成。此外，确定了测试子集的地面实况访问，以实现准确的评价。最后，我们基准Vis 2 Rec使用各种现有的rec-commender系统，并讨论用户图像的可用性，以及随之而来的社会问题所开辟的可能性。遵循数据集共享的良好实践，Vis2Rec仅使用可自由分发的内容创建，并执行额外的匿名化以确保用户的隐私。原始数据集和预处理的用户配置文件将在https://github.com/MSoumm/Vis2Rec上公开。1. 介绍兴趣点（POI）是旅游体验的核心部分理想情况下，游客应该得到个性化的推荐，以便发现他们最感兴趣的新地方。这样的个性化可以通过利用对他们的游客偏好进行编码的用户简档来实现。图1：Vis2Rec的建议用例。[10，53].主流推荐方法依赖于矩阵分解的形式来提出个性化内容[21，14，45]，而最近的方法使用深度学习算法来提高推荐系统的性能[9，44]，其有效性在很大程度上取决于可用配置文件的质量和丰富性。虽然通过引入深度学习技术[5]，在配置文件创建步骤中取得了进展，但该组件需要进一步探索。在这项工作中，我们建议检查是否用户配置文件构造通过识别POI用户的照片是适合的POI推荐。这项工作的主要贡献是介绍了Vis2Rec，这是一个新的照片视觉数据集，旨在研究这一假设。我们还希望Vis2Rec将刺激对创建基于用户的推荐算法的研究。图1中给出了Vis2Recproposed用法的简化说明。它从Flickr收集，包括7，158，454张照片，14，600个访问用户，36，111个POI和421，065个唯一POI访问。数据收集仅限于Creative-Commons许可的内容，以使其能够公开共享。2988其次，我们研究了可视化挖掘在配置文件构成过程中的作用。根据最近的趋势[3]，我们使用深度学习模型，通过利用Google Landmarks Dataset v2 [54]识别81kPOI。由于视觉分类器不需要用户的努力就可以将原始数据转换为配置文件，因此这种方法适用于大规模的实际应用。因此，模型识别许多POI的能力是创建覆盖大量城市或城镇（以下称为城市）的详细简档的驱动因素。所提出的配置文件提取过程被实例化用于创建Vis2Rec。然而，它更普遍地适用于创建丰富的游客配置文件，用户侧的努力最小这是因为原始数据被转换为可操作的提示，而不需要用户方面的努力，而不是基于签入的数据集（如Gowalla或Foursquare）所需的显式贡献[57]。我们比较了8个现有的推荐方法，这些方法根据第3节中的现有基准1提供了有希望的性能。配置文件仅基于用户图像上的POI的视觉识别。结果表明，从视觉数据中提取的信息适合推荐任务，Vis2Rec为最先进的推荐系统提供了一个新的基准。为了促进可重复性和刺激未来研究，数据集将在https://github.com/MSoumm/Vis2Rec上公开。2. 相关工作现有POI数据集。兴趣点是旅游访问的重要组成部分，其建议受到研究界的强烈关注[10，53]。最近的一篇综述讨论了基于多媒体内容的POI推荐因此，利用视觉数据集以引起用户在个性化其旅游体验的方向上的兴趣是自然的。在2009年的一项早期研究中，[19]的作者从旅游博客中收集了40万张图片。照片内容被挖掘并整合到一个基于图形的框架中，以在几十个大城市中提出个性化的访问。在 2010 年之前，从Panoramio收集了一个大规模的数据集，并将其用于名为Photo2Trip的POI推荐[28]。该数据集包括超过2000万个地理标记的图像和30，000个POI，覆盖100多个国家。POI发现是基于与图像相关联的地理标签的聚类而不是基于对图像内容的分析来完成的。在[2]中提出了一种更精确的基于地理标签的推荐器，其中作者在用户配置文件中引入了语义组件。在[2，28]中提出的一个重要假设是，地理标记对所有人1https://paperswithcode.com/task/净化系统照片.然而，情况往往并非如此，因为照片是用不记录地理位置的设备拍摄的，或者因为用户不愿意共享这两种类型的数据[46]。[51]中介绍的Instagram数据集包含在两个城市（纽约和芝加哥）拍摄的图像，并使用ImageNet LSVRC [39]预训练的视觉模型来描述图像内容。虽然作者表示该数据集将公开提供，但现在情况已不再如此，可能是由于与数据源选择相关的版权和用户同意问题。大规模POI相关数据集的不可用性使得方法的比较和结果的再现性变得我们引入这样一个数据集，以促进未来工作的健康发展。我们的工作受到阻碍出版物或导致撤回过去数据集的挑战的影响。为应对这些挑战而采取的措施涉及数据来源、权利和处理，详见第3.4节。同样令人感兴趣的是Gowalla检查[6]和FoursquareComplete [56]等数据集。它们是从基于位置的服务中挖掘出来的，并且基于用户的签到。虽然有趣，但我们的数据集有两个重要的区别：（1）他们需要用户的明确贡献才能签到，（2）他们的重点不是旅游，而是商业活动（ Gowalla ）或当地用户的文化地图（Foursquare）。此外，由于其大小和性质，将原始数据转换为POI访问所需的大量预处理通常导致仅考虑这些数据集的局部切片[57]。POI挖矿。这是我们方法的核心组成部分。POI推荐所用数据源的比较[40]强调了它们的互补性。[24]的作者介绍了一种有趣的方法，将文本、视觉和用户数据结合起来，将Instagram照片与POI相关联。然后，所获得的信息被聚集在表达他们的偏好的用户配置文件中。所做的一个假设是文本数据是可用的，这对于社交网络上共享的一部分图像是正确的，但对于大多数简单存储的用户图像则视觉POI识别是一个有吸引力的替代方案，因为它只需要照片本身，而无需用户端构建配置文件。这里的主要挑战是确保识别过程对于包括非常大数量的POI的搜索空间丰富的数据集（如Google Landmarks [54]）的可用性该任务可以使用分类或匹配方法来实现。最近的分类方法[8，55]使用深度架构，如EfficientNet[47]或视觉转换器[27]，隔离或集成，以自动标记图像中的POI。这个过程是快速的，因为它只需要对测试图像进行推理。然而，它重新-2989数据集名称域用户数项目数量互动次数附加信息亚马逊服装[36]电子购物58,19744,310422,474项目图像，项目功能[11]第十一话电影20,720136,67720M项目特征Netflix [1]电影463,43517,769100M项目特征美国（公告牌热门单曲榜）[57]旅行2,3215,596194,108用户关系[57]第57话旅行10,16224,250456,988用户关系Vis2Rec（我们的）旅行14,60036,111421,065用户图像、项目图像、项目功能表1：Vis2Rec（推荐过滤）与一些现有推荐系统数据集的比较对于可靠的分类，每个类别需要相对大量的标记图像深度视觉匹配[32]主要基于在一对图像中匹配的本地内容描述符。这里的挑战是使匹配过程可扩展，因为每个图像可能与所有可用的参考图像进行比较。最近的方法[3]通过实现两阶段匹配过程来降低过程的复杂性：首先使用轻量级全局描述来预选相似的参考图像。然后，仅为最有希望的预选候选者匹配局部特征。这样的方法在这里更适合，因为它们甚至可以针对几乎不表示的POI运行，并且可以部署到未明确学习的POI，这与分类方法相反。推荐在过去的几十年中，可用用户数据和处理能力的增加使得推荐系统主要依赖于协同过滤（CF）技术。虽然邻域方法（如user-knn）仍然是简单而有效的基线，但矩阵因子化（MF）方法[21，17，14，23]自Netflix Prize挑战赛以来一直占最近，新的推荐系统通过使用VAE架构[25，26，49，44]或图结构[13]来利用深度学习的进步虽然这些方法中的大多数主要依赖于用户-项目矩阵，但可以使用额外的视觉数据来增强推荐[36，12，33]。在这些作品中，只使用项目视觉特征。然而，[52]的作者，其设置与我们的工作最接近，表明使用用户图像对于POI推荐任务是有用的，但不幸的是，无法再找到使用的数据集。使用项目特征作为附加信息的动机主要来自于现有的数据。对最流行的推荐数据集（表1）的比较表明，可用信息通常包括大规模的用户-项目矩阵，以及项目特征和/或图像，以及最好的用户图形关系。尽管[52]的设置是有希望的，但用户图像数据的缺乏是该方向未来研究的障碍。3. Vis2Rec数据集Vis2Rec的目标是提供一个现实的和可持续的访问推荐的测试平台，基于用户的IM。年龄为了实现这一目标，我们需要解决技术、法律和道德方面的挑战。该数据集旨在大规模提出建议这些POI取自GoogleLandmarks v2（GLv2）[54]，以实现大规模的视觉POI识别。用户集的大小也很重要，以便捕获多样化的用户偏好。经过预处理的Vis2Rec包含14，600个用户、829，673张POI相关用户图像以及超过600万张额外图像。可持续性通过实施合法合规的数据收集和分发流程来确保。数据集仅包括访视日拍摄的可分发图像同样重要的是，人脸去识别技术被应用于确保用户的匿名性。我们在下面描述了数据集构建和打包的主要步骤，数据收集和结构化管道总结在图2中。3.1. 初始数据收集POI设置。GLv2 [54]是最大的公开可用的POI相关数据集之一，它是从维基媒体共享资源收集的。我们使用“干净”子集，其中包括总共1，580，470张图像，代表81，313个因此，GLv2适于创建主动访问推荐数据集，例如Vis2Rec。为了执行高效的数据查询，我们需要通过从与兴趣点相关联的维基百科页面中挖掘信息来丰富这个数据集所得到的数据集包括POI的名称（在可用时具有翻译）、其相关联的GPS坐标以及来自具有至少1000名居民的139，439个城市的Geonames2用户设置。Flickr提供了一个易于使用的API，用于大量收集图像和相关的元数据，因此是一个非常适合我们工作设置的数据源。我们使用POI名称启动FlickrAPI查询，使用坐标周围3公里的半径。这些照片仅限于在知识共享许可下分发的照片，以确保它们是可再分发的。为每个POI收集多达5000张照片的元数据，其中包含照片ID、用户ID和用户标签，以及照片的地理坐标。该过程提供了20k个预选用户的初始列表2https://www.geonames.org/2990图2：数据收集和注释管道。3.2. 领域相关数据选择图像收集应侧重于游客访问。更具体地说，我们收集与潜在访问日相对应的所有照片如果图像标记中包含至少一个POI名称，则保留日期。由于POI名称通常是模糊的[35，42]，因此需要进一步的后处理当一天中至少有一张照片的地理位置可用时，它用于检查位于10公里半径内的POI。如果地理位置不可用，我们采用基于文本的匹配，它使用概率地理语言模型[42]。该模型将访问日与基于在测试日期间使用的标签的位置概率的元数据的地理定位子集用于确定阈值，该阈值为检测到的访问日提供精确度和召回率之间的良好平衡这种匹配提供了每个用户的基于文本的配置文件[22]，用于为可视化数据集选择感兴趣的用户。直接使用基于文本的配置文件进行推荐[22，34]是可能的，但不是最佳的，因为用户需要提供其访问的明确文本注释，这通常会导致不完整的配置文件。所得到的中间数据集包括17k个用户配置文件和总共27k个文本注释的POI。3.3. POI的视觉匹配Vis2Rec旨在基于照片内容的唯一使用进行推荐，我们不应对数据集的文本注释或地理位置的可用性做出任何解释。这在实践中很重要，以便设计一个不需要用户任何努力的分析管道因此，我们根据标签收集中间数据集中确定的访视日然后使用DELG描述符[3]将这些照片与Google Landmarks v2数据集[54]中的POI图像进行比较。目视比对程序。视觉匹配使用DELG [3]执行，它在GLv2上实现了最先进的单模型实例级识别。我们只使用模型进行推理，因为预训练的权重可以在官方实现3中找到GLv2。候选图像和参考图像的视觉匹配分两步完成：1. 使用2048维全局嵌入来为搜索POI出现的每个候选图像从GLv2中选择按照惯例，前20个最相似的参考图像被保留用于第二步骤。2. 执行基于由DELG提供的128维局部描述符的几何验证过程，以细化相似参考图像的列表最终的排名是基于候选图像和参考图像之间匹配的关键点的数量。这两个步骤的过程是必要的，因为全球检索是快速的，但可能容易出错，而几何验证是缓慢的，但准确。每个候选图像与具有最高匹配分数的参考图像配对，并且与由该参考图像表示的POI相关键点的数量可以用作视觉匹配质量的置信度估计。结果由于DELG是在与Vis2Rec相同的POI集上进行预训练的，因此视觉匹配过程具有良好的定性结果（参见图3）。正确的识别是可能的范围广泛的设置，包括户外景观，室内建筑，以及困难的照明条件。然而，这个过程远非完美，在特定情况下会失败（图3）。通过分析视觉匹配的结果，我们可以识别三种类型的重复错误：（1）出现在世界不同区域并代表POI的对象（图3（d））;（2）特定于城市的视觉上相似的对象（图3（e））;和（3）视觉上相似的POI（图3（f））。第一种类型的误差可以通过去除与位于世界不同地区的目标图像相匹配的GLv2参考图像来减少为此，我们使用地理定位的验证集，并删除仅与15公里以外的POI匹配至少5次的任何参考图像。剩余的空间像差通过为每天选择最可信的POI检测并去除与距离其远于100 km的POI相对应的检测来去除。这种地理过滤删除了超过100万张图像。3https://github.com/tensorflow/models/tree/硕士/研究/博士2991图3：DELG提供的视觉匹配示例。模型正确识别：（a）户外景观;（b）室内场景;（c）不同的照明条件。错误可能由以下原因引起：（d）相同的物体在不同的地方;（e）特征相同的标志;（f）类似的架构。第二种类型的错误是最难处理的，因为空间标准和良好的匹配分数阈值都不能处理它们。第三类错误通常与较低的匹配分数有关。通过手动验证几百个匹配的图像对，我们观察到匹配分数为30导致至少98%的准确度。有趣的是，这与GLv2文章[54]中选择的生成“干净”子集的阈值一致，并且与导致最佳推荐结果的阈值一致在接下来的工作中，这是默认选择的阈值。3.4. 数据分布我们为检测到的POI和用户访问提供了网络级别的统计数据。这些统计数据是在应用第3.3小节中描述的视觉匹配错误缓解措施，并导致由36，111个唯一POI组成的数据集，在820，593张图像上描绘，对应于421，065次唯一用户访问。由于这些统计数据高度依赖于所选择的匹配阈值，因此分布式数据集包含所有POI预测而无需任何过滤以允许进一步研究和POI发现。图4：已识别访问的空间分布。较暗的点对应着大量的认同。已识别的POI。图4显示了世界各地已查明的访问的分布情况，以及相关的检测数量。所获得的分布与全球游客访问趋势一致[50]，并显示了西欧、北美东海岸和西海岸以及东亚和东南亚的POI高度集中该分布也受到Flickr使用趋势的影响，并证实了先前对该平台上共享的地理定位照片的分析[7，35]。图5和图6分别给出了每个城市的已识别兴趣点数量和访问数量的分布。它们都表现出长尾形状，具有大量识别的POI和集中在大型旅游热点（诸如伦敦、巴黎、纽约市）的访问，并且与其他城市相关联的访问显著较少。有关访问POIS和访问不同城市的更多详细信息，请参见补充材料。图5：前200个城市中已识别POI数量的分布。图6：前200名城市用户访问量分布2992用户访问。在Vis2Rec中生成的用户配置文件丰富而多样化。首先，84%的用户访问了至少5个兴趣点，这是推荐系统中用于过滤目的的常用阈值，而中位数用户访问了16个不同的兴趣点。其次，95%的用户访问过不止一个城市，8是中位数用户访问过的城市数量，从而产生了丰富的旅行资料。这些观察结果可以很容易地解释为，旅行图片经常被上传到Flickr，以突出其非凡的性质。因此，应该记住，Vis2Rec不包含代表其用户日常生活的图像，但更多的是他们的度假旅行。更多图片。在7，158，454张总图像中，有信心的POI检测占11%。我们估计有100万到200万张其他图像可以描述POI，通过降低匹配分数阈值将它们视为有效，这将使POI集增加到大约60k个唯一POI。然而，这在用户配置文件中引入了许多误报，导致较低的推荐性能。根据这一观察，在我们的整个工作中保持30个匹配关键点的阈值其余图像是非POI个人用户照片，并分发用于潜在的进一步工作。3.5. 数据集分区和注释分裂。数据集被分成训练、验证和测试子集，以使基于学习的推荐方法能够应用于它。验证和测试子集被进一步分为输入和目标，前者被用作用户已知的配置文件，以获得推荐，后者计算度量和基准推荐系统。对目标集进行验证，以确保推荐基准的意义。我们根据POI的数量预先选择前200个城市，并寻找在这些城市中多次访问的用户。我们隔离2,100个这样的用户，并确定他们的地面实况访问自动或手动注释。自动注释。在初步实验中，我们分析了随机样本的目标参考图像对提供的几何匹配过程。我们基于匹配分数将匹配对划分为bin，每个bin对应于10个关键点窗口。然后，我们从每个箱中随机抽取500个样本，并对匹配对进行手动验证。结果表明，当匹配的关键点数量大于40时，视觉匹配的准确率超过99%。由于测试集需要比训练集更自信的注释，我们决定将共享超过40个关键点的所有对标记为正确。手动注释。对于验证和测试的目标子集的剩余部分，拆分#用户#项目#交互#图片火车13,06634,291343,2865,914,005测试/验证1,53416,82254,743951,012表2：为推荐而处理的Vis2Rec拆分简单，因为注释者需要决定目标参考对的两个图像是否三个注释器验证每一对，如果其中至少有两个注释器标记正确，我们认为匹配是正确的补充资料中提供了关于注释过程和接口的更多细节作为这种过滤的结果，只有1，534个用户具有超过5个注释的POI，这是推荐系统的常见阈值[20]。用户表2说明了由此产生的拆分。对于我们的实验，我们使用1000的测试集大小，并使用剩余的534个用户进行验证。3.6. 数据集合规性首先，Vis2Rec是通过官方Flickr API收集的，该数据源允许由用户最初共享的数据例如，著名的YFCC100M数据集[48]也是从Flickr收集的，今天仍然可用。第二，我们只保留在知识共享（CC）许可下共享的图像，数据集将使用与Vis2Rec中包含的最严格的CC许可证兼容的许可证发布，并且商业重用将明显不被允许。第三，我们将执行《通用数据保护条例》第4条第5条规定的数据最小化原则，仅共享POI推荐任务所需的数据。该数据集仅包括在与游客访问相对应的日子拍摄的图像。对《Vis2Rec》的定性分析表明，它包含了大量的个人形象。因此，这些面孔将在数据集中被去识别[29]，以保护所描绘的人的匿名性。4. POI推荐4.1. 任务和指标使用的数据。如第3.4节所述，DELG在Vis2Rec中识别的POI创建了适用于推荐系统的子集，但也包括可以进一步丰富配置文件的其他图像。由于本文的主要目的是描述数据集，我们基准推荐系统，工作在基于POI的配置文件。附加数据的使用有待于今后的研究工作。不幸的是，由于没有其他可用的用户. 共有10k个图像对，具有匹配分数低于40个的都是人工验证的。任务比较4https://gdpr-info.eu/art-5-gdpr/2993U{}I--我∈IΣΣλIJ我2我JYσ（uvj−u vl）BFFPOI图像推荐数据集，将此基准与其他数据源进行比较将是不公平的，因此此处不执行。符号。我们表示=u1，…un和为v1，…v分别是用户和项目（POI）的集合。我们假设隐含的积极反馈，因为我们等同于照片上传与访问项目的兴趣。此外，由于无法确定用户体验的范围，因此我们的数据是二进制的，包含在用户项矩阵R=[ri j]中。因此，用户u，i由表示他们的推断访问的稀疏二进制向量编码我们将用Sui表示我们想要为用户ui预测的项目集。WMF[17]. 在内隐反馈的情况下，观察到的交互比未观察到的交互包含更多的信息。加权矩阵分解对MF损失进行加权，从而使观测到的相互作用比未观测到的相互作用受到更多的惩罚。《业务流程重新审查》[38]。贝叶斯个性化排名将隐式反馈转化为有序偏好。它考虑与项v j交互而未与项v j交互的用户u iVl以最大化所有三元组上的联合似然：T T我我（i，j，l）建议管道。算法训练我们-让火车设定视觉预测。来自训练集的项目在其视觉匹配分数高于30时被认为是已访问然后，在测试阶段，算法接收表示用户u i的已知访问的测试输入稀疏向量uinput，并预测每个v j的评级rij. 然后通过降低评级分数来计算排名指标，即 Recall@N 和NDGC@N，通常在推荐系统基准测试中[41]。为了获得与基线方法的公平比较，我们将预测项目过滤到位于测试用户访问的城市中的POI。有关指标的更详细讨论，请参阅补充材料。4.2. 推荐方法我们的目标是基准Vis2Rec的推荐系统，基于一个交互矩阵，将用户和POI相关联。我们在下面讨论测试方法。Oracle.一个完美的推荐系统，产生一个列表的火车项目真正访问的用户。由于某些测试项可能不存在于训练集中，并且排名度量使用前N个推荐列表（取决于N，其可能太小而不能覆盖所有目标项），因此Oracle系统为我们提供了性能上限。最流行的“旅游指南”的建议，其中建议最受欢迎的项目为大家。基于访问POI的训练用户的计数来计算人口。这是一个强有力的基线，因为它聚集了一个庞大的旅行者社区的利益[34]。User-KNN.计算u i中已知项目的向量与所有训练用户u i ′的向量之间的相似度（通常为余弦）Si m（ui，ui′），然后预测得分NeuMF[14]. 神经矩阵分解处理recom-作为关于二进制Rij的分类任务的修正。它结合了浅层（广义矩阵分解）和深层（MLP）用户和项目表示，并且在隐式评级设置（如我们的设置）中优于MF。[45].一个流行而简单的推荐系统，在许多数据集上都有接近最先进的结果。它计算一个项目-项目权重矩阵，类似于SLIM [31]，但更有效，通过求解：min||R−BR||2+λ||B||2，s.t.诊断（B）=0一个封闭的解决方案。RecVAE[44]. 变分自动编码器是深度学习架构，它比简单的自动编码器更好地学习潜在空间通过利用潜在空间中的采样机制，它们不太容易过度拟合，并在MovieLens 20M和Netflix数据集上实现了最先进的结果。我们使用RecVAE变量，它受到β-VAE [16]和降噪VAE [18]的启发，并适用于隐式二进制数据设置。4.3. 标杆方法论我们使用Cornac5库训练了第4.2节中描述的所有方法。RecVAE，这是不存在的原生，重新实施。所有方法都在训练集上训练，并在需要时在验证集上进行微调为每种方法找到的优化超参数集在补充材料中有详细说明结果测试中两个基准测试任务的结果在表3中报告。对于可训练的方法，五个跑-勒吉 =vi′∈N（ui）Sim（ui，ui′）×ri′jui′∈N（ui）|Si m（ui，ui′）|聚集domized试验并报告平均性能。每个指标的标准差为其中N（u）是u的前k邻域。0.005的数量级最佳性能根据所有MFi i度量是用RecVAE获得的，然后是EASE，[21]第20段。这是Netflix Challenge推出的一款游戏通过梯度下降学习用户和项目的潜在向量ui和vj与第一种方法相关的显著增益。由于我们的数据是二进制和积极的，因式分解方法下，derperform甚至相比，MostPop。的高分r=uTv+（||u||+的||v||）5Jhttps://github.com/PreferredAI/cornac2994召回@20召回@50NDGC@20NDGC@50Oracle0.93930.96750.98160.9794MostPop0.27770.45090.22400.2897User-KNN0.27450.45180.19560.2642[21]第二十一话0.21960.42390.12550.2043业务流程重新设计[38]0.28060.46360.22400.2939WMF[17]0.27350.46290.20090.2743NeuMF[14]0.25570.42790.20230.2665[45]第四十五话0.29790.47870.24750.3176RecVAE [44]0.34100.51400.30030.3644表3：在Vis2Rec上测试的推荐系统的性能。表4：消融用户配置文件或用户数量时的结果差异。列出了与表3结果的相对差异MostPop还表明，用户倾向于只适度偏离游客的平均行为，这有利于著名的POI超过模型城市的其他文化提供这使得任务更有趣，因为更好的性能所需的信息必须通过更先进的方法提取。使用RecVAE完成的用户项空间这里报告的结果构成了一个健全的基线，为未来的工作，将使用Vis2Recas，因为他们涵盖了一个大面板的方法。消融研究。表4描述了分别从Vis2Rec中消融POI识别和培训配置文件时的推荐我们报告的结果，最好的两个算法确定的完整数据，以及那些为MostPop基线。MostPop对消融具有鲁棒性，这表明数据集足够大，可以创建推荐POI的稳定的基于流行度的排名。相比之下，EASE和RecVAE受到消融的负面影响。这是直观的，因为它们依赖于从用户-项目交互中学习到的更细粒度的线索。消融50%的已识别POI具有最强的影响，RecVAE的性能降低最多7个百分点。不过，如果剔除25%的兴趣点，相应的减幅只有3个百分比这一观察结果，以及删除25%用户配置文件时获得的稳定结果表明，训练集的总大小允许推荐算法的鲁棒基准测试。5. 道德和社会影响推荐系统为用户提供了一种有用的服务，但由于它们所要求的隐私-个性化权衡[37]以及它们所产生的偏见[4]，它们的广泛使用也引起了强烈的意识到第一个挑战，我们提出了一个只包括可再分发的公共内容的数据集，我们将图像的分发限制在访问日拍摄的图像上，并对所有包含人脸的图像进行匿名化，如子节3.6所述。此外，所提出的Vis2Rec的用例可以在其中在用户的设备上进行简档构建和推荐的场景中实现在政治领域[30]或与电子商务相关的过度消费[15]中，特别强调了歧视产生的偏见的负面影响后一种风险可能发生在推荐游客访问时，并可能导致用户的碳足迹增加，但可以通过倾向于推荐附近目的地的访问来减轻。这些建议符合COVID-19大流行后观察到的旅游趋势[43]，并可能被用户接受。6. 结论我们引入Vis2Rec，一个用于访问识别的数据集，以填补该领域缺乏大规模公开可用资源所产生的空白。我们描述了它的宪法，实施的措施，以确保其可持续的分布，评估方法，和基准的一组不同的推荐算法。结果表明，本文提出的任务是有挑战性的，因此需要进一步的研究来提高性能。在这里报告的有希望的结果的鼓舞下，我们讨论了潜在的改进轴。首先，我们通过使用最近的视觉匹配算法[3]获得了基于图像中POI识别的推荐结果图像的分布有助于包含未来可能开发的更强其次，图像包含额外的线索，可以利用这些线索来获得更全面的配置文件[52]，并最终改进建议。这种丰富是可能的，因为建议分配用户在每个访问日上传的所有Flickr图像。第三，Vis2Rec提供了可以利用的额外数据这里提出了简单使用地理时态数据，但更精确的技术，如[23]可能会证明是有益的。也可以为Vis2Rec提取更高语义和更细粒度语义级别的数据。最后，我们将用户配置文件提供给各种推荐算法，以突出数据集的使用情况测试其他新算法（如[26，12，36]及其未来的发展）以提高性能将是有趣的。联系我们联系我们公司简介 50岁以下最流行0.00 0.00 0.00.0025% EASE-0.02-0.03-0.02-0.02RecVAE-0.02 -0.03-0.04-0.03最流行0.00 0.00 0.00 0.0050% EASE-0.04-0.05-0.05-0.05RecVAE-0.07 -0.01-0.07-0.07最流行0.00 0.00 0.00 0.0025% EASE-0.01-0.01-0.01-0.01RecVAE 0.00 0.00 0.00最流行0.00 0.00 0.00 0.0050% EASE-0.02-0.02-0.02-0.03RecVAE-0.02-0.02-0.02-0.02用户消融POI消融2995引用[1] 詹姆斯·班尼特，斯坦·朗宁，等。网络奖。KDD杯和研讨会的筹备工作，2007年第35页。Citeseer，2007.[2] 蔡国辰，李京美，李一斋。从地理标记的照片中挖掘语义轨迹模式的行程记录系统。专家系统与应用，94：32[3] Bingyi Cao，Andre Araujo，and Jack Sim.统一图像搜索的深度局部和全局特征。在European Conference onComputer Vision，第726Springer，2020年。[4] Jiawei Chen，Hande Dong，Xiang Wang，Fuli Feng，Meng Wang，and Xiangnan He.推荐系统中的偏倚和去偏倚：调查和未来方向。 arXiv 预印本 arXiv ：2010.03240，2020。[5] Lei Chen，Lu Zhang，Shanshan Cao，Zhiang Wu，andJie Cao.个性化行程推荐：利用文本信息进行深度协作学习。专家系统与应用，144：113070，2020。[6] Eunjoon Cho，Seth A Myers和Jure Leskovec。友情与流动性：友情与流动性：基于位置的社交网络中的用户移动友谊和移动性。基于位置的社交网络中的用户移动ACM SIGKDD 知识发现和数据挖掘国际会议（KDD），2011年。[7] DavidJCrandall，LarsBackstrom，DanielHuttenlocher，and Jon Kleinberg.绘制世界各地的照片。第18届万维网国际会议论文集，第761-770页，2009年[8] 戴树斌。2021年谷歌地标识别竞赛第二名解决方案。arXiv预印本arXiv：2110.02638，2021。[9] Aminu Da'u和Naomie Salim基于深度学习方法的推荐系统：一个系统的回顾和新的方向。人工智能评论，53（4）：2709[10] Yashar Deldjoo，Markus Schedl，Paolo Cremonesi，andGabriella Pasi.利用多媒体内容的推荐系统。ACM计算调查（CSUR），53（5）：1-38，2020。[11] F Maxwell Harper和Joseph A Konstan。Movielens数据集：历史和背景。 Acm transactions on interac- tiveintelligent systems（tiis），5（4）：1[12] 毁了他和朱利安·麦考利内隐反馈的视觉巴氏在AAAI人工智能会议论文集，第30卷，2016年。[13] Xiangnan He ， Kuan Deng ， Xiang Wang ， Yan Li ，Yongdong Zhang，and Meng Wang. Lightgcn：简化和增强图形卷积网络以供推荐，2020。[14] Xiangnan He，Lizi Liao，Hanwang Zhang，Lian Nie，Xia Hu，and Tat-Seng Chua.神经协同过滤，2017年。[15] Morrant Hemans和Dickson Kofi Wiredu Ocansey。推荐系统过度使用对网路使用者主观幸福感之影响2021年。[16] Irina Higgins、Loic Matthey、Arka Baglio、ChristopherBurgess 、 Xavier Glorot 、 Matthew Botvinick 、 ShakirMohamed和亚历山大·勒施纳beta-VAE：使用约束变分框架学习基本视觉概念。在2017年国际学习表征会议[17] Yehuda Koren和Chris Volinsky。隐式反馈数据集的协作过滤。在2008年第八届IEEE数据挖掘国际会议上，第263- 269页272. IEEE，2008年。[18] Daniel Jiwoong Im，Sungjin Ahn，Roland Memisevic，and Yoon-Bengio.变分自动编码框架的去噪准则，2015年。[19] Rongrong Ji，Xing Xie，Hongxun Yao，and Wei-YingMa.基于图建模的博客城市地标信息挖掘。第17届ACM多媒体国际会议论文集，第105-114页，2009年[20] 约瑟夫A Konstan和Gediminas Adomavicius。算法推荐系统研究中最佳实践的识别和采用。在Proceedings oftheinternationalworkshoponReproductivityandreplication in recommender systems evaluation，第23-28页[21] Yehuda Koren，Robert Bell，Chris Volinsky.推荐系统中的矩阵计算机，42（8）：30[22] 仓岛武，岩田友晴，入江高，富村光.使用地理标记的照片推荐旅行路线。知识与信息系统，37（1）：37[23] Xutao Li，Gao Cong，Xiaoli li，Tuan-Anh Pham，andShonali Krishnaswamy.Rank-geofm：一种基于排名的地理因子分解方法，用于兴趣点推荐。SIGIR，2015年9月。[24] Xutao Li，Tuan-Anh Nguyen Pham，Gao Cong，QuanYuan，Xiao-Li Li，and Shonali Krishnaswamy.你在哪？将你的Instagram照片与兴趣点相关联。第24届ACM国际信息和知识管理会议论文集，第1231-1240页，2015年

下载后可阅读完整内容，剩余1页未读，立即下载