多模态社交图像流行度预测的分层注意力网络

125 浏览量更新于2023-10-16 收藏 14.1MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

12770用户引导的多模态社交图像流行度预测的分层注意力网络0Wei Zhang 上海市可信计算重点实验室华东师范大学上海市普陀区 zhangwei.thu2011@gmail.com0Wen Wang 上海市可信计算重点实验室华东师范大学上海市普陀区 51164500120@stu.ecnu.edu.cn0Jun Wang 上海市可信计算重点实验室华东师范大学上海市普陀区 jwang@sei.ecnu.edu.cn0Hongyuan Zha 计算科学与工程学院佐治亚理工学院亚特兰大，乔治亚，美国zha@cc.gatech.edu0摘要0对于不断增长的社交图像的流行度预测为广告精准投放和推荐系统等广泛的商业应用提供了前所未有的机会。虽然有少数研究探讨了这个重要任务，但很少有研究涉及到视觉和文本两种模态的非结构化属性，并进一步考虑从多模态中学习有效的表示来进行流行度预测。为此，我们提出了一种名为用户引导的分层注意力网络（UHAN）的模型，该模型具有两种新颖的用户引导注意机制，用于分层关注视觉和文本两种模态。它不仅能够学习每种模态的有效表示，还能够在用户嵌入的指导下将它们融合成一个综合的多模态表示。由于没有基准数据集存在，我们通过添加图像描述来扩展一个公开可用的社交图像数据集。全面的实验已经证明了我们提出的UHAN的合理性以及其比几种强有力的替代方案更好的性能。0CCS概念0• 信息系统 → 内容分析和特征选择；个性化；• 计算方法 →神经网络；0关键词0社交图像流行度；多模态分析；注意力网络0ACM参考格式：Wei Zhang，Wen Wang，Jun Wang和HongyuanZha。2018年。用户引导的多模态社交图像流行度预测的分层注意力网络。在WWW2018：2018年网络会议上，2018年4月23日至27日，法国里昂。ACM，美国纽约，10页。https://doi.org/10.1145/3178876.31860260本文发表在知识共享署名4.0国际许可证（CC BY4.0）下。作者保留在个人和公司网站上传播作品的权利，并附上适当的归属。WWW2018，2018年4月23日至27日，法国里昂，© 2018IW3C2（国际万维网会议委员会），根据知识共享CC BY 4.0许可证发布。ACM ISBN978-1-4503-5639-8/18/04。https://doi.org/10.1145/3178876.31860260图1：我们数据集中社交图像的示例。每一行对应一个用户。每行中的图像从更受欢迎（左侧）到不太受欢迎（右侧）排序。01 引言0在Web2.0时代，在线社交网络中的用户生成内容（UGC）随着信息技术的发展而变得普遍存在和普及，从而引发了大量的信息爆炸。UGC流行度预测任务[35]试图推断用户与特定UGC之间的交互总数（例如点击、喜欢和查看）。这个任务对于内容提供商和消费者来说都至关重要，并且在包括在线广告[20]和推荐系统[4]在内的各种实际应用中都有广泛的应用。社交图像可能是最具代表性的UGC之一。近年来，它在各种社交媒体平台上迅速增长，并广泛存在于Flickr、Instagram、Pinterest和微信等社交媒体中。由于不同社交媒体的主题和目的不同，这些平台上的社交图像并不完全相同。其中，最常见的三种是社交图像本身（视觉模态）、其对应的描述（文本模态）和发布者（用户）。自然而然地，上述情况引发了一个有关流行度预测的有趣而基本的挑战，即如何在同时考虑用户影响的情况下有效地融合来自视觉和文本模态的知识以预测社交图像的流行度。虽然有少数研究调查了社交图像流行度预测的问题[9,16,40,41]，但其中大多数研究在很大程度上依赖于精心设计的手工特征，但忽略了从多模态中自动学习联合和有效的表示，特别是对于图像和0Track: Web Content Analysis, Semantics and Knowledge WWW 2018, 2018年4月23日至27日，法国里昂London bike show 2006 Yamaha R1text. On the other hand, some studies have considered to combinesome or all of user, text, and image information sources in theirstudies [7, 23, 29], and multi-modal learning has achieved greatsuccess in tasks like visual question answering (VQA) [1] and imagecaptioning [15]. Nevertheless, the effort of applying multi-modallearning to multi-modal image popularity prediction problem hasnot been observed, let alone further considering user influence inmulti-modal learning for this problem.In this paper, we propose a user-guided hierarchical attentionnetwork (UHAN) for addressing the social image popularity pre-diction problem, which is to predict the future popularity of a newimage to be published on social media. UHAN proposes two noveluser-guided attention mechanisms to hierarchically attend bothvisual and textual modalities (see Figure 2). More specifically, theoverall framework mainly consists of two attention layers whichform a hierarchical attention network. In the bottom layer, theuser-guided intra-attention mechanism with a personalized multi-modal embedding correlation scheme is proposed to learn effectiveembedding for each modality. In the middle layer, the user-guidedinter-attention mechanism for cross-modal attention is developedto determine the relative importance of each modality for eachuser. Besides, we adopt a shortcut connection to associate the userembedding with the learned multi-modal embedding, hoping toverify its additional influence on popularity.The intuition of utilizing user guidance behind our model is thateach user has its own characteristics and preferences, which willinfluence the popularity of his images. To verify this, we sampleseveral social images from three selected users and show them inFigure 1. According to the illustration below the figure, we caneasily find that the user in the middle row has several images aboutdogs and most of them are more popular than his other images.For the user in the bottom row, a similar phenomenon can be seenthat his images about cultural and natural landscapes are more12780伦敦自行车展2006年雅马哈R10伦敦自行车展2006年雅马哈R10[最终表示]0[用户]0[描述]0[用户]0[图像]0[注意的描述]0[注意的图像]0[注意的模态]0图2:来自Flickr的用户引导的分层注意力机制示例图。�表示用户引导的内部注意力机制，⊕表示用户引导的跨模态注意力机制。描述中的红色字体表示更大的注意力权重。0对于普通用户来说，伦敦自行车展2006年的雅马哈R1非常吸引人。此外，直觉上视觉和文本模态有望互补。这是通过图2中的示例所示的，“YamahaR1”是图像中自行车的一个主要指标，反之亦然。联合建模将有助于捕捉更多有用的信息。由于目前没有公开可用的涉及非结构化视觉和文本模态的基准数据集，我们通过简单地扩展一个现有的公开可访问的数据集[40]，通过爬取相应的描述并将其与数据集中的条目关联起来，构建了这样一个社交图像数据集。我们在该数据集上进行了全面的实验，并证明了以下几点：1)我们提出的UHAN比几种强有力的替代方法取得了更好的结果；2)视觉和文本模态对于所研究的问题确实是有益的；3)UHAN的设计是合理的，具有两种有效的用户引导注意力机制。本研究的主要贡献可以总结为三个方面。0•我们提出了一种新颖的用户引导的分层注意力网络，有效地学习用户个性化、视觉和文本模态的多模态表示，并将表示学习和图像流行度预测无缝地集成到端到端的方式中。•我们提出了两种新颖的用户引导注意力机制，即用户引导的内部注意力机制用于学习每个单模态表示和用户引导的跨模态注意力机制用于融合多模态表示。•为了验证我们模型的优势，我们通过简单地扩展一个公开可访问的数据集[40]，并使用爬取的图像标题和介绍，获得了一个真实的多模态社交图像数据集。我们公开提供源代码和数据集1，以便其他研究人员重复实验并进行进一步研究。01 https://github.com/Autumn945/UHAN0跟踪：Web内容分析，语义和知识WWW 2018年4月23日至27日，法国里昂127902 相关工作0我们简要回顾了与我们的工作相关的研究，从三个方面介绍了受欢迎度预测的研究，包括不同的问题设置和方法。然后，将文献中的深度多模态学习模型进行分类，并阐明与我们模型的联系。最后，介绍了现有的代表性注意机制，并强调了我们的创新之处。02.1 受欢迎度预测0大量研究集中在社交媒体受欢迎度预测上，这个研究领域已经持续了半个多世纪[33, 35]。[8, 27, 37,45]从文本模态的角度研究了社交内容预测。其中大部分是基于手工特征的。例如，考虑基本词频和从主题建模中提取的主题特征[3]。通过利用点过程的连续时间建模能力[10]，Zhao等人[45]提出了对动态推文受欢迎度进行建模的方法，随后Liu等人[42]开发了一种基于特征的点过程来预测动态论文引用次数。然而，正如[12]强调的那样，受欢迎度的动态数据不容易获得，这限制了其实际应用。因此，在本文中，我们专注于预测将要在社交媒体上发布的新社交图片的未来受欢迎度。近年来，视觉模态在文献中引起了越来越多的关注[5, 16, 40,41]。其中，Chen等人[5]采用了传导学习，需要同时进行模型学习和预测，不容易扩展到在线预测。由于该方法是为了预测微视频的受欢迎度而提出的，与我们的任务不同。Wu等人[40,41]从顺序预测的角度研究了社交图片的受欢迎度。他们对目标图片的预测建模了目标图片之前发布的其他图片的时间上下文（即特征），这与我们的研究是并行的。[9,16]是与我们最相关的研究。然而，它们依赖于耗时的特征工程来获取各种手工制作的视觉和文本特征，并且特征表示和模型学习分为两个不同的阶段。在本文中，我们通过专注于将来自非结构化文本和视觉模态的表示学习与受欢迎度预测整合到一个统一模型中来探索社交图片受欢迎度预测问题。02.2 深度多模态学习0多模态学习的研究历史悠久[39]，其集中于从具有不同模态的多个来源中学习[44]。近年来，随着深度学习方法的兴起[21]，深度多模态学习模型开始迎头赶上。正如Ngiam等人[30]总结的那样，深度多模态学习涉及三种类型的设置：1）多模态融合，2）跨模态学习，以及3）共享表示学习。其中，多模态融合满足了我们的问题设置。Nojavanasghari等人[31]通过使用密集连接的前馈神经网络将视觉、声音和文本特征融合来研究说服力预测。Lynch等人[26]提出了将深度视觉特征和基于词袋的文本特征向量连接起来以学习排名搜索结果的方法。为了确保快速相似性0还提出了基于计算和哈希的深度多模态学习[14,38]。此外，深度多模态学习在VQA方面取得了巨大的成功，从早期的简单多模态融合[1]发展到后来更复杂的深度方法[17,29]。然而，据我们所知，尚未提出任何多模态深度学习方法来进行多模态受欢迎度预测任务，这促使我们朝着这个目标迈出一步。02.3 注意机制0为了从图像中选择重要区域[28]或更关注与机器翻译相关的特定单词[2]，注意机制被提出并兴起。正如第1节中所阐述的动机，我们更关注多模态注意力。它有两个重要的应用，即视觉问答[1]和图像字幕[15]。许多标准的基于多模态的方法仅利用文本表示来学习视觉表示的注意力[6, 25,43]，而没有提供对文本模态的注意力。直到最近，才提出了对视觉和文本模态的注意力，例如双重注意网络[29]。另一方面，多模态注意力学习方法很少考虑个性化，除了[7]。然而，该研究仅利用单一的注意机制生成单词序列，这使得该方法与我们提出的为多模态流行度预测提出用户引导的分层注意机制的方法在根本上有所不同。0我们提出的UHAN0所提出的UHAN的整体架构如图3所示。UHAN的输入是一个三元组，每次包括文本表示、视觉表示和用户表示，稍后将进行澄清。基于此，UHAN首先利用提出的用户引导的内部注意力分别为文本和视觉模态学习出被关注的嵌入。此外，UHAN采用了新颖的用户引导的交叉注意力来判断不同模态对特定用户的重要性。通过这种方式，它进一步获得了一个被关注的多模态表示。此外，采用了一条快捷连接将用户嵌入与学习到的多模态嵌入关联起来，用于最终的流行度预测。在我们继续详细说明模型之前，我们首先正式定义多模态社交图像流行度预测问题并提供一些基本符号（第3.1节）。然后我们介绍文本和视觉模态的输入表示（第3.2节）。接下来，我们介绍用户引导的分层注意机制（第3.3节）。最后，我们说明流行度生成及其学习过程（第3.4节）。03.1 问题定义0在给出所研究问题的公式之前，我们首先介绍一些后面使用的数学符号。在本文中，我们用粗体大写字母表示矩阵，用粗体小写字母表示向量。我们首先将社交图像集合表示为I，并且其大小为N。如第1节所讨论的，我们关注社交图像的三个最基本元素。对于集合中的第i个图像实例Ii，我们将其详细表示为{Vi, Hi,ui}，其中Vi、Hi和ui分别对应于视觉表示、文本表示和用户表示。当结束时0Track: Web Content Analysis, Semantics and Knowledge WWW 2018, April 23-27, 2018, Lyon, France512512512ˇwt = WW wt .(1)tW otHo totttˇu = WU u.(7)12800伦敦自行车展2006年雅马5020嵌入0LSTM014×14×5120196×5120重塑0VGGNet0池化0池化0内部0注意力0内部0注意力0交叉0注意力0线性0嵌入0非线性层0得分0图3：我们提出的UHAN模型的架构。为简单起见，用户嵌入和LSTM的隐藏状态的维度都设置为512，与视觉模态相同。然而，上述模型可以通过必要的线性变换轻松扩展到不同模态维度不相等的情况。0确定时间后，我们可以通过考虑在该时间段内的互动总数来得到图片I i 的真实流行度得分，定义为 y i。因此，根据上述符号，我们正式定义了上述问题：0问题1（多模态社交图像流行度预测）。给定一张要在社交媒体上发布的新图片 I i ，目标是学习一个函数 f : V i , H i , u i → y i，以预测其最终的流行度得分。0接下来，我们以图片实例 I i为例介绍UHAN。为简单起见，我们稍后将省略相关符号的上标 i。在本文中，我们将嵌入和表示这两个术语互换使用。03.2 输入表示的构建0提取视觉表示：通过预训练的VGGNet模型[34]获得图像嵌入。为了满足模型的输入尺寸要求，我们首先将所有图像调整为448×448。按照惯例[29]，我们将VGGNet的最后一个池化层视为特征提取器，得到视觉表示 V = [ v 1 , . . . , v M ] ，其中 v m ∈ R 512 。M表示图像区域的数量，在本工作中等于196。因此，一张图片可以表示为196个维度为512的向量。编码文本表示：对于社交图片 I i，它有一个描述 D = { w t } l t = 1 ，其中 w t 是位置 t处的one-hot嵌入。l 是描述的长度，应满足 l ≤ L ，其中 L是描述的最大长度，在图3中表示为50。因此，我们可以得到原始的文本表示 H = [ w 1 , . . . , w l ]，符合问题1的要求。由于建模词序列以理解语言的性能良好[6，36]，我们进一步采用长短期记忆（LSTM）[13]来编码文本表示 H 。在0我们将单词的one-hot嵌入输入到LSTM中，首先通过单词嵌入矩阵W W 将它们转换为低维密集向量 ˇ w t ：0在收集到向量 { ˇ w t } l t = 1后，我们将它们输入到LSTM中生成顺序隐藏状态。在每个时间步骤中，LSTM单元具有输入门 i t ，输出门 o t ，遗忘门 f t 和细胞状态c t 。通过以下方程计算相应的隐藏状态 h t ：i t = σ ( W W i ˇ wt + W Hi h t − 1 + b i ) ，(2)0f t = σ ( W W f ˇ w t + W Hf h t − 1 + b f )，(3)0c t = f t ◦ c t − 1 + i t ◦ tanh ( W W c ˇ w t + W Hch t − 1 + b c ) ，(5)0其中 ◦ 是Hadamard乘积。W W ∙ ，W H ∙ 和 b ∙是要学习的LSTM参数。σ是sigmoid激活函数。经过每个时间步的循环计算，我们收集一系列隐藏状态 { h t } l t = 1 。我们将它们表示为 ˇ H = [ h 1 , . . . , h l]，稍后将在用户引导的分层注意力计算中使用。编码用户表示：社交图片 I i 的发布者（用户）最初表示为one-hot表示 u。为了将其转换为低维嵌入 ˇ u ，我们定义一个用户嵌入矩阵 W U，并进行以下转换：0直观上，用户嵌入可以捕捉到一些用户的隐藏特征，例如偏好，这将用于指导多模态表示的学习。总之，我们有视觉表示 V ，文本嵌入 ˇH 和用户嵌入 ˇ u作为用户引导的分层注意力计算的输入。我们应该强调UHAN0跟踪: 网页内容分析、语义和知识 WWW 2018年4月23日至27日，法国里昂¯h = 1l · ˇH�1,(8)rV,m = W1Vtanh(W1Vvvm) ◦ tanh(W1Vu ˇu) ◦ tanh(W1V t ¯h) , (9)αV = Softmax(rV ).(10)�v =mαV,m · vm.¯v =1196 · V�1.(12)12810将一起学习所有上述参数，包括用户和单词嵌入矩阵以及LSTM的参数。03.3 用户引导的分层注意力机制0我们的模型UHAN在不同层中执行用户引导的内部注意力和交互注意力计算，形成一个层次化的注意力网络，可以从视觉和文本模态中学习到更合适的表示。用户引导的内部注意力机制:该注意力机制旨在分别关注每个模态以获得文本和视觉嵌入。因此，它实际上包含两个注意力计算，一个用于视觉模态，另一个用于文本模态。然而，我们应该强调的是，每个模态的注意力计算都基于一个涉及用户、视觉和文本嵌入的个性化多模态嵌入相关方案。我们首先明确指出用户引导的分层注意力计算的所有输入的维度，即 V ∈ R196 × 512 , ˇ H ∈ R L × K W , 和 ˇ u ∈ R K U . K W 和 K U分别是单词和用户嵌入的维度。为了与图3所示保持一致，我们将 L= 50, K W = 512, 和 K U = 512以便更容易展示。在介绍如何计算这两个注意力之前，我们应该澄清的是，视觉和文本模态的注意力是同时计算的。 (1)视觉模态的注意力计算。根据上述规范，我们通过以下方程将文本嵌入矩阵转换为向量表示 ¯ h :0其中 � 1 是一个所有元素都为 1的向量。这个方程可以被视为对单词序列的隐藏状态进行均值池化操作，以获得一个用于关注视觉模态的集成文本表示。之后，用户和文本的表示都是向量。我们正式定义了用于确定视觉注意力的个性化多模态嵌入相关方案的计算公式如下:0其中 r V , m 表示目标图像中区域 m 的重要性得分。采用 tanh函数可以确保不同模态的值映射到相同的窄空间，这有利于基于梯度的优化算法 [ 18]。视觉模态的内部注意力参数矩阵满足以下要求，即 W 1 V ∈ R 1× 512 , W 1 Vv , W 1 Vu 和 W 1 V t ∈ R 512 × 512。上述方程的直观解释是，它可以被视为计算每个视觉区域与用户和文本嵌入的相关性。因此，用户和文本可以引导视觉模态的注意力学习，并指示图像中哪个区域对于揭示受欢迎程度很重要。假设 α V表示注意力重要性的概率分布，给定如下:0最后，根据注意力分布，我们可以通过以下方式获得一个受关注的整个图像表示 � v :0(2)文本模态的注意力计算。根据方程8，我们首先定义均值池化公式，以获得视觉模态的向量表示 ¯ v 如下:0同样，对单词序列的每个隐藏状态表示也进行了进一步的注意力计算:0r T, t = W 1 T • tanh(W 1 T t h t) ◦ tanh(W 1 Tu ˇu) ◦ tanh(W 1Tv ¯v)，(13)0α T = Softmax(r T)，(14)0其中文本模态的内部注意力参数矩阵满足W 1 T ∈ R 1 × 512，W 1Tv，W 1 Tu和W 1 T t ∈ R 512 × 512。r T, t表示隐藏状态ht的重要性得分，αT表示注意力重要性的概率分布。进行重要性计算是必要的，因为文本描述中的一些词语，包括其对应的标题，可能与流行度无关，甚至与主题无关。因此，我们可以通过以下方程得到注意力整个文本嵌入�h：0�h = �0t α T, t ∙ h t，(15)0总之，我们通过用户引导的内部注意力机制获得了注意力整个图像嵌入�v和文本嵌入�h。我们进一步将这两个嵌入输入到用户引导的互注意力计算中。用户引导的互注意力机制：提出互注意力机制来捕捉研究的两个模态的不同重要性。其直觉在于不同的用户对其发布的图像的文本和视觉模态有不同的关注度。即使对于同一个用户，在准备发布一张图像时，他可能在不同的情况下更关注不同的模态。注意力的不平衡可能使得这两个模态对流行度产生不同的影响。我们将对视觉模态的注意力表示为a 1，对文本模态的注意力表示为a 2，满足a 1 + a2 = 1。然后我们通过以下方程定义计算a 1和a 2的公式：0uv = W 2 UVT • tanh(W 2 V • v) ◦ tanh(W 2 Uˇu)，(16)0ut = W 2 UVT • tanh(W 2 T • h) ◦ tanh(W 2 Uˇu)，(17)0a 1 =0exp(uv) + exp(ut)，(18)0a 2 =0exp(uv) + exp(ut)，(19)0其中uv表示用户和视觉模态之间的相关性得分，ut对应于用户和文本模态。互注意力计算的参数矩阵满足W 2 UVT ∈ R 1 × 512，W 2U，W 2 V和W 2 T ∈ R 512 ×512。在此基础上，我们可以计算出注意力多模态嵌入s如下：0s = a 1 ∙ �v + a 2 ∙ �h，(20)0Track: Web Content Analysis, Semantics and Knowledge WWW 2018, April 23-27, 2018, Lyon, FranceFlickr179KMSE =1ntente�i=1(yi − ˆyi)2,MAE =1ntente=1|yi − ˆyi |,(23)yi = log2(cidi+ 1),(24)2https://github.com/social-media-prediction/MM17PredictionChallengeTrack: Web Content Analysis, Semantics and KnowledgeWWW 2018, April 23-27, 2018, Lyon, France128203.4 流行度预测的学习0为了测试用户嵌入ˇu在流行度之外是否有额外的影响，除了其主要作用是引导对多模态的注意力计算之外，我们采用了一种快捷连接策略[11]，计算更新的多模态嵌入如下：0s := s + W 3 U ˇu，(21)0然后，我们使用一个简单的2层前馈神经网络生成最终的流行度预测，这不会增加太多模型复杂性，并确保非线性建模的能力。具体而言，我们定义计算公式如下：0ˆy = W 2 F ReLU(W 1 F s + b 1 F) + b 2，(22)0其中ReLU表示修正线性单元，是具有形式ReLU(x) = max(0,x)的非线性激活函数。W 1 F ∈ R 512 × 512和b 1 F ∈ R512是第一层的参数。W 2 F ∈ R 512和b 2 ∈ R是第二层的参数。ˆy表示我们努力生成的预测流行度分数。我们将UHAN的学习视为回归任务。采用均方误差（MSE）作为优化指标。值得注意的是，本文的主要关注点是考虑如何有效地从非结构化的视觉和文本模态中学习表示，以进行社交图像流行度预测。因此，我们不考虑对一些结构化和手工制作的特征进行建模，例如社交线索、用户和情感特征[5, 9,16,27]。然而，我们的模型可以很容易地扩展到捕捉不同的特征。一种简单的方法是将特征的表示与我们的模型获得的最终多模态嵌入s进行连接。实际上，我们发现这种方式可以进一步提高我们的本地测试性能，但我们在实验中没有介绍。04 实验0在本节中，我们提供了详细的实验结果和一些进一步的分析，以回答以下基本研究问题：0Q1：与其他强有力的替代方法相比，UHAN的预测结果如何？Q2：联合考虑视觉和文本模态确实有益于所研究的问题吗？Q3：UHAN的每个组成部分如何对预测性能做出贡献？0在考虑到这些问题的基础上，我们首先提供了实验设置的详细信息，包括数据集、评估指标、基线和实现细节。然后，我们按顺序回答了这三个问题。此外，我们通过一些案例研究进行了定性分析，以展示我们提出的UHAN的直观感知。04.1 实验设置04.1.1数据集。据我们所知，目前没有公开可用的社交图像数据集同时包含结构化的视觉和文本模态以用于流行度预测。我们构建了这样一个数据集。0通过扩展一个公开可访问的数据集2，该数据集是从Flickr[40]收集的，只包含非结构化的视觉模态和一些结构化特征。对于原始数据集中的每个社交图像，我们进一步获取其对应的标题和介绍，形成非结构化的文本模态。在得到这个扩展数据集后，我们进行以下预处理步骤。首先，我们删除所有非英文字符，对每个文本进行分词，并将每个单词转换为小写。然后，我们删除在我们的数据集中出现次数少于五次的单词，以保持它们的统计显著性。之后，我们删除描述少于五个单词的图像，类似于[22]中采用的过程。最后，我们获得了我们实验中的数据集，并将其与源代码一起发布，如第1节所介绍的。总体而言，我们有大约179K个社交图像，数据集的统计信息总结如表1所示。为了评估UHAN和其他采用的方法的性能，我们按时间顺序划分数据集，并将前70%作为我们的训练数据集，这比随机划分更符合实际情况。对于数据集的其余部分，我们随机选择三分之一作为验证数据集来确定最佳参数，将三分之二作为测试数据集来报告预测性能。请注意，数据集中的每个用户都有足够的图像。0表1：数据集的基本统计信息。0数据图像数单词数用户数时间跨度04.1.2评估指标。由于所研究的问题属于回归任务，我们采用两个标准指标，即均方误差（MSE）和平均绝对误差（MAE），这些指标在文献中被广泛使用[24，40]。设 y i 为记录 i 的真实值， ˆ y i为预测值，我们可以计算MSE和MAE如下：0其中 n te 是测试集的大小。我们采用由[40]计算的流行度得分 y i，其计算公式如下：0其中 c 是社交图像 i 的总浏览次数，d表示从发布时间到指定结束时间的天数。04.1.3基线。我们将我们提出的UHAN与几种精心选择的替代方法进行比较，包括一些基于多模态学习或注意机制的强基线。0• HisAve.第一个基线是最简单的方法，将历史平均流行度作为预测值。它为其他方法提供了基准性能。HisAve4.0701.575SVR3.1931.385DMF3.0041.339DualAtt2.4121.185UHAN2.2461.13012830•SVR。基于各种手工特征，[16]采用支持向量回归（SVR）进行社交图像流行度预测，但没有明确建模非结构化文本模态。在此基础上，我们还结合了文本特征，如TF-IDF和词嵌入（GloVe[32]），同时保留基本的视觉特征，如颜色和基于深度学习的特征。我们尝试了不同类型的特征组合，并报告了最佳结果。•DMF。它是一种基于多模态学习的深度学习方法。我们采用了文献中广泛使用的类似的深度多模态融合（DMF）策略[1,26]，将来自VGG的视觉表示和来自LSTM的文本表示进行整合。•DualAtt。最后一个强基线受到最近的双重注意力网络的启发，该网络涉及同时的视觉和文本注意力[29]。我们通过利用用户表示来引导注意力学习，将原始版本的单层版本调整为我们的问题设置。为了确保稳健的比较，我们对每个模型运行三次，并报告它们的平均性能。04.1.4实现细节。对于文本模态，我们将图像描述的最大长度设置为50，通过截断较长的描述。词嵌入和LSTM中的隐藏状态的维度都设置为512。对于视觉模态，如第3.2节所介绍的，我们模型的输入维度为196×512。此外，我们还将用户嵌入的维度设置为512。我们基于Keras库实现了我们提出的UHAN。采用默认参数设置[19]的Adam来优化模型，小批量大小为128。我们采用提前停止策略终止学习过程。具体而言，我们每64个批次在验证数据集上测试模型性能。当最佳性能在20次迭代中保持不变时，学习过程将停止。0表2：我们提出的UHAN和其他采用的基线方法在MSE和MAE方面的评估结果。0方法 MSE MAE0UHAN（无u）3.050 1.3470UHAN（无sc）2.283 1.13904.2 模型比较（Q1）0表2显示了UHAN与其他基线方法在均方误差（MSE）和平均绝对误差（MAE）方面的性能比较。首先，我们可以看到HisAve的表现比其他所有方法都要差。这与我们的预期一致，因为它没有考虑任何关于视觉和文本模态的有用信息。通过比较DMF和SVR，我们发现DMF的表现更好，表明基于深度多模态融合的方法在这个任务中是有前景的。DualAtt通过显著的边际改进了DMN。由于我们将其适应于研究的问题，因此DualAtt是一个强有力的基线是很直观的。0通过对视觉和文本模态分别进行用户注意力，可以看出考虑多模态学习中的注意力机制是有益的。我们通过提供两个简化版本的UHAN，即UHAN（无sc）和完全忽略用户嵌入的UHAN（无u），进一步验证了用户在我们提出的UHAN中的作用。通过将UHAN与UHAN（无sc）进行比较，我们可以看到稍微更好的改进，这表明主要用于注意力计算的用户嵌入也可以促进预测。通过测试UHAN（无u），我们可以看到与UHAN相比有明显的性能下降。这种现象表明，为注意力学习提出用户引导确实是有效的。总之，UHAN及其变体UHAN（无sc）在所有采用的方法中取得了最佳结果，包括在强基线DualAtt上取得了显著的改进。我们可以得出结论，该框架在所有采用的方法中都是有效的，并且在回答问题Q1方面表现良好。04.3 模态贡献（Q2）0我们选择两种代表性的方法（SVR（非深度）和UHA（深度））来测试融合视觉和文本模态是否确实促进了流行度预测。我们分别将视觉模态表示为V和文本模态表示为T。因此，“（w/oV）”表示对应方法中去除视觉模态，对于“（w/oT）”也是类似的。0表3：非结构化模态的性能测试。0方法 MSE MAE0SVR（w/o V）3.214 1.3920SVR（w/o T）3.644 1.4840SVR 3.193 1.3850UHAN（w/o V）2.321 1.1510UHAN（w/o T）2.337 1.1490UHAN 2.246 1.1300表3呈现了模态测试的结果。我们可以看到，对于基线SVR和我们的模型UHAN，如果不考虑文本模态或视觉模态，它们的性能会明显下降。此外，我们发现“（w/o V）”的方法比“（w/oT）”的方法稍微好一些，这表明从文本模态中获取知识可能比从视觉模态中获取知识容易，因为每个单词具有更具体的含义而不是像素。最后，多模态融合的方法取得了最好的结果，反映了两种模态可能互补解决所研究的问题。根据上述说明，我们可以回答问题Q2，即联合考虑视觉和文本模态确实是有意义的。04.4 割离研究（Q3）0我们考虑UHAN的三个主要组成部分，以测试它们对最终预测的贡献。它们分别是：1）用户引导的内部注意机制，2）用户引导的互注意机制，以及3）用户嵌入的快捷连接，正如在第4.2节中介绍的那样。表4显示了相应的结果。中间的三种方法中的每一种都去除了三个主要组成部分之一。它们的行为是0Track: 网络内容分析，语义和知识 WWW 2018，2018年4月23日至27日，法国里昂12840唱着歌的树雀0在葡萄藤中0唱着歌的树雀0在葡萄藤中0Raw我们的模型W/O互注意力DualAtt0唱着歌的树雀0在葡萄藤中。0唱着歌的树雀0在葡萄藤中。0沙漠艺术家拱门0国家公园。从0相距较远，我0我发现这位艺术家和朋友正在处理我刚刚拍摄的场景。0一直在使用我的D300拍摄。0沙漠艺术家拱门0国家公园。从0相距较远，我0我发现这位艺术家和朋友正在处理我刚刚拍摄的场景。0一直在使用我的D300拍摄。0沙漠艺术家拱门0国家公园。从0相距较远，我0我发现这位艺术家和朋友正在处理我刚刚拍摄的场景。0一直在使用我的D300

下载后可阅读完整内容，剩余1页未读，立即下载