场景图自动编码器：实现图像字幕生成的归纳偏差传递

178 浏览量更新于2023-10-18 收藏 13.01MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

{s170018@e,kaihua001@e}.ntu.edu.sg,{hanwangzhang@,ASJFCai@}ntu.edu.sgPersonMotorbikeHatRoadOnOnOnredDirtPersonMotorbikeHatRoadOnOnOnredDirtDictionaryManMotorcycleHelmetRoadOnWearDownredDirtCountrysidesuch as the top-bottom [50] and bottom-up [2] visual atten-tions for dynamic encoding, and the reinforced mechanismfor sequence decoding [38, 9, 35]. However, a ubiquitousproblem has never been substantially resolved: when wefeed an unseen image scene into the framework, we usu-ally get a simple and trivial caption about the salient objectssuch as “there is a dog on the ﬂoor”, which is no better thanjust a list of object detection [29]. This situation is par-ticularly embarrassing in front of the booming “mid-level”vision techniques nowadays: we can already detect and seg-ment almost everything in an image [12, 17, 36].We humans are good at telling sentences about a visualscene. Not surprisingly, cognitive evidences [32] show thatthe visually grounded language generation is not end-to-end and largely attributed to the “high-level” symbolic rea-soning, that is, once we abstract the scene into symbols,the generation will be almost disentangled from the visualperception. For example, as shown in Figure 1, from thescene abstraction “helmet-on-human” and “road dirty”, wecan say “a man with a helmet in countryside” by using thecommon sense knowledge like “country road is dirty”. Infact, such collocations and contextual inference in human106850自动编码场景图用于图像字幕生成0徐阳，唐凯华，张汉旺，蔡建飞，南洋理工大学计算机科学与工程学院0摘要0我们提出了场景图自动编码器（SGAE），将语言归纳偏差融入编码器-解码器图像字幕生成框架，以获得更加人类化的字幕。直观地说，我们人类使用归纳偏差来组合搭配和上下文推理。例如，当我们看到关系“人在自行车上”时，自然会用“骑”替换“在”，并推断“人骑自行车在路上”，即使“路”并不明显。因此，利用这种偏差作为语言先验有望帮助传统的编码器-解码器模型更不容易过拟合数据集的偏差，并专注于推理。具体而言，我们使用场景图——一个有向图（G），其中对象节点由形容词节点和关系节点连接——来表示图像（I）和句子（S）的复杂结构布局。在文本领域中，我们使用SGAE来学习一个字典（D），帮助在S →G → D →S的流水线中重构句子；在视觉语言领域中，我们使用共享的D来指导编码器-解码器在I → G → D →S的流水线中。由于场景图表示和共享字典，归纳偏差原则上可以在领域之间传递。我们在具有挑战性的MS-COCO图像字幕生成基准测试中验证了SGAE的有效性，例如，我们基于SGAE的单模型在Karpathy分割上实现了新的最先进的127.8CIDEr-D，并且与其他集成模型相比，在官方服务器上实现了竞争力强的125.5CIDEr-D（c40）。代码已经在https://github.com/yangxuntu/SGAE上提供。01. 引言0现代图像字幕模型采用端到端的编码器-解码器框架[10, 30,29, 2,27]，即编码器将图像编码为向量表示，然后解码器将其解码为语言序列。自从受到神经机器翻译的启发[3]以来，该框架已经经历了几次重大升级。0“一个戴着红色头盔骑着摩托车在乡村土路上”的人0图1.将场景图自动编码（蓝色箭头）到传统的编码器-解码器框架中用于图像字幕生成（红色箭头），其中语言归纳偏差被编码在可训练的共享字典中。单词颜色对应于图像和句子场景图中的节点。106860语言可以被认为是我们从日常实践中获得的归纳偏见，使我们在高级推理方面表现得比机器更好[22，5]。然而，直接利用归纳偏见，例如早期的基于模板/规则的字幕模型[20，8]，与编码器-解码器模型相比，效果很差，这是由于视觉感知和语言组合之间存在巨大差距。在本文中，我们提出将语言生成的归纳偏见融入到编码器-解码器框架中进行图像字幕，从而从符号推理和端到端多模态特征映射的互补优势中受益。具体而言，我们使用场景图[13，47]来弥合两个世界之间的差距。场景图（G）是一种统一的表示，通过有向边连接图像（I）或句子（S）中的对象（或实体）、它们的属性和它们的关系。由于最近在空间图卷积网络（GCN）[31，24]方面的进展，我们可以将图结构嵌入向量表示中，这可以无缝地集成到编码器-解码器中。我们的关键洞察是，向量表示预期将从纯语言领域转移归纳偏见到视觉-语言领域。具体而言，为了编码语言先验，我们提出了场景图自编码器（SGAE），它是一个在S→G→D→S流水线中进行句子自重构的网络，其中D是用于节点特征重新编码目的的可训练字典，S→G模块是一个固定的现成场景图语言解析器[1]，D→S是一个可训练的基于RNN的语言解码器[2]。请注意，D是我们从训练SGAE中提取的“精华”——语言归纳偏见。通过在编码器-解码器训练流程中共享D：I→G→D→S，我们可以将语言先验纳入到端到端图像字幕中。特别地，I→G模块是一个视觉场景图检测器[56]，我们在字幕流程中引入了多模态GCN用于G→D模块，以补充由于不完美的视觉检测而缺失的必要视觉线索。有趣的是，D可以被视为一种工作记忆[45]，有助于将从I或S编码的节点重新键入到具有较小领域差距的更通用表示。关于D的更多动机和具体实现将在第4.3节中讨论。我们使用最近发布的视觉编码器[37]和语言解码器[2]以及基于强化学习的训练策略[38]实现了基于SGAE的字幕模型。在MS-COCO[26]验证了使用SGAE在图像字幕中的优越性。特别是在流行的CIDEr-D指标[44]方面，我们相对于强基线模型（Up-Down的升级版[2]）取得了7.2个绝对点的改进。然后，我们进一步提升到了新的最先进的单模型0在Karpathy拆分上达到了127.8，在官方测试服务器上达到了竞争力的125.5，即使与许多集成模型相比也是如此。总之，我们希望做出以下技术贡献：0• 一种新颖的场景图自编码器（SGAE），用于学习语言归纳偏见的特征表示。0• 一种多模态图卷积网络，用于将场景图调制为视觉表示。0• 基于SGAE的编码器-解码器图像字幕器，使用共享字典指导语言解码。02. 相关工作0图像字幕。研究人员开发自动图像字幕方法已有很长历史。与早期基于规则/模板的方法相比[21，33，23]，现代字幕模型通过受自然语言处理领域启发的三种技术取得了显著进展，即基于编码器-解码器的流水线[46]、注意力技术[50]和基于强化学习的训练目标[38]。之后，研究人员尝试从图像中发现更多的语义信息，并将其融入到字幕模型中以获得更好的描述能力。例如，一些方法将对象[29]、属性[54]和关系[53]知识应用于其字幕模型中。与这些方法相比，我们使用场景图作为桥梁，将对象、属性和关系知识整合在一起，以发现更多有意义的语义上下文，以获得更好的字幕生成效果。场景图。场景图包含图像的结构化语义信息，包括存在的对象、它们的属性和成对关系的知识。因此，场景图可以为VQA[40，43]、图像生成[13，59]和视觉定位[28]等其他视觉任务提供有益的先验知识。通过观察在视觉任务中利用场景图的潜力，提出了各种方法来改进从图像中生成场景图[57，56，52，51，49，42，6]。另一方面，一些研究人员还尝试仅从文本数据中提取场景图[1，47]。在这项研究中，我们使用[56]从图像中解析场景图，并使用[1]从字幕中解析场景图。记忆网络。最近，许多研究人员尝试在网络中增加工作记忆，以便为后续推理提供动态知识库的支持[41，48，45]。在这些方法中，通常使用可微分的注意机制从记忆中提取有用的知识，以完成当前任务。受到这些方法的启发，我们还实现了一种记忆体系结构，以保留人类的归纳偏见，引导我们的图像字幕模型生成更具描述性的字幕。(1)(4)(5)106870CNN0RNN0CNN0RNN0MGCN0字典0字典0共享0GCN0RNN0映射0映射0编码器0解码器0SGAE0图2.上：传统的编码器-解码器。下：我们提出的编码器-解码器，其中新颖的 SGAE 在共享字典中嵌入了语言归纳偏差。03. 重新审视编码器-解码器0如图2所示，给定一张图像I，图像字幕的目标是生成一个描述图像的自然语言句子 S = {w1, w2, ...,wT}。一个最先进的编码器-解码器图像字幕生成器可以被形式化为：0编码器：V ← I，0映射：ˆV ← V，0解码器：S ← ˆV。0通常，编码器是一个卷积神经网络（CNN）[11,37]，用于提取图像特征 V；映射是广泛使用的注意机制[50,2]，将视觉特征重新编码为更具信息的ˆV，该特征对语言生成是动态的；解码器是基于RNN的语言解码器，用于对 S进行序列预测。给定图像 I 的真实标题S�，我们可以通过最小化交叉熵损失来训练这个编码器-解码器模型：0LXE = -log P(S�)，(2)0或通过最大化基于强化学习（RL）的奖励[38]来定义为：0RRL = ESs � P(S)[r(Ss; S�)],(3)0其中 r 是对采样句子 S_s 和真实句子 S�进行句子级度量的度量，例如CIDEr-D[44]度量。这个编码器-解码器框架是自 [46]以来几乎所有最先进的图像字幕生成器的核心支柱。然而，它被广泛证明对数据集的脆弱性很高。0偏差[14,29]。我们提出利用语言归纳偏差（有益的）来应对数据集偏差（有害的），以实现更接近人类的图像字幕生成。如图2所示，所提出的框架可以形式化为：编码器：V ← I，0映射：ˆV ← R(V, G; D)，G ← V，0解码器：S ← ˆV。0可以清楚地看到，我们关注的是通过将场景图 G引入由共享字典 D 参数化的重新编码器 R来修改映射模块。正如我们在本文的其余部分中将详细介绍的那样，我们首先提出了一个场景图自编码器（SGAE），通过场景图从句子到句子的自重构（参见第4节）学习字典D，从而嵌入语言归纳偏差。然后，我们将编码器-解码器与提出的 SGAE配备在一起，成为我们的整体图像字幕生成器（参见第5节）。具体来说，我们使用一种新颖的多模态图卷积网络（MGCN）（参见第5.1节）通过使用 D对图像特征进行重新编码，缩小视觉和语言之间的差距。04. 自编码场景图0在本节中，我们将介绍如何通过自重构句子 S 来学习D。如图2所示，重构 S的过程也是一个编码器-解码器流水线。因此，通过稍微滥用符号，我们可以将 SGAE 形式化为：0编码器：X ← G ← S，0映射：ˆX ← R(X; D)，0解码器：S ← ˆX。0接下来，我们将详细介绍公式（5）中提到的每个组件。04.1. 场景图0我们介绍了如何实现从句子到场景图的步骤 G ←S。形式上，场景图是一个元组 G = (N, E)，其中 N 和 E分别是节点和边的集合。N 中有三种类型的节点：对象节点o，属性节点 a 和关系节点 r。我们将第 i 个对象表示为o_i，将 o_i 和 o_j 之间的关系表示为 r_ij，将 o_i 的第 l个属性表示为 a_i,l。对于 N 中的每个节点，它由一个 d维向量表示，即 e_o、e_a 和 e_r。在我们的实现中，d被设置为1,000。特别地，节点特征是可训练的标签嵌入。E中的边的形式如下：• 如果对象 o_i 拥有属性 a_i,l，则从a_i,l 指向 o_i 的有向边；• 如果存在一个关系三元组，则分别从 o_i 指向 r_ij 和从 r_ij 指向 o_j的有向边。xrij = gr(eoi, erij, eoj),(6)xai =1Nai l=1ga(eoi, eai,l),(7)xoi =joi)gs(eoi, eoj, erij)ok∈obj(oi)go(eok, eoi, erki)].(8)Now we introduce how to learn the dictionary D andthen use it to re-encode ˆX ← R(X; D) in Eq. (5). Ourkey idea is inspired by using the working memory to pre-serve a dynamic knowledge base for run-time inference,which is widely used in textual QA [41], VQA [48], andone-shot classiﬁcation [45].Our D aims to embed lan-guage inductive bias in language composition. Therefore,we propose to place the dictionary learning into the sen-tence self-reconstruction framework. Formally, we denoteD as a d × K matrix D = {d1, d2, ..., dK}. The K is setas 10, 000 in implementation. Given an embedding vectorx ∈ X, the re-encoder function RD can be formulated as:ˆx = R(x; D) = Dα =K106880图3.图卷积网络。特别是空间卷积，其中彩色邻域被“卷积”为结果嵌入。0图3展示了一个 G 的例子，其中包含 N 个节点和 E条有向边。我们使用由[1]提供的场景图解析器从句子中获取场景图 G，其中使用[18]构建了一个句法依赖树，然后使用基于规则的方法[39]将树转换为场景图。04.2. 图卷积网络0我们提出了在公式（5）中实现步骤 X ← G的实现方法，即如何将原始节点嵌入 e o 、e a 和 e r转换为一组新的上下文感知嵌入 X 。形式上，X 包含三种 d维嵌入：关系嵌入 x r ij 用于关系节点 r ij ，对象嵌入 x o i用于对象节点 o i ，以及属性嵌入 x a i 用于对象节点 o i。在我们的实现中，d 被设置为 1,000。我们使用四个空间图卷积函数 g r 、g a 、g s 和 g o来生成上述三种嵌入。在我们的实现中，所有这四个函数都具有相同的结构和独立的参数：将向量连接输入到全连接层，然后是 ReLU。关系嵌入 x r ij ：给定图 G中的一个关系三元组 < o i − r ij − o j > ，我们有：0其中包含了关系三元组的上下文。图3(a)展示了一个这样的例子。属性嵌入 x a i ：给定图 G 中的一个对象节点 o i，以及 o i 的所有属性 a i, 1: Na i ，其中 Na i 是对象 o i拥有的属性数量，那么 o i 的 x a i 为：0Nai0其中包含了该对象及其所有属性的上下文。图3(b)展示了一个这样的例子。对象嵌入 x o i ：在 G 中，o i可以在关系中充当“主语”或“宾语”，这意味着由于不同的边方向，oi将扮演不同的角色。因此，应该使用不同的函数来融合这种知识。为了避免不同上下文中相同“谓词”的歧义含义，应将 o i的所有关系三元组的知识合并到 x o i 中。一个简单的歧义示例是，在 <手持杯子 > 中，“with”可能意味着“拿着”，而在 < 戴帽子的头 >中，“with”可能意味着“戴着”。因此，x o i 可以计算为：0图4. 重新编码函数 R的可视化。黑色虚线块显示重新编码的操作。顶部部分演示了如何通过重新编码实现“想象力”：绿线显示通过重新编码生成的短语，而红线显示未经重新编码的短语。0Nr i [ Na i0+ Na i0现在我们介绍如何学习字典 D ，然后使用它来重新编码 ˆ X ← R ( X ; D )，即公式（5）中的步骤。我们的关键思想受到了在运行时推理中使用工作内存来保存动态知识库的启发，这在文本问答[41]、视觉问答[48]和一次性分类[45]中被广泛使用。我们的 D旨在将语言归纳偏差嵌入到语言组合中。因此，我们提出将字典学习放入句子自重构框架中。形式上，我们将 D 表示为一个 d × K 矩阵 D = { d 1 , d 2 , ..., d K } 。在实现中，K 被设置为 10,000。给定一个嵌入向量 x ∈ X ，重新编码函数 R D 可以被表示为：04.3. 字典0k =1 α k d k , (9)0其中α =softmax(DTx)可以被视为记忆网络[41]中的“关键”操作。如图4所示，这种重新编码在人类常识推理中提供了一些有趣的“想象”。例如，从“黄色和有斑点的香蕉”经过重新编码后，特征更有可能生成“成熟的香蕉”。106890我们在重构S时采用了[2]中的注意力结构。给定重构的S，我们可以使用公式（2）或（3）中的训练目标来以端到端的方式训练由D参数化的SGAE。需要注意的是，SGAE的训练是无监督的，即SGAE为D提供了一个潜在的从大规模无监督归纳偏差学习中永无止境的学习。在第6.2.2节中报告了一些初步研究结果。05. 整体模型：基于SGAE的编码器-解码器0在本节中，我们将介绍整体模型：基于SGAE的编码器-解码器，如图2和公式（4）所示。05.1. 多模态图卷积网络0由于视觉和语言之间存在较大差距，CNN提取的原始图像特征不能直接用于字典重新编码（如公式（9）所示）。为此，我们提出了一种多模态图卷积网络（MGCN），将视觉特征V首先映射为一组经过场景图调制的特征V'。这里，场景图G是通过图像场景图解析器提取的，该解析器包含一个对象提议检测器、一个属性分类器和一个关系分类器。在我们的实现中，我们使用Faster-RCNN作为对象检测器[37]，使用MOTIFS关系检测器[56]作为关系分类器，并使用我们自己的属性分类器：一个小的fc-ReLU-fc-Softmax网络头。句子解析的G和图像解析的G之间的关键表示差异在于节点oi不仅仅是标签嵌入。具体而言，我们使用从FasterRCNN预训练的RoI特征，然后将检测到的标签嵌入eoi与视觉特征voi融合，形成新的节点特征uoi：0uoi = ReLU(W1eoi + W2voi) - (W1eoi - W2voi)2.(10)其中W1和W2是根据[58]的融合参数。与流行的双线性融合[58]相比，公式（10）在我们的实验中经验证明训练标签嵌入更快收敛。其余的节点嵌入：urij和uai以类似的方式获得。从I和S生成的两个场景图之间的差异在图1中可视化，其中图像G通常比句子G更简单和嘈杂。与第4.2节中使用的GCN类似，MGCN也有四个函数fr、fa、fs和fo的集合，每个函数都是一个两层结构：具有独立参数的fc-ReLU。关系、属性和对象嵌入的计算与公式（6）、（7）和（8）类似。通过使用MGCN计算V'后，我们可以采用公式（9）将V'重新编码为ˆV，并将ˆV馈送给解码器生成语言S。具体而言，我们在生成过程中采用了[2]中的注意力结构。05.2. 训练和推理0根据深度学习特征传递的常见做法[7,55]，我们使用预训练的SGAED作为图像字幕生成的整体编码器-解码器中D的初始化。特意使用非常小的学习率（例如10^-5）对D进行微调，以实现共享目的。整体训练损失是混合的：我们在前20个epoch中使用公式（2）中的交叉熵损失，然后在接下来的40个epoch中使用公式（3）中的基于RL的奖励。在语言生成的推理中，我们采用了beam search策略[38]，beam大小为5。06.实验06.1.数据集、设置和指标0MS-COCO [26].MS-COCO有两个标准分割：官方在线测试分割和第三方Karpathy分割[15]进行离线测试.第一个分割有82,783/40,504/40,775个训练/验证/测试图像，每个图像有5个人工标注的标题.第二个分割有113,287/5,000/5,000个训练/验证/测试图像，每个图像有5个标题.Visual Genome [19] (VG).这个数据集有丰富的场景图注释，例如对象的类别，对象的属性和成对关系，可以用来训练对象提议检测器，属性分类器和关系分类器[56]作为我们的图像场景图解析器.设置.对于标题，我们使用以下步骤对标题进行预处理：首先在空格上对文本进行标记化；然后将所有单词改为小写；我们还删除出现次数少于5次的单词；最后，我们将每个标题修剪为最多16个单词.这样得到一个由10,369个单词组成的词汇表.这种预处理也适用于VG.值得注意的是，除了消融研究外，VG中的这些额外文本描述没有用于训练标题生成器.由于VG数据集中的对象，属性和关系注释非常嘈杂，我们通过保留在训练集中出现超过2,000次的对象，属性和关系来过滤它们.过滤后，剩下的305个对象，103个属性和64个关系用于训练我们的对象检测器，属性分类器和关系分类器.我们选择了[2]中提出的语言解码器.此解码器中使用的两个LSTM的隐藏单元数设置为1000.对于训练方程(5)中的SGAE，解码器首先设置为S←X，不训练D来学习一个基本编码器和解码器.我们使用方程(2)中的交叉熵损失对它们进行了20个时期的训练.然后将解码器设置为S←ˆX，通过交叉熵损失对D进行了另外20个时期的训练.学习率初始化为5e-40对于所有参数，我们将它们衰减0.8，每5个时期衰减一次.对于训练基于SGAE的编码器-解码器，我们遵循方程(4)使用共享的D预训练生成S106900表1.各种方法在MS-COCOKarpathy分割上的性能.指标：B@N，M，R，C和S分别表示BLEU@N，METEOR，ROUGE-L，CIDEr-D和SPICE.请注意，下标fuse表示融合模型，而其余方法都是单一模型.融合模型和单一模型的每个指标的最佳结果分别用粗体标记.0模型 B@1 B@4 M R C S0SCST [38] -34.2 26.7 55.7 114.0 - LSTM-A [54] 78.6 35.5 27.3 56.8118.3 20.8 StackCap [9] 78.6 36.1 27.4 - 120.4 - Up-Down [2] 79.836.3 27.7 56.9 120.1 21.4 CAVP [27] -38.6 28.3 58.5 126.3 21.6GCN-LSTM† [53] 80.0 37.1 28.0 57.3 122.8 21.1 GCN-LSTM [53] 80.538.2 28.5 58.3 127.6 22.00基础 79.9 36.8 27.7 57.0 120.6 20.9 基础+MGCN 80.2 37.2 27.9 57.5123.4 21.2 基础+ D w/o GCN 80.2 37.3 27.8 58.0 124.2 21.4 基础+ D80.4 37.7 28.1 58.2 125.7 21.4 SGAE 80.8 38.4 28.4 58.6 127.8 22.10SGAE熔丝81.0 39.0 28.4 58.9 129.1 22.2 GCN-LSTM熔丝[53]80.9 38.328.6 58.5 128.7 22.10来自SGAE.解码器设置为S←{ˆV,V′}，其中V′和ˆV可以提供视觉线索和高级语义上下文.在这个过程中，首先使用交叉熵损失对网络进行20个时期的训练，然后使用基于RL的奖励对其进行另外80个时期的训练.D的学习率初始化为5e-5，其他参数的学习率为5e-4，并且所有这些学习率都在每5个时期衰减0.8.批量大小为100.指标.我们使用五个标准的自动评估指标：CIDEr-D [44]，BLEU[34]，METEOR [4]，ROUGE [25]和SPICE [1].06.2. 消融研究0我们对架构（第6.2.1节）、语言语料库（第6.2.2节）和句子重构质量（第6.2.3节）进行了广泛的消融实验。为了简化，我们使用SGAE来表示基于SGAE的编码器-解码器字幕模型。06.2.1 架构0比较方法。为了量化所提出的GCN、MGCN和字典D的重要性，我们使用以下基线对我们的SGAE进行了消融实验：基础：我们按照公式（1）中给出的流程进行，没有使用GCN、MGCN和D。这个基线是其他消融基线的基准。基础+MGCN：我们添加了MGCN来计算多模态嵌入集ˆV。这个基线旨在验证MGCN的重要性。基础+D无GCN：我们使用公式（5）学习D，但没有使用GCN，只有S的词嵌入输入到解码器中。同时，公式（4）中的MGCN也没有使用。这个基线旨在验证GCN的重要性。基础+D：与基础相比0表2. 使用不同语言语料库的性能0模型 B@1 B@4 M R C S0基础 79.9 36.8 27.7 57.0 120.6 20.9 VG 80.2 37.8 28.0 58.2123.2 21.3 COCO 80.8 38.4 28.4 58.6 127.8 22.1 VG+COCO81.1 38.9 28.6 58.8 128.6 22.20表3. 使用不同场景图的性能0模型 B@1 B@4 M R C S0ˆX 90.3 53.8 34.3 66.5 153.2 30.6 X 93.9 65.2 38.5 71.8177.0 34.30SGAE 80.8 38.4 28.4 58.6 127.8 22.10表4. 在仅使用交叉熵损失训练的MS-COCOKarpathy数据集上的各种方法的性能。0模型 B@1 B@4 M R C S0SCST[36] −30.0 25.9 53.4 99.4 − LSTM-A[50] 73.4 32.6 25.4 54.0100.2 18.6 StackCap[8] 76.2 35.2 26.5 −109.1 − Up-Down[2]77.2 36.2 27.0 56.4 113.5 20.3 GCN-LSTM[49] 77.3 36.8 27.957.0 116.3 20.90基础 76.8 36.1 27.1 56.3 113.1 20.3 基础+MGCN 77.1 36.2 27.256.5 114.2 20.5 SGAE 77.6 36.9 27.7 57.2 116.7 20.90基础，我们使用GCN学习了D。公式（4）中的MGCN也没有使用。这个基线旨在验证共享D的重要性。结果。表1的中间部分显示了在MS-COCOKarpathy数据集上的消融基线的性能。与基础相比，我们的SGAE可以将CIDEr-D提升7.2个绝对值。通过比较基础+MGCN、基础+D无GCN和基础+D与基础，我们可以发现所有的性能都得到了改善，这证明了所提出的MGCN、GCN和D对于提升性能都是不可或缺的。我们还可以观察到基础+D或基础+D无GCN的性能优于基础+MGCN，这表明语言归纳偏差在生成更好的字幕中起着重要作用。定性示例。图5显示了使用不同基线生成的6个示例的字幕。我们可以看到，与基础生成的字幕相比，基础+MGCN的描述通常包含更多关于对象属性和成对关系的描述。对于SGAE生成的字幕，它们更加复杂和描述性。例如，在图5（a）中，“busy”一词将用于描述繁忙的交通；在（b）中，“forest”场景可以从“trees”推断出；在（d）中，“rain”天气将从“umbrella”推断出。06.2.2 语言语料库0比较方法。为了测试使用大规模语料库学习更好的D的潜力，我们使用VG提供的文本代替MS-COCO来学习D，然后在编码器-解码器流程中共享学到的D。结果如表2所示，其中VG和(e): 325557(f): 396209MotorbikeRoadParkDirtyBASE: a motorcycle parked on the side of a roadBASE+MGCN: a motorcycle parked on the side of a roadSGAE: a motorcycle is parked on the gravel roadGT: a motor bike parked on the side of the road by the bushesMotorbikeRoadParkDirtyBASE: a motorcycle parked on the side of a roadBASE+MGCN: a motorcycle parked on the side of a roadSGAE: a motorcycle is parked on the gravel roadGT: a motor bike parked on the side of the road by the bushesBASE: a city street with many carsBASE+MGCN: a city street with many cars and busesSGAE: a busy highway filled with lots of trafficGT: there are many cars and buses on the busy highwayRoadOnCarBusOnRoadOnCarBusOnBASE: a city street with many carsBASE+MGCN: a city street with many cars and busesSGAE: a busy highway filled with lots of trafficGT: there are many cars and buses on the busy highwayRoadOnCarBusOn(b): 45710(a): 553879(c): 76529(d):177861BASE: a building with a chair on the side of itBASE+MGCN: a street with a motorbike and a chair on itSGAE: a narrow alley with a chair and a motorbike on the side of itGT: a narrow alley way with a chair by the sideBASE: a building with a chair on the side of itBASE+MGCN: a street with a motorbike and a chair on itSGAE: a narrow alley with a chair and a motorbike on the side of itGT: a narrow alley way with a chair by the sideRoadOnChairMotorbikeOnRoadOnChairMotorbikeOnBASE: a building with a chair on the side of itBASE+MGCN: a street with a motorbike and a chair on itSGAE: a narrow alley with a chair and a motorbike on the side of itGT: a narrow alley way with a chair by the sideRoadOnChairMotorbikeOnGreenBASE: a couple of elephants walking in a field BASE+MGCN: two elephants walking in the grass in a fieldSGAE: a couple of elephants walking through a lush green forestGT: two elephants standing in grassy area with trees aroundGreenBASE: a couple of elephants walking in a field BASE+MGCN: two elephants walking in the grass in a fieldSGAE: a couple of elephants walking through a lush green forestGT: two elephants standing in grassy area with trees aroundYellowBASE: a banana sitting on top of a bowlBASE+MGCN: a cup of coffee next to a yellow bananaSGAE: a cup of coffee next to a ripe banana GT: an over ripened banana and a cup of coffeeYellowBASE: a banana sitting on top of a bowlBASE+MGCN: a cup of coffee next to a yellow bananaSGAE: a cup of coffee next to a ripe banana GT: an over ripened banana and a cup of coffeeBlackBASE: a person walking in the streetBASE+MGCN: a person walking in the street with a black umbrellaSGAE: a person walking down street with a black umbrella in the rainGT: a group of people walking down

下载后可阅读完整内容，剩余1页未读，立即下载