图像字幕中的内在模式生成方法研究

29 浏览量更新于2023-10-13 收藏 1005KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

4250属性模块对象模块关系模块关系模块功能模块对象模块学习配置用于图像字幕的徐阳1、张汉旺1、蔡剑飞1、21新加坡南洋理工大学计算机科学与工程学院，2澳大利亚莫纳什大学信息技术学院，s170018@e.ntu.edu.sg，{hanwangzhang@，ASJFCai@}ntu.edu.sg摘要我们不是从零开始一字一句地说话;我们的大脑很快就构建了一个模式，比如在某个地方做某事，然后填写详细的描述。为了呈现现有的编码器-解码器图像字幕器这样的人类推理，我们提出了一个新颖的框架：学习搭配神经模块（CNM），生成连接视觉编码器和语言解码器的“内在模式”。与视觉问答中广泛使用的神经模块网络不同&，问题）是完全可观察的，但用于字幕的CNM更具挑战性，因为语言正在生成，因此部分可观察。为此，我们为CNM培训做出以下技术贡献：1）紧凑的模块设计一个用于功能词而三个用于视觉内容词（例如，名词、形容词和动词），2）软模块融合和多步骤模块执行，在部分观察中鲁棒化视觉推理，3）忠实于词性搭配的模块控制器的语言损失（例如，形容词在名词之前）。在具有挑战性的MS-COCO图像字幕基准上进行的大量实验验证了我们的CNM图像字幕的有效性特别是，CNM在Karpathy分裂上实现了新的最先进的127.9 CIDEr-D，并在官方服务器上实现了单一模型126.0 c40。 CNM对少量训练样本也是鲁棒的，通过对每个图像只训练一个句子，CNM可以将性能损失减半。1. 介绍让你们中的大多数人会根据不同的图像写出不同的句子。事实上，能够用不同的语言来描述丰富多彩的视觉世界是人类的天赋，但对机器来说是一个巨大的挑战。尽管视觉表征学习[16，42]和语言建模[18，50]的最新进展证明了在其各自的模态中建模多样性的强大(a) 三种不同的形象。某事做某事在某处一个人在路上玩棋盘。一列火车正驶入站台一头牛在长满草的小山上吃草(b) 三个标题用同样的句型。对象模块功能模块关系模块关系模块对象模块功能模块属性模块行李箱一在坐猫黑色一(c) CNM的字幕生成过程图1：所提出的学习的动机，以汇集神经模块（CNM）用于图像字幕：神经模块搭配模仿归纳偏误句型，有效地规范了多样性训练。要在它们之间建立一个强大的跨模式连接，还远未解决。事实上，图像字幕并不是唯一的模型，即使不看图像也可以很容易地利用数据集对字幕的偏见[44]，几乎所有现有的视觉推理任务模型，如视觉&问答[23，46，48]都被发现模式崩溃到某些数据集特质，并且未能再现我们世界的多样性-任务越复杂，崩溃越严重，例如图像段落生成[27]，场景图生成[5，14]和视觉对话框[7，38]。例如，在MS-COCO [32]训练集中，作为“man”和“standing”的共现机会，4251““CNM：一个在街上喷水的红色消防栓基线：一个停在街上的消防栓‘’‘’CNM：一只狗戴着圣诞老人的帽子基线：一只狗戴着帽子单数：68%复数：32%CNM：两个热狗放在盘子里基线：一个热狗在盘子““CNM：一个男人正在挤牛奶基线：一个男人站在一头牛旁边‘’‘’CNM：在草山上吃草的一群羊基线：在田野里吃草的一群羊a：92%安：8%CNM：一头大象站在森林基线：一头大象站在森林（a）：正确的语法（b）：描述性属性（c）：准确的互动图2：通过将我们的CNM与非模块基线（Up-Down的升级版本[2]）进行比较，我们在解决数据集偏差方面有三个有趣的发现：（a）语法更准确。%表示MS-COCO中某种模式的频率，（b）更具描述性的属性，以及（c）更准确的对象交互。比率./.表示共现的百分比，例如，“羊+场”/“羊”= 28%表示“羊”和“场”贡献了“羊”的28%出现率。我们可以看到，即使使用高度偏差的训练样本，CNM也优于基线。高11%，则最先进的字幕[2]很可能生成“人站立”，而不管它们的实际关系，例如“挤奶”，这是0.023%罕见的。稍后我们将在图2唉，与ImageNet中平均有650个训练图像的视觉概念不同[8]，MS- COCO中的特定句子只有一个图像[32]，这在监督训练的传统观点中是极其稀缺的。然而，这对我们人类来说已经足够了--任何具有正常视力（类似于预先训练的CNN编码器）和语言技能（类似于预先训练的语言解码器）的人都不需要任何训练样本来执行字幕。因此，尽管自Show Tell [52]以来，在过去的5年中取得了实质性的进展，但在现代图像字幕中，视觉和语言之间仍然缺少关键的一步[2，34，35]。要看到这一点，给定图1b中的一个句型，您对图1a中三个图像的描述应该受到更多的限制。事实上，认知科学的研究[15，47]表明，我们人类不是从零开始一个词一个词地说一个完整的句子吗？相反，我们首先组成一个模式，然后用概念填充模式，重复这个过程，直到完成整个句子。因此，构建这样的模式是我们人类的“字幕系统”每天都在做的事情幸运的是，正如我们所料，对于图1b中的句型，除了这三个标题之外，我们在MS-COCO中还有数千个标题。在本文中，我们提出了学习搭配神经模块（CNM），以填补图像字幕中缺失的空白如图1c所示，CNM首先使用FUNCTION模块生成功能词因此，认知语言学的关键是学习一种动态的结构，这种结构是一种忠实于语言搭配的归纳偏向。虽然使用神经模块网络并不新鲜，在视觉语言任务中，作为 VQA [3]，其中，问题被解析为一个模块结构，如C OLOR（F IND（'chair'）），用于“椅子是什么颜色？“;对于图像字幕，由于在字幕期间只有部分观察到的句子是可用的，并且通过解析的模块结构不再适用，因此情况更具挑战性。为此，我们开发了以下技术来进行有效和强大的CNM训练。1）受部分观察环境强化学习中策略网络设计的启发[9]，在每一代时间步，四个模块的输出将根据它们的软注意力进行融合，这是基于当前一代上下文的。2）采用多步推理，即stacking neural modules [19].这两种方法极大地稳定了CNM训练。3)为了进一步引入专家知识，我们对模块软注意施加语言损失，它应该忠实于词性搭配，例如，AT-TRIBUTE模块应该生成的单词是ADJ.在我们深入研究第3节中的技术细节之前，我们想展示CNM在解决图2中的数据集偏差方面的强大功能。与强大的非模块基线[2]相比，CNM的观察到的好处包括：1)由于FUNCTION和OBJECTIVE模块的联合推理，更精确的语法，如更少的此外，我们发现，当每个图像只提供1个训练句子时，与强基线相比，我们的CNM将遭受更少的性能恶化。在第4.2节中提供了广泛的讨论和人类评估，我们在具有挑战性的MS-COCO图像字幕基准上验证了CNM的有效性总体而言，我们在Karpathy分裂上获得了127.9 CIDEr-D评分，在官方服务器上获得了126.0 c40。我们的贡献总结如下：• 我们的CNM是第一个用于图像字幕的模块网络这丰富了使用神经模块4252视觉语言的任务。• 我们开发了几种技术，有效的模块collo-阳离子培训部分观察的句子。编码器解码器• 实验结果表明，使用神经模块可以显著改善CNM是一个通用框架，支持潜在的改进，如更有原则的模块和控制器设计。2. 相关工作图像字幕。大多数早期的图像字幕是基于模板的模型，他们首先构建句子模式，然后将单词填充到这些固定模式中[29，30，37]。然而，由于用于生成模板和用于生成单词的函数不是联合训练的，因此性能受到限制。与它们相比，实现优异性能的现代图像字幕是基于注意力的编码器-解码器方法[53，52，43，6，60，34，2，55，35，36，56，41，12，13]。然而，与基于模板的模型不同，大多数基于编码器-解码器的模型一个接一个地生成单词而没有结构。我们的CNM充分利用了基于模板和基于编码器-解码器的图像字幕器的优点，这些图像字幕器可以通过结构化模式和端到端训练来生成字幕。特别地，从模块网络的角度来看，最近的几个工作可以减少到我们的CNM的特殊情况。例如，Up-Down [2]只采用 OBJECTIVE模块，[17]将所有单词分类为视觉相关（非功能模块）或非相关（功能模块），[10，45，57]预测语义单词，如对象类别（OBJECTIVE模块），对象属性（ATTRIBUTE模块）和对象动作（RELATION模块）.然后将这些语义词输入到语言解码器中用于字幕。神经模块网络最近，将网络分解为神经模块的想法在一些视觉语言任务中很流行，例如VQA [3，20]，视觉基础，[33，58]和视觉推理[46]。在这些任务中，通过对VQA中提供的问句进行解析，可以获得高质量的模块布局。然而在图像字幕中，只有部分观察到的句子是可用的，并且通过解析的模块结构不再适用。为了解决这一挑战，我们建议在字幕过程中动态搭配神经模块。3. 学习配置神经模块图3显示了我们的学习搭配神经模块（CNM）模型的编码器-解码器结构。编码器包含一个CNN和四个神经模块，用于生成语言解码的特征（参见。第3.1节）。我们的解码器有一个模块控制器，它可以将这些功能柔和地融合到一个单一的功能中，我图3：我们学习搭配神经模块（CNM）图像标题的编码器-解码器管道。从RNN到FUNCTION模块和模块控制器的虚线意味着这两个子网络都需要部分观察到的句子的上下文知识。st是第t个时间步的单词，它被输入到RNN。然后是RNN（cf.第3.2.1节）。请注意，语言损失是强加的，使模块控制器更忠实于词性搭配（参见。第3.2.3节）。除了语言生成之外，RNN还将部分观察句子的累积上下文作为输入输出到FUNCTION模块和语言信息控制器，这对这些语法相关模块很有帮助对于多步推理，CNM的整个解码器将重复该软融合和语言解码M次（参见图1）。第3.2.2节）。利用剩余连接直接将知识从低层传递到高层。3.1. 神经模块基于不同的原理设计了四个可区分的紧凑型神经模块，用于从图像中预测正交知识，对象模块主要关注对象类别，属性模块主要关注视觉属性。以这种方式，视觉推理可以被鲁棒化，因为字幕是从视觉的出现元素生成的，而不仅仅是从更可能过拟合数据集偏差的语言上下文生成的。例如，更准确的描述OBLOCK模块。它被设计成将CNN特征变换成包含关于对象类别的知识的特征集V0，即，特征集V0便于预测像“人”或“狗”这样的名词该模块的输入是RO，它是由ResNet-101 Faster R-CNN [42]提供的N个RoI特征的N×dr这个ResNetOBJ MATTRRELASFUNCSt4253我我我通过使用VG数据集的对象注释对对象检测任务进行预训练[28]。形式上，该模块可以被公式化为：输入：RO，（1）输出量：VO=LeakyReLU（ FC（RO）），其中VO是N×dv输出特征集。TTRIBUTE模块。它被设计为将CNN特征转换为关于属性知识的特征集VA，用于生成像“黑色”和“肮脏”这样的形容词该模块的输入是由ResNet- 101 Faster R-CNN提取的N×dr特征集，这里使用的网络是预先训练的关注网络X软权重^v0^v融合^vRv^^vF利用VG数据集的属性标注，对属性分类任务进行了形式上，这个模块可以写成：软融合输入：RA，输出量：VA=LeakyReLU（ FC（RA）），（二）图4：我们的模块控制器的详细结构该控制器将通过LSTM其中VA是从该模块输出的N×dv特征集RELATION模块。它将CNN特征转换为特征集VR，表示两个物体。该转移的特征集VR将有助于生成像“ride”这样的动词该模块基于多头自注意机制[50]构建，该机制自动寻找输入特征之间的交互。在这里，我们在等式中使用RO（1）作为输入，因为这些类型的特征被广泛地用作成功的关系检测的输入[61，59]。该模块被公式化为：用于将四个模块的特征柔和地融合成一个单融合特征向量该模块的输入是由RNN提供的dc维上下文向量c，如图3中绘制的虚线。我们使用c作为输入，因为它包含了丰富的语言背景知识的部分生成的captions和这样的知识是适合于生成功能词，如该模块被公式化为：输入：c，输入：RO，输出量：vF= LeakyReLU（FC（c）），（六）多头：M=多头（RO），输出量：VR=LeakyReLU（ MLP（M）），（三）其中v<$F是dv维输出特征。3.2. 控制器其中多头（·）表示多头自注意MLP（·）是一个前馈网络，包含两个完全连接的层，中间有一个ReLU激活层[50]，VR是该模块输出的N×dv具体来说，我们使用以下步骤来计算多头自注意。我们首先使用缩放点积来计算k个自注意头部矩阵，如下所示：图4显示了模块控制器的详细设计，其中包含三个注意力网络和一个用于软权重生成的LSTM。Theoutput of this con- troller is a single fused feature vectorvˆ which would be used for the next step reasoning by thefollowed RNN as in Figure 3.接下来，我们描述我们的模块控制器。ROW1（ROW2）T3我我2、Softmax（（d）ROWi，（4）3.2.1软融合其中W1，W2，W3都是dr×dk可训练矩阵，dk=dr/k是每个头向量的维数，k是头矩阵的个数。然后将这k个头部连接并线性投影到最终特征集M：M= Concat（头1，...，标题k）西C，（5）其中WC是一个dr×dr可训练矩阵，M是N×dr然而，如何定义一套完整的视觉推理神经模块仍然是一个悬而未决的问题[58，3]。然而，我们相信简单神经模块的组合可以近似完成各种复杂任务[19]。在软融合之前，使用三个加性注意力网络分别将三个视觉模块输出的特征集转换为三个更具信息量的特征：特征集功能模块。它的目的是产生一个单一的特征向量，用于生成函数词，如“a”或“and”。对象注意力：属性注意力：联系人：v∈O=AttObj（VO，h），vA=AttAttr（VA，h），vR=AttRela（VR，h），（七）GGG属性RELA属性属性OBJSoftmaxLSTMK4254不1：T1：T1：T1：T其中vO、vA和vR是由三个视觉模块产生的VO、VA和VR的dv维变换第3.1节）;h是LSTM产生的dc维查询向量（在第3.3节中指定）;三个注意力网络拥有与[ 2 ]相同的结构，但参数不共享。在从等式（1）得到三个变换后的特征s、vO、vA和vR之后，（7）和来自FUNCTION模块的输出v∈F，控制器为它们生成四个软权重生成软权重的过程被公式化为：输入： x=Concat（v<$O，v<$A，v<$R，c），设计语言损失，其施加在模块控制器上以用于进一步区分这些神经模块。我们通过提取单词形容词，名词或动词）从地面真相字幕的部分语音标记工具[49]。根据这些词汇类别，我们给每个词分配了4-一维热向量w，表示应该选择哪个模块来生成这个词。特别是更大，我们将OBSERVED模块分配给名词（NN如软矢量：w=Softmax（ LSTM（x）），（八）FUNCTION模块转换为其他单词（CC类似于“和”）。输出量： v=Concat（wOv<$O，wAv<$A，wRv<$R，wFv<$F），其中，输入x是三个视觉嵌入向量和在通过提供这些专家指导的模块布局w，w和等式中的软权重w（8）施加训练模块控制器：RNN在Eq.（6）;w={w0，wA，wR，wF}是四维软注意力向量;输出向量vN将被馈送到RNN中用于后续的语言识别。Llin=− Σ4i=1∗w ilog w i.（九）编码。我们使用x来生成软权重，因为视觉线索（v<$O，v<$A ，v<$R）和部分生成的字幕的语言xtknowowwl-edgec此外，由于新时间步的模块布局与先前的模块布局高度相关，因此这里应用LSTM来积累这些知识以生成新的软权重。3.2.2多步推理与许多类似于VQA（其中近似完美的模块布局可以由完全观察到的句子解析）的并行提供的视觉任务不同，我们的模块布局仍然是嘈杂的，因为只有部分观察到的句子可用。为了增强视觉推理的鲁棒性，我们将软融合和语言解码重复M次，在[50，40，25]。以这种方式，通过观察更多的视觉线索，所生成的字幕通常与图像更相关。例如，如4.2节所示的实验结果，当执行多步推理时，由于具有相同类别的对象的视觉模式可以被分类，所以生成更准确的量词。此外，剩余连接（参见图3）用于直接从较低层注意，这种语言损失被施加在语言解码器中的所有M第3.2.2节）。3.3. 训练和推理通过组装神经模块，模块控制器，ResNet-101 [16]作为CNN，自上而下的LSTM [2]作为RNN，我们的CNM图像标题可以端到端地训练。更具体地说，在时间步t，等式（1）中的查询向量h是（7）是自顶向下结构中的第一个LSTM在同一时间步长的输出，并且等式（7）中的上下文向量c是自顶向下结构中的第一个LSTM在同一时间步长的输出。（6）和等式（8）是第二个LSTM在时间步t-1时的自顶向下结构的输出。前一个单词被用作第一个LSTM语言解码器的输入的一部分。模型架构在补充材料的“网络架构”一节中有详细说明给定地面实况字幕S={s}及其前词性标签w，我们可以通过最小化等式中提出的语言损失来端到端训练（九）以及生成的字幕和地面实况字幕之间的语言损失。假设我们的CNM模型的语言解码器预测的单词s的概率是P（s），我们可以将语言损失Llan定义为交叉熵损失：ΣT当这些知识已经足够用于单词生成时，Llan=LXE=−t=1∗logP（st），（10）3.2.3语言损失或基于负强化学习（RL）的奖励[43]：为了保证每个模块都能从图像中学习到正交的、非平凡的知识，OBLOG模块兰=LRL =−E ssP（s）[r（s）s∗;s1：T）]、（十一）cuses更多地关注对象类别，而不是视觉属性，其中r是采样句子即使它拥有与ATTRIBUTE模块相同的结构，我们Ss={ss }和地面实况S={s}，例如，的4255CIDEr-D [51]度量。考虑到语言损失和语言损失，总损失为：L=Llan+λLlin，（12）其中λ是权衡权重。在推理阶段，我们采用波束搜索策略[43]，波束大小为5。4. 实验4.1. 数据集、设置和配置MS-COCO [32]. 该数据集提供了一个官方分裂：分别用于训练、验证和测试的图像为82，783、40，504和40，775。第三方Karpathy分裂[24]也用于离线测试，分别有113，287，5，000，5，000张图像用于训练，验证和测试。[28]第二十八话：我们遵循Up-Down [2]使用该数据集提供的对象和属性注释我们通过保留在训练集中出现超过2000过滤后，保留305个对象和103个属性。重要的是，由于一些图像同时存在于VG和COCO中，我们还过滤掉了VG的注释，这些注释也出现在COCO测试集中。设置. COCO的标题是通过以下步骤来解决的：文本首先在空白处标记，所有的字母都被改为“”;如果出现少于5次，则将其删除;每一个标题都被削减到最多16个字。最后，词汇表共包括10369个词。由方程式（1），dr及dv分别为2，048及1，000个req;在Eq。（6），dc设为1000。在Eq.（5）8。在训练时，使用Adam优化器[26]。此外，学习速率初始化为5e−4，衰减为0。每5个时期8个。交叉熵损失Eq.（10）和基于RL的损失方程。（11）反过来又用来训练我们的CNM 35epoch和100 epoch。批量设置为100。在我们的实验中，我们发现，在方程中，性能对λ不敏感。（十二）、默认情况下，我们设置权衡权重λ=1和λ=0。5.当分别使用交叉熵损失和基于RL的损失作为语言损失时指标. 应用五个标准度量来评估所提出的方法的性能：[ 51 ]，[52]，[53]，[54]，[55]，[56]，[57]，[58]，[59]，4.2. 消融研究我们对CNM进行了广泛的消融，包括架构和更少的训练句子。架构我们将研究设计模块的有效性，软模块融合，语言损失，以及提出研究问题（Q）和经验答案（A）方面的更深层次的解码器结构。Q1：每个模块是否会生成更准确的模块特定单词，例如，OBBLOG模块是否会生成更准确的名词？我们部署了一个视觉模块作为编码器，自顶向下的注意力LSTM [2]作为解码器。当使用对象、属性和关系模块时，基线分别表示为模块/O、模块/A和模块/R。特别是，基线Module/O是Up-Down的升级版本[2]。Q2：当模块融合后，生成的字幕质量会得到提高吗？设计了三种融合策略，分别采用三种融合权值进行模块具体来说，当我们将所有融合权重设置为1时，基线称为Col/1;当使用软融合权重时，基线称为Col/S;当Gumbel-Softmax 层 [21] 用于硬选择时，基线称为Col/H。问题3：由语言损失提供的词性搭配的专家知识是否会使模型受益？我们将语言损失添加到基线Col/H和Col/S，以分别获得基线Col/S+L和Col/H+L值得注意的是，语言损失不能用于Col/1，因为我们不需要模块控制器。Q4：当实现更深的语言解码器时，会产生更好的字幕吗？我们将基线Col/S+L的语言解码器叠加M次，得到基线CNM#M.此外，我们通过将基线Module/O的自顶向下LSTM堆叠M次来设计Module/O#M，以检查当仅使用更深的解码器时是否可以提高性能。评估指标。为了全面验证我们的CNM的有效性，我们不仅计算了五个标准度量（参见第4.1节），但也进行了人的评价，并计算了回忆的五个词性的话。具体来说，我们邀请了20名工人进行人体评估。我们展示了从每个工人的测试集中采样的100张图像，并要求他们成对比较从三个模型生成的标题：Module/O，Col/S+L和CNM#3。从两个方面对字幕进行比较：1)所生成的字幕的流畅性和连贯性（图5中的顶部三个饼图）; 2）所生成的字幕与图像的相关性（图5中的底部三个饼图）。为了计算五个部分的召回在语音词的情况下，我们计算预测字幕中的词与地面实况字幕中的词的比率。这些结果报告于表2中。A1. 从表2中，我们可以观察到，每个单独的模块更倾向于生成更准确的模块特定单词，例如，由模块/O生成的名词的召回率远高于模块/A。这样的观察验证了每个模块确实可以学习相应模块特定单词的知识。A2. 如表1所示，当模块被融合时，可以提高性能。此外，通过比较Col/1，4256表1：各种方法对Karpathy分裂的性能度量：B@N、M 、 R 、 C 和 S 分别表示 BLEU@N 、 METEOR 、ROUGE-L、CIDER-D和SPICE模型B@1B@4MRCSSCST [43]−三十四2二十六岁755.7一百一十四0−StackCap [11]78岁6三十六1二十七岁4−一百二十4−上下[2]79岁。8三十六3二十七岁7五十六9一百二十121岁4RFNet [22]八十4三十七928岁3五十八3一百二十五721岁7CAVP [60]−三十八岁。628岁3五十八5126.321岁6SGAE [54]八十8三十八岁。428岁4五十八61278二十二岁1模块/O79岁。6三十七5二十七岁7五十七5一百二十三121岁0模块/A79岁。4三十七3二十七岁4五十七1121.920块9模块/R79岁。7三十七9二十七岁8五十七8一百二十三821岁2模块/O #379岁。9三十八岁。0二十七岁9五十七5124321岁3Col/1八十2三十八岁。2二十七岁9五十八1一百二十五321岁3Col/H八十1三十八岁。1二十七岁8五十八1124721岁2Col/H+L八十2三十八岁。3二十七岁9五十八4一百二十五421岁4Col/S八十2三十八岁。228岁0五十八4一百二十五721岁4Col/S+L（CNM#1）八十3三十八岁。528岁2五十八6126.421岁5CNM#2八十5三十八岁。528岁2五十八7127021岁7CNM#3八十6三十八岁。728岁4五十八7127421岁880. CNM#3+SGAE8三十八岁。928岁4588127。九点二十二0表3：使用较少训练语句的CIDEr-D损失（CIDEr-D）X54321CNM X0（127.四、0的情况。4（127. 0个）1 .一、2（126.（二）二、3（125. 第一章3 .第三章。6（123. 第八章）模块-O X0（123.第一章0的情况。9（122.（二）二、3（120. 第八章）4.第一章1（119. 0个）六、8（116. 第三章图6：CNM#3和Module/O的标题生成过程的可视化。不同的颜色表示不同的模块，即，红色表示OBJECT模块，紫色表示RELATION模块，黑色表示FUNCTION模块。为了简单起见，我们只可视化生成的模块布局CNM#3与模块/OCol/S+Lvs. 模块/OCNM#3与Col/S+L由深层解码器的最后一个模块控制器控制。创建标题生成。此外，从图5所示的结果中，我们可以发现，当部署软模块融合和语言损失时，生成的字幕具有更高的人类评价质量。A4. 通过检查表1中的标准评估分数、表2中的单词召回和图5中的人类评估，我们可以发现，当使用更深的解码器时，CNM#3与CNM#1相比，可以提高所生成的字幕的质量。此外，通过比较Module/O#3与CNM#3，我们可以发现，仅使用更深的解码器不足以生成高质量的字幕。模块/O百分之二十九百分之五十二百分之十九百分之二十百分之十九百分之六十一百分之三十四百分之二十五百分之四十四百分之五十五百分之二十百分之二十二百分之二十五百分之三十百分之五十四百分之五十四百分之二十一百分之十六相关性流利4257CNM#3Col/S+L比较更少的训练样本。为了测试我们的CNM在只有较少训练句子可用的情况下的鲁棒性（参见第1节），我们随机分配Xsen-图5：比较两种方法在人类评估中。表2：五个词性词的回忆率（%）模型名词形容词动词介词量词模块/A四十二412个。420块241岁7十四岁3模块/O44. 511个国家。521岁8四十二6十七岁1模块/R44. 311个国家。3二十二岁8四十三5二十二岁3Col/S四十五2十三岁123岁1四十三6二十四岁1Col/S+L四十五9十四岁323岁5四十三9二十五4CNM#3四十七3十六岁1二十四岁344. 8三十5Col/S和Col/H，我们可以发现Col/S达到了最高的性能。这是合理的，因为与Col/1相比，Col/S可以使词的生成基于特定的模块。与Col/H相比，Col/S在模块配置不正确的情况下，可以从所有模块中挖掘更多的知识。A3. 如表1和表2所示，我们可以发现Col/S+L的性能优于Col/S。这种观察证实，专家监督确实可以弯曲-将所有注释的字幕之间的张力映射到一个图像，用于训练模型CNM#3和模块-O，以获得基线CNM X和模块-O X。结果报告在表3中，其中值表示与通过所有句子训练的模型的CIDEr-D一致性的损失，并且括号中的值是CIDEr-D分数。结果和分析。从表3中我们可以发现，如果提供较少的训练句子，这两个模型都会被损坏有趣的是，我们可以观察到，与Module/O相比，我们的CNM可以将性能损失减半。这样的观察表明，我们的CNM是更强大的，当提供更少的训练样本相比，基于transmittanceattention的方法。4.3. 与艺术比较方法。虽然近年来开发了各种字幕模型，但为了公平比较，我们只将我们的CNM与一些性能优越的编码器-解码器我们特别4258表4：各种方法对通过交叉熵损失训练的MS-COCOKarpathy分裂的性能。模型B@1B@4MRCSSCST [43]−三十0二十五9五十三4九十九。4−StackCap [11]七十六。2三十五2二十六岁5−109 1−NBT [35]75. 5三十四7二十七岁1−一百零八920块1CNM：一辆红色的卡车停在草地上。一辆生锈的小货车停在田野CNM：一只黑白相间的猫从厕所里喝水地面实况：一只黑猫半浸在马桶里喝水表5：各种方法在网上的表现MS-COCO测试服务器模型B@4MR-LC-D度量C5C40C5C40C5C40C5C40SCST [43]三十五2六十四5二十七岁0三十五5五十六3七十7一百一十四7一百一十六0StackCap [11]三十四9六十四6二十七岁0三十五6五十六2七十6一百一十四8118. 3上下[2]三十六968岁5二十七岁6三十六7五十七1七十二4117 9一百二十5CAVP [60]三十七969岁。028岁1三十七0五十八2七十三。1121. 6一百二十三8SGAE [54]三十七868岁728岁1三十七0五十八2七十三。1122. 7一百二十五5CNM#3三十七968岁428岁1三十六9五十八3七十二9一百二十三0一百二十五3CNM+SGAE三十八岁。469岁。328岁2三十七2五十八4七十三。4一百二十三8126. 0将我们的方法与SCST[43]，StackCap[11]，[22][23][ 24][25][26][27][28][29][SGAE[54].在这些方法中，Up-Down和NBT是我们的CNM的特定情况，其中仅部署了OBBLOG模块所有的StackCap、CAVP和RFNet都使用更广泛的编码器或更深的解码器，而它们不设计不同的模块。此外，我们还为CNM配备了SGAE [54]中保留语言偏见的字典，并且该模型表示为CNM+SGAE。结果表4和表1显示了不同的性能。通过交叉熵损失和基于RL的方法进行训练分别的损失。我们可以看到，我们在表1中的单一模型CNM+SGAE实现了新的最先进的CIDEr-D评分。具体而言，通过部署四个紧凑模块，软模块融合策略和语言损失，我们的CNM可以明显优于模型，例如，Stack- Cap、CAVP和RFNet，它们也使用更深的解码器或更宽的编码器。当像SGAE一样学习字典保持语言偏差时，即使查询嵌入不包含像SGAE那样由图卷积网络创建的高级语义知识从表5的在线测试结果中，我们可以发现我们的单一模型具有竞争力的性能，并且可以达到最高的CIDEr-D c40评分。此外，图6显示了CNM和Module/O（Up-Down的升级版本）的字幕过程的可视化。从该图中，我们可以观察到，我们的CNM可以生成更相关的描述4.4. 限制和潜力虽然我们设计了三种技术，软模块融合，语言损失，以及用于鲁棒模块搭配，不适当模块搭配的(a) ：模块搭配不当（b）：常识推理不足图7：CNM模型的局限性。仍然存在，因为句型是动态结构的，没有全局的“神谕”。因此，不恰当的模块搭配会导致不例如，如图7a顶部所示，在时间步4处，RELATION模块被不准确地选择并且生成动词为了解决这一限制，可以利用更先进的技术，如强化学习来指导模块搭配。我们的CNM的另一个局限是缺乏常识性推理。具体来说，许多需要常识推理的形容词很难由我们的模型，例如，“乡下的”、“生锈的”或“狭窄的”都是普通意义的形容词。图7b给出了两个例子，其中无法生成单词一种可能的解决方案是设计一个REASON模块，其中存储网络保存常识知识，然后上下文知识可以用作推理的查询。CNM+SGAE模型就是为解决这一问题而设计的一个初步试验。从表1中我们可以看出，性能确实得到了提高.这可能会为使用更复杂的模块和常识推理策略提供一些启示5. 结论我们建议模仿人类的归纳偏见-句子是由结构模式组成的-用于图像字幕。特别地，我们提出了一种新颖的模网络方法：学习搭配神经模块（CNM），它可以通过将内容填充到搭配模块中来生成字幕。通过这种方式，字幕生成有望从数据集偏差中解脱出来。我们通过广泛的消融和与MS-COCO上最先进模型的比较来验证我们的CNM此外，我们讨论了模型的局限性，因此相应的潜力是我们未来的工作。鸣谢。这项工作得到了NTU数据科学与人工智能研究中心（DSAIR）和Alibaba-NTU JRI的部分支持。CNM：一列火车正沿着铁轨行驶在公路旁地面实况：一辆绿色的火车在乡村的铁轨上行驶CNM：两头白母牛站在草地上地面实况：两头牛在外面，一头躺下，另一头站在建筑物附近。4259引用[1] Peter Anderson，Basura Fernando，Mark Johnson，andStephen Gould. Spice ：语义命题图像帽评估。在European Conference on Computer Vi-sion，第382-398页中。施普林格，2016年。6[2] Peter Anderson，Xiaodong He，Chris Buehler，DamienTeney，Mark Johnson，Stephen Gould，and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。在CVPR，第5期，第6页，2018年。二、三、五、六、七、八[3] Jacob Andreas，Marcus Rohrbach，Trevor Darrell，andDan Klein.神经模块网络。在IEEE计算机视觉和模式识别会议论文集，第39-48页，2016年。二、三、四[4] Satanjeev Banerjee和Alon Lavie。Meteor：一个自动的评估指标，与人类的判断有更好的相关性. 在acl机器翻译和/或摘要的内在和外在评估措施研讨会集，第65-72页，2005年。6[5] Long Chen，Hanwang Zhang，Jun Xiao，Xiangnan He，Shil- iang Pu，and Shih-Fu Chang.用于场景图生成的反事实评论家多智能体训练。在ICCV，2019年。 1[6] Long Chen，Hanwang Zhang，Jun Xiao，Ligen Nie，Jian Shao，Wei Liu，and Tat-Seng Chua. Sca-cnn：图像字幕卷积网络中的空间和通道注意力。在CVPR，2017年。3[7] Abhishek Das 、 Satwik Kottur 、 Khushi Gupta 、 AviSingh、Deshraj Yadav、Jose MF Moura、Devi Parikh和Dhruv Ba- tra。可视化对话框。在IEEE计算机视觉和模式识别会议论文集，第326-335页1[8] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页。Ieee，2009年。2[9] Jakob Foerster ， Ioannis Alexandros Assael ， Nando deFreitas，and Shimon Whiteson.学习与深度多智能体强化学习进行通信。神经信息处理系统的进展，第2137-2145页，2016年。2[10] Zhe Gan，Chuang Gan，Xiaodong He，Yunchen Pu，Kenneth Tran，Jianfeng Gao，Lawrence Carin，and LiDeng.视觉字幕的语义合成网络。在Proceedings of theIEEEconferenceoncomputervisionandpatternrecognition，pages 5630-5639，2017中。3[11] Jiuxiang Gu，Jianfei Cai，Gang Wang，and Tsuhan Chen.Stack-captioning：从粗到精的图像字幕学习。AAAI，2017。七、八[12] Jiuxiang Gu，Shafiq Joty，Jianfei Cai，and Gang Wang.基于语言旋转的不成对图像字幕。在ECCV，2018。3[13] Jiuxiang Gu，Shafiq Joty，Jianfei C

下载后可阅读完整内容，剩余1页未读，立即下载