密集关系字幕：更丰富的图像理解

76 浏览量更新于2023-10-18 收藏 1.56MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

6271密集关系字幕：基于字幕的三流网络Dong-Jin Kim1 Jinsoo Choi1 Tae-Hyun Oh2 In So Kweon11KAIST，韩国。2麻省理工学院CSAIL，马萨诸塞州剑桥。1{djnjusa，jinsc37，iskweon77}@kaist.ac.kr2taehyun@csail.mit.edu摘要我们在这项工作中的目标是训练一个图像字幕模型，生成更密集和信息量更大的字幕。我们介绍了“关系字幕”，一种新的图像字幕任务，其目的是生成多个字幕相对于对象之间的关系信息的图像。关系字幕是一种在信息多样性和信息量方面都具有优势的框架，导致基于关系的图像理解词性（POS），即主语-宾语-谓语类别）标签可以被分配给每个英语单词。我们利用POS作为先验来指导标题中的正确单词序列。为此，我们提出了一个多任务三流简单标签语句输出输入图1：拟议关系上限的总体描述网络（MTTSNet），其由用于相应POS的三个循环单元组成，并且联合执行POS预测和字幕。我们展示了更多样化和更丰富的表示所提出的模型对几个基线和竞争的方法。1. 介绍人类视觉系统有能力通过眼睛密集地和自适应地浏览视觉场景，有效地和即时地收集场景中对象之间的上下文关联的整体理解[16，23]I.E.扫视运动这种即时提取的丰富而密集的信息使人类具有以对象为中心的视觉理解的优越能力。受此启发，在这项工作中，我们提出了一种新的场景理解概念，称为密集关系字幕，它以人类可解释的方式提供密集但有选择性的，表达性的和关系性的表示，即，通过字幕。图像的更丰富的表示通常会导致后续计算机视觉算法的大量潜在应用或性能改进[22，23]。为了实现更丰富的以对象为中心的理解，约翰逊等人。[12]提出了一个名为DenseCap的框架，为每个密集采样的局部图像区域生成字幕。这些区域性的描述有助于丰富和定位框架。与传统框架相比，我们的框架在交互理解和高层次解释方面都是有利的。以可解释语言的形式对场景进行密集语义理解。然而，我们要获取的图像中的信息不仅包括物体本身的信息，还包括与其他物体或环境的相互作用作为表示图像的另一种方式，我们专注于对象之间的密集关系。在人类认知的背景下，已经有一个普遍的共识，即目标对象附近的对象和特定环境影响搜索和识别效率。理解对象之间的关系清楚地揭示了对象相互作用和对象-属性组合[11，14，20]。有趣的是，我们观察到人类在计算机视觉数据集上所做的注释主要包含关系形式;在Visual Genome [15]和MS COCO [19]标题数据集中，大多数标签采用主语-谓语-宾语格式，而不是主语-谓语。此外，UCF 101[31]动作识别数据集包含101个动作中的85个动作（84.2%），这些动作是根据人类与其他物体或环境的交互这些方面告诉我们，理解对象之间的相互作用和关系有助于对象检测人密集字幕那个男人穿着一件黑色衬衫。关系检测“骑马”摩托车狗“背后”人狗'on'摩托车人‘in front关系字幕骑着红色摩托车的男人狗坐在人的后面小狗坐在摩托车上老人在前面的棕色狗。这只狗是棕色和黑色的。摩托车是红色的。狗摩托车狗人关系单箱6272组件在以对象为中心的事件的视觉理解在这方面，我们介绍了一种新的字幕框架-关系字幕，可以提供多样化和密集的表示从一个图像。在这个任务中，我们首先利用两个对象之间的关系上下文作为表示单元。这允许生成局部化区域信息的组合数量。其次，我们利用字幕和它的能力来表达显着，cantly丰富的概念，超出了对象检测任务中使用的对象类的有限标签空间由于这些方面，我们的关系字幕扩展制度进一步沿标签空间无论是在密度和复杂性方面并且为图像提供更丰富的表示我们的主要贡献总结如下。(1)我们介绍了关系字幕，一个新的字幕任务，产生相对于图像中的对象之间的关系信息的字幕。(2)为了有效地训练关系型字幕信息，本文提出了一种多任务三流网络（MTTSNet），该网络由三个循环单元组成，通过多任务学习来训练。(3)我们表明，我们提出的方法能够通过评估从VisualGenome（VG）[15]数据集增强的相关字幕数据集(4)我们介绍了我们的框架的几个应用程序，包括2. 相关工作我们的工作涉及两个主题：图像字幕和关系检测。在本节中，我们将对这些主题的相关工作进行分类和回顾。图像字幕。通过深度学习和使用递归神经网络（例如，基于LSTM [9]）的解码器，图像字幕[24]技术已经扩展，[1，7，10，13，21，28，33，37，39，41]。字幕的研究问题之一是生成多样化和信息丰富的字幕。因此，学习生成不同的字幕最近得到了广泛的研究[2，4，5，29，32，34]。作为解决方案之一，提出了密集字幕（DenseCap）任务[12]，该任务使用不同的区域建议来生成本地化描述，将传统的整体图像字幕扩展到可以描述本地上下文的不同字幕此外，通过考虑对象之间的关系，我们的关系字幕能够生成Yang等[38]通过将全局图像特征作为上下文提示以及具有后期融合的所需对象的区域特征来改进DenseCap模型受此启发，为了隐式地学习主题，对象和联合表示的依赖关系，我们为我们的字幕模块引入了一个三流LSTM。视觉关系检测（VRD）。理解物体之间的视觉关系已经成为各种任务中的重要概念。传统的VRD通常处理预测主语-谓语-宾语（简称subj-pred-obj）。Luetal的开创性工作。[20]形式化了VRD任务并提供了一个数据集，同时分别添加了主题（或对象）和谓词分类模型。另一方面，与VRD任务类似，场景图生成（生成包含场景上下文的结构化图的任务）也已开始探索[18，35，36，43]。虽然VRD数据集比Visual Phrases大（100个对象类和70个谓词），但它仍然不足以处理真实世界的规模。用于关系检测的可视化基因组（VG）数据集[15]由31k预测类型和64k对象类型组成，这使得关系三元组的可能组合最先进的VRD模型。这是因为标签由单词的各种组合组成（例如，因此，本文只研究了VG关系数据集的简化版本.相反，我们的方法是能够产生的关系字幕标记的整个关系表达式成词，并从他们学习。虽然最近的最先进的VRD [17，20，26，42，40]或场景图生成作品[18，35，36，43]大多使用语言先验来检测关系，我们直接将关系作为描述性语言模型来学习。此外，传统的场景图生成或VRD任务的表达方式仅限于subj-pred-obj三元组，而关系字幕能够通过采用自由形式的自然语言表达方式提供诸如属性或名词修饰语等附加信息。总之，密集字幕便于图像中的区域的自然语言解释，而VRD可以获得对象之间的关系信息。我们的工作结合了这两个轴，导致比DenseCap更密集和多样化的标题。也就是说，鉴于B区提议-在图像中，我们可以获得B（B-1）个关系标题，而DenseCap只返回B个标题。3. 多任务三流网络我们的关系字幕定义如下。给定输入图像，边界框检测器生成各种对象建议，并且字幕模块预测具有描述每对对象的POS标签的组合字幕。图2显示了所提出的关系字幕模型的整体框架，主要由基于区域建议网络（RPN）的本地化模块[27]和用于字幕的三流RNN（LSTM [9]）模块组成。我们的网络支持端到端的训练，只需一个优化步骤，即可使用自然语言进行联合定位、组合和描述。6273区域建议双线性ROI池完全完全连接连接联盟区域联合特征双线性ROI池完全完全连接连接被摄体区域主题特征双线性ROI池完全完全连接连接PREDLSTM复发性多任务模块S V O“字”OBJLSTM对象区域物体特征图2：拟议的多任务三流网络的总体架构。三个区域特征（Union、Subject、Ob-ject）来自同一个共享分支（区域建议网络），对于Subject和Object特征，第一个中间FC层共享权重（以相同颜色表示）。给定一个图像，RPN生成对象建议。然后，组合层一次获取由主体和对象组成的一对。为了考虑到周围的上下文信息，我们利用主体和对象区域的联合区域，以类似于Yang等人使用全局图像区域作为边信息的方式。[38]第30段。三元组（主体、对象、联合）的这种特性被提供给三流LSTM，在三流LSTM中，每个流都有自己的目的，即。主体、客体和联合体。给定这个三元组特征，三元流LSTM协作地生成每个单词的标题和POS类。我们将这些过程描述如下。更密集，更明确地表达关系。此外，我们可以通过分配区域的角色来不对称地使用一对中的每个条目，即。（主语，宾语）。此外，在Yang等人的激励下，在图像的全局上下文提高字幕性能的情况下，我们利用附加区域，（subject，object）的联合区域BU此外，为了提供相对空间信息，我们为主体和客体盒对附加了一个几何特征，即。（bs，bo）到FC层之前的联合特征。给定两个边界框bs和bo，几何特征r类似于[25]定义为：Σ。TΣxo-xs，yo-ys，=woho，ws，wo，bss Sbo∈R6.（一）3.1. 地区提案网络R刘少奇刘少奇wshs HShoBSBo我们的网络使用VGG- 16 [30]的完全卷积层，直到最终的池化层（即conv5 3）用于通过双线性ROI池[12]提取空间特征。对象建议由本地化层生成它采用特征张量，并提出感兴趣的B区域（用户参数）。每个建议区域都有其置信度得分，形状为512×7×7的区域特征，具有中心的边界框的坐标b=（x，y，w，h）（x，y），宽度w和高度h。我们使用两个全连接（FC）层将其处理为矢量化特征（形状D=512）。这将每个区域的外观编码为这就是所谓的区域代码。一旦区域代码被执行，它们将被重新用于以下过程。为了生成关系建议，我们构建B区域建议的成对组合，然后我们得到B（B-1）个可能的区域对。我们称这一层为组合层。我们的模型的一个独特之处是，以前的密集字幕作品[12，38]，是当作品将每个区域建议作为一个独立的目标来描述和产生B数量的字幕时，我们考虑它们的成对组合B（B-1），这是非常多的通过将union特征与传递的r通过附加的FC层，该特征的形状为D+64。然后，通过以下FC层来减少联合区域码的维度。这一操作流程如图所示二、提取的三个特征从subject、object和union区域中提取的数据被馈送到以下部分中描述的每个LSTM。3.2. 关系字幕网络关系字幕生成考虑对象对的关系信息。然而，用句子表达这种关系的研究却很少。因此，我们设计了一个新的网络，处理关系字幕，称为多任务三流网络。从区域提议网络中，一个三元组的区域代码作为输入被馈送到LSTM单元，从而生成一个单词序列（标题）。在所提出的关系区域建议中，一个独特的方面是提供由主语、宾语和并集区域组成的三重区域代码，其实际上对应于句子的POS（subj-pred-obj）。这种区域对象检测器组合层512D512DSUBJLSTM512D512D512D几何512D64D6274多任务模块Concatenate嵌入LUTFC足球俱乐部“马”“警察”“军官”“骑”“a”“马”主题SUBJSUBJSUBJSUBJSUBJSUBJ特征LSTMLSTMLSTMLSTMLSTMLSTM谓词PREDPREDPREDPREDPREDPRED特征LSTMLSTMLSTMLSTMLSTMLSTM对象OBJOBJOBJOBJOBJOBJ特征LSTMLSTMLSTMLSTMLSTMLSTM图3：展开的三重流LSTM的图示我们的模型由两个主要部分组成：三流LSTM和多任务模块。多任务模块联合预测字幕词及其POS类（subj-pred-obj，示出为根据POS类着色的三个单元）以及下一时间步的输入向量。在一个三元组中，POS信息导致以下优点：1）输入特征可以根据其POS自适应地合并并馈送到字幕生成模块，以及2）预测单词之前的POS可以有效地应用于字幕生成。然而，利用和处理这些输入线索是不平凡的。对于第一个优点，为了得到POS感知的推理，我们提出了三流网络，这是三个单独的LSTM分别对应于subj-pred-obj。LSTM的结果通过连接进行组合。对于第二个优点，在单词预测期间，我们通过多任务推理联合推断其POS类。该POS类预测在学习阶段期间充当字幕的单词预测的先验。三流LSTM。直观地说，主语和宾语的区域码与字幕中的主语和宾语相关词密切相关，而并集和几何特征可能有助于谓语。在我们的关系字幕框架中，LSTM模块必须根据字幕的POS解码阶段自适应地考虑输入特征。如图2、提出的三流LSTM模块由三个独立的LSTM组成，每个LSTM分别负责主体、客体和联合区域码。在每个步骤中，三流LSTM分别生成三个嵌入式表示，并通过合并三个处理后的表示来预测单个单词。预测词的嵌入被分配到所有三个LSTM作为输入，并用于以递归方式运行下一步骤因此，在每个步骤中，三元组输入的每个条目都被不同地使用，这比传统字幕模型中使用的单个LSTM具有更大的灵活性[12，33]。换句话说，输入线索特征的权重在每个递归步骤根据正在生成的单词属于哪个POS而改变。多任务与POS分类。在此连接之上，我们利用POS信息更有效地训练关系字幕模型。关系上限-排序生成以subj-pred-obj顺序的单词序列，即，POS的顺序对于每个单词预测，在图1中的多任务模块中。3、对预测词的词性进行分类，以鼓励字幕生成者遵循词性中的词序。当每个POS的三个表示要被合并时，一个选项可以是在早期步骤中合并它们，称为早期融合。这导致单个LSTM融合了三个区域代码（例如，三个代码的级联）。然而，正如Yanget al. [38]，这种早期融合方法也显示出比后期融合方法更低的性能。在这方面，我们采用了多任务模块的后期融合。该层基本上连接来自三流LSTM的表示输出，但由于循环多任务模块，它能够生成复杂的表示。我们根据经验观察到，这种使用POS的多任务学习不仅有助于共享表示变得更丰富，而且还可以指导单词预测，从而有助于提高整体字幕性能。我们假设POS任务提供了独特的信息，可以帮助学习适当的表示从三流LSTM。由于每个POS类预测都紧密依赖于在来自每个LSTM的相应表示上，例如，pred- 与POS的pred密切相关的LSTM，从POS分类生成的梯度将根据类别通过级联表示的索引反向传播。凭借这一点，多任务三流LSTM能够以这样的方式学习表示，即它可以预测每个时间步长的合理单词因此，我们的模型可以在给定的时间步根据POS生成合适的词。损失函数。训练我们的关系字幕模型主要可以分为字幕损失和检测损失。具体地，所提出的模型被训练以最小化以下损失函数：L=Lcap+αLPOS+βLdet+γLbox，（2）6275其中Lcap、LPOS、Ldet和Lbox分别表示字幕损失、POS分类损失、检测损失和边界框回归损失。α、β和γ是平衡参数（我们将它们设置为0。所有实验均为1前两个术语用于字幕，后两个术语用于区域提案。Lcap和LPOS分别是每个词和POS分类对于每个时间步，LPOS测量3类交叉熵损失。Ldet是前景/背景区域的二进制对数损失，而Lbox是平滑的L1损失[27]。4. 实验在这一部分中，我们提供了实验装置，计算方法和性能评估的关系字幕定量和定性的结果。4.1. 关系字幕数据集由于没有用于关系上限任务的现有数据集，我们利用VG关系数据集版本1.2 [15]构建了一个数据集，该数据集包含85200个最大平均接入点（%）Img-Lv。召回流星直接联合–17.3211.02联盟0.5725.6112.28Union+Coord.0.5627.1413.71主题+目标0.5128.5313.32主题+目标+坐标0.5730.5314.85Subj+Obj+Union0.5930.4815.21TSNet（我们的）0.6132.3616.09连接（带MTL）0.6126.9712.75主题+目标+坐标（带MTL）0.6331.1515.31Subj+Obj+Union（w/MTL）0.6431.6316.63MTTSNet（我们的）0.8834.2718.73[43]第四十三话0.2529.9015.34表1：关系字幕数据集上的关系密集字幕任务的消融研究4.2. 关系密集字幕：消融研究基线。由于没有直接的工作关系字幕存在，我们实现了几个基线修改最相关的方法，这有利于我们的消融研究。• Direct Union与Dense- Cap[12]具有相同的架构，但其中RPN经过训练可直接预测联盟地区。联合区域用于由一个LSTM生成帽。分别用于训练/验证/测试集的75456/4871/4873分割图像我们将关系表达式标记化以形成自然语言表达式，并且对于每个单词，我们从三元组关联中分配POS类。然而，VG关系数据集在所使用的词中显示出有限的多样性。因此，通过仅使用关系表达式来构造数据，从模型生成的标题往往是简单的（例如尽管我们的模型可以实现更丰富的概念和表达式，但如果训练数据不包含这些概念和表达式，就无法真正看到这一点。为了验证我们的关系字幕的多样性，我们需要使我们的关系字幕数据集有更多的自然句子与丰富的表达。通过观察，我们注意到关系数据集标签缺乏描述主语和宾语的属性，这可能是最丰富句子的地方。因此，我们利用VG数据的属性标签来扩充现有的关系表达式。更具体地说，我们只需找到与关系标签的subject/object匹配的属性，并将其附加到subj/obj标题标签。特别地，如果属性标签描述了关系标签的相同主体/客体，而相关联的边界框足够重叠，则该标签被认为与关系标签中的主体/客体匹配在这个过程之后，我们为我们的关系字幕数据集获得了15595个词汇表（在这个过程之前是11447个词汇表）。我们用这些数据训练我们的标题模型，并在本节中报告其结果此外，我们提供了一个整体的图像字幕性能和各种分析，如与场景图生成的比较。• Union也类似于DenseCap[12]和Direct union，但其RPN预测单个对象区域。对象区域被配对为（主体，对象），然后将每对中的联合区域馈送到单个LSTM，字幕此外，我们还实现了两个额外的变体：Union（w/MTL）还预测POS分类任务，Union+Coord。将几何特征附加到并集的区域代码。• Subj+Obj 和 Subj+Obj+Union 模型分别使用（subject，object）和（subject，object，union）的串联区域特征，并传递它们LSTM（Early Fusion Approach）Subj +Obj+Coord。使用几何特征而不是并集的区域代码。此外，我们评估基线， Subj+Obj+{Union ， Coord} 与 POS 分类（MTL损失）。• TSNet表示所提出的基于三流LSTM的模型，没有POS分类器的分支。每个流采用（subject，object，union + coord.）的区域代码。分开MTTSNet表示我们的最终模型，具有POS分类器的多任务三流网络。评估指标。受密集字幕任务[12]的评价指标的启发，我们提出了一个新的关系密集字幕评价指标。我们报告的平均平均精度（mAP），衡量本地化和语言的准确性。正如Johnson等人所建议的，我们使用METEOR评分[6]和阈值{0，0。05，0。10个。15，0。2，0。25.语言，语言，语言旧的{0. 2，0。3，0。四，零。5，0。6}用于本地化。AP值6276图片说明：■ 一个人在空中飞翔密集字幕：■ 滑雪板在空中。■ 穿红夹克的男人。■ 滑雪板是白色的。■ 红色和白色的雪板。关系型标题（Ours）：■ →■背景中的绿树■ →■地上的雪。■ →■蓝天白云■ 白雪上的男人The Man on WhiteSnow■ →■穿黑裤子的男人■ →■杆上的白雪■ →■白色冲浪板上的男人⋮图片说明：■ 一个骑摩托车的男人。密集字幕：■ 穿红黑色夹克的人■ 蓝天上的一片云■ 头盔是黑色的。■ 摩托车前轮关系型标题（Ours）：■ →■骑着黑色摩托车的男人■ 蓝天下的男人The Man in Blue■ →■红色的摩托车有一个黑色的轮子。■ →■戴着黑色头盔的男人■ →■摩托车上的黑色轮子■ ■男人的头。■ →■蓝天白云。⋮图4：由所提出的模型生成的示例标题和区域。我们将我们的结果与图像captioner [33]和密集captioner [12]进行比较，以对比信息量和多样性。召回流星#标题标题/框[33]第三十三话23.558.6611[28]第二十八话24.0414.0011[12]第12话42.6319.579.161关联标题（Union）38.8818.2285.849.18关系标题（MTTSNet）46.7821.8789.329.36表2：整体水平图像字幕的比较我们将关系字幕的结果与两个图像字幕[28，33]和密集字幕[12]的结果进行了通过语言和定位阈值的所有成对组合获得的mAP得分被平均以获得最终mAP得分。我们的度量的主要区别在于，对于定位AP，我们用各自的地面实况测量主体和客体边界框。特别地，我们只考虑具有大于定位阈值的主体和对象边界框的IOU的样本对于所有情况，我们使用百分比作为度量单位。此外，我们还提出了另一种度量标准，称为“图像级（Img-Lv.）”。召回。”这通过将从图像生成的所有字幕的包视为单个预测来测量整体图像级别的字幕质量。仅考虑到METEOR的上述语言门槛，即在没有框IOU阈值的情况下，我们测量预测字幕的召回率。该度量评估由模型针对给定图像产生的表示的多样性。此外，我们测量预测字幕的平均METEOR分数来评估字幕质量。结果表1显示了关系密集字幕任务在关系字幕数据集上的性能。第二行和第三行部分（第2-7行和第8- 11行）显示了具有和不具有POS分类（w/MTL）的基线的比较在最后一行中，我们展示了最先进的场景图生成器Neural Motifs [43]的性能。由于输出结构的不同，我们将与监督训练的神经模体进行比较，以进行关系检测。与DenseCap [12]中的设置类似，我们将NMS之前的区域提案数量固定为50，以便对所有方法进行公平比较。在第二行部分的结果中（第2- 7行）在表1中，我们的TSNet示出了最好的结果，这表明单独的三流分量是比其他分量足够强的基线。在TSNet之上，应用MTL损失（即，MTTSNet）提高了整体性能，尤其是提高了mAP，其中与其他度量的提高相比，检测精度似乎得到了显著提高这表明三流LSTM是最能利用其他早期融合方法中MTL损失的关键模块（参见表的第三行部分作为另一个因素，我们可以从表1中看到，相对空间信息（Coord. ）和联合特征信息（Union）改进了结果。这是因为联合要素本身保留了空间信息，从某种程度上说，这与其激活的7×7网格形式有关。对于神经基序，其他关系描述符包括我们的TSNet和MTTSNet在内的基线在所有指标中都对神经基序这是值得注意的，因为我们的目标是实现处理自由形式的语言生成比场景图生成的简单三元组预测更具挑战性。4.3. 整体图像字幕比较我们还从整体图像描述的角度将我们的方法与其他图像captioning框架，Image Captioner（Show Tell [33]和SCST [28]）和Dense Captioner（DenseCap [12]）进行比较。为了测量密集字幕方法的整体图像级字幕的性能，我们使用Img-Lv。在上一节中定义的召回标准（召回）。我们将它们与两种关系密集字幕方法Union6277场景图1-2. 列车上建造5-2. 轮对列车7-2. 列车窗口9-2. 轻型列车2-4. 轨道列车（一）关系字幕1-2. 黄色火车上的屋顶5-2. 黄色火车上的黑色车轮。七比二火车上的窗户9-2. 黄色火车上的灯。2 -4黄色的火车在旧轨道上。场景图5-6. 男帽7-3. 男裤3-4. 男帽1-2. 男帽（b）第（1）款关系字幕5-6. 戴蓝帽子的老人。七比三穿红裤子的年轻人。3-4. 戴红帽子的男孩。一比二戴紫色帽子的那个人。场景图3-4棵树对树关系字幕3-4树上的绿叶场景图关系字幕1-2人戴帽1-2站着的人的白色帽子。7-8. 戴头盔的男人7-8. 戴黑头盔的男人。2-6人穿短裤2-6穿蓝裤子的男人5-6. 人后看台5-6. 坐在看台后面的女人。2-8男式衬衫2-8穿着黑色衬衫的男人1-2. 戴头盔的男人1-2 戴头盔的棒球运动员2-10人头盔（c）第（1）款2-10戴白帽子的男人1-4. 男裤（d）其他事项1-4. 穿白裤子的男人。图5：从我们的关系captioniner生成“caption graph”的结果。为了比较输出的多样性，我们还展示了场景图生成器Neural Motifs的结果[43]。和MTTSNet，表示为关系标题。为了公平比较，对于密集和关系型标题，我们将NMS之后的区域提案数量调整为相似，这与上一节中固定NMS之前提案数量的设置不同。表2显示了用于比较的图像级召回、METEOR和#Caption表示从输入图像生成的字幕的平均数量，Caption/Box表示生成的字幕的数量与NMS之后剩余的盒子的数量的平均比率因此，Caption/Box演示了在NMS之后凭借多个字幕每图像，年龄从多个盒子，密集字幕能够实现更高的性能比这两个图像字幕。与密集字幕机相比，MTTSNet作为关系字幕机可以生成更多的字幕，给相同数量的盒子。因此，作为学习生成不同字幕的结果，MTTSNet实现了更高的召回率和METEOR。从Union的性能可以看出，尽管有更多的字幕，但仅通过学习使用主题和对象框的并集，很难获得比Dense Captioner更我们在图中展示了我们的关系标题模型的示例预测。4.第一章我们的模型能够为图像生成丰富多样的标题。我们还展示了与传统框架，图像标题[33]和密集标题[12]的比较。虽然密集字幕能够生成不同的描述比图像字幕凭借不同的区域，我们的模型可以生成更多的字幕从边界框的组合。4.4. 与Scene Graph的比较受场景图的启发，我们扩展到一种新的场景图，我们称之为图5显示了从我们的MTTSNet生成的标题图以及来自Neural Motifs的场景图[43]。对于标题图，我们遵循与神经基序相同的过程，但将关系检测网络替换到我们的MTTSNet中。在这两种方法中，我们使用地面实况边界框来生成场景（和标题）图，以进行公平的比较。由于是自由形式的，我们的字幕图可以有更丰富的表达和信息，包括属性，而传统的场景图是有限的subj-pred-obj三元组的一个封闭的例如图5-（b，d），给定相同的对象“人”，我们的模型能够区分细粒度的类别（即，男人对男孩和男人对女人）。此外，我们的模型还可以提供更多关于对象的状态信息（例如站立，黑色），凭借我们的关系字幕数据中包含的属性。最重要的是，场景图可以包含不自然的关系（例如，图中的树对树。5-（c）），因为先验关系检测方法，例如，[43]，分别预测对象类。相反，通过预测每个对象对的完整句子，关系字幕可以通过考虑关系来为对象指定更合适的词，例如。“Green leaf on a最后，我们的模型能够通过考虑上下文为同一对象分配不同的单词（图中的男子与棒球运动员）。5-（d）），而场景图生成器只能分配一个最可能的类（man）。因此，与传统的场景图生成模型相比，我们的关系字幕框架能够对对象进行更多样化的解释6278words/imgwords/box图像帽。[33个]4.16-[43]第四十三话7.663.29致密帽。[12个]18.414.59关系帽（MTTSNet）20.4515.31R@1R@5R@10Med全图像RNN[13]0.100.300.4313区域RNN [8]0.180.430.597DenseCap [12]0.270.530.675RelCap（MTTSNet）0.290.600.734表3：图像字幕、场景图生成、密集字幕和关系字幕之间的多样性比较。我们测量每个图像的不同单词的数量（ words/img ）和每个边界框的单词数量（words/box）。4.5. 额外分析词汇统计。此外，我们还测量了词汇统计数据，并在框架之间进行了比较。计量的统计数据类型如下：1）已用于描述图像的唯一单词的平均数量，以及2）描述每个框的单词的平均数量。更具体地说，我们计算所有预测句子中的独特单词的数量，并给出每个图像或框的因此，该度量了给定图像或固定数量的盒子，我们可以获得的信息量。比较结果见表3。这些统计数据来自Image Cap。到场景图到密集帽。关系资本总之，与传统的以对象为中心的场景理解框架、场景图生成和密集字幕相比，所提出的关系字幕在多样性和信息量方面具有优势基于句子的图像和区域对检索。由于我们的关系字幕框架产生更丰富的图像表示比其他框架，它可能有好处的句子为基础的图像或区域对检索，这不能通过场景图生成或VRD模型执行。为了评估检索任务，我们遵循与Johnson等人相同的程序。[12]与我们的相对字幕数据。我们从测试集中随机选择1000幅图像，从这些选择的图像中，我们通过从25幅随机选择的图像中随机抽取4个标题来收集100个查询语句任务是通过将每个查询与生成的标题进行匹配来检索正确的图像。我们计算检索到的图像排名在前k∈ {1，5，10}内的查询数量与查询总数（表示为R@K）的比率我们还报告了所有1000张测试图像中正确检索到的图像的中位数排名（随机机会，对于R@1、R@5和R@10，mance分别为0.001、0.005和0.01与几个基线比较的检索结果如表4所示。对于基线模型Full Image RNN，Region RNN和DenseCap，我们显示了Johnson等人测量的性能。[12 ]第10段。为了具有可比性，我们遵循相同的程序，通过随机测试集运行我们表4：基于句子的图像检索性能与以前的框架的比较。我们使用k处的召回率（R@K，越高越好）和目标图像的中位数排名（Med，越低越好）来评估排名。匹配分数计算如下。对于每个测试图像，我们从RPN生成100个区域建议，然后通过NMS生成。为了产生查询和图像中的区域对之间的匹配分数，我们计算查询文本可能出现在区域对中的概率。在图像中所有区域对的得分中，我们将最大的匹配得分值作为图像的代表得分。该分数被用作查询文本和图像之间的匹配分数，并且因此基于这些计算的匹配分数按等级对图像进行如表4所示，所提出的关系标题优于所有基线框架。这是有意义的，因为基于区域对的方法比基于单个区域的方法更具挑战性。5. 结论我们引入了关系字幕，一个新的概念，它需要一个模型来定位图像的区域，并描述每个关系区域对的标题。为此，我们提出了MTTSNet，这有利于POS感知关系字幕。在几个子任务中，我们经验证明了我们的框架的有效关系字幕作为一种意象表达方式，可以提供多样、丰富、高层次和可理解的字幕形式表征在这方面，我们的工作可能会打开有趣的应用，例如，基于自然语言的视频摘要[3]可以受益于我们丰富的表示。鸣谢。这项工作得到了韩国政府（MSIT）资助的信息通信技术规划评估（IITP）资助（No.2017-0-01780，用于视频理解的事件识别/关系推理和引用[1] Peter Anderson，Xiaodong He，Chris Buehler，DamienTeney，Mark Johnson，Stephen Gould，and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。在IEEE计算机视觉和模式识别会议，2018。26279[2] 陈福海，纪荣荣，孙小帅，吴永建，苏劲松。Groupcap：基于组的图像字幕，具有结构化的相关性和多样性约束。在IEEE计算机视觉和模式识别会议，2018年。2[3] 崔镇秀吴泰贤仁素坤通过自然语言的上下文自定义视频摘要。 IEEEWinter Conference on Applications ofComputer Vision（WACV）计算机视觉应用冬季会议IEEE，2018年。8[4] Bo Dai，Sanja Fidler，Raquel Urtasun，and Dahua Lin.通过有条件的组来实现多样化和自然的图像描述。IEEEInternationalConferenceonComputerVision（ICCV）IEEE，2017年。2[5] 戴波和林大华。图像加帽的对比学习。神经信息处理系统进展（NIPS），2017年。2[6] Michael Denkowski和Alon LavieMeteor通用：针对任何目标语言的特定语言翻译评估统计机器翻译研讨会，2014年。5[7] JeffreyDonahue 、 LisaAnneHendricks 、 SergioGuadarrama、MarcusRohrbach、SubhashiniVenugopalan、Kate Saenko和Trevor Darrell。用于视觉识别和描述的长期递归卷积网络。在IEEE计算机视觉和模式识别会议（CVPR），2015年。2[8] 罗斯 · 格希克。快速 R-CNN 。 IEEEInternationalConference on Computer Vision（ICCV），2015年。8[9] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。神经计算，9（8）：1735-1780，1997。2[10] Wenhao Jiang，Lin Ma，Yu-Gang Jiang，Wei Liu，andTong Zhang.用于图像字幕的递归融合网络。在欧洲计算机视觉会议（ECCV），2018。2[11] 李飞飞，李文劳伦斯·齐特尼克和罗斯·格希克推断和执行程序以进行可视化推理。 IEEEInternationalConference on Computer Vision（ICCV），2017年。1[12] 贾斯汀·约翰逊安德烈·卡帕西和李飞飞。Densecap：用于密集字幕的全卷积定位网络。在IEEE计算机视觉和模式识别会议（CVPR），2016年。一二三四五六七八[13] Andrej Karpathy和李飞飞。用于生成图像描述的深度视觉语义在IEEE计算机视觉和模式识别会议（CVPR），2015年。二、八[14] Dong-Jin Kim，Jinsoo Choi，Tae-Hyun Oh，YoungjinYoon，and In So Kweon.以人为中心的异质任务之间的不相交多任务学习 IEEEWinter Conference onApplications of Computer Vision（WACV），2018年。1[15] Ranjay Krishna ， Yuke Zhu ， Oliver Groth ， JustinJohnson，Kenji Hata，Joshua Kravitz，Stephanie Chen，Yannis Kalantidis，Li-Jia Li，David A Shamma，et al.可视化基因组：使用众包密集图像注释连接语言和视觉。国际计算机视觉杂志（IJCV），123（1）：32-73，2017。一、二、五[16] Michael F Land ， Sophie M Furneaux ， and Iain DGilchrist.在没有眼球运动的情况下，主体视觉中介动作的组织。Neurocase，8（1）：80-87，2002. 1[17] Yikang Li ， Wanli Ouyang ， and Xiaogang Wang. VIP-CNN：用于视觉关系检测的视觉短语推理卷积神经网络。在IEEE计算机视觉和模式识别会议（CVPR），2017年。2[18] 李益康，欧阳万里，周波磊，王坤，王晓刚.从对象、短语和区域字幕生成场景图 IEEEInternationalConference on

下载后可阅读完整内容，剩余1页未读，立即下载