多模态预训练模型和对象关系：改进图像字幕

71 浏览量更新于2023-10-26 收藏 926KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

117969除了预先训练的物体检测器之外：跨模态文本和视觉语境的图像字幕佐治亚理工学院郭家文albert. gatech.edu乔治亚理工大学zkira@gatech.edu摘要视觉字幕已经取得了重大进展，主要依赖于预先训练的特征和后来的固定对象检测器，这些检测器作为自回归模型的丰富输入。然而，这种方法的一个关键限制是模型的输出仅取决于对象检测器假设这样的输出可以代表所有必要的信息是不现实的，特别是当检测器跨数据集传输时。在这项工作中，我们的原因，由这个假设引起的图形模型，并建议添加一个辅助输入来表示丢失的信息，如对象关系。我们特别建议从Visual Genome数据集中挖掘属性和关系，并在其上设置字幕模型。至关重要的是，我们提出（并证明是重要的）使用多模态预训练模型（CLIP）来检索这样的上下文描述。此外，对象检测器模型被冻结，并且不具有足够的丰富性以允许字幕模型适当地使它们接地。因此，我们建议条件的检测器和描述输出的图像，并显示定性和定量，这可以改善接地。我们在图像字幕上验证了我们的方法，对预训练的多模态模型的每个组件和重要性进行了深入的分析，并证明了对当前技术水平的显着改进，特别是CIDER指标为+7.5%，BLEU-4指标为+1.3%。1. 介绍对于视觉和语言（VL）任务，例如生成图像的文本描述（图像字幕）[1，9，24]，将输入图像编码为包含下游语言任务相关信息的表示是至关重要的。早期的作品使用ImageNet预训练模型来编码输入图像[24，51]，而最近的作品通过使用对象检测器检测到的对象来实现更好的性能（例如，更快的R-CNN [41]对象中心信息 人 黄色网球 红色网球拍 白鞋宾语谓词拿着球拍的人男子抛网球穿鞋子的男人图像和场景级别信息网球场户外天气晴朗图1.大多数现有的VL方法通过由冻结的预训练对象检测器检测到的一组对象来对输入图像进行编码。这组检测到的对象可能能够提供以对象为中心的信息，诸如对象类别、位置和属性，但是可能无法编码对于目标VL任务也至关重要的其他信息，诸如对象谓词和图像/场景级信息。在视觉基因组上预先训练[27]）[1，25，39]。检测到的对象编码更细粒度的信息，从输入的图像，如对象类，位置和属性，从而实现更好的性能。尽管成功地用检测到的对象对输入图像进行了编码，但是对象检测器在诸如Visual Genome的数据集上进行了预训练，并且在目标VL任务的训练期间（在不同的数据集上）保持冻结这导致如图1所示的两个主要问题：（1）检测器可能擅长于编码以对象为中心的信息，但不擅长于编码目标VL任务所需的许多其他种类的信息，例如对象与图像/场景级信息之间的关系;以及（2）检测到的对象与输入IM之间的条件关系。年龄没有针对目标VL任务被联合优化，使得由对象检测器计算的特征在被发送到VL模型之前不能被细化，潜在地导致例如难以接地的不良特征。对于（1），大多数现有的工作遵循先前的工作[1]，以针对对象在Visual Genome上预训练对象检测器117970M检测和属性分类。这意味着对象特征可能擅长编码以对象为中心的信息，例如类、位置和属性，但不擅长编码其他关键信息。以图像字幕为例，如图1所示，这些关键信息包括对象之间的关系（对象预测），图像/场景级信息等，因此，本文的第一个目标是提供补充信息的检测对象。受Visual Genome数据集构建方式的启发，我们建议以图像子区域的上下文文本描述的形式提供补充但必要的信息。然而，生成图像子区域的描述需要训练另一图像字幕模型，这本身可能不是一件容易的任务。因此，我们建议将文本生成问题转化为跨模态检索问题：给定一个图像子区域，从描述数据库中检索前k进行跨模态检索的一种方法是搜索视觉上相似的图像并返回该图像的配对文本[14，18，35，46]。然而，我们认为我们可以有效地利用大规模图像和文本对的跨模态预训练的最新进展，CLIP [40]，直接检索给定图像的相关文本。CLIP有两个分支，CLIP-I和CLIP-T，分别将图像和文本编码为全局特征表示，并被训练为将配对的图像和文本拉在一起，并将未配对的图像和文本分开。我们在第4.3节中表明，与通过视觉相似性直接检索的文本描述相比，通过CLIP检索的文本描述通过CLIP检索的文本描述提供了丰富的和互补的信息，从而导致显着的性能提高。对于（2），在大多数现有工作中，当训练目标VL任务时，预训练的对象这意味着检测到的对象和输入图像之间的调节关系没有与目标VL任务联合优化。因此，来自所传送的对象检测器的信息可能不会导致能够被字幕模型有效地使用的高质量特征，例如，在将它们接地为单词时。因此，本文的第二个目标是通过与目标VL任务一起优化检测对象和输入图像之间的条件关系来加强这种关系。为了加强（2）的条件关系，我们应该首先将输入图像编码为全局特征表示，以尽可能多地保留与目标VL任务相关的信息。本文选用CLIP模型的图像分支CLIP-Ⅰ作为图像编码器。由于CLIP也是在跨模态VL任务上进行预训练的，因此我们在第4.3节中表明，与其他任务相比，它可以更好地编码与目标VL任务相关的信息。到在仅图像数据集上预先训练的模型然后，我们使用与目标VL任务联合优化的全连接（FC）层来建模条件关系。在本文中，我们验证了我们提出的方法上的VL任务的图像字幕。通过解决上述使用冻结预训练对象检测器的两个问题，我们的方法将SoTA图像字幕模型2之一提高了+7。CIDEr为2%，+1。BLEU-4中的3%总之，我们做出以下贡献：• 识别使用来自冻结预训练对象检测器的检测对象对输入图像进行编码以进行图像字幕的潜在问题。• 提出了一个跨模态检索模块，利用CLIP的跨模态联合嵌入空间来检索一组上下文文本描述，为检测到的对象提供补充信息。• 提出一个图像调节模块，以加强和联合优化检测到的对象和输入图像之间的条件关系，使功能更有效，并支持接地等任务。• 大幅改进SoTA纯对象基线模型，并为拟议的两个模块以及每个模块内的设计选择提供全面的定量和定性分析2. 相关作品在图像字幕的早期阶段，研究人员使用ResNet [16]等图像编码器将输入图像编码为全局池化表示[2，3，6，11，13、15、22、24、34、51、54、61]。然后以编码的全局特征为条件生成字幕。使用全局池表示的主要例如，所有显著对象被融合并且空间信息被丢弃。因此，后续工作放弃了池化层，并使用ConvNet的网格特征来编码输入图像的更细粒度的细节[4，23，33，42，56]。为了进一步对输入图像的更细粒度的细节进行编码，Anderson等人[1]提出用冻结对象检测器检测到的一组对象对输入图像进行编码。在Visual Genome上对对象检测器进行预训练，以进行对象检测和属性分类。检测到的对象由来自对象检测器的RoI池化特征表示利用检测到的对象的集合，来自输入图像的细粒度和更丰富的信息（诸如显著对象、对象类、位置、属性等）被编码用于下游VL任务，从而导致实质性的性能改进。由于其巨大的成功，用一组检测到的对象对输入图像进行编码已经成为最近VL作品[1，17，19，20，25，39，52]以及VL预处理中的标准方法。训练[7，28，32，45，49]。117971YY我|O我1：i−1（一）（b）第（1）款给定输入图像X，由冻结的预训练对象检测器检测对象集合O，并且以O为条件生成字幕Y。具有图2a中所示的链结构的图形模型可以导出为：图2. （a）大多数现有图像字幕模型的图形模型，其中X是输入图像，O是由冻结的预训练对象检测器检测到的对象的集合;以及（b）我们提出的具有新引入的节点T的模型，其表示图像子区域的文本描述的集合。尽管广泛采用对输入图像进行我们在第1节中讨论过，p（y|x）= p（yi|x，y1：i−1）我=Yp（o|x，y1：i−1）p（yi|x，o，y1：i−1）=Yp（o|x）p（yi|x，o，y1：i−1）（1）我 O预先训练对象检测器可能没有正确地编码其它关键信息，如图1所示的对象谓词和图像/场景级信息。在=Yp（o|x）p（y |o，y）（2）为了通过预训练的对象检测器对输入图像的更完整信息进行编码，Zhang等人。[63]提出了VinVL，其中对象检测器在更大的训练语料库上进行预训练，这些训练语料库组合了多个公共注释对象检测数据集。因此，输入图像中更丰富的然而，对象检测器仍然被预先训练以编码以对象为中心的信息和其他信息，例如对象之间的交互，在对象检测器的预训练中没有被优化。为了编码除了检测到的ob-bits的信息，李等人。[29]提出OSCAR，其中包括以文本形式在图像中检测到的对象标签，用于VL预训练。与我们的工作不同的是，在OSCAR中包含对象标签的动机此外，对象谓词不是由对象标记提供的。上面讨论的图像字幕方法通常生成输入图像的一般描述。此外，我们不能控制字幕模型来生成集中于输入图像中的特定对象的多样化或更具体的字幕。因此，图像/视频字幕的另一行工作集中于使用附加控制信号生成定制字幕[8，36，37，43，53]。这一系列工作还包括输入图像/视频外部的信息，例如主题标签[8]或用于字幕生成的新闻文档[53]。与标准图像字幕方法和我们在MS-COCO [31]上训练和评估训练模型的方法不同，这一系列工作需要在构建此类自定义数据集期间进行额外的注释或标记。我们的方法不需要额外的注释的输入图像，并专注于标准的MS-COCO基准。3. 方法3.1. 图形模型大多数现有的作品都使用图2a所示的图形模型对图像字幕问题进行建模，其中p（yi|o，y1：i−1）（3）我其中p（yio，y1：i−1）被建模为自回归帽生成模型。在等式1和等式2之间，假设完全编码x的所有必要信息，使得yi有条件地独立于x。在等式2和等式3之间，研究人员通常采用argmax和阈值来从对象检测器中选择固定的一组检测对象。从上面导出的图形模型中，我们可以清楚地识别由冻结的预训练对象检测器引起的两个主要问题。首先，假设o完全编码了x的所有必要信息。在实践中，在视觉基因组上预训练的用于对象检测和属性预测的对象检测器可能无法编码x的关键信息，诸如对象与图像/场景级信息之间的关系。其次，检测到的对象o与输入图像x之间的条件关系由冻结的预训练对象检测器计算因此，由冻结的预训练对象检测器计算的特征在发送到自回归字幕生成模型之前不能被细化，导致潜在的不良特征，特别是考虑到它们是在不同的数据集上训练的。为了缓解问题（1），一个简单的解决方案是预先训练对象检测器来预测其他信息，例如对象之间的谓词，以便可以用O编码更完整的信息。然而，有效地训练网络来模拟对象之间的交互仍然是一个开放的研究问题，特别是在数据集之间[30，50，55，57，62]。因此，在本文中，我们提议将另一个节点T插入到模型中，如图2b所示，以编码与O互补的信息，而无需重新训练对象检测器。通过包括O和T两者，对X的更完整的信息进行编码，并且因此更好地支持等式1和等式2我们同样可以-XOYXO不Y我 O117972字幕模式图像调节LYFCFC图3.模型架构。我们提出了（1）一个跨模态检索模块来检索一组上下文文本描述，这些描述提供了与黄色框中所示的检测到的对象互补的信息。我们还提出了（2）一个图像调节模块，以加强检测到的对象和输入图像之间的条件关系，如绿色框所示。带有阴影图案的模型（文本编码器、图像编码器和对象检测器）经过预训练并保持冻结。只有FC和字幕模型被训练用于目标VL任务。该符号表示沿特征维度的串联操作。每个记号（□符号）表示d维特征向量。图像特征（绿色标记）在连接操作之前广播。用新引入的节点T驱动图形模型：p（y|x）p（yi|o，t，y1：i−1）（4）我请参阅补充资料以了解完整的推导过程。为了缓解问题（2），我们提出使用全连接（FC）层来细化以输入图像X的特征为条件的每个检测到的对象的特征。 FC层与图像字幕任务的训练目标联合优化，以加强O和X之间的条件关系，我们表明，这种特征细化可以导致特征支持定性和定量改进的基础和结果。我们在图 3 中展示了整个模型。为了解决问题（1），我们引入了跨模态检索模块（黄盒）来检索一组文本描述T，所述文本描述T对与来自输入图像的检测到的对象O为了解决问题（2），我们引入图像调节模块（绿框）以加强检测到的对象与输入图像之间的条件关系我们的方法的关键是，这两种方法都将使我们能够利用最近推出的大规模跨模态模型。在本节的其余部分，我们将在3.2节中描述如何获得T，以及如何在3.3节中对条件关系进行建模。3.2. 文字描述在最后一节中，我们介绍了T，一组文本描述，提供信息的补充检测对象O。想象一下，当一个人被要求描述一个图像，他/她可以首先关注图像的局部区域，然后逐渐合并局部信息以生成整个图像的最终描述。类似地，我们建议为图像子区域生成文本描述，如图4所示，以便这些描述包含更多细节，并提供可以在稍后阶段合并的输入图像的更完整信息。而不是训练另一个字幕模型生成的图像子区域的描述，这本身可能不是一个容易的任务，我们建议检索前k个最相关的描述从描述数据库中的每个图像子区域，从而把- ING这成一个跨模态检索问题。我们描述跨模态检索的三个步骤如下。描述数据库描述数据库是图像子区域的相关文本描述的来源，我们选择前k个最相关的描述。在本文中，我们建议解析来自可视化基因组数据集（已被普遍使用）的注释以训练对象检测器）来构造描述数据库。而不是采取从视觉基因组的区域描述，其中包含许多类似的句子（我们在实验中显示是低劣的），我们解析的属性和关系的注释。具体来说，attribute注释采用“属性-对象”对的形式我们首先将对象名转换为它的同义词集规范形式，然后收集所有的另一方面，关系标注采用“主语-谓语-宾语”三元组的形式同样，我们将主语和宾语名转换为它们的同义词集规范形式，然后收集所有的“主语-谓语-宾语”三元组。Fi-文本编码器作物图像编码器对象检测器输入图像1.几个厨柜2.烤箱位于厨房3.厨房烤箱电炉4.黑炉顶炉跨模式检索生成的字幕117973联系我们{|联系我们--1.几个厨柜2.不锈钢厨房3.烤箱位于厨房4.厨房烤箱电炉5.黑炉顶炉(a) 原始图像和检索到的前5个最相关的文本描述。1.一种架旁刀2.刀在烤箱旁边3.刀架挂刀4.架上刀5.刀组织器(b) 图片中的五种作物和检索到的前5个文本描述的蓝色框中的作物1.放在柜台2.炉前控制板3.炉上控制板4.炉上厨房用具5.工作台面上的烤面包机(c) 图像九种作物和检索的前5个文本描述的作物在蓝色框。图4.检索了（a）原始图像、（b）图像五次裁剪和（c）图像九次裁剪的前5个最相关文本描述对于五种作物和九种作物，我们在蓝色框中显示检索到的作物文本描述。最后，我们将所有收集到的下标j表示第j个裁剪（例如，对于五个裁剪，左上角、右下角等）;建立描述数据库。{原创，五，九}分别等于{1，5，9};以及文本描述检索。我们的目标是检索前k个最相关的文字描述从描述数据库给定的查询的图像子区域。这涉及两个子问题：（1）如何生成图像子区域;（2）如何在图像和文本之间进行跨模态检索。对于（1），我们建议生成原始图像的五个裁剪（图4b）和九个裁剪（图4c）。这些作物可能包含多个对象，而不仅仅是一个单一的显着对象，这是有利于捕捉对象之间的相互作用，如果我们能够检索良好的文本描述的作物。对于（2），我们建议利用CLIP [40]的跨模态联合嵌入来解决这个跨模态检索问题。CLIP模型有两个分支：图像分支CLIP-I和文本分支CLIP-T，分别将图像和文本编码为全局特征表示CLIP是在大规模图像和文本对上训练的，这样成对的图像和文本在嵌入空间中被拉到一起，而不成对的图像和文本被推开。使用预训练的CLIP模型，跨模态检索问题变成CLIP的跨模态嵌入空间中的最近邻搜索。具体地说，我们使用CLIP-T来编码描述数据库中的所有文本描述作为搜索键。将五种作物和九种作物的图像子区域以及原始图像用CLIP-I编码成查询。然后，我们在描述数据库中搜索具有前k个最高余弦相似度分数的文本描述。因此，我们将得到一组检索到的文本描述T= ti，j，kioriginal，five，nine，j1，2，.，#作物i，k1，2，.，top-k，其中下标i表示是否来自原始图像，5下标k表示前k次检索。图4显示了前5名结果的一些示例。文本编码。在检索文本描述集T=ti，j，k之后，我们使用预先训练的文本编码器将它们中的每一个编码为全局表示。在本文中，我们使用冻结的预训练CLIP-T作为文本编码器，因为CLIP类似地在VL任务上进行预训练，它可以更好地从检索到的文本描述中为目标VL任务编码相关信息上述三个步骤，从构造描述数据库到搜索它，最后对检索到的T的文本描述进行编码，可以以与检测到的对象O相同的方式对基准数据集中的每个图像离线完成. 为了进一步区分不同的i（原始，五次裁剪或九次裁剪）和j（t i的第j次裁剪），我们为不同的i和j向t i，j，k添加一个可学习的嵌入。3.3. 图像调节在第3.1节中，我们提出对检测到的对象O和输入图像X之间的条件关系进行建模和加强，使得对象检测器计算的特征可以在发送到字幕模型之前被细化由于文本描述也通过预训练的CLIP模型离线检索，因此我们类似地想要加强检索的文本描述T与输入图像X之间的条件关系。如图3的绿色框所示，我们建议在输入图像上条件化每个检测到的对象和检索到的文本描述，并通过全连接（FC）层对这种条件关系进行建模。为了调节检测到的对象和检索到的对象，#作物117974∈联系我们··||MMM在输入图像x上的文本描述t，我们首先将x编码为全局表示f xRdx。我们要求x的编码表示保留尽可能多的在本文中，我们使用冻结的预训练CLIP-I作为图像编码器，因为它类似地在VL任务上进行预训练，使得它可以更好地从输入图像中编码与目标VL任务相关的信息我们使用以下符号：o=o1，o2，.，其中，每个oRdo i是由冻结的预先训练的对象检测器检测到的对象的集合;以及t={ti，j，k|∀i, j, k}, where eachti，j，k∈Rdt，是检索到的由CLIP-T编码的文本描述（在第3.2节）。然后，我们将条件关系建模为：M2+我们的81.539.730.059.5135.923.7om=drop（ fco（ normo（[om，fx]）ti，j，k=drop（ fct（ normt（[ti，j，k，fx]），（五）表1. MS-COCO Karpathy分裂测试集的图像字幕结果[24]。我们将我们提出的方法纳入i i基线图像字幕模型M2使用他们发布的代码。其中[，]是沿着特征维度的连接，norm是层归一化层，drop是dropout层。请注意，我们分别用不同的方法对每个ti进行为了公平比较，我们还显示了已发布代码的性能（表示为2†），略低于论文中报告的性能。输入FC图层和规范图层，因为它们是文本描述检索不同的粒度（原始，五个作物，或九个作物）。最后，我们收集了图像条件化后的图像，型号检测器TransformerB-4 C S序列：o={o，o，.， o}，t={t|j，k}。1 2n i i，j，k3.4. 图像字幕将图像条件对象和文本描述映射到图像字幕模型中是简单的。如等式1所示，图像字幕模型通常是自回归模型p（yio，y1：i-1），其将检测到的对象o的序列作为输入。因此，在不修改图像字幕模型的情况下，我们只需要连接图像条件对象oi和t e xt沿着序列维度将ti描述为z=[oi，tiorigina l，tif ive，tinin e]，并将z作为p（y iz，y1：i−1）代替o馈送到其中。然后，可以使用常用的单词预处理的最大对数似然损失来训练模型。措辞和微调与RL损失使用CIDER分数作为奖励[9，42]以同样的方式与以前一样。4. 实验4.1. 实现细节在本文中，我们将我们的方法纳入最先进的图像字幕模型之一， 2[9] ，并在 MS-COCO 数据集 [31] 的Karpathy分裂[24我们调整验证集上的top-k参数，发现性能在k=12时饱和。因此，我们在所有实验中设置k=12。在图3所示的我们提出的模型中，图像编码器CLIP-I和文本编码器CLIP-T都被冻结。只有FC层是可训练的，与图像字幕模型相比，它包含的参数表2.探测器预培训与Transformer预培训。当与其他先进的预训练技术相结合时，我们提出的方法实现了与VinVL [63]竞争的性能，VinVL [63 ]是具有大规模检测器和Transformer预训练的最先进方法4.2. 主要结果我们首先与表1中的从头开始训练的方法进行比较。我们在测试集上显示了交叉熵训练的结果，然后进行SCST [42] RL微调。利用检索到的文本描述和图像调节提供的补充信息，我们的方法将基线模型2†提高了+7。CIDEr为2%，+1。在BLEU-4中为3%，并且在所有指标上与所有以前的从头开始训练的方法相比都是有利的然后，我们与表2中具有更先进预训练技术的方法进行比较，并表明当组合在一起时，我们的方法与最先进的VinVL [63]相比具有竞争力。具体而言，VinVL通过在组合多个对象检测数据集的大型训练语料库上预训练较大的对象检测器模型来改进对象特征，而不是在视觉基因组（VG）数据集上预训练对象检测器的传统方法。在塔的上半部分-方法B-1B-4MRCSSCST [42]-34.226.755.7114.0-上下[1]79.836.327.756.9120.121.4[23]第二十三话79.136.527.757.3121.921.2髋关节[60]-38.228.458.3127.221.9GCN-LSTM [59]80.538.228.558.3127.622.0SGAE [58]80.838.428.458.6127.822.1ORT [17]80.538.628.758.4128.322.6AoANet [19]80.238.929.258.8129.822.4M2[9]M2†80.880.239.138.429.129.158.458.4131.2128.722.622.9预训练预训练[63]第63话没有一40.5135.923.5M2+我们的VinVL没有一41.4139.924.0[27]第二十七话：一个人6.5M40.5137.622.8美国[63]8.85M40.9140.425.1OSCAR + Ours VG6.5M41.3142.224.9117975MMM文本图像B-1B-4CS75.7435.47112.3920.41✓77.3336.96116.8421.41✓77.0737.12116.9921.30✓✓77.4537.74118.8721.45表3.针对拟定文本描述（表示为文本）和图像调节（表示为图像）的消融研究没有文本和图像的第一行对应于仅使用检测到的对象对输入图像进行编码的基线模型。表2，我们可以看到，我们的方法能够提供-！CLIP跨模态1. 一种架旁刀2. 刀在烤箱3. 刀架挂刀4. 架上刀“CLIP-I视觉相似性1. 长绿路牌2. 灰色金属长杆3. 蓝风筝4. 空中风筝图5. 从（顶部）通过CLIP vs. （底部）CLIP-I的视觉相似性。与VinVL预训练检测器并且与2+VinVL检测器相比实现了更好的性能。另一方面，最近的方法（例如OSCAR [29]和VinVL [63]）提出在大型图像字幕对语料库上预训练跨模态Transformer，并实现SoTA性能。在表2的下半部分，通过将我们的方法与OSCAR [29]相结合，我们的方法与VinVL相比实现了有竞争力的性能，VinVL需要大规模检测器预训练和Transformer预训练。最后，通过比较OSCAR和OSCAR+Ours，我们验证了我们的说法，我们提出的方法确实提供了除了对象之外的信息，因为OSCAR明确地将图像的对象标签作为模型输入的一部分。4.3. 分析为了验证所提出的文本描述模块和图像调节模块的有效性，以及每个模块内的设计选择，我们在本节中提供详细的分析。消融研究。我们消融了本文中提出的两个主要组成部分：（1）文本描述和（2）图像调节。我们使用交叉熵损失训练的2模型作为基线模型，它只使用检测到的对象来编码输入图像。结果如表3所示。我们可以看到，与基线模型相比，添加文本去重或图像调节中的任何一个都会带来显著的性能改进总的来说，这两个模块相结合，我们提出的方法达到+6. CIDEr性能提高5%，+2。BLEU-4中的3%这意味着两个组件-事实上，他们能够提供完整的信息，补充信息对于图像字幕是有益的。定性地，我们在图4中显示了一些前5个检索到的文本描述，从中我们可以看到，检索到的文本描述很好地描述了图像子区域，并提供了补充信息，如对象谓词。基于视觉相似度的文本描述检索。在第3.2节中，我们建议利用跨模态联合编码器B-1 B-4 C S R-101 [16] 75.82 36.27 112.7720.54表4.利用不同图像编码器的视觉相似性检索文本描述。从CLIP嵌入，以检索每个图像裁剪的文本描述。执行跨模态检索的另一种常见方法是搜索视觉上相似的图像并返回图像的配对文本[14，18，35，46]。在分析中，我们首先将图像裁剪编码为查询，并使用图像编码器（R-101 [16]，MoCo-v2 [5]，ViT [12]或CLIP-I[40]）将来自Visual Genome的边界框（bbox）注释编码为密钥。然后顶部-选择具有最高余弦相似性分数的K个Bbox，并且返回与所选择的Bbox相关联的文本描述作为所检索的文本描述。最后，我们用检测到的对象和检索到的文本描述来训练2我们可以在表4中看到，与仅对象基线相比，合并通过视觉相似性检索的文本描述从图5中可以看出，许多检索到的文本描述与查询图像无关。另一方面，通过利用CLIP的跨模态联合嵌入，检索到的文本描述与查询图像高度相关。因此，检索到的文本描述可以提供补充和相关的信息，这是有益的。如何检索文本描述？在3.2节中，我们描述了如何构建描述数据库，从其中检索文本描述，以及如何通过图像裁剪来检索文本描述（见图4）。在本小节中，我们回答以下问题：（1）[第12话]76.0035.13112.5320.52MoCo-v2 [5]76.0335.35112.0620.51CLIP-I [40]75.8736.52113.6620.66仅对象基线75.7435.47112.3920.41我们的（CLIP）77.0737.12116.9921.30117976MMM字幕B-4 C S查询B-4 C S相对于Transformer模型的输入序列长度的二次方，不希望显著增加诸如TF-G的输入序列（#令牌）的长度。通过使用FC层来融合检测到的目标和输入图像的特征，我们没有增加长度表5.从不同的图像字幕数据集检索的文本描述。表7.不同的图像调节方法。TF-V和TF-G的详细描述见正文我们使用CLIP-I对输入图像进行编码。表6.以不同的图像作物为查询对象，重新检索文本描述.表8.使用不同预训练模型编码的图像进行图像调节。我们使用FC方法来合并编码图像特征。的输入令牌。另一方面，即使TF-V只增加了一个令牌，它也不如我们提出的FC方法。对于（2），我们还建议使用CLIP-I对输入图像进行编码，以便在第3.3节中进行图像调节。我们声称，与在仅图像数据集（如ImageNet（IN）1 K/21 K [10]或JFT-300 M [47]）上预训练的模型相比，在类似的VL任务上预训练的CLIP-I能够从输入图像中保留尽可能多的为了验证这一说法，我们比较了由不同图像编码器R-101 [16]，BiT [26]，ViT [12]和CLIP-I [40]编码的图像在表8中，我们可以看到，使用在V+L任务上预训练的CLIP-I作为图像编码器，其性能明显优于使用R-101，BiT和ViT，这些都是在仅图像数据集上预训练最后的性能敏感的描述数据库？(2)使用不同的图像作物作为查询，所提出的文本检索方法的有效性如何？我们用检测到的对象和用不同方法重新检测的文本描述来训练2对于（1），我们构建了不同图像字幕数据集的描述数据库，包括VisualGenome [27] ， MS-COCO [31] 和 Conceptual Captions[44]。在表5中，我们表明，per-task对文本描述所检索的描述数据库不敏感。对于（2），我们在表6中取消了使用整个图像，五种作物，九种作物或以上所有组合的文本检索策略。我们可以看到，使用图像裁剪来检索更细粒度的文本描述是有益的。图4显示了使用不同图像裁剪检索到的细粒度文本描述的定性结果。图像调节的建模。在第3.3节中，我们通过FC层对检测到的物体与输入图像之间的条件关系进行在本小节中，我们回答以下问题：（1）什么是更好的方式来模拟图像条件反射？(2)什么是更好的预训练的图像编码器来编码输入图像的图像调节？我们用不同的图像条件化方法来训练2模型对于（1），一种替代方案是将图像特征视为附加的知识，将它们与检测到的对象集合一起发送到字幕模型中，并让字幕模型中的Transformer模块学习条件关系.图像特征可以是其全局矢量表示[21，45，64]的单个令牌（表示为TF-V）或网格特征的在表7中，我们看到我们提出的简单FC方法是最有效的。由于计算复杂度的增长图像调节如何帮助。在第3.3节中，我们声称联合优化检测到的对象和输入图像之间的条件关系有助于细化对象特征以帮助接地。为了验证这一点，我们在Flickr30k [38]数据集上训练字幕模型，该数据集提供了图像和字幕对之间的基础注释。遵循其他图像字幕论文的标准方法，我们为每个单词使用集成梯度[48在1，014个验证图像中，我们通过图像调节来细化对象特征的方法正确定位了421个对象，而基线2仅定位了287个对象。更多的定性结果可在补充资料中找到。5. 结论在本文中，我们解决了使用预先训练的冻结对象检测器作为图像字幕中自回归模型的唯一输入的局限性我们特别提出在图形模型中添加辅助分支，利用大型预缩放多模态模型中的优势来检索（从对象检测器预先训练的相同数据集此外，我们通过简化的架构设计以图像调节的方式改进检测器输出和检索的上下文描述符，避免了显著的计算开销，并表明这种调节改善了定量结果。我们进行了彻底的分析，证明检索的文本和图像条件改善结果（联合甚至更多），多模态CLIP模型是唯一适合我们的方法，接地改进。我们还展示了显著的性能改进，在CIDER中高达+7.5%，在已经很强的技术水平上提高了+1.3%。数据集-35.47112.3920.41-35.47112.3920.41整个36.39115.9820.94Coco37.37117.1721.19五37.04116.7321.21CC37.30117.1321.14九36.95116.0321.10VG（我们的）37.12116.9921.30全部（我们的）37.12116.9921.30调理方法代币数量B-4CS编码器预训练数据集B-4CS-5035.47112.3920.41R-101 [16]IN-1K [10]35.64113.2021.00TF-V5136.66116.0121.16BiT [26]JFT-300M [47]36.08114.0020.95TF-G10036.75116.2221.36[第12话]IN-21K [10]35.97113.1920.82FC（Ours）5036.96116.8421.41CLIP-I [40]400米[40]36.96116.8421.41117977引用[1] Peter Anderson，Xiaodong He，Chris Buehler，DamienTeney，Mark Johnson，Stephen Gould，and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。在IEEE计算机视觉和模式识别会议论文集，第6077-6086页，2018年。一、二、六[2] 陈福海，季荣荣，苏劲松，吴永健，吴云生。Structcap：用于图像字幕的结构化语义嵌入。第25届ACM国际多媒体会议论文集，第46-54页，2017年。2[3] 陈福海，纪荣荣，孙小帅，吴永建，苏劲松。Groupcap：基于组的图像字幕，具有结构化的相关性和多样性约束。在IEEE计算机视觉和模式识别会议论文集，第1345-1353页，2018年。2[4] Long Chen，Hanwang Zhang，Jun Xiao，Ligen Nie，Jian Shao，Wei Liu，and Tat-Seng Chua. Sca-cnn：图像字幕卷积网络中的空间和通道注意力。在IEEE计算机视觉和模式识别会议论文集，第5659-5667页2[5] Xinlei Chen，Haoqi Fan，Ross Girshick，and KaimingHe.通过动量对比学习改进基线。arXiv预印本arXiv：2003.04297，2020。7[6] 陈新蕾和C劳伦斯Zitnick。心灵之眼：一种用于图像标题生成的重现视觉表示.在IEEE计算机视觉和模式识别会议论文集，第2422-2431页，2015年。2[7] Yen-Chun Chen ， Linjie Li ， Licheng Yu ， Ahmed ElKholy ， Faisal Ahmed ， Zhe Gan ， Yu Cheng ， andJingjing Liu.Uniter：通用图像-文本表示学习。欧洲计算机视觉会议，第104-120页。Springer，2020年。2[8] Cesc Chunseong Park，Byeongchang Kim，and GunheeKim.注意你：个性化的图像字幕与上下文序列记忆网络.在IEEE计算机视觉和模式识别会议论文集，第895-903页，2017年。3[9] Marcella Cornia ， Matteo Stefanini ， Lorenzo Baraldi ，and Rita Cucchiara.网状记忆Transformer，用于图像覆盖。在IEEE/CVF计算机视觉和模式识别会议论文集，第10578- 10587页1、6[10] J. 邓，W。东河，巴西-地索赫尔湖J. Li，K.Li和L.飞飞ImageNet：一个大规模的分层图像数据库。2009年CVPR09中。8[11] JeffreyDonahue 、 LisaAnneHendricks 、 SergioGuadarrama、MarcusRohrbach、SubhashiniVenugopalan、Kate Saenko和Trevor Darrell。用于视觉识别和描述的长期递归卷积网络。在Proceedings of theIEEEconferenceoncomputervisionandpatternrecognition，pages 2625-2634，2015中。2[12] AlexeyDosovitskiy，LucasBeyer，AlexanderKolesnikov，Dirk Weissenborn，Xiaohua Zhai，ThomasUnterthiner，Mostafa Dehghani，Matthias Minderer，Georg Heigold，Syl-vain Gelly，Jakob Uszkoreit，and Neil Houlsby.一张图像值16x16个单词：用于大规模图像识别的变形金刚。ICLR，2021年。七、八[13] Hao Fang，Saurabh Gupta，Forrest Iandola，Rupesh KSri-vastav a ， LiDeng ， PiotrDolla'r ， JianfengGao ，XiaodongHe ， Margaret M

下载后可阅读完整内容，剩余1页未读，立即下载