视觉对象检测模型改进与预训练VL模型的方法及结果

16 浏览量更新于2024-01-22 收藏 1.14MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

15579VinVL：在视觉语言模型中重新审视视觉表征张鹏川（音）李秀君（音）胡晓伟（音）杨建伟（音）张磊（音）王丽娟（音）蔡业进（音）高剑锋（音）摘要针对视觉语言（VL）任务，提出了一种改进的与最广泛使用的自下而上和自上而下模型[2]相比，新模型更大，针对VL任务设计得更好，并且在更大的训练语料库上进行了预训练，这些训练语料库结合了多个公共注释对象检测数据集。因此，它可以生成更丰富的视觉对象和概念集合的表示。虽然以前的VL研究主要集中在改善视觉语言融合模型，并离开对象检测模型的改进，未触及，我们表明，视觉特征的事项显着，在VL模型。在我们的实验中，我们将新对象检测模型生成的视觉特征馈送到基于Transformer的VL融合模型OSCAR[20]中，并利用改进的方法O SCAR+来预训练VL模型并在广泛的下游VL任务上对其进行微调。我们的研究结果表明，新的视觉功能显著提高了所有VL任务的性能，在七个公共基准测试中创造了新的最先进的结果代码、模型和预提取的功能在https://github.com/pzzhang/VinVL上发布。1. 介绍视觉语言预训练（VLP）已被证明对广泛的视觉语言（VL）任务有效[25，35，4，33，19，18，44，20]。VLP通常由两个阶段组成：（1）对象检测模型被预训练以将图像和图像中的视觉对象编码为特征向量，以及(2)预训练跨模态融合模型以混合文本和视觉特征。现有的VLP研究主要集中在改进跨模态融合模型上，而本文的重点是改进以对象为中心的视觉表示，并提出了一个全面的实证研究微软公司微软大学华盛顿†表示平均缴款。来证明视觉特征在VL模型中的重要性。在上述工作中，广泛使用的对象检测（OD）模型[2]在Visual Genome数据集上训练[15]。OD模型提供了以对象为中心的图像表示，并已在许多VL模型中作为黑盒使用在这项工作中，我们基于ResNeXt- 152 C4架构（简称X152-C4）预训练了一个大规模的对象属性检测模型。相比[2]的OD模型，新模型更适合VL任务，并且更大并且在更大量的数据上训练，结合了多个公共对象检测数据集，包括 COCO [24] ，OpenImages （ OI ） [16] ， Objects365 [30] 和 VisualGenome（VG）[15]。因此，我们的OD模型在广泛的VL任务上实现了更好的结果，如表1所示。与其他典型的OD模型（如在OpenImages上训练的X152-FPN）相比，我们的新模型可以编码更多样化的视觉对象和概念集合（例如，产生1848个对象类别和524个属性类别的视觉表示），如图1中的示例所示。为了验证新OD模型的有效性，我们在一个由8个模型组成的公共数据集上预训练了一个基于transformer的跨模态融合模型O SCAR + [20]。8500万个文本图像对，其中这些图像的视觉表示由新的OD模型产生，并在OSCAR+预训练期间固定。然后，我们对预训练的OSCAR+进行微调，以用于各种下游任务，包括VL理解任务，如VQA [8]，GQA [12]，NLVR2 [34]和COCO文本图像检索[24]和VL生成任务，如COCO图像字幕[24]和NoCaps [1]。我们的研究结果表明，新OD模型产生的以对象为中心的表示显着提高了所有VL任务的性能，通常比使用经典OD模型的强基线有很大的差距[2]，在所有这些任务上创造了新的技术水平，包括GQA，其中没有一个已发布的预训练模型超过了故意设计的神经状态机（NSM）[11]。我们将向研究界发布新的OD模型。本文的主要贡献可以概括如下：（1）我们提出了一个全面的实证研究，以证明视觉特征的VL模型的问题。（二）15580视觉特征VQAtest-dev 测试标准GQAtest-dev 测试标准图像字幕B@4 M C SNoCapsC S图像检索R@1时R@5时R@10时文本检索R@1时R@5时R@10时NLVR2开发测试-P安德森等人[2]七十三。16七十三。四四六一。5861岁。6240. 5第二十九章。7137. 622岁886. 5812. 3854. 0八十。888.570091. 1九十五。578. 0778岁36我们七十五。9576.1265岁0564. 65四十九点半。9一百四十6二十五192. 46 13岁07 58. 183. 2九十。174岁6 92. 6 九十六。382. 0583. 08∆二、79 ↑ 2.68↑3 .第三章。47↑ 3. 03↑0的情况。4↑ 1. 2↑3 .第三章。0↑二、3↑五、9↑0的情况。7↑四、1↑二、4↑1 .一、6↑四、6↑1 .一、5↑0的情况。8↑3 .第三章。98↑四、71↑表1：通过用我们的视觉特征替换Anderson等人[2]的视觉特征，七个VL任务的一致改进。NoCaps基线来自VIVO[9]，我们的结果是通过直接替换视觉特征获得的。休息任务的基线来自OSCAR [20]，我们的结果是通过替换视觉特征并执行OSCAR+预训练获得的。所有型号均为Bert-Base尺寸。如第4.2节所分析的，新的视觉特征贡献了95%的增益。图一：在OpenImages上训练的X152-FPN模型（左）和在四个公共对象检测数据集上训练的X152-C4模型（右）的预测。我们的模型包含了更丰富的语义，如更丰富的视觉概念和属性信息，检测到的边界框几乎覆盖了所有的语义有意义的区域。与典型OD模型（左）中的公共对象类相比，我们的模型（右）中丰富多样的区域特征对于视觉语言任务至关重要。对于由两个模型检测到的概念，例如，““存在由我们的模型检测到但不由OpenImages模型检测到的对象概念，包括鳍、波浪、脚、阴影、天空、头发、山、水、（裸露、棕褐色、浅褐色、米色）背部、（蓝色、彩色、花卉、多色、图案化）躯干、沙滩、海滩、海洋、（黄色、金色）手镯、徽标、山、头、（黑色、湿）泳裤、黑色、湿泳裤。与[2]的R101-C4模型相比，我们的模型为VL应用程序产生了更准确的对象属性检测结果和更好的视觉特征;参见附录A以获取[2]的完整图片和预测。我们已经开发了一种新的对象检测模型，该模型可以产生比经典OD模型更好的图像视觉特征[2]，并在多个公共基准上大幅提升了所有主要VL任务的最新结果。（iii）我们提供了对我们的预训练对象检测模型的详细消融研究，以调查由于关于对象类别的多样性、视觉属性训练、训练数据规模、模型大小和模型架构的不同设计选择而对性能改进的相对贡献2. 在视觉语言基于深度学习的VL模型通常由两个模块组成：图像理解模块Vision和跨模态理解模块VL：（q，v）=视觉（Img），y=VL（w，q，v），（1）其中Img和w分别是视觉和语言模态的输入。Vision模块的输出由q和v组成。Q是图像的语义表示，例如标签或检测到的对象，V是图像在使用例如，由VG预训练的Faster- RCNN模型产生的框或区域1特征[2]。大多数VL模型仅使用视觉特征v，而最近提出的OSCAR [20]模型表明，q可以用作学习更好的视觉-语言联合表示的锚点，从而可以提高各种VL任务的性能等式（1）的VL模的w和y在不同的VL任务之间变化在VQA中，w是一个问题，y是一个需要预测的答案。在文本图像检索中，w是一个句子，y是匹配分数。[1]我们可以互换地使用区域和盒子这两个术语。15581一对双胞胎的照片。在图像字幕中，w不是给定的，y是要生成的字幕。受预训练语言模型在各种自然语言处理任务中的巨大成功的启发，视觉语言预训练（VLP）通过（1）使用Transformer统一视觉和语言建模VL以及（2）使用大规模文本图像语料库预训练统一VL，在提高跨模态理解模块VL然而，最近关于VLP的大多数工作都将图像理解模块Vision视为黑盒，并且自三年前经典OD模型[2]的开发以来未对视觉特征进行改进，尽管在通过以下方式改进对象检测方面已经取得了很大的研究进展：1）开发更多样化、更丰富和更大的训练数据集（例如，OpenImages and Objects 365），2) 在对象检测算法中获得新的见解，如特征金字塔网络[22]，一级密集预测[23]和无锚检测器[36]，以及3）利用更强大的GPU来训练更大的模型。在这项工作中，我们专注于改善视觉，以获得更好的视觉表现。我们开发了一种新的OD模型，通过丰富视觉对象和属性类别，扩大模型大小并在更大的OD数据集上进行训练，通过结合四个数据集。1. 首先，为了增强尾部类的视觉概念，我们对OpenImages和Objects365进行类感知采样，每个类至少获得2000个实例，分别产生2.2M和0.8M图像。2. 为了平衡每个数据集的贡献，我们将四个数据集与 8 个 COCO 副本（ 8×0.11M ）， 8 个 VG 副本（ 8×0.1M ）， 2 个类感知采样 Objects365 副本（2×0.8M）和一个类感知采样OpenImages副本（2.2M）合并。3. 为了统一它们的对象词汇表，我们使用VG词汇表及其对象别名作为基础词汇表，如果它们的类名或别名匹配，则将其他三个数据集的类合并到VG类中，如果没有找到匹配，则添加新类。4. 最后，我们保留所有包含至少30个实例的VG类，从而得到1594个VG类和来自其他三个数据集的254个类，这些类不能映射到VG词汇表，从而得到包含1848个类的合并对象在一个大的范围VL任务。我们将在本节的其余部分详细介绍如何开发新的OD模型，然后在第3节中描述使用OSCAR+进行VL预训练。2.1. 目标检测训练为了改进VL任务的OD模型，我们利用了四个公共对象检测数据集。由于大多数数据集没有属性注释，我们采用预训练和微调策略来构建OD模型。我们首先在由四个公共数据集组成的大规模语料库上预训练OD模型，然后在Visual Genome上使用额外的属性分支对模型进行微调，使其能够检测对象和属性。数据表2总结了我们的对象检测预训练中使用的四个公共数据集的统计数据，包括COCO，OpenImagesV5（OI），Objects365V1和Visual Genome（VG）。这些数据集具有互补性，并且在数据大小、对象词汇和每个类中的注释数量方面非常不平衡。例如，VG数据集有一组丰富多样的注释，用于对象及其属性，并具有开放的词汇表。但它的注释是嘈杂的，并遭受漏注问题。另一方面，COCO数据集的注释非常好。但是，尽管我们使用VG的80个对象类和91个素材类来尽可能地包含各种视觉概念，但视觉对象和属性的覆盖率要比VG低得多。我们采取以下步骤来建立统一的语料库表2：Vision预训练数据集。在采样中，×k意味着在一个epoch中有k个副本，而“CA-2k”意味着每个类至少有2K个实例的类感知采样。模型架构（FPN vs C4）。虽然[22]表明FPN模型在对象检测方面优于C4模型，但最近的研究[13]表明，FPN并没有为VL任务提供比C4更有效的区域特征，这也得到了我们的实验结果2的证实。因此，我们进行了一系列精心设计的实验，如附录E所详述的，并发现了两个主要原因首先，用于区域特征提取的C4模型中的所有层都使用ImageNet数据集进行了预训练，而FPN模型的多层感知器（MLP）头则没有。事实证明，VG数据集仍然太小，无法为VL任务训练足够好的视觉特征第二个是由于不同的网络架构（CNN与MLP）。在C4中使用的卷积头具有比FPN的MLP头更好的用于编码视觉信息的归纳偏置。因此，在这项研究中，我们使用C4架构的VLP。2我们在实验中发现，使用相同的训练过程，X152-C4模型甚至产生比X152-FPN模型更好的目标检测结果。详见附录E。源VGCOCO w/stuff学生寮365OpenImagesV5总图像97k111k609k1.67M2.49M类15941713655001848采样×8×8CA-2k，×2CA-2k5.43M15582模型预训练。遵循对象检测训练中的常见做法，我们冻结第一个卷积层，第一个残差块和所有的批量范数层。我们还使用了几种数据增强方法，包括水平翻转和多尺度训练。为了使用X152-C4架构训练检测模型，我们从ImageNet-5 K检查点初始化模型主干[39]，并使用16张图像的批量大小进行1.8M迭代训练2.2. 将属性信息注入模型在[2]之后，我们向预训练的OD模型添加一个属性分支，然后在VG上微调OD模型以注入属性信息（524个类）。由于对象表示是在对象检测预训练阶段进行预训练的，因此我们可以通过选择更大的属性损失权重1来将VG微调集中在学习属性上。25，相比0。5在[2，13]中使用。因此，我们的微调模型在检测VG上的对象和属性方面明显优于以前的模型[2，132.3. 一种有效的VL任务区域特征提取器由于视觉对象和属性的集合更丰富，经典的类感知非最大抑制（NMS）后处理花费显著更大量的时间来移除重叠的边界框，使得特征提取过程极其缓慢。为了提高效率，使用与这些下游VL任务的性能度量相关的目标来预训练统一模型。在这项研究中，我们预训练了OSCAR [20]的改进版本，称为OSCAR+模型，以使用图像标签作为图像-文本对齐的锚来学习联合图像-文本表示。3.1. 预训练语料库我们基于三种类型的现有视觉和VL数据集构建我们的预训练语料库：（1）图像字幕数据集，其中人类注释的字幕为w，机器生成的 5 个图像标签为q，包括COCO [24]，概念字幕（CC）[31]，SBU字幕[27]和flicker 30 k [41];（2）视觉QA数据集，其中问题为w，人类注释的答案为q，包括GQA [12]，VQA [8]和VG-QA;（3）图像标签数据集，其中机器生成的6个字幕为w，人类注释的标签为q，包括OpenImages的子集（1.67 M图像）。总的来说，语料库包含565万个独特的图像，885万个文本-标签-图像三元组。详细统计数据见附录表17。预训练语料库的大小可以通过组合大规模图像标记数据集来显着增加，例如OpenImages（9M图像）和YFCC（92M图像）的完整集合。我们将其留给未来的工作，以利用更大的语料库进行模型预训练。我们将类感知的NMS替换为类-不可知的NMS，其仅进行一次NMS操作3.我们还将[2]中使用的dilation =2的耗时conv层替换为没有膨胀的conv层。这些两个替换使得区域特征提取过程比[2]中的过程快得多，而在VL下游任务上没有任何精度下降。我们在附录F的表22中报告了在Titan-XGPU和具有单线程的CPU上具有不同视觉模型的VL模型的端到端推断时间。总之，预训练的OD模型用作图像理解模块，如等式（1）中，以产生用于下游VL任务的视觉呈现（q，v）这里，q是检测到的对象名称的集合（以文本形式），并且v是区域特征的集合。每个区域特征被表示为（v，z），其中v，z是来自检测头的最后线性分类层的输入的P维表示（即，P= 2048），z是区域的R维位置编码（即，R= 6）4.3. OSCAR+预培训VLP的成功在于使用统一的模型架构来执行各种VL任务，表3：不同的预训练对比度损失对下游任务的影响（R50-C4作为Vision模块，4层Transformer作为（1）中的VL模块）。COCO-IR度量是COCO 1 K测试集上的图像到文本检索R@1。蓝色表示任务的最佳结果，黑色表示亚军。3.2. 培训前目标在OSCAR+预训练损失中有两项，如等式（2）中所示。L预训练=L MTL + L CL3。（二）LMTL是在文本模式（w和q）上定义的掩蔽令牌损失，紧接着[20]。(See详情见附录B.2。）LCL3是一种新的三向对比损失。与OSCAR [20]中使用的二进制对比度损失不同建议的3向对比损失，以有效优化用于VQA [40]和文本的培训目标3算上RPN模块中的NMS，总共有2个NMS操作-我们的高效区域特征提取器中的迭代4它包括边界框的坐标和高度宽度。5我们使用相同的模型来提取视觉特征。6我们使用OSCAR发布的字幕模型 [20]。损失w′/ q′所有（w，q/q′，v）q来自QA的q（w/w′，q，v）全是w三向对比所有（OSCAR+）来自QA的qVQA（开发）69.8±0.0870.1±0.0869.5±0.0569.8±0.0669.7±0.0615583图像匹配[6]7.如等式3所示，LCL3考虑两种类型的训练样本X：图像字幕和图像标签数据的{字幕，图像标签，图像特征}三元组，以及VQA数据的{问题，答案，图像特征}其中θ={θBERT，W}。O SCAR + B至少训练1M步，学习率为1e−4，批量大小为1024。 O S-CAR+ L至少训练1 M步，学习率为3e-5，批量大小为1024。语言标记[w，q]和区域特征v的序列长度分别活泼地x，（w，q，v）或（w，q， v（三）3.4. 适应VL任务``标题标签图像``Q A图像我们将预训练的模型适应七个下游VL任务，包括五个理解任务和两个生成任务。为了计算对比损失，需要使用待建造。我们构造了两种类型的负（不匹配）三元组的两种类型的训练样本，re-mapping。一个是被污染分类字幕-标签-图像三元组是否包含污染字幕是文本-图像匹配任务。判断问题-答案-图像三元组是否包含污染答案是VQA的一个答案选择任务。由于[CLS]的编码可以被视为三元组（w，q，v）的表示，因此我们在其上应用全连接（FC）层作为3路分类器f（. ）来预测三元组是否匹配（ c=0 ）、是否包含污染的 w（c=1）、或者是否包含污染的q（c=2）。三向对比损失定义为LCL3=−E（w，q，v;c）<$D<$logp（c|f（w，q，v）），（4）其中数据集（w，q，v;c）∈D包含50%的匹配三元组、25%的w-污染三元组和25%的q-污染三元组。为了有效地实现，污染的w′被一致地从所有的w（标题和问题）中采样如表3所示，当仅使用答案污染三元组时，即，（w，q′，v）q′取自QA语料库中的q结果表明，预训练的模型可以有效地适应VQA，但不能适应文本图像检索。相比之下，所提出的3向对比损失转移以及这两个任务。3.3. 预训练模型我们预训练两个模型变体，表示为OSCAR+B和OSCAR+L ，它们分别用 BERT base （ L= 12 ， H=768，A= 12）和large（L= 24，H= 1024，A= 16）的参数θBERT初始化，其中L是任务。每项任务都对适应提出了不同的挑战有关七项工作的详情及我们的微调策略，请参阅附录C4. 实验和分析4.1. 主要结果为了说明模型参数效率，我们将SoTA模型分为三类：（i）SoTAS表示在基于Transformer的VLP模型之前小型模型所实现的最佳性能。（ii）SoTAB表示BERT基本尺寸的VLP模型产生的最佳性能。（iii）SoTAL表示BERT大尺寸的VLP模型产生的最佳性能。表4概述了OSCAR+与VIN VL（VIN VL的缩写）在7个VL任务上的结果，并与之前的SoTA8进行了比较。VINVL在所有任务9上的表现都优于以前的SoTA模型，通常是以显著的优势。实验结果表明，新的OD模型产生的区域特征是有效的。在表5至表11中，我们分别报告了每个下游任务的详细结果。（i）VQA结果如表5所示，其中我们的单一OSCAR+B模型在截至2020年12月12日的VQA排行榜上优于最佳集合模型（ InterBERT large [21] ） 10 。（ii）GQA结果如表6所示，其中OS-CAR+w/VIN VL是第一个优于神经状态机（NSM）[11]的VLP模型，该模型包含一些专门为任务设计的复杂推理组件（iii）公开的“Karpathy”5k测试分割的图像字幕表8显示了COCO图像字幕在线排行榜11的简明版本。在线测试设置报告40K图像上的结果，每个图像有5个参考字幕（c5）和40个参考字幕（c40）。在本文提交之时，我们的单一模型在数，则是数。自我关注的头脑。为了确保图像区域特征具有与BERT相同的输入嵌入大小，我们通过矩阵W使用线性投影来变换位置增强的区域特征。可训练参数7[6]使用基于深度学习的文本图像匹配模型为给定图像选择最佳字幕候选。8所有（单一型号）SoTA均来自已发表的结果。对于本文中的所有表，蓝色表示任务的最佳结果，灰色背景表示V IN VL产生的结果。9唯一的例外是B@4图像字幕。10VQA排行榜：https://eval.ai/web/challenges/challenge-page/514/leaderboard/138611图片字幕排行榜：https：//competitions.codalab.org/competitions/3221#results65584方法LXMERT MMN [3] 十二合一OSCARB NSM [11]OSCAR+B w/VINVLTest-dev六十00−−61岁。58−65岁05方法苹果酒香料CIDER SPICE任务VQAtest-dev test-stdGQAtest-dev test-std图像字幕B@4 M C SNoCapsC S图像检索R@1时R@5 R@10文本检索R@1时R@5时R@10时NLVR2开发测试-PSoTAS七十。55七十。92−63岁1738岁九点二十九。2129. 822岁461岁。59 .第九条。239岁。268岁。081。3五十六684. 592. 054号1054号80SoTAB七十三。59七十三。6761岁。5861岁。62四十5297137. 622岁886岁。5812个。3854号0八十。888. 5七十。091. 1九十五。578岁3979. 30SoTAL74岁7574岁93−−41岁730.6一百四十024岁5−−第五十七章。582. 889. 8七十三。592. 3九十六。079. 7681岁。47VINVLB七十五。9576岁。1265岁0564岁65 四十九点半。9一百四十6二十五192. 4613岁0758. 183. 290174岁692. 6九十六。382.0583. 08VINVLL76岁。5276岁。60−−41岁031。1 一百四十9二十五2−−58. 883. 590. 3七十五。492. 9九十六。282.6783. 98∆1 .一、77 ↑1. 67↑3 .第三章。47↑ 1. 48↑0的情况。7↓0。5↑0的情况。9↑0的情况。7↑五、9↑ 0的情况。7↑1 .一、3↑0的情况。7↑ 0。5↑1 .一、9↑0的情况。6↑0的情况。3↑二、91↑二、51↑表4：与SoTA在七项任务上的总体比较这表明相对于SoTA的改进带有下标S、B、L的SoTA分别表示小模型以及模型大小与BERT基础和大模型相似的模型所实现的性能SoTA：VQA来自ERNIE-VIL [42]，GQA来自NSM [11]，NoCaps来自VIVO [9]，NLVR 2来自VILLA [7]，其余任务来自OSCAR [20]。方法ViLBERTVL-BERTVisualBERTLXMERT12合1 UNITER OSCARVILLA ERNIE-VIL基础基础大基础大InterBERT包围*OSCAR +w/VIN VL基地大Test-dev 七十。63七十。50七十。8072. 42七十三。1572. 27七十三。24七十三。16七十三。61七十三。59七十三。6972. 6274岁75-七十五。9576岁。52测试标准品七十。92七十。8371岁。0072. 54−72. 46七十三。40七十三。44七十三。82七十三。6774岁8772. 8574岁9376岁。1076岁。1276岁。60表5：VQA评价结果*表示InterBERT Large在VQA排行榜上排名第一的集合模型表6：GQA评价结果。表7：COCO“Karpathy”测试分割的图像字幕评价结果（单个(Note：B@4：BLEU@4，M：METEOR，C：CIDER，S：SPICE.）方法蓝色@4C5C40流星C5C40ROUGE-LC5C40CIDEr-DC5C40BUTD [2]三十六。968. 527岁。六点三十六。7第五十七章。一百七十二。4117. 91205AoANet [10]39岁。四七一。2第二十九章。一百三十八。558. 974. 5一百二十六9129. 6[28]第二十八话四十372. 4第二十九章。639. 259. 5750131. 1133. 5OSCAR + w/VIN VL四十474. 930. 六点四十。8六十四七六。8134. 7138. 7表8：COCO在线测试中最先进的图片字幕模型排行榜。整个排行榜，超过所有263个模型，包括许多合奏（和匿名）模型。（iv）新对象字幕（NoCaps）结果示于表9中。在没有任何VLP的情况下，即通过在COCO上直接训练基于BERT的字幕模型，具有我们新视觉特征的模型（表示为VinVL）已经超过了CIDER12中的人类性能。通过添加VIVO [9]预训练，我们的VinVL将原始VIVO结果提高了6个CIDER点，并创建了一个新的SoTA。（五）总体而言，12无上限排行榜：https://eval.ai/web/challenges/challenge-page/355/leaderboard/1011验证集测试设置向上向下+74岁3十一岁2七十三。1十一岁2OSCARB*81岁。1十一岁778岁8十一岁7OSCARL*83. 4十一岁4八十。9十一岁3人类[1]87岁1十四岁285. 3十四岁6方法交叉熵优化B@4M CSCIDEr优化B@4MCSBUTD [2]三十六。227岁。0113. 5 20. 3三十六。327岁。7一百二十121岁4VLP [44]三十六。528岁4117. 7 21岁339岁。5第二十九章。3129. 3 23岁2AoANet [10]37岁228岁4119. 8 21岁3 38岁9第二十九章。2129. 8 22岁465585表9：NoCaps评价“总体”结果。所有的模型都是在COCO上训练的，没有额外的图像-字幕对，遵循NoCaps的限制。（UpDown+为UpDown+ELMo+CBS，带 * 的型号为+SCST+CBS，VinVL+VIVO仅带SCST。）不同子集的结果参见附录C中的表181K测试集BERT方法不R@1时检索R@5时ValR@10时图像检索R@1 R@5evalR@10时[18]第十八话84. 3九十七3九十九369岁793. 5九十七2OSCARB88. 4九十九1九十九8七十五。7九十五。2九十八。3L89岁8九十八。8九十九778岁2 九十五。8九十八。3B89岁8九十八。8九十九778岁2九十五。6九十八。0OSCAR + w/VIN VLL九十。8九十九0九十九878岁8 九十六。1九十八。55K测试套件[18]第十八话62岁387岁192. 8四十六776岁。085. 3UNITER [4]B63岁387岁093. 1四十八。476岁。785. 9L66岁689岁494. 351. 778岁486岁。9OSCARB七十。091. 1九十五。554号0八十。888. 5L七十三。592. 2九十六。0第五十七章。582. 889岁8B74岁6 92. 6九十六。358. 1 83. 2 九十。1OSCAR + w/VIN VLL七十五。492. 9九十六。258. 8 83. 5 九十。3表10：COCO上的文本和图像检索评价1K和5K测试集。（B为基础，L为大）任务（表5中的VQA，表7中的图像字幕，表9中的无大写字母，表10中的图像-文本检索，表11中的NLVR2），我们表明OSCAR+B可以匹配或优于之前的SoTA大型模型，OSCAR+L显著提升了SoTA。VinVL*九十。912个。885. 512个。575586方法MAC VisualBERT LXMERT 12合1统一者OSCAR别墅OSCAR +w/VIN VL模型数据VG公司简介67.35±0.264组→VG 68.3±0.11R101-C4 [2] X152-C467.86±0.3168.52±0.1169.10±0.0668.39±0.16基地基地基地基地大基地大基地大基地大Dev50块867岁。4074岁90−七十七。1478岁4078岁0779. 1278岁3979. 7682. 0582. 6783. 0883. 98测试-P51. 467岁。0074岁5078岁87七十七。8779. 5078岁36八十。3779. 4781岁。47表11：NLVR2的评价结果表12：视觉（V）和视觉语言（VL）预训练对VQA的影响。4.2. 消融分析我们选择VQA任务进行消融研究，因为其评价指标定义明确，并且该任务已用作所有VLP模型的测试平台为了帮助我们的分析，我们从标准验证集中创建了一个本地验证集vqa-dev，以在训练期间选择最佳模型进行评估。vqa-dev包含随机抽样的2K图像及其相应的问题，总计10.4K图像-QA对。除了表4和表5之外，我们所有的VQA结果都在这个vqa-dev集上报告。除非另有说明，否则报告的STD是具有不同随机种子的VQA训练的两次运行的差异的一半在VQA中，VL模型y=VL（w，q，v）将w作为问题，y作为答案。我们着重研究了不同视觉模型（Vision，Img）产生的视觉特征v的影响，以更好地理解它们在VQA性能中的相对贡献。为了消除使用不同标签q的影响，我们在OSCAR [20]的VQA模型中使用相同的标签。所有的烧蚀实验都是使用BERT基础大小的模型进行V和VL对SoTA有多大影响？打--表12示出了不同视觉模式的VQA结果，即，来自[ 2 ]的R101-C4模型和我们的X152-C4模型，使用4个数据集（VinVL）和不同的VLP进行预训练表13：训练视觉模型的模型大小和数据大小的消融。模型预训练数据集公司简介ImageNet4台R50-C4ImageNet4台X152-C4ImageNet5k4台COCOmAP[39]44.78美元 *38.4 [39]42.442.1750.51VG objmAP509.611.39.612.111.213.8带gt框的属性mAP5.45.56.36.16.67.1*由于我们的四个预训练数据集包含Objects365，因此我们获得比[30]中的42.3mAP50更好的结果并不奇怪，这是通过在Objects365上进行预训练获得的表14：视觉预训练对物体检测任务的影响。分别建立了Vision（Img）和VL模型VL（w，q，v）。这也表明，我们的预训练视觉模型可以通过直接用我们的视觉模型替换任何VL模型，例如R101-C4 [2数据和模型大小对新的Vision模型有多大影响？表12中VQA从R101-C4 [2]到VinVL（我们的）的改进是增加模型大小（从R101-C4到X152-C4）和数据大小（从VG到我们合并的四个OD数据集）的复合效应表13显示了在无VLP的情况下两个因素的消融虽然VG使用合并的四个OD数据集训练的视觉模型比仅VG训练的模型表现得更好，并且随着模型大小的增加，改善更大。13OD模型架构有多重要？模型架构的选择影响VQA的性能。方法，即，没有VLP，OSCAR [20]和我们的OSCAR+。以R101-C4特征的OSCARB模型为基线，采用我们的X152-C4特征的OSCAR+B模型将绝对准确率从72.38提高到 74.90 ，其中 OSCAR+ 预训练贡献了 5% 的增益（即，72. 38→72。46）和视觉预训练（改善的视觉特征）95%（即，72. 四十六→七十四。90）。这表明，视觉表征在VLP和下游任务。以具有R101-C4特性的“无VLP”模型为例作为基线，表12示出了VinVL（71. 34-6852 = 2。82）和VLP（72. 46-6852 =3。（94）添加剂（74. 90-6852块2 82 +3 94）。这是intu-积极的，因为视觉预训练和VLP提高了Vi-表13显示，当R50-FPN仅在VG上训练时，它们的性能低于R50-C5;但当两者都在合并数据集（4集）上训练时，性能差距减小FPN和C4结构之间的详细比较见附录E。OD预培训对目标检测任务的重要性有多大？表14给出了COCO上的对象检测结果和VG上的对象-属性检测结果（1594个对象类，524个属性类）。结果表明，OD预训练有利于目标检测任务的完成。请注意，VG上的mAP远低于表13中的R101-C4模型正是[2]中的VG预训练模型。我们没有在合并的OD数据集上训练这个模型，因为这个模型架构是老式的，训练起来很慢。VL愿景R101-C4 [2]VinVL（我们无VLP68.52±0.1171.34±0.17OSCARB[20个]72.38–OSCAR +B（我们的）72.46±0.0574.90±0.0575587区域模型Anderson等人[二]《中国日报》GT-Obj安德森GT-Obj Stuff等.[2]第二届中国国际汽车工业展览会63.81±0.9465.60±0.2166.68±0.16 68.52±0.1168.13±0.26 70.25±0.0569.05±0.0671.34±0.17数据集名称ImageNetVG-obj无属性的VG第二章[2]VG4台→VG#obj #attr1000 0317 01594 01600 4001594 5241848 524R50-C4 + BERTB66.13±0.0464.25±0.1666.51±0.1167.63±0.2567.86±0.3168.39±0.16表15：对象属性词汇表的影响我们将所有网格特征（最大273个）用于ImageNet分类模型（第一列），将最大50个区域特征用于OD模型（其他列）。典型OD数据集（如COCO）的异常是由于两个原因：（1）VG包含大量具有有限且极不平衡的注释的对象类，（2）在VG评估数据中存在许多缺失的注释。[14]尽管mAP数量很低，但使用X152- C4的检测结果相当好;可视化见附录A我们还看到，FPN模型在属性检测方面的表现一直不如如第2.1节所述，这导致FPN在下游VL任务上的性能低于C4。视觉概念的多样性，即，对象和属性词汇表，重要吗？我们直接在不同的数据集上训练视觉模型，包括（1）标准具有1 K类的标准ImageNet（ImageNet），（2）与COCO 80类和OpenImagesV 5 500类共享的具有317个对象类的Visual Genome（VG-obj），（3）具有所有1594个对象类的VG（VG w/o attr），（4）具有1594个对象类和524个属性类的VG对于所有OD模型（表15中的最后四列），我们使用ImageNet预训练的分类模型初始化OD训练，并使用每个图像最多50个区域对于ImageNet预训练的分类模型（表15中的第二列），我们为每个图像使用所有网格特征（最多273个）。结果表明• 通常，具有更丰富对象的词汇表会导致更好的VQA结果：VG-obj ImageNet VG w/o attr.<

下载后可阅读完整内容，剩余1页未读，立即下载