通用视觉系统：一种端到端任务无关的视觉语言体系结构

33 浏览量更新于2023-10-26 收藏 2.16MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

16399面向通用视觉系统：一种端到端任务无关的视觉语言体系结构Tanmay Gupta1Amita Kamath1Aniruddha Kembhavi1DerekHoiem21 PRIOR @ Allen Institute for AI2伊利诺伊大学香槟分校https://prior.allenai.org/projects/gpv摘要今天的计算机视觉系统主要是N目的系统，为预定义的一组任务而设计和训练。使这样的系统适应新的任务是具有挑战性的，并且通常需要对网络架构（例如，添加新的输出头）或训练过程（例如，添加新的损耗）进行重要的修改。为了减少开发新应用程序所需的时间和经验，我们希望创建通用视觉系统，该系统可以学习和执行一系列任务，而无需对体系结构或学习过程进行任何修改在本文中，我们提出了GPV-1，一个任务无关的视觉语言架构，可以学习和执行任务，涉及接收图像和产生文本和/或边界框，包括分类，本地化，视觉问答，字幕，和更多。我们还提出了评估的一般性的架构，技能概念1转让，学习效率，可能会通知未来的工作，通用愿景。实验结果表明，GPV-1在多个任务上都是有效的，跨任务重用了一些概念知识，可以零次完成指称表达式任务，并且在使用少量训练样本的情况下进一步提高了零次性能。1. 介绍今天的计算机视觉系统是N目的的学习者-设计，训练，并限于N个预定的任务。单一用途模型专注于单一任务，使其适应新任务或数据集需要更改架构，最低限度地替换最后一个分类层。多用途模型，如Mask-RCNN [13]，可以模拟解决多个任务，但架构和学习是针对特定任务定制的，必须进行分解。1对于这项工作，我们定义的概念，技能和任务如下：概念汽车，人，狗），技能分类、对象检测、图像字幕），任务ImageNet分类任务涉及1000个概念的图像分类技能）。文本带卷轴的盒子即时得分布朗0.130.750.020.04是的狗是什么颜色的GPV有没有看到树？10.99找到狗。生成图像的描述。一只狗和一只猫躺在床上。0.770.37这是什麽0.300.40猫0.59图1. 任务不可知的视觉语言架构。GPV-1采用图像和自然语言任务描述，并输出边界框，置信度和文本。GPV-1可以在任何需要框或文本输出的任务上进行端到端的训练，而无需任何架构修改，例如添加新的任务头。结果对应于训练以执行VQA、定位、加帽和分类任务的模型。星号表示在每个任务的训练期间监督的输出提前罚款在视觉语言模型[32]中，专用的输出头通常用于每个任务和数据集。与通用计算机类似，通用视觉（GPV）系统被设计为执行许多视觉任务，这些任务在设计时并不都是已知的，仅受其输入模态、存储器/指令和输出模态的约束。通用系统使新的应用程序能够在不了解或访问基础机制的情况下开发。NLP社区已经在这个方向上取得了重大进展，基于序列到序列转换器的模型，如T5[41]和GPT-3 [3]，可以在不改变架构的情况下训练它们来解决许多语言任务。我们相信，在计算机视觉领域，这样的进步现在是可能的，尽管有许多新的挑战。在本文中，我们提出了一个端到端的可训练的任务无关的视觉语言架构，GPV-1，作为一个步骤，向通用视觉系统。作为输入，我们的系统16400接收任务的图像和文本描述。系统输出与任务和图像相关的边界框、置信度和文本。用户可以输入图像并且用各种请求来查询系统，诸如“蓝色汽车是什么牌子的？”（视觉问题回答）、每个查询都使用跨任务共享的输出头导出不同的通过自然语言定义任务允许用户请求GPV-1执行或学习任务，而无需了解其架构或先前的培训。例如，我们的实验表明，GPV-1可以在没有任何训练示例的情况下执行引用表达式任务，并且在提供训练示例时，学习速度比专用模型更除了在经过训练的技能-概念组合（包含在训练任务中）上表现良好之外，GPV系统还应该能够利用相同的架构有效地学习新任务，并通过从其他技能转移概念这些能力通常不适用于专门的系统或在专门的系统中测量。因此，我们提出了衡量三种形式的一般性的评估：• 架构的通用性：学习仅通过输入/输出模型指定的广泛领域内的任何任务，而不改变网络结构（例如，学习对鸟类进行分类，而不添加新的输出头）• 跨技能概念的通用性：以培训期间未见过的技能-概念组合执行任务（例如，在学习回答有关“麝鼠”的问题后，本地化• 学习的通用性：学习新任务示例-高效地学习新任务，同时将错误学习任务的为了测试架构的通用性，我们训练和评估了我们的系统在为了测试跨技能的概念的通用性，我们提出了一个新的分裂的COCO图像和相应的任务注释称为COCO-SCE（技能概念评估）。在COCO-SCE中，一些概念（对象）从每个任务中保持出来，但通过其他任务暴露出来，然后对包含保持出来的概念的样本进行性能评估。为了测试学习的通用性，我们在参考表达式任务上微调了我们的系统，并测量了它的学习曲线和忘记以前学习过的任务的程度。总之，我们的主要贡献包括：（1）一个端到端的可训练的，任务不可知的视觉语言架构，用于学习和执行分类，接地，视觉问答，字幕和其他任务，涉及图像、文本和边界框模态。（2）评估测试架构的通用性、技能-概念迁移和学习能力。2. 相关工作单一目的视觉语言模型。在过去的十年中，已经为视觉语言任务开发了专门和有效的方法，包括图像标题[10，21，25，33，47，54]，短语基础[37，38，43]，参考表达理解[22，34]，视觉问答（VQA）[2，11，16，48，51，55]，视觉对话[7]和文本到图像生成[6]。推动性能包络的进步包括跨模型Transformer架构[45]，强大的自监督[3，8，28]和多任务[41]语言模型，来自对象和属性检测器[1，57]或文本条件检测器[20]的预训练视觉表示，以及大规模图像/视频-文本[19，27，39，56]预训练。N目的视觉语言模型。最近的几项工作旨在将视觉语言任务与通用架构统一起来。UniT为7个任务（包括检测和视觉语言任务）训练单个模型，但使用任务专用头，不支持字幕。12合1 [32]联合培训VilBERT [31]12个视觉语言任务，但有6个输出头（每个任务组1个）。VL-T5 [5]采用T5 [41]，一种在自监督和监督任务的混合上预训练的文本到文本架构，仅用文本生成头（T5的文本解码器）联合训练视觉语言任务这两种方法都依赖于来自对象和属性检测器的预提取的边界框和区域特征[1]，并且不是端到端可训练的。E2 E-VLP [53]提出了一种端到端的可训练体系结构，该体系结构通过掩码语言建模、图像-文本匹配、字幕和对象检测目标进行了广泛的预训练，每个目标都具有不同的输出头。然而，预训练模型在每个任务上单独进行微调，因此不支持具有公共权重集的多个任务另一方面，GPV-1是端到端可训练的，并在多个视觉语言任务上进行联合训练。我们的架构以图像和文本任务描述作为输入，并具有每个模态的输出头，即文本，边界框和相关性分数。创建通用视觉架构的其他令人兴奋的努力包括Perceiver [18]和Perceiver IO [17]，但它们在多任务学习和视觉语言任务（如VQA和字幕）方面的潜力仍有待探索。任务描述作为架构生成的一种手段。自然语言领域中的一些作品已经尝试通过将每个任务框定为文本到文本的转换来模糊或擦除人工任务边界，其中任务通过任务描述来规范。任务描述范围从模板提示[41]到自然语言描述[36，49]。Kumar等人。[26]表明，多个任务，16401描述一下这个图像。对象盒对象查询CNN公司简介ROI池化相关性分值0.90.70.80.00.1相关性头视觉编码器线性层视频解码器线性层生成的文本一只狗和一只猫坐在床上。语言编码器跨模态模块语言解码器伯特文本解码器关联条件反射ViLBERT共同关注DETR解码器DETR编码器ObjectiveHead箱头图2. GPV-1的架构。视觉，语言和跨模态模块是彩色编码的（见第二节）。3详情）。例如词性标记、问题回答和分类，可以被公式化为序列到序列的变换，并且用单个任务不可知的体系结构来解决，DecaNLP [35]和UnifiedQA [23]等作品已经训练了单个模型，通过将每个任务重新模拟为问题回答来执行多个任务，从而允许单独的任务性能在共享模型参数的同时受益于具有不同监督T5 [41]、GPT [3，40]等作品也突出了统一模型的迁移学习能力，特别是在零镜头和少镜头场景中。技能概念评估。很少有作品试图学习一个任务的概念并将其应用于另一个任务，例如学习将图像分类为“土豚”并能够检测或回答有关土豚的问题。作为一个例子，Gupta等人。[12]表明，根据单词和图像区域表示的内积来制定视觉识别和VQA会导致识别和VQA任务之间的感应转移。其他作品专注于单向转移到单个任务，如字幕[15]或VQA [50]。我们的COCO-SCE基准，我们提出了一个系统的评估概念的通用性在四个标准的视觉语言任务，从每个任务中持有某些概念，同时通过其他任务暴露他们，然后分别测量性能上看到的和持有的概念，为每个任务。3. GPV-1模型3.1. 体系结构概述我们的GPV-1系统最与众不同的方面是，任务是通过自然语言文本输入定义的，而不是多头输出。例如，大多数执行ImageNet [9]分类和COCO检测的系统将有一个1000级置信度输出头和另一个80级置信度输出头。更任务或更多的数据集将需要更多的输出头。一旦经过训练，这样的系统将始终产生1,080种置信度和80类边界框。GPV-1没有明确的任务边界，而是采用自然语言任务描述，例如“什么坐在沙发上？”(VQA)、“查找狗的所有实例”（本地化）、“图像中发生了什么”（字幕）或“这是什么样的对象？”（分类）。GPV-1使用相同的语言/视觉/跨模态编码器和解码器解释和执行所有任务。在训练中，本地化任务具有边界框基础事实，而其他任务（例如分类、问题回答和字幕）具有文本基础事实。然而，所有任务都涉及共同的技能，例如解释任务描述、定位对象、表示图像区域以及确定与任务的相关性。一个新的任务，如引用表达式，它有边界框地面真理，可以简单地定义通过提供新的输入（因此，GPV-1仅受其可以感知和产生的模态的限制，可以被训练来执行广泛的任务，而无需对架构或学习进行特定于任务的修改图2提供了GPV-1的架构的概述，该架构首先，我们使用CNN主干和来自DETR [4]的Transformer编码器-解码器（端到端可训练对象检测器）对图像进行编码。同时，自然语言任务描述是用BERT编码的[8]。然后，为了将视觉和语言编码器的表示交叉上下文化，我们使用ViLBERT框和对象头预测任务不可知的边界框和分数。相关性头预测每个输出框的任务特定分数，该输出框与对象分数组合以获得相关性分数。的16402--×文本解码器是一种自回归Transformer解码器，它利用来自用作存储器的交叉模态模块的相关性调节输出来生成文本输出。3.2. 视觉模块我们使用基于DETR的视觉编码器。ResNet-50主干[14] 提取一个卷积特征映射，将其输入 DETR 的Transformer编码器，以获得每个网格位置的上下文特征。Transformer解码器将R（=100）个对象查询（学习的常向量）和上下文化网格特征作为输入，并为每个对象查询产生区域描述符。主要的直觉对象查询用作可学习的锚，并且在检测上训练的Transformer编码器-解码器消除了对作为后处理步骤的非最大抑制的需要。完整的区域编码是通过将DETR的Transformer特征（对位置和有限的外观信息进行编码）与来自CNN主干的RoI池化特征连接起来获得的作为一个视觉解码器，GPV-1使用DETR这些边界框用于接地和检测任务，以及CNN主干的RoI池化。我们还将DETR的80路对象分类层替换3.3. 语言模块语言编码器用于对任务描述进行编码。我们使用BERT子词标记化为词汇表外的词提供了鲁棒性，并且大规模语言模型预训练允许GPV-1更好地处理语言查询的释义和对新颖任务描述的零触发泛化，因为与BERT嵌入空间中先前看到的描述具有语义相似性。语言解码器输出单词来分类、描述或回答输入。具体地，共同参与的区域表示和语言查询在每个生成步骤中，迄今为止生成的单词序列与存储器一起被馈送到解码器中，并且预测词汇单词上的分布以采样下一个单词。变换器解码器的输入是可训练的词嵌入。通过在解码器输出的嵌入向量和词的线性变换BERT编码之间取点积来获得词汇词的输出logit。3.4. 跨模态模块来自视觉模块的区域描述符和来自语言模块的子标记表示由线性层转换为等维向量，并馈送到ViLBERT关联头使用共同参与区域特征来预测指示区域与任务描述的关联的logits。这些logits被添加到来自对象头部的logits，并通过S形激活转换为区域相关性分数这些相关性分数用于对边界框进行排名或指示区域对执行任务的重要性。关联条件反射通过关联分数调节共同关注的视觉特征。具体地，每个区域的相关性得分s用于对学习的向量vrel、vnrel进行加权，这些向量在馈送到解码器之前被添加到区域特征。这种条件作用使文本解码器的监督能够影响相关性和对象性。以此方式，经训练以产生孔雀图像的字幕的模型可学习定位孔雀，且相反地，定位孔雀的能力可转化为经改进的字幕质量。3.5. 培训每个训练样本由图像、任务描述和目标组成。根据任务的不同，目标可以由地面实况边界框、文本或两者组成。在每次训练迭代中，我们在所有任务中统一抽取样本来构建小批量。对于包含文本目标的所有样本，我们最大化地面真实文本的对数似然。对于所有包含边界框作为目标的样本，我们使用DETR初始化。我们初始化所有的视觉模块，除了对象头部中的最后一个线性层，使用来自DETR的权重在COCO或COCO-SCE上进行预训练（第二节）。4.2）目标检测数据。BERT是在BooksCor- pus [59]和英语维基百科上预先训练的。优化. 我们用120的批量和AdamW优化器训练GPV-1[30]。我们在前10个epoch中保持DETR权重冻结，并在30个epoch中微调除BERT之外的所有模块。对于学习率（LR），我们在前4个epoch中进行预热，最大值为10−4，然后线性衰减到0。在DETR之后，我们对视觉模块参数应用梯度裁剪，并对CNN主干使用10−5我们使用0。05较低的文字损失重量字幕，因为更多的话是在目标文本比其他任务。4. 任务和数据我们的实验涉及使用来自COCO数据集的图像和来自COCO，VQAV 2 [11]和REF COCO + [22]数据集的注释的5个任务。秒4.1de-16403--HH}{--描述了如何将这些任务提交给我们的通用系统，以及用于培训和评估的相应损失和指标。秒4.2详细介绍了如何从原始注释中为每个任务创建样本，并介绍了我们的COCO-SCE分割，用于测试概念跨技能的泛化。4.1. 任务COCO列车图像确认测试我们的实验主要涉及四个任务-- VQA、加帽、定位和分类。我们只使用参照表达式来测试GPV-1的学习能力。VQA旨在回答给定图像的问题。输入是图像/文本对，输出是文本。在训练时，所采用的损失是地面真实答案文本的负对数似然。我们使用标准的VQA评估指标（注释者一致性加权答案准确度）[2]来报告结果。字幕的目的是产生对图像的描述输入是图像和提示，诸如“描述图像”或“图像中发生了什么？"，并且输出是文本。在训练时，所采用的损失是注释标题的负对数似然。报告的评估指标是CIDEr-D [46]，它测量生成的和地面实况字幕的相似性本地化的目的是产生一个紧密拟合的边界框的对象。输入是一个图像和一个提示，比如“查找所有狗的实例”或“定位椅子”，输出是一组排名的边界框。训练使用DETR的匈牙利损失。评估是每个查询平均精度（AP）的平均值，具有0.5的边界框交集超过并集（IOU）阈值。例如，如果图像包含两个目标对象，并且前四个排序框的正确性为真、假、假、真，则AP为（1/1+2/4）/2=0.75（每点插值）。所报告的数量是样本的AP平均值。分类的目的是为一个地区分配一个类别。输入是一个图像补丁和一个提示，如“这是什么？”或“这是什么物体"，并且输出是文本。原则上，GPV-1可以在文本解码器的大词汇表中生成任何类别标签，包括在其分类训练数据中没有看到的单词然而，对于评估，通过抑制不对应于任何可应用的K类别的输出来执行K路分类使用的训练损失是文本输出的负对数似然，评估是样本的平均指称表达（RefExp）旨在本地化对应于短语的单个区域。输入是一个图像和一个引用表达式，如虽然训练损失和评估与定位相同，但关键区别是在图像中相同对象类别的其他实例中消除所引用实例的图3. COCO-SCE：COCO图像和注释的分割，用于测试概念跨技能的泛化。示意图显示了用于VQA的序列、验证和供试品。4.2. 数据我们目前的实验使用图像从丰富的注释COCO数据集。我们使用来自VQAV2数据集的问题和答案注释，引用来自REFCOCO+的表达式，以及用于其他任务的COCO数据样本。VQA样本由作为提示的原始问题和注释者之间最一致的答案对于字幕，COCO为每个图像提供5个字幕，每个字幕都被视为与14个字幕提示模板之一配对的不同样本。我们使用与该类别的所有实例配对的18个提示模板之一来为图像中的每个对象类别生成本地化样本。对于分类，我们通过选择与4个提示模板之一配对的实例之一（使用地面真值框裁剪）为图像中的每个对象类别创建一个样本。RefExp示例包括将表达式引用为带有相应框的提示。数据拆分。我们目前的结果GPV-1和基线上的两个数据分裂。首先，我们使用相应任务的标准数据分割来训练和评估模型这提供了GPV-1在过去工作背景下的结果。然后，为了测试视觉系统跨技能概括概念的能力，我们提出了一个新的分裂的上述注释，命名为COCO-SCE（技能概念评估）。COCO-SCE。图3给出了提出的COCO-SCE分裂的示意图。COCO的80个类被分成3个不相交的集合，指定哪些任务可以使用它们进行训练和验证：•vqa，cap：10个类，来自train/val集中的•cls，loc：10个不同的类，从train/val集中的• S：60个剩余的类不从任何任务中保留。当一个类别被保留时，任何包含这些词不用于训练或评估。例如，在一个示例中，如果船是一个VQA的保留类别，然后是注释“船是什么颜色的？"，“蓝色”将从序列/值集合中排除。仍然可以使用来自同一图像的其他注释，例如“今天是晴天吗？"，“是的”此外，船的分类和定位注释将包含在各自任务的train/val中的分配80个类别COCO-SCE火车COCO-SCEValCOCO-SCE测试所见未使用注释，其中提到的任何类别在cnvq#，c#&COCO-SCE未观察到的试验16404SH HS分体式VQA章Loc. 课C OCO-SCE [a]专业型号56.60.832 62.4[b] 1-任务GPV-10.855 64.875.3[c]多任务GPV-158.80.908 64.775.4COCO[d]专业模式 60.10.961 75.283.3多任务GPV-162.51.023 73.083.6表1. 与特殊目的基线（COCO-SCE和 COCO分割）的比较：我们联合训练的GPV-1与专门的单任务基线以及在单独任务数据上训练的GPV-1相比效果良好。在COCO分割上，我们报告VQA的测试服务器结果以及本地化和分类的字幕和验证结果，在COCO-SCE分割中，我们报告所有任务的测试结果.类别vqa，cap，cls、loc和是随机的，除了我们分配给人，因为它是如此普遍。COCO-SCE训练集和值集中的图像来自COCO训练集，COCO-SCE测试集中的图像是COCO验证集中的图像（因为COCO测试注释被隐藏）。COCO-SCE序列和值拆分由第一个特征仅在COCO上训练，而没有在概念标题上进行预训练[44]。选项卡. 1表明，在COCO-SCE分割上，在单个任务上训练的通用GPV-1架构与每个专用模型相比（a行与b行）更有利。此外，GPV-1的通用性使其能够在所有4个任务上进行联合训练，从而在2个任务上获得相当大的收益，并在其他任务上获得相当的结果（b行与c行）。当我们比较原始COCO数据分裂（d行与e行）的模型时，同样的趋势也成立，验证了这些趋势不仅仅是我们提出的分裂的产物。总之，这些结果表明GPV-1的通用性并不以牺牲有效性为代价。5.2.技能概念概括我们希望测试跨技能概念的通用性，即。一个模型在训练中看不到的新技能概念组合上表现良好的能力当在COCO-SCE上对单个任务进行训练时，模型不能访问关于保留概念的任何注释例如，仅在VQA上训练的模型永远不会看到问题或创建80-20分区的COCO列车映像，然后对于每个任务，丢弃暴露被保留的关于马∈ H的回答瓦加角 .然而，当训练通过注释为该任务分类。在测试集上，我们分别报告属于“看到”的样本的性能S Hcls，locfor VQA）和Hvqa，capfor VQA）类别。5. 实验我们的实验评估了GPV-1与专门模型相比的有效性（第二节）。5.1），它的能力，以apply学到的技能，以看不见的概念，为该技能（节。5.2），其学习新技能的效率，以及对预先学习技能的保留（第5.2节）。5.3）。第5.4节提供了消融。我们的COCO-SCE实验经过精心设计，以确保比较的方法在相同数量的技能数据上进行训练（尽管某些模型可能可以访问来自另一项技能的数据），并通过避免通过概念说明[44]或视觉基因组[1]上的预训练暴露保留的概念来评估跨技能的概念转移ImageNet预训练虽然并不理想，但它是不可避免的，因为包括DETR在内的大多数视觉模型都依赖它来引导学习。5.1. 一般性vs. 有效性GPV-1的通用性是否以有效性为代价？我们将GPV-1与为每个任务设计的竞争性专用模型进行比较-为了避免将架构的有效性与更多数据的可用性混为一谈，我们重新训练这些模型，使其仅使用COCO和VQAV2注释。对于ViLBERT和VLP，这需要用Faster-RCNN替换Visual Genome [24]自下而上的功能[1在所有任务中，模型学习定位和分类马图像。因此，我们希望模型能够应用获得的问答技能来回答关于马的问题，而无需在马的VQA数据上进行明确的训练。选项卡. 图2显示了专用模型和单任务和多任务GPV-1模型在COCO-SCE完整测试分割上的性能，以及分别在分类为“可见”和“不可见”的测试数据子集上的性能在单个任务上训练的1-任务GPV-1（b行）用作基线，以说明GPV-1架构的学习先验和数据集偏差。我们观察到多任务GPV-1（第c行）在所有任务中的“看不见”子集上的显著收益我们还报告了在COCO训练分割（d行）上训练的多任务GPV-1的性能。由于这种分割将模型暴露给所有任务的保留概念，因此它可以作为“看不见的”分割的宽松上限5.3. 学习泛化一个系统表现出良好的学习泛化，如果它可以学习新的技能样本有效地不忘记以前学习的技能。学习能力图4（左）显示了在参考表达式任务上进行微调时GPV-1和GPV-1-Loc的学习曲线。GPV-1-Loc仅在本地化任务（唯一具有边界框监督的其他任务）上进行预训练，而GPV-1在所有四个任务上进行预训练。多任务GPV-1展示了更好的零射击每-16405模型测试VQA看到看不见测试字幕看不见的定位测试所见看不见分类测试所见看不见[a]专业模式56.657.245.20.832 零八六七0.501 62.468.17.475.283.00.0[b]1-任务GPV-1五十五点九56.541.9零点八五五零八九一零点五二四64.869.816.475.383.10.0[c]多任务GPV-1五十八点八59.347.7零点九零八0.9440.560 64.768.825.075.482.65.4[d]多任务GPV-1Oracle0.9970.93973.072.776.083.683.4表2. 技能概念概括：多任务总体上实现了更高的性能，特别是对于“看不见”的概念。分类和定位GPV oracle性能，没有任何概念，提供了一个“看不见”的上限。在较小的COCO-SCE数据分割上训练和测试a、b、c，而d使用COCO分割。图4. 学习新的技能和保留以前的技能。左：在REF COCO+上，多任务预训练的GPV-1比单任务预训练的GPV-1- Loc提高了0次射击性能GPV-1也比GPV-1-Loc更快地学习新技能，特别是在较低的数据状态下。右：随着R_EF_C_OCO+训练数据的增加，GPV-1确实忘记了现有的技能，但是多任务GPV-1比GPV-1-Loc更容易忘记（注意，x轴是对数缩放的）。以及更好的采样效率在低数据制度。学习属性和附加名词为指称表达提供了更好的起点;例如，虽然定位训练的模型以定位人的能力开始，但是多任务模型也通过字幕和VQA熟悉红色和毛衣，并且可以更好地定位潴留图4（右）示出了当GPV-1用增加量的REFCOCO+训练数据训练时，在原始任务上保留的性能百分比。有趣的是，在定位任务上，多任务GPV-1的遗忘速度比GPV-1-Loc慢。本地化和字幕遭受最大的灾难性遗忘，而分类显示出强大的保留。GPV-1没有明确的机制来解决遗忘问题，但我们的研究结果强调了这种机制对通用学习的重要性。5.4. 消融选项卡. 3消除了使GPV-1有效的关键因素。端到端微调（与保持DETR权重冻结相反）有助于提高所有任务的性能（a行与c行）。RoI池显著提高了VQA的性能，略微提高了字幕的性能，但导致本地化和分类的性能略有下降（a行与b行）。VQA章Loc. 课[a]多任务GPV-158.80.90864.7七十五点四[b]无ROI功能 54.90.89865.3七十六点六[c]无微调56.40.88363.4七十一点五表 3. 消融：使用从 CNN 主干提取的 RoI 特征增强视觉Transformer特征显著有助于VQA，并略微有助于字幕，但不利于本地化和分类。Transformer特征可能足以完全建模定位和分类，而VQA和字幕则受益于RoI特征中的附加信息微调有助于所有任务。6. 局限性和结论GPV-1架构可以被训练来执行任何图像任务，这些任务可以使用单词或框来描述和执行我们的实验表明，这种通用性并不以牺牲准确性为代价，因为GPV-1在单独任务训练时与专业系统相比然而，仍然存在若干挑战。GPV-1的通用性是以牺牲运行时效率为代价的。例如，使用GPV-1进行检测需要对每个对象类别进行单独的定位推断。GPV-1也实现了一些技能概念的概括，如我们的COCO-SCE分裂所测量的我们的指称表达理解实验表明，虽然GPV-1在接受多项任务训练时学习更快，遗忘更慢，但灾难性遗忘仍然是一个挑战。虽然COCO-SCE确实为研究GPV提供了一个受控的测试平台，但我们的评估仅限于基于COCO的技能和概念。最后，由于缺乏图像生成头，GPV-1目前不支持图像处理或生成任务，如彩色化和分割。GPV-1也不处理非图像输入，如视频或点云。将GPV-1的能力扩展到新的任务和输入输出类型是未来工作的一个令人兴奋的挑战。补充材料包含其他培训和数据集详细信息、任务提示、消融、分析、潜在负面影响和定性结果。16406VQA（文本）字幕（文本）的方式本地化（方框）的方式分类（文本）的方式玩wii一个男人和一个女人在玩遥控器游戏。一个男人和一个女人站在房间里。远程早餐一个男人坐在桌子旁，手里拿着一盘食物。咖啡餐桌狮子一个男人骑着自行车沿着街道走在一辆卡车旁边。这里没有图片可供说明。卡车阴影一个拿着伞走在街上的女人黑白伞VQA（文本）的方式字幕（文本）的方式本地化（方框）的方式分类（文本）的方式没有一名男子骑着滑雪板，牵着两只狗。人们站在厨房里准备食物。泰迪熊雕像描绘的是什么动物图像中发生了什么查找人的实例这个物体是什么她为什么带着雨伞？为此图像生成标题去找雨伞。这是什么东西照片里有两个人吗为此图像生成标题冰箱在图片中这是什麽女孩在滑雪站穿着所有青色孩子坐无关于雪女孩在滑雪站穿着所有青色孩子坐RefCOCO（箱）的方式雪婴儿一半人吃了一个地上有一件红色行李RefCOCO（箱）的方式热狗行李这个女人在用她的手做什么生成描述。找人。这是什麽零拍摄RefCOCO一只白色的小狗坐在长凳上。皮带鼻子上可见犬（b）第（1）款（c）第（1）款(a)（d）其他事项图5. 定性结果：预测结果显示在彩色框中（每个任务一种颜色），下面有框和文本预测。(a)GPV-1学习为每个任务输出预期的模态（用星号表示），但也为本地化任务和VQA和字幕的相关区域（b）GPV-1能进行0-shot指称表达理解。GPV-1学习在对任务的注释进行微调时纠正零射击错误（c）（d）。（a）（b）图6. 失败案例：（a）GPV-1尽管定位了人数，但无法计算人数，并且无法定位滑雪杆和冰箱等物体。(b)REF COCO+失败，显示模型从正确的类别中定位了不正确的对象。致谢。这项工作得到了ONR MURI Award N 00014 -16-1-2007和ONR Award的部分支持。编号00014 -21-1-2705。这是什么饭为图像添加标题。在图像中找到cup的所有实例这是什么东西16407引用[1] 彼得·安德森，X。他，C. Buehler，Damien Teney，Mark Johnson，Stephen Gould，and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。 2018 年IEEE/CVF计算机视觉和模式识别会议，第6077-6086页，2018年。二、六[2] Stanislaw Antol ， Aishwarya Agrawal ， Jiasen Lu ，Margaret Mitchell，Dhruv Batra，C.劳伦斯·齐特尼克和德维·帕里克VQA：可视化问答。在ICCV，2015年。二、五[3] T.布朗湾放大图片作者：Mann，Nick Ryder，MelanieSubbiah ， Jared Kaplan ， Prafulla Dhariwal ， ArvindNeelakantan ， Pranav Shyam ， Girish Sastry ， AmandaAskell，Sandhini Agarwal，ArielHerbert-V oss，G. Krüger，T. 亨尼根河放大图片作者：Daniel M.放大图片创作者： Jeffrey Wu ， Clemens Winter ， ChristopherHesse，Mark Chen，E.放大图片作者：Sigler，MateuszLitwin ， Scott Gray ， Benjamin Chess ， J. Clark ，Christopher Berner，Sam McCandlish，A. Radford，IlyaSutskever，and Dario Amodei.语言模型是很少机会的学习者。NeurIPS，abs/2005.14165，2020。一、二、三[4] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测。在ECCV，2020年。3[5] Jaemin Cho，Jie Lei，Haochen Tan，and Mohit Bansal.通过文本生成统一视觉和语言任务。在ICML，2021。2[6] Jaemin Cho，Jiasen Lu，Dustin Schwenk，Hannaneh Ha-jishirzi ， and Aniruddha Kembhavi. X-lxmert ：油漆，帽，灰和回答问题与多模态变压器。在 EMNLP，2020。2[7] Abhishek Das 、 Satwik Kottur 、 Khushi Gupta 、 AviSingh、Deshraj Yadav、Jose 'sala、Devi Parikh和DhruvBatra。可视化对话框。在CVPR，2017年。2[8] Jacob Devlin ， Ming-Wei Chang ， Kenton Lee ， andKristina N.图坦诺娃BERT：用于语言理解的深度双向变换器的预训练。在NAACL，2019年。二、三[9] 魏东，理查德 · 索彻，李丽嘉，李凯，李菲菲。ImageNet：一个大规模的分层图像数据库。CVPR，2009。3[10] Ali Farhadi 、 Seyyed Hejrati 、 Amin Sadeghi 、 PeterYoung、Cyrus Rashtchian、Julia Hockenmaier和David A.福赛斯每张图片都讲一个故事：从图像生成句子。ECCV，2010年。2[11] Yash Goyal 、 Tejas Khot 、 Douglas Summers-Stay 、Dhruv Batra和Devi Parikh。使VQA中的V重要：提升图像理解在视觉问题表达中的作用。在CVPR，2017年。二、四[12] Tanmay Gupta ， Kevin J. Shih ， Saurabh Singh ， andDerek Hoiem.对齐的图像-单词表征改善了视觉-语言任务之间的诱导迁移。2017年IEEE国际计算机视觉会议（ICCV），第4223-4232页，2017年。3[13] 何凯明、乔治亚·吉克萨里、彼得·多勒和罗斯·吉尔希克。面罩R-CNN。InICCV，2017. 1[14] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。四、六16408[15] Lisa Anne Hendricks、Subhashini Venugopalan、MarcusRohrbach、Raymond J. Mooney、Kate Saenko和TrevorDarrell。深度组合字幕：在没有配对训练数据的情况下描述新的对象类别。CVPR，第1-10页，2016年。3[16] Drew A Hudson和Christopher D Manning GQA：一个用于现实世界视觉推理和组合问题回答的新数据集。在CVPR，2019年。2[17] Andrew Jaegle ， Sebastian Borgeaud ， Jean-BaptisteAlayrac，Carl Doersch，Catalin Ionescu，David Ding，Skanda Kop- pula，Andrew Brock，Evan Shelhamer，Olivier J. H'enaff ， Matthew M. Botvinick ， AndrewZisserman，Oriol Vinyals，andJo aBazioCarreira. Perceiverio ：结构化输入输出的通用架构 ArXiv ，abs/2107.14795，2021。2[18] Andrew Jaegle ， Felix Gimeno ， Andrew Brock ，Andrew Zis-serman，OriolVin yals，andJo aBazoCarreira.知觉：具有迭代注意力的一般在ICML，2021。2[19] Chao Jia ， Yinfei Yang ， Ye Xia ， Yi-Ting Chen ，Zarana Parekh ，Hieu Pham，Quoc V.Le ，Yun-HsuanSung，Zhen Li，and Tom Duerig.通过噪声文本监督扩展视觉和视觉语言在ICML，2021。2[20] Aishwarya Kamath ， Mannat Singh ， Yann LeCun ，Ishan M

下载后可阅读完整内容，剩余1页未读，立即下载