基于短语定位的语言-图像预训练模型及其在对象级别识别任务中的应用

172 浏览量更新于2023-10-25 收藏 14.76MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

109650基于短语定位的语言-图像预训练0Liunian Harold Li � 1 †，Pengchuan Zhang � 2 �，Haotian Zhang � 3 †，Jianwei Yang 2，Chunyuan Li 2，Yiwu Zhong 4 †，Lijuan Wang 5，Lu Yuan 5，Lei Zhang6，Jenq-Neng Hwang 3，Kai-Wei Chang 1，Jianfeng Gao 201 加州大学洛杉矶分校，2 微软研究院，3 华盛顿大学，4 威斯康星大学麦迪逊分校，5微软云与人工智能，6 国际数字经济学院0摘要0本文提出了一种基于短语定位的语言-图像预训练（GLIP）模型，用于学习对象级别、语言感知和语义丰富的视觉表示。GLIP将目标检测和短语定位统一起来进行预训练。这种统一带来了两个好处：1）它允许GLIP从检测和定位数据中学习，以改进两个任务并引导一个良好的定位模型；2）GLIP可以通过自训练的方式利用大量的图像-文本对生成定位框，使得学到的表示具有语义丰富性。在我们的实验中，我们使用2700万个定位数据对GLIP进行预训练，包括300万个人工注释和2400万个网络爬取的图像-文本对。学到的表示在各种对象级别识别任务中展示出强大的零样本和少样本可迁移性。1）在直接在COCO和LVIS上评估（在预训练期间未看到任何COCO图像）时，GLIP分别达到49.8 AP和26.9AP，超过许多监督基线。2）在COCO上进行微调后，GLIP在val上达到60.8 AP，在test-dev上达到61.5AP，超过了之前的最先进结果。3）当应用于13个下游目标检测任务时，1-shot GLIP与完全监督的DynamicHead相媲美。代码将在https://github.com/microsoft/GLIP上发布。01. 引言0通常，视觉识别模型被训练以预测一组固定的预定义对象类别，这限制了它们在现实世界应用中的可用性，因为需要额外的标记数据来推广到新的视觉概念和领域。CLIP[40]表明，可以通过大量的原始图像-文本对有效地学习基于图像级别的视觉表示。因为配对的文本包含比任何预定义概念更广泛的视觉概念。0� 三位作者贡献相等。� 通讯作者。† 在微软研究院实习时完成的工作。1COCO目标检测的监督基线：Faster-RCNN w/ResNet50（40.2）或ResNet101（42.0），以及DyHead w/Swin-Tiny（49.7）。0在预训练的CLIP模型中，池化后的特征非常丰富，可以轻松地在零样本设置中转移到下游的图像分类和文本-图像检索任务中。然而，为了获得对图像的细粒度理解，如许多任务所需，例如目标检测[31, 44]，分割[6,35]，人体姿态估计[49, 56]，场景理解[14, 25,57]，动作识别[17]，视觉-语言理解[7, 27-30, 36, 48, 50,63,65]，高度期望使用基于对象级别的视觉表示。在本文中，我们展示了短语定位是一种有效且可扩展的预训练任务，用于学习对象级别、语言感知和语义丰富的视觉表示，并提出了基于短语定位的语言-图像预训练（GLIP）方法。我们的方法将短语定位和目标检测任务统一起来，其中目标检测可以被看作是无上下文短语定位，而短语定位可以被视为上下文化的目标检测任务。我们的主要贡献如下。通过将目标检测重新定义为短语定位，统一了检测和定位。这种重新定义改变了检测模型的输入：它不仅接受图像作为输入，还接受描述检测任务中所有候选类别的文本提示作为输入2。例如，COCO目标检测[32]的文本提示是一个由80个短语组成的文本字符串，即80个COCO目标类别名称，由“.”连接，如图1（左）所示。任何目标检测模型都可以通过用单词-区域对齐分数（即区域（或框）视觉特征和标记（或短语）语言特征的点积）替换其框分类器中的对象分类logits，从而转换为定位模型，如图1（右）所示。语言特征是使用语言模型计算的，这使得新的检测（或定位）模型具有双编码器结构。与仅在最后的点积层中融合视觉和语言的CLIP不同[40]，我们展示了深度跨模态融合的重要性。0与典型的短语定位任务不同，文本提示中的短语在图像中可能不存在。...DyHead ModuleFusionBERTLayerAwoman...protectivegogglePersonBicycle...Hair#dryer.Person. Bicycle … Hairdryer.Visual EncoderTextEncoderDyHead ModuleFusionBERTLayer......O1O2O3ONPromptP1P2PM-1PM𝑂" # 𝑃" 𝑂" # 𝑃%…𝑂' # 𝑃(𝑂" # 𝑃()"𝑂' # 𝑃" 𝑂' # 𝑃%𝑂" # 𝑃(…𝑂% # 𝑃"𝑂* # 𝑃"𝑂% # 𝑃(…𝑂* # 𝑃(…𝑂+%,-𝑃,%+-𝑂+%,,𝑃,%+,𝑃-𝑂-…Two syringesA small vialvaccinethe viewplaya esmeraldabeautiful caribbean sea turquoiseTwo syringes2. Related Work109660一个女人拿着吹风机，戴着防护眼镜。0深度（融合0区域特征0单词-区域（0对齐分数0对齐0损失0定位/0损失0单词0特征0图1.检测和定位的统一框架。与传统的目标检测模型不同，该模型通过将每个区域/框与文本提示中的短语对齐，将检测任务重新定义为定位任务。GLIP同时训练图像编码器和语言编码器，以预测区域和单词的正确配对。我们还添加了跨模态的深度融合，以从两种模态中提前融合信息，并学习一个语言感知的视觉表示。0两支注射器和一个小瓶疫苗。0古巴霍尔金的普拉亚埃斯梅拉达。从海滩顶部的景色。美丽的加勒比海湾的绿松石色。0图2.GLIP的定位预测。GLIP可以定位罕见的实体、带属性的短语，甚至抽象的词语。0如图1（中）所示，由GLIP生成的定位预测对于学习高质量的语言感知视觉表示和实现卓越的迁移学习性能至关重要。检测和定位的统一也使我们能够使用两种类型的数据进行预训练，并使两个任务都受益。在检测方面，由于定位数据的存在，视觉概念的池显著丰富。在定位方面，检测数据引入了更多的边界框注释，并有助于训练新的SoTA短语定位模型。通过大规模的图像-文本配对数据扩大视觉概念。在拥有良好的定位模型（教师模型）的情况下，我们可以通过自动生成大规模的图像-文本配对数据的定位框来增强GLIP的预训练数据，其中名词短语由NLP解析器检测出来[2]。因此，我们可以在包括300万人工注释的细粒度数据和2400万网络爬取的图像-文本对的2700万个定位数据上预训练我们的GLIP-Large模型（GLIP-L）。对于2400万个图像-文本对，有7810万个高置信度（>0.5）的短语框伪注释，其中有5840万个唯一的名词短语。我们在图2中展示了生成的框的两个真实例子。教师模型可以准确地定位一些可能难以理解的概念，如注射器、疫苗、美丽的加勒比海湾的绿松石色，甚至抽象的词语（景色）。与此相反，之前的工作在扩大检测数据方面简单地无法预测教师模型预定义词汇表之外的概念[68]。在这项研究中，我们展示了这种简单的扩大定位数据的策略在实践中是有效的，对LVIS和13个下游检测任务带来了很大的改进，特别是对于罕见的类别（第4.2节和第5节）。当在COCO上对预训练的GLIP-L模型进行微调时，它在AP上达到了60.8。0COCO2017验证集上达到了61.5的性能，在测试集上超过了当前公开的SoTA模型[9,58]，这些模型采用了各种方法扩大目标检测数据规模。GLIP的迁移学习：一个模型适用于所有任务。基于语义的重构和语义丰富的预训练有助于领域迁移。GLIP可以在几乎没有或没有额外的人工注释的情况下迁移到各种任务上。当GLIP-L模型在COCO和LVIS数据集上直接评估（在预训练期间没有看到COCO的任何图像），它分别在COCOval2017和LVISval上达到了49.8和26.9的AP，超过了许多有监督的基线模型。在评估13个现有的目标检测数据集时，涵盖了包括细粒度物种检测、无人机视角检测和自我中心检测在内的各种场景，我们将其称为“野外目标检测”（ODinW）（第5.1节），GLIP表现出了出色的数据效率。例如，一个零样本的GLIP-L模型胜过了一个在Objects365上预训练的10样本有监督基线模型（DynamicHead），而一个1样本的GLIP-L模型与一个完全有监督的DynamicHead相媲美。此外，当任务特定的注释可用时，可以只调整任务特定的提示嵌入，而保持模型参数不变，而不是调整整个模型。在这种提示调整设置下（第5.2节），一个GLIP模型可以同时在所有下游任务上表现良好，从而降低微调和部署成本。0tains no more than 2,000 object classes.Such human-annotated data are costly to scale up. GLIP presents anaffordable solution by reformulating object detection as aphrase grounding (word-to-region matching) problem, andthus enables the use of grounding and massive image-text-paired data. Though our current implementation is builtupon Dynamic Head (DyHead) [9], our unified formula-tion can be generalized to any object detection systems[4,5,8,9,9,31,43,44,67].Recently, there is a trend to develop vision-and-languageapproaches to visual recognition problems, where visionmodels are trained with free-form language supervision.For example, CLIP [40] and ALIGN [18] perform cross-modal contrastive learning on hundreds or thousands of mil-lions of image-text pairs and can directly perform open-vocabulary image classification. By distilling the knowl-edge from the CLIP/ALIGN model into a two-stage detec-tor, ViLD [12] is proposed to advance zero-shot object de-tection. Alternatively, MDETR [19] trains an end-to-endmodel on existing multi-modal datasets which have explicitalignment between phrases in text and objects in image. OurGLIP inherits the semantic-rich and language-aware prop-erty of this line of research, achieves SoTA object detectionperformance and significantly improves the transferabilityto downstream detection tasks.This paper focuses on domain transfer for object detec-tion. The goal is to build one pre-trained model that seam-lessly transfers to various tasks and domains, in a zero-shotor few-shot manner. Our setting differs from zero-shot de-tection [1,12,41,42,61,66], where some categories are de-fined as unseen/rare and not present in the training set. Weexpect GLIP to perform well on rare categories (Section4.2) but we do not explicitly exclude any categories fromour training set, because grounding data are so semanti-cally rich that we expect them to cover many rare categories.This resembles the setting in open-vocabulary object detec-tion [61], which expects raw image-text data to cover manyrare categories. Beyond performance on rare categories, wealso consider the transfer cost in real-world scenarios, i.e.,how to achieve the best performance with the least amountof data, training budget, and deployment cost (Section 5).1096703. 图像预训练的语言基础0从概念上讲，目标检测和短语定位有很大的相似性。它们都试图定位对象并将其与语义概念对齐。这种协同作用激发了我们将经典的目标检测任务转化为定位问题并提出统一公式（第3.1节）。我们进一步提出在图像和文本之间添加深度融合，使得检测模型具有语言感知能力，从而成为一个强大的定位模型（第3.2节）。通过重新定义和深度融合，我们可以在具有可扩展性和语义丰富的定位数据上预训练GLIP（第3.3节）。03.1. 统一公式0背景：目标检测。一个典型的检测模型将输入图像输入到视觉编码器Enc I中，使用CNN [15, 51]或Transformer [34,60,62]作为主干，并提取区域/框特征O，如图1（底部）所示。每个区域/框特征被输入到两个预测头中，即一个框分类器C和一个框回归器R，分别使用分类损失L cls 和定位损失L loc进行训练：0L = L cls + L loc. (1)0在两阶段检测器中，使用单独的区域建议网络（RPN）和RPN损失L rpn 来区分前景和背景并优化锚点。由于L rpn不使用目标类别的语义信息，我们将其合并到定位损失L loc中。在一阶段检测器中，定位损失L loc也可能包含中心损失[52]。框分类器C通常是一个简单的线性层，分类损失L cls 可以表示为：0O = Enc I（Img），S cls = OW T，L cls = loss（S0这里，3，O ∈ RN×d是输入图像的对象/区域/框特征，W∈ Rc×d是框分类器C的权重矩阵，S cls ∈RN×c是输出的分类logits，T ∈ {0,1}N×c是从经典的多对一匹配[8, 31, 43,44]或二分匈牙利匹配[4, 9,67]计算的区域和类别之间的目标匹配。loss（S；T）通常是两阶段检测器的交叉熵损失，对于一阶段检测器是焦点损失[31]。将目标检测作为短语对齐任务。我们通过将每个区域/框分类为c个类别来将检测重新定义为短语对齐任务，通过将每个区域与文本提示中的c个短语进行对齐/匹配（见图1）。如何为检测任务设计文本提示？给定对象类别[人，自行车，汽车，...，牙刷]，一种简单的方法是0Prompt = “检测：人，自行车，汽车，...，牙刷”，0其中每个类别名称都是要对齐的候选短语。可以通过提供更具表达力的类别描述和/或利用预训练语言模型的偏好来设计更好的提示。例如，当使用预训练的BERT模型[10]来初始化我们的语言编码器Enc L时，提示“person. bicycle. car.... .toothbrush”比上述更人性化的提示效果更好。我们将在第5.2节中讨论提示设计。在对齐模型中，我们计算图像区域和提示中的单词之间的对齐分数S ground：0O = Enc I（Img），P = Enc L（Prompt），S ground = OP�，（3）0这里，3N是区域/框特征的数量，d是视觉特征的隐藏维度，c是对象类别的数量，为简单起见，我们忽略了框分类器中的偏差。109680其中，P ∈RM×d是来自语言编码器的上下文词/标记特征，类似于(2)中的权重矩阵W，如图1（右）所示。由图像编码器Enc I和语言编码器Enc L组成的基础模型通过最小化（1）和（2）中定义的损失进行端到端训练，将分类logits Scls（在（2）中）简单替换为区域-词对齐分数Sground（在（3）中）。然而，在（2）中，我们现在有logits S ground ∈RN×M和目标T ∈ {0,1}N×c。由于以下四个原因，（子）词标记M的数量始终大于文本提示中短语c的数量：1）某些短语包含多个词，例如“红绿灯”；2）某些单词短语被分割为多个（子）词标记，例如“牙刷”变为“tooth#”和“#brush”；3）某些是添加的标记，例如“Detect:”、“,”、语言模型中的特殊标记，以及4）在标记序列的末尾添加了一个[NoObj]标记。当损失是（焦点）二元sigmoid损失（我们在第4和5节中使用的损失）时，我们将原始目标矩阵T ∈ {0, 1}N×c扩展为T' ∈ {0,1}N×M，如果短语是正匹配，则使所有子词为正匹配，如果是添加的标记，则为所有图像特征为负匹配。通过这个改变，损失（Sground；T'）保持不变。在推理过程中，我们将标记概率平均作为短语概率。40检测和对齐之间的等价性。通过上述重新定义，我们可以将任何检测模型转换为对齐模型，并且在训练和推理中，这两个视图，即检测和对齐，在理论上是等价的。我们还通过实验证实了这一点：SoTA的DyHead检测器[9]使用Swin-Tiny骨干网络在COCOval2017上在我们的重新定义之前和之后具有相同的性能。有关讨论，请参阅附录。通过重新定义，预训练的短语对齐模型可以直接应用于任何对象检测任务，这得益于语言编码器的自由输入。这使得我们的GLIP模型可以以零样本的方式转移到任意检测任务。相关工作。我们的对齐形式受到MDETR[19]的启发，我们的对齐损失与MDETR的细粒度对比损失具有相同的精神。我们进一步超越了MDETR，通过找到一种有效的方法将检测重新定义为对齐，并为检测和对齐任务提供了一个简单的统一损失。我们的对齐模型也类似于零样本检测的模型[1, 12, 41, 42,66]。Bansal等人的开创性工作[1]使得检测模型能够进行零样本检测，通过使用预训练的Glove词嵌入[38]作为短语特征P ∈ Rc×d，如果以（3）的形式书写。最近，短语0当损失为多类交叉熵（CE）损失时，根据MDETR[19]的方法，所有没有正匹配的边界框提议都与[NoObj]标记匹配。损失（S，T'）变为多标签多类CE损失，在推断过程中，我们将标记概率求和作为短语概率。0在开放词汇检测中引入了从预训练的深度语言模型中提取的特征[61]。GLIP与零样本检测的不同之处在于GLIP提供了检测和定位的统一视角，并且实现了两个关键要素，即语言感知深度融合和使用图像文本数据进行扩展，如下所述。03.2. 语言感知深度融合0在（3）中，图像和文本由分别的编码器进行编码，并且仅在最后融合以计算对齐分数。我们将这样的模型称为“后期融合”模型。在视觉-语言文献中[7, 19, 27, 28, 30, 36, 48,50,65]，必须进行视觉和语言特征的深度融合才能学习到一个性能良好的短语定位模型。我们引入了图像和语言编码器之间的深度融合，它在最后几个编码层中融合图像和文本信息，如图1（中）所示。具体而言，当我们使用DyHead[9]作为图像编码器和BERT[10]作为文本编码器时，深度融合编码器为：0O i t2i，P i i2t = X-MHA（O i，P i），i∈{0，1，..，L−1}（4）0O i +1 = DyHeadModule（O i + O i t2i），O = OL，（5）0P i +1 = BERTLayer（P i + P i i2t），P = PL，（6）0其中L是DyHead[9]中的DyHeadModule的数量，BERTLayer是在预训练的BERT之上新增的BERT层，O0表示来自视觉骨干的视觉特征，P0表示来自语言骨干（BERT）的标记特征。通过跨模态多头注意力模块（X-MHA）（4）实现了跨模态通信，然后进行单模态融合，并在（5）和（6）中进行更新。如果没有上下文向量（O i t2i用于视觉模态和P ii2t用于语言模态），模型将变为“后期融合”模型。在跨模态多头注意力模块（X-MHA）（4）中，每个头通过关注另一个模态来计算一个模态的上下文向量：0O（q）=OW（q，I），P（q）=PW（q，L），Attn=O（q）（P（q））�/√0d，0P（v）=PW（v，L），O t2i = SoftMax（Attn）P（v）W（out，I），0O（v）=OW（v，I），P i2t = SoftMax（Attn �）O（v）W（out，L），0其中{W（symbol，I），W（symbol，L）：symbol∈{q，v，out}}是可训练的参数，类似于Multi-HeadSelf-Attention[53]中的查询、值和输出线性层的作用。深度融合编码器（4）-（6）带来了两个好处。1）它提高了短语定位的性能。2）它使学习到的视觉特征具有语言感知能力，因此模型的预测是基于文本提示的。这对于实现一个模型服务于所有下游检测任务的目标至关重要（见第5.2节）。1096903.3. 使用可扩展的语义丰富数据进行预训练0大量的工作已经致力于收集语义丰富且数量庞大的检测数据。然而，人工注释被证明是昂贵且有限的[13,25]。先前的工作试图以自我训练的方式进行扩展[68]。他们使用一个教师模型（一个预训练的检测器）从原始图像中预测边界框，并生成伪检测标签来训练一个学生模型。但是生成的数据在概念池的大小方面仍然有限，因为教师模型只能预测在概念池中定义的标签，而该概念池是基于现有数据集构建的。相比之下，我们的模型可以在检测数据和更重要的定位数据上进行训练。我们展示了定位数据可以提供丰富的语义以促进定位，并且可以以自我训练的方式进行扩展。首先，黄金定位数据涵盖了比现有检测数据更大的视觉概念词汇。迄今为止，扩展检测词汇的最大尝试仍然只涵盖不超过2,000个类别[13,23]。通过定位数据，我们将词汇扩展到几乎包含在定位字幕中出现的任何概念。例如，Flickr30K[39]包含44,518个唯一短语，而VGCaption[23]包含110,689个唯一短语，词汇量比检测数据大几个数量级。我们在第4.4节中提供了一个实证研究，以表明0.8M的黄金定位数据对于检测罕见类别的改进要比额外的2M检测数据更大。此外，我们展示了一种获得语义丰富数据的有希望途径：扩展定位数据。我们采用了一个受自我训练启发的简单方法。我们首先使用黄金（人工注释的）检测和定位数据对教师模型GLIP进行预训练。然后，我们使用这个教师模型对网络收集的图像文本数据进行边界框预测，其中名词短语由NLP解析器[2]检测到。最后，我们使用黄金数据和生成的伪定位数据训练一个学生模型。如图2所示，教师模型能够为语义丰富的实体生成准确的边界框。为什么学生模型可能胜过教师模型？虽然自我训练文献中的讨论仍然活跃[68]，但在视觉定位的背景下，我们认为教师模型利用了语言上下文和语言泛化能力来准确地定位可能本身不知道的概念。例如，在图2中，如果黄金数据中没有出现某些概念，如疫苗和绿松石，教师模型可能无法直接识别。然而，丰富的语言上下文，如句法结构，可以为教师模型提供强大的指导，进行“有根据的猜测”。如果模型可以定位一个小的面纱，它可以定位疫苗；如果它可以找到加勒比海，它可以定位绿松石。当我们训练学生模型时，教师模型的“有根据的猜测”成为“监督信号”，使学生模型能够超越教师模型。0模型学习疫苗和绿松石的概念。04. 迁移到已建立的基准0在预训练之后，GLIP可以轻松应用于基于语言的定位和检测任务。我们在三个已建立的基准上展示了强大的直接领域迁移性能：1）包含80个常见物体类别的MS-COCO物体检测（COCO）[32]；2）涵盖1000多个物体类别的LVIS[13]；3）用于短语定位的Flickr30K[39]。我们训练了5个GLIP的变体（表1）来削弱其三个核心技术：1）统一的定位损失；2）语言感知的深度融合；3）以及同时使用两种类型数据的预训练。实现细节在附录中。GLIP-T (A)基于SoTA检测模型Dynamic Head[9]，我们用我们的词-区域对齐损失替换了分类损失。它基于Swin-Tiny骨干，并在O365（Objects365[45]）上进行了预训练，其中包含0.66M张图像和365个类别。如第3.1节所讨论的，该模型可以被视为一个强大的经典零样本检测模型[1]，完全依赖于语言编码器来推广到新的概念。GLIP-T(B)增加了语言感知的深度融合，但仅在O365上进行了预训练。GLIP-T(C)在1）O365和2）GoldG上进行了预训练，GoldG是由MDETR[19]策划的0.8M人工标注的黄金定位数据集，包括Flickr30K、VG Caption [23]和GQA[16]。我们已从数据集中删除了COCO图像。它旨在验证黄金定位数据的有效性。GLIP-T基于Swin-Tiny骨干，并在以下数据上进行了预训练：1）O365，2）与GLIP-T(C)相同的GoldG，以及3）Cap4M，由GLIP-T(C)生成的带有框的400万图像-文本对。我们还尝试了现有的图像字幕数据集：CC（带有300万数据的概念字幕）[46]和SBU（带有100万数据的数据）[37]。我们发现CC+SBUGLIP-T在COCO上的表现略好于Cap4MGLIP-T，但在其他数据集上略差。为简单起见，我们在COCO上报告了两个版本，但在其他任务上只报告了Cap4M模型。我们在附录中呈现了完整的结果。GLIP-L基于Swin-Large，并使用以下数据进行训练：1）FourODs（2.66M数据），包括Objects365、OpenImages [22]、VisualGenome（不包括COCO图像）[23]和ImageNetBoxes[24]的4个检测数据集；2）与GLIP-T(C)相同的GoldG；以及3）CC12M+SBU，从网络上收集的2400万图像-文本数据，并生成了框。04.1. COCO上的零样本和有监督迁移0我们在MS-COCO上进行实验，评估模型对常见类别的迁移能力。我们在两种设置下进行评估：1）零样本领域迁移，和2）有监督迁移，其中我们使用标准设置对预训练模型进行微调。对于微调设置，我们还测试了GLIP-L模型的性能，其中GLIP-T (A)Swin-T✗Objects365--GLIP-T (B)Swin-T✓Objects365--GLIP-T (C)Swin-T✓Objects365GoldG-GLIP-TSwin-T✓Objects365GoldGCap4MGLIP-LSwin-L✓FourODsGoldGCap24MevFaster RCNNRN50-FPN--40.2 / -Faster RCNNRN101-FPN--42.0 / -DyHead-T [9]Swin-T--49.7 / -DyHead-L [9]Swin-L--58.4 / 58.7DyHead-L [9]Swin-LO365,ImageNet21K-60.3 / 60.6DyHead-TSwin-TO36543.653.3 / -GLIP-T (A)Swin-TO36542.952.9 / -GLIP-T (B)Swin-TO36544.953.8 / -GLIP-T (C)Swin-TO365,GoldG46.755.1 / -GLIP-TSwin-TO365,GoldG,Cap4M46.354.9 / -GLIP-TSwin-TO365,GoldG,CC3M,SBU46.655.2 / -GLIP-LSwin-LFourODs,GoldG,Cap24M49.860.8 / 61.0GLIP-LSwin-LFourODs,GoldG+,COCO-- / 61.5CO.canvisedderssesfAPMDETR [19]RN10120.924.924.324.2----MaskRCNN [19]RN10126.334.033.933.3----Supervised-RFS [13]RN50----12.324.332.425.4GLIP-T (A)Swin-T14.213.923.418.56.08.019.412.3GLIP-T (B)Swin-T13.512.822.217.84.27.618.611.3GLIP-T (C)Swin-T17.719.531.024.97.511.626.116.5GLIP-TSwin-T20.821.431.026.010.112.525.517.2GLIP-LSwin-L28.234.341.537.317.123.335.426.9R@101MDETR-RN101GoldG+82.592.994.983.493.595.32MDETR-ENB5GoldG+83.693.495.184.393.995.83GLIP-TGoldG84.095.196.884.495.397.04O365,GoldG84.894.996.385.595.496.65O365,GoldG,Cap4M85.795.496.985.795.897.26GLIP-LFourODs,GoldG,Cap24M86.796.497.987.196.998.1ties..109700模型骨干深度融合预训练数据0检测定位字幕0表1. GLIP模型变体的详细列表。0模型骨干预训练数据零样本微调0软教师 [ 58 ] Swin-L O365,SS-COCO - 60.7 / 61.30表2.在COCO上的零样本领域迁移和微调。GLIP在没有看到COCO数据集的情况下，可以达到与之前的有监督模型相当或更好的性能（例如，零样本下的GLIP-T与微调下的FasterRCNN）。当在COCO上进行完全微调时，GLIP-L超过了SoTA的性能。0我们在预训练数据中包含了COCO图像（最后一行）。具体而言，我们将完整的GoldG+grounding数据和COCOtrain2017添加到了预训练数据中。需要注意的是，COCO2017val图像的一部分包含在GoldG+中。因此，我们只报告了该模型的test-dev性能。更多细节请参见附录。0我们引入了一个额外的基准：在Objects365上预训练的DyHead模型。我们发现COCO的80个类别在Objects365中完全覆盖。因此，我们可以以“零样本”的方式评估在Objects365上训练的DyHead模型：在推断过程中，我们限制模型只能从COCO的80个类别中进行预测。我们列出了标准的COCO检测模型供参考。我们还列出了两个使用额外数据预训练的最新模型。0结果见表2。总体而言，GLIP模型在零样本和有监督的性能上表现出色。零样本的GLIP模型与或超过了已建立的有监督模型。最好的GLIP-T达到了46.7的AP，超过了FasterRCNN；GLIP-L达到了49.8的AP，超过了DyHead-T。在有监督的设置下，最好的GLIP-T相对于标准的DyHead提高了5.5的AP（55.2对比49.7）。使用Swin-Large骨干网络，GLIP-L在COCO上超过了当前的SoTA，在2017val上达到了60.8，在test-dev上达到了61.5，而没有使用之前SoTA中的一些技巧，如模型EMA、mix-up、标签平滑或soft-NMS。0模型骨干网络 MiniVal [ 19 ] Val v1.00表3.零样本领域迁移到LVIS。在没有LVIS数据的情况下，GLIP-T/L优于强有监督的基线模型（灰色显示）。基于grounding的数据（包括gold和自监督）显著提高了APr。0行模型数据 Val 测试0表4. 在Flickr30K实体上的短语grounding性能。GLIP-L在testR@1上超过了之前的SoTA 2.8个点。04.2. 在LVIS上的零样本迁移0我们在LVIS上以零样本的方式评估模型对各种罕见对象的识别能力。我们报告了MDETR中引入的包含5,000张图像的MiniVal以及完整的验证集v1.0的结果。更多评估细节请参见附录。结果见表3。我们列出了三个在LVIS的标注数据上训练的有监督模型。GLIP在所有类别上都表现出强大的零样本性能。GLIP-T与有监督的MDETR相当，而GLIP-L则大幅超过了Supervised-RFS。使用grounding数据的好处是明显的。Goldgrounding数据使MiniVal的APr提高了4.2个点（模型C对比模型B）。添加图像文本数据进一步提高了3.1个点的性能。我们得出结论，grounding数据的语义丰富性显著帮助模型识别罕见对象。04.3. 在Flickr30K实体上的短语定位0我们在Flickr30K实体上评估了模型在自然语言中定位实体的能力[39]。Flickr30K包含在金标定位数据中，因此我们直接按照MDETR的方式评估模型。我们使用MDETR中指定的任意框协议。结果见表4。我们评估了GLIP的三个版本，使用不同的预训练数据。我们列出了MDETR的性能，即SoTA的定位模型。MDETR是在GoldG+上训练的，包含了130万个数据（GoldG是GoldG+的子集，不包括COCO图像）。GLIP-T与GoldG（第3行）达到了类似的性能。109710行预训练数据 COCO LVIS MiniVal02017val APr APc APf AP01 VG w/o COCO 26.9 4.9 10.4 23.2 16.1 2 + GoldG 29.2 7.8 14.0 24.518.503 OpenImages 29.9 12.8 12.1 17.8 14.9 4 + GoldG 33.6 15.2 16.9 24.520.405 O365 44.9 13.5 12.8 22.2 17.8 6 +GoldG 46.7 17.7 19.5 31.0 24.907 O365,GoldG,Cap4M 46.3 20.8 21.4 31.0 26.008 FourODs 46.3 15.0 22.5 32.8 26.80表5. 不同检测数据的影响。0与GoldG+相比，GLIP的性能优于MDETR，可能是

下载后可阅读完整内容，剩余1页未读，立即下载