RegionCLIP：区域级的语言图像预训练

5 浏览量更新于2023-10-25 收藏 1.05MB PDF 举报

图像分类

区域分类

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

16793CLIP识别的裁剪图像区域图像分类（ImageNet）区域分类（LVIS）一BC“A boy is flying a图文匹配（剪辑）区域文本匹配（我们的）男孩，65%“A photo of a“A bad photo of a“A photo of oneRegionCLIP：基于区域的语言图像预训练钟毅武1*，杨建伟2，张鹏川2，李春元2，诺埃尔·科德尔3，李柳年4，周罗伟3，戴喜阳3，陆远3，李银1，高剑锋21威斯康星大学麦迪逊分校，2微软研究院，3微软云+ AI，4加州大学洛杉矶分校{yzhong52，yin.li}@ wisc.edu，{jianwei.yang，penzhan，chunyl，ncodella，luozhou，xidai，luyuan，jfgao}@ microsoft.com，{liunian.harold.li}@cs.ucla.edu摘要使用图像-文本对的对比语言-图像预训练（CLIP）在零拍摄和迁移学习集上都取得了令人印象深刻的图像分类结果。然而，我们表明，直接应用这些模型来识别图像区域进行对象检测会导致由于主要的域偏移而导致性能不令人满意：CLIP被训练为将图像作为一个整体与文本描述进行匹配，而不捕获图像区域和文本跨度之间的细粒度对齐。为了缓解这个问题，我们提出了一种新的方法，称为RegionCLIP，显着扩展CLIP学习区域级的视觉表示，从而使图像区域和文本概念之间的细粒度对齐。我们的方法利用CLIP模型来匹配图像区域与模板标题，然后预训练我们的模型，以在特征空间中对齐这些区域-文本对。当将我们的预训练模型转移到开放词汇对象检测任务时，我们的方法在COCO和LVIS数据集上的新类别分别比现有技术高出3.8 AP50和2.2 AP。此外，学习的区域表示支持用于对象检测的零射击推理，在COCO和LVIS数据集上显示出良好的结果。我们的代码可在https://github.com/microsoft/RegionCLIP上获得。1. 介绍视觉语言表征学习的最新进展创造了显着的模型，如CLIP [37]，ALIGN [26]和Florence [59]。这些模型使用数亿个图像-文本对进行训练，通过将图像与它们的标题进行匹配，实现了在没有手动标签的情况下识别大量概念的令人印象深刻的结果，并且能够转移到许多视觉识别任务。随着他们在图像分类上的成功，一个自然的问题是这些模型是否可以用于推理*在微软研究院实习。男孩，55%准确度（%）59.619.1图像区域图1. （一）.预训练的CLIP模型[37]未能捕获本地化质量。（b）.当使用相同的预训练CLIP对图像区域进行分类时，准确性会大幅下降。（c）。我们的核心思想是学习匹配图像区域及其文本描述。关于图像区域，例如， for tasks 任务 like object 对象detection检测.为了回答这个问题，我们使用预训练的CLIP模型构建了一个简单的R-CNN风格[16]对象检测器，类似于在ImageNet上预训练的卷积网络。该检测器从输入图像中裁剪候选对象区域，并通过将裁剪区域的视觉特征与对象类别的文本嵌入相匹配来应用CLIP模型进行检测。图1（a-b）显示了LVIS数据集的结果[19]。当使用对象propos- als [42]作为输入区域时，CLIP的分数通常无法捕获定位质量（图1）。1a）。即使使用地面实况对象框，使用CLIP的分类准确率也从ImageNet上的60%显着下降到LVIS上的19%，类的数量相似（图2）。（见第1b段）。因此，当将预训练的CLIP模型应用于对象检测时，存在主要的性能下降。我们如何使视觉语言预训练模型能够推理图像区域？我们认为主要的差距在于这些视觉语言模型的训练。许多现有的视觉语言16794包括CLIP在内的模型被训练成将图像与其图像级文本描述相匹配训练不知道局部图像区域和文本标记之间的对准。因此，模型不能将文本概念精确地接地到图像区域。此外，裁剪局部图像区域并将其与文本标记进行匹配在很大程度上忽略了对对象识别至关重要的周围视觉上下文，更不用说高计算成本，例如，在现代GPU上每幅图像几秒钟。在本文中，我们探索通过视觉语言预训练学习区域表示我们的关键思想是在预训练过程中显式地对齐图像区域和文本。然而，出现了两个关键挑战首先，图像区域和文本标记之间的细粒度对齐在图像-文本对中不可用，并且注释起来很昂贵。第二，图像的文字描述往往是不完整的，即文字描述的不完整性.许多图像区域没有被文本描述。为了解决这些挑战，我们建议从预训练的视觉语言模型引导，以对齐图像区域和文本标记，并填充缺失的区域描述，如图所示。1c.具体地说，我们的方法从文本语料库中解析出的对象概念池开始，通过将这些概念填充到预定义的模板中来给定来自对象提议或密集滑动窗口的输入图像及其候选区域此外，我们结合“伪”区域-文本对和地面真实图像-文本对，通过对比学习和知识蒸馏来预训练我们的视觉-语言模型。虽然我们在图像字幕数据集上预训练RegionCLIP模型（例如，概念说明[45]），并主要在开放词汇对象检测的基准（COCO [32]和LVIS [19]数据集）上评估我们的方法。当转移到开放词汇对象检测时，我们的预训练模型在COCO和LVIS上建立了新的最新技术水平（SoTA）。例如，对于COCO和LVIS上的新类别，我们的方法优于以前的方法[18，60]至少3.8 AP50和2.2AP。此外，我们的模型支持零杆推理，并以明显的优势优于一组强基线。我们的贡献总结如下：（1）我们提出了一种新的方法，该方法无需手动注释即可对齐图像区域及其文本描述，从而实现视觉语言预训练以学习视觉区域表示。(2)促进我们预训练的一个关键技术创新是一种可扩展的方法，使用文本提示将对象描述与图像区域对齐而不依赖于人的注释，也不限于与图像配对的(3)我们的预训练模型在转移到开放词汇对象检测时表现出很强的结果，并在对象检测的零触发推理方面表现出很有前途的能力。2. 相关工作图像的表示学习。视觉表示学习的早期工作集中在使用劳动密集型人工注释训练图像分类模型[13，22，30，46，50]。学习的特征可以转移到识别任务[16]，分类器可以用于标记图像进行半监督学习[36，55，57]。为了减少注释负担，自监督学习[5，6，17，20]最近受到了相当大的关注最相关的工作是从自然语言中学习视觉表示，例如图像标签[3，8，12，25，28]和文本描述[11，23，43，53，62]。利用从互联网上收集的数百万个图像-文本对，视觉语言预训练[26，37]的最新方法学会了将图像与文本描述进行匹配，并在零拍摄推理和图像分类的迁移学习方面表现出令人印象深刻的性能。然而，这些作品集中在全球表示量身定制的图像分类。在本文中，我们提出学习局部图像区域的视觉表示，以实现基于区域推理的零拍推理和迁移学习（例如，对象检测）。图像区域的表示学习。许多基于区域的推理任务，例如对象检测[4，41，42，52]，依赖于密集的人类注释[14，19，29，32]。再-最近，半监督学习被探索[48，56，66]，其中预训练的检测器用于创建图像区域的伪标签。除了对象标签之外，区域表示学习还受益于对象属性的附加标签[1，29，61]，在以下方面显示出明显的改进：视觉语言任务[9，31，33，51，58，63]。然而，这些工作严重依赖于手动注释，并限于预定义的类别。作为部分补救措施，自我监督学习被扩展到区域表示[24，40]。受CLIP [37]的启发，但与先前的作品不同，我们提出通过视觉语言预训练来学习区域表示我们学习的表示使图像区域内的许多视觉概念的零拍摄和开放词汇的对象检测。零拍摄对象检测旨在检测在检测器训练期间未看到的新对象类别[2，18，38，39，60，65]。Bansal等人[2]学习使用最大边距损失将裁剪图像区域的视觉特征与单词嵌入相匹配[35]。Rahman等人[38]提出了极性损失模型背景类别和聚类类别具有相似的语义。Zhu等[65]探索通过合成来提高新类别的本地化性能16795图像图像区域RPN提案…………“People放风筝”“人们从公共汽车旁VtV…猫甜甜圈沙发…班级图片用类名填充的提示“A photo of…“A photo of…“A boy“AV图像描述“A…“People…区域说明“A photo of…“A paint of…LLL…（人类标签）CLIP引导的区域文本对齐…CLIP语言编码器概念池男孩，巡航，风筝，披萨盒，巴士…从图文语料库中区域说明男孩的照片…填写多个画一个男孩。Vt“boy”CLIP视频编码器提示……巴士的照片…一辆巴士的油漆。L……“巴士”“巡航”我们的视觉编码器概念蒸馏用于对比学习的LLVVLVVLVtV1. 图文预训练（CLIP）2.区域文本预培训（我们的）3.检测迁移学习（我们的）图2.方法概述。我们建议通过视觉语言预训练来学习图像区域的视觉表示。面板1：通过对比学习，CLIP能够匹配图像及其描述。面板2：由预训练的CLIP初始化，我们的视觉编码器从创建的区域-文本对中学习视觉区域表示具体来说，如底行所示，我们首先通过使用从图像描述中解析的对象概念填充提示来创建文本，然后使用预训练的CLIP来对齐这些文本和RPN提出的图像区域。面板3：当图像区域的人类注释可用时，我们将我们的视觉编码器转移到对象检测。视觉特征与生成模型。最近，Zareianet al. [60]提出了用于开放词汇对象检测的OVR，其中视觉编码器首先在图像-文本对上进行预训练以学习对象概念，然后转移到零拍摄对象检测设置。另一个近距离工作是ViLD [18]，它专注于通过从预训练的CLIP模型[37]中提取视觉特征来学习对象检测器，但仍然需要对象标签和框进行训练。与OVR和ViLD类似，我们的检测器也利用了从视觉语言预训练中学习到的视觉语义空间。与OVR不同，我们建议从预训练的CLIP模型给出的“伪”区域-文本对中学习区域区域表示。因此，我们的方法不限于现有的文本描述的图像。与ViLD不同，我们的工作解决了区域表示学习的问题，并专注于区域文本对的预训练因此，我们的学习表示支持零杆推理，而ViLD不能。3. 基于区域的语言图像预训练我们的目标是学习一个区域的视觉语义空间，涵盖丰富的对象概念，使它可以用于开放词汇对象检测。考虑描述图像I中的区域r的内容的文本描述t。在视觉语义空间中，从r提取的视觉区域表示V（I，r）应该与文本表示L（t）匹配。V是一个视觉编码器，它获取图像I，区域位置R，并输出该区域的可视表示。是将自然语言中的文本描述转换为语义表示的语言编码器。识别和定位的分离。基于区域的推理有两个关键组成部分：本地化和识别。受[47]的启发，我们解开这两个组件，使用现有的区域定位器，并考虑识别问题。因此，我们的重点是学习视觉语义空间来识别没有人类注释的图像区域。方法概述。如图2，我们将t和表示为预先训练的视觉和语言编码器，以将图像与其描述相匹配，例如CLIP。我们的目标是训练一个视觉编码器，使它能够编码图像区域，并将它们与语言编码器编码的区域描述相匹配。为了解决缺失区域去重的挑战，如图1底部所示2、构建对象概念池，通过将概念填充到提示中来创建区域描述，并利用教师编码器将这些文本描述与图像区域定位器提出的图像区域给定创建的区域-文本对，我们的视觉编码器通过对比学习和概念蒸馏来学习匹配这些对。一旦预训练，我们的模型支持零杆推理的区域识别，并可以转移到训练对象检测器时，人类注释可用。我们现在描述区域级别的视觉和语义表示，………16796V--RiIkNL我我LV我V我L=−log（p（v，l）），（2）1Σp（vi，lm）=exp（S（vi，lm）/τ）图像区域和文本描述之间的对齐。3.1. 视觉和语义区域表示然后通过下式计算概念嵌入Lj：vT· l（一）S（v，l）=.||v||·||L||视觉区域表示。图像区域可以由现成的对象定位器（例如，RPN [42]）或密集滑动窗口。默认情况下，我们使用在没有对象标签的人类注释对象边界框上预训练的我们使用RPN来提出图像区域并获得N个图像区域，表示为{ri}i=1，.，N.给定所提出的区域，区域ri的视觉表示vi是使用特征池化方法（例如RoIAlign [21]）从我们的视觉编码器中提取的。RoIAlign通过使用插值从完整图像的特征图中汇集区域视觉特征我们注意到，我们的视觉编码器V由教师Vt初始化，使得它可以具有选择具有最高匹配分数的对象概念（表示为lm）并将其链接到区域ri。最后，我们获得每个区域的伪标签，形成{vi，lm}对。我们的预训练计划。我们的预训练利用了创建的区域-文本对和现有的图像-文本对。Given the aligned region-text pairs (vi, lm),we designa contrastive and adistillation loss based on the regions across differentimages to pretrain our visual encoder.受[34]的启发，对比损失计算为：1cntrstNi m i视觉语义空间的良好起点。语义区域表示。单个图像通常包含丰富的语义，涵盖来自数千个类别的一个或多个对象。在大规模的图文数据集上对这些类别进行标注的成本很高为此，我们首先建立一个大型概念库，以详尽地涵盖区域概念。如图1的底部所示。2、我们创建一个对象概念池，这些概念是从文本语料库中解析出来的（例如，从互联网收集的图像描述），通过使用现成的语言解析器[27，44]。给定概念池，区域的语义表示通过两个步骤创建：（1）通过将每个概念的短句填充到提示模板（例如，CLIP [37]的提示），例如，“风筝”概念是一个其中p（vi，lm）由下式给出：exp（S（vi，lm）/τ）+k∈Nexp（S（v，l）/τ）。（三）这里τ是预定义的温度，并且ri表示区域ri的一组负文本样本，即，不与区域ri匹配但与该批中的其他区域匹配的对象概念。由于对比度损失中的正对不可避免地知识提取从软目标学习，并帮助处理这些伪区域-文本对中的噪声。该蒸馏损失定义为L=L（qt，q），（4）（2DistNKL我我我通过使用预先训练的语言编码器，进一步将项编码成语义表示。最后，所有的区域概念都由它们的语义嵌入来表示其中L KL是KL发散损失;qt和qi都是所有对象概念上的概率。Qt是教师模型的软目标，计算公式为softmax（S（v t，l1）/τ，.，S（v t，l C）/τ）。qi类似于dings{lj}j=1，...，C和C表示概念池的大小。我我虽然我们的区域描述是建立在现有的图像描述，我们的方法是不受特定的文本描述与图像配对重要的是，使用一个强大的语言编码器，经过数百万个包含数万个单词的文本描述的训练，使我们能够轻松地定制和扩展我们的概念池。这样的能力被认为难以使用人工注释来此外，视觉识别和定位的分离使得我们的方法可以灵活地采用不同的候选区域提取方法。3.2. 区域的视觉语义对齐区域-文本对的对齐我们利用教师视觉编码器t来连接图像区域和我们创建的文本（表示为语义嵌入）。再次，通过用RoIAlign从局部图像区域池化特征来从教师编码器t提取区域ri的视觉表示Vtvt和每个t之间的匹配得分S（v，l）根据我们的学生模型计算。给定从互联网上收集的图像-文本对，我们的区域级对比度损失Lcntrst可以自然地扩展到图像级对比度损失Lcntrst−img。它可以被认为是一种特殊情况，其中（1）视觉表示是针对覆盖整个图像的单个全局框提取的，（2）来自互联网的相应文本描述了整个图像，以及（3）负样本是与其他图像相关联的文本最后，我们的整体损失函数由下式给出：L = L cntrst + L dist + L cntrst −img。（五）零射击推断一旦经过预训练，我们的视觉编码器就可以直接应用于区域推理任务。例如，给定来自RPN的区域建议，从我们的视觉编码器中提取的区域表示可以用于匹配目标对象概念的嵌入，从而识别局部图像区域内的概念，从而实现用于对象检测的零触发推理。16797−3.3. 用于目标检测的迁移学习我们的预训练利用了教师模型创建的区域文本对齐。这样的对齐不需要人的努力，但不是很准确。当图像区域的强监视可用时（例如，人类注释的检测标签），我们的视觉编码器可以通过用人类注释替换区域描述来进一步微调二、具体来说，我们通过初始化对象检测器的视觉骨干，将预训练的视觉编码器转移为了检测图像对象，与我们的预训练相同，我们使用现成的RPN来定位对象区域，并通过将其视觉区域表示与目标对象类的语义嵌入（例如，检测数据集中的对象类）。4. 实验我们的主要结果报告了我们的开放词汇对象检测模型的迁移学习。此外，我们评估了我们的模型对全监督对象检测，以及零杆推理对象检测。最后，我们进行烧蚀研究我们的模型组件。数据集。对于预训练，我们考虑概念帽数据集（CC 3M）[45]，其中包含来自网络的300万个图像-文本在进行消融研究时，我们还使用较小的数据集COCOCOCOCap包含118k图像，每个图像与5个人类注释标题相关联。采用[27]中的解析器来提取三元组（例如，man-play-ball）。在COCO Cap/CC 3 M上丢弃了出现频率低于100的对象概念，得到4764/6790个概念。对于开放词汇对象检测的迁移学习，我们分别用COCO检测数据集[32]和LVIS数据集（v1）[19]的基本类别训练检测器。在COCO上，我们遵循[2]的数据划分，有48个基本类别和17个新类别，它们是COCO对象类的子集我们使用来自[60]的处理数据，其中包含107，761张训练图像和4，836张测试图像。在LVIS上，遵循[18]，我们使用训练/验证图像进行训练/评估，并采用866个基本类别（常见和频繁对象）和337个新类别（罕见对象）的类别划分。评价方案和指标。我们评估了COCO和LVIS上的对象检测性能，包括迁移学习和零触发推理。使用标准对象检测度量，包括平均精度（AP）和AP 50（在0.5的并集上的交点处的AP）。实作详细数据。在预训练期间，默认的学生模型和教师模型是来自预训练CLIP的ResNet50 [22]。预训练中使用的RPN是用LVIS数据集的基本类别我们的默认模型是使用从COCO Cap解析的概念在CC3M数据集上进行预训练。SGD的批量大小为96，初始学习率为0.002，最大迭代为600k，每个图像100个区域。温度τ为0.01。对于对象检测的迁移学习，我们的检测器是使用Faster RCNN [42]（ResNet 50-C4）在Detectron 2 [54]上开发的在迁移学习中使用的RPN由目标数据集的基本类别（例如，COCO上的迁移学习使用在COCO上训练的RPN）。SGD的批量大小为16，初始学习率为0.002，时间表为1x。此外，我们应用类加权交叉熵损失。(1)对于基本类别，我们使用焦点缩放，基本类别的权重为（1p b）γ，其中p b是该基本类别的softmax之后的概率，γ= 0。5/0。0在COCO/LVIS上。从经验上看，焦点缩放有助于减轻在预训练中对先前学习的对象概念的遗忘，因此对新类别是有益的。(2)对于背景类别，我们使用固定的全零嵌入和预定义的权重（COCO/LVIS上的0.2/0.8）来跟踪[60]。对于目标检测的零触发推理，RPN与预训练阶段相同，NMS阈值设置为0.9。受[47，64]的启发，我们通过几何平均值融合了RPN客观性评分和类别置信度评分从经验上讲，融合RPN评分可显著改善零发射结果。4.1. 转移到开放词汇对象检测Setup.我们在两个开放词汇对象检测基准上评估我们的模型，包括COCO和LVIS。在COCO上，我们报告AP50并遵循[60]中的评估设置：（1）仅预测和评估新类别（ Novel ），（ 2 ）仅预测和评估基础类别（Base），（3）预测和评估所有类别的广义设置（Generalized）。在LVIS上，我们遵循[18]的基准，其中稀有对象被定义为新颖类别。我们报告了新类别（ APr ）、基础类别（ APc ， APf ）和所有类别（mAP）的AP，重新分类。检测器由基本类别训练并在基本类别和新类别（例如，COCO/LVIS上的48/866个基本类别和17/337个新类别与ViLD [18]相比，LVIS上的所有实验都额外考虑了掩模注释。基线。我们考虑几个强基线：零拍摄物体探测器（ SB [2] 、 DELO [65] 、 PL[38]）：零镜头目标检测是最接近开放词汇目标检测的领域。这些检测器通常依赖于对象类的预训练词嵌入，以推广到新的类别。开放词汇对象检测器（OVR [60]，ViLD [18]）：这些检测器利用预训练的视觉语言模型，这些模型已经从图像-文本对中学习了大量词汇。 OVR是我们密切的竞争对手，因为我们既预训练视觉编码器，··16798视觉编码器预训练方法数据集主干检测器方法训练骨干小说（17）基地（48）Coco广义（17+48）小说基本全部[22]第二十二话ImageNetRN50[42]第四十二话RN50-C4-54.5---[49]第四十九话ImageNetIncRNv2S-B [2]IncRNv20.7029.70.3129.224.9[41]第四十一话ImageNetDarkNet19德洛[65]DarkNet197.6014.03.4113.813.0[22]第二十二话ImageNetRN50[第38话RN50-FPN10.036.84.1235.927.9OVR [60]COCO CapRN50OVR [60]RN50-C427.546.822.846.039.9OVR [60]CC3MRN50OVR [60]RN50-C416.743.0--34.3[第37话]CLIP400MViT-B/32ViLD*[18]RN50-FPN--27.659.551.3[第37话]CLIP400MRN50我们RN50-C422.553.114.252.842.7我们COCO CapRN50我们RN50-C430.855.226.854.847.5我们CC3MRN50我们RN50-C435.257.631.457.150.4我们CC3MRN50x4我们RN50x4-C443.361.939.361.655.7表1.COCO数据集上的开放词汇对象检测结果通过我们预先训练的视觉编码器初始化，我们的检测器在所有指标上的表现都优于以前的作品，并且在新类别上的表现优于最近的ViLD*。ViLD* 通过大规模抖动（LSJ）[15]的数据增强和更长的训练时间表（16x）来训练检测器。Cls表示ImageNet上的图像分类预训练[10]，RN 50表示ResNet 50，IncRNv 2是Inception-ResNet-V2。视觉编码器预训练方法数据集主干方法探测器培训骨干培训策略监督AprLVISAPCAPF地图---[21]第二十一话RN50-FPN16倍+LSJ [15]基础+小说13.026.737.428.5[22]第二十二话ImageNetRN50[21]第二十一话RN50-C41x+标准基础+小说11.922.029.723.3[第37话]CLIP400MViT-B/32ViLD* [18]RN50-FPN16倍+LSJ [15]基地16.726.534.227.8我们CC3MRN50我们RN50-C41x+标准基地17.127.434.028.2[第37话]CLIP400MViT-B/32ViLD* [18]RN152-FPN16倍+LSJ [15]基地19.827.134.528.7我们CC3MRN50x4我们RN50x4-C41x+标准基地22.032.136.932.3表2. LVIS数据集上的开放词汇对象检测结果。没有复杂的训练策略，我们的检测器在大多数指标上仍然优于ViLD*。使用相同的训练策略，我们的开放词汇检测器在所有指标上都击败了完全监督的Mask RCNN使用它们作为探测器初始化。ViLD是最近的一项工作，专注于通过从CLIP中提取预训练模型的视觉特征来进行检测器训练。ViLD特别使用大规模抖动（LSJ）的数据增强[15]，训练时间为16倍。完全监督检测器：在COCO上，我们包括来自OVR的监督基线，OVR是一个更快的RCNN [42]，由1x时间表的基本类别训练。在LVIS上，我们包括来自 ViLD 的监督基线， ViLD 是一个 Mask RCNN[21]，由基础和新类别训练，具有特殊的数据增强作为ViLD。我们还报告了在Detectron 2的标准1x时间表中训练的Mask RCNN [54]。我们的检测器变体：我们考虑使用不同的预训练视觉编码器初始化我们的检测器，包括CLIP和我们在COCOCap上预训练的模型。结果表1和表2分别显示了COCO和LVIS数据集的结果在COCO数据集上，由我们预先训练的骨干初始化，我们的检测器在所有指标上都明显优于以前的方法OVR [60]（例如，31.4 vs. 22.8关于小说类别）。与我们开始基于区域的预训练的CLIP主干相比，我们的模型在所有指标上都有显著的提高，特别是+17.2 AP50（小说类）。较ViLD是最近的一种具有复杂训练策略的SoTA方法，我们的模型在Base和All上仍然相当，而在Novel上更好（例如，31.4 vs.27.6），这是开放词汇检测的主要焦点。在LVIS数据集上，具有可比的主链大小（我们的 RN 50 x4-C4 ： ViLD 的 83.4M ， RN 152-FPN ：84.1M），我们的检测器的性能大大优于ViLD（例如，+2.2 APr和+3.6 mAP）。请注意，COCO和LVIS上的这些卓越检测结果是通过使用单个预训练的骨干，标准数据增强和1x训练计划来实现的。这些结果表明，我们基于区域的视觉语言预训练已经学会了图像区域和对象概念之间更好的对齐，从而促进了开放词汇对象检测。4.2. 转移到完全监督的对象检测我们进一步报告了根据标准检测基准对我们的模型进行全面监督的微调结果。Setup.在训练和评估期间使用所有对象类别的检测注释同样，LVIS上的所有实验都额外使用掩码注释来训练检测器。基线。我们考虑以下基线：（1）更快的RCNN [42]由ImageNet预训练的主干初始化：这是社区中常见的对象检测器[54]。（2）我们的检测器由预训练的CLIP初始化这个基线是··16799区域文本对图文对Coco全零次推理（RPN）所有（GT）Coco广义（17+48）小说基本全部✓✓26.760.421.455.546.6✓28.062.826.854.847.5视觉编码器预训练方法数据集主干检测器训练方法主干Coco训练：80，测试：80 AP50mAP培训年平均月数LVIS：1203，测试：APCAPF1203地图[22]第二十二话ImageNetRN50[42]第四十二话RN50-C455.935.711.922.029.723.3[第37话]CLIP400MRN50我们RN50-C456.336.416.025.032.026.2我们CC3MRN50我们RN50-C459.838.818.627.834.829.0我们CC3MRN50x4我们RN50x4-C464.442.724.532.036.532.5表3. COCO和LVIS数据集上的完全监督对象检测结果。我们的检测器由我们预先训练的视觉编码器初始化，收敛速度更快，并且在1x时间表上的所有指标上都明显优于ImageNet和CLIP的petrained主干表5.预训练策略的消融研究。所有模型都在COCO Cap上进行了预训练。表4.在COCO和LVIS数据集上使用地面实况（GT）框或RPN框进行零炮推理所有模型都使用RoIAlign来提取建议图像区域的视觉表示。我们的预训练模型在数据集上以明显的优势击败基线。来验证我们提出的预训练方法。结果在表3中，由我们预先训练的视觉主干初始化的检测器在很大程度上优于由ImageNet和CLIP主干初始化的基线（例如，COCO上为+2.4 mAP，LVIS上为+2.8mAP）。我们的预训练在这个完全监督的设置中以1x时间表实现更快的收敛和更好的准确性。同样，当使用RN50x4作为教师模型和学生模型的主干时，性能得到显著提高（例如，COCO上+3.9 mAP， LVIS上+3.5 mAP4.3. 目标检测接下来，我们将探索直接使用RegionCLIP进行零拍摄检测，而无需任何对象注释。Setup.预训练的视觉语言模型直接用于识别图像区域。我们使用与迁移学习实验相同的评估数据集和指标（COCO的所有AP50，LVIS的mAP）1。我们考虑两种设置：（1）地面实况（GT）边界框被用作区域提议。该预言设置旨在通过消除定位误差来评估识别性能;（2）区域建议来自预训练中使用的RPN。因此，性能受到定位质量和识别精度的基线。我们考虑两个基线：（1）OVR [60]在COCOCap的图像-文本对上预训练视觉骨干1故障度量（例如，Novel和Base）在零触发推理中被省略，因为没有使用检测注释。表6.在预训练期间使用的区域类型的消融研究。所有模型都在COCO Cap上进行了预训练。其与COCO检测数据集具有接近的对象概念我们评估他们的代码库中提供的预训练模型。（2）CLIP [37]在400 M图像-文本对上进行预训练OVR和CLIP都考虑图像-文本对进行预训练，与我们的RegionCLIP相同。结果表4总结了结果。使用GT框，我们的预训练模型在数据集上的表现明显优于CLIP基线（例如，61.4对比58.3 COCO上的所有AP50，44.4对比LVIS上的42.2mAP当与OVR相比时，我们的模型展示了更大的裕度（例如，61.4 vs.44.5 COCO上的所有AP50），更不用说OVR是在与评估相同的数据集上进行预训练的当使用RPN建议时，我们的模型仍然明显优于CLIP和OVR（例如，26.8比COCO为19.6 25.5，9.2在LVIS上）。请注意，使用GT盒比使用RPN更好地这些结果表明，我们的区域-文本对齐预训练提高了图像区域的识别。使用RN50x4架构作为教师和学生模型的骨干，零触发推理性能在数据集和设置上得到进一步提高（例如，LVIS和GT上+6.3 mAP，COCO和RPN上+2.8所有AP 50）。4.4. 消融研究最后，我们使用COCO Cap对零射击推理和迁移学习进行了消融研究。视觉编码器预训练方法数据集主干区域建议Coco所有LVIS地图美国[60] RN50GT44.5-[第37话] CLIP400M RN50GT58.342.2我们的CC3M RN50GT61.444.4我们的CC3M RN50x4GT65.550.7美国[60] RN50RPN19.6-[第37话] CLIP400M RN50RPN25.59.2我们的CC3M RN50RPN26.89.6我们的CC3M RN50x4RPN29.611.3区域类型随机 RPNCoco全零次推理（RPN）所有（GT）Coco广义（17+48）小说基本全部✓27.160.825.254.546.916800夹我们图3. COCO数据集上零炮推理的可视化与地面实况框。如果没有微调，预训练的模型（顶部：CLIP，底部：我们的）直接用于将图像区域识别到COCO中的类别中。（图片ID：9448、9483、7386、4795）训练前的策略。表5研究了不同预训练策略的效果虽然使用区域-文本对已经获得了合理的性能，但是添加图像-文本对进一步改进了结果（例如，+2.4具有GT盒的AP50关于零触发推理，+5.4关于转移学习的新颖AP50）。我们推测，图像-文本对提供上下文信息，从全球图像描述，补偿我们的伪区域描述。图像区域的类型。表6研究了预培训期间区域提案质量的影响。我们通过随机抽样相同数量的图像区域来替换RPN提案。使用随机框会损害零射击推断（使用GT框的AP 50为-2.0），但在迁移学习中实现了相当的性能（46.9 vs. 47.5所有AP 50）。这些结果表明，我们的预训练对区域提案的质量具有鲁棒性。零触发推理受益于更高质量的建议，但当人类监督可以微调模型时，差距就会缩小。训练前的损失。表7研究了不同损失的影响。当在零激发推断上进行评估时，结合对比和蒸馏损失具有与仅使用蒸馏损失类似的结果（62.8 vs. 63.1 AP 50与GT盒），但在迁移学习方面取得了更好的结果（26.8与24.1 Novel AP 50）。我们假设这两种损失是互补的。蒸馏损失有助于从教师模型中继承知识，而对比损失则有助于迁移学习的区分表征。可视化。图3显示了COCO数据集上GT盒的零激发干涉结果。我们的模型预测比CLIP更合理的对象类别（例如，第一列和第二列中的蓝色区域被我们的模型正确地预测为更多的可视化可以在我们的补充中找到。训练前损失对比蒸馏Coco全零次推理（RPN）所有（GT）Coco广义（17+48）小说基本全部✓✓✓✓25.258.221.854.245.827.863.124.154.646.728.062.826.8五十四点八47.5表7.预训练期间损失的消融研究。所有模型都使用在COCOCap上预训练的图像级对比度损失。5. 结论在本文中，我们提出了RegionCLIP -一种新的基于区域的视觉语言预训练方法，学习匹配图像区域及其描述。我们的关键创新是一个可扩展的方法来关联区域-文本对，而不使用人工注释。通过从这种区域级对齐中学习，我们的预训练模型在转移到COCO和LVIS数据集上的开放词汇对象检测时建立了新的技术水平。此外，我们的预训练模型在对象检测的完全监督和零触发推理方面表现出了良好的效果。我们相信我们的工作为区域表示学习迈出了坚实的一步，我们希望我们的工作可以为视觉语言预训练提供帮助。限制和社会影响。我们的工作有几个限制，可以进一步调查。(1)我们的模型没有考虑对象属性和关系，这对许多视觉任务是有益的（例如，视觉接地），因此可以是有趣的未来方向。(2)我们的方法依赖于CLIP解冻语言编码器可以在预训练中带来额外的收益。此外，我们的模型是在图像字幕数据集上预训练的（例如，CC3M）使用CLIP提示，并且因此可能从数据集和提示继承不期望的偏差。冲浪板16%人13%雨伞88%人22%平局37%键盘96%老鼠83%人51%键盘94%小鼠92%滑板14%狗94%摩托车46%狗88%笔记本电脑63%笔记本电脑8%膝上型计算机80%的百分比笔记本电脑22%猫15%膝上型计算机8百分之五16801引用[1] Peter Anderson，Xiaodong He，Chris Buehler，DamienTeney，Mark Johnson，Stephen Gould，and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。IEEE计算机视觉与模式识别会议论文集（CVPR），第6077-6086页。IEEE，2018年。[2] Ankan Bansal 、 Karan Sikka 、 Gaurav Sharma 、 RamaChel-lappa 和 Ajay Divakaran 。零镜头物体检测。在ECCV，第384-400页[3] 放大图片作者：Kobus Barnard，Pinar Duygulu，DavidForsyth，Nando de Freitas，David M. Blei和Michael I.约旦.匹配文字和图片。机器学习研究杂志，3：1107[4] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器的端到端对象检测。参见ECCV，第213-229页。Springer，2020年

下载后可阅读完整内容，剩余1页未读，立即下载