GroupViT：文本监督下的语义分割

5 浏览量更新于2023-10-25 收藏 14.19MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

…181340GroupViT：语义分割从文本监督中出现0Jiarui Xu 1* Shalini De Mello 2 Sifei Liu 2 Wonmin Byeon 20Thomas Breuel 2 Jan Kautz 2 Xiaolong Wang 101 UC San Diego 2 NVIDIA0摘要0分组和识别是视觉场景理解的重要组成部分，例如对象检测和语义分割。在端到端的深度学习系统中，图像区域的分组通常通过来自像素级别识别标签的自上而下监督隐式发生。然而，在本文中，我们提出将分组机制重新引入深度网络中，这允许语义分割区域仅通过文本监督自动出现。我们提出了一种分层分组视觉变换器（GroupViT），它超越了常规的网格结构表示，并学会将图像区域分组成逐渐变大的任意形状的段。我们通过对比损失在大规模图像-文本数据集上联合训练GroupViT和文本编码器。只通过文本监督，而没有任何像素级注释，GroupViT学会将语义区域分组在一起，并以零样本的方式成功转移到语义分割任务上，即无需进一步微调。在PASCAL VOC2012数据集上，它实现了52.3％的零样本mIoU准确率，在PASCALContext数据集上实现了22.4％的mIoU准确率，并且与需要更高级别监督的最先进的迁移学习方法竞争。我们在https://github.com/NVlabs/GroupViT上开源了我们的代码。01. 引言视觉场景自然由语义相关的像素组成。在深度学习时代之前，关于分组和识别之间的关系已经进行了广泛研究。在自下而上的分组中，首先将像素重新组织成候选组，然后使用识别模块处理每个组。这种流程已成功应用于超像素图像分割[60]、对象检测的区域提议构建[75,94]和语义分割[3]。除了自下而上的推理，来自识别的自上而下的反馈也可以提供信号以进行更好的视觉分组。0* Jiarui Xu在项目期间在NVIDIA实习。0GroupViT文本编码器0对比损失0皇家加勒比0国际...的绿洲0猫在行走0雪。灰色的猫0在...行走0学生在校园与一只狗0和飞盘0一名骑摩托车的快递员。0猫...摩托车狗船0船0狗0盆栽植物0椅子0猫0人0摩托车0零样本迁移训练0图1.问题概述。首先，我们使用配对的图像-文本数据共同训练GroupViT和文本编码器。通过GroupViT，有意义的语义分组会自动出现，而无需任何遮罩注释。然后，我们将训练好的GroupViT模型转移到零样本语义分割任务上。0然而，随着深度学习时代的到来，显式分组和识别的思想在端到端训练系统中的分离程度更小，耦合更紧密。例如，语义分割通常通过完全卷积网络[47]实现，其中像素分组仅在输出时通过识别每个像素的标签来显示。这种方法消除了执行显式分组的需要。虽然这种方法非常强大，仍然能够提供最先进的性能，但它有两个主要限制：（i）学习受到每个像素人工标签的高成本的限制；（ii）学习的模型仅限于少数有标签的类别，并且无法推广到未见过的类别。最近在从文本监督中学习视觉表示方面的发展取得了巨大成功。181350将模型转移到下游任务[59]。学习到的模型不仅可以以零样本的方式转移到ImageNet分类，并达到最先进的性能，还可以对ImageNet之外的对象类别进行识别。受到这一研究领域的启发，我们提出了一个问题：我们是否也可以仅通过文本监督学习一个语义分割模型，而不需要任何像素级注释，能够在零样本的情况下推广到不同的对象类别或词汇？为了实现这一目标，我们提议将分组机制引入到深度网络中，这样就可以只通过文本监督自动产生语义分割。我们的方法概述如图1所示。通过使用对比损失在大规模配对的图像-文本数据上进行训练，我们使模型能够以零样本的方式转移到多个语义分割词汇上，而无需任何进一步的注释或微调。我们的关键思想是利用VisionTransformer（ViT）[22]并将一个新的视觉分组模块整合到其中。我们将我们的模型称为GroupViT（Grouping VisionTransformer）。与卷积神经网络（ConvNets）在规则网格上操作不同，Transformer的全局自注意机制自然地提供了将视觉标记组合成非网格状分割的灵活性。因此，与最近的基于ViT的应用程序[16, 23, 44,81]将视觉标记组织成网格不同，我们提出将视觉标记分层分组为不规则形状的分割。具体而言，我们的GroupViT模型通过一系列Transformer层的层次结构进行组织，每个阶段包含多个Transformer来在组分割之间进行信息传播，以及一个将较小的分割合并成较大分割的分组模块。使用不同的输入图像，我们的模型动态形成不同的视觉分割，每个分割直观地表示一个语义概念。我们仅使用文本监督来训练GroupViT。为了进行学习，我们在GroupViT的最后阶段使用平均池化来合并视觉分割输出。然后，我们将这个图像级嵌入与通过对比学习从文本句子中得到的嵌入进行比较。我们使用对应的图像和文本对构建正训练对，使用来自其他图像的文本构建负训练对。我们使用Transformer模型提取文本嵌入，该模型与GroupViT一起从头开始进行训练。有趣的是，即使我们仅在图像级别提供文本训练监督，我们发现通过我们的分组架构自动出现了语义上有意义的分割。在推理过程中，对于语义分割任务，给定输入图像，我们使用GroupViT提取其视觉分组（图1）。每个最终分组的输出表示图像的一个分割。给定一个标签名称的词汇表0为了进行分割，我们使用文本Transformer来提取每个标签的文本嵌入。为了进行语义分割，我们根据嵌入空间中的相似性将类别标签分配给图像分割。在我们的实验中，我们展示了仅使用文本监督在Conceptual Caption [10,63]和Yahoo Flickr Creative Commons[69]数据集上训练的GrouViT可以以零样本的方式转移到PASCAL VOC [24]和PASCAL Context[54]数据集上的语义分割任务中。在不进行任何微调的情况下，我们在PASCAL VOC2012上实现了52.3％的平均交并比（mIoU），在PASCALContext上实现了22.4％的mIoU，与需要更高级别监督的最先进的迁移学习方法相竞争。据我们所知，我们的工作是第一个仅使用文本监督在不需要任何像素级标签的情况下以零样本的方式在不同的标签词汇上执行语义分割的工作。我们的贡献如下：•在深度网络中超越常规形状的图像网格，我们引入了一种新颖的GroupViT架构，以将视觉概念分层自底向上地分组为不规则形状的组。0•在没有任何像素级标签和训练的情况下，仅通过图像级文本监督使用对比损失，GroupViT成功地学习将图像区域分组在一起，并以零样本的方式转移到多个语义分割词汇0•据我们所知，我们的工作是第一个在没有使用任何像素级标签的情况下，仅通过文本监督从文本监督中探索零样本迁移到多个语义分割任务，并为这个新任务建立了一个强基准。02. 相关工作0视觉Transformer。受到自然语言处理中Transformer的成功启发，最近提出了视觉Transformer（ViT）[22]，并成功应用于多个计算机视觉任务，包括图像分类[44, 72, 73,86]，目标检测[44, 79, 88]，语义分割[44, 82,91]和动作识别[4, 5, 25, 45,61]。然而，与卷积神经网络类似，大多数ViT的变体仍然在规则的图像网格上操作。例如，刘等人[44]将图像分成规则形状的窗口，并对每个窗口应用一个Transformer块。卷积操作也被插入到Transformer块中[16, 23,81]。尽管这些ViT的变体取得了显著的性能，但它们并没有充分利用Transformer中全局自注意机制的灵活性。也就是说，自注意力的设计可以应用于任意的图像片段，而不仅仅限于矩形形状和扫描顺序。另一方面，我们的GroupViT模型利用了Transformer的这一特性。supervised semantic segmentation [1,9,26,31,36,40,65,68,80], which aims to learn semantic segmentation with onlyimage-level object category supervision. While it largelyreduces supervision, it still requires manual labeling us-ing a ﬁnite vocabulary on a carefully-curated image dataset.Different from all previous work, our approach completelygets rid of human annotations and GroupViT is trained withlarge-scale noisy text supervision. Instead of a ﬁxed vocab-ulary, we show that GroupViT can be generalized to any setof categories in a zero-shot manner for semantic segmenta-tion.3. MethodWe propose the GroupViT architecture for zero-shottransfer to semantic segmentation with text supervisiononly.GroupViT introduces a new hierarchical group-ing Transformer architecture that exploits the global self-attention mechanism of Transformers to partition input im-ages into progressively larger arbitrary-shaped groups. Weﬁrst describe GroupViT’s architecture in detail in Sec. 3.1.To train it, we employ carefully-designed contrastive lossesbetween image-text pairs, which we describe in Sec. 3.2.Lastly, we transfer the trained GroupViT model, withoutfurther ﬁne-tuning, to the task of zero-shot semantic seg-mentation as described in Sec. 3.3.3.1. Grouping Vision TransformerWe introduce the GroupViT image encoder (Fig. 2),which performs hierarchical progressive grouping of vi-sual concepts via a Transformer-based architecture.InGroupViT, we separate Transformer layers into multiplegrouping stages. In each stage, we learn a number of grouptokens (as learnable parameters) via self-attention that ag-gregate information globally from all image tokens (seg-ments). We then use the learned group tokens to merge sim-ilar image tokens together via a Grouping Block. Through ahierarchy of grouping stages, we group smaller image seg-ments into larger ones. We describe each component next.Architecture Following the design of ViT [22], we ﬁrstsplit an input image into N non-overlapping patches andlinearly project each into a latent space. We treat each pro-jected patch as an input image token and denote the set of allof them as {pi}Ni=1. In each grouping stage, besides the im-age tokens, we concatenate a set of learnable group tokensand input them into the Transformer for that stage.Multi-stage Grouping As Fig. 2(a) shows, instead of for-warding all the N input image tokens through all the layersof the Transformer, we separate its layers into a hierarchy ofgrouping stages. Each stage incorporates a Grouping Blockat its end to merge the smaller groups into larger ones.Formally, suppose there are L grouping stages, each in-dexed by l and with a set of learnable group tokens {gi}Mli=1.181360学习将视觉信息分组成多个任意形状的片段。通过分层设计，它进一步将较小的片段合并成较大的片段，并为每个图像产生不同的语义组。使用文本监督进行表示学习。随着互联网上可用的大规模图像-文本配对数据，使用文本监督进行表示学习[14, 19, 30, 32, 37, 39, 49, 59,89]已被证明在转移到各种下游任务中是成功的，如视觉问答[2,92]和视觉推理[87]。例如，Desai等人[19]使用图像字幕任务对ConvNets进行预训练，并通过微调与下游任务注释（例如，目标检测标签）进行表示转移。最近，Radford等人[59]提出在图像和文本之间进行对比学习。他们表明，学习的模型可以直接以零样本的方式转移到ImageNet分类[18]，而无需进行任何微调。我们的GroupViT模型进一步探索了仅使用文本监督进行零样本迁移到语义分割任务，据我们所知，这在以前的工作中尚未展示出来。视觉定位。视觉定位旨在学习图像区域和文本的对应关系。一种研究方法是使用完全监督的方法在图像中检测与文本相关的边界框[14,27, 33, 49, 57]，使用的数据集包括Flickr30kEntities[58]和VisualGenome[35]。为了扩大学习规模，引入了弱监督的视觉定位，训练过程中不提供边界框和文本对应关系[11, 28, 41,42, 78,85]。然而，为了定位对象边界框，这些方法仍然依赖于预训练的目标检测器[78,85]，而目标检测器又利用其他数据集中的边界框注释。虽然相关，但我们强调我们的问题设置与视觉定位的主要区别有两点：（i）我们的模型在网络上的数百万个嘈杂的图像-文本对上进行训练，而视觉定位需要相对较小规模的人工策划和注释数据；（ii）我们的GroupViT提供了一种自底向上的机制，用于渐进式的视觉分组，其中对象片段会自动出现并受到文本监督的影响，而视觉定位则需要从其他数据集借用边界框注释。较少监督的语义分割。已经提出了多个研究方向，以比密集的像素级标签更少的监督来学习分割。例如，少样本学习[21, 43, 50, 55, 70, 77, 84]和主动学习[8, 62,66, 67,83]被提出来尽可能少地使用像素级标签进行分割。进一步地，已经提出了零样本方法[6,38]，用于在没有使用它们的像素级标签的情况下学习未见类别的分割模型。然而，它仍然需要在初始阶段使用已见类别的分割标签进行学习。另一条相关研究线是弱监督的Linear WoWogumbelLinear WqWqLinear WkWkLinear WvWvsoftmaxMLPText EncoderTwo elephants in the jungle this morningImage TokenLearnable Group TokenSegment Token(a) GroupViT Architecture and Training Pipeline(b) Grouping BlockLinear Projection Transformer LayersGrouping BlockGrouping BlockTransformer LayersAvg PoolingTransformer LayersMLP{ ̂gli}{ ̂gli}{ ̂sli}{ ̂sli}{sl+1i}{sl+1i}ˆAl = one-hot(Alargmax) + Al − sg(Al),(4)where sg is the stop gradient operator. With the straightthrough trick, ˆAl has the one-hot value of assignment to asingle group, but its gradient is equal to the gradient of Al,which makes the Grouping Block differentiable and end-to-end trainable. We call this one-hot assignment strategy181370i}{s0i}0i}{s0i}0i}{g0i}0i}{g0i}0zTzTzIzI0i}{s0i}0图像段0图2. (a)GroupViT的架构和训练流程。GroupViT包含一系列分组到阶段的Transformer层，每个层在逐渐变大的视觉段上操作。右侧的图像显示了在不同分组阶段中出现的视觉段。较低的阶段将像素分组为对象部分，例如大象的鼻子和腿；较高的阶段将它们进一步合并为整个对象，例如整个大象和背景森林。(b) GroupingBlock的架构。每个分组阶段以一个分组块结束，该块计算学习的组标记和段(图像)标记之间的相似性。通过Gumbelsoftmax将分配计算为组标记上的硬分配。分配给同一组的段标记被合并在一起，表示输入到下一个分组阶段的新段标记。0为简单起见，我们将输入到第一个分组阶段的图像块{pi}Ni=1视为起始段的集合{s1i}M0i=1，其中N = M0。我们将{sli}Ml-1i=1简化为{sl i}，将{gl i}Mli=1简化为{gli}。从l=1开始，对于每个分组阶段，我们首先将{sl i}和{gli}连接在一起，然后将它们输入到多个Transformer层中，每个层在它们之间执行信息传播，如下所示：0{ˆgli},{ˆsli} = Transformer([{gli};{sli}]),0其中[;]表示连接运算符。然后，我们通过GroupingBlock将更新后的Ml-1个图像段标记{ˆsli}分组为Ml个新的段标记{sli}，如下所示：0{sli} = GroupingBlock({ˆgli},{ˆsli}).0在每个分组阶段中，Ml

下载后可阅读完整内容，剩余1页未读，立即下载