开放世界视觉语言驱动的语义分割

177 浏览量更新于2023-12-01 收藏 1.68MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2255获取更多论文基于对比聚类视觉语言嵌入的刘全德1人，温有鹏2人，韩建华3人，徐春静3人，徐航3人，梁晓丹2人1香港中文大学qdliu@cse.cuhk.edu.hk2中山大学深圳校区网址：wenyoupeng0@outlook.com，xdliang328@gmail.com3华为诺亚{hanjianhua4，xuchunjing，xu. hang} @ huawei.com抽象的。为了弥合监督语义分割和获取一个模型来识别任意新概念的现实世界应用之间的差距，最近的零镜头分割通过探索看不见的和看到的对象类别之间的关系而吸引了很多关注，但需要大量具有不同基类的密集注释数据。在本文中，我们提出了一个新的开放世界语义分割管道，首次尝试学习分割各种开放世界类别的语义对象，而无需任何努力通过纯粹利用互联网上自然存在的图像标题数据，我们的方法，视觉语言驱动的语义分割（ViL-Seg），采用图像和文本编码器来生成图像字幕数据的视觉和文本嵌入，具有两个核心组件，赋予其分割能力：首先，图像编码器与基于视觉的对比和跨模态对比联合训练，这鼓励视觉嵌入保留细粒度语义和高级类别信息，这对于分割任务至关重要。此外，在图像编码器上设计了一个在线聚类头，它允许动态地将视觉嵌入分割成不同的语义组，以便通过与各种文本嵌入进行比较来对它们进行分类，以完成我们的分割管道。实验表明，该方法在不使用任何具有密集标注的数据的情况下，能够直接分割任意类别的对象，优于需要在三个基准数据集上进行数据标注的零次分割方法.1介绍作为计算机视觉中的一个关键问题，语义分割[30]旨在为图像中的每个像素指定一个类别标签大多数现有的语义分割†通讯作者。arXiv：2207.08455v2 [cs.CV] 2022年7+v：mala2255获取更多论文在公园里玩的男孩图片说明互联网上的配对手保持新鲜的山竹……对象类别…蝴蝶：0.987恐龙：0.572草：0.932氦气球：0.625瑜伽垫：0.914海豚：0.823火箭：0.887降落伞：0.593吹风机：0.7602Q. Liu等人Fig. 1. 通过纯粹利用来自互联网的图像-标题对（不使用任何具有密集注释的数据），ViL-Seg能够在开放世界中分割各种对象类别，即使它们在现有的分割数据集中从未被标记。方法[37，5，26，28，50]仅能够分割出现在训练数据集中的基本类别。然而，由于昂贵的逐像素注释，现有语义分割数据集[10，31，2]中的对象类的数量有限，例如，PASCAL VOC[10]有20个类别，COCO Stuff[2]有183个类别，这与现实中存在的对象类别数量相去甚远。增加类别数量的常用方法是通过注释更多的新类别图像，然而，这不仅需要巨大的人工标记努力，而且由于开放世界中的类别数量非常大，因此很难收集足够的样本[14]。最近，已经提出了零射击分割方法[45，1，13，9]，通过利用词嵌入来发现基础类和新类之间的隐式关系，将语义分割模型推广到看不见的类。然而，由于所有这些方法都依赖于对包含一些基本类的特定的训练，因此开发的分割模型将偏向于看到的类或训练场景[13]，这将损害新类的分割性能以及在现实世界应用中向其他数据集的传输能力。受视觉语言预训练方法[36，27]的最新进展的启发，我们的目标是学习一种模型，该模型可以通过纯粹利用互联网上自然存在的视觉语言数据来分割开放世界中的各种对象类别图1）。与传统的手动注释数据集相比，来自互联网的图像标题数据[40，4]更容易收集，并且不需要更多+v：mala2255获取更多论文ViL-Seg 3昂贵的人工标记过程。此外，考虑到互联网上巨大的数据资源，这些数据可以轻松扩展到数千万或数亿级别，大大增加了对象类别的多样性[7]，这为模型处理在现有数据集中从未标记但实际存在的对象类别铺平了道路。最近，已经有一些研究[49，12]利用大规模视觉语言数据来解决一些下游任务，例如图像分类[36]或字幕[39]。Zareian等人。[12]还提出利用跨模态数据，通过将来自预训练的零拍摄分类模型的知识提取到对象检测器中，来解决未看到的类对象检测问题。然而，如何利用这些基于Web的图像标题数据，解决开放世界对象类别的语义分割问题仍然没有解决，这也是非常具有挑战性的，因为字幕仅包含图像的全局语义描述，这对于需要密集语义理解的分割任务在本文中，我们提出了视觉语言驱动的语义分割（ViL-Seg），这是一个新的开放世界无注释的语义分割管道，它首次尝试通过纯粹利用来自互联网的视觉语言数据来学习分割各种开放世界类别的语义对象。详细地，ViL-Seg利用图像编码器和文本编码器来生成用于两种不同模态的视觉和文本嵌入（即，图像和标题）。为了保持分割任务中视觉嵌入的两个关键属性细粒度语义和高级类别信息，图像编码器在两个复杂目标的监督下进行训练，即，a）通过比较全局和局部图像块来学习局部到全局的对应关系的基于视觉的对比; b）利用来自自然语言监督的类别信息的跨模态对比。此外，在图像编码器上进一步设计了在线聚类头，其将细粒度视觉嵌入分割成不同的语义组，使得它们可以通过比较与各种开放世界对象类别的文本嵌入的对齐来分类。这种在线聚类设计还使ViL-Seg的训练和推理端到端。我们的主要贡献总结如下：– 我们提出了视觉语言驱动的语义分割（ViL-Seg），据我们所知，这是第一次尝试使用来自互联网的图像-标题对来学习分割各种开放世界类别的对象，而不使用任何密集注释的数据。– 为了从图像字幕数据中挖掘与分割相关的知识，ViL-Seg采用两个互补的对比目标来提高视觉嵌入的质量，并通过在线聚类头动态地将视觉嵌入划分为不同的语义区域。ViL-Seg的训练和推理都是端到端执行的。– 实验表明，在不使用任何具有密集注释的数据的情况下，我们的ViL-Seg可以分割各种开放世界对象类别，并且优于需要在三个基准数据集上进行数据标记的最先进的零拍摄分割方法，例如，PASCAL VOC增加5.56% mIoU+v：mala2255获取更多论文4问。Liu等人2相关工作2.1Zero-shot Semantic Segmentation.Zero-shot语义分割[1]表示分割看不见的类别，而无需使用它们的任何实例进行训练。在过去的几年里，已经提出了一些方法[21，23]，通过学习可见和不可见类别之间的词嵌入例如，SPNet[45]利用生成器从词嵌入中生成合成特征以匹配相应的视觉特征，而SP3Net[1]通过不同类别的固定词嵌入矩阵将视觉语义嵌入投影到类别概率为了减轻SPNet中看到的类别在此基础上，SIGN[9]进一步采用并改进了标准位置编码，以整合特征级的空间信息，并提出了退火自训练，根据伪标签的置信度为其分配不同的重要性。也有几个作品[11，35，32]集中在开集识别问题[38]，其目的是区分样本是否来自新类，而不提供特定的不可见类别名称。各种关于无监督语义分割的工作[42，18，48]也倾向于在不使用分割标签的情况下学习密集的语义表示。然而，这些方法只能通过使用聚类方法（如K-Means[22]）作为网络特征的后处理来提供语义组，但不能提供类别名称每个语义组。与这些方法不同的是，通过利用来自互联网的视觉语言数据[4]，我们的方法能够预测每个图像像素的类名，而无需使用任何具有密集注释的数据2.2视觉语言预训练。近年来，利用互联网上的大量图像-文本对进行视觉语言预训练[25，19，24，16，43]引起了越来越多的关注。通过使用对比预训练来预测正确的图像和文本样本对，CLIP[36]在几个下游分类任务中与完全监督的基线相比取得了竞争性结果。一些作品[27，8]还引入了类似语言建模的目标，包括掩蔽语言/区域建模，图像字幕和文本去噪，以进一步提高视觉语言模型的性能。此外，有几种方法[17，39]采用预先训练的对象检测器来获得对象嵌入序列作为视觉特征。最近，一些研究[49，12，46]提出利用预训练的视觉语言模型来解决开放词汇对象检测任务，其目的是训练模型从给定的类别词汇中检测任何对象。Zareian等人。[49]建议在预训练期间学习视觉到语言（V2 L）层，并利用它来初始化Faster-RCNN模型。ViLD[12]将来自预训练的零触发分类器的知识提取到两阶段+v：mala2255获取更多论文训练管道逐像素视觉嵌入全局视觉跨模态对比嵌入平均池化文本嵌入集群头多作物视觉编码器互信息最大化视觉对比文本编码器联合概率分布局部视觉嵌入邻居的狗。（图片说明）ViL-Seg 5推理流水线聚类结果匹配文本编码器视觉编码器区域一级平均合并的照片狗/天空/草地图二. ViL-Seg的整体架构。图像编码器用两个互补目标训练，即，基于视觉和跨模态的对比损失，旨在促进视觉嵌入中的细粒度语义和高级类别信息。此外，在图像编码器上建立了一个在线聚类头将像素级视觉嵌入分割成不同的语义组，这些语义组是用互信息最大化训练的。在推理过程中，分割是通过比较从每个聚类区域汇集的特征与不同的词嵌入来执行的。训练和推理都是端到端执行检测器基于ViLD，ZSD-YOLO[46]进一步将蒸馏思想扩展到YOLOv 5[20]。也有一些研究[33，47]倾向于利用视觉语言模型，例如，CLIP，用于减少语义分割任务中的标注成本。然而，这些研究要么依赖于所见类别的注释数据进行训练[47]，要么只能支持无监督分割，即简单地将图像像素分离为不同的语义聚类，而不提供相应的类别标签[33]。相比之下，我们的目标是开发一个完整的语义分割管道，可以分割各种开放世界的对象，通过纯粹利用来自互联网的图像标题数据，而不使用任何密集注释的数据。3方法图2概述了我们提出的视觉语言驱动的语义分割（ViL-Seg）方法。在本节中，我们首先简要介绍了它的框架和培训目标。3.1. 然后，我们描述了两个互补的对比学习策略，用于增强视觉嵌入在Sec。3.2，并介绍了如何分割每像素的视觉嵌入到不同的语义组与在线聚类头在第二节。三点三3.1ViL-Seg框架ViL-Seg的基础是一个视觉编码器Φv和一个文本编码器Φt，用于从成对的Web数据中嵌入图像及其标题我们将ev∈RD记为前-+v：mala2255获取更多论文v∈∈vLL·6问。Liu等人将全局视觉特征epxlRHW·D作为每像素视觉嵌入，例如，在最后一个池化层之前的嵌入;并且将et_R_D表示为编码的文本特征。为了在该框架上执行图像分割，我们还在图像编码器上构建了在线聚类头Φc，其负责将每像素视觉嵌入epxl分割成C语义聚类。ViL-Seg的整个框架以端到端的方式进行训练，使用目标函数如下：L（Φv，t，c）=L视觉（Φv）+L交叉（Φv，t）+L聚类（Φc）（1）该算法由基于视觉的对比学习Lvision和跨模态对比对齐cross组成，分别用于增强视觉嵌入中的细粒度语义和高层类别信息;Φc，以促进合理的聚类结果。接下来，我们将详细描述每个部分。3.2基于视觉和跨模态对比作为一个密集的分类任务，语义分割需要学习的vi-sual嵌入包含细粒度语义和高级类别信息。为此，我们采用了基于视觉的对比和跨模态对比来分别增强视觉表征的这两个属性。基于视觉的全局和局部视图对比：具有对比学习的自我监督在表征学习中显示出有希望的结果。ing [6]。为了满足分割中密集语义理解的要求，提出了一种基于视觉的自监督学习策略，通过对比局部和全局图像块来学习局部到全局的语义对应关系。具体来说，给定一个输入视觉图像，我们首先使用多裁剪策略[3]将其转换为不同的扭曲视图或局部补丁，表示为函数g（）。这生成不同视图的图像集，在我们的情况下，其包含一个全局视图x和k个局部视图x local=g（x）=[x l1，x l2，.，x lk]的低分辨率。所有这些图像然后被馈送到视觉编码器中，从而产生全局视图x的全局特征ev（x）和局部特征ev（xlocal），局部特征ev（x local）是所有局部视图的特征的级联[ev（xl1），ev（xl2），. . .，e v（x lk）]。考虑到将正则化直接施加到图像特征上可能过于严格而不会妨碍收敛，我们在计算损失函数之前将全局和局部特征传递到投影函数Φa，由线性投影层和softmax激发层组成[15]知识的积累。我们的基于视觉的对比学习机制最终鼓励全局和局部特征之间语义信息的一致性，旨在鼓励模型捕获局部到全局的对应关系，从而促进密集分类任务的视觉嵌入的目标函数表示为：L视觉=H（Φa（ev（x）），Φa（ev（xlocal）（2）+v：mala2255获取更多论文j=1L⊙⊙ΣBvv∈vnBn=1 exp（ev（x）et（t）/τ）其中H（·）表示交叉熵损失。ViL-Seg 7自然语言监督的跨模态对比：学习已经在大规模视觉语言预训练任务中证明了自然语言监督的有效性[25，19，24]。我们的ViL-Seg继承了跨模态对比学习策略，旨在学习视觉嵌入ev和文本嵌入et，如果它们来自配对的图像和标题，则它们可以彼此靠近，如果不是，则远离具体地，给出包含b个图像-文本对{xj，tj}b的迷你图c，如果m=n，则图像特征ev（xm）和文本特征et（tn）是正对，相反是负的一对。然后，跨模态对比比对在小批量中的每个正对上执行为：（x），{t}）=−logexp（ev（xm）et（tm）/τ）Mn、（3）其中表示余弦相似度：ab=尼日利亚a，b ;τ表示温度-||2 ||B||2|| 2自然参数最后一个目标函数cross是所有正对的平均值：L交叉B=1（xbmm=1，{tn}n=1），（4）通过将视觉和文本嵌入对齐为Eq. 4.字幕中包含的类别信息可以成功地转移到视觉嵌入空间中，从而允许我们通过比较视觉特征与不同类别的词嵌入的相似性来对视觉特征进行3.3视觉嵌入的在线聚类语义分割需要为每个图像像素分配一个标签然而，上述跨模态对齐仅可以提供对全局视觉特征ev的分类能力，而不是每像素嵌入epxl。为了解决这个问题，我们建议聚类的每像素的视觉特征到不同的组，根据其语义。然后，每个语义区域的特征可以被分别抽象为区域级特征，用于跨模态对齐，以实现密集分类流水线。具体来说，我们采用在线聚类策略，通过最大化跨聚类分配的互信息来有效地分离视觉嵌入。给定每个像素的视觉嵌入e pxl∈RHW·D，我们的目标是将这些特征聚类到聚类空间Y={1，2，. . .，C}。为此，我们在图像编码器上构建了一个聚类头Φc，它由一个带有C通道的卷积层和一个softmax函数组成。将q，q′R1·D表示为来自epxl的一对像素嵌入，其包含相同的语义，目标我们的聚类头是保留q和q'之间的共同点，同时删除它们的实例特定信息，这相当于最大化它们的互信息：最大Φc I（Φc（q），Φc（q′））（5）BMn=1+v：mala2255获取更多论文vv··vv·vΣΣ Σ··-|C我C我8问。Liu等人在我们的例子中，由于每个图像像素的类别是未知的，所以成对的嵌入（q，q′）是不可用的因此，我们采用生成的嵌入对来计算聚类目标，通过分别提取输入图像x及其变换图像g（x）的嵌入，得到epxl（x）和epxl（g（x））。值得一提的是，这里的g（）不采用多重裁剪策略，而是采用随机的加性和乘性颜色变换，并带有水平翻转，这些都是仿射变换。由于g（）包含几何变换，因此在像素i处的嵌入epxl（x）i将对应于g−1（epx l（g（x）i。这是因为平移输入图像也会改变输出特征的几何顺序。我们需要通过将g−1（）应用于已修复图像的特征来撤销几何函数，使得它可以与e pxl（x）逐像素配对。请注意，我们计算不同视图的像素而不是相同类别的像素之间的聚类损失的原因是，在我们的情况下，像素的类别信息是未知的，因为没有提供密集的注释。此外，最大化转换视图之间的公共信息是促进同类聚类样本的有效策略，如无监督学习[6]所示，这符合我们在没有密集注释的情况下执行语义分割任务的目标。我们现在描述如何计算Eq的互信息五、为了描述的简单，我们将（qi，qi′）表示为epx l（x）和g−1（epx l（g（x）的像素i处的一对e mbedding。由于我们的聚类头输出软标签分布，V V但使用softmax激活函数，qi和qi′（即，从qi′预测qi的概率，反之亦然）由它们的联合概率分布Ji∈[0， 1]C×C给出：I（Φc（qi），Φc（qi′））=I（Ji），Ji=Φc（qi）·Φc（qi′）T（6）其中Jcc′=P（Φc（qi）=c，Φc（q′）=c′）. 在每一个迷你图中，我我分布J计算为：1BHWDJ=Φ（q）·Φ（q′）T（7）i=1最后，聚类目标相当于最大化矩阵J的相互信息[41]，并扩展为：C C cc′L团簇 = maxI（J）=maxJcc′ lnJJC Jc′c=1c′=1（八）其中Jc=P（Φc（qi）=c）和Jc′=P（Φc（qi′）=c′）分别通过对矩阵J的第c行和第c′列求和来计算。我们采用互信息和熵之间的关系[34]来解释为什么最大化互信息可以促进合理的聚类结果。Giv enI （Φc（qi）， Φc （qi′ ））=E （Φc（qi））E（Φc（qi）Φc（qi′）），最大化互信息等价于最大化个体聚类结果熵E（Φ c（q i）），同时最小化条件聚类结果熵E（Φc（qi））|Φc（qi′））。后者的最小值是在下列情况下获得的：BHWD+v：mala2255获取更多论文|vv联系我们联系我们vvCv McViL-Seg 9E（Φc（qi）Φc（qi′））=0，即， Qi和Qi′的聚类分配对于彼此是可预测的。因此，它鼓励将具有相似语义的嵌入分配给同一个集群。此外，当所有聚类在整个数据集的所有嵌入中以相等的概率分配时，E（Φc（qi））的值最大，从而可以避免所有特征都分配到同一个聚类的退化解.推理流水线：在推理期间，输入图像x的分割可以通过将其馈送到图像编码器以提取每像素视觉嵌入epxl（x）来产生，然后将其传递到聚类头以使用argmax函数获得具有C个聚类的聚类掩码M 0，1H×W×C。根据每个聚类M c所指示的语义区域，0.1高×宽，我们可以通过对像素索引中的每像素视觉嵌入进行滤波和平均来提取其区域级特征e rgn（M c），其中M c=1（参见图1）。该区域-图2中的水平平均池化），即，e rgn（M）=epxl（x）·Mc。最后通过比较各区域的区域级特征，给出各区域的类别名称Mc用不同类别的单词嵌入，使用提示符“a photo of ac a t e g o r y ” 作为C L I P [ 3 6 ] 。4实验4.1实验装置数据集和评估方案：根据零激发分割的文献[9，45，13]，我们对三个数据集进行了实验，包括PAS-CAL VOC [10]，PASCAL Context [31]和COCOStuff [2]。对于PASCAL VOC和PASCAL Context数据集，分别在包含1449幅和5105幅图像的验证集上对该方法进行了验证。对于COCO Stuff数据集，我们采用[9]中的设置，使用5000张图像进行测试。由于在不使用任何密集注释的情况下，我们的开放世界语义分割任务没有标准的评估协议，因此我们遵循[45，13]中定义的零射击分割设置来比较三个数据集的不可见类具体来说，看不见的类包含：PASCAL VOC中的20个对象类别中的5个类别（盆栽植物、羊、沙发、火车、电视监视器）; PASCAL Context中的59个对象类别中的4个类别（牛、摩托车、沙发、猫）;以及COCO Stuff数据集中的183个对象类别中的15个类别（飞盘、滑板、纸板、胡萝卜、剪刀、手提箱、长颈鹿、牛、道路、墙混凝土、树、草、河流、云、操场）。我们采用标准指标，包括平均交集（mIoU）[28]和像素精度（pix. acc.）以评估分割结果。实现细节：我们采用Transformer架构（ViT-B/16）对于图像编码器和文本编码器，遵循流行的视觉语言学习框架[36]，嵌入维数为512。在线簇头中的簇数C设置为25，我们将在消融分析中详细研究这个超参数。在基于视觉的对比中，6个局部斑块的多作物策略，和输出维度的+v：mala2255获取更多论文10问。Liu等人表1.在Pascal VOC、Pascal Context和COCO Stuff数据集上，将未观察到的类别分割结果与零炮分割方法进行比较。”ST”Pascal VOCPascal 上下文COCO Stuff方法mIoU [%]pix. acc. [百分比]mIoU [%]pix. acc. [百分比]mIoU [%]pix. acc. [百分比]SPNet[44]第三章[1]CaGNet（pi）[13][13]第十三话标志[9]CLIP+分段15.63-17.65 21.4726.59 42.9729.90 51.7628.86-27.40 48.35下午四点-7.68 19.2214.42 39.7614.98 39.8114.93-14.52 37.488.73-9.53 22.7512.23 25.4513.89 29.6215.47-13.20 28.75ViL-Seg（我们的）34. （完）（第二十七条）16. （第三十九条）45.64（+5.（第八十三条）16.43（+0. （完）（96）简体中文CAGNet +ST SIGN +STViL-Seg + ST21.15-30.31-33.12-37.30（+4. 18） 85.629.53-下午16时30分至16.71-18.94（+2。（13）50.1410.55-13.40-15.15-18.05（+2. 90） 35.23投影层为2048。我们使用Adam[29]优化器训练模型，使用5e-4的学习率，0.04的权重衰减系数和4000的预热迭代ViL-Seg模型是用CC 12 M数据集[4]训练的，该数据集包含从互联网上收集的大约1200万个图像-标题对整个框架使用48 Tesla V100 16GB进行训练，批量大小为768。4.2与其他方法实验设置：由于缺乏以前的研究，纯粹利用基于Web的图像字幕数据来学习分割新的对象类别，我们将我们的方法与几种流行的零镜头分割（ZSS）方法进行了比较，ZSS方法也分割新的对象类别，但通过利用可见基类和不可见类的词嵌入之间的关系。具体而言，比较方法包括：（1）SPNet[44]，一种语义投影网络，将每个图像像素映射到ZSS的语义词嵌入空间;（2）SIGN[1]，通过将分割模型与从语义词嵌入生成视觉表示的方法相结合来解决不可见类分割;（3）CaGNet [13]，将上下文模块设计到分割网络中，以从语义词嵌入中捕获更多样化的上下文信息;以及（4）SIGN[9]，一种最新的ZSS方法，使用位置编码将空间信息并入语义特征以改进对不可见类的分割。(5)CLIP[36]+ Seg，我们简单地使用CLIP密集预测的分类可以直接从CLIP的文本编码器的文本所有这些方法都遵循相同的零激发分割设置，如第2.2节所述。4.1，为了公平比较，我们比较了所有这些方法在使用或不使用自我训练的情况下的性能作为后续。对于每一种比较方法，结果要么引用他们的官方论文，要么引用其他以前的作品复制的数字+v：mala2255获取更多论文ViL-Seg 11图片103 CaGNet CLIP+SegOursGT火车猫狗沙发餐桌椅子用奶瓶盆栽监测天空树飞机建筑围栏牛草地面岩石木材签署图3. 与基线和其他方法的定性比较。前三个样本来自PASCAL VOC，后两个样本来自PASCAL Context。比较结果：表 1 列出了这些方法在 PASCAL VOC [10] 、 PASCALContext [31]和COCO stuff [2]数据集上的比较结果（“-”表示结果未在其论文中报告）。从该表中，我们可以得出以下观察结果：（1）我们的ViL-Seg在mIoU和像素精度方面优于所有三个数据集上的这些零拍摄分割方法。这证实了利用来自互联网的自然存在的图像-字幕对来学习可以分割各种开放世界对象类别的分割模型的可行性。值得注意的是，这些ZSS方法需要在包含不同基本类别的密集注释训练集上进行训练，但我们的ViL-Seg不使用任何具有密集注释的数据进行训练。(2)与其他两个数据集相比，ViL-Seg显示PASCAL VOC比其他方法有更大的增加。一个合理的原因是PAS-CAL VOC只包含15个用于这些ZSS方法训练模型的可见基类，这相对少于PASCAL Context和COCOStuff中的55和168个可见类在这种情况下，我们在PASCAL VOC中的较大改进可能反映了那些ZSS方法的局限性，这些方法需要具有密集注释的广泛基础类别才能获得良好的性能，并进一步证实了ViL-Seg不需要数据标记的优势。图3显示了ViL-Seg和基线之间的定性比较（SIGN[9]未发布其代码）。我们可以看到ViL-Seg实现了高精度。+v：mala2255获取更多论文L12问。Liu等人表2. 基于视觉的对比学习的消融分析（即，Lvision），并对三个数据集进行在线聚类设计。ViL-Seg w/oLvision离线（K均值）ViL-Seg4.3ViL-Seg的消融分析我们对这三个数据集进行了消融研究，以研究ViL-Seg的几个关键问题：1）ViL-Seg中基于视觉的对比学习的重要性;2）在线聚类头与离线聚类方法（如K-means）相比的优势;3）在线聚类头中聚类数的选择和影响;4） ViL-Seg在不同的不可见类上的性能在消融分析中，考虑三个数据集中的所有对象类别看不见的阶级。每个数据集上的性能是其包含的所有类的平均值。基于视觉的对比的重要性：除了跨模态对比以对齐视觉和文本嵌入空间之外，我们的框架中的图像编码器还通过对比局部和全局图像块来进一步监督自监督信号。从图4中的定性分割结果，我们可以清楚地看到，如果不使用这种基于视觉的对比（第二列），聚类结果无法准确地将语义对象与背景区域分开。此外，表2中的定量结果表明，删除此监督（ViL-Seg w/ovision）将导致所有三个数据集的性能大幅下降。这些结果反映了跨模态对比只能保证全局图像特征的语义，这对于密集分类问题是不够的，而我们的基于视觉的对比的附加自监督信号对于促进视觉嵌入中的细粒度语义是至关重要的。在线集群与离线聚类：传统上，将一组特征分割成不同聚类的常用方法是K-means等离线方法[22]。表2将我们的在线聚类设计与传统的离线方法进行了比较，通过将我们的在线聚类头替换为K-means来聚类每个像素的视觉嵌入。我们可以得出三个观察结果：（1）我们的在线聚类设计在所有三个数据集上都比离线方法获得了更高的分割性能。我们认为在线聚类头与视觉编码器紧密耦合，并且可以随着训练的进行而学习以提高视觉嵌入的质量，这是离线方法无法实现的。图4中的定性结果也可以反映出我们的在线方法（第四列）可以更好地改进学习的视觉嵌入，Params-86.19M86.27M速度（箱/秒）-8.59.8PascalmIoU [%]22.0530.9733.61VOCpix. acc. [百分比]50.7669.8875.97PascalmIoU [%]13.1414.8215.89上下文 pix. acc. [百分比]38.9041.6443.54CocomIoU [%]13.5215.8116.41+v：mala2255获取更多论文----联系我们ViL-Seg 13无视觉对比无在线聚类ViL-Seg（Ours）地面实况羊自行车人鸟图四、使用PASCAL VOC数据集的样本对ViL-Seg、无在线聚类的ViL-Seg和无基于视觉的对比的ViL-Seg进行定性比较。产生比离线方法更平滑的分割掩模（第三列）。(2)我们的在线聚类设计框架也实现了比离线K-means方法更高的推理速度（8.5 vs. 9.8例/s）。这这是因为K均值需要离线执行作为对网络特征的后处理，这将限制推理效率。相比之下，我们的在线聚类设计使我们的方法的训练和推理端到端，并允许我们自适应地聚类每个样本的视觉嵌入。(3)与离线方法相比，在线聚类设计仅增加了0.08M个网络参数，不到原始网络参数的0.1%。在线聚类头中簇数的影响：在我们的方法中，簇数C是重要的，并且影响在线聚类头的结果。直观地说，较少的聚类可能无法覆盖基于web的图像字幕数据中的不同语义，而太多的聚类可能会增加学习难度，因为聚类头仅以互信息最大化的无监督目标来为了验证上述直觉并研究C的合适选择，我们通过改变C5， 10， 15， 20， 25， 35重复ViL-Seg的实验。如图5、聚类数中等水平（C= 20、 25）的模型比聚类数较小（C= 5、 10、 15）或聚类数较大（C=30）的模型表现更好。这些结果证实了我们的上述分析，我们最终在我们的方法中采用C在不同的不可见类上的性能：在图6中，我们显示了ViL-Seg在所有20个PASCAL VOC不可见类上的mIoU。据观察，ViL-Seg可以实现超过50%的mIoU的类，如这输入图像+v：mala2255获取更多论文14问。Liu等人在线簇头中的簇号图五 . 在 PASCAL VOC 、 PASCALContext和COCO stuff数据集上，在线聚类头中不同选择的聚类数C下ViL-Seg的分割性能。见图6。ViL-Seg在PASCAL VOC数据集的所有20个不可见类别上的分割性能。值得注意的是，ViL-Seg可以在20个看不见的类中的14个上获得大于20%的由于基于Web的数据中包含的各种语义信息，这使得ViL-Seg即使不使用任何具有密集注释的训练数据也能很好地分割这些对象类别。我们还注意到，在“人”或“车”类中，性能相对较低。这很可能是由视觉语言模型的不平衡识别能力，这在以前的研究中也有报道[36]。例如，图像标题通常可以使用诸如“man”、“wom a n“之类的词来表示一个对象;并且使用品牌名称的词来表示一辆汽车，使得模型对这些对象类别不太敏感。我们可以考虑将对象类别的不同同义词的结果组合起来以缓解这个问题[27]。5结论我们已经做了第一次尝试，学习分割开放世界的对象类别，纯粹利用互联网上的图像标题数据，而不使用任何数据与密集的注释。ViL-Seg通过采用两种互补的对比学习策略来提高视觉嵌入的质量，并通过在线聚类头动态地将其分割为不同的语义组，从而实现分割能力。由于互联网上巨大的数据资源，我们的方案在三个基准数据集上对现实中的不同语义概念进行了分割，结果优于零拍分割方法，也为语义分割任务打开了一扇大门，最大程度地减少了人工标注。mIoU[%][%]mIoU [%]+v：mala2255获取更多论文ViL-Seg 15引用1. MaximeBu cher，Tuan-HungVu，MatthieuCord，andPatri ckP'erez. 零炮扫描分割。神经信息处理系统的进展，32：468- 479，2019。2. Holger Caesar Jasper Uijlings和Vittorio FerrariCoco-stuff：Thing and stuff类在上下文中。在IEEE计算机视觉和模式识别会议论文集，第1209-1218页3. Mathilde Caron，Ishan Misra，Julien Mairal，Priya Goyal，Piotr Bojanowski，and阿曼德·朱林通过对比聚类分配的视觉特征的无监督学习。arXiv预印本arXiv：2006.09882，2020。4. Soravit Changpinyo，Piyush Sharma，Nan Ding，and Radu Soricut. 概念12 m：推动网络规模的图像-文本预训练，以识别长尾视觉概念。在IEEE/CVF计算机视觉和模式识别会议论文集，第3558-3568页， 20 2 1 年。5. Liang-Chieh Chen，George Papandreou，Iasonas Kokkinos，Kevin Murphy，and艾伦·L·尤尔。Deeplab：使用深度卷积的语义图像分割nets，atrous convolution和fully connected crfs 。 IEEE transactions on pattern analysis and machineintelligence，40（4）：8346. Ting Chen，Simon Kornblith，Mohammad Norouzi，and Geoffrey Hinton.一个模拟-视觉表征对比学习的一个框架。国际机器学习会议，第1597PMLR，2020年。7. 陈新蕾，Abhinav Shrivastava和Abhinav Gupta。提取视觉从Web数据中获取知识2013年IEEE计算机视觉国际会议，第1409-1416页8. Yen-Chun Chen，Linjie Li，Licheng Yu，Ahmed El Kholy，Faisal Ahmed，Zhe Gan，Yu Cheng，and Jingjing Liu. Uniter：通用图像-文本表示学习。欧洲计算机视觉会议，第104-120页。斯普林格，2020年。9. Jiaxin Cheng，Soumyaroop Nandi，Prem Natarajan，and Wael Abd-Almageed.标志：空间信息集成生成网络，用于广义零射击语义分割，2021年。10. Mark Everingham，Luc Van Gool，Christopher KI Williams，John Winn和An-德鲁·泽瑟曼。pascal visual object classes（pascal visual object classes）国际计算机视觉杂志，88（2）：30311. Chuanxing Geng，Sheng-jun Huang，and Songcan Chen.开放的最新进展集合识别：一项调查。IEEE transactions on pattern analysis and machineintelligence，2020。12. Xiuye Gu，Tsung-Yi Lin，Weicheng Kuo，and Yin Cui.开放词汇表对象通过视觉和语言知识蒸馏进行检测，2021年。13. Zhangxuan Gu，Siyuan Zhou，Li Niu，Zihan Zhao，and Liqing Zhang. 零镜头语义分割的上下文感知特征生成。第28届ACM国际多媒体会议论文集，第1921-1929页，2020年。14. 阿格里姆·古普塔，皮奥特·杜洛，罗斯·吉希克。Lvis：一个大词汇量实例分割在IEEE/CVF计算机视觉和模式识别会议论文集，第5356-5364页15. 杰弗里·辛顿，奥里尔·维尼亚，杰夫·迪恩.从神经网络网络arXiv预印本arXiv：1503.02531，2015年。16. Zhicheng Huang， Zhaoyang Zeng ，Yupan Huang， Bei Liu ，Dongmei Fu，andJian-龙富。开箱即用：视觉语言表达学习的端到端预培训。在IEEE/CVF计算机视觉和模式识别会议论文集，第12976-12985页，2021年。+v：mala2255获取更多论文16Q. Liu等人17. Yuqi Huo ， Manli Zhang ， Guangzhen Liu ， Haoyu Lu ， Yizhao Gao ， GuoxingYang，Jingyuan Wen，Heng Zhang，Baogui Xu，Weihao Zheng，et al. Wenlan：Bridg- ing vision and language by large-scale multi-modal pre-training. arXiv预印本arXiv：2103.06561，2021。18. Jyh-Jing Hwang，Stella X Yu，Jianbo S

下载后可阅读完整内容，剩余1页未读，立即下载