没有合适的资源?快使用搜索试试~ 我知道了~
I1I2⋯InT1T2⋮TnT2·I1⋮Tn·I1T1·I2⋮Tn·I2T1·I1⋯⋮Tn·In⋯⋯T1·InT2·InT2·I2⋱⋮⋯116860CRIS: 基于 CLIP 的指代图像分割0赵庆王 1, 2 * 陆宇 3 � 李强 4 � 陶勋强 2 郭彦东 20Mingming Gong 5 Tongliang Liu 101 悉尼大学; 2 OPPO 研究院; 3 北京邮电大学04 快手科技; 5 墨尔本大学0{derrickwang005,taoxunqiang}@gmail.com; aniki@bupt.edu.cn liqiang03@kuaishou.com0yandong.guo@live.com; mingming.gong@unimelb.edu.au; tongliang.liu@sydney.edu.au0摘要0指代图像分割旨在通过自然语言表达来分割一个指代物体。由于文本和图像之间具有不同的数据属性,网络很难将文本和像素级特征很好地对齐。现有的方法使用预训练模型来促进学习,但是分别从预训练模型中传递语言/视觉知识,忽略了多模态的对应信息。受到对比语言-图像预训练 (CLIP)的最新进展的启发,本文提出了一个端到端的基于 CLIP的指代图像分割框架(CRIS)。为了有效地传递多模态知识,CRIS采用了视觉-语言解码和对比学习来实现文本到像素的对齐。具体来说,我们设计了一个视觉-语言解码器,将细粒度的语义信息从文本表示传播到每个像素级激活,从而促进两种模态之间的一致性。此外,我们提出了文本到像素的对比学习,明确地将文本特征与相关的像素级特征相似,并将其与无关的特征区分开来。在三个基准数据集上的实验结果表明,我们提出的框架在没有任何后处理的情况下显著优于现有技术水平。01. 引言0指代图像分割[14, 49,50]是视觉和语言理解交叉领域中的一个基础性和具有挑战性的任务,可以在包括交互式图像编辑和人-物交互在内的广泛应用中发挥潜在作用。与语义和实例分割[8, 10, 12,47]不同,后者需要对属于预先确定的一组类别的视觉实体进行分割,指代图像分割不受限制。0* 平等贡献0图像编码器0文本0编码器0图像0文本0图像编码器0文本0编码器0解码器0(a) CLIP0(b) CRIS0传输0知识0文本到像素的对比0T0V0图1. 我们主要思想的示意图。 (a) CLIP [39]同时训练图像编码器和文本编码器,以预测一批图像 I 和文本 T的正确配对,从而捕捉多模态的对应信息。(b) 为了将 CLIP模型从图像级别转移到像素级别,我们提出了一个基于 CLIP的指代图像分割 (CRIS)框架。首先,我们设计了一个视觉-语言解码器,将细粒度的语义信息从文本特征传播到像素级别的视觉特征。其次,我们将所有像素级别的视觉特征 V 与全局文本特征 T结合起来,并采用对比学习,将文本和相关的像素级特征拉近,将其他无关的特征推开。0指示特定类别,而是根据输入的语言表达式找到特定区域。由于图像和语言模态具有不同的属性,很难明确地将文本特征与像素级激活对齐。受益于深度神经网络的强大能力,早期的方法[14, 22, 25,33]直接将文本特征与每个视觉激活连接起来,使用这些组合特征生成分割掩码。随后,为了116870语言:“一个金发蓝眼的小男孩穿着蓝色夹克”0语言:“一只斑马在其他斑马前面”0(b)GT(c)Naïve(f)Ours(a)图像(b)GT(c)Naïve(f)Ours(a)图像0图2.直接微调和我们提出的方法之间的比较。“Naive”表示第4节中提到的直接微调。与直接微调相比,我们的方法不仅可以利用CLIP的强大的跨模态匹配能力,还可以学习细粒度的视觉表示。0为了解决两种模态之间互动不足的问题,一系列方法[4,16,17,42,49]采用语言-视觉注意机制来更好地学习跨模态特征。现有方法[4,16,17,42,49]利用外部知识促进共同学习,但主要利用单模态预训练(例如,预训练的图像或文本编码器),缺乏多模态对应信息。通过利用大规模无标签数据的语言监督,视觉-语言预训练[34,39,46]能够学习丰富的多模态表示。最近,CLIP[39]的显著成功表明它能够从4亿个图像-文本对中学习SOTA的图像级视觉概念,这有助于许多多模态任务取得显著改进,包括图像-文本检索[39],视频-文本检索[6,31]。然而,如图2所示,直接使用CLIP对于像素级预测任务(例如指代图像分割)可能不是最优的,因为图像级和像素级预测之间存在差异。前者关注输入图像的全局信息,而后者需要学习每个空间激活的细粒度视觉表示。在本文中,我们探索利用CLIP模型的强大知识进行指代图像分割,以增强跨模态匹配能力。考虑到指代图像分割的特点,我们提出了一种名为CLIP驱动的指代图像分割(CRIS)的有效灵活框架,可以传递CLIP的丰富多模态对应知识,实现文本到像素的对齐。首先,我们提出了一个视觉-语言解码器,通过自注意操作捕捉像素级特征的长程依赖关系,并通过交叉注意操作将细粒度的文本特征自适应地传播到像素级特征中。其次,我们引入了文本到像素的对比学习,可以在多模态嵌入空间中对齐语言特征和相应的像素级特征,同时区分不相关的像素级特征。基于这个方案,模型可以通过交织语言和像素级视觉特征来明确学习细粒度的视觉概念。0我们的主要贡献总结如下:0•我们提出了一种CLIP驱动的指代图像分割框架(CRIS),以传递CLIP模型的知识,实现文本到像素的对齐。0•我们充分利用了这种多模态知识,采用了两种创新设计,即视觉-语言解码器和文本到像素的对比学习。0•在三个具有挑战性的基准测试中,实验结果明显优于以前的最先进方法(例如,在Ref-COCO上的IoU提高了4.89,RefCOCO+上的IoU提高了8.88,G-Ref上的IoU提高了5.47)。02. 相关工作0视觉-语言预训练。近年来,视觉-语言预训练在各种多模态下游任务上取得了快速进展,并取得了令人印象深刻的性能。通过利用大规模图像数据的语义监督,提出了几种方法[34,39,46]来从文本表示中学习视觉表示。MIL-NCE[34]主要通过端到端的方式利用嘈杂的大规模Howto100M[35]教学视频来学习更好的视频编码器。SimVLM[46]通过利用大规模弱监督来减少训练复杂性,并采用端到端的单前缀语言建模目标。由于从互联网收集的大规模图像和文本对,最近的一种方法,即对比语言-图像预训练(CLIP)[39],在嵌入空间中实现了两种模态表示的显著对齐成功。CLIP采用对比学习与高容量语言模型和视觉特征编码器相结合,以捕捉用于零样本图像分类的引人注目的视觉概念。最近,一系列工作[6,31,38,43]提出了将CLIP模型的知识转移到下游任务,并取得了有希望的结果,如视频字幕,视频-文本检索和图像生成。与这些工作不同,我们将这些图像级视觉概念转移到指代图像分割中,以利用多模态对应信息。As illustrated in Figure 3, the input of our frameworkconsists of an image I and a referring expression T.Image Encoder. For an input image I ∈ RH×W ×3,we utilize multiple visual features from the 2th-4th stagesof the ResNet, which are defined as Fv2 ∈ RH8 × W8 ×C2,Fv3 ∈ RH16 × W16 ×C3, and Fv4 ∈ RH32 × W32 ×C4, respectively.Note that C is the feature dimension, H and W are theheight and width of the original image.Text Encoder. For an input expression T ∈ RL, we adopta Transformer [44] modified by [40] to extract text featuresFt ∈ RL×C. The Transformer operates on a lower-casedbyte pair encoding (BPE) representation of the text with a49,152 vocab size [41], and the text sequence is bracketedwith [SOS] and [EOS] tokens. The activations of thehighest layer of the transformer at the [EOS] token arefurther transformed as the global textual representation Fs ∈RC′. Note that C and C′ are the feature dimension, L is thelength of the referring expression.Cross-modal Neck. Given multiple visual features andFm4 = Up(σ(Fv4Wv4) · σ(FsWs)),(1)Fm3 = [σ(Fm4Wm4), σ(Fv3Wv3)],F= [σ(FW), σ(F ′ W)], F ′ = Avg(F),116880对比学习这些方法回溯到[9],通过将正样本与负样本进行对比来学习表示。提出了几种方法[2,3,11,23,48],将每个图像视为一个类,并使用基于对比损失的实例鉴别进行表示学习。最近,VADeR和DenseCL[37,45]提出了探索像素级对比学习,以填补自我监督表示学习和密集预测任务之间的差距。此外,CLIP[39]提出了一种有前途的替代方案,通过使用跨模态对比损失从大规模收集的图像-文本对中直接学习可传递的视觉概念。在本文中,我们提出了一个CLIP驱动的指称图像分割(CRIS)框架,以端到端的方式将CLIP模型的知识转移到指称图像分割中。0参考图像分割参考图像分割是通过理解给定的自然语言表达来在图像中分割目标区域(例如物体或物质),最早由[14]引入。早期的工作[22,25,33]分别通过CNN和LSTM提取视觉和语言特征,并直接将两种模态连接起来,通过FCN[28]获得最终的分割结果。在[50]中,他们提出了一种两阶段的方法,首先使用MaskR-CNN[12]提取实例,然后采用语言特征从这些实例中选择目标。此外,MCN[30]设计了一个实现令人印象深刻的结果的框架。他们学习优化两个相关任务,即指称表达理解和分割。0随着注意机制引起越来越多的兴趣,一系列的工作被提出来采用注意机制。它能够提取与语言表达相对应的视觉内容。[42]使用视觉引导的语言注意力来自适应地聚合每个视觉区域的语言上下文。[49]设计了一个跨模态自注意力(CSMA)模块,以关注句子中的信息词和图像中的关键区域。[15]提出了一个双向关系推断网络,采用了语言引导的视觉和视觉引导的语言注意力模块,捕捉两种模态之间的相互引导。此外,LTS[18]通过引入位置先验将任务分解为“定位-然后-分割”的方案,设计了一个强大的流水线。EFNet[7]设计了一种共同注意机制,使用语言逐步优化多模态特征,可以促进跨模态信息表示的一致性。最近,VLT[5]采用变压器构建了一个具有编码器-解码器注意机制的网络,以增强全局上下文信息。与以前的方法不同,我们旨在利用CLIP的知识,以提高多模态信息的兼容性并增强跨模态匹配的能力。03. 方法论0如图3所示,我们介绍了提出的CRIS框架如何通过利用多模态对应信息将CLIP的知识转移到指称图像分割中,实现从文本到像素的对齐。首先,我们使用ResNet[13]和Transformer[44]分别提取图像和文本特征,然后将它们融合以获得简单的多模态特征。其次,将这些特征和文本特征输入到视觉-语言解码器中,从文本表示向像素级视觉激活传播细粒度的语义信息。最后,我们使用两个投影器生成最终的预测掩码,并采用文本到像素的对比损失来明确地将文本特征与相关的像素级视觉特征对齐。03.1. 图像和文本特征提取0通过融合 F v 4 和 F s ,将其扩展为 16 × C :0其中 Up ( ∙ ) 表示 2 × 上采样,∙ 表示逐元素乘法,σ表示ReLU,W v 4 和 W s是两个可学习矩阵,将视觉和文本表示转换为相同的特征维度。然后,通过以下方式获得多模态特征 F m 2 和 F m 3 :0(2) 其中 Avg ( ∙ ) 表示 2 × 2 平均池化的核大小,[ , ]表示连接操作。随后,我们将三个多模态特征连接起来,并'%123N…SE123L……Fm = Conv([Fm2, Fm3, Fm4]),(3)where Fm ∈ RH16 × W16 ×C. Finally, we concatenate a 2Dspatial coordinate feature Fcoord ∈ RH16 × W16 ×2 with Fm andfuse that bThe visual featureFv ∈ RH16 ×Fv = Conv([Fm, Fcoord]).(4)F ′v = MHSA(LN(Fv)) + Fv,(5)116890文本编码器 � " ∈ � % &0连接部分 � * ∈ � +×%0图像编码器0文本投影仪和图像投影仪0视觉0解码器 ×�0视觉标记 -+0位置编码0文本标记 -+0位置编码0一只小羊在草地上行走0嵌入空间0预测0拉近 推远0位置编码 视觉标记文本标记0图 3. 所提出的 CLIP-Driven Referring Image Segmentation (CRIS) 框架的概述。CRIS主要由文本编码器、图像编码器、跨模态连接部分、视觉-语言解码器和两个投影仪组成。视觉-语言解码器用于自适应地从文本特征传播到视觉特征中的语义信息。文本到像素级视觉特征的对比学习用于通过交织文本特征和像素级视觉特征来显式学习细粒度的多模态对应信息。0使用 1 × 1 卷积层进行聚合:016 × C 的计算如下:0如图 3 所示,我们将 F v 的空间域展平为一个序列,形成视觉特征 F v ∈ R N × C ,其中N = H 16 × W016 ,在后续过程中被利用。03.2. 视觉-语言解码器0我们设计了一个视觉-语言解码器,用于自适应地从文本特征传播细粒度的语义信息到视觉特征。如图 3所示,解码器模块接受文本特征 F t ∈ R L × C和像素级视觉特征 F v ∈ R N × C作为输入,可以提供与视觉特征相对应的丰富文本信息。为了捕捉位置信息,固定的正弦空间位置编码分别添加到 F v[ 1 ] 和 F t [ 44 ] 中。视觉-语言解码器由 n层组成,用于生成一系列演化的多模态特征 F c ∈ R N ×C 。按照 transformer [ 44 ]的标准架构,每一层由多头自注意力层、多头交叉注意力层和前馈网络组成。在一个解码器层中,首先对 F v 进行0将其输入到多头自注意力层中以捕捉全局上下文信息:0其中 F ′ v 是演化的视觉特征,MHSA ( ∙ ) 和 LN ( ∙ )分别表示多头自注意力层和层归一化 [ 21]。多头自注意力机制由三个逐点线性层组成,将 F v映射到中间表示,查询 Q ∈ R N × d q ,键 K ∈ R N × dk 和值 V ∈ R N × d v 。多头自注意力计算如下:0MHSA(Q, K, V) = softmax(QKT0√dk) V. (6)0然后采用多头交叉注意力层将细粒度语义信息传播到进化的视觉特征中,其中一个逐点线性层将F′v映射到Q,另外两个线性层将Ft映射到K和V。为了获得多模态特征Fc,进一步通过具有层归一化和残差连接的两层MLP块计算输出查询Q:0Fc = MLP(LN(F′c)) + F′c, (7)0其中MHCA(∙)表示多头交叉注意力层,F′c是中间特征。进化的多模态特征Fc用于最终的分割掩码。请注意,超参数n将在下面的实验部分中讨论。1169003.3. 文本到像素对比学习0尽管CLIP[39]通过将文本表示与图像级表示对齐来学习强大的图像级视觉概念,但这种类型的知识对于指代图像分割来说是次优的,因为缺乏更精细的视觉概念。为了解决这个问题,我们设计了一种文本到像素对比损失,它明确地将文本特征与相应的像素级视觉特征对齐。如图3所示,采用图像和文本投影仪将Fc和Fs转换为如下形式:0zt = F s W t + bt, (8)04,Up表示4×上采样,Wv和Wt是两个可学习的矩阵,用于将Fc和Fs转换为相同的特征维度D,bv和bt是两个可学习的偏置。给定一个转换后的文本特征zt和一组转换后的像素级特征zv,采用对比损失来优化两种模态之间的关系,其中zt被鼓励与其对应的zv相似,并与其他不相关的zv不相似。通过点积测量相似性,文本到像素对比损失可以表示为:0Licon(zt, ziv) =0� - log σ(zt∙ziv), i∈P, -log(1 - σ(zt∙ziv)),i∈N, (9)0Lcon(zt, zv) = 10|P∪N|0i∈P∪N Licon(zt, ziv), (10)0其中P和N表示地面真值中的“1”和“0”类别,|P∪N|是基数,σ是sigmoid函数。最后,为了获得最终的分割结果,我们将σ(zt∙zv)重塑为H。0然后将其上采样回原始图像尺寸。04. 实验结果0我们提出的框架是建立在不同的图像编码器(例如ResNet-50,ResNet-101[13])上,并与一系列最先进的方法进行比较。为了评估我们方法中每个组件的有效性,我们在三个基准测试中进行了大量实验,包括RefCOCO [19],RefCOCO+ [19]和G-Ref[32]。04.1. 数据集0RefCOCO[19]是用于指代图像分割的最大和最常用的数据集之一。它包含19,994张图像,142,210个指代表达式,用于50,000个对象,这些对象是通过两人游戏[19]从MSCOCO[24]中收集的。该数据集分为120,624个训练样本,0分别包含10,834个验证样本,5,657个测试A样本和5,095个测试B样本。根据统计数据,每个图像包含两个或更多对象,每个表达式的平均长度为3.6个单词。RefCOCO+[19]数据集包含19,992张图像中的141,564个语言表达式和49,856个对象。该数据集分为训练、验证、测试A和测试B,分别包含120,624、10,758、5,726和4,889个样本。与RefCOCO数据集相比,RefCOCO+数据集中排除了某些绝对位置词,这可能比RefCOCO数据集更具挑战性。G-Ref[36]包括26,711张图像中的54,822个对象的104,560个指代表达式。与上述两个数据集不同,G-Ref中的自然表达式是从亚马逊的MechanicalTurk收集的,而不是通过两人游戏。句子的平均长度为8.4个单词,其中有更多关于位置和外观的词。值得一提的是,本文采用了UNC分区。04.2. 实现细节0实验设置。我们使用CLIP[39]初始化文本和图像编码器,并采用ResNet-50[13]作为所有消融研究的图像编码器。输入图像被调整为416×416。由于额外的[SOS]和[EOS]标记,输入句子的最大句子长度为17(对于RefCOCO和RefCOCO+)和22(对于G-Ref)。每个Transformer解码器层有8个头,前馈隐藏维度设置为2048。我们使用学习率λ=0.0001训练网络50个时期。学习率在第35个时期降低0.1倍。我们在8个TeslaV100上使用64个批次大小训练模型,每个GPUVRAM上使用16个。在推理过程中,我们将预测结果上采样到原始图像大小,并以0.35的阈值进行二值化作为最终结果。不需要其他后处理操作。度量标准。根据之前的工作[5,22, 25,33],我们采用两个度量标准来验证效果:IoU和Precision@X。IoU计算预测分割掩码与真实标签的交集区域与并集区域的比例。Precision@X衡量IoU得分高于阈值X∈{0.5, 0.6,0.7, 0.8,0.9}的测试图像的百分比,重点关注方法的定位能力。04.3. 消融研究0所提出的CRIS框架由两个主要部分组成,即文本到像素对比学习和视觉-语言解码器。为了研究我们方法中的每个组件,我们在三个广泛使用的数据集的验证集上进行了大量实验。对比学习和视觉-语言解码器的有效性。首先,我们移除了框架中的文本到像素对比学习和视觉-语言解码器部分,构建了与图2中的朴素设置相同的基线。如表1所示,我们引入了对比学习方案,它在三个数据集上的IoU准确性分别比基线网络提高了1.98%,2.98%和3.43%。这种卓越的性能提升证明了对比损失可以鼓励模型明确拉近语言和相关的像素级视觉表示,并将其他不相关的内容推开,以学习精细结构的多模态对应信息。RefCOCO---62.6672.5567.2959.5343.5212.72131.8627.30✓--64.6474.8969.5861.7045.5013.31134.2225.79-✓166.3177.6672.9965.6748.4314.81136.0723.02✓✓168.6680.1675.7268.8251.9815.94138.4322.64✓✓269.1380.9676.6069.6752.2316.09142.6420.68✓✓369.5281.3577.5470.7952.6516.21146.8519.22✓✓469.1880.9976.7469.3252.5716.37151.0618.26RefCOCO+---50.1754.5547.6940.1928.758.21131.8627.30✓--53.1558.2853.7446.6734.019.30134.2225.79-✓154.7363.3158.8952.4638.5311.70136.0723.02✓✓159.9769.1964.8558.1743.4713.39138.4322.64✓✓260.7570.6966.8360.7445.6913.42142.6420.68✓✓361.3971.4667.8261.8047.0015.02146.8519.22✓✓461.1571.0566.9461.2546.9814.97151.0618.26G-Ref---49.2453.3345.4936.5823.906.92131.8625.72✓--52.6759.2752.4544.1229.538.80134.2225.33-✓151.4658.6853.3345.6131.7810.23136.0722.57✓✓157.8266.2860.9953.2138.5813.38138.4322.34✓✓258.4067.3061.7254.7039.6713.40142.6420.61✓✓359.3568.9363.6655.4540.6714.40146.8519.14✓✓458.7967.9163.1155.4339.8113.48151.0617.84116910Table 1.三个基准验证集上的消融研究。Con.表示提出的文本到像素对比学习。Dec.表示提出的视觉-语言解码器。n表示视觉-语言解码器中的层数。我们将Num设置为3作为默认值。“Params”和“FPS”分别表示参数复杂度(M)和推理速度。给定一个图像I∈R416×416×3,它们在Tesla V100 GPU上计算得出。灰色线表示基线网络。0数据集 Con. Dec. n IoU Pr@ 50 Pr@ 60 Pr@ 70 Pr@ 80 Pr@ 90 Params FPS0从框架中删除文本到像素对比学习和视觉-语言解码器的部分,构建了与图2中的朴素设置相同的基线,如图1所示。如表1所示,我们引入了对比学习方案,它在三个数据集上的IoU准确性分别比基线网络提高了1.98%,2.98%和3.43%。这种卓越的性能提升证明了对比损失可以鼓励模型明确拉近语言和相关的像素级视觉表示,并将其他不相关的内容推开,以学习精细结构的多模态对应信息。0此外,我们评估了提出的视觉语言解码器的性能。与基线网络相比,我们在解码器中使用了一层,分别在RefCOCO,Re-fCOCO+和G-Ref上提高了3.65%,4.56%和2.22%的IoU。特别是,自注意操作可以帮助模型充分捕捉每个像素之间的长程依赖关系,这对于理解复杂场景是有帮助的。此外,文本编码器编码的每个单词都用于交叉注意操作,这可以将细粒度的语义信息从文本特征传播到像素级特征,生成更具辨别力的视觉表示和0获得更准确的分割掩码。最后,结合提出的对比损失和视觉语言解码器,IoU和精度明显优于仅具有对比损失或解码器模块的基线,进一步在三个数据集上取得了大约4%-8%的较大优势。这种明显的互补现象的原因是对比损失可以引导解码器找到更具信息量的强调,并将这种知识转移到更准确的像素级视觉表示中,从而提升了跨模态匹配的能力并生成精确的分割掩码。解码器中的层数。在表1中,结果说明了在视觉语言解码器中使用不同层数的效果。当视觉表示通过更多层进行顺序处理时,我们的模型在三个基准上的IoU分别为69.52%,61.39%和59.35%。 n =1的设置可能没有充分利用来自视觉和语言的多模态对应信息。同时,n =4的设置引入了更多的参数,可能增加了过拟合的风险。考虑到性能和效率,我们将n = 3设置为我们框架的默认值。116920表2.与最先进方法在三个基准上的比较。我们报告了使用不同视觉骨干的方法的结果。“�”表示DenseCRF[20]的后处理。“-”表示未提供结果。使用IoU作为度量标准。0方法 骨干 RefCOCO RefCOCO+ G-Ref0val test A test B val test A test B val test0RMI�[25] ResNet-101 45.18 45.69 45.57 29.86 30.48 29.50 - - DMN[33] ResNet-101 49.78 54.83 45.1338.88 44.22 32.29 - - RRN�[22] ResNet-101 55.33 57.26 53.95 39.75 42.15 36.11 - - MAttNet[50]ResNet-101 56.51 62.37 51.70 46.67 52.39 40.08 47.64 48.61 NMTree[26] ResNet-101 56.59 63.0252.06 47.40 53.01 41.56 46.59 47.88 CMSA�[49] ResNet-101 58.32 60.61 55.09 43.76 47.60 37.89 - -Lang2Seg[4] ResNet-101 58.90 61.77 53.81 - - - 46.37 46.95 BCAN�[15] ResNet-101 61.35 63.3759.57 48.57 52.87 42.13 - - CMPC�[16] ResNet-101 61.36 64.53 59.64 49.56 53.44 43.23 - - LSCM�[17]ResNet-101 61.47 64.99 59.55 49.34 53.12 43.50 - - MCN[30] DarkNet-53 62.44 64.20 59.71 50.6254.99 44.69 49.22 49.40 CGAN[29] DarkNet-53 64.86 68.04 62.07 51.03 55.51 44.06 51.01 51.69EFNet[7] ResNet-101 62.76 65.69 59.67 51.50 55.24 43.01 - - LTS[18] DarkNet-53 65.43 67.76 63.0854.21 58.32 48.02 54.40 54.25 VLT[5] DarkNet-53 65.65 68.29 62.73 55.50 59.20 49.36 52.99 56.650CRIS(我们的方法)ResNet-50 69.52 72.72 64.70 61.39 67.10 52.48 59.35 59.39CRIS(我们的方法)ResNet-101 70.47 73.18 66.10 62.27 68.08 53.68 59.87 60.3604.4. 主要结果0我们将我们提出的方法CLIP-Driven Refer- ring ImageSegmentation与一系列最先进的方法在三个常用数据集上进行比较。如表2所示,即使我们使用了一个浅层的ResNet-50[13],我们的方法在所有数据集的每个划分上都超过了其他方法。在RefCOCO数据集上,我们的模型在三个划分上分别比最先进的Vision Language Transformer[5]提高了4.82%,4.89%和3.37%,这表明我们的模型有效地将CLIP模型从图像级别转移到像素级别,增强了跨模态匹配的能力。此外,在表2中,我们的方法在更具挑战性的RefCOCO+数据集上取得了约4〜8%的显着性能提升。这些明显的改进表明我们的方法能够充分利用CLIP的强大知识,准确地聚焦给定语言表达所指的区域。此外,在另一个更复杂的G-Ref数据集上,其中引用表达式的平均长度较复杂,我们提出的方法始终比最先进的Locate then Segmentation[18]获得约5%的IoU改进。如表2所示,结果表明我们提出的方法能够理解包含更多信息和更多强调的长而复杂的句子,并同时感知相应的对象。除此之外,更长的引用表达式0表达可能包含复杂的场景,需要强大的全局上下文信息建模能力。我们提出的视觉-语言解码器适合增强对视觉和语言特征的整体理解能力。04.5. 定性分析0可视化。如图4所示,我们展示了一些不同设置的可视化结果,展示了我们提出的方法中每个组件的好处。首先,与我们的完整模型相比,没有对比学习和视觉-语言解码器的基准网络生成的分割掩码更差,因为基准网络无法将指代表达与相应区域交织在一起。其次,设置(d)和(e)可以获得比基准网络更准确的分割结果,但模型在一些困难区域仍然存在困惑。最后,我们提出的完整模型可以生成高质量的分割掩码,这证明了我们提出的方法的有效性,即CRIS。失败案例。我们在图5中展示了一些有启示性的失败案例。一种失败类型是由于输入表达的歧义性。对于图5左上角的例子,表达“黄色”不足以描述穿着黄色雪服的人的区域。此外,对于图5右上角的例子,一些失败也是由于错误的标签。很明显,顶部区域与“手指”无关。如图5左下角所示,无法准确分割指代物的边界,但可以通过引入其他技术(例如)来缓解这个问题。116930语言:“左边被切断的男人”0(b)GT(c)基准(e)无对比(d)无解码(f)我们的0语言:“电视上的主要人物”0语言:“最矮的人”0语言:“黑色西装戴护目镜的人”0(a)图像0图4.不同设置的定性示例。(a)输入图像。(b)基准网络。(c)没有视觉-语言解码器的CRIS。(d)没有对比学习的CRIS。(e)我们提出的CRIS。最佳观看效果为彩色。0(a)图像(b)GT(c)我们的0语言:“黄色”0语言:“热情的男人”0语言:“握热狗的手指”0语言:“年轻男人被男人的手臂遮挡住脸”0(a)图像(b)GT(c)我们的0图5. 失败案例的定性示例。最佳观看效果为彩色。0细化模块。最后,遮挡可能导致失败案例,在许多视觉任务中这是一个具有挑战性的问题。05. 结论0在本文中,我们研究了利用对比性语言-图像预训练(CLIP)模型来实现指代图像分割的文本到像素对齐。我们提出了一个端到端的CLIP驱动的指代图像分割(CRIS)框架,以很好地传递CLIP模型的知识。与直接微调相比,我们提出的框架不仅继承了CLIP的强大的跨模态匹配能力,还学习了丰富的细粒度视觉表示。0tions.设计的视觉-语言解码器可以自适应地传播语言表达的足够语义信息到像素级视觉特征,促进两种模态之间的一致性。此外,引入的文本到像素对比学习可以明确地将文本表示和相关的像素级视觉特征交织在一起,学习细粒度的多模态对应信息。对三个常用数据集的广泛消融研究验证了每个提出的组件的有效性,我们的方法在没有任何后处理的情况下显著优于先前的最先进方法。致谢我们感谢ZiyuChen对这项工作的有益讨论,感谢Weiqiong Chen,BinLong和Rui Sun对AWS技术支持的帮助。116940参考文献0[1] Nicolas Carion, Francisco Massa, Gabriel Synnaeve,Nicolas Usunier, Alexander Kirillov, 和 Sergey Zagoruyko.基于Transformer的端到端目标检测. 在 欧洲计算机视觉会议 中,页码213-229. Springer, 2020. 40[2] Ting Chen, Simon Kornblith, Mohammad Norouzi, 和Geoffrey Hinton. 对视觉表示进行对比学习的简单框架. 在机器学习国际会议 上, 页码1597-1607. PMLR, 2020. 30[3] Xinlei Chen, Haoqi Fan, Ross Girshick, 和 Kaiming He.基于动量对比学习的改进基线. arXiv预印本 arXiv:2003.04297 ,2020. 30[4] Yi-Wen Chen, Yi-Hsuan Tsai, Tiantian Wang, Yen-Yu Lin,和 Ming-Hsuan Yang. 具有标题感知一致性的参考表达对象分割.arXiv预印本 arXiv:1910.04748 , 2019. 2 , 70[5] Henghui Ding, Chang Liu, Suchen Wang, 和 XudongJiang. 视觉-语言Transformer和查询生成用于参考分割. 在IEEE/CVF国际计算机视觉会议论文集 中, 页码16321-16330,2021. 3 , 5 , 70[6] Han Fang, Pengfei Xiong, Luhui Xu, 和 Yu Chen.Clip2video: 通过图像剪辑掌握视频-文本检索. arXiv预印本arXiv:2106.11097 , 2021. 20[7] Guang Feng, Zhiwei Hu, Lihe Zhang, 和 Huchuan Lu.编码器融合网络与共同注意力嵌入用于参考图像分割. 在IEEE/CVF计算机视觉与模式识别会议论文集 中,页码15506-15515, 2021. 3 , 70[8] Jun Fu, Jing Liu, Haijie Tian, Yong Li, Yongjun Bao, ZhiweiFang, 和 Hanqing Lu. 场景分割的双重注意力网络. 在IEEE/CVF计算机视觉与模式识别会议论文集 中, 页码3146-3154,2019. 10[9] Raia Hadsell, Sumit Chopra, 和 Yann LeCun.通过学习不变映射进行降维. 在2006年IEEE计算机学会计算机视觉与模式识别会议(CVPR'06) 上,卷2, 页码1735-1742. IEEE, 2006. 30[10] Junjun He, Zhongying Deng,
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功