没有合适的资源?快使用搜索试试~ 我知道了~
跨语言图像匹配:弱监督物体分割中的新方法
4483CLIMS:用于弱监督语义分割的跨语言图像匹配谢锦恒<$,侯贤旭<$,叶凯,沈琳琳深圳大学计算机科学与软件工程学院深圳社会机器人人工智能研究院深圳深圳大学广东省智能信息处理重点实验室、深圳大学中国大数据系统计算技术国家工程实验室{谢锦恒,叶凯}2020@email.szu.edu.cn,hxianxu@gmail.com,llshen@szu.edu.cn摘要CAM(Class Activation Map)通常只激活有区别的对象区域,并错误地包含大量与对象相关的背景。由于只有一组固定的图像级对象标签可用于WSSS(弱监督语义分割)模型,因此可能很难抑制由开集对象组成的那些不同的背景区域。在本文中,我们提出了一种新的跨语言图像匹配(CLIMS)框架,基于最近推出的对比图像预训练(CLIP)模型,(一)(b)第(1)款(c)第(1)款框架激活图对于WSSS。该框架的核心思想是引入自然语言监督来激活更完整的对象区域并抑制紧密相关的开放背景区域。特别是,我们设计了对象,背景区域和文本标签匹配损失,以指导模型激发更合理的对象区域CAM的每一个类别。此外,我们设计了一个共同出现的背景抑制损失,以防止模型激活密切相关的背景区域,与预定义的一组类相关的背景文本描述。这些设计使得所提出的CLIMS能够为目标对象生成更完整和紧凑的在PASCAL VOC 2012数据集上的大量实验表明,我们的CLIMS显著优于以前的最先进的方法。代码将在https://github.com/CVI- SZU/CLIMS上提供。1. 介绍语义分割试图为图像中的每个像素分配语义标签。尽管近年来全监督语义分割取得了显著的成功,但像素级标注在时间上仍显着不足。*通讯作者†同等贡献图1. (a)传统CAM解决方案。(b)建议的CLIMS。不相关背景的错误激活的问题传统CAM方法普遍存在对目标内容估计不足等问题。为了解决这个问题,我们提出了一个新的文本驱动的学习框架,CLIMS,它引入了自然语言监督,即,开放世界设置,用于探索完整的对象内容并排除不相关的背景区域。最好用彩色观看。消耗和劳动密集型。相反,弱监督语义分割(WSSS)试图通过仅依赖于图像级[2,15,23,24],边界盒级[8,22]、点级[3]或基于涂鸦的监督[20,29]。这项工作的目的是在语义分割模型的学习中只使用图像级现有的WSSS方法通常遵循三个阶段的学习过程。首先,图像级标签被用作特征级的监督,以训练分类网络来生成初始类别激活图(CAM)(如图1左侧所1(a))。然后,使用密集CRF [16]、基于像素亲和度的方法[1,2]或额外的显著性图[12,19,21]将初始CAM最后,使用改进的伪地面实况掩码来进一步训练分割网络。然而,由于在第一阶段训练期间仅固定的对象类别集合是可用的,即,封闭世界设置、类相关背景像素,例如,铁路,也凸轮差距0XCNNFC第100CLIMSXXCNNf最大化CLIP最小化“CNN:卷积神经网络f:卷积层FC层:全连接层:元素乘积GAP:全局平均池化:Logits:相似性:特征图:特征向量:激活图输入:X4484LLL−L−LL··−L有助于预测密切相关的对象,例如,火车这导致在初始CAM的生成中背景的不必要的激活,如图1的右侧所示。第1(a)段。此外,传统的CAM解决方案通常在对象内容的低估中挣扎。这两种方法都严重限制了接下来两个阶段的初始CAM的质量。在本文中,我们设计了一个新的跨语言图像匹配框架的WSSS,即,CLIMS基于最近引入的对比图像预训练(CLIP)[25]模型的功能,以解决上述问题。CLIP模型是在4亿个图像-文本对的数据集上从头开始预训练的(自动从互联网上的公开来源收集),这使得CLIP能够将图像中更广泛的视觉概念与开放世界设置中的文本标签相关联,而不是一组固定的预定对象类别。基于此,所提出的CLIMS具有为每个对象类别生成高质量初始激活图的巨大潜力,而没有不相关的背景(如图1的右侧所示)。(c)第1段。在图的左边。如图1(a)所示,常规CAM方法在全局平均池化(GAP)层之后对平均特征执行图像级监督。给定训练的模型,类激活图(CAM)可以被表示。然而,CLIP模型不能直接用于该管道中。相反,如图所示。在图1(b)中,我们用卷积层替换GAP和全连接(FC)层,以在CLIP模型的监督下直接为每个类生成激活图,其中自然语言可以用于指导模型生成激活图。所提出的CLIMS的细节在图1中描绘二、它主要由一个骨干网和一个文本驱动的评估器组成,包括三个基于CLIP的损失函数,即,目标区域和文本标签匹配损失(OTM)、背景区域和文本标签匹配损失(BTM)和共现背景抑制损失(CBS)。其核心思想是通过文本驱动求值器的监督,辅助学习初始CAMsP的生成。首先,给定图像,骨干网络预测初始CAMP,其表示每个像素属于类别的概率。 P和(1 P)然后分别与输入图像相乘以屏蔽对象和背景区域,其用作文本驱动评估器的输入。如图在图2(b)中,每个屏蔽区域及其对应的文本类别标签被传递到CLIP模型以计算它们的余弦相似度。前景对象的文本标签,例如, 在训练期间,OTM旨在最大化前景对象区域与给定文本标签之间的相似性,例如, 这样,虽然生成的CAM可以逐渐接近图像中的目标对象,不能保证区域的完整性例如,即使当仅鸟的头部可见时,图像仍然看起来像鸟。 Thus, we propose BT M to minimize thesimilarity between mask-out foreground areaX (1 P)andthesameobjectcategorytextlabelas OTM. 这将对象区域排除在(1P)之外,并恢复P中更可能的对象内容。此外,为了约束激活区域的大小,我们设计了一个正则项来保证P的紧性。然而,当对象区域被激活时,与对象紧密相关的背景,例如,火车和铁路、船和河等通常也将被激活,因为没有像素级标签可用。为了解决这个问题,我们另外定义了一组与类相关的背景文本标签,例如 基于这些文本标签和CLIP模型,我们设计了 CBS,以最小化屏蔽对象区域X P和这些共现背景文本标签之间的相似性。这使得CLIMS能够排除不相关的类相关背景,例如,铁路,从最初的CAMsP。 这些基于CLIP的损失函数通过探索更完整的对象区域和排除不相关的背景像素来补充完善所生成的初始CAM。总的来说,本文的主要贡献可以是总结为:本文提出了一个文本驱动的学习框架CLIMS,引入了基于超视觉的图像-文本匹配模型,一个开放世界的环境。我们设计了三个基于CLIP的损失函数和一个面积正则化。目标、背景区域和匹配损失保证了初始CAM的正确性和完整性.共现背景抑制损失可进一步实质上减轻类别相关背景的影响。面积规则化可以限制激活区域的大小。在PASCAL VOC2012数据集上的大量实验表明,所提出的CLIMS显著优于以前的最先进的方法。2. 相关工作在本节中,我们将首先根据WSSS的三阶段学习过程回顾现有的弱监督语义分割方法:初始CAM生成、CAM细化技术和分割网络训练。此外,我们将简要讨论CLIP模型,这是这项工作的动机。弱监督语义分割。传统CAM [38]解决方案的流水线已被用于大多数以前的WSSS作品。Houet···4485Σ∈−K联系我们k,lk,0k,1我不KKKK联系我们al. [11]提出了两种自擦除策略,用于将注意力仅集中在可靠区域上,生成完整的初始CAM。Chang等[4]提出研究对象子类别以挖掘更多的对象部分,从而提高初始CAM的完整性。Sun等人[28]将两个神经共同注意力结合到分类器中,用于在一对训练图像中发现共享或非共享语义。这有助于从分类器中提取更完整的初始CAM。Jungbeom等人[18]提出一种反对抗的方式来发现激活图中目标对象的更多区域。Ahn和Kwak [2]设计了一个名为AffinityNet的深度神经网络,用于预测一对相邻图像坐标之间的语义相似度。然后应用该语义亲和性来将生成的初始CAM细化为伪地面实况掩码。以前的工作[12,19,21,32]而是使用来自完全监督的显着性检测器的额外显着性图来细化生成的初始CAM。一系列DeepLab [5,6]模型通常用于使用伪地面真实掩码训练语义分割对比图像预训练(CLIP)。对比语言图像预训练(CLIP)[25]在零拍摄设置中的许多视觉任务上显示出巨大的成功和潜力。CLIP模型由图像编码器和文本编码器组成。给定一批图像和文本对,CLIP模型学习嵌入以测量图像和文本之间的相似性。CLIP模型是在4亿个图像-文本对的大数据集上训练的,CLIP可以识别的对象类别集比小数据集中的固定对象类别集要大得多,也更多样化,例如,PASCAL VOC 2012 [9].图像-文本对是从互联网自动收集的,手工操作的参与然后应用于Z以产生预测逻辑yR1×K。在训练期间,S形交叉熵损失计算如下:KL ( y ) =−yk·logσ ( yk ) + ( 1−yk ) ·log ( 1−σ(yk)),k=1(一)其中σ是S形激活函数。给定训练好的骨干网络,W直接应用于Z以生成初始CAMP∈RK×H×W:Pk(h,w)=WkTZ(h,w),(2)其中Z(h,w)表示位于(h,w)上的表示向量。给定对象类别的对应权重向量和激活图是Wk和Pk。由于尽管简单有效,但是有限的监督、传统CAM可能会与仅激活有区别的对象部分和不必要地激活密切相关的背景作斗争。3.2.跨语言图像匹配框架图2描述了CLIMS的概述骨干网如图所示图2(a)类似于常规CAM解决方案,除了去除GAP层并且在W:Pk(h,w)=σ(WkTZ(h,w)).(三)虽然传统的WSSS方法只使用一组固定的预定对象类别的监督,我们提出了基于CLIP模型的文本驱动的评估器,以探索数据集中的其他对象类别。如图2(b),文本驱动的评估器由一个图像编码器f(·)和来自CLIP的te xt编码器f(·)3. 方法在本节中,我们将首先回顾传统的CAM流水线及其局限性。拟议的学习框架,即, CLIMS,然后介绍。 最后我们模型 首先,Pk和(1Pk)乘以X用于屏蔽前景对象和背景像素,分别然后,通过fi(·)将结果映射到表示向量vio和vib:vio=fi(X·Pk),vib= fi(X·(1 − Pk)).(四)将详细介绍三个基于CLIP的损失函数:目标区域和文本标签匹配损失、背景区域和文本标签匹配损失以及共现背景抑制在CLIP [25]之后,对应于(X Pk)的对象文本提示被表示为 相反,相应的-损失和区域正规化。与类相关的背景文本提示tb手动3.1. 再谈传统CAM大多数以前的WSSS作品遵循CAM流水线为图像中的给定输入图像X和对应的图像级标签y∈R1×K,骨干网络将首先将X嵌入到高级特征图Z∈RC×H×W中,预定义为与第k类对象密切相关的L个共现背景的集合。例如,船(第k个对象)的类相关背景是{一张河的照片 然后tb={of rivervto=f(to),vtb=f(tb),(5)其中K表示类的数目,C和H×Wde-KtKk,ltk,l注意通道的数量和空间维度,分别是,其中,to和tb表示对象的文本标签,第l个k k,l活泼地 一个全局平均池(GAP)层和一个1×1具有可学习矩阵W∈RC×K的卷积层是特定类的k,分别。4486KKL =−y·log(s),(6)OTMk·−·LLLKKKk kkΣΣL=−y·log(1−s),(10)CBSk图2.概述了拟议的跨语言图像匹配框架的WSSS,即,气候。(a)用于预测初始CAM的骨干σ表示S形激活函数。W表示卷积层的权重矩阵(b)文本驱动的评价者。它由三个基于CLIP的损失函数组成,即, 对象区域和文本标签匹配损失LOTM、背景区域和文本标签匹配损失LBTM以及共现背景抑制损失LCBS。最好用彩色观看3.3. 对象区域和文本标签匹配其中Sbo表示Vib和Vib之间的余弦相似性,K K给定第k个前景对象表示vio,v为。当LBTM最小化时,较少的目标对象像素其对应的文本表示vto,我们首先计算图像和文本表示之间的余弦相似度K乌克k=1soo=sim(vio,vto),(7)在X(1Pk)中保留,并且在(X Pk)中恢复更多的目标对象内容。这确保在Pk中激活更完整的对象内容。3.5.共现背景抑制然而,上述两个损失函数仅确保P完全覆盖目标对象,而没有考虑共现的类相关背景的假激活。共同出现的回归--k k ksoo表示vio和vto之间的余弦相似性。在OT M的监督下,生成的初始CAM将逐渐接近目标对象. 然而,单独的OTM不能鼓励模型探索非区分对象区域并抑制背景激活的区域。3.4. 背景区域和文本标签匹配为了提高激活对象区域的完整性,我们设计了背景区域和文本标签匹配损失BTM,以包含更多的对象内容。给定背景表示法Vib及其相应的文本接地可能显著降低所生成的伪地面实况掩模的质量。然而,这些背景的像素级标记是非常耗时和费力的,并且通常在WSSS中不可用由于背景的集合然而,为了解决这个问题,我们设计了以下同现背景抑制损耗。假设目标物体代表-tationvio及其相应的类的文本表示K结核病表示v到(注意,LBTM的文本标签是相关背景vk,l,损失计算如下:与LOTM相同),LBTM计算为K L关注:LBTM=−kΣ=1yk·log(1−sbo),(8)obk,lk=1l =1sbo=sim(vib,vto),(9)sob =sim(vio,vtb),(11)k k kk,lk k,l斩断模型嵌入x·Pk(b)第(1)款图像编码器维约 文本驱动求值器K(一)“文本编码器v至K公司简介(最大化)x·(1-Pk)图像编码器五乙KWσ“文本编码器v至KBTM(最小化)X维约骨干网图像编码器Kvtbk,0““文本编码器vtbk,l中国电信BSCBSvtb中国电信BSk,L(最小化)fixed&shareweights余弦相似度x·Pk……K4487k,lKk,lL LL我FSΣ ΣΣ×其中sob表示vio和vtb之间的余弦相似性。在训练过程中,骨干网络将逐渐抑制类相关背景重新激活的错误,在Pk中的gions,以最小化LCBS。3.6. 面积正则化在仅使用OTM、BTM和CBS的情况下,如果不相关背景和目标对象都包括在激活图中,则CLIP模型仍然可以正确地预测目标对象。Therefore, we design apixel-level area regularization term to constraint the sizeofactivationmapstoensurethattheirrelevantbackgroundsareexcludedinthe activation map Pk:表1.在PASCAL VOC 2012上使用RW(PSA [2])比较初始CAM和精确伪地面实况掩模的质量。这里的mIoU值在训练集上报告。Bac.表示用于CAM生成的骨干网络。方法BAC.CAMs+RWPSACVPRWR3848.061.0SC-CAMCVPRWR3850.963.4SEAMCVPRWR3855.463.6PuzzleCAMICIPR5051.564.7[ 26 ]第二十六话R5052.9-AdvCAMCVPRR5055.668.0CLIMS(我们的)R5056.670.51K1HWL=S, 其中S =P(h,w)。CAMs. 所有模型都在PyTorch中实现,并在具有40 GB内存的NVIDIA A100 GPU上进行训练。REGKKk=1kHW h=1w=1K(十二)改进初始CAM。 由于初始CAM仅粗略地覆盖目标对象,3.7. 总体培养目标所提出的文本驱动学习框架CLIMS的总体训练损失可以公式化为:L=αLOTM+βLBTM+γLCBS+δLREG,(13)其中α、β、γ和δ是对四个损失项进行加权的超参数4. 实验4.1. 实验装置数 据 集和评 价公 制 。PASCALVOC 2012 [9]是一个流行的语义分割数据集,包含20个对象类别,其中包括1,464个用于训练的图像,1,449个用于验证的图像和1,456个用于测试的图像。按照以前研究中的通用协议,我们使用10,582张图像的增强训练集训练了所提出的CLIMS。采用平均交集大于并集(mIoU)作为所有实验的评估度量。例如PSA [2]和IRNet [1],通常用于在将初始CAM用作伪地面实况掩模之前改进初始CAM的质量。为了进行公平的比较,我们遵循SEAM [31],PuzzleCAM [13]和AdvCAM [18],采用PSA [2]进行初始CAM细化。表2. PASCAL VOC 2012val和测试集的评价结果。最佳结果以粗体显示。辅助核算表示弱监督型。意味着全面监督表示显著图监督。 表示图像级监控。 隔离区 表示分段网络。BAC.表示用于CAM生成的骨干网络。V1:DeepLabV1。V2:DeepLabV2. V16:VGG-16 [27]. R50:ResNet-50 [10]。WR38:WideResNet38 [33].‡:使用MS COCO数据集预训练的分割网络。DeepLabV1ICLRDeepLabV2TPAMI图像级监控+显着图。OAA+ICCV[ 28 ]第[ 21 ]第二十一实施详情。输入图像被随机地重新缩放,然后通过随机裁剪被增强到512512 水平翻转也用于增强列车-ing数据。 SGD被用作默认优化器。 该co-采用正弦退火策略调度学习速率。默认批处理大小为16。由于PASCAL VOC 2012和CLIP之间在描述类方面存在微小差异,因此我们使用训练集中的文本标签描述来微调CLIP模型(图像和文本编码器)20个epoch,初始学习率为0.00005,权重衰减为0.003。CLIMS模型训练了10个epoch,初始学习率为0.00025,权重衰减为0.0001。我们遵循[2]采用ResNet- 50 [10]作为生成初始I+SNSROMCVPRDRSAAAI辅助核算方法隔离区BAC.Val测试全面监督。--75.5-F--77.679.7[ 33 ]第三十三话--80.882.5CLIMS(我们的)V2R5069.368.7CLIMS(我们的)V2引擎R5070.470.0-65.266.4V1666.266.9R5066.567.5V1668.368.5V1670.470.7EPSCVPR70.970.8EDAMCVPR70.970.6AuxSegNet69.068.6仅映像级监控[ 30 ]第三十话64.365.4SEAMCVPR64.565.7BESECCV65.766.6SC-CAMCVPR66.165.9[ 37 ]第37话:我的世界66.166.7A2 GNNTPAMI66.867.4VWEIJCAI67.267.3[ 18 ]第十八话68.168.0Kweon等人 [ 17 ]第十七话WR38WR3868.468.24488LL输入公司简介公司简介公司简介公司简介+RWGT图3.使用不同的损失函数组合,由建议的CLIMS生成的初始CAM 输入图像显示在第1列中。列2至5分别呈现使用LOTM、LOTM+LBTM、LOTM+LBTM+LREG和LOTM+LBTM+LREG + LCBS生成的CAM。RW表示PSA的细化[2]。最好用彩色观看分割网络。给定伪地面真实掩码,我们遵循VWE[26],SC-CAM [4]和Adv- CAM [18]采用DeepLabV 2和ResNet-101 [10]作为 分割 网络 。对 于 PASCAL VOC2012数据集上的实验,我们遵循deeplab- pytorch工具包的默认设置,使用MS COCO数据集预训练的权重来训练DeepLabV 2此外,我们还遵循AdvCAM [18]的设置 , 使 用 ImageNet-1 K 数 据 集 预 训 练 权 重 来 训 练DeepLabV 2。4.2. PASCAL VOC 2012数据集上的结果初始CAM和伪标签的质量在PASCAL VOC 2012训练集上生成的初始CAM和改进的伪地面实况掩码的质量在表1中进行了比较。+RW表示通过PSA [2]细化初始CAM。如表所示,我们的CLIMS生成的初始CAM达到 56.6% mIoU,显 著优 于最 先进 的方 法, 例如 ,PuzzleCAM和AdvCAM。这主要归功于三个基于CLIP的损失函数的设计。与SEAM(采用WideResNet 38[33]作为骨干网络)相比,我们的CLIMS(采用较小的ResNet-50作为骨干网络)取得了更好的效果。此外,我们用PSA精制的假标签达到70.0%的mIoU,比PuzzleCAM和AdvCAM分别高5.3%和2.0%。在图4中,我们将初始CAM可视化,并将其与传统CAM [38]和最近的CAM†https://github.com/kazuto1011/deeplab-pytorch表3.使用不同损失函数组合比较PASCAL VOC 2012数据集上初始CAM的质量。在训练集上报告mIoU(%)结果。CLS表明我们使用预训练的分类器,即,VGG-16,以取代我们的text-driven评估比较。LOTMLBTMLREGLCBSLCLSmIoU(%)C28.6C37.241.3C C C53.1C C C45.4Adv-CAM方法[18]。据观察,建议CLIMS通常激活更完整的对象内容和类相关的背景区域。具体而言,如前两列和后两列所示,CAM和Adv- CAM可能低估船、人和猫的区域,或错误地激活河流区域相比之下,CLIMS生成的初始CAM模型更加完整、紧凑,包含了更合理的目标区域,可供下一阶段细化。在第三和第六列中,大量的类相关背景的错误激活,即,铁路,可在CAM和Adv-CAM的结果在CBS的监督下,我们的CLIMS可以有效地减少共现背景区域的错误激活,并产生完整而紧凑的CAM。分割性能。为了进一步验证通过以下步骤生成的伪地面实况掩模的质量:C C C C56.64489LLLLLLLLLLLLLLLLL图4.由CAM、Adv-CAM和建议的CLIMS生成的初始CAM的可视化。白色虚线圆示出了遗漏的对象区域。红色虚线圆圈表示类相关背景区域的错误激活,例如,河流和铁路在我们的方法中,我们完全训练分段网络,即,DeepLabV2,在PASCAL VOC 2012数据集上使用生成的伪标签。评价结果报告于表2中。据观察,相比,只有图像级监督的方法,我们的方法取得了最好的效果。具体来说,使用我们的CLIMS生成的掩码训练的DeepLabV2在val和测试集上分别实现了69.3%和68.7%的mIoU与Adv-CAM相比,我们的方法在val和测试集上分别优于1.2%和0.7%mIoU。与具有附加显著性图(从完全监督模型获得)的方法相比,例如,EPS [19]和EDAM [32],我们的方法也取得了竞争力的表现。表4.两个特定对象类别的评价结果,即,船和火车,在PASCAL VOC 2012数据集上,添加/不添加LCBS。 结果在列车集上报告。损失函数船(%)火车(%)平均值(%)7.1 30.7 18.9LOTM+LBTM + LCBS58.2+51。一百六十三点九+33。261.1+42。2LOTM+ LBTM4.3. 消融研究损失函数的影响。建议的CLIMS,如第2节所述。3,通过四个损失函数的组合来优化目标区域与文本标签匹配损失OTM、背景区域与文本标签匹配损失BTM、共现背景抑制损失CBS和区域正则化REG在引导骨干网络生成初始CAMs.在这里,我们在PAS-CAL VOC 2012数据集上进行消融实验,以进一步验证每个损失函数的有效性。 视觉结果示于图1中。3(注意,+意味着我们连续添加损失函数)。如图2的第二列所示。3,通过仅使用OTM,我们观察到:1)在CAM中仅激活有区别的对象部分; 2)与类别相关的背景,例如, 第二行中的铁路和第三行中的水也在初始CAM中被激活。 如在第三列中所见,添加BTM显著增加了激活区域的尺寸,使得更完整的对象区域被激活。然而,OTM+BTM错误地激活背景区域。如图中第四列和第五列所示。 3、REG和CBS的加入有助于解决上述问题。我们可以观察到REG有效地限制了激活区域的大小,CBS显著地排除了类相关背景,例如,铁路,从CAMs。此外,如第六列所示,通过RW(PSA [2])的细化,伪掩模与地面实况非常相似。表3显示了不同损失函数组合之间的定量比较。 可以看出,当仅使用OTM时,CLIMS仅在列车集上获得37.2%的mIoU 。 添加 BTM 将mIoU 从37.2% 提高 到41.3%。通过确保初始CAM的紧凑性,包含REG将mIoU从41.3%提高到53.1%。 正如预期的那样,CBS可以有效地从生成的CAM中去除与类别相关的背景区域GT我们Adv-CAM凸轮输入4490mIoU(%)mIoU(%)mIoU(%)LLL联系我们{LL80 80 80 8060 60 60 6040 40 40 40207 8 9 10 11 12132022 23 24 25 26 27282028.028.529.029.530.030.531.0201.001.051.101.151.201.25一点三(a) 超参数α(b) 超参数β(c) 超参数γ(d) 超参数δ的分析。图5.超参数α、β、γ和δ的敏感性分析。此处的mIoU值在PASCAL VOC 2012列车集上报告并将列车集上的mIoU提高3.5% 为了验证CLIP模型的有效性,我们使用预训练的分类器,即,VGG-16,以取代文本驱动的评估器,并比较它们的性能。这意味着只有图像的掩模区域被送入分类器进行评估。结果用CLS进行了说明。如表3所示,CLS仅实现了28.6%的mIoU,远低于OTM(37.2%)。 这表明,在没有其他约束的情况下,CLIP的监督可以领导骨干网络生成比预训练分类器更好的CAM类相关的背景。在实验中,我们类的向量在y轴中表示。观察到蓝色星星(索引从10到19)的提取特征与train的权重向量Wk高度相关,而与其他类别无关这表明列车的特征与列车的Wk来自类别相关背景的样本区域由黄色星(索引从0到9)表示。它们的学习特征与训练集的权向量关系较弱。这确保了在列车等级的激活图生成中不会激活与等级相关的背景仅为某些对象类别(如火车和船)预定义一组与类别相关的背景。例如,火车和船的背景集分别是“铁路”、“铁路-公路”、“树”和“河”、“海”、“湖”。为了进一步证明共同发生的有效性,地面抑制损失LCBS,我们报告船的IoU航空自行车鸟船瓶子公共汽车猫椅牛桌狗马马达人植物1.00.80.60.40.2并在表4中进行训练,CBS .可以看出,一个广告--羊沙发火车电视0.0CBS的版本可以显着提高两者的IoU乘船和火车分别从7.1%上升到58.2%和30.7%上升到63.9%。结果表明,CLIP可以有效地识别这些不同的背景类别。基于背景区域和文本描述的嵌入,CBS可以有效地排除这些共现的背景区域。从前景物体的激活区域接地敏感性分析。方程中有四个超参数。十三岁在PASCAL VOC 2012训练集上对这四个参数进行了灵敏度分析,评估结果见图1。五、实验结果表明,当α(从7到13),β(从22到28),γ(从28到31),δ(从1到1.3)变化时,该方法的性能是稳定的,我们的方法对超参数不敏感。在我们的实验中,α、β、γ和δ的默认值分别为10、25、29.5和1.15。特征表示分析。图6描绘了学习特征与权重向量Wk之间的关系。用于提取表示特征的演示图像如图1左侧所示。六、为了研究学习特征的质量,我们从属于训练和背景类的像素中抽取一些特征,并计算权重向量Wk与它们之间的相似性。结果显示在图的右边。六、The sample features are denoted in the x-axis, and theweight0 1 2 3 4 5 6 7 8 9 10111213141516171819图6.左:示例图像。图像中的黄色和蓝色星星右:相似矩阵。x轴表示样本区域的特征,y轴表示每个类别的权重向量Wk第(i,j)个元素表示图像中第i个类与第j个区域之间的余弦相似度.注意,计算的余弦相似度被截断并归一化为[0,1]。最好用彩色观看。5. 结论本文提出了一种新的跨语言图像匹配框架,即,CLIMS,为WSSS引入自然设计的四个损失函数可以有效地处理低估完整对象内容和不必要的激活密切相关的背景区域的问题。在PASCAL VOC 2012数据集上进行的大量实验验证了CLIMS的有效性。实验结果表明,我们的方法比基线和最先进的方法生成更完整和紧凑的初始CAM和细化的伪地面真实掩模。致谢本研究得到了国家自然科学基金项目91959108的资助mIoU(%)4491引用[1] Jiwoon Ahn,Sunghyun Cho,和Suha Kwak.具有像素间关系的实例分割的弱监督学习。在CVPR中,第2209-2218页,2019年。一、五[2] 安智云和郭淑华。学习像素级语义亲和力与图像级监督弱监督语义分割。在CVPR中,第4981-4990页,2018年。一、三、五、六、七[3] 艾米l Bearman,Olga Russakovsky,Vittorio Ferrari,and Fei-Fei Li.这有什么意义:带有点监督的语义分割。在ECCV,第549-565页,2016中。1[4] 张玉婷,王乔松,洪伟智,罗宾逊·皮拉穆图,艾义轩,杨铭轩。通过子类别探索的弱监督语义分割。在CVPR中,第8988-8997页,2020年。三五六[5] Liang-ChiehChen , GeorgePapandreou , IasonasKokkinos,Kevin Murphy,and Alan L.尤尔。使用深度卷积网络和全连接crf的语义图像分割2015年,国际会议。三、五[6] Liang-ChiehChen , GeorgePapandreou , IasonasKokkinos,Kevin Murphy,and Alan L.尤尔。Deeplab:使用深度卷积网络、atrous卷积和全连接crfs进行语义TPAMI,40:834三、五[7] 陈丽怡,吴薇薇,付晨晨,韩晓,张运涛.具有边界探索的弱监督语义分割。在ECCV,第347-362页,2020年。5[8] 戴季峰、何开明、孙建。Boxsup:利用边界框来监督卷积网络进行语义分割。在ICCV,第1635-1643页,2015年。1[9] M.埃弗灵厄姆湖,澳-地凡古尔角,澳-地K. I.威廉斯,J.Winn 和 A. 齐 瑟 曼 。 PASCAL Visual Object ClassesChallenge2012(VOC2012)http://www.pascal-network.org/challenges/VOC/voc2012/workshop/index.html啊三、五[10] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。CVPR,第770-778页,2016年。五、六[11] Hou Qibin,Jiang Peng-Tao,Wei Yunchao,and Ming-Ming Cheng.自我擦除网络的整体对象的注意力。在NeurIPS,第547-557页,2018年。3[12] Peng-Tao Jiang , Qibin Hou , Yang Cao , Ming-MingCheng,Yunchao Wei,and Hong-Kai Xiong.通过在线注意力积累的整体对象挖掘。在ICCV,第2070- 2079页,2019年。一、三、五[13] 赵尚贤和柳仁在Puzzle-cam:通过匹配部分和全部特征来 改 进 本 地 化 。 在 2021 年IEEE 图 像 处 理 国 际 会 议(ICIP),第639-643页5[14] 金范英韩三根金俊模用于弱监督语义分割的区分区域抑制。参见AAAI,第1754-1761页,2021年。5[15] Alexander Kolesnikov和Christoph H.蓝伯特种子、展开和约束:弱监督图像分割的三个原则。在ECCV,第695-711页,2016年。1[16] Phil i ppK raühenbuühlandVladlenKoltun. 具有高斯边势的全连通crfs的有效推理在NeurIPS,第109-117页,2011中。1[17] Hyeokjun Kweon , Sung-Hoon Yoon , HyeonseongKim,Daehee Park和Kuk-Jin Yoon。 释放普通分类器的潜力:弱监督语义分割的类特定对抗擦除框架。在ICCV,第6994-7003页,2021年。5[18] Jungbeom Lee,Eunji Kim,Sungroh Yoon。用于弱监督和半监督语义分割的反不利操纵属性。在CVPR中,第4071- 4080页,2021年。三五六[19] Seungho Lee , Minhyun Lee , Jongwuk Lee , andHyunjung Shim.铁路不是火车:显着性作为弱监督语义分割的伪像素监督。在CVPR中,第5495-5505页,2021年。一、三、五、七[20] Di Lin,Jifeng Dai,Jiaya Jia,Kaiming He,and JianSun. Scribblesup:用于语义分割的Scribble-supervised卷积网络在CVPR中,第3159-3167页,2016年。1[21] Yun Liu,Yu-Huan Wu,Pei-Song Wen,Yu-Jun Shi,Yu Qiu,and Ming-Ming Cheng.利用实例级、图像级和数据集级信息进行弱监督实例分割。TPAMI,2020年。一、三、五[22] George Papandreou , Liang-Chieh Chen , Kevin PMurphy,and Alan L Yuille.用于语义图像分割的深度卷积网络的弱监督和半监督学习。在ICCV,第1742-1750页,2015年。1[23] 迪帕克·帕塔克,菲利普·克拉亨布尔,和特雷弗·达雷尔。用于弱监督分割的约束卷积神经网络。在ICCV,第1796-1804页,2015年。1[24] 佩德罗·H. O. Pinheiro和Ronan Collobert。使用卷积网络从图像级到像素级标记。在CVPR,第1713-1721页,2015年。1[25] Alec Radford、Jong Wook Kim、Chris Hallacy、AdityaRamesh 、 Gabriel Goh 、 Sandhini Agarwal 、 GirishSastry、Amanda Askell、Pamela Mishkin、Jack Clark、Gretchen Krueger和Ilya Sutskever。从自然语言监督中学习可转移的视觉模型。在ICML,第8748-8763页,2021中。二、三[26] 如丽香、伯都、陈武。学习视觉词进行弱监督语义分割。在IJCAI,2021年。五、六[27] Karen Simonyan和Andrew Zisserman用于大规模图像识别的非常深的卷积网络2015年,国际会议。5[28] Guolei Sun,Wenguan Wang,Jifeng Dai,and Luc VanGool.挖掘弱监督语义分割的交叉图像语义在ECCV,第347-365页,2020年。三、五[29] 保罗·韦尔纳扎和曼莫汉·钱德拉克。学习弱监督语义分割的随机游走标签传播。在CVPR中,第7158-7166页,2017年。1[30] Xiang Wang,Sifei Liu,Huimin Ma,and Mi
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功