没有合适的资源?快使用搜索试试~ 我知道了~
168970使用超出分布数据的弱监督语义分割0Jungbeom Lee 1 Seong Joon Oh 2 , 3 Sangdoo Yun 2 Junsuk Choe 4 Eunji Kim 1 Sungroh Yoon 1 , 5 , *01 韩国首尔国立大学电气与计算机工程系02 NAVER AI实验室 3 图宾根大学04 韩国首尔淑明大学计算机科学与工程系05 首尔国立大学人工智能跨学科项目0摘要0弱监督语义分割(WSSS)方法通常基于从分类器获得的像素级定位图。然而,仅基于类别标签进行训练,分类器会受到前景和背景线索之间虚假相关性的影响(例如火车和铁轨),从根本上限制了WSSS的性能。以前已经尝试通过额外的监督来解决这个问题。我们提出了一种新的信息来源来区分前景和背景:超出分布(OoD)数据,即不包含前景对象类别的图像。特别是,我们利用分类器很可能产生误报预测的困难OoD样本。这些样本通常在背景(例如铁轨)上携带关键的视觉特征,分类器经常将其混淆为前景(例如火车),因此这些线索可以让分类器正确地抑制虚假的背景线索。获取这样的困难OoD不需要大量的注释工作;它只需要在收集类别标签的基础上额外增加一些图像级标注成本。我们提出了一种方法,W-OoD,用于利用困难OoD。W-OoD在Pascal VOC2012数据集上实现了最先进的性能。代码可在以下网址找到:https://github.com/naver-ai/w-ood。01. 引言0像素级标注是一项劳动密集型工作[8]。已经有很多研究致力于使用比像素级标注更弱的监督形式来监督语义分割模型,例如涂鸦[52]、点[3, 21]、框[20, 31, 49]和类别标签[27, 30,33,56]。本文中,我们处理的是最后一类:使用类别标签进行弱监督语义分割(WSSS)。利用类别标签的WSSS方法通常遵循一个两阶段的过程。首先,它们使用CAM变体从分类器生成像素级伪目标。然后,它们使用伪目标训练主要的分割网络。0* 通讯作者:Sungroh Yoon (sryoon@snu.ac.kr)。0(a)基线模型(b)我们的模型0分类器0分类器0OoD图像0附加0监督0标签:“无火车”0标签:“无火车”0标签:“无火车”0标签:“火车” 标签:“火车”0图1.(a)由于虚假相关性(例如“火车”对于“铁轨”),分类器经常将背景线索混淆为前景概念。(b)我们的W-OoD使用困难的OoD图像作为负样本(例如“铁轨”不是“火车”),以解决混淆问题。0在第一阶段生成。仅基于图像级标签构建的伪目标往往会在前景和背景线索之间产生混淆。例如,给定一个鸭子图像数据库,鸭子通常在水中,一个分类器错误地将包含水的补丁与包含鸭子脚的补丁相比,分配更高的分数[7, 22, 27, 34,36,62]。对于像啄木鸟-树、雪地摩托-雪地、火车-铁轨这样的前景-背景对也是如此。这是一个根本性的问题,仅凭类别标签无法解决;需要额外的信息来学习如何完全区分前景和背景线索[7, 34,36]。因此,研究人员寻求各种额外指导的来源来区分前景和背景线索,每种方法都有不同的优缺点和不同的标注成本。图像显著性[38, 41]是其中最常用的方法之一[18, 28, 34,43, 51,60],因为它以类别无关的方式自然地提供图像中突出的前景对象。然而,显著性对于非显著的前景对象(例如低对比度对象或小对象)效果不是很好。像超像素[25,55]、边缘[19]、目标提议[31, 43,49]这样的低级视觉特征,也被广泛使用。168980和光流[15,29]也被考虑过。虽然成本低廉,但它们往往会生成不准确的物体边界,因为这些低级信息不考虑与类别相关的语义。在本文中,我们提出了另一种提供前景和背景线索之间区分的指导来源。我们建议使用不包含任何前景类别的外分布(OoD)数据。例如,对于前景类别“火车”,可以使用仅包含铁轨的图像作为OoD数据,因为分类器经常将铁轨误认为火车。通过在难度OoD中抑制对这种铁轨线索上“火车”的识别,模型成功地区分了这些令人困惑的线索。获取这样的OoD不需要与仅收集图像级别标签相比的大量额外注释工作。OoD图像是典型数据集收集过程的自然副产品。具有图像级别类别标签的视觉数据集(例如Pascal [10],COCO[40],LVIS [11]和OpenImages[24])都从候选图像池开始,从中选择与前景类别之一相对应的图像并包含在最终数据集中。剩余的候选OoD集合可以用作OoD图像的来源。不能直接使用候选OoD集合来指导WSSS方法,有两个原因。首先,一般的OoD图像无法提供区分困难背景线索和前景(例如,铁轨和火车)的信息。其次,它可能仍然包含前景对象。我们通过选择难度OoD来解决第一个问题,其中分类器错误地将高预测分数分配给其中一个前景类别。第二个问题通过人机协作的过程来解决,其中手动修剪包含前景对象的图像。虽然这需要额外的人力工作,但我们强调额外成本是可以忽略的。正如我们后面将展示的(第4.3.1节),我们只需要少量的难度OoD样本就可以提高定位性能:每个类别只需要1个难度OoD图像就可以将定位性能提高2.0%p。此外,收集OoD样本的成本与收集前景样本的类别标签的成本相当,而不是收集例如分割图的成本。可以将用于收集少量标记的前景数据的预算重新分配为收集类似数量的难度OoD样本,从而显著提高WSSS性能。鉴于OoD样本提供的额外指导,我们提出了一种利用难度OoD进行分类器训练的方法W-OoD。需要注意的是,我们的数据收集过程提供了具有不同模式和语义的难度OoD样本。可以忽略这种多样性,将每个难度OoD都视为一个组合的背景类别;我们的实验表明,这种方法是次优的。相反,W-OoD将每个难度OoD样本视为具有度量学习目标:增加0在特征空间中的分布和OoD样本之间的距离。这迫使在分布内和OoD样本之间共享的背景线索(例如,火车类别的铁轨)被排除在特征空间表示之外。W-OoD产生高质量的定位图,并在Pascal VOC 2012WSSS基准上取得了新的最先进性能。我们贡献了(1)利用OoD样本解决弱监督语义分割(WSSS)中虚假相关性问题的新范式;(2)一个包含20个Pascal类别的难度OoD数据集,将在接受后发布;(3)一种WSSS方法W-OoD,利用难度OoD获得了Pascal VOC 2012WSSS基准上已知的最佳性能。02. 相关工作0弱监督学习:大多数基于图像级别类别标签的弱监督学习方法都基于类激活图(CAM)[63]。然而,众所周知,CAM仅能识别目标对象的小的区分性部分[1, 27,28]。已经提出了几种技术来获取目标对象的整个区域。PSA [2]和IRN[1]考虑像素关系,使用随机游走将对象区域扩展到语义相似的区域。SEAM[56]通过规范化分类器,使得从不同变换的图像获得的定位图在这些变换下等变。AdvCAM [30]和RIB[27]提出了训练好的分类器的后处理技术,通过操作图像或网络权重来获取目标对象的整个区域。尽管这些方法成功地扩展了识别的区域,但是一些与背景区域错误相关的区域往往会被错误地识别出来。CDA[50]采用剪切-粘贴方法来解耦对象与其上下文背景之间的相关性。然而,仅使用类别标签来准确解耦相关性是困难的,这限制了性能的提升。学习外部数据:一些研究考虑利用额外的外部信息来解决虚假相关性问题。自动网络搜索可以提供带有类别标签的图像[17, 47]或视频[15,29],尽管这些标签可能不准确。一些方法[37,51]利用单标签图像获取更多关于分布内数据的信息。然而,这些额外的来源仍然仅依赖于感兴趣的类别。因此,它们缺乏关于前景和背景之间分离的信息。因此,采用了各种类型的额外监督。一些研究人员[45,53]使用图像标题。然而,这些方法的获取成本很高。此外,建模视觉-语言关系是这些方法所要求的,这是一项非常困难的任务。Kolesnikov等人[22]提出了一种主动学习方法,其中一个人确定了0.980.850.030.080.890.630.970.980.850.890.630.97168990确定特定模式是否在前景中。这是一种模型特定的方法,因此每当训练新模型时都需要人工干预。显著性监督[6,54]是另一种流行的附加信息来源[18, 27, 29, 34, 51, 57,60]。然而,对于与背景或小物体难以区分的非显著性对象,它并不是非常有效[27, 34, 57]。03. 方法0我们提出了一种用于具有类别标签的WSSS的OoD数据收集和利用方法。我们在第3.1节中描述了困难OoD的数据收集过程。在第3.2节中,我们介绍了名为W-OoD的方法,该方法使用收集的困难OoD训练分类器以生成定位图。最后,在第3.3节中,我们展示了如何使用定位图训练语义分割网络。03.1. 收集困难的OoD数据0我们描述了收集OoD数据集的整体过程。起点是一个候选OoD集,该集合主要由不包含感兴趣的前景类别的图像组成。目标是将此集合细化为一组用于下游WSSS方法的困难OoD。整体过程如图2所示。获取候选OoD的位置:首先,将具有类别标签的WSSS任务作为弱监督要求在一组训练图像上进行类别标签。构建具有类别标签的图像数据集通常是一个四步过程[10, 11,24,40]:(1)定义感兴趣的前景类别列表C,(2)从各种来源(例如全球网络)获取未标记的图像,(3)确定每个图像是否包含其中一个前景类别,并(4)使用前景类别标签标记每个图像。在某些情况下,步骤(3)和(4)合并。该过程的副产品是从步骤(2)中获得的未被选择的候选图像集合,我们将其称为候选OoD集。例如,对于Pascal VOC 2007[10],第(2)步已经产生了44,269个用于注释的候选图像。Everingham等人[10]报告说,其中9963个最终被选为前景数据,其余的被丢弃。我们利用这个被丢弃的集合,该集合很可能由背景图像组成。通过排序和修剪获取困难OoD样本:不幸的是,候选OoD数据是不完美的。OoD数据通常过于多样化,不包含有意义的信息。例如,将一个鱼缸中的鱼的图像作为“火车”前景类别的负样本呈现,不会为分类器引入任何有意义的监督(见图2中的鱼)。困难的OoD样本提供了很多信息;它们是被分类器混淆为包含前景对象的OoD样本。图2中没有火车的铁轨图像就是这样的例子。它们为分类器提供了有意义的负面监督,以抑制背景线索上的类别得分。因此,我们根据类别c的预测分数p(c)对候选OoD数据进行排序。我们使用在具有前景对象和相应标签的图像上训练的分类器。我们剪除预测分数p(c)<0.5的OoD样本。这返回困难OoD数据的候选样本。正样本的手动修剪:假设候选OoD集不包含前景对象是不现实的。会有许多缺失的注释和边界情况。当它们根据前景预测分数进行排序时,排名较高的图像很可能包含那些缺失的正样本。因此,我们需要手动过滤掉这些正样本。这个手动细化阶段是我们流程中的成本瓶颈。成本直接取决于正样本率r,即在通过阈值化预测分数p(c)≥0.5获得的修剪集中的正样本比例。设n为所需的困难OoD图像数量,人工工作者平均需要检查n个图像。0计算�(train)并排序。00.47移除�(train)<0.5的图像。0手动过滤包含训练的图像。0候选OoD集困难OoD集修剪集0图2.收集困难的OoD数据。从顶部的候选OoD图像开始,我们依次剪除易于识别的OoD和每个前景类别c∈C的假阴性。该过程得到了困难的OoD数据集。0根据虚假背景线索对候选OoD数据进行类别得分排序p(c)。我们使用在具有前景对象和相应标签的图像上训练的分类器。我们剪除类别得分p(c)<0.5的OoD样本。这返回困难OoD数据的候选样本。正样本的手动修剪:假设候选OoD集不包含前景对象是不现实的。会有许多缺失的注释和边界情况。当它们根据前景预测分数进行排序时,排名较高的图像很可能包含那些缺失的正样本。因此,我们需要手动过滤掉这些正样本。这个手动细化阶段是我们流程中的成本瓶颈。成本直接取决于正样本率r,即在通过阈值化预测分数p(c)≥0.5获得的修剪集中的正样本比例。设n为所需的困难OoD图像数量,人工工作者平均需要检查n个图像。01 - r张图像。如果有一些正面图像,例如r =0.2,则注释者需要检查1.25n张图像才能最终获得n个困难的OoD。我们将结果数据集称为Dood,即困难的OoD数据集。OoD数据的替代来源:从理论上讲,最好通过复制Pascal的数据集构建过程[10]来分析和基准测试我们的方法。然而,这在实践中是不可行的,因为无法从Flickr中爬取与Pascal作者在2007年从Flickr中爬取的初始500,000张图像具有相似特征的图像[10]。也没有记录使用了哪种类别注释工具来过滤掉背景集。设置实验的另一种方法是从头开始构建一个新的数据集。然而,这将不允许我们使用现有的WSSS基准数据集,如Pascal。在本文中,我们从另一个视觉数据集OpenImages[24]中获取候选的OoD数据。为了模拟OoD数据,我们使用提供的类别标签从OpenImages数据集中过滤掉20个Pascal类别。注意,OpenImages的类别标签是有噪声的:19,794个类别首先通过图像分类器进行标记,然后由众包工人进行改进[24]。这与Pascal形成鲜明对比:只有20个类别由高度控制的工作人员在受控离线事件(称为“注释派对”)中进行标记[10]。因此,我们预计从OpenImages获取的候选OoD集合将比原始的Pascal数据收集过程中获得的集合包含更多的噪声(即前景类别)。Classifiers trained only on the in-distribution dataset Dinoften incorrectly identify spuriously correlated backgroundregions as class-relevant patterns. We address this by usingthe hard out-of-distribution data Dood obtained in the pre-vious section. One naive approach to utilize the hard OoDimages is either to assign the uniform distribution over thelabels for such images (no-information prior) [14, 32, 35]or to assign the “background” label to such images. How-ever, since hard OoD images contain various semantics thatconvey meaningful information to each class, labeling theseimages with one background class ignores the diversity ofOoD samples, resulting in a sub-optimal performance asshown in Sec. 4.3 and Table 5.To benefit from the diversity of hard-OoD images, wepropose a metric-learning methodology that considers OoDimages of individuals or small groups. To compute a metric-learning objective, we use the penultimate feature z of thein-distribution classifier Fin for an input x; we write zin (resp.zood) as the feature of xin ∈ Din (resp. xood ∈ Dood). We traina classifier F to ensure that zin is significantly different fromzood, thereby preventing information overlap between thefeatures. To realize this, a clustering-based metric learningobjective is proposed.Let Zin and Zood be the sets of zin and zood, respectively.We first construct a set of clusters Pin (resp. Pood) based onZin (resp. Zood). Each cluster in Pin contains features of xincorresponding to each class c ∈ C, resulting in |C| clustersin Pin. One straightforward way of constructing Pood isto cluster images according to their incorrectly predictedclasses. This, however, is sub-optimal in practice becausesuch clusters are highly heterogeneous. For example, imagesof lakes and images of trees are semantically different, yet a169000仅在分布数据集Din上训练的分类器经常错误地将与类相关的背景区域错误地识别为类相关模式。我们通过使用在上一节中获得的困难的OoD数据集Dood来解决这个问题。利用困难的OoD图像的一种天真的方法是为这些图像分配标签的均匀分布(无信息先验)[14, 32,35],或者为这些图像分配“背景”标签。然而,由于困难的OoD图像包含各种语义,这些语义传达给每个类有意义的信息,将这些图像标记为一个背景类别忽略了OoD样本的多样性,导致次优的性能,如第4.3节和表5所示。为了从困难的OoD图像的多样性中受益,我们提出了一种度量学习方法,该方法考虑了个体或小组的OoD图像。为了计算度量学习目标,我们使用分布数据集分类器Fin的倒数第二个特征z作为输入x的特征;我们将分布数据集中x的特征zin(分别是zood中的xood)写为∈Din(分别是∈Dood)。我们训练一个分类器F,确保zin与zood显著不同,从而防止特征之间的信息重叠。为了实现这一点,提出了基于聚类的度量学习目标。设Zin和Zood分别为zin和zood的集合。我们首先基于Zin(分别是Zood)构建一组聚类Pin(分别是Pood)。Pin中的每个聚类包含与每个类c ∈ C相对应的xin的特征,从而在Pin中有|C|个聚类。构建Pood的一种直接方法是根据它们的错误预测类别对图像进行聚类。然而,在实践中,这种聚类是高度异质的。例如,湖泊的图像和树木的图像在语义上是不同的,但是一个03.2. 使用困难OoD数据进行学习0基于“鸟”类别的聚类将包含两者。因此,我们使用K-means聚类算法在Zood上构建Pood。现在我们有一组聚类Pin = {Pinc}|C|c=1和Pood ={Poodk}Kk=1。每个聚类的中心使用pk = 1计算。0x ∈P k z ( x)。我们定义输入图像x与每个聚类Pk之间的距离为x的特征z(x)与中心pk之间的距离,如下所示:0d ( x, P k ) = ∥ z ( x ) − p k ∥ 2 (1 ≤ k ≤ K)。0我们设计了一个损失Ld,确保xin与分布聚类Pin之间的距离小,但xin与OoD聚类Pood之间的距离大,如下所示:0Ld = 0c : y c =1 d ( x in , c ) − �0k ∈K d ( x in , P ood k ), (2)0其中y∈{0,1}|C|是图像xin中前景类别的多热二进制向量,K是在Pood中与xin最接近的前τ%的聚类集合。这种对K的限制确保了模型的有意义的监督信号。我们还使用常规的分类损失Lcls。对于分布样本xin,我们使用二元交叉熵(BCE)损失与标签向量y进行对比。对于非分布样本xood,我们使用相同的损失和零向量标签y = (0, ∙ ∙ ∙ ,0)。我们的分类器F的分类损失为0Lcls = 10|C|0c =1 [ L BCE ( F c ( x in ) , y c ) + L BCE ( F c0(3)其中F c是类别c的预测。训练分类器F的最终损失L为0L = Lcls +λLd,其中λ>0是平衡两个损失的标量。由于我们的方法在现有的分类器训练中添加了额外的正则化项Ld,因此可以无缝地集成到其他方法中,如IRN [1]、SEAM[56]和AdvCAM [30]。03.3. 训练分割网络0通过Eq. 4训练的分类器F使用CAM[63]技术生成一个定位图。由于简单的CAM生成低分辨率的分数图,并且只提供对象的粗略定位,最近的WSSS方法[27,28, 30, 50, 56,62]提出了一个将CAM分数图扩展到全分辨率的框架。他们将CAM定位图视为初始种子,并通过改进的种子细化方法[1,2, 16,23]生成伪GT掩码。在这项工作中,我们将IRN框架[1]应用于我们的定位图,以获得伪GT掩码。然后,它们用于训练分割网络。169010表1.W-OoD改进初始种子。我们评估了各种初始种子的质量以及应用W-OoD对它们的影响。在Pascal VOC2012训练集上评估。所有数字都基于我们使用官方代码重新实现的结果。0方法 mIoU 精确率 召回率 F1分数0IRN CVPR '19 [2] 49.5 61.9 72.7 66.9 + W-OoD53.3 66.5 73.2 69.70SEAM CVPR '20 [56] 54.8 67.2 76.5 71.5 + W-OoD55.9 68.5 76.7 72.40AdvCAM CVPR '21 [30] 55.5 66.8 77.6 71.8 +W-OoD 59.1 71.5 77.9 74.60表2. 伪GT掩码的质量。在Pascal VOC2012训练集上评估初始种子(Seed)、带有CRF的种子(+CRF)和伪GT掩码(Mask)的mIoU(%)。所有基于IRN[1]和ResNet-50的方法。0方法 Seed + CRF Mask0IRN CVPR '19 [1] 49.5 54.3 66.3 MBMNetACMMM '20 [42] 50.2 - 66.8 CONTA NeurIPS '20[62] 48.8 - 67.9 CDA ICCV '21 [50] 50.8 - 67.7AdvCAM CVPR '21 [30] 55.6 62.1 69.9 CSE ICCV'21 [26] 56.0 62.8 -0IRN + W-OoD(我们的方法)53.3 58.4 71.1AdvCAM + W-OoD(我们的方法)59.1 65.5 72.104. 实验04.1. 实验设置0在分布数据集上进行实验:我们在Pascal VOC 2012[10]数据集上进行实验。遵循弱监督语义分割(WSSS)[1,30,56]的做法,我们使用由Hariharan等人[12]制作的包含10,582个训练图像的增强训练集。对于这些训练图像,我们只使用图像级别的类别标签,遵循WSSS的协议。我们仅在val(1,449个图像)和test(1,456个图像)集上使用像素级的真实掩码进行评估。我们使用官方的PascalVOC评估服务器进行test集的评估。非分布数据集:如第3.1节所述,我们使用OpenImages[24]数据集构建候选的OoD集。通过预测分数修剪和手动过滤,我们得到包含5,190个图像的困难OoD集Dood。附录中显示了一些示例。可重现性:我们遵循IRN[1]的实验设置来训练分类器和获取初始种子,包括使用ResNet-50 [13]。对于第3.2节中定义的设置,我们使用λ =0.007,τ = 20和K =50。对于训练分割网络,我们使用DeepLab-v2[5],有两种选择的主干网络,ResNet-101 [13]和WideResNet-38[58],遵循最近论文的做法。所有的主干网络都是在ImageNet [9]上进行预训练的,遵循现有的工作[2, 26, 39, 56,62]。0表3. Pascal上的WSSS性能。我们展示了在Pascal VOC2012验证集和测试集上的结果。WResNet表示Wide ResNet[58]。星号�表示我们复现的数字。0方法骨干验证测试0监督:图像级标签+显著性FickleNet CVPR '19 [28]ResNet-101 64.9 65.3 Sun等ECCV '20 [51]ResNet-101 66.2 66.9 Yao等CVPR '21 [60]ResNet-101 68.3 68.5 A 2 GNN TPAMI '21 [61]ResNet-101 68.3 68.7 AuxSegNet ICCV '21 [59]WResNet-38 69.0 68.6 EDAM CVPR '21 [57]0监督:图像级标签IRN CVPR '19 [1] ResNet-50 63.5 64.8SSDD ICCV '19 [48] WResNet-38 64.9 65.5 SEAM CVPR'20 [56] WResNet-38 64.5 65.7 Chang等CVPR '20 [4]ResNet-101 66.1 65.9 CONTA NeurIPS '20 [62]WResNet-38 66.1 66.7 AdvCAM CVPR '21 [30] �ResNet-101 67.5 67.1 CSE ICCV '21 [26] WResNet-3868.3 68.0 PMM ICCV '21 [39] WResNet-38 68.5 69.0AdvCAM + W-OoD(我们的方法)ResNet-101 69.869.9 AdvCAM + W-OoD(我们的方法)WResNet-3870.7 70.104.2. 实验结果0定位图的质量:如第3.2节所述,我们的方法可以应用于其他WSSS方法,因为它只需要在分类器训练过程中添加损失项Ld。我们将我们的方法应用于三种最先进的WSSS方法,它们利用了初始种子:IRN [1],SEAM [56]和AdvCAM[30]。表1展示了所考虑基线的初始种子的质量以及与我们的W-OoD技术相结合时的性能。我们观察到,我们的方法大幅改善了所有三种方法的所有指标。特别是,W-OoD训练显著提高了精确度值(例如AdvCAM[30]的+4.7%p),表明生成的定位图在背景区域中的出血频率更低。这正是我们预期通过将困难的OoD样本纳入训练中所能看到的结果。图3显示了定位图的定性示例。它们显示我们的方法在实际前景对象周围生成了更精确的地图。我们的方法有效地抑制了与“火车”相关的虚假相关背景区域,如“火车”和“鸟”之间的铁轨和树木。此外,我们观察到我们的方法通过扩展目标对象的检索区域来提高召回率,如图3中的最后一列所示。增加的精确度为进一步提高召回率提供了空间。伪地面真值掩码的质量:表2比较了导致伪地面真值掩码的中间掩码的质量,包括最先进的方法和我们的方法。我们的伪地面真值掩码实现了一个mIoU169020图像CAM +W-OoD真值0图像AdvCAM +W-OoD真值0图3. 定位图示例。定位图分别来自CAM(左)和AdvCAM [30](右)。在每种情况下,我们在顶部展示了使用我们的W-OoD方法的结果。0图像真值IRNAdvCAMAdvCAM+我们的方法0图4. 最终分割结果示例。在Pascal VOC 2012验证集上,展示了IRN [1],AdvCAM [30]和AdvCAM +我们的方法的语义分割结果示例。072.1的值,大大超过了先前的最先进技术。请注意,CDA[50]也是出于抑制前景和背景线索之间的虚假相关性的需要,但只使用了分布内的数据来解决这个问题。它将IRN[1]的初始种子提高了1.3%p mIoU(49.5 →50.8),而我们的方法将其提高了3.8%p mIoU(49.5 →53.3,在表1中)。我们认为,分布内的数据在从前景中区分某些背景线索方面在根本上是有限的:如果一个人总是看到火车在铁轨上行驶,他怎么能学到铁轨不是火车的一部分呢?我们相信这种缺失的知识可以通过困难的OoD图像有效地提供。0最终分割结果:我们在表3中展示了WSSS基准结果。它在仅使用图像级标签的变体中获得了最佳结果:在val上的mIoU为70.7%,在test上的mIoU为70.1%。特别地,使用相同的ResNet-101 [13]骨干网络,我们的方法比基线AdvCAM[30]的mIoU提高了2.3%p。我们的方法还优于使用额外显著性监督[38,41]的其他方法,这些方法明确提供图像中显著对象的像素级信息,除了EDAM [57]。图4展示了IRN [1]、AdvCAM[30]和我们的AdvCAM +W-OoD生成的语义掩码示例。在这些示例中,我们的方法比基线更准确地捕捉到目标对象的范围。2052.43053.15053.37052.6169030(a)(b)(c)0图5.难OoD样本的数量。我们改变内分布训练数据Din(原始为10,582)和难OoD数据(原始为0)的数量。(a)我们固定|Din|=10,582,改变|Dood|。(b)我们固定|Din|+|Dood|=10,582,改变|Dood|。(c)我们使用|Din|=2,000和|Dood|=100。箱线图显示了五次重复实验的分位数。0K 聚类 mIoU020个预测类别 52.10K-Means0表4.构建Pood。我们比较了W-OoD训练中构建Pood的两种方法。我们报告了PascalVOC 2012训练集上初始种子的mIoU。0图6. 每类种子质量。我们比较了基线IRN [1](上述标记为“CAM”)和每个类别的W-OoD增强版本。在Pascal VOC2012训练集上评估。类别按∆改进(%p)的降序排列。04.3. 分析与讨论04.3.1 OoD图像数量0我们研究了OoD图像数量对我们的W-OoD训练方法的影响。图5(a)显示了不同数量的OoD图像(|Dood|)下初始种子的mIoU得分,同时保持内分布图像数量恒定为|Din|=10,582。实验重复了五次,以研究结果对不同随机子集Dood的敏感性。我们观察到,即使在每个类别有1个难OoD样本(|Dood|=20)时,性能提升也为2.0%p(49.8 →51.8),尽管存在显著的方差。随着难OoD图像数量的增加,额外的性能提升逐渐减少。性能方差也随着难OoD样本数量的增加而减少。在第二个实验中,我们改变了难OoD样本的数量|Dood|,同时固定图像级标记样本的总数:|Din|+|Dood|=10,582。这是固定内分布和外分布样本预算的一个版本。图5(b)显示,难OoD图像带来的单元增益远远大于内分布图像。因此,在固定预算的情况下,建议至少将一部分预算用于收集难OoD样本。在图5(c)中,我们观察到,使用100个难OoD图像,我们只需要2,000个内分布图像就能达到从原始的10,582个内分布图像获得的性能,提高了约500%的数据效率。0表5. 损失消融。在PascalVOC训练集上,每个损失对初始种子的mIoU(%)的有效性。0损失 数据(a)(b)(c)(d)(e)(f)0Lcls Din � � � � � �0Dood � � � �0Ld Din � � �0Dood � � �0mIoU 49.5 50.0 52.5 50.2 52.3 53.304.3.2 每个组件的有效性0K-Means聚类:表4比较了在第3.2节中构建Pood的两种方法。当OoD聚类基于分类器预测的类别时,得到的mIoU为52.1%,与使用相同K值的K-Means聚类方法获得的结果没有显著差异。基于预测类别的聚类方法将K限制为|C|,而K-Means聚类可以控制K值。在K=50时,它产生了53.3%的mIoU值,并且在广泛范围的K值上性能稳定。附录中展示了每个聚类中的OoD样本示例。损失函数:我们对Eq.4中的每个损失进行了消融研究。Lcls和Ld都包含了关于内分布Din和外分布Dood数据的项。表5展示了每个损失项以及数据集类型的有效性。(a)是仅使用Lcls对Din进行训练的结果,这是我们的基准。从(a)→(b)和(c)→(e)的性能提升表明,训练分类器以将OoD图像预测为背景(Lcls对Dood)是有效的,尽管TrainTrain-OoDBirdBird-OoDEpoch 0Epoch 1Epoch 2Epoch 3Epoch 4169040图7.中间特征的可视化。我们使用T-SNE[44]降维技术可视化了“train”和“bird”类的中间特征,以及各自OoD样本的特征,在不同的训练阶段。0只有微小的改进。从(b)→(d)→(f)的改进表明了Ld的重要性,特别是在使用困难的OoD数据Dod时。我们还发现,对于Din的Ld对于稳定性能是有用的:在(e)→(f)中,标准差从0.82降低到0.33。04.3.3 按类别分析结果0不同的物体类别与背景之间存在不同程度的虚假相关性。例如,“train”物体常常与铁轨背景混淆,因为它们与铁轨的高共现性。另一方面,“tvmonitor”等物体由于共现概念的多样性而不太受此问题的影响:电视可以自由地放在墙壁、家具、窗户或任何其他室内物体旁边。我们在图6中展示了基线IRN[1]和我们方法的类别性能。首先,我们注意到我们的方法改善了类别性能,18个类别中有21个类别的性能有所提升。从我们的方法中受益最多的类别是train、airplane、boat、bird和horse。它们是以虚假背景相关性而闻名的类别:train-rail、airplane-sky/runway、boat-water、bird-tree/sky和horse-meadow。另一方面,“diningtable”类的mIoU显著下降。我们推测虚假背景相关性实际上有助于定位“diningtable”物体。许多像素级的真值评估掩码错误地包含了放在上面的物体,如盘子、餐具和食物。通过将包含这些未放在餐桌上的共现物体的OoD图像标记为“no diningtable”,模型可能会在这些物体上正确地分配较低的“diningtable”分数,讽刺地损害了噪声掩码上的最终性能。请参见附录中的示例。我们相信,如果修正这些错误的真值掩码,还将获得额外的性能提升。04.3.4 流形可视化0为了观察我们方法的训练动态,我们在W-OoD训练的不同阶段可视化特征流形。我们从D中收集了两组带有相应标签“train”和“bird”的图像,以及两组分别被F错误预测为“train”和“bird”的图像。0从Dod中。使用在e∈{0,∙∙∙5}1的时期的分类器,我们计算从Din和Dod中的图像中提取的特征zin和zout。我们使用t-SNE[44]将每个特征的维度降低到2维。图7可视化了经过t-SNE降维后的zin和zout特征。观察到,在时期开始时,每个类别的zin和zout很难区分,表明分类器对于分布内和OoD图像编码了类似的信息。然而,随着W-OoD训练的进行,这两个特征逐渐变得不同。这个分析支持我们的论点,即我们的方法允许分类器避免对分布内和OoD图像之间的共同信
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索AVL树算法:以Faculdade Senac Porto Alegre实践为例
- 小学语文教学新工具:创新黑板设计解析
- Minecraft服务器管理新插件ServerForms发布
- MATLAB基因网络模型代码实现及开源分享
- 全方位技术项目源码合集:***报名系统
- Phalcon框架实战案例分析
- MATLAB与Python结合实现短期电力负荷预测的DAT300项目解析
- 市场营销教学专用查询装置设计方案
- 随身WiFi高通210 MS8909设备的Root引导文件破解攻略
- 实现服务器端级联:modella与leveldb适配器的应用
- Oracle Linux安装必备依赖包清单与步骤
- Shyer项目:寻找喜欢的聊天伙伴
- MEAN堆栈入门项目: postings-app
- 在线WPS办公功能全接触及应用示例
- 新型带储订盒订书机设计文档
- VB多媒体教学演示系统源代码及技术项目资源大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功