领域自适应语义分割中的人在回路机制：La-bOR方法的研究

160 浏览量更新于2023-10-13 收藏 1.76MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8588：人在回路机制66.7全面监督（100%）66.664.663.562.661.1二点二40分26分百分之一点五58.156.051.5SPL（0.8%）PPL（10例患者）WDA（10例患者）IAST（0%）UDA模型36.6无适应（0%）~~~→∼LabOR：仅在需要时标记，用于领域自适应语义分割Inkyu Shin Dong-Jin Kim Jae Won Cho Sanghyun Woo Kwanyong Park In So KweonKAIST，韩国。{dlsrbgg33，djnjusa，chojw，shwoo93，pkyong7，iskweon77}@ kaist.ac.kr摘要语义分割的无监督领域自适应（UDA）技术已经被广泛研究，以缓解标签丰富的源数据和未标记的目标数据之间的差距尽管做出了这些努力，但UDA要达到完全监督的绩效还有很长的路要走。为此，我们提出了一个LabelingOnlyifR equired策略，La-bOR，其中我们引入了一个人在回路的方法，自适应地给稀缺标签的点，一个UDA模型是不确定的。为了找到不确定的点，我们使用所提出的自适应像素选择器生成不一致掩模，并且我们标记这些基于段的区域以仅用一小部分（约2.2%）地面真值点实现近监督性能，我们称之为为了进一步减少人类注释者的努力，我们还提出了这减少了2.2%的段标签40点标签的工作，同时最大限度地减少性能下降。通过大量的实验，我们展示了这种新的领域自适应语义框架的最大限度地减少人力成本的同时，1. 介绍语义分割使得能够在像素级理解图像场景，并且对于各种现实世界应用至关重要，例如自动驾驶[41]或机器人的模拟学习[13]。不幸的是，深度学习中的像素级理解任务需要在时间和成本上付出巨大的标记努力。因此，无监督域自适应（UDA）[15]通过利用标签丰富数据（源数据）的知识并将其转移到未标记数据（目标数据）来解决这个问题，这可以显著降低标记成本[40]。根据适应方法，UDA可以在很大程度上分为基于对抗学习[27，37，51，52，54]基于DA和自我训练[31，34，47，57，59] DA。而前者侧重于最小化特定于任务的损失GTA5城市景观0%100%每个图像的图1. 每个图像的平均像素标签与性能我们的新型人在环框架LabOR（PPL和SPL）不仅显著优于先前的UDA最先进的模型（例如，IAST [31]），而且是具有很少标签的DA模型（例如，WDA [38]）。请注意，我们的PPL需要可忽略不计的标记数量来实现这种性能改进（每个图像25个标记点），并且我们的SPL显示出与完全监督学习相当的性能（0.1%mIoU差距）。详细性能见表。1和图五、为了减少源域和域对抗性损失，自训练策略利用生成的目标特定的伪标签重新训练模型。其中，IAST [31]通过有效地混合基于对抗和基于自我训练的策略，在UDA中实现了最先进的性能尽管在开发UDA模型方面做出了不懈的努力，但性能限制是明显的，因为它仍然远远落后于完全监督模型。如图所示。 1 、近期 UDA 方法保持在（50%mIoU）左右，远低于全监管（65% mIoU）在GTA5 [41] →Cityscapes [8]。出于UDA的局限性，我们提出了一个新的视角域适应，利用一分钟的像素级标签的一部分，在一个自适应的人在循环的方式。我们将此框架命名为LablingO，仅当性能（mIoU[%]）8589·R equired（LabOR），其在图1中描述。二、与传统的基于自训练的UDA不同，UDA使用从模型预测生成的伪标签重新训练特别是，我们发现的两个不同的classi-fiers预测不匹配的地区。为了有效地找到不匹配的区域，我们引入了额外的优化步骤来最大化两个分类器之间的差异，如[7，43]。因此，通过在像素级上比较来自两个分类器的相应预测，我们创建了一个不匹配的区域，我们称之为不一致掩码，其可以被视为不确定像素。我们称这个框架为这导致使用非常少量的像素级标签来最大化性能。根据我们如何标记提议的区域，我们提出了两种不同的标记策略，即“基于段的像素标记（SPL）”和“基于点的像素标记（PPL）”。虽然SPL以类似片段的方式标记不一致掩码上的每个像素，但PPL通过在所提出的片段内找到代表点而将其重点更多地放在标记工作效率上。我们的经验表明，这两个建议的我们将我们的贡献总结如下：1. 我们设计了一个新的框架，域适应语义分割，LabOR，通过利用一小部分的像素级标签与自适应人类在循环像素选择器。2. 我们提出了两种标记选项，基于段的像素标记（SPL）和基于点的像素标记（PPL），并表明这些方法是特别有利的性能相比，UDA和标记效率分别。3. 我们进行了大量的实验，以表明我们的模型优于以前的UDA模型的显着的利润率，即使很少的像素级标签。2. 相关工作无监督域自适应。域自适应是一个经典的计算机视觉问题，其目的是缓解由于跨域的分布失配而导致的性能下降，并且已经通过传统方法[10，14，15，24，26]和基于深度CNN的方法在图像分类问题中进行了研究。ods [11、12、25、29、32、35、44]。域适应最近已经在其他视觉任务中进行了研究，例如ob-对象检测[5]、深度估计[1]和语义分割[17]。随着自动注释的GTA数据集[40]的引入，用于语义分割的无监督域自适应（UDA）已经得到了广泛的研究。对抗性学习方法旨在最小化源和目标特征分布之间的差异，并且在实践中已经在三个不同的水平上研究了该方法：输入级对齐[6，17，33，36，48]、中间特征级对齐[18，19，28，30，52]和输出级对齐[51]。标签较少的域适应。尽管对UDA进行了广泛的研究，但已知UDA的性能远低于监督学习[42]。为了减轻这种限制，各种工作已经尝试对目标数据集的地面实况标签进行例如，半监督域自适应，它利用每个类别随机选择的图像级标签作为标记的训练目标示例，最近已经被研究用于图像分类[42]，语义分割[53]和图像字幕[4，20]。然而，这些朴素的半监督学习方法不考虑在给定固定预算大小的情况下应该标记与半监督域自适应类似，一些作品使用主动学习[45]来为数据集的一小部分[50，39]提供标签。这些工作利用模型来找到最能提高模型性能的数据点此外，为了减少域自适应中目标图像的每个图像的标记工作，还研究了利用弱标记的方法，每个图像几个点[38]。相比之下，我们的工作通过允许模型自动精确定位到人类注释器来区分自己，该人类注释器指向像素级别上的标签，这将具有最佳的潜在性能提高，而不是随机挑选标签，这可能已经很容易让模型预测。此外，与在训练之前具有随机注释的半监督模型不同，我们允许模型让注释器知道图像中的哪些点最适合提高性能。虽然乍一看，我们的方法似乎类似于在人在回路方面的主动学习，但我们的工作是第一个提出像素级而不是图像级的方法。总体而言，我们的像素级采样方法不仅是有效的，而且与现有的主动、弱标签或半监督域自适应框架正交3. 该方法在本节中，我们将介绍我们的方法，从不一致性掩模生成到自适应像素标记。3.1. 问题定义：域适应让我们将g（）表示为具有参数的网络主干，该参数从输入x生成特征。然后，8590◦·|◦∈s=1t=1∈|TS{}∈··源图像源标签人类注释器目标图像目标活动标签2.像素选择器模型副本副本Opt1. SPLOpt2. PPL伪标签最大化差异基于分段掩码不一致基于点掩码不一致班级#L-2班级#L-1人在回路一代分类器L特征提取器1. UDA模型3。像素标记图2. 概述了所提出的自适应基于像素的标记，LabOR。该框架由两个模型组成：UDA模型和像素选择器模型。UDA模型最初从传统的对抗性学习中训练出来，将目标图像向前发送以生成伪标签。与利用生成的标签直接重新训练模型的正常自训练训练方案[31]不同，我们训练像素选择器模型来产生不一致的掩码，其中人类注释者被引导标记。在这个过程中，我们使用伪标签训练损失，Lpt，其中包含伪标签交叉熵损失和分类器的差异损失。有了这些人类标签，我们返回到使用L st的原始UDA模型进行训练。分类层包括参数为θ的softmax激活fθ（·），计算类别预测（概率）（Y=p（Yx;θ，）=fθg（x））其中W和H是分割图的宽度和高度，并且K是类的总数）。组合网络f θg（）可以用典型的语义实现分段生成器[2，3]。一个典型的语义段--站模型用交叉熵损失CE（，）训练，具有地面真值标签YRW×H。此外，让我们将=（xs，Ys）S表示为来自源数据集的标记图像，并且将=xtT表示为来自目标数据集的未标记图像。无监督域自适应（UDA）试图利用丰富的标记源数据集和少量未标记的目标数据集来训练深度神经网络。最近的无监督域自适应语义分割使用自训练方法[31，60]，并且已经显示出最先进的性能，并且如下优化：在实践中，模型在生成伪标签Y~t（xt）RW×H，对于图像xt，基于模型预测p（Yx;θ，θ），并利用所生成的伪标签在目标数据集上重新训练模型。的基于自训练的域自适应[31，60]的目标是设计有效的损失函数和生成伪标签的方法。具体来说，CRST [60]提出类-平衡的伪标签生成策略和置信区域KLD最小化，以防止伪标签上的过拟合。IAST [31]解决了类平衡的伪标签生成，它忽略了实例的单个属性此外，IAST增加了一个熵最小化的方法对未标记的像素。基于自我训练的领域适应远远低于完全监督的模型。这可归因于两个原因。首先，切掉不自信的像素并用阈值化标签重新训练不是直观的，因为模型被迫仅用模型本身自信的像素来训练。其次，现有的伪标签生成通常源自特定的手动设置的超参数，导致不正确的伪标签，这降低了性能。为了解决这个问题，我们提出了一个新的视角，自我训练为基础的域适应与人在循环的方法，通过使用人类注释标记少量的信息像素。当人类注释者注释模型不确定的像素时我们称这种方法为LabelingO only ifR equired（LabOR）。为了最小化人类注释者的努力，我们必须回答关键问题“什么是要标记的信息像素？”“换句话说，我们的目标是找到模型不确定的像素。为此，我们建议8591ΣΣL12|′ ′′12′不′′不ϕ′θ′，θ′12∈← LLt（θ，）=xt∈T（Yt（xt），p（Yxt; θ，θ））.选择显示由基于分类器差异的域自适应方法MCDDA[43]激励的最高分类器差异的像素3.2. 生成不一致掩码图2示出了我们提出的方法的概述。首先，我们通过最小化监督交叉熵损失来用标记的源数据集SLs（θ，）=E（xs，Ys ）∈SCE（Ys，p（Y|xs;θ，θ））。（一）在此之后，为了提高自我训练的有效性，我们利用对抗训练的热身[31]在补充材料中讨论了自我伪标签的详细设计选择。然后，为了优化两个辅助分类器以增加彼此之间的差异，我们引入了一个额外的训练阶段来优化辅助分类器以增加分类器输出之间的距离。此外，我们还最小化了分类器的差异与相对于骨干特征提取器g’，这导致与分类器差异max1类似的公式。MCDDA [43]中的混合：minmaxLdis（θ′，θ′，θ′）12然后再进行自我训练S不=最小最大E12Σ||f′ ◦g′（x）−f′ ◦g′（x）||Σ。Lad v（θ，⋯ ）=Ex∈ S，x∈TΣAd v（p（xs;θ，⋯ ），p（xt;θ，⋯ ））Σ.ϕ′θ′，θ′xt∈Tθ1tθ2πt1（五）然后，我们复制主干和分类器的参数（对于分类器复制两次）（即，θ′ ←θ，θ′ ←θ，′←）创建我们的Adaptiv e Pix el选择器模型（fθ′，fθ′，g′）。注意，MCDDA中的分类器差异最大化的目标是创建更紧密的决策边界，以便对齐源和分类器之间的潜在特征分布。1 2此模型仅用于像素选择并且对性能没有影响利用这个新的模型，我们优化了模型与两个辅助分类器，并增加了彼此之间的差异。在此之后，我们建议找到两个像素目标域。相比之下，我们最大化分类器不一致性的唯一目的是生成更有代表性的不一致性掩模，使得人类注释者可以向真正需要标签的像素给出基本事实标签。在优化辅助分类器（θ′，θ′，θ′）后，1 2分类器具有不同的输出类预测。使用不同的输出类预测，我们创建一个由不一致的像素M（xt;θ′，θ′）RW ×H组成的掩码，我们称之为不一致掩码。掩模生成的公式如下：M（xt）=argmaxfθ′g′（xt）=argmaxfθ′g′（xt）。（三）我们利用这些分类器的不同输出使用（3）以像素到像素的方式比较它们以获得M（x）。在人类注释者基于M（Xt）向不确定像素给出地面实况标签之后，然后用目标数据集T训练模型（fθ，g），其中giv en ground truth labeled pixelsY〜t（xt）：K1K2LEΣCE ~|Σ（6）为了简单起见，我们滥用符号M（xt;θ，θ1，θ2）为则从ωp ying（θ′）开始的过程 ←θ，θ′ ←M（xt）。我们推测，如果两个分类器在'上训练′ ′ ′1 2′ ′ ′如果相同的数据集为相同的区域生成不同的预测因此，我们得出结论，该不一致性掩模表示模型最不确定的像素。换句话说，我们假设，通过为这些像素提供地面真值标签来指导模型，模型将更容易弥合域之间的差距，并提高模型的泛化能力。在下一小节中将描述给出地面实况标签的详细方法。Giv en′，θ′，θ′，我们首先应用自训练损失θ，）、优化self（，θ1，θ2）和dis（，θ1，θ2），以重复不一致性生成M（xt）。总体方法总结于Alg.（一）.我们重复这个过程3倍，因为我们凭经验发现不确定像素的数量和模型性能在3个阶段之后收敛3.3. 自适应像素标记给定不一致掩码M（xt），问题出现为如何向像素给出标签。考虑到这一点，我们提出了两种不同的方法来给出具有不同重点和优势的地面真值注释。12基于片段的像素标记（SPL）。作为一个不和谐的-具有伪标签的函数（从Yt=p（Yxt;θ，）生成的独热向量标签），已在各种任务使用Lself（，θ，θ）tency mask显示了模型不确定的所有像素，我们考虑为所有选择的像素我们称这种方法为基于段的像素标记（SPL）。在SPL中，没有进一步的计算1 2在已经生成不一致掩码之后=Ex∈TΣCE（argmaxYt，p（Y|xt;θ′，θ′））（四）并且在像素被注释之后，模型|不K+CE（argmaxY）（二）不85922K1，p（Y|x;θ′，θ′））Σ。p（Y x;θ，）进一步训练。从经验上讲，我们发现-每个阶段的延迟掩模平均值（以像素的百分比表示8593|← LLK←L|≈12θ1，θ2arg minself（，θ1，θ2）θ′、θ′、θ′◦·ST∈T1 2算法一：像素选择器模型输入：源数据、目标数据、初始化模型fθg（）输出：目标权重调整后的模型首先对模型p（Y x;θ，θ）预测为相同类别的像素进行聚类。我们如下定义类别k的不确定像素集合DkDk={（i，j）∈M（x）|k=argmaxKY{i，j}。（七）1开始数据集fθ◦g（·）然后我们计算每个类的类原型向量μk2在源数据集上预训练模型。3、初始适应对抗学习。类k作为Dk的平均向量：4θ，arg minθ，s（θ，）+adv（θ，θ）（等式。（1））μk=1|DK|（i，jΣ）∈DkY（i，j）∈R.（八）5为3阶段做6定义辅助层并复制权重7θ′←θ，θ′←θ，ϕ′←ϕ最后，我们选择与每个原型向量具有最相似概率向量的点来构造集合选择点P：8应用自我训练（等式（4））′ ′ ′′ ′ ′12P（x）=. argmind.μk，Y（i，j）∈DkΣΣKi、j.（九）10最大化分类器差异（等式11）（五））11′，θ′，θ′←argminmaxLdis（′，θ′，θ′）对于距离度量d（·，·），我们使用余弦距离。注意当Dk对某些类可以是空集时，0≤|P（xt）|≤12′θ′，θ′12ϕ1212为xt做13用等式（1）生成M（xt;θ′，θ′，θ′）（三）、14，如果SPL，则K，如果模型未能预测某个类别。在每个在第一阶段，平均而言，模型生成12个聚类，并且我们平均每个聚类给出40个真实标签。在尺寸为640×1280图像中的目标图像xt。这个calcu-15注释不一致掩码16Y~t（xt）←M（xt）⊙Yt如果PPL，则为1718选择代表点P（xt）=SelectPt（M，p（Yxt;θ，θ））20注释要点21Y~t（xt）←P（xt）⊙Yt22使用伪标签23θ，←arg minθ，Lt（θ，）（Eq. （六））每个图像的总像素为1%，并且在最后阶段总计为2.2%，因为一些不确定的像素重叠。SPL的性能实现了近监督学习，并且它远远超过了我们的下一种方法的性能，后者更专注于大幅减少人类注释劳动。基于点的像素标记（PPL）。我们还提出了一个其他的像素标记方法，它的重点是最小化人类注释成本;我们称这种方法为基于点的像素标记（PPL）。虽然PPL接收像SPL一样的不一致掩码，但是我们建议仅标记不一致掩码中最具代表性的像素，而不是标记所有像素。在最具代表性的像素中，我们故意选择通过选择存在于不一致掩码中的所有唯一类给定一组不确定的像素（不一致掩码M（x））和模型9k=18594→≈最后到达0。0049%的图像被给予地面实况标签。与平均18022个像素的SPL相比，2. 2%的整个图像，我们进一步减少人类标记成本0。百分之二。由于地面实况注释的量急剧减少，PPL相对于SPL自然地表现不佳。然而，我们的经验表明，PPL的性能增益比其他UDA或弱监督DA方法仍然是显着的。4. 实验在本节中，我们进行了大量的实验来分析我们的方法定量和定性。4.1. 数据集我们在GTA5 [41]到Cityscapes [8]的最常见适应基准上评估了我们的模型。遵循以前工作的标准协议[31，30]，我们将模型适应Cityscapes训练集，并评估验证集的性能。4.2. 实现细节为了推动最先进的基准性能，我们在IAST框架上测试了我们的方法LabOR [31]。对于我们的主干，我们使用ResNet-101 [16]作为特征提取器，使用Deeplab-v2[2]作为分割模型。我们利用源域对模型进行预训练，并利用对抗训练来初步减少域偏移。我们对模型进行了总共3个阶段的训练。在每个阶段中，执行所提出的迭代人在环机制。我们像素Y={Yi，j∈RK|i∈[1，W]，j∈[1，H]}，我们遵循IAST8595→GTA5→城市景观方法路SW构建壁围栏极TLTSVeg.地形天空PR骑手车卡车总线火车电机自行车Miou无适配器75.816.877.212.521.025.530.120.181.324.670.353.826.449.917.225.96.525.336.036.6[51]第五十一话86.536.079.923.423.335.214.814.883.433.375.658.527.673.732.535.43.930.128.142.4[52]第五十二话89.936.581.229.225.228.532.322.483.934.077.157.427.983.729.439.11.528.423.343.8SIMDA [54]90.644.784.834.328.731.635.037.684.743.385.357.031.583.842.648.51.930.439.049.2[23]第二十三话92.955.085.334.231.134.940.734.085.240.187.161.031.182.532.342.90.336.446.150.2PCEDA [55]91.049.185.637.229.733.738.139.285.435.485.161.132.884.145.646.90.034.244.550.5FDA [56]92.553.382.426.527.636.440.638.982.339.878.062.634.484.934.153.116.927.746.450.5CBST [58]91.853.580.532.721.034.028.920.483.934.280.953.124.082.730.335.916.025.942.845.9加拿大（公告牌加拿大百强单曲榜）[60]91.055.480.033.721.437.332.924.585.034.180.857.724.684.127.830.126.926.042.347.1TPLD [47]94.260.582.836.616.639.329.025.585.644.984.460.627.484.137.047.031.236.150.351.2IAST [31]93.857.885.139.526.726.243.134.784.932.988.062.629.087.339.249.623.234.739.651.5WDA [38]（点）94.062.786.336.532.838.444.951.086.143.487.766.436.587.944.158.823.235.655.956.4我们的（PPL：点）96.171.888.847.046.542.253.160.689.455.191.470.844.790.656.747.939.147.362.763.5我们的（SPL：细分市场）96.677.089.647.850.748.056.663.589.557.891.672.047.391.762.161.948.947.965.366.6监督96.977.189.845.649.947.455.864.190.058.292.871.946.991.460.365.854.344.664.766.7表1. GTA5 Cityscapes的测试结果虽然我们的PPL方法已经超过了以前的UDA最先进的模型（例如，IAST [31]）和具有很少标签的DA模型WDA [38]），我们的SPL方法显示出与完全监督学习相当的性能（仅0.1% mIoU差距）。GT（a）IAST（0%）（b）SCONF（~2.2%）（c）SPL（~2.2%）（d）Sup（100%）图3.我们的SPL的定性结果虽然最先进的UDA方法，即，IAST [31]和标记区域的朴素方法SC0NF基线显示错误的分割结果，所提出的方法SPL显示与完全监督方法类似的正确分割结果。4.3. 游戏名称：GTA5→ Cityscapes我们在表中显示了我们的方法PPL和SPL与其他现有技术UDA方法[30，51，52，58，60]相比的定量结果。1.一、虽然出在我们的范围内，我们将我们的方法与弱标签DA（WDA）[38]进行比较，以显示我们方法的竞争力。为了真正了解我们方法的功能，我们还包括完全监督模型的结果。表. 1表明，我们的LabOR SPL在所有情况下都大大优于所有最先进的UDA或WDA方法。即使与完全监督的方法相比，SPL也只下降了0.1 mIoU。在一些类别中，例如我们相信这是一个值得注意的发现，有可能被探索以超越完全监督方法的性能。即使我们的LabOR PPL只利用目标数据集的点级监督，PPL也显示出显着的性能增益比以前的国家的最先进的UDA或WDA方法。与最好执行UDA模型IAST [31]时，PPL在mIoU中获得12%的增加，并且与SPL相比，性能仅降低3.1%即使与使用类似于PPL的点标签的WDA相比请注意，WDA标签平均每个图像约10 - 15个像素，虽然我们的标签确实提供了3倍以上的像素，但我们能够大幅提高性能，同时进一步减少人为干扰。4.4. 进一步讨论基于段的像素标记策略。为了理解SPL作为不确定性度量的性能增益，我们将SPL与主动学习研究中激发的其他几种不确定性度量进行了比较。我们的SPL和上述基线之间的比较结果如图所示。第五条（a）款。随机（RAND）是一种被动学习策略，其根据图像区域上的均匀分布来标记像素。Softmax Confidence（SC0NF）[9]查询模型在其最可能生成的序列中具有最小置信度的像素：1−maxKYi，j. Entropy（ENT）[46]查询8596级数性能（mIoU[%]）k=1-Σ×GT（a）IAST（0分）（b）SCOF（45分）（c）PPL（40分）（d）Sup（100%）图4. 我们的PPL的定性结果虽然最先进的UDA方法，即，IAST [31]和用于标记区域的朴素方法SC0NF基线示出了错误的分割结果，所提出的方法PPL示出了与完全监督方法类似的正确分割结果。(a) 基于段的6864(b) 基于点6662646062586056585456阶段#1阶段#2阶段#352阶段#1阶段#2阶段#3标签（%）级#1级#2第三阶段兰德1232.22.02.2100100100标签（pts）图5. （a）基于段和（b）基于点的像素标记策略的性能。（a）我们的方法SPL在不确定性度量中显著优于所有方法，并且我们的方法在最后阶段显示出与完全监督训练方法相当的性能（b）在基于点的策略中，我们的最终模型（PPL-Sim（best））显示出最佳性能。最大化模型输出的entro p y：H（Y（i，j），其中H（p）= Kp（k）logp（k）。对于RAND、SC0NF和ENT，我们需要将恒定数量的像素设置为标签。因此，我们为这些基线的每个阶段的每个图像1%的像素提供标签，因此标记的像素的数量ELS/阶段与我们的方法类似。请注意，与RAND不同，SCOF和ENT的像素选择取决于训练期间模型的输出，这可能会导致某些选定像素在阶段上重叠。因此，尽管我们在每个阶段给出1%的像素标签，但标记像素的累积数量可能低于1%（阶段），如图1B所示。第五条（a）款。完全监督（Sup）利用目标数据集中的所有地面真实标签进行训练。如图如图5（a）所示，SPL显著优于SC0NF，SC0NF是不确定性度量中表现最好的方法。此外，即使Sup在第1阶段显示出相对于SPL的1.67%mIoU间隙，我们的方法在最后阶段（第3阶段）仅显示出与Sup此外，我们测试了监督基线和我们的SPL到第4阶段，但每个两个模型的形式与第3阶段的形式相同，因此，我们决定只训练所有方法直到第3阶段。总之，我们的SPL是各种可能的不确定像素选择方法中的最佳选择，在性能增益方面。基于点的像素标记策略。对于PPL，有各种选项来选择要标记的像素。我们进行了一个额外的实验，比较我们的PPL与其他几种方法图。5（b）。除了我们的PPL距离测量之外，我们还评估了其他像素选择方法，RAND，SC0NF和ENT，它们是前一段中描述的完全相同的不确定性度量，但是这次我们为这些基线的每个阶段每个图像15个像素提供标签，使得每个阶段标记的像素数量与我们的方法相似。给定来自Eq.（3），除了测量与类原型的距离之外，还有各种选项来选择像素中的代表点PPL-SC 0 NF查询模型在其最可能生成的序列中具有最小置信度的不一致掩码中的像素。PPL-ENT查询Inconsis中的像素级数1.51.81.80.71Sup1SPL（我们的）ENT性能（mIoU[%]）SCONF兰德SCONFENTPPL（SCOF）PPL（ENT）PPL（Sim_worst）PPL（Sim_best）阶段#1151515151512.712.7阶段#23029.929.8303026.226.5阶段#34543.641.7454539.340.18597GT（a）基于熵的选择器（b）SPL（c）PPL图6. 与简单的ENT基线相比，我们的SPL和PPL能够选择更多样化的点来给出标签。最大化模型输出熵的事件掩码。请注意，再次为SCONF和ENT，一些不确定的像素是重叠的，导致像素数小于15每一级。在我们测量原型向量与像素的输出预测之间的距离之后，我们可以选择离原型类型向量最近（PPL-Sim（最佳））或远（PPL-Sim（最差）图5（b）示出了我们的最终PPL模型（PPL-Sim（best））示出了最佳性能。注意，即使是PPL-Sim（最差）的最差PPL距离度量也远远优于任何其他基于非PPL的方法。有趣的是，尽管RAND在第3阶段的非基于PPL的方法中表现最好，但即使在第1阶段，PPL-Sim（best）也优于RAND的最佳性能。这个结果显示了选择像素进行标记的策略对于模型定性结果。图3和图4分别显示了我们的两种方法SPL和PPL的定性结果，与地面实况、最先进的UDA方法、IAST [31]、用于不确定区域选择的SC0NF基线以及作为性能上限的Sup基线进行了比较图3，而IAST和SC0NF基线示出错误的分割结果（例如，在顶部结果中的类在图4中，IAST将类别“汽车”混淆SC0NF基线生成噪声分割结果。相比之下，所提出的方法，PPL，示出了正确的，正确的分割结果类似于监督的方法。图6可视化了要从ENT基线和我们的方法SPL和PPL标记的所选不确定像素。我们可以看到，与ENT不同，SPL能够覆盖图像中更广泛的像素范围。另一方面，ENT倾向于将附近的像素聚集在一起。此外，PPL还被示出为挑选不同的像素，而不是接地到图像的某个区域。熵正则化对SPL和PPL的影响最近的工作[31]提出了一个正则化子的形式方法调节器级#1级#2级#3SPL× 61.1%（0.7%）64.6%（1.5%）66.6%（2.2%）耳鼻喉科[31] 61.5%（0.7%）64.9%（1.4%）66.4%（2.1%）PPL×58.1%（12.7例患者）62.6%（26.5例患者）63.5%（40.1分）Ent [31]58.9%（12.7分）62.3%（26.3例患者）63.9%（39.4例患者）表2. 自我训练熵正则化[31]对SPL和PPL的影响。虽然熵正则化没有提高我们SPL的性能，但在我们的PPL上添加熵正则化稍微提高了性能。熵最小化用于UDA中的训练以正则化图像中的不确定点。鉴于此，我们将熵最小化器应用于SPL和PPL来测试其对性能的影响。表. 2示出了添加熵最小化器的效果。有趣的是，在SPL上，熵极小化器似乎没有太大的影响。在阶段1和2，性能确实略有增加，但在阶段3，性能下降。相比之下，对于PPL，熵正则化器稍微提高了性能。我们相信这可能是SPL的情况，因为SPL的不确定像素被赋予了地面真值标签，因此正则化器具有最小的影响。对于PPL，由于给定的地面实况像素的数量很少，正则化器有助于模型训练。5. 结论在这项工作中，我们解决了无监督域自适应的性能差异，并提出了一个新的框架，用于域自适应语义分割的人在循环的方式，同时生成最具信息性的像素点，我们称之为 LabelingO only ifR required ，LabOR。基于一个自训练平台，我们建立了我们的方法来选择最具信息量的像素，并介绍了两种像素选择方法，我们称之为致谢本工作得到了三星电子有限公司的部分支持。Ltd（G 01200447），以及韩国国家研究基金会管理的国际合作项目（NRF-2020 M3 H8 A1115028，二零二一年财政年度）框架下进行8598引用[1] Amir Atapour-Abarghouei和Toby P Brecket。使用合成数据的实时单目深度估计，通过图像风格转换进行局部自适应。在IEEE计算机视觉和模式识别会议论文集，第2800-2810页[2] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE Transactions on Pattern Analysis and MachineIntelligence，40（4）：834[3] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。重新思考语义图像分割的atrous卷积。arXiv预印本arXiv：1706.05587，2017.[4] 陈增宏、廖元宏、庄景耀、徐婉婷、傅建龙、孙敏。展示、改编和讲述：跨领域图像字幕机的对抗性训练。在proc 国际会议计算机视觉（ICCV），2017年。[5] Yuhua Chen ， Wen Li ， Christos Sakaridis ， DengxinDai，and Luc Van Gool.领域自适应更快的r-cnn的对象检测在野外。在Proc. of Computer Vision and PatternRecognition（CVPR），第3339-3348页[6] 陈云春，林燕玉，杨铭轩，黄家斌。Crdoco：具有跨域一致性的像素级域转移。在proc 计算机视觉和模式识别（CVPR），2019年6月。[7] Jae Won Cho，Dong-Jin Kim，Yunjae Jung，and In SoKweon. Mcdal：主动学习的最大分类器差异。arXiv预印本arXiv：2107.11049，2021。[8] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集在Proceedings of the IEEEconference on computer vision and pattern recognition，pages 3213[9] 阿伦·库洛塔和安德鲁·麦卡勒姆。减少结构化预测任务的标记效果。人工智能促进协会（AAAI），2005年。[10] Basura Fernando 、 Amaury Habrard 、 Marc Sebban 和Tinne Tuytelaars。使用子空间对齐的无监督视觉域自适应。在国际会议记录中。计算机视觉（ICCV），第2960-2967页，2013年。[11] 雅罗斯拉夫·甘宁和维克多·伦皮茨基。通过反向传播的无监督域自适应。arXiv 预印本arXiv ： 1409.7495 ，2014。[12] Muhammad Ghifary ， W Bastiaan Kleijn ， MengjieZhang，David Balduzzi，and Wen Li.用于无监督域自适应的深度重建-分类网络。在欧洲会议上。计算机视觉（ECCV），第597-613页。施普林格，2016年。[13] Florian Golemo 、 Adrien Ali Taiga 、Aaron Courville和Pierre-Yves Oudeyer。模拟到真实的转移与神经增强机器人仿真。在Aude Billard，Anca Dragan，Jan Peters和Jun Morimoto编辑的Proceedings of The 2nd Conferenceon Robot Learning中，Proceedings-《机器学习研究》，第817-828页。PMLR，2018年10月29日[14] 龚伯清，袁氏，费莎，克里斯汀·格劳曼。用于无监督域适应的测地线流核 Proc. of Computer Vision andPattern Recognition （ CVPR ），第 2066-2073 页。IEEE，2012。[15] Raghuraman Gopalan，Ruonan Li，and Rama Chellappa.用于对象识别的Do- main适配：无人监督的方法。2011年国际计算机视觉会议，第999-1006页。IEEE，2011年。[16] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 4

资源: 2万+

上传资源快速赚钱

我的内容管理收起

我的资源快来上传第一个资源

我的收益
登录查看自己的收益

我的积分登录查看自己的积分

我的C币登录后查看C币余额

我的收藏

我的下载

下载帮助

会员权益专享

图片转文字 PDF转文字 PDF转Word PDF加水印
全年可省5，000元立即开通

最新资源

利用迪杰斯特拉算法的全国交通咨询系统设计与实现
全国交通咨询系统C++实现源码解析
DFT与FFT应用：信号频谱分析实验
MATLAB图论算法实现：最小费用最大流
MATLAB常用命令完全指南
共创智慧灯杆数据运营公司——抢占5G市场
中山农情统计分析系统项目实施与管理策略
XX省中小学智慧校园建设实施方案
中山农情统计分析系统项目实施方案
MATLAB函数详解：从Text到Size的实用指南
考虑速度与加速度限制的工业机器人轨迹规划与实时补偿算法
Matlab进行统计回归分析：从单因素到双因素方差分析
智慧灯杆数据运营公司策划书：抢占5G市场，打造智慧城市新载体
Photoshop基础与色彩知识：信息时代的PS认证考试全攻略
Photoshop技能测试：核心概念与操作
Photoshop试题与答案详解

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈