多锚主动领域自适应语义分割

143 浏览量更新于2023-10-13 收藏 17.92MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

quirement of large amount of data with accurate pixel-wiseannotation limits their usage in many practical applications,e.g., medical image segmentation [28, 40, 42, 41, 36] andauto-driving tasks [6].91120多锚主动领域自适应语义分割0宁木南*，陆东欢*，魏东†，边程，袁成浪，于爽，马凯，郑业峰腾讯贾维斯实验室，中国深圳0摘要0无监督领域适应已被证明是一种有效的方法，通过将合成的源域数据与真实的目标域样本对齐，减轻了手动注释的繁重工作量。不幸的是，无条件地将目标域分布映射到源域可能会扭曲目标域数据的基本结构信息。为此，我们首先提出了一种新颖的基于多锚的主动学习策略，以协助语义分割任务的领域自适应。通过创新地采用多个锚点而不是单个质心，源域可以更好地被描述为多模态分布，因此可以从目标域中选择更具代表性和互补性的样本。通过手动注释这些主动样本的少量工作量，可以有效减轻目标域分布的扭曲，从而获得较大的性能提升。多锚策略还用于建模目标分布。通过通过一种新颖的软对齐损失使目标样本的潜在表示紧密围绕多个锚点，可以实现更精确的分割。通过在公共数据集上进行大量实验证明，所提出的方法明显优于现有方法，并进行了全面的消融研究以验证每个组件的有效性。代码将很快在https://github.com/munanning/MADA上发布。01. 引言0语义分割一直是计算机视觉中的一项基本任务。由于深度学习的快速发展，许多先进的分割方法已经被提出，并在各种任务中取得了高精度的突破，例如自动驾驶[16]，场景解析[8, 44]，目标检测[26,61]和人机交互[43]。然而，需要大量具有准确像素注释的数据的要求限制了它们在许多实际应用中的使用，例如医学图像分割[28, 40, 42, 41, 36]和自动驾驶任务[6]。0* 同等贡献. †通讯作者：donwei@tencent.com0为了避免手动注释的繁重工作量，已经在无监督领域适应（UDA）[5, 20, 21,55]上做了很多努力，其目标是将目标域分布与源域分布对齐，以便只使用合成源数据的监督训练的网络可以应用于真实世界的目标数据。然而，强制目标域特征适应源域分布可能破坏目标域的潜在结构模式，导致性能下降。如图1所示的t-SNE[19]可视化，源域和目标域的分布既有重叠（区域①），也有明显的差异（区域②和③）。当使用基于对抗训练的典型UDA方法（例如[55]）获得的适应目标域特征（红点）尽管通常与源域分布（蓝方块）对齐，但在区域②中目标域分布明显失真时，适应的网络表现出不理想的性能。当一些特定目标既不与源域也不与目标域对齐时，在区域③中可以观察到更差的分割。一种有效防止目标域分布失真的有限注释工作量的有希望策略是主动学习（AL）[49]。通过为目标域中选择的少量样本引入少量额外的手动注释，可以显著提高分类和检测任务的性能[51]。然而，所有先前主动学习研究[51]中的样本选择方法都假设了单峰源域分布，并忽略了潜在的多峰分布，导致次优的主动样本和较差的性能，如表4所示。0为了解决上述问题，我们首先提出采用主动学习策略来辅助语义分割任务的领域自适应（DA），以便在最小的手动注释工作量下保持目标域的基本结构模式。此外，我们提出了一种多锚策略，以更好地描述源域特征和目标域特征。具体而言，提出的多锚主动领域自适应（MADA）框架包括两个阶段。在第一阶段，使用以对抗UDA[55]方式预训练的网络，提出了一种基于多锚的主动样本选择策略，通过利用目标域和源域之间的特征分布来识别最具补充性和代表性的样本进行手动注释。然后在第二阶段，使用半监督学习的方式对分割网络进行微调。源样本和少量选定的目标样本的注释用于监督，同时还使用所有可用的图像信息进行伪标签损失和提出的多锚软对齐损失的优化。总之，我们的论文做出了以下贡献：dition, a multi-anchor strategy is proposed to better char-acterize the source-domain features as well as the target-domain features. Specifically, the proposed Multi-anchorActive Domain Adaptation (MADA) framework consists oftwo stages. In the first stage, with the network pretrainedin an adversarial UDA [55] manner, a multi-anchor basedactive sample selection strategy is proposed to identify themost complementary and representative samples for man-ual annotation by exploiting the feature distributions acrossthe target and source domains. Then in the second stage,the segmentation network is fine-tuned in a semi-supervisedlearning manner. The annotations of the source samples andthe few selected target samples are used for supervision,while all the available image information is additionally ap-plied for optimization with a pseudo label loss and the pro-posed multi-anchor soft-alignment loss. In summary, ourpaper makes the following contributions:91130图1. UDA中目标域分布扭曲问题的可视化（t-SNE[19]）。左图是通过使用源域和目标域数据训练的两个网络提取的不同类别样本的平均潜在表示，蓝色和黄色方块分别表示源域和目标域的特征分布，我们可以观察到两个分布之间几乎没有重叠（区域 ① ），并且存在较大的差异（区域 ② 和 ③）。红色点表示通过典型的对抗训练（adv.）UDA方法[55]对目标域特征进行调整。可以观察到在区域 ①中存在与源域分布的一般对齐，而在区域 ② 和 ③中存在明显的目标域分布扭曲，导致右图中呈现的不令人满意的性能。通过采用主动学习进行领域自适应，可以有效减轻这种扭曲，如正确分布的绿色点所示。0•据我们所知，我们的工作是第一个在语义分割任务中采用主动学习来辅助领域自适应的研究。通过少量目标域样本的手动注释工作量，可以有效防止目标域特征分布的扭曲，并实现卓越的分割性能。0•假设在实际情况下存在多模态分布，我们提出采用基于聚类方法获得的多个锚点来描述源域的特征分布，以便选择与源域最具补充性的代表性目标域样本。0• 进一步使用多锚策略对目标域特征分布进行建模。使用提出的0通过多锚软对齐损失，我们展示了明确将目标样本的特征推向多个锚点会导致更好的潜在表示，从而显著提高分割性能。0•我们进行了大量实验证明了提出的MADA框架的优越性，并进行了彻底的消融研究，以评估多锚策略对特征分布建模的有效性。02. 相关工作02.1. 无监督领域自适应0多年来，已经提出了无监督领域自适应（UDA）方法，旨在解决包括分类[17]、检测[4]和分割[55]在内的各种计算机视觉任务中的领域偏移问题。最近的UDA方法可以大致分为两组：基于最大均值差异（MMD）和基于对抗学习。MMD核最初在[33]中引入，用于定量测量不同域的特征差异。随后的研究提出了几种改进的MMD核，用于更准确地测量域差异，包括MK-MMD [33]、JMMD [34]、CMD[59]和CORAL[52]。通过最小化这些核引起的差异，强制不同域的特征与彼此对齐，从而解决了领域偏移问题。然而，直接在分割任务中采用基于MMD的方法是不实际的，因为这些方法在高维特征空间中需要复杂的计算。相反，基于对抗学习的方法更适用于分割任务的UDA，其中两个方法91140主要分布通过域鉴别器绘制在一起。经典的外观匹配方法Cycle-GAN[63]构建了两个对抗子网来翻译不配对的源域和目标域图像。BDL [32]利用标签一致性来提高UDA性能。DISE[1]提出了一种解缠表示学习架构[25]，以在图像翻译过程中保留结构信息。CLAN [35]和CAG[62]等特征对齐方法利用基于类别的分布对齐来适应特征和输出空间中的源域和目标域。AdvEnt[57]设计了一种新的损失函数，以最大化目标域中的预测确定性，从而提高UDA性能。尽管取得了令人鼓舞的进展，UDA方法无条件地强制使两个域的分布相似，这可能会扭曲目标域的潜在潜在分布，如果它与源域的分布存在内在差异。防止这种扭曲的一种有前途的策略是最小化注释工作量的主动学习（AL）[49]，我们在这项工作中采用了这种策略。02.2. 主动学习和域自适应0AL旨在在低注释成本下实现最佳性能，通过主动选择对性能改进最有帮助的少数样本，如果标记[7]。在过去的十年中，已经提出了几种用于AL的样本选择策略，包括基于不确定性的[31, 48]，基于多样性的[12, 22]，基于代表性的[23, 10,39]和基于预期模型变化的[14, 29,56]。这些策略已成功应用于各种计算机视觉任务，如图像分类[45]，目标检测[30, 27,60]和图像分割[53]。在这项工作中，我们认为将AL引入到DA问题中是有益的，以避免目标域分布的扭曲。首先，AL只需要最少的注释成本，在许多场景中是可以接受的，考虑到潜在的性能提升。其次，通过适当的样本选择策略，AL可以识别出目标域分布中最具代表性的样本进行注释。因此，如何选择AL样本成为一个关键问题。据作者所知，只有少数研究尝试将AL应用于DA问题。Chattopadhyay等人的早期工作[2]提出在DA过程中使用源域和目标域之间的最大均值差异（MMD）距离进行主动样本选择。然而，对于分割DA问题，应用MMD距离是不切实际的，正如前面提到的。最近，Huang等人[24]提出了对分类任务进行预训练模型微调，并在每次迭代中进行额外的主动样本选择。相比之下，我们的框架在分割任务中采取了一步进一步进行密集预测，并将主动学习过程简化为一个步骤。0与我们的工作密切相关，主动对抗域自适应（AADA）[51]提出了使用对抗学习[15]策略的DA的AL，其中通过同时考虑多样性和不确定性标准来选择代表性样本。在这项工作中，通过将源域和目标域的分布都建模为多模态（与先前的作品如AADA中的隐式单模态假设相对），我们的方法从两个域中捕捉到更全面的信息，并且可以实现实质性的性能改进（在第4.5节中经过实验证实）。03. 方法0所提出的方法包括两个主要阶段：基于源域的多个锚点的主动目标样本选择（图2(a)），以及通过新颖的多锚点软对齐损失增强的半监督域自适应（图2(b)，2(c)和2(d)）。下面我们首先正式定义我们的问题设置，然后详细说明这两个阶段。03.1. 问题设定0语义分割的目标是训练一个模型M，将图像空间X中的样本x映射到标签空间Y中的预测y，其中x∈RH×W×3，H表示高度，W表示宽度，3表示颜色通道，y∈{0,1}H×W×C，C表示分割类别的数量。对于DA，源域中有Ns个图像-标签对Xs={(xs,ys)}，目标域中有Nt个未标记图像Xt={xt}。对于AL，目标域中选择Na个主动样本进行注释，其中Na�Nt，因此目标域数据包括Na个图像-标签对XtL={(xtL,ytL)}和Nt-Na个未标记图像XtU={xtU}。鉴于这种情况，本文的目标是在保持Na较小的同时，优化M在目标域中的分割性能。03.2. 基于多锚点的主动样本选择0多锚点机制。在本文中，我们提出了一种高效的锚点机制来建模域分布，并通过形成紧密的聚类围绕锚点来缩小网络预测与锚点之间的差距。以前，CAG[62]对源域的所有图像级特征求平均，以获得代表整个域的质心，这暗示了一个单峰分布。然而，在实践中，一个域的分布可能实际上包含多个模式[9]。尽管不同的图像可能包含相同的对象类别（例如道路、汽车、人类和蔬菜），但根据它们的整体代表性分布，它们可以被分类为不同的场景（例如高速公路、市区和郊区）。通过将不同类别的特征连接成一个图像级的“连接”向量，我们对它们进行聚类以估计特定场景的代表性分布。91150图2. 提出的MADA框架概述。0其中心聚类，表示为“锚点”。然后，我们测量每个目标样本与其最近的源锚点之间的距离，并选择最远的样本。下面我们首先详细说明我们的多锚点机制（以源域为例），然后描述如何将其用于主动目标样本选择。作为热身，我们首先采用常见的对抗训练[55]策略来缩小源域和目标域之间的差距。之后，我们冻结特征编码器fE，并通过以下方式计算源样本xs的特定类别c的特征图Fs c(xs)：0Fs c(xs) = 0|Λsc|ysc�fE(xs)|c，(1)0其中ysc表示类别c的标签映射，fE(xs)|c是类别c的网络输出，�表示逐元素乘法以提取类别独有信息，|Λsc|表示属于特定类别的像素数。源图像xs的最终特征向量Fs(xs)是通过先将每个类别的Fsc(x)展平为一个向量，然后将所有类别的向量连接成一个长向量来获得的。然后，我们对所有源图像的特征向量应用K-means方法[38]将它们分组成K个聚类，通过最小化以下误差：0K个0k = 10对于聚类Ck中的x，∥Fs(xs) -Ask∥22，(2)0其中∥∙∥22表示L2距离，Ask是质心0聚类Ck的0Ask = 10|Ck|0对于聚类Ck中的x，Fs(xs)，(3)0其中|Ck|表示属于Ck的图像数量。质心{Ask}被用作源域锚点，目标图像将与之进行比较以进行主动样本选择。请注意，聚类数K与分割类别C的数量不同，不同K的影响在第4.6节中进行了探讨。针对源锚点的主动目标样本选择。对于单域AL，通常使用基于不确定性的度量来选择最难分割的样本[50]。然而，对于多域AL，我们认为目标样本与源域的差异越大，它们对分割网络的补充性就越大。在这里，我们通过目标域样本与源域锚点之间的距离来衡量差异，以评估未标记的目标域样本对域适应的重要性。具体来说，我们首先计算目标域图像xt的每个类别的特征图：0Ftc(xt) = 0|Λtc|ˆytc � fE(xt) , (4)0其中，ˆytc是类别c的预测标签映射，|Λtc|是根据ˆytc确定的属于特定类别的像素数量。然后，我们将所有类别的Ftc(xt)组合起来得到图像级特征向量Ft(xt)。最后，我们计算Ft(xt)到所有源域锚点的L2距离。=11∥F t(xt) − Atv∥22.(9)Lpseudo = LCE xtU, ˆyt .(10)Lsemi = Lseg + Ltdis + Lpseudo.(11)91160域锚点，并将其中最小的定义为目标域样本到源域的距离：0D(xt) = min k0||Ft(xt) - Ask||^2_2. (5)0直观地说，该定义将目标域样本分配给源域最近的锚点，对应于多模态源域分布中的一个模式。根据距离，我们可以确定远离整个源域的目标域样本，并且预计它们包含目标域特定信息。因此，我们将它们选为主动样本，并为后续训练进行注释，希望从这些主动注释中学习目标域分布的独特组成部分。03.3. 半监督领域自适应0第一步：注入目标域特定知识。将主动选择和注释的目标域样本添加到训练过程中，以学习目标域独有的信息（图2(b)）。该步骤的训练数据由两部分组成：标记的源样本Xs0以及主动目标样本XtL，模型fE使用基于典型交叉熵的分割损失进行微调：0Lseg = LCE(xs, ys) + LCE(xtL, ytL), (6)0其中交叉熵损失LCE定义为：0LCE = -10HW0H ×W ×0i=10c=1 yi,c log(pi,c), (7)0其中，yi表示像素i的标签，pi是模型fC(fE)预测的概率，fC是分类器。正如实验证明（第4.5节），我们基于多锚点的主动样本选择策略优于以前的策略，并且模型在使用主动选择的样本时性能稳定提升。第二步：计算目标域锚点和伪标签。为了充分利用未标记的目标数据XtU，我们使用微调后的模型计算未标记的目标域样本的伪标签ˆyt以及目标域锚点Atv（图2(c)），其中V表示目标域锚点的数量。值得注意的是，由于目标域锚点是对实际目标域分布的潜在偏差估计，自然而然地需要动态地进行校正。正如Xie等人[58]所指出的，每个时期重新聚类可能导致训练过程崩溃，因为时期之间的聚类中心会发生跳变。因此，我们将目标域锚点视为一个存储器，并采用指数移动平均（EMA）[54]以平滑的方式逐步更新每个锚点。0Atv = αAtv + (1 - α)Ft(xt), (8)0其中，α设为0.999，参考[54]，Ft(xt)用于更新最近的锚点。计算完ˆyt和Atv后，我们进入下一步进行半监督领域自适应。第三步：半监督适应。最后，我们将源数据Xs、标记的目标样本XtL和未标记的目标样本XtU组合起来进行半监督训练（即对fE进行进一步微调），以进行领域自适应（图2(d)）。值得注意的是，我们提出了一种新的软对齐损失，以明确缩小目标领域中样本特征和锚点之间的差距。0Lt dis = V �� V0直观地说，通过最小化软对齐损失，模型输出的目标域样本的特征被拉向目标域锚点，鼓励更忠实地学习这些锚点所代表的目标域分布。此外，为了充分利用XtU，我们利用伪标签ˆyt提供进一步的监督：0因此，半监督学习的整体损失函数可以表示为：0整个训练流程总结如算法1所示。04. 实验04.1. 数据集0为了证明我们提出的方法的优越性，我们应用了两个具有挑战性的synthia-2-real适应任务，即GTA5 [46] →Cityscapes [8]和SYNTHIA [47] →Cityscapes进行评估。具体来说：0• GTA5 → Cityscapes:GTA5数据集包含24966张带有19类分割的合成图像，与Cityscapes数据集一致。0• SYNTHIA → Cityscapes:按照之前的研究[32]，使用包含9400张带有16类分割的合成图像的SYNTHIA-RAND-CITYSCAPES数据集进行训练。0在这两个数据集中，Cityscapes作为目标域，训练集有2975张图像，评估集有500张图像。使用平均交并比（mIoU）[13]指标来衡量分割性能。GTA5 → CityscapsesmIoUAdaptSeg [55]86.525.979.822.120.023.633.121.881.825.975.957.326.276.329.832.17.229.532.541.4CLAN [35]87.027.179.627.323.328.335.524.283.627.474.258.628.076.233.136.76.731.931.443.2AdvEnt [57]89.433.181.026.626.827.233.524.783.936.778.858.730.584.838.544.51.731.632.445.5BDL [32]91.044.784.234.627.630.236.036.085.043.683.058.631.683.335.349.73.328.835.648.5CAG [62]90.451.683.834.227.838.425.348.485.438.278.158.634.684.721.942.741.129.337.250.2AADA [51]92.259.987.336.445.746.150.659.588.344.090.269.738.290.055.345.132.032.662.959.3MADA (Ours)95.169.888.543.348.745.753.359.289.146.791.573.950.191.260.656.948.451.668.764.9SYNTHIA → CityscapsesmIoUmIoU*AdaptSeg [55]79.237.278.8---9.910.578.280.553.519.667.029.521.631.3-45.9CLAN [35]81.337.080.1---16.113.778.281.553.421.273.032.922.630.7-47.8AdvEnt [57]85.642.279.78.70.425.95.48.180.484.157.923.873.336.414.233.041.2-BDL [32]86.046.780.3---14.111.679.281.354.127.973.742.225.745.3-51.4CAG [62]84.740.881.77.80.035.113.322.784.577.664.227.880.919.722.748.344.550.991170表1. SYNTHIA到Cityscapes适应任务上与其他DA方法的比较。最佳结果以粗体显示。0方法0道路0人行道0建筑物0墙0栅栏0电线杆0灯0标志0植被0地形0天空0人0骑车人0汽车0卡车0公共汽车0火车0摩托车0自行车0表2. SYNTHIA到Cityscapes适应任务上与其他DA方法的比较。最佳结果以粗体显示。0方法0道路0人行道0建筑物0墙0栅栏0电线杆0灯0标志0植被0天空0人0骑车人0汽车0公共汽车0摩托车0自行车0AADA [51] 91.3 57.6 86.9 37.6 48.3 45.0 50.4 58.5 88.2 90.3 69.4 37.9 89.9 44.5 32.8 62.5 61.9 66.2 MADA (我们的方法) 96.5 74.688.8 45.9 43.8 46.7 52.4 60.5 89.7 92.2 74.1 51.2 90.9 60.3 52.4 69.4 68.1 73.304.2. 实现细节0我们采用DeepLab v3+[3]作为特征提取器fE，它由在ImageNet[11]上预训练的ResNet-101 [18]骨干网络和Atrous SpatialPyramid Pooling(ASPP)模块组成。分类器fC是一个典型的卷积层，具有C个通道和1×1的卷积核，用于将潜在表示转换为语义分割。在热身阶段，判别器fD由5个卷积层组成，卷积核大小为3×3，步长为2，过滤器数量设置为{64, 128, 256, 512,1}。前三个卷积层后跟一个ReLU层，而第四个卷积层后跟一个参数为0.2的leaky ReLU[37]。我们使用PyTorch在TITAN Tesla V100GPU上实现了提出的方法。输入图像随机调整大小，比例在[0.5, 1.5]之间，然后裁剪为896×512像素。0在热身阶段，我们以对抗性方式训练模型20个epoch，使用交叉熵损失和加权为0.01的对抗性损失。在第二阶段的微调中，我们使用SGD优化器训练模型50个epoch。学习率初始设置为2.5×10^-4，并按照多项式学习率策略以0.9的幂进行衰减。0除了第4.7节的比较研究外，我们选择了5%的目标域样本作为所有实验的主动样本，这样可以减少注释工作量但带来较大的性能提升。04.3. 主要结果0如表1和表2所示，我们将提出的框架与五种UDA方法[55,35, 57, 32,62]和一种主动DA方法[51]进行了比较。如预期的那样，我们观察到与UDA方法相比有显著的改进，这表明通过精心选择的主动样本，少量的手动注释工作量可以带来较大的性能提升。此外，提出的方法在mIOU上大幅超过了另一种主动DA方法AADA（5.6%），证明了提出的多锚策略的有效性。我们在图3中展示了三个示例图像的可视化结果，这些图像与图1中的图像相同，用于定性比较。我们可以观察到，通过减轻目标特征的扭曲，可以获得更少的分割错误和更精确的边界，这是提出的MADA方法的优势。04.4. 消融研究0为了验证每个组件的有效性，我们进行了消融研究，包括以下几个变体：M(0)：没有任何主动注释的基线对抗学习方法[55]；M (1)：在M(0)的基础上，额外引入了主动样本，并使用交叉熵损失进行训练；M (2)：在M(1)的基础上，添加了提出的多锚软对齐损失用于目标样本的优化；M (3)：在M(2)的基础上，逐步更新目标锚点使用EMA；M(4)：添加了伪标签GCSCM(0)42.542.9M(1)✓61.665.0M(2)✓✓63.266.6M(3)✓✓✓63.867.6M(4)✓✓✓✓64.968.1Eent =−1log(C)pti,c log(pti,c).(12)91180图3.GTA5到Cityscapes的DA分割的定性结果。对于每个图像，我们分别展示了典型对抗方法[55]，最先进的UDA方法[62]和我们提出的MADA的结果。在“Ground truth”中的黑色区域被排除在评估之外，因为它不属于19个类别之一。0算法1 多锚主动域自适应（MADA）符号说明：源域样本集{ ( x s ,y s ) }，选定的主动样本集{ x t L , y t L }和无标签目标域样本集{ x tU }。编码器fE，源域的特征向量集{ F s ( x s )}和目标域的特征向量集{ F t ( x t ) }。迭代次数N。0阶段1：01: 使用对抗训练[55]预热 f E 以获得 { F s ( x s ) }。02: 对 { F s ( x s ) } 应用K-means将源域样本分组为 K 个簇；03: 计算簇的质心 A s k (公式(3)) 作为源域锚点；04: 计算每个目标域样本到 { A s k } 的距离 (公式(5))；05:选择距离最小的5%目标域样本作为主动样本进行注释，得到集合 ��06: 使用 { ( x s , y s ) } 和 �� x t L , y t L �� 通过最小化 L seg(公式(6))对 f E 进行微调，并得到 � F t ( x t ) �；07: 使用K-means聚类在 � F t ( x t ) � 上初始化 A t v；08: 对于 i = 1 , ..., N ，计算 L seg (公式(6)) 使用 { ( x s , y s ) } 和 ��010: 使用 � x t � 计算 L t dis (公式(9))，使用 � x t U � 计算 L pseudo(公式(10))；011: 使用梯度下降更新 f E 为 � ( L seg + L t dis + L pseudo )(公式(11))；012: 使用EMA更新 A t v (公式(8))；013: 结束循环0除了 M (3) 之外，还使用标签损失进行优化；M(u)：使用源数据集和目标数据集的注释进行完全监督分割，作为上限。如表3所示，从 M (0) 到 M (4)在两个公共数据集上的一致且显著的改进证明了每种策略的有效性。此外，仅使用5%的目标域样本进行主动注释的MADA实现了与上限相当的性能0表3. 消融研究。G → C 表示GTA5 → Cityscapes场景，S → C表示SYNTHIA → Cityscapes场景。0方法 A B C D mIoU mIoU0M (u) 69.3 70.80A: 使用主动样本进行训练 B: 软锚点对齐损失 C:使用EMA更新目标锚点 D:伪训练未标记的目标样本0上限，表明所提出的框架可以选择互补的样本，有效缩小UDA和完全监督之间的差距。图1展示了具有/不具有主动学习的特征分布可视化。使用所提出的MADA框架，目标特定信息可以保持其原始的多模态分布。04.5. 样本选择方法的比较0主动学习的性能在很大程度上取决于样本选择方法。在表4中，我们将所提出的基于锚点的方法与以下流行的样本选择方法在GTA5到Cityscapes适应任务上进行比较。随机选择。从目标域中随机选择样本，概率相等。基于熵的不确定性方法。应用AdvEnt[57]获取目标域中每个样本的预测图熵，并选择熵排名前5%的样本进行手动注释：0C0H ×WGTA5 → CityscapsessignvegterrainskypersonridercartruckbustrainmbikebicyclemIoURandom92.864.585.838.034.843.750.156.987.940.487.769.030.889.451.143.821.729.959.456.7Entropy [57]93.965.487.742.248.446.747.357.088.544.390.470.832.890.053.849.930.041.163.660.2Adversarial [55]91.859.287.537.845.245.551.556.988.543.090.369.037.189.954.546.135.928.161.358.9AADA [51]92.259.987.336.445.746.150.659.588.344.090.269.738.290.055.345.132.032.662.959.3Proposed92.461.487.439.545.945.250.657.587.842.489.272.744.990.054.750.543.447.866.961.6.(13)mIoU56.759.161.662.764.169.391190表4. 不同主动样本选择方法的实验。最佳结果以粗体显示。0方法0道路0人行道0建筑物0墙壁0栅栏0电线杆0灯光0基于对抗的多样性方法。在热身阶段训练的判别器 f D[55]的基础上，我们选择预测概率最低的样本，即与源域最不可区分的样本：0E adv = 1 − f D ( f E ( x t )0AADA方法。除了基于判别器的多样性外，AADA[51]方法还考虑了预测的确定性：0E AADA = E ent E adv . (14)0值得注意的是，为了公平比较，所有比较实验都遵循相同的实验设置。选择相同百分比的主动样本，即5%，而不使用未标记的样本进行优化。我们可以观察到，所提出的多锚点策略在mIoU方面提供了最佳的分割性能，表明我们的策略选择了更好的主动样本。04.6. 锚点数量的影响0我们评估了在GTA5到Cityscapes适应任务中不同锚点数量对源域和目标域建模的影响，其中锚点数量在两个域中从1到100变化。如图4所示，对于两个域来说，使用多个锚点始终比使用单个质心更好，并且使用5-10个锚点稳定地产生了更好的性能。这可能是因为这些数据集中只有有限的场景类型，少数锚点足以代表它们的分布。因此，我们使用10个聚类考虑到两个域中的最佳性能。04.7. 主动样本数量的影响0为了验证我们提出的方法的稳定性，进行了不同百分比主动样本的比较实验。如表5所示，随着样本百分比从1%增加到20%，mIoU从56.7%稳步增加到64.1%。我们还通过使用所有目标标签进行优化来引入上限，仅使用5%的目标域数据进行AL和上限之间的mIoU的7.7%的狭窄差距表明：0所提出的方法可以有效地利用主动样本的信息。0表5. 不同数量主动样本的实验。0GTA5 → Cityscapse0百分比 1% 2% 5% 10% 20% 100%0mIoU 差距 -12.6 -10.2 -7.7 -6.6 -5.2 -0图4. 对源域（a）和目标域（b）使用不同数量锚点的实验。05. 结论0在本文中，我们提出了多锚点主动领域自适应（MADA）框架，用于在最小注释成本下实现分割模型的无失真源域到目标域自适应。MADA将基于锚点的主动样本选择引入到DA中，用于选择与源域分布最互补且与目标域分布独特的有限目标域样本。对这些选定的目标域样本进行主动注释以进行训练，可以有效防止目标域分布在典型的UDA方法中可能发生的失真。与先前假设源域和目标域均为单模态分布的方法不同，MADA提出使用多个锚点实现两个域的多模态分布。在此基础上，MADA进一步提出了多锚点软对齐损失，将目标域特征明确推向这些锚点，充分利用未标记的目标域样本。在两个公共基准数据集上的实验结果证明了（i）将AL引入到DA中的有效性，（ii）多个锚点相对于单个质心的优势，以及（iii）添加软对齐损失以及MADA相对于现有最先进的UDA和主动DA方法的卓越性能。[1] Wei-Lun Chang, Hui-Po Wang, Wen-Hsiao Peng, and Wei-Chen Chiu. All about structure: Adapting structural infor-mation across domains for boosting semantic segmentation.In Proceedings of the IEEE Conference on Computer Visionand Pattern Recognition, pages 1900–1909, 2019.[2] Rita Chattopadhyay, Wei Fan, Ian Davidson, SethuramanPanchanathan, and Jieping Ye. Joint transfer and batch-modeactive learning.In International Conference on MachineLearning, pages 253–261, 2013.[3] Liang-Chieh Chen, Yukun Zhu, George Papandreou, FlorianSchroff, and Hartwig Adam. Encoder-decoder with atrousseparable convolution for semantic image segmentation. InProceedings of the European conference on computer vision(ECCV), pages 801–818, 2018.[4] Yuhua Chen, Wen Li, Christos Sakaridis, Dengxin Dai, andLuc Van Gool. Domain adaptive faster r-cnn for object de-tection in the wild. In Proceedings of the IEEE conference oncomputer vision and pattern recognition, pages 3339–3348,2018.[5] Yi-Hsin Chen, Wei-Yu Chen, Yu-Ting Chen, Bo-Cheng Tsai,Yu-Chiang Frank Wang, and Min Sun. No more discrimina-tion: Cross city adaptation of road scene segmenters. In Pro-ceedings of the IEEE International Conference on ComputerVision, pages 1992–2001, 2017.[6] Sungha Choi, Joa

下载后可阅读完整内容，剩余1页未读，立即下载