基于软邻域密度的领域自适应无监督验证

68 浏览量更新于2023-10-13 收藏 1.78MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9184用正确的方式调整它：基于软邻域密度的领域自适应无监督验证Kuniaki Saito1、Donghyun Kim1、Piotr Teterwak1、Stan Sclaroff1、Trevor Darrell2和Kate Saenko1、3、1波士顿大学、2加州大学伯克利分校、3、MIT-IBM沃森AI实验室[keisaito，donhk，piotrt，sclaroff，saenko]@bu.edu，trevor@eecs.berkeley.edu摘要无监督域自适应（UDA）方法可以显着提高未标记目标域的泛化能力。然而，最佳的超参数选择是实现高精度和避免负转移的关键。如果没有标记的目标数据，监督超参数验证是不可能的，这就提出了问题：我们如何以现实的方式验证无监督适应技术？我们首先经验分析现有的标准，并证明他们是不是很有效的调整超参数。直观地说，经过良好训练的源分类器应该在附近嵌入同一类的目标样本，从而在特征空间中形成密集的邻域。基于这一假设，我们提出了一种新的无监督验证标准，通过计算点之间的相似性分布的熵来测量软邻域的密度。我们的标准比竞争的验证方法更简单，但更有效;它可以调整图像分类和语义分割模型中的超参数和训练迭代次数。用代码该文件将在https://github.com/VisionLearningGroup/SND上提供。1. 介绍深度神经网络可以学习视觉识别任务的高度区分表示[11，39，19，29，14]，但不能很好地推广到域外数据[47]。为了提高新目标域的性能，无监督域自适应（UDA）旨在从标签丰富的源域转移最近的UDA方法主要通过在目标域上的无监督学习来实现这一点，通过最小化源域和目标域之间的特征分布偏移[12，21，41]、分类器混淆[17]、聚类[34]和基于伪标签的方法[56]。已在图像分类[22，55，8，52，43]、语义分割[16]方面图1：在无监督域自适应中，验证是一个重要且未解决的问题。性能可能对超参数敏感，但尚未提出可靠的验证标准在这项工作中，我们提供了一个新的标准，SND，选择适当的超参数在UDA模型验证示例显示ADVENT [50]分割模型的验证和目标检测[9]任务。然而，自适应方法可能对超参数和训练迭代次数例如，对抗对齐方法在语义分割中很流行[16，44，50]，但是如果不仔细调整损失权衡权重，则会严重失败，如图1所示。此外，许多方法还有其他种类的超参数，例如定义簇的浓度[34]、目标样本的置信阈值[56]等。因此，超参数的验证是UDA中的重要问题，但它在很大程度上被忽视了。在UDA中，我们假设不能访问标记的目标数据，因此，应该在不使用目标标签的情况下进行超参数优化（HPO）。在本文中，我们想提出一个问题，使域适应更实用的关键：我们如何能够可靠地验证自适应方法在无监督的方式？无监督验证在实践中是非常具有挑战性的，因此许多方法以无效甚至不公平的方式进行HPO。在源域中评估准确性（风险）是流行的[12，41，5，40，22，5，17，51，53]，但这不会9185这必然反映了目标领域的成功。使用目标域的风险[37，2，3，13，35，38，32]假设UDA。许多作品[45，42，44，25，56，54，49，50]没有清楚地描述他们的HPO方法。据我们所知，没有全面的研究比较了验证方法的任务和适应方法在一个现实的评估协议。我们的第一个贡献是实证分析这些现有的标准，并证明他们是不是很有效的HPO。这暴露了最先进的无监督域自适应方法的实际应用的主要障碍。为了解决这个问题，我们首先重新审视基于分类器熵的无监督验证标准，C-Ent。如果分类模型在目标样本上产生置信和低熵输出，则目标特征是可区分的并且预测可能是可靠的。Morerio等人[24]建议利用C-Ent进行HPO，但仅根据自己的适应方法进行评估。我们广泛评估了C-Ent，包括各种适应方法，数据集和视觉任务。我们揭示了C-Ent对于几种自适应方法的HPO非常有效，但也暴露了这种方法中的关键问题，即它不能检测目标样本中的邻域结构的崩溃（参见图1）。2）的情况。邻域结构是指特征空间中样本之间的关系。在任何适应之前，嵌入附近的目标样本很可能在同一类中（图2中无适应）。一个好的UDA模型将保持甚至增强目标样本的关系，同时将它们与源对齐。然而，UDA模型可能会错误地将目标样本与源对齐，并错误地改变邻域结构（图2中的DANN）。即使在这种情况下，C-Ent也可能变得很小，并选择适应性差的模型。Natekar等人[26]测量类内特征嵌入的一致性及其与其他类的差异考虑点之间的这种关系是克服C-Ent问题的有希望的方法。但是，由于计算这些指标需要标记的样本，我们不能直接应用这种方法。这使得我们提出了一种新的无监督验证标准，考虑了未标记目标的邻域密度。我们对邻里的概念是软的，即。我们不形成明确的簇作为我们度量计算的一部分。相反，我们定义一个点的软邻域使用它的相似性分布到其他点，并测量密度作为这个分布的熵我们假设一个经过良好训练的源模型将嵌入附近同类的目标样本，从而形成密集的隐式邻域。每个邻域内的表示的一致性应该通过适应良好的模型来保持甚至增强。因此，监测密度使我们能够检测模型是否导致隐式模型的崩溃。方法技术优势稳定性跨方法w/XtW/OXs，Ys不带HP源风险IWV [40，53]✗✗✗✗测试拆分+密度模型✗✗熵[24]SND（我们的）✓✓✓✓✓✓✗✓表1：与其他验证方法的技术比较。Xt表示未标记的目标，并且（Xs，Ys）表示标记的源样本。SND计算未标记目标样本的得分。经验上，我们验证了我们的方法在不同的数据集，方法和任务中是稳定的。如图所示的邻域结构。二、我们提出的度量，称为软邻域密度（SND），是简单的，但比竞争的valida-灰方法更有效。而不是专注于源和目标关系（如IWV [40]或DEV [53]），我们通过计算邻域密度并选择最大化它的模型来测量目标特征的可辨别性。我们表明，在许多情况下，目标精度与我们的标准是一致的。经验上，我们观察到，SND工作良好的封闭和部分域自适应图像分类，以及域自适应语义分割。SND甚至在给定未标记的目标域的情况下选择合适的源域方面是有效的。我们的贡献总结如下：• 我们重新评估现有的UDA标准，并呼吁更实际的验证DA方法。• 我们提出了软邻域密度度量，该度量考虑了目标邻域结构，改进了类熵（C-Ent），并在80%的情况下在封闭，部分DA和域自适应语义分割上实现了接近最佳（监督）HPO的性能。2. 相关工作领域自适应的目的是将知识从有标签的源领域转移到标签稀缺的目标领域。它在视觉上的应用是多种多样的：图像分类、语义分割[16，44]和对象检测[9]。DA中的一种流行方法是基于对抗学习的分布匹配[12，46，22]。对抗性自适应试图通过对抗性目标来最小化关于域的近似域差异距离。最近，已经开发了一些利用聚类或熵最小化的变体的技术[34，18，43，17]。[43，18]建议通过最小化给定类别数量的类别间差异来训练SND计算局部邻域的密度并选择具有最大密度的模型，这允许我们在不知道目标中的类的数量的情况下选择好的模型。所有现有的方法都有重要的超参数需要调整，例如源分类和适应9186我i=1我 i=1NtNsD{}损失另一个重要的超参数是softmax温度[34，17]。给定特定目标域，源域的选择也是重要的。如果我们必须只选择一个源域，则选择过程对模型的性能至关重要然而，现有方法是否以现实的方式进行HPO是UDA的验证方法。在表1中，我们总结了几种不需要任何目标标记样品的先前验证方法。验证方法本身可以具有超参数（HP）和其他要求。来源风险。Ganin等人[12]考虑源风险来选择超参数。但是，源风险是不是一个很好的估计目标风险存在一个大的域差距。重要性加权验证（IWV）和DEV。Sugiyama等人[40]Youet al. [53]使用源样本的风险验证方法。如果源样本与目标样本非常相似，则对源样本的风险此方法与源风险确认存在类似问题。由于开发DEV是为了控制IWV中的方差，因此我们将其用作实验中的基线熵（C-Ent）。Morerio等人[24]使用分类输出的熵。如果模型在分类目标样本时具有可信的预测，则超参数被认为是适当的。该方法简单，不需要用标记的样品进行验证。但是，莫雷里奥等人。[24]应用C-Ent标准仅调整他们提出的模型，这使得其对不同方法的适用性不清楚。我们广泛地评估这种方法，并揭示，虽然它通常是有用的，它有一个关键的故障模式。该失效模式是域自适应模型可以输出针对目标样本的确信不正确的预测。在比较中，我们经验表明，软邻域密度给出了最稳定的结果，在不同的数据集和方法的图像分类和语义分割。局部线性嵌入（LLE）Roweis等人[31]计算高维数据低维和邻域保持嵌入。邻域保持嵌入恢复了全局非线性结构.我们的目标是选择一个模型，通过监测密度的implicit社区在适应过程中。3. 方法问题设置。在 UDA中，我们被提供标记的源数据Ds={（xs，y is）}和未标记的目标数据t=（xt）。通常，域适配方法优化后续损失，L=Ls（xs，ys）+λLadapt（xs，xt，η），（1）其中Ls是源样本的分类损失，并且Ladapt是在目标样本上计算的自适应损失图2：C-Ent未能检测到目标邻域结构的崩溃的图示。这是适应模型（λ= 1. 0）自信地错误分类目标样本，并且低熵（C-Ent）不能选择好的模型。模型错误地更改了目标样本之间的相对距离。SND可以选择更好的模型，因为它可以考虑如何很好地保持邻域结构。λ控制源分类和自适应损失之间的权衡。η是用于计算自适应损失的超参数我们的目标是建立一个标准，可以调整λ和η。此外，我们的目标是选择最佳的训练迭代，因为模型可能对它的选择很敏感。假设。我们假设嵌入附近的目标样本因此，良好适应的模型的表示应导致高度相似点的密集邻域我们将密度表示为每个软邻域内表示的一致性使用标记的源样本以及未标记的目标样本来训练模型。由于源和目标是相关的域，因此模型将对目标样本具有一定的区分特征。在自适应之前，这样的特征将定义初始邻域，即，相对于其余点彼此具有更高相似性的样本。如果选择方法和超参数是适当的，则应当保留这样的邻域而不是将其分成更小的簇，并且应当增加软邻域内的特征的相似性动机首先，我们经验表明，考虑邻域结构的必要性。类别熵（C-Ent）[24]测量预测的置信度。通过使用不适当的超参数进行域自适应训练，目标预测的置信度可以增加，同时从初始邻域结构急剧改变邻域。一个玩具的例子（图（2）明确了这一思路。我们从两个不同9187ΣΣNt目标样本的数量令Sij=ft，ft得双曲余切值.我我Σ图3：方法概述。软邻域密度度量目标域中隐式局部邻域的密度，其用于选择自适应模型的超参数。我们首先从softmax层中提取所有目标样本的特征。然后，我们根据特征的成对相似性计算相似性分布（红色框突出显示相似点）。最后，我们使用相似性分布的熵作为我们的评价标准（SND），其中它的值越高，越好。我们把它看作两个类。然后，我们通过移动其中一个高斯的均值来获得目标数据。我们通过两种方式训练双层神经网络：使用分布对齐进行训练（ DANN[12]，λ=1. 0）和仅使用源样本（λ=0）进行训练。从输入软邻居为了突出附近点和远处点之间的差异，我们使用温度缩放和softmax函数将样本之间的相似性转换为概率分布P空间，则目标采样不应与源采样exp（Sij/τ）（二）1类（绿色圆圈）。但是，DANN模型将目标Pij=j′ exp（Sij、′/τ）样本错误地和自信地错误分类许多目标样本，导致非常小的C-Ent。如果我们采用C-Ent作为标准，我们将选择表现不佳的左侧模型。但是，如果我们能够考虑是否保持或增加邻域的密度，我们可以避免选择差的模型。在这个玩具示例中，我们利用了部分DA集[5]，其中目标标签集是源的子集，并且DANN [12]用于说明C-Ent的问题事实上，当我们使用分布对齐时，这种错误的对齐（见第4a段）。3.1. 软邻域密度我们的目标是设计一个标准，可以考虑在目标域中的隐式局部邻域的密度。我们通过计算每个样本与数据集中其他样本的相似性并将其转换为概率分布来定义每个样本的软邻域这是通过具有温度缩放的softmax激活来完成的，以忽略局部邻域之外的样本。一旦我们定义了软邻域，我们就可以通过计算来估计它们的密度。其中τ是温度常数。注意，温度缩放和指数函数具有放大相似度值Sij之间的差的能力。因此，如果样本j与i相对不相似，则Pij的值将非常小，这允许我们忽略样本i的远距离样本。温度是隐式识别邻域的关键;在给定玩具数据集的结果的所有实验中，我们将其设置为0.05。软邻域密度。接下来，我们设计一个度量来考虑给定P的邻域密度。该度量需要评估隐式邻域内表示的一致性。如果一个模型提取了理想的区分特征，则邻域内的表示是相同的。为了识别这种情况，我们建议计算P的熵。例如，如果Pi的熵很大，则概率分布在软邻域中应该是均匀的;也就是说，样本i的邻域集中在非常相似的点中。具体来说，我们计算每个样本的熵，并将所有样本的平均值作为我们的最终度量：NtN t计算分布的熵。图中的整个管道。3包括1）计算样本之间的相似性，2）应用具有温度的softmax激活。H（P）=−1Pi=1j=1logPij .（三）缩放（识别软邻域），以及3）计算软邻域密度。相似性计算我们首先计算目标样本之间的相似度，S ∈ RNt× Nt，其中. 其中NtΣ表示表示输入Xt的L2归一化目标特征。我们然后，我们选择所有候选模型中具有最高熵的模型如果一个模型错误地将样本分成图中的聚类。2、熵变小。输入特征。我们方法成功的关键是提取隐含的邻域。理想情况下，所有样品忽略S的对角元素，因为我们的目标是计算每个样本到相邻样本的距离该矩阵定义了距离，但不清楚哪些样本相对于其他样本彼此接近。远离这个矩阵。在这种情况下，Eq。3可以计算每类的密度因此，我们需要使用类别区分特征，并且特征的选择可能是必不可少的。我们建议使用分类softmax输出作为我们的输入特征vec。我 J在同一个类中，应该彼此靠近地嵌入。在IJ9188托尔湾由于该特征表示类别特定的信息，因此最有可能将同一类别的目标样本放置在一起。正如我们在实验中分析的那样，这个特征比中间层特征或没有softmax激活的分类输出具有更小的类内方差。因此，我们的希望是，在方程的集群的数量2应该等于（闭集情况）或小于（偏集情况）源类的数量。在理想情况下，计算的密度应该接近类内密度。讨论请注意，我们假设分类器在源样本上经过良好训练。如果模型对所有目标样本产生相同的输出，则标准变得非常大为了避免这种情况，模型需要在源样本上进行良好的训练，这可以通过查看源训练样本的损失来轻松监控。此外，请注意，我们的假设是嵌入在附近的样本可能共享类别标签。这与一般域自适应方法[1]所做的假设一致如果预先训练的模型提供非常差的表示，或者源域与目标域太不相同，则该假设将不被满足。在这种情况下，UDA的任何指标都不是监控培训的好工具语义分割的扩展。在语义分割中，每个图像的输出可以高达一百万像素。当目标样本的数量很大时，相似性矩阵的计算可能非常昂贵。为了使SND的计算更有效，我们对目标样本进行子采样，使相似图更小，更容易计算。在我们的实验中，我们随机抽样一百像素为每个图像和计算SND为每个，然后，采取所有目标图像的平均值。虽然该方法是直接的，我们的实验表明，得到的近似的SND仍然是一个有效的标准，ING超参数的选择。4. 实验首先，我们评估现有的指标和SND选择超参数域适应图像分类和语义分割。其次，我们展示实验来分析我们的方法的特点。我们评估选择包括检查点的合适超参数的能力（即，训练迭代）用于无监督域适应。封闭 DA（CDA）假设源和目标域共享相同的标签集，而部分DA（PDA）假设目标标签集是源的子集。我们进行实验，这两个适应方案。语义分割的细节在附录中描述。实验的一般设计类似于图像分类。4.1. 适应方法对于每种方法，我们选择下面提到的超参数，加上一个训练迭代。实验中使用的其他超参数见附录对抗性结盟。作为域对齐的代表性方法，我们使用CDAN [22]。我们选择域混淆损失和源损失之间的权衡的权重（λ= 0.1，0.3，0.5，1.0，1.5，其中λ= 1.0作为其默认设置）。为了详细分析行为，我们还利用了OfficeHome PDA的DANN [12]。验证以与CDAN相同的方式进行。集群。作为一种基于聚类的DA方法，我们使用邻域聚类（NC）[34]。NC使用特征之间的相似性来执行聚类，并且使用温度来计算相似性分布。由于温度值的选择会影响性能，因此我们评估标准以选择最佳温度（η= 0.5，0.8，1.0，1.5，其中η= 1.0作为其默认设置）。分类器混淆。作为最新的最先进的方法，我们采用MCC [17]，其中温度用于计算分类器目标是调整温度值（η= 1.5、2.0、2.5、3.0、3.5，其中η= 2.5作为其默认设置）。伪标记（PL）。采用伪标签[20]是DA中流行的方法之一[55，56，35]。一个重要的超参数是选择置信目标样本的阈值如果预测类的输出概率对于不同的数据集，最佳阈值可以不同。然后，我们的目标是调整阈值（η= 0.5，0.7，0.8，0.9，0.95）。语义分割。采用AdaptSeg [44]和AD-VENT [50]。对于这两种方法，目标是调整对抗性对齐损失（λ）和训练迭代的折衷参数。4.2. 设置数据集。对于图像分类，我们使用 Office [33]（ Amazon 到 DSLR （ A2D ）和 Webcam 到 Amazon（W2A）适配），其中有31个类别，并使用RealHome[48]（Real到Art（R2A），Art到Product（A2P）和Product to Clipart（P2C）），其中有65个类别。Office用于CDA，而我们使用OfficeHome用于CDA和PDA。对于PDA的分类分割，我们遵循[6]。为了进一步证明对大规模数据集的适用性，我们在CDA中的VisDA [28]和DomainNet [27]上评估了SND。我们在附录中描述了细节。在语义分割中，我们使用GTA5 [30]作为源，Cityscape [10]作为目标域。基线。熵[24]直接采用分类输出的熵。取所有样本的平均值。值越小，表示模型适应性越好。对于DEV[53]，我们需要保留验证源样本。因为拿着很多源样本9189方法A2dCDANW2a[22日]R2aA2pA2dMCCW2a[17个]R2aA2pA2dNCW2a[34个]R2aA2pA2dPLW2a[20个]R2aA2pAvg下界77.757.458.759.980.462.659.060.569.860.267.766.580.465.166.866.666.4源风险87.965.562.362.292.870.265.672.678.166.871.370.484.567.469.367.471.1开发[53]90.066.463.562.491.367.663.170.178.165.371.472.184.767.569.069.271.6熵[24]82.363.861.763.491.372.466.970.388.466.472.073.784.867.470.169.471.974.3SND（我们的）92.967.070.867.392.667.468.872.888.466.472.573.985.167.470.169.4上界93.369.871.168.194.572.969.574.489.671.272.874.186.868.170.870.275.5表2：封闭DA的结果。SND为所有方法和数据集提供了可靠的结果，即Office（A2D和W2A）和OfficeHome（R2A和A2P），而基线显示了几个失败案例。下限/上限是使用最差/最佳模型获得的结果方法CDAN [22]R2A P2C A2PMCC [17]R2A P2C A2PR2aNC [34]P2cA2pR2aPL [20]P2cA2pAvg下界60.934.560.253.738.360.960.037.552.349.256.644.150.7源风险67.642.064.865.147.473.376.649.877.961.572.753.562.7开发[53]65.636.663.967.747.370.372.354.567.062.466.352.160.5熵[24]64.740.364.853.840.462.079.158.278.760.171.747.060.1SND（我们的）66.345.765.470.250.879.379.258.178.268.772.257.966.0上界68.846.968.572.052.179.780.158.279.169.074.059.467.3表3：OfficeHome上的部分DA的结果。 SND平均表现最好。为了降低适应模型的准确性，我们每个类取3个源样本作为验证集。将源验证样本的数量增加到每个类3个以上并不会大大提高验证性能。更多详情见附录。风险越小，模型越好。同样，源风险也是在源验证样品。我们还报告了所有超参数之间的下限和上限性能。评价方案。在图像分类中，我们对所有自适应方法进行了10，000次迭代训练。虽然每个方法都有不同的默认训练迭代，但为了实验的简单性，我们然后，我们选择一个检查点，显示所有报告的迭代和超参数的选择在语义分割中，我们类似地计算mIoU和每个标准我们我们运行实验三次，并显示其平均精度。实施. 我们利用已发布的适应方法CDAN、MCC、NC、AdaptSeg和ADVENT的官方实现。对于伪标记方法，我们使用NC这些方法使用ResNet50或ResNet101[15] 作为骨干网络。 Adapt- Seg 和 ADVENT 采用DeepLab [7]。更多细节见附录。4.3. 验证结果图像分类图像分类的结果总结在表2、3和4中。图图5示出了几种适应设置的准确度和标准的曲线图。在大多数情况下，DA方法对超参数和训练迭代敏感。正如我们在表中所看到的，我们提出的方法忠实地选择了良好的检查点，用于不同的应用。(a) 由熵调整的DANN [24]（精度：35.1%）。(b) 由SND调谐的DANN（精度：70.8%）。图4：特征可视化[23]。使用DANN的OfficeHome部分DA[12]。左：源（蓝色），目标（红色）。右：目标样品。不同的颜色表示不同的类。(a)熵[24]不能检测邻域结构的崩溃，并选择错误对齐特征的模型。(b)SND选择保持结构的模型。两种方法和两种范畴转移。当然，上界和我们的得分之间有一些差距，但差距不大。重要的是，SND在这些情况下不会灾难性地失败，而其他标准选择几个坏的检查点。此外，准确度和SND的曲线具有非常相似的形状。结果表明，SND在各种方法中对HPO都是在VisDA和DomainNet上的实验中，大多数方法选择良好的检查点，因为自适应方法在不同的超参数上是稳定的。来源风险在某些情况下提供了一个很好的模型，但在某些情况下也会发生灾难性的失败，例如NC表2中的A2D。DEV [53]有时也会发生灾难性的失败。9190方法CDAN [22]VisDA DNetMCC [17]VisDA DNetNC [34]VisDA DNetPL [20]VisDA DNetAvg下界51.1±1.351.3±1.467.1±1.154.8±2.144.8±3.756.9±0.458.7±1.155.5±0.355.0±1.1源风险开发[53]72.6± 0.872.6± 0.863.8±1.457.9±4.171.7±0.872.3±3.058.7±0.858.5±0.565.8±1.365.8±1.362.0±0.259.4±0.866.7±2.866.7±2.859.9±0.559.1±0.365.1±0.364.0±1.1熵[24]SND（我们的）69.9±1.870.3±0.161.5±1.164.9± 0.468.9±1.373.0± 1.159.2± 0.258.9±2.368.4± 1.166.9±3.262.3±0.662.4± 0.868.5±0.169.0± 1.160.7±0.360.9± 0.164.9±0.265.8± 0.3上界74.1±1.165.6±0.174.5±0.661.2±0.569.2±0.263.2±0.269.2±0.861.0±0.167.2±0.1表4：VisDA [28]和DomainNet（DNet）[27]在封闭DA中的结果。显示了三次运行的平均准确度及其标准偏差。我们利用真实Clipart适应DomainNet。SND平均表现最好。图5：迭代与准确度和HPO标准。为了便于准确性和标准之间的比较，我们翻转了熵，源风险和DEV的标准符号。请注意SND曲线如何跟踪“精度”。更多结果见附录。我们可以选择一个好的模型。然而，从图1底部的曲线图5，它通过在由DANN适配的PDA（Realto Art）中错误地提供置信预测而导致灾难性我们在图中示出了DANN结果的特征可视化。4.第一章由C-Ent选择的模型折叠目标sam的邻域结构表5：在GTA5到Cityscapes适配中的域自适应语义分割的验证结果。从图5中，这两个标准具有一些变化，并且不一定反映目标的准确度。我们假设有两个原因。第一，源风险不一定与目标绩效相关。如果模型集中于源样本的分类（即，在等式中设置λ=01），风险变小，这并不表示目标域上的良好性能。除非来源和目标非常相似，否则风险将不可靠。其次，我们可能需要仔细设计，选择验证源样本和DEV的域分类器构造。然而，考虑到实际应用，验证方法不应具有需要仔细设计的模块。熵[24]（C-Ent）在NC [34]和PL [20]中显示出与SND这可能是因为这两种方法都经过训练以保持目标邻域结构。然后，通过监测预测的置信度ples还将它们与源样本进行匹配，这导致在较低的C-Ent值中。相比之下，SND选择了一个保持结构的模型。由于过度自信问题可能发生在许多方法和数据集中，因此C-Ent对某些方法不可靠。这与图1中的玩具数据集上的结果一致。二、语义分割。表5描述了检查点选择结果。SND为两种方法选择良好的检查点。如果我们比较上限的性能，ADVENT [50]优于AdaptSeg [44]，其中3.2 mlou中的点。但是，如果我们应用无监督评估，差距就会变得小得多（只有0.7分）。AD-VENT [50]对超参数（如训练迭代）比AdaptSeg [44]更敏感。许多当前最先进的模型似乎通过目标风险来选择检查点。但是，正如这个结果所表明的那样，这种比较可能会误导现实世界的应用。源域选择。我们研究是否SND可以选择最好的源域给定的目标域使用的OfficeHome数据集。任务是预测最好GTA5到Cityscape[44]第四十四话[第50话]下界31.1± 0.521.0± 2.5源风险35.6± 2.937.2± 1.6熵[24]SND（我们的）39.3± 1.139.5± 0.835.6± 3.740.2± 0.5上界40.4± 0.543.6± 0.39191方法目标：RAcc.S目标：ArAcc.S目标：ClAcc.S目标：PrAcc.S下界67.5氯56.3 Pro43.2 Pro64.4 ClSND（我们的）74.6 Ar69.2 R50.1 R78.3 R上界76.0专业版69.6 R51.1 R79.0 R表6：使用Office-Home数据集的源域选择实验。我们展示了所选模型和所选源域（R：真实、真实：艺术、真实：剪贴画，压力：产品）。SND选择除Real域之外的最佳源域。即使在这种情况下，所选择的模型和预言准确性也类似地执行。输入层A至DW至AA至P中间0.4370.5940.474最后一次不带Softmax0.2150.3880.301最后一次使用Softmax0.1630.3480.285表7：输入特征的分析。通过所有样本的方差归一化的类内方差。softmax之后的最后一层的特征显示类内方差最小。图6：softmax特性分析。我们移除softmax层以获得目标特征并计算SND w/o Softmax。精度和SND w/o Softmax具有相关性，但精度取决于自适应方法。应用softmax可以使不同方法之间的相关性保持一致。从给定目标域的3个候选中选择源域为了简单起见，我们不使用任何自适应方法，因此我们只使用源样本训练模型，并使用未标记的目标样本进行评估。如图6，尽管SND并不总是预测最佳源域，但它总是返回具有上限水平性能的模型。4.4. 分析Softmax特征归一化的有效性。在这里，我们分析了使用softmax归一化特征来计算Sec中的Sij第3.1条我们计算相对类内方差，即类内方差除以所有类的方差，并在表7中的不同特征之间进行比较。我们采用的特征（最后w软-最大）显示最小的相对方差，即，它们将每个样本与其他类最好地分开。因此，使用这些特征允许我们在计算Eq.二、接下来，我们在图6中跟踪没有softmax归一化Sij的SND。注意，我们保留softmax，其将等式中的相似性矩阵的行归一化。二、准确度和SND w/o Softmax具有相关性，但相关性取决于自适应方法。softmax归一化具有突出类内方差和类间方差之间的差异的效果其他标准化方法，如L2，可能的失败案例以及如何避免。正如我们在方法部分中提到的，首先，如果模型根本没有经过训练，则输出不会表征目标样本的特征我们可以通过监控源样本的训练损失来轻松解决这个问题。其次，还可以通过训练模型将所有目标样本折叠成一个点来欺骗SND。经验上，我们发现，这样的退化的解决方案是很难检测与任何指标，包括SND。一种可能的解决方案是比较适应模型和初始模型的特征可视化。我们把进一步的分析留给未来的工作。5. 结论和建议在本文中，我们研究了无监督域自适应方法的验证问题，并引入了一个新的标准，考虑如何以及目标样本的聚类。我们的实验揭示了现有方法的验证协议中的问题。因此，我们在未来研究中评估UDA算法的建议如下：• 报告使用的HPO方法，如果包含超参数，请描述验证的细节。保持源样本的数量。• 搜索超参数的空间可以用损失的规模和以前的工作的见解来定义，但应该明确讨论。• 显示度量和精度的曲线• 发布实现，包括HPO的代码。重要的是设计适应方法时要考虑到HPO是如何对它们起作用的。例如，需要许多超参数的方法很难验证，正如我们在图3的右边所看到的。6、无监督验证的难度因方法而异。应用此协议可能会揭示具有高性能的准确度上限的方法，但难以使用任何无监督验证标准（包括我们的标准）进行调整。在这种情况下，使用一小组目标标签可能是合理的。但是，这一点应该在文件中明确讨论。最后，HPO在开集DA [4，36]和域自适应对象检测[9]以及一般通用化的主题中也是至关重要的。我们将这些其他任务的扩展留给未来的工作。谢谢。这项工作得到了本田、DARPA LwLL和NSF Award No.1535797。9192引用[1] Shai Ben-David 、 John Blitzer 、 Koby Crammer 、 AlexKulesza 、 FernandoPereira 和 JenniferWortmanVaughan。从不同领域学习的理论Machine learning，79（1-2）：151-175，2010. 5[2] Konstantinos Bousmalis 、 Nathan Silberman 、 DavidDohan、Dumitru Erhan和Dilip Krishnan。无监督像素级域自适应生成对抗网络。在IEEE Conf. Comput.目视模式识别，2017年。2[3] Konstantinos Bousmalis ， George Trigeorgis ， NathanSilber-man，Dilip Krishnan，and Dumitru Erhan.域分离网络。在高级神经信息。过程系统，2016年。2[4] Pau Panareda Busto和Juergen Gall。开集域自适应。在国际会议计算中目视，2017年。8[5] Zhangjie Cao，Lijia Ma，Mingsheng Long，and JianminWang.部分对抗域自适应。以Eur. Conf.Comput.目视，2018年。1、4[6] Zhangjie Cao，Kaichao You，Mingsheng Long，JianminWang，and Qiang Yang.学习转移部分域适应的示例。在IEEE Conf. Comput.目视患者记录，2019年。5[7] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE传输模式分析马赫内特尔，40（4）：834-848，2017. 6[8] Xinyang Chen ， Sinan Wang ， Mingsheng Long ， andJianmin Wang.可转让性与可辨别性：对抗域适应的批量频谱惩罚。在Int. Conf.Mach学习。，2019年。1[9] Yuhua Chen ， Wen Li ， Christos Sakaridis ， DengxinDai，and Luc Van Gool.领域自适应更快的r-cnn的对象检测在野外。在IEEE会议Comput. 目视模式识别，2018年。一、二、八[10] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。在IEEE Conf. Comput.目视模式识别，2016年。5[11] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。在IEEE Conf. Comput.目视模式识别，2009年。1[12] 雅罗斯拉夫·甘宁和维克多·伦皮茨基。通过反向传播的无监督在Int. Conf. Mach Learn. ，2014年。一、二、三、四、五、六[13] Muhammad Ghifary ， W Bastiaan Kleijn ， MengjieZhang，David Balduzzi，and Wen Li.用于无监督域自适应的深度重建-分类网络。以Eur.确认补偿目视，2016年。2[14] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick.面具R-CNN。在国际会议计算中目视，2017年。1[15] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun. 用于图像识别的深度残差学习在 IEEE Conf.Comput.目视模式识别，2016年。69193[16] Judy Hoffman，Dequan Wang，Fisher Yu，andTrevor Darrell.野生FCNS：像素级对抗和基于约束的适应。arXiv预印本arXiv：1612.02649，2016。一、二[17] Ying

下载后可阅读完整内容，剩余1页未读，立即下载