SENTRY：选择性熵优化用于无监督领域自适应

100 浏览量更新于2023-10-16 收藏 13.53MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

85580SENTRY：选择性熵优化通过委员会一致性进行无监督领域自适应0Viraj Prabhu Shivam Khare Deeksha Kartik Judy Hoffman GeorgiaInstitute of Technology0{virajp,skhare31,dkartik3,judy}@gatech.edu0摘要0许多现有的无监督领域自适应（UDA）方法仅关注适应数据分布转移，并在额外的跨领域标签分布转移下取得有限的成功。基于使用目标伪标签的自训练的最新工作显示出了希望，但在具有挑战性的转移中，伪标签可能非常不可靠，并且使用它们进行自训练可能导致错误积累和领域错位。我们提出了一种名为SENTRY的选择性熵优化算法，该算法根据随机图像变换的委员会的预测一致性来判断目标实例的可靠性。然后，我们的算法有选择地最小化预测熵，以增加高度一致的目标实例的置信度，同时最大化预测熵，以降低高度不一致的目标实例的置信度。结合基于伪标签的近似目标类别平衡，我们的方法在标准UDA基准测试中以及旨在对标签分布转移进行压力测试的基准测试中相对于现有技术取得了显著改进。我们的代码可在https://github.com/virajprabhu/SENTRY上获得。1. 引言0无监督领域自适应（UDA）学习将预测模型从有标签的源领域转移到无标签的目标领域。在计算机视觉社区中，对于协变量转移下的学习特定实例进行了广泛研究[13，18，25，34，44，45]。然而，许多现代UDA方法，如基于分布匹配的技术，隐含地假设任务标签分布在领域之间不发生变化，即P S (y) = P T(y)。当这种假设被违反时，分布匹配不会成功[22，49]。在许多实际的适应场景中，可能会遇到领域之间的数据分布（即协变量）转移以及标签分布转移（LDS）。例如，源数据集可以被策划为具有平衡的标签分布，而自然产生的目标数据集可能遵循一个0有标签无标签类别 = ,0传统方法：UDA的熵最小化0我们的方法：通过一致性选择性熵优化0差劣的初始化错误积累0最小化熵0当前类别边界0差劣的初始化强大的领域对齐0选择性熵0优化0一致的不一致的0图1：顶部：基于熵最小化的传统无监督领域自适应（UDA）方法通过增加模型对无标签目标实例的置信度来运行。在强烈的分布转移下，一些实例可能最初不对齐，熵最小化可能导致错误积累。底部：我们提出了一种名为SENTRY的选择性熵优化算法，该算法通过一组随机图像变换的预测一致性来识别可靠的目标实例，并有选择地在这些实例上优化模型熵以实现领域对齐。0幂律标签分布，因为某些类别自然发生的频率比其他类别更高（例如DomainNet [31]，LVIS [16]和MSCOCO[23]）。为了使领域自适应广泛适用，开发能够在数据和标签分布转移下运行的UDA算法至关重要。最近的研究尝试解决数据和标签分布转移的问题[22，43]，但这些方法可能不稳定，因为它们依赖于使用通常带有噪声伪标签或条件熵最小化[22]的自训练，而这些伪标签可能是错误的[15，39]。因此，当使用无约束的自训练进行学习时，早期的错误可能导致错误积累[6]和显著的领域错位（见图1，顶部）。̸85590为了解决由于无约束的自我训练导致的错误累积问题，我们提出了一种新颖的选择性自我训练算法Selective EntropyOptimization via Committee Consistency(SENTRY)。首先，我们不使用可能在领域偏移下被错误校准的模型置信度，而是基于在一组随机的保持标签的图像变换下的预测一致性来识别可靠的目标实例。这种一致性检查已被发现是检测模型错误的可靠方法[2]。在识别出可靠和不可靠的目标实例后，我们进行选择性熵优化：我们认为高一致性的目标实例可能被正确对齐，并通过最小化这种实例的预测熵来增加模型置信度。类似地，我们认为在变换下具有高预测不一致性的实例可能被错误对齐，并通过最大化预测熵来降低模型置信度。见图1（底部）。贡献。我们提出了SENTRY，一种用于在同时存在数据和标签分布偏移的无监督适应的算法。我们做出了以下贡献：01.一种新颖的选择标准，基于对一组随机的保持标签的图像变换的预测一致性，识别出可靠的目标实例进行自我训练02.一种选择性熵优化目标，对于高一致性的目标实例，最小化预测熵（增加置信度），对于高不一致性的目标实例，03.我们提出在源域（使用标签）和目标域（使用伪标签）上使用类平衡采样，并发现它能够补充LDS下的自适应。04. SENTRY在包括DomainNet [31]、OfficeHome[46]和VisDA[32]在内的多个分类DA基准的标准和LDS版本的27/31个领域转移中取得了新的最先进的结果。02. 相关工作0无监督域自适应（UDA）。将模型从有标签的源域转移到无标签的目标域的任务已经取得了相当大的进展[13, 18, 34,45]。许多方法通过直接最小化领域差异统计量[20, 25,45]来对齐特征空间。最近，通过领域对抗学习进行分布匹配（DM）已成为一种突出的UDA范式[13, 26, 36, 44,53]。然而，在存在额外的标签分布偏移（LDS）的情况下，这种基于DM的方法的成功有限。一些先前的工作研究了在LDS下的UDA问题，提出了类加权的领域差异度量[47,51]，用于成对特征匹配的生成方法[42]，或者非对称松弛的分布对齐[52]。在LDS下的UDA的一些先前工作还假设条件输入分布不会0跨域改变，即 p S ( y ) � = p T ( y ) ， p S ( x | y ) = p T (x | y )（称为“标签偏移”[1, 24,41]）。我们解决了在同时存在协变量和标签分布偏移的UDA问题，而不做额外的假设。UDA的自我训练。最近，基于模型预测或自我训练的方法已被证明是一种有前途的解决LDS下UDA问题的方法[22,43]。这通常涉及对有信心的目标伪标签进行监督训练[43]，置信度正则化[54]，或在目标实例上进行条件熵最小化[14][22]。然而，无约束的自我训练可能导致错误累积。为了解决这个问题，我们提出了一种选择性自我训练策略，首先识别出可靠的自我训练实例，并选择性地在这些实例上优化模型熵。预测一致性。在增强下的预测一致性在几个方面被发现是有用的-作为监督学习的正则化器[10]，自监督表示学习[7]，半监督学习[3, 38, 40,50]和UDA[22]。Bahat等人[2]发现在图像变换下的一致性是模型错误的可靠指标。与优化增强不变性的先前工作不同，我们使用一组随机图像变换的预测一致性来检测可靠的实例以进行对齐，并选择性地在这些实例上优化模型熵。03. 方法0我们解决了在有标签源域上训练的模型无监督适应到无标签目标域的问题。除了跨域协变量转移外，我们还关注在实际场景中存在的跨域标签分布转移（LDS），并提出了一种选择性自训练算法，用于在这种情况下实现可靠的域对齐。03.1. 符号表示0设X和Y表示输入和输出空间，目标是学习一个由参数Θ参数化的CNN映射h：X→Y。在无监督域适应中，我们可以访问有标签的源实例(xS, yS)�PS(X,Y)，以及无标签的目标实例xT�PT(X)，其中S和T对应源域和目标域。我们考虑在C类图像分类的情况下进行域适应：输入x是图像，标签y是分类变量y∈{1, 2, ..,C}。对于一个实例x，让pΘ(y|x)表示模型的最终概率输出。对于每个目标实例xT�PT(X)，我们估计一个伪标签ˆy=argmax pΘ(y|xT)。03.2. 预备知识：通过熵最小化进行无监督域适应0无监督域适应通常遵循两阶段训练流程：源训练，然后目标适应。在第一阶段，模型在有标签的源域上以监督方式进行训练，最小化交叉熵。……~~= ExT ∼PT(2)LIE = ExT ∼PT� C�c=1pΘ(y=c|xT ) log q(ˆy=c)�(3)85600一致的0MODEL0CONSISTENCY0CHECKER0最小化熵0最大化熵0“熊”0“狗”0“熊”0伪类别0平衡0类别0平衡0（源交叉熵）LCE LIE = H([ˆy1, ˆy2, ...,ˆyqs])（目标信息熵）0源路径0目标路径0（选择性熵优化）0不一致的0PS0PT0熊0跟踪器PT(ˆy)0AUGMENT0SENTRY0图2：我们提出了选择性熵优化通过委员会一致性（SENTRY）用于无监督域适应。对于每个目标实例，我们生成一个由随机、保持标签的图像变换组成的委员会。然后，一致性检查器计算原始版本和增强版本的模型预测之间的一致性。然后，算法在高度一致的目标实例上最小化预测熵（增加模型的置信度），在高度不一致的目标实例上最大化预测熵（降低模型的置信度）。0相对于真实标签的熵损失。0LCE = E(xS,yS)�PS[LCE(h(xS), yS)] (1)0在第二阶段，使用未标记的目标数据和标记的源数据对训练好的源模型进行适应目标的训练。最近，通过条件熵最小化（CEM）[14]进行自训练已经被证明在域适应中具有强大的性能[35]。该方法通过优化模型参数来最小化未标记目标数据上的条件熵HΘ(y|x)。熵最小化目标LENT的定义如下：0LENT = ExTΘ(y|xT)]0空格C0c = 1 − pΘ(y=c|xT)log pΘ(y=c|xT)0空格0然而，在许多实际场景中，除了协变量转移外，跨域标签分布也可能发生变化。此外，目标域内部可能存在显著的标签不平衡。在这种情况下，简单的CEM可能会鼓励只预测多数类的平凡解[22]。Li等人[22]用“信息熵”目标LIE对CEM进行了规范化，以鼓励模型对无标签目标实例进行多样化预测。这是通过计算模型对最后Q个实例的预测的类别分布q(ˆy)来实现的，并更新参数以最大化这些预测的熵。这种方法在存在标签分布转移的情况下有助于域对齐[22]1。LIE的定义如下：01 目标是在Li等人的研究中被称为“互信息最大化”0CEM和错误累积。虽然条件熵最小化已经成为许多半监督学习[3,14]、少样本学习[12]和最近的UDA[22,35]方法的一部分，但在域自适应的情况下，它面临着一个关键挑战。直观地说，条件熵最小化鼓励模型对未标记的目标数据进行自信的预测。这使得它的成功在很大程度上依赖于其初始化。在良好的初始化下，在源培训之后，类别可能在源域和目标域之间合理对齐，这样的自训练效果很好。然而，在强域偏移的情况下，几个类别最初可能在域之间错位，通常是系统性的，而熵最小化只会加强这些错误。3.3.SENTRY:通过委员会一致性选择的选择性熵优化。为了解决CEM下错误累积的问题，我们提出了对齐良好实例的选择性优化。那么问题就变成了：我们如何识别可靠的实例？一种可能性是使用top-1softmax置信度（或者替代地，预测熵），并且只对置信度很高的实例进行自训练，就像之前的工作[43]中所做的那样。然而，在分布偏移的情况下，这样的置信度度量往往是不准确的，而且经常是不可靠的[39]。相反，我们提出使用在保持标签的图像变换委员会下的预测一致性作为更可靠的实例选择度量。对于一个目标实例xT�PT，我们生成一个由k个变换版本{a1(xT), a2(xT), ...,ak(xT)}组成的委员会。我们对这k个变换版本的每一个进行预测，并测量模型对原始图像和每个变换版本的一致性。在实践中，我们使用简单的多数投票方案：如果模型对大多数增强版本的预测与原始图像的预测相匹配，我们将该实例视为“一致”。类似地，如果大多数增强版本的预测与原始预测不匹配，我们将其标记为“不一致”。选择性熵优化。在确定了一致和不一致的实例之后，我们执行选择性熵优化（SENTRY）。首先，对于一个被标记为一致的实例，我们通过最小化预测熵[14]来增加模型的置信度，其中预测熵是相对于其一致的增强版本之一的。如前所述，一些目标实例在域偏移下可能错位。在这些实例上进行熵最小化会增加模型的置信度，从而加强这些错误。相反，通过最大化相对于其不一致的增强版本的预测熵[33]，我们通过预测不一致性来降低模型的置信度。前者鼓励在高度一致的实例上进行自信的预测，而后者降低在高度不一致且可能错位的实例上的模型置信度。在第4.6节中，我们通过说明它与二进制分类情况下对于错误分类示例的基于二进制交叉熵损失的相似性，进一步解释了熵最大化的行为。不失一般性，我们在实验中最小化/最大化与最后一个一致/不一致的变换版本相关的熵。我们的选择性熵优化目标L SENTRY如下所示：LSENTRY(xT ) =ΘiTΘ(y aj(x ))if inconsistent(4)̸(5)85610增强版本与其在原始图像上的预测匹配，我们将该实例视为“一致”。类似地，如果大多数增强版本的预测与原始预测不匹配，我们将其标记为“不一致”。选择性熵优化。在确定了一致和不一致的实例之后，我们执行选择性熵优化（SENTRY）。首先，对于一个被标记为一致的实例，我们通过最小化预测熵[14]来增加模型的置信度，其中预测熵是相对于其一致的增强版本之一的。如前所述，一些目标实例在域偏移下可能错位。在这些实例上进行熵最小化会增加模型的置信度，从而加强这些错误。相反，通过最大化相对于其不一致的增强版本的预测熵[33]，我们通过预测不一致性来降低模型的置信度。前者鼓励在高度一致的实例上进行自信的预测，而后者降低在高度不一致且可能错位的实例上的模型置信度。在第4.6节中，我们通过说明它与二进制分类情况下对于错误分类示例的基于二进制交叉熵损失的相似性，进一步解释了熵最大化的行为。不失一般性，我们在实验中最小化/最大化与最后一个一致/不一致的变换版本相关的熵。我们的选择性熵优化目标L SENTRY如下所示：0这里 i 和 j分别表示最后一次一致和不一致的转换版本的索引。这种方法可能引发两个问题：首先，仅在一致的实例上进行熵最小化可能导致排除大部分目标实例。其次，对不一致的目标实例进行无限熵最大化可能对学习产生不利影响。我们的目标中内置了增强不变性正则化器，解决了这两个问题，从而导致了一种自适应选择策略。通过增强不变性正则化进行自适应选择。对于标记为一致的实例，我们的方法在熵最小化目标中与其最后一次一致的增强版本相比，而不是与原始图像本身相比。这带来了两个好处：首先，这将数据增强融入到熵最小化目标中，有助于减少过拟合。其次，它鼓励对用于选择实例的相同增强集合进行不变性。我们发现，这使得我们的选择策略是自适应的，即在训练过程中选择越来越多的目标实例进行熵最小化，因此选择进行熵最大化的目标实例的比例逐渐减少。0算法 1 SENTRY 优化01: 输入：X S , Y S , X T , Q , Θ02: 对于所有 x ( i ) T ∈ X T 做 � 初始化目标伪标签03: ˆ Y ( i ) T ← argmax p Θ ( y | x ( i )04: SrcLoader ← ClassBalancedSampler( X S , YS ) 5: TgtLoader ← ClassBalancedSampler( X T07: 对于 epoch 从 1 到 MAX_EPOCH 做 8: 对于 x S , yS 在 SrcLoader 和 x T 在 TgtLoader 做09: ˆ y T ← argmax p Θ ( y | x T ) � 清洁预测010: { a 1 ( x T ) , . . . , a k ( x T ) } ← RandAugment( x T )011: C ← { a i ( x T ) | ˆ y T = argmax p Θ ( y | a i ( x T )) } k i =1012: IC ← { a i ( x T ) | ˆ y T ≠ argmax p Θ ( y | a i ( x T )) } k i =1013: 如果 len (C) > len (IC) then � 一致014: L SENTRY = H Θ ( y | C.last() )015: else � 不一致016: L SENTRY = -H Θ ( y | IC.last() )017: 更新( ˆ Y T , ˆ y T )018: q .enqueue( ˆ y T ) � 更新伪标签队列019: 最小化 L SENTRY + L IE ( q ) + L CE ( x S , y S )020: TgtLoader ← ClassBalancedSampler( X T , ˆ Y T )03.4. 通过伪类平衡克服LDS0在LDS下，方法通常必须在严重标签不平衡的情况下进行适应。虽然源域上的标签不平衡通常导致尾部类别的性能较差[11,48]，但适应不平衡的目标通常会导致头部类别的性能较差[22,49]。为了克服这个问题，我们采用了一种简单的类平衡采样策略。在源域上，我们使用真实标签进行类平衡采样。在目标域上，我们通过伪标签近似标签分布，并进行近似的类平衡采样[55]。这种平衡也补充了目标信息熵损失 L IE[22]（公式 3）。回顾一下，L IE鼓励对预测进行均匀分布。在严重标签不平衡的情况下，可能会采样到高度标签不平衡的批次（大多数实例属于头部类别），因此鼓励对预测进行均匀分布可能会对学习产生不利影响。然而，我们的类平衡采样策略降低了这种情况发生的概率，并且我们发现它始终提高了性能。算法 1详细说明了我们的完整方法。我们优化的完整目标如下所示：0argmin Θ E ( x S ,y S ) bal�PSLCE+0ExTpbal�PTλIELIE + λSENTRYLSENTRY0其中λ表示损失权重，bal�和pbal�表示平衡和伪类平衡采样。strawberrybirdtablescissorsbeeforkhorsebeddrumscowbookfencebutterflytelephoneduckdonutbeartruckelephantsheepcakehouserabbitbathtubbuscarchairappledolphinambulanceairplanebicycledogclockbridgecameracalculatorbananacatbackpack0100200300WebcamTVTrash_CanToysToothBrushTelephoneTableSpoonSpeakerSodaSneakersSinkShelfScrewdriverScissorsRulerRefrigeratorRadioPush_PinPrinterPostit_NotesPencilPenPaper_ClipPanOvenNotebookMugMouseMopMonitorMarkerLaptopLamp_ShadeKnivesKeyboardKettleHelmetHammerGlassesForkFolderFlowersFlipflopsFile_CabinetFanExit_SignEraserDrillDesk_LampCurtainsCouchComputerClipboardsChairCandlesCalendarCalculatorBucketBottleBikeBedBatteriesBackpackAlarm_Clock0102030405085620DomainNet标签直方图：剪贴画到素描0剪贴画素描0OfficeHome RS-UT标签直方图：真实世界到剪贴画0真实世界剪贴画0图3：左：DomainNet中剪贴画→素描转移的自然标签分布转移（LDS）。右：OfficeHomeRS-UT中真实世界→剪贴画转移的手动生成的LDS[43]。04. 实验0我们首先描述我们的实验设置：数据集和度量标准（第4.1节），实现细节（第4.2节）和基线（第4.3节）。然后我们展示我们的结果（第4.4节），消融研究（第4.5节）和分析我们的方法（第4.6节）。04.1. 数据集和度量标准我们在一系列标准的UDA基准测试集和专门设计的基准测试集上报告结果，以测试在标签分布转移下的UDA方法。DomainNet. DomainNet[31]是一个大型的图像分类UDA基准测试集，包含了60万张图像，属于6个跨越345个类别的领域。由于其完整版本中存在标签噪声，我们使用了Tan等人提出的子集[43]，该子集使用了来自4个领域的40个常见类别：真实（R），剪贴画（C），绘画（P）和素描（S）。如图3（左）所示，不同领域之间存在自然的标签分布转移，这使得它适合在不进行手动子采样的情况下测试我们的方法。OfficeHome.OfficeHome[46]是一个基于图像分类的基准测试集，包含了办公室和家庭环境中的65个物体类别，跨越了4个领域：真实世界（Rw），剪贴画（Cl），产品（Pr）和艺术（Ar）。我们报告了两个版本的性能：i）标准版本：Venkateswara等人提出的原始数据集[46]，ii）RS-UT版本：Tan等人提出的反平衡源（RS）和不平衡目标（UT）版本[43]，其中源领域和目标领域的标签分布被手动设置为彼此的反向版本（见图3（右））。VisDA. VisDA2017[32]是一个用于合成→真实适应的大型数据集，包含12个类别和超过200,000张图像。DIGITS. 我们使用SVHN [29] →MNIST [21]的转移进行10类数字识别。度量标准. 在LDSDA基准测试集（DomainNet和OfficeHomeRS-UT）上，与LDS下的先前工作一致[19,43]，我们计算目标测试集上每个类别准确率的平均值作为我们的度量标准，将所有类别的性能权重相等。在标准DA基准测试集（OfficeHome和VisDA2017）上，我们报告标准准确率。04.2. 实现细节我们使用PyTorch[30]进行所有实验。在DomainNet、OfficeHome和VisDA2017上，我们将标准的ResNet50 [17]CNN架构修改为最近DA工作中使用的few-shot变体[8, 35,43]：我们用一个C-way（对于C个类别）的全连接层替换最后的线性层，该全连接层的权重使用Xavier初始化，没有偏置。然后，我们对流入该层的激活进行L2归一化，并将其输出传递给一个带有温度T =0.05的softmax层。我们将优化细节与Tan等人[43]保持一致。在DIGITS上，我们对LeNet架构进行类似的修改，并使用T = 0.01[18]。为了增强图像以进行一致性检查，我们使用RandAugment[10]，它从一组14个变换中随机选择N个保持标签的图像变换进行顺序应用。我们设置N = 3，使用变换强度M =2.0，并使用k =3个变换的委员会。我们在源领域上使用平衡采样，在目标领域上使用伪类平衡采样。我们将λIE和λSENTRY设置为0.1和1.0，并匹配InstaPBM以设置Q = 256用于信息熵损失。04.3.基线方法作为我们的主要基线，我们使用了四种先前工作中针对LDS下DA专门设计的最先进的UDA方法，具体如下：i）COAL [ 43 ]：通过原型为基础的条件对齐（使用MME [35]）和自我训练（使用自信预测的伪标签）来对齐特征和标签分布。ii）MDD + Implicit Alignment (I.A) [ 19]：使用目标伪标签构建 N − way（每批类别数） K −shot（每类样本数）数据加载器，这些加载器在源域和目标域中的批次中采样相同的类别集合，结合了强大的UDA方法Margin Disparity Discrepancy [ 53 ]。iii）InstaPBM [ 22]：提出了“预测行为”匹配，即在源域和目标域之间匹配p Θ ( y | x )的属性。这是通过优化互信息最大化、对比和mixup损失的组合来实现的。iv）F-DANN [ 49]：提出了一种基于非对称松弛分布匹配的DANN [ 13]版本来处理LDS。COAL、InstaPBM和BBSE [24]55.3863.6247.4464.5842.1842.3681.5549.0454.1068.5448.1946.0755.25PADA [4]65.9167.1358.4374.6953.0952.8679.8459.3357.8776.5266.9761.0864.48MCD [37]61.9769.3356.2679.7856.6153.6683.3858.3160.9881.7456.2766.7865.42DAN [25]64.3670.6558.4479.4456.7860.0584.5661.6262.2179.6965.0162.0467.07F-DANN [49]66.1571.8061.5381.8560.0661.2284.4666.8162.8481.3869.6266.5069.52UAN [52]71.1068.9067.1083.1563.3064.6683.9565.3567.0682.2270.6468.0972.05JAN [28]65.5773.5867.6185.0264.9667.1787.0667.9266.1084.5472.7767.5172.48ETN [5]69.2272.1463.6386.5465.3363.3485.0465.6968.7884.9372.1768.9973.99BSP [9]67.2973.4769.3186.5067.5270.9086.8370.3368.7584.3472.4071.4774.09DANN [13]63.3773.5672.6386.4765.7370.5886.9473.1970.1585.7375.1670.0474.46COAL [43]73.8575.3770.5089.6369.9871.2989.8168.0170.4987.9773.2170.5375.89InstaPBM [22]80.1075.8770.8489.6770.2172.7689.6074.4172.1987.0079.6671.7577.84BSP [9]72.8023.8266.1920.0532.5930.3640.97PADA [4]60.7732.2857.0926.7640.7138.3442.66BBSE [24]61.1033.2762.6631.1539.7038.0844.33MCD [37]66.0333.1762.9529.9944.4739.0145.94DAN [25]69.3540.8466.9334.6653.5552.0952.90F-DANN [49]68.5640.5767.3237.3355.8453.6753.88JAN [28]67.2043.6068.8739.2157.9848.5754.24DANN [13]71.6246.5168.4038.0758.8358.0556.91MDD [53]71.2144.7869.3142.5652.1052.7055.44COAL [43]73.6542.5873.2640.6159.2257.3358.40InstaPBM [22]75.5642.9370.3039.3261.8763.4058.90MDD+I.A [19]76.0850.0474.2145.3861.1563.1561.67SDAN [25]56.3DANN [13]57.6JAN [28]58.3CDAN [26]65.8BSP [9]66.3MDD [53]68.1FixMatch [40]59.0InstaPBM [22]69.2MDD+I.A [19]69.5JAN [25]61.6MCD [37]69.8CDAN [26]70.0FixMatch [40]64.9MDD [53]74.6MDD+I.A [19]75.8InstaPBM [22]76.385630方法 R → C R → P R → S C → R C → P C → S P → R P → C P → S S → R S → C S → P AVG0源域 65.75 68.84 59.15 77.71 60.60 57.87 84.45 62.35 65.07 77.10 63.00 59.72 66.800SENTRY (我们的方法) 83 . 89 76 . 72 74 . 43 90 . 61 76 . 02 79 . 47 90 . 27 82 . 91 75 . 60 90 . 41 82 . 40 73 . 98 81 . 390表1：DomainNet上的每类平均准确率。粗体和下划线分别表示最佳和次佳性能的方法。0方法 Rw ) Pr Rw ) Cl Pr ) Rw Pr ) Cl Cl ) Rw Cl ) Pr AVG0源域 70.74 44.24 67.33 38.68 53.51 51.85 54.390SENTRY (我们的方法) 76 . 12 56 . 80 73.60 54 . 75 65 . 94 64 . 29 65 . 250表2：OfficeHome RS →UT（右）基准上的每类平均准确率。粗体和下划线分别表示最佳和次佳性能的方法。0MDD+I.A.、COAL和InstaPBM都使用了目标伪标签，COAL和InstaPBM是基于自我训练的方法。为了完整起见，我们还包括了Tan等人[ 43]的其他基线方法的结果：i）传统的基于特征对齐的UDA方法：DAN [ 25 ]、JAN [ 28 ]、DANN [ 13 ]、MCD [ 35]和MDD [ 53 ]，ii）只对齐标签分布的方法：BBSE [ 22]，iii）假设标签空间不重叠的方法：PADA [ 4 ]、ETN [ 5]和UAN [ 52]。我们还在两个基准测试上报告了半监督学习的最先进的自我训练方法FixMatch [ 40 ]的结果。04.4. 结果0标签转移DA基准结果。我们在DomainNet（表1）上展示了12个转移和OfficeHome RS →UT（表2）上展示了6个转移的结果。在DomainNet上，SENTRY优于下一个最佳方法InstaPBM [ 22 ]0在每个转移中，SENTRY的平均准确率比其他方法平均高出3.55%。在OfficeHomeRS-UT上，SENTRY在6个转移中的5个上优于下一个最佳方法MDD+I.A [ 19]，平均准确率高出3.58%。我们的方法还明显优于F-DANN [ 49]（分别高出11.87%和11.37%）和COAL [ 43]（分别高出5.50%和6.85%），它们都是针对LDS适应的UDA策略。0方法准确率（%）0源域 46.10SENTRY（我们的方法）72.20（a）OfficeHome（12个转移的平均）0方法准确率（%）0源域 41.00SENTRY（我们的方法）76.70（b）VisDA20170表3：标准DA基准的准确率。0标准DA基准结果。表3展示了两个标准DA基准OfficeHome和VisDA2017的结果。可以看出，SENTRY在OfficeHome上的平均准确率比下一个最佳方法提高了2.7%，在12个转移中平均（完整表格见补充材料）。在VisDA上提高了0.4%。不同程度的标签不平衡。为了进行对不同程度标签不平衡的目标适应的受控研究，我们使用SVHN →MNIST转移。由于MNIST是类平衡的，我们手动进行长尾训练集的构建。MMD [27]53.4±0.9 56.7±1.256.2±1.455.1±0.755.4±1.1DANN [13]68.0±0.9 71.5±1.066.9±0.560.6±2.266.8±1.5COAL [43]78.8±1.0 67.1±1.470.2±1.570.0±1.871.5±1.4InstaPBM [22]90.70.2 77.93.568.91.365.92.275.91.800.5k1.0k1.5k02.0k4.0k1 2 3 4 5 6 7 8 0 902.0k4.0k6.0k1 2 3 4 5 6 7 8 0 902.0k4.0k6.0kconsistentnone77.755.3correctnone84.377.7correctincorrect86.380.1N=1 N=3 N=5(a) C→Sk=1 53.857.555.6k=3 55.356.856.2k=5 54.758.454.5voting CS RwCl(c) Vary votingtruth target labels to determine whether an instance is cor-rectly or incorrectly classified, and perform two experiments:entropy minimization on correct instances (and no maxi-mization), and min-max entropy optimization on correct andincorrect instances. Selective min-max optimization againoutperforms just minimization by 2% and 2.4%, showingthat reducing confidence on misaligned instances helps.Ablating consistency checker. In Tables 6a, 6b, we vary thecommittee size k and number of RandAugment transformsN used by our consistency checker. We do not find ourmethod to be very sensitive to either hyperparameter. InTable 6c, we vary the voting strategy used to judge committeeconsistency and inconsistency. We experiment with majority85640SVHN → MNIST-LT 方法 IF=1 IF=20 IF=50 IF=100 AVG0源域 68.1 68.1 68.1 68.1 68.10SENTRY（我们的方法）92.9 ± 0.3 93.9 ± 2.2 85.6 ± 4.5 85.6 ± 1.1 89.5 ± 2.00IF=1（总共=14.5k）0IF=20（总共=14.5k）0IF=50（总共=14.5k）0IF=100（总共=14.5k）0表4：左侧：从SVHN到手动长尾（-LT）MNIST训练集进行自适应后的每类平均准确率（测试集保持不变）。标签不平衡程度由不平衡因子（IF）衡量。所有长尾版本使用相同数量的数据。对于每个IF，我们构建3个长尾版本并报告均值和1个标准差。右侧：每个IF的标签分布。0分割，将其作为我们的无标签目标训练集（测试集保持不变）。通过从Pareto分布中采样和子采样来进行长尾处理，其中类的基数按照与源标签分布相同的排序顺序进行。为了系统地改变不平衡程度，我们调节Pareto分布的参数以生成所需的不平衡因子（IF）[ 11]，IF计算为最大类和最小类的基数之比。较大的IF表示更高程度的不平衡。因此，我们创建了3个IF ∈ { 20 , 50 , 100}的分割，对应于不同的标签不平衡程度，但具有相同数量的数据（=14.5k个实例）。此外，我们创建了一个控制版本，也有14.5k个实例，但具有平衡的标签分布。表4（右侧）显示了生成的标签分布。我们在表4（左侧）报告了每类的平均准确率

下载后可阅读完整内容，剩余1页未读，立即下载