主动领域适应中聚类不确定性加权嵌入

184 浏览量更新于2023-10-16 收藏 14.19MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

85050通过聚类不确定性加权嵌入进行主动领域适应0Viraj Prabhu 1 Arjun Chandrasekaran � , 2 Kate Saenko 3 Judy Hoffman 101 佐治亚理工学院 2 马克斯∙普朗克智能系统研究所，图宾根 3 波士顿大学0{virajp,judy}@gatech.edu achandrasekaran@tue.mpg.de saenko@bu.edu0摘要将深度神经网络推广到新的目标领域对于其在现实世界中的实用性至关重要。在实践中，可能有可能获得一些目标数据的标签，但为了节约成本，希望通过主动学习（AL）选择最大信息子集。我们研究了领域转移下的AL问题，称为主动领域适应（ActiveDA）。我们证明了现有的仅基于模型不确定性或多样性采样的AL方法对于主动领域适应来说不太有效。我们提出了一种称为聚类不确定性加权嵌入（CLUE）的新型标签获取策略，用于主动领域适应，它通过不确定性加权聚类来识别模型下不确定且在特征空间中多样的目标实例进行标记。CLUE在图像分类的6个不同领域转移学习设置中，始终优于竞争的标签获取策略。我们的代码可在https://github.com/virajprabhu/CLUE找到。01. 引言深度神经网络在学习大型标记数据集方面表现出色，但在将这些知识推广到新的目标领域方面却遇到困难[32,42]。这限制了它们的实际应用，因为为每个新的部署领域收集大型新数据集是不切实际的。此外，并非所有目标实例都同样具有信息量，识别出最大信息量的目标实例进行标记更具成本效益。虽然主动学习[2, 6, 8, 9, 35,36]已经广泛研究了识别信息实例的问题，但它通常侧重于从头开始学习模型，并不在领域转移下操作。在许多实际场景中，模型在源领域中进行训练，并在不同的目标领域中部署，通常还需要进行额外的领域适应[10, 17, 32,44]。在这项工作中，我们研究了在这种领域转移下的主动学习问题，称为主动领域适应[29]（ActiveDA）。具体而言，给定i）源领域中的标记数据，ii）目标领域中的未标记数据，以及iii）能够为固定预算的目标实例获取标签的能力，主动DA的目标是选择目标实例进行标记和0� 部分工作在佐治亚理工学院完成。0不确定性采样可能会采样到未校准的实例0冗余或异常实例0多样性采样0可能会采样已经在领域之间对齐良好的实例0CLUE（我们的方法）0样本不确定和0多样的实例0Dd0源目标0已标记未标记0选择的当前类边界0A类B类0图1：主动领域适应[29]（ActiveDA）的目标是通过从预选目标实例中获取标签来将源模型适应到未标记的目标领域。现有的仅基于不确定性[9, 30,45]或多样性采样[13,35]的主动学习方法对于主动领域适应来说不太有效（第1、2行）。我们提出了一种名为CLUE的主动学习方法，专为主动领域适应而设计，它选择既不确定（因此对模型有信息）又在特征空间中多样的实例（从而最小化冗余，第3行），并且比竞争的主动学习和主动领域适应方法更具成本效益（第4.4节）。0在目标测试集上学习一个高准确率的模型。主动领域适应作为一种从更便宜的标签来源（例如合成数据到真实数据）进行成本效益适应的手段，具有广泛的实用性，以及当目标领域中的标签数量（例如自动驾驶）或成本（例如医学诊断）是禁止的时候。尽管它具有实际的实用性，但自从十多年前引入以来，这个具有挑战性的任务在其后续工作中受到了限制[5, 29,40]。传统的AL设置通常侧重于选择样本的技术，以便从头开始有效地学习模型，而不是在领域转移下进行适应[36]。因此，基于不确定性或多样性采样的现有最先进的AL方法对于主动领域适应来说不太有效。不确定性采样选择模型信念下高度不确定的实例[8, 9, 20,41]。在领域转移下，目标领域上的不确定性估计可能会受到影响。85060可能导致采样无信息、异常值或冗余实例（图1，顶部）。基于多样性采样的主动学习方法选择在学习的嵌入空间中彼此不相似的实例[ 13 , 35 , 38]。在主动领域适应性中，这可能导致从已经在领域之间对齐良好的特征空间区域中采样无信息的实例（图1，中间）。因此，仅使用不确定性或多样性采样对于主动领域适应性是次优的，正如我们在第4.4节中所证明的。最近的主动学习和主动领域适应性的研究试图将不确定性和多样性采样结合起来。AADA [ 40]是最先进的主动领域适应性方法，它将不确定性与在学习的领域鉴别器下测量的多样性（称为“目标性”）相结合。然而，目标性不能确保所选实例代表整个目标数据分布（即不是异常值），也不能确保它们彼此之间不相似。Ash等人[ 2]提出在虚构的“梯度嵌入”空间中进行聚类。然而，他们依赖于在高维空间中基于距离的聚类，这通常会导致次优的结果。在本文中，我们提出了一种新颖的主动领域适应性标签获取策略，它以一种有原则的方式将不确定性和多样性采样结合起来，而无需复杂的梯度或基于领域鉴别器的多样性度量。我们的方法，Clustering Uncertainty-weightedEmbeddings(CLUE)，通过使用与目标模型的相应不确定性加权的聚类来识别具有信息和代表性的目标实例。我们的加权方案有效地增加了与不确定性成比例的实例密度。为了构建非冗余批次，CLUE然后选择推断的聚类中心的最近邻实例进行标记。我们的算法利用获取的目标标签和（可选的）标记源和未标记的目标数据来更新模型，始终比竞争对手（通常更复杂）的替代方法更具成本效益地进行领域对齐。贡献：01.我们对具有挑战性的领域转移上的最新主动学习方法的性能进行了评估，并发现纯粹基于不确定性或多样性采样的02.我们提出了CLUE，一种新颖且易于实现的主动领域适应性标签获取策略，它使用基于不确定性加权的聚类来识别在03.我们在领域转移的图像分类任务中使用了来自DomainNet[ 27 ]、Office [ 32 ]和DIGITS [ 22 , 26]基准数据集的6个不同领域转移。我们的方法CLUE在跨领域转移的主动领域适应性上改进了之前的最新方法（在某些情况下提高了9%），同时也改进了多个学习策略下的主动学习的最新方法。02. 相关工作0卷积神经网络（CNN）的主动学习（AL）。由于单个实例更新的不稳定性，CNN的主动学习主要集中在批次模式设置上。在主动学习中，最成功的两种范式是不确定性采样和多样性采样[ 2]。基于不确定性的方法选择当前模型下不确定性最高的实例[ 8 , 9 , 34 , 41 ]，使用熵[ 45 ]、分类边界[ 30]或置信度等度量。基于多样性的方法选择代表整个数据集的实例，并在学习的嵌入空间中优化多样性，通过聚类或核心集选择[ 12 , 13 , 35 , 38 ]。0一些方法将这两种范式结合起来[ 2 , 3 , 18 ,049 ]. 主动学习通过学习[ 18]将其表述为在每一步选择coreset和不确定性采样之间的多臂赌博问题。Zhdanov等人[ 49 ]使用K-Means聚类[ 15]在基于不确定性的预过滤之后增加批次的多样性。最近，BADGE [ 2]在虚构的“梯度嵌入”上运行KMeans++。我们提出了CLUE，一种用于在领域转移下进行采样的主动学习方法，它使用基于不确定性加权的聚类来选择多样性和信息丰富的目标实例。0领域适应。将在标记的源领域上训练的模型转移到无标记[10,17,32,44]或部分标记的[7,33,47]目标领域的任务已经得到了广泛的研究。最初的方法通过优化源和目标之间的差异统计量来对齐特征空间[23,44]，而近年来，通过在特征空间编码器和领域鉴别器旁边进行对抗性学习来实现的方法已成为一种流行的对齐策略[10,11,43]。在这项工作中，我们提出了一种在多个领域适应策略下进行主动学习的标签获取策略。0主动领域适应（ActiveDA）。与半监督领域适应假设对随机子集的目标实例进行标记不同，主动DA侧重于选择目标实例进行领域适应的标记。Rai等人[29]首次研究了应用于文本数据的情感分类的主动DA任务。他们提出了ALDA，它基于模型不确定性和学习的领域分离器对实例进行采样。Chattopadhyay等人[5]选择目标实例，并通过解决最小化特征之间的最大均值差异（MMD）的凸优化问题来学习源点的重要性权重。最近，Su等人[40]在深度CNN的背景下研究了主动DA，并提出了AADA，其中目标实例是基于预测熵和通过对抗训练的领域鉴别器测量的目标性选择的，然后通过DANN进行对抗性领域适应[11]。我们提出了CLUE，一种新颖的主动DA标签获取策略，它在多个学习策略的不同领域转移上优于先前的工作。85070目标不0更新模型0类 = 源目标 0（大小∝不确定性）不确定性加权聚类0类边界0已选择0图2：我们提出了一种新颖的主动DA标签获取策略CLustering Uncertainty-weightedEmbeddings（CLUE），它识别出一组多样性的目标实例，这些实例具有信息量和代表性（等式4）。首先，基于模型熵，对目标实例的深度嵌入进行重新加权，以强调特征空间中的不确定区域（左图）。接下来，为了选择多样性实例，这些不确定性加权嵌入被聚类，选择每个聚类质心最近的实例进行标记（中间图）。最后，使用获取的目标标签（以及可选的标记源和未标记的目标数据）来更新模型，从而得到良好分类的目标数据（右图）。03.方法0我们解决主动领域适应（ActiveDA）问题，目标是将在源领域上训练的模型推广到无标记的目标领域，并有选择地查询oracle以获取一部分目标实例的标签。虽然这个任务的各个方面 -适应新领域和有选择地获取标签，已经作为领域适应（DA）和主动学习（AL）的问题进行了深入研究，但是主动DA提出了一个新的挑战，即识别目标实例，一旦标记，将在最节省样本的领域对齐中产生最佳效果。此外，这个问题的答案可能会根据特定领域转移的属性而有所不同。在本节中，我们提出了CLUE，一种新颖的主动DA标签获取策略，它在不同的领域转移中表现出一致的良好性能。03.1.符号和准备工作0在主动领域适应（ActiveDA）中，学习算法可以访问源领域的标记实例（Xs，Ys）（图2中的实心粉色），目标领域的无标记实例XUT（图2中的蓝色轮廓）和一个比无标记目标数据量小得多的预算B（=3在图2中）。学习算法可以查询一个oracle，获取最多B个来自XUT的实例的标签，并将它们添加到标记的目标实例集合XLt中。整个目标领域数据是XT =XLt∪XUT。任务是学习一个函数h：X→Y（由Θ参数化的卷积神经网络（CNN）），在目标上实现良好的预测性能。在这项工作中，我们考虑C路图像分类的主动DA -样本xS∈XS，xT∈XT是图像，标签yS∈YS，yT∈YT是分类变量y∈{1,2，..，C}。0主动学习。主动学习（AL）的目标是识别目标实例，一旦标记并用于训练模型，可以最小化其未来的期望损失。在实践中，主动学习的先前工作主要基于两个代理指标，不确定性和多样性，来识别这样的实例（参见第2节）。我们首先在主动领域适应的背景下重新审视这些术语。不确定性。主动学习的先前工作提出使用多种模型不确定性的度量作为信息量的代理（参见第2节）。然而，在主动领域适应的背景下，使用模型不确定性来选择信息量样本存在一个困境。一方面，模型受益于在相关源域上的初始化，而不是从头开始学习。另一方面，在强分布偏移下，模型的不确定性经常被错误校准[39]。然而，不幸的是，没有目标标签的情况下，评估模型不确定性的可靠性是不可能的！多样性。仅基于不确定性获取标签往往导致采样具有高冗余的相似实例的批次，或者采样异常值。主动学习中的另一条平行线提出了在未标记的数据池中采样具有多样性的实例。文献中存在多种“多样性”的定义：一些工作将多样性定义为特征覆盖[35]或“梯度嵌入”空间[2]，而主动领域适应的先前工作通过实例的“类似目标程度”来衡量多样性[40]。在主动领域适应中，通过在相关源域上训练（可选择性地进行无监督领域对齐），某些类别在不同领域之间的对齐要比其他类别好。因此，为了节约成本，避免从已经学习得很好的特征空间区域采样是很重要的。然而，仅基于多样性的主动学习方法无法解决这个问题，会导致采样冗余的实例。H(Y |x) = −C�c=1pΘ(Y = c|x) log pΘ(Y = c|x)(1)d(x) =� 1,if H(Y |x)) ≥ γ0,otherwise(2)p(d(x)=1)=(5)85080虽然采样不确定或多样的实例对于学习可能是有用的，但是对于主动领域适应的最佳标签获取策略应该能够同时捕捉两者。我们现在介绍CLUE，一种同时捕捉不确定性和多样性的主动领域适应标签获取策略。03.2. 聚类不确定性加权嵌入0为了衡量信息量，我们使用预测熵H(Y | x ;Θ)[45]（简写为H(Y | x)），对于C类分类，它的定义如下：0在域偏移下，熵可以被视为同时捕捉不确定性和领域性。我们不是训练一个显式的领域判别器[10,40]，而是考虑一个基于熵阈值的隐式领域分类器d(x)[33]：0其中1和0表示目标和源域标签，γ是一个阈值。因此，一个实例属于目标域的概率由以下公式给出：0log( C ) ∝H ( Y | x ) [ C 为常数 ] (3)0其中log( C)是C类分布的最大可能熵。接下来，我们基于特征空间覆盖度来衡量多样性。设ϕ(x)表示从模型h中提取的特征嵌入。我们通过一个分区函数S : XT → {X1, X2, ...,XK}将XT划分为K个不同的集合。设{µ1, µ2, ...,µK}表示每个集合的中心点。每个集合Xk应该具有较小的方差σ2(Xk)。用样本对的形式表示，σ2(Xk) = 10x i , x j ∈ X k || ϕ ( x i ) − ϕ ( x j ) || 2 [ 48]。目标是将在CNN的特征空间中相似的目标实例分组到一个集合Xk中。然而，虽然σ2(Xk)是目标数据分布和特征空间ϕ(.)的函数，但它没有考虑不确定性。为了同时捕捉多样性和不确定性，我们提出根据它们的不确定性（由公式1给出）对样本进行加权，并计算加权总体方差[28]。整体的集合划分目标是：0argmin S,µ0K �0k =101Zk0x ∈ Xk H(Y | x) || ϕ(x) − µk || 2 (4)0x ∈ Xk H(Y | x)。我们的加权集合划分也可以看作是标准的01 这假设源实例具有较低的预测熵，这通常在监督训练下满足。0算法1CLUE：我们提出的主动DA方法，使用聚类不确定性加权嵌入（CLUE）选择实例进行标记，然后通过半监督领域自适应进行模型更新。01: 需求：神经网络h =f(ϕ(.))，由Θ参数化，标记的源数据（XS，YS），未标记的目标数据XT，每轮预算B，总轮数R。03: 在（XS，YS）上训练源模型Θ1。4:将模型调整到未标记的目标域（可选）。5: 对于ρ =1到R，执行以下操作：6: CLUE：对于所有实例x ∈XT \ XLT：01. 计算深度嵌入ϕ(x)02. 运行加权K-Means直到收敛（Eq. 4）：0(a) 初始化K（=B）个质心{µi}Bi=1（KMeans++）0(b) 分配：0Xk ← {x | k = argmin i=1,...,K || ϕ(x) − µi || 2} �x0(c) 更新：µk ←0�0x 0x ∈ Xk H(Y | x)03. 获取最近邻的标签 XρLT ← { NN(µi) } Bi=104. XLT = XLT ∪ XρLT07: 半监督DA：更新模型Θρ+1。08: 返回：最终模型参数ΘR+1。0在一个替代特征空间中进行集合划分，其中实例的密度人为地与其预测熵成比例地增加。直观地说，这强调了从特征空间的不确定区域进行代表性采样。由于Eq.4的目标是NP-hard问题，我们使用加权K-Means算法[19]（参见算法1-在更新步骤中使用不确定性加权）。我们设置K =B（预算），并使用倒数第二个CNN层的激活作为ϕ（x）。在聚类之后，为了选择代表性实例（即非异常值），我们获取了每个集合µk的加权均值的最近邻的标签。注意，Eq.4等效地最大化了不同集合中实例之间的平方偏差的和[21]，确保构建的实例批次具有最小的冗余性。权衡不确定性和多样性。CLUE捕捉了模型不确定性（通过熵加权）和特征空间覆盖（通过聚类）之间的隐含权衡。考虑实例x的预测概率分布：0pΘ(Y | x) = σ � h(x)0�085090通过增加T，我们可以获得更加模糊的softmax分布，从而导致所有点之间具有类似的不确定性估计；相应地，我们期望多样性发挥更重要的作用。类似地，在较低的T值下，我们期望不确定性具有更大的影响。因此，我们的完整标签获取方法，即聚类不确定性加权嵌入（CLUE），可以识别既不确定又多样的实例（见图2）。领域自适应。在通过CLUE获取标签之后，我们继续进行主动自适应的下一步：使用获取的目标标签以及可选的标记源和未标记的目标数据来更新模型（见图2，右侧）。在我们的主要实验（第4.4节）中，我们尝试了3种学习策略：i）在目标标签上进行微调，ii）通过DANN[10]进行领域对抗学习，并增加目标交叉熵损失，以及iii）通过最小最大熵（MME[33]）进行半监督自适应。在第4.6节中，我们还将CLUE与文献中的其他DA方法相结合。算法1描述了我们在与半监督领域自适应相结合时使用CLUE的完整方法。给定在标记的源实例上训练的模型，我们通过无监督领域自适应将其表示与未标记的目标实例对齐。对于每轮预算为B的R轮，我们迭代地i）获取通过我们提出的采样方法（CLUE）确定的B个目标实例的标签，并ii）使用半监督领域对齐策略更新模型。04.实验0我们首先描述我们的数据集和度量标准、实现细节和基线（第4.1-4.3节）。接下来，我们将CLUE在6个不同难度的领域转移中与最先进的主动领域适应和主动学习方法进行性能基准测试，涵盖不同的学习设置（第4.4节）。然后，我们对我们的方法进行消融实验，分析其对各种超参数的敏感性，并可视化其行为（第4.5节）。最后，我们将我们的方法与各种领域适应策略相结合，并研究其在从头开始学习中的有效性（第4.6节）。我们遵循标准的批量主动学习设置[4]，其中我们进行多轮批量主动采样、标签获取和模型更新。04.1.数据集和度量标准0DomainNet。DomainNet[27]是一个用于图像分类的大型领域适应基准，包含来自6个不同领域的345个类别的60万张图像。我们研究了4个难度逐渐增加的转移，根据源→目标转移准确性（TA）进行衡量：真实→卡通画（容易，TA=40.6%），卡通画→素描（中等，TA=34.7%），素描→绘画（困难，TA=30.3%）和卡通画→速写（非常困难，TA=11.9%）。DIGITS和Office。我们还报告了SVHN[26]→MNIST[22]和DSLR→Amazon[32]转移的性能。0度量标准。我们计算模型在目标训练集的每一轮使用的标签数量上的准确性。我们每个实验运行3次并报告平均准确性。为了清晰起见，我们在主要论文中报告了3个随机选择的中间预算的性能，并在补充材料中包含完整的图表（平均准确性和所有轮次的1个标准差）。4.2.实现细节0DomainNet。我们使用ResNet34[16]卷积神经网络，在每一轮进行10轮主动领域适应，并随机选择每轮的预算=500个实例（总共5000个标签）。在DomainNet上，我们使用卡通画→素描转移作为验证转移，并使用一个小的目标验证集来选择softmax温度为T=0.1，我们在所有其他DomainNet转移中都使用该温度（详见补充材料）。我们在第4.5节中对T和B进行了敏感性分析。DIGITS。我们将实验设置与Su等人[40]相匹配：我们使用修改后的LeNet架构[17]，并进行30轮主动领域适应，B=10。Office。我们使用ResNet34卷积神经网络，并进行10轮主动领域适应，B=30。在DIGITS和Office上，我们使用T=1.0的默认值。在所有数据集上，我们使用倒数第二层的嵌入进行CLUE，并使用K=B实现加权K均值。所有模型首先在有标签的源领域上进行训练。当通过半监督领域适应进行适应时，我们还在第0轮使用无监督特征对齐到目标领域。有关更多详细信息，请参见补充材料。4.3.基线0我们将CLUE与几种最先进的主动领域适应和主动学习方法进行比较。1）AADA：主动对抗领域适应[40]（AADA）是一种最先进的主动领域适应方法，它通过DANN[11]进行交替的主动采样和对抗领域适应。它通过领域鉴别器预测的高预测熵和高概率属于目标领域的点进行采样。此外，我们还对主动领域适应设置中的4种不同的主动学习策略进行了性能基准测试。2）熵[45]：选择模型具有最高预测熵的实例。3）边界[30]：选择模型前两个预测之间得分差异最小的实例。4）核心集[35]：核心集将主动采样形式化为一个集合覆盖问题，并解决K-Center[46]问题。我们使用Sener等人[35]提出的贪婪版本。5）BADGE[2]：BADGE是一种最近提出的最先进的主动学习策略，它通过在包含模型不确定性和多样性的“梯度嵌入”上运行KMeans++[1]来构建多样化的批次。方法（2）和（3）是基于不确定性的，（4）是基于多样性的，（1）和（5）是混合方法。iate85100DA方法 AL方法 AL R → C（简单） C → S（中等） S → P（困难） C → Q（非常困难） AVG 类型 1k 2k 5k 1k 2k 5k 1k 2k 5k 1k 2k 5k 1k 2k 5k0从源域进行微调0均匀采样 - 51.5 55.3 60.6 42.1 44.4 47.0 41.1 43.8 47.2 23.3 28.1 35.3 39.5 42.9 47.5 熵采样 [45] U 48.1 52.1 58.6 41.1 42.7 45.741.2 43.8 47.2 21.9 26.4 34.0 38.1 41.3 46.4 间隔采样 [30] U 51.0 54.8 60.7 42.3 44.3 47.0 41.4 44.0 47.1 23.6 28.4 35.8 39.6 42.947.7 核心集采样 [35] D 50.0 54.0 59.6 41.2 42.8 44.9 40.1 42.2 45.4 22.4 26.0 32.4 38.4 41.3 45.6 BADGE [2] H 52.4 56.1 61.7 42.845.2 48.1 41.7 44.9 47.9 23.1 28.2 35.5 39.8 43.6 48.30CLUE (我们的方法) H 52.9 57.1 62.0 43.3 45.8 48.6 42.4 45.3 48.3 24.3 28.8 35.5 40.7 44.3 48.60MME[33]从源域0均匀采样 - 55.2 59.3 63.5 45.7 47.8 49.7 42.9 45.3 47.8 24.5 30.3 38.1 42.1 45.7 49.8 熵采样 [45] U 53.8 58.6 64.4 44.2 45.7 48.541.6 43.9 47.2 21.9 25.7 32.8 40.4 43.5 48.2 间隔采样 [30] U 55.6 60.7 65.7 46.0 48.1 50.8 42.2 44.8 48.2 23.1 28.3 36.6 41.7 45.550.3 核心集采样 [35] D 54.3 59.1 64.6 45.1 46.7 48.9 42.4 44.2 47.1 23.9 27.8 34.3 41.4 44.5 48.7 BADGE [2] H 56.2 60.6 65.7 45.848.2 50.7 43.1 45.7 48.7 24.3 29.6 38.3 42.4 46.0 50.90CLUE (我们的方法) H 56.3 60.7 65.3 46.8 49.0 51.4 43.7 46.5 49.4 25.6 31.1 38.9 43.1 46.8 51.30DANN [10] AADA [40] H 53.2 57.4 62.8 44.8 46.5 49.2 41.3 43.5 46.1 21.9 25.8 32.4 40.3 43.3 47.60从源域CLUE (我们的方法) H 54.6 58.9 63.8 45.3 47.9 50.8 43.2 45.5 48.3 24.4 29.2 35.4 41.9 45.4 49.60表1：在4个DomainNet转换上的目标测试集准确率，难度逐渐增加，跨越5个领域：真实（R）、剪贴画（C）、素描（S）、绘画（P）和快速绘图（Q）。我们进行了10轮主动DA，B=500，并在3个中间轮次报告结果（详细图表请参见补充材料），以及4个转换的平均值（AVG）。我们将CLUE与AL的最先进方法（熵采样[45]、间隔采样[30]、核心集采样[35]、BADGE[2]）和主动DA（AADA）进行比较，涵盖了不同的AL范式：不确定性采样（U）、多样性采样（D）和两者的混合（H）组合。我们使用多种学习策略：微调（ft）、MME [33]（半监督DA的最先进方法）和通过DANN[10]进行的半监督DA。最佳性能以粗体显示，灰色行表示我们的方法。0DA方法 AL方法 SVHN → MNIST DSLR → Amazon 30 60 150 30 60 1500从源域进行微调0均匀采样 77.7 88.2 95.2 54.3 58.0 67.5 熵采样 [45] 65.8 75.692.9 51.2 52.4 59.1 间隔采样 [30] 82.0 89.3 95.5 52.4 54.465.5 核心集采样 [35] 71.6 76.5 87.9 53.9 55.8 67.2 BADGE[2] 78.7 88.2 95.2 55.8 59.2 71.00CLUE (我们的方法) 83.9 89.4 94.5 56.4 60.5 70.50MME[33]从源域0均匀采样 85.5 91.2 95.0 58.3 61.7 70.0 熵采样 [45] 81.3 85.793.9 54.9 56.5 66.2 间隔采样 [30] 88.4 91.5 96.6 54.7 58.570.6 核心集采样 [35] 85.8 89.1 94.6 57.7 61.0 70.5 BADGE[2] 89.9 93.1 96.4 58.2 61.6 71.30CLUE (我们的方法) 91.1 93.9 96.2 60.2 65.6 72.70DANN [10] AADA [40] 88.8 90.7 95.4 54.2 56.6 65.40从源域CLUE (我们的方法) 90.9 93.1 95.3 59.1 64.5 72.10表2：在3个中间预算（30、60、150）下，目标测试集上的主动DA准确率：中间：30轮，从SVHN→MNIST（DIGITS）中的B=10。右侧：10轮，从DSLR→Amazon（Office）中的B=30。最佳性能以粗体显示，灰色行表示我们的方法。详细图表请参见补充材料。04.4. 结果0我们在存在领域偏移的情况下，通过三种学习方式评估了所有方法，并使用获取的标签进行学习：1）从源域进行微调：使用获取的目标标签对在源域上训练的模型进行微调。2）从源域进行MME[33]：最小化对抗熵损失以实现无监督领域对齐，并在标记的源域和目标域数据上进行微调的半监督DA方法。表1和表2展示了我们在DomainNet、DIGITS和Office上的结果。我们得出以下观察结果：0�对于主动领域自适应来说，不确定性和多样性采样效果较差，甚至经常不如随机采样。仅基于不确定性的方法（例如margin [30]）在相对较容易的转换（R → C通过MME，SVHN→MNIST）上效果很好，但总体上我们发现基于不确定性（margin，entropy）和基于多样性（coreset）的方法在具有挑战性的转换（例如S → P，C →Q）上泛化能力较差，甚至经常不如随机采样！另一方面，结合不确定性和多样性的混合方法（CLUE和BADGE）在转换难度上具有通用性。0�在主动领域自适应设置中，CLUE优于先前的AL方法。在学习策略、转换、基准测试和大多数轮次上，CLUE始终表现最佳。在4个DomainNet转换上平均，当微调时，CLUE在B=2k时的性能优于基于margin的不确定性采样和基于coreset的多样性采样1.4％和3％，在通过MME进行自适应时优于1.3％和2.3％（表1）。类似地，当微调时，CLUE在B =2k时优于次佳方法BADGE0.7％，通过MME优于0.8％（4个转换的平均值）。BADGE[2]也是一种混合AL方法，它结合了不确定性和多样性采样，但它是通过在高维的“梯度嵌入”空间中进行聚类（在C→S上使用ResNet34的维度约为176k，而CLUE使用的是512维的嵌入，详细信息请参见表3），在这种空间中，基于距离的多样性度量可能不太有意义，因为维度的诅咒。我们在这里指出，DomainNet是一个复杂的基准测试，有345个类别和显著的标签噪声，这通常导致相对较小的绝对改进幅度；然而，我们的结果证明了CLUE的通用性。85110entropy0coreset0CLUE00 1 2 3 4 5 6 7 8 9 源目标0图3：SVHN →MNIST：我们在第0轮之后可视化目标域上一部分错误（大的不透明圆圈）和正确（部分透明圆圈）的模型预测的逻辑回归，以及不同方法采样的示例。entropy [45]（左）获取了冗余样本，而coreset[35]（中）没有考虑已经在域之间对齐良好的特征空间的区域。CLUE（右）从具有高度不确定性的密集区域构建了不同的样本批次。0在不需要特定调整的情况下，跨多个转换中进行训练。在DIGITS 和 Office 上，CLUE的收益更为显著（表2）。例如，在 SVHN → MNIST上，当B = 30时，CLUE在微调时相比于margin、coreset和BADGE分别提高了1.9％、12.3％和5.2％，在DSLR →Amazon上提高了4％、2.5％和0.6%。�在主动领域自适应设置中，额外的无监督自适应有助于改善性能。在所有AL方法中，我们观察到MME的自适应性始终优于微调（例如，在DomainNet上准确率提高了2.4-2.7%）。�CLUE在主动领域自适应方法AADA方面明显优于现有技术。AADA[40]通过使用通过DANN[10]学习的域分类器来获取标签。因此，在FT和MME设置中未定义。为了进行公正的比较，我们在表1和表2的最后两行报告了CLUE + DANN的性能。如图所示，CLUE +DANN在DomainNet上始终优于AADA，例如，在DomainNet上提高了0.4％-2％。此外，我们发现我们的方法与AADA[40]之间的性能差随着转换难度的增加而增加，因为预测的不确定性变得越来越不可靠（在非常困难的C →Q转换上，B =2k时提高了3.4%）。我们在DIGITS和Office（表2）基准测试中也观察到与AADA相比的改进，例如，在B =60时提高了2.4％和7.9％。此外，我们最好的CLUE +MME策略进一步提高了性能，例如，在DomainNet上B =2k时提高了3.5％，在Office上B =60时提高了9％！如第3节所讨论的，最佳的标签获取准则可能因转换和训练阶段而异，因为模型的不确定性估计和特征空间会发生变化，而单一方法很难始终表现良好。尽管如此，CLUE通过权衡不确定性和多样性来可靠地推广到各种转换。04.5.分析和消融CLUE0通过t-SNE可视化CLUE。我们使用t-SNE[25]提供了一种比较采样策略的说明性比较。图30在SVHN→MNIST转换上，展示了初始特征景观以及熵-基于不确定性采样、多样性-基于核心集采样和CLUE在第0轮的点选择。我们发现熵[45]（左侧）采样了不确定但多余的点，核心[35]采样了多样但不一定不确定的点，而我们的方法CLUE既采样了多样又不确定的点。在补充材料中，我们包括了几轮的可视化，并发现CLUE始终从特征空间中密集且不确定的区域选择多样的目标实例。在CLUE中变化的不确定性度量。在图4a中，我们考虑了C→S转换上CLUE的替代不确定性度量。我们展示了我们提出的使用样本熵的方法明显优于均匀样本权重，并且在替代不确定性度量-样本边缘得分（前两个最可能类别的分数之差）方面略优于它。这说明了使用不确定性加权来使CLUE偏向于信息丰富的样本的重要性。我们还进行了实验（未显示），使用最后一层嵌入（而不是倒数第二层）进行CLUE，并观察到在多个转换中几乎相同的性能，这表明CLUE对这个选择不敏感。对参数的敏感性。在图4中，我们测量了CLUE对两个参数的敏感性：softmax温度超参数T和实验参数预算B。i）对softmax温度T的敏感性。回顾第3节，通过调整CLUE中的softmax温度，我们可以在不确定性和多样性之间进行权衡。如图4b所示，我们对CLUE在C→S上使用的温度值进行了扫描。如图所示，较低的温度值（强调不确定性的作用）提高了性能，特别是在后期轮次，不确定性估计更可靠时。我们注意到，T是一个可选的超参数，如果有一个小的目标验证集可用，可以进行调整，但是即使在T=1.0的默认值下，CLUE在DIGITS、Office和DomainNet上都获得了强大的最新结果。在DomainNet上，我们进一步提高了性能404244464850524042444648505240424446485052363942454851851200 1k 2k 3k 4k 5k0#来自素描训练的标签0素描测试准确率0剪贴画素描0wt=entropy（我们的）wt=margin wt=uniform0(a)在CLUE中变化的不确定性度量。00 1k 2k 3k 4k 5k0#来自素描训练的标签0素描测试准确率0剪贴画素描0T=0.1T=0.5T=1.0T=2.0T=5.00(b)测量CLUE对温度T的敏感性。00 1k 2k 3k 4k 5k0来自素描训练的标签0素描测试准确率（%）0剪贴画素描0B=100B=500B=1000B=25000(c)测量CLUE对预算B的敏感性。00 1k 2k 3k 4k 5k0#来自素描训练的标签0素描测试准确率0剪贴画素描0MMEMMDDANNVADAENTfinetune0(d)在CLUE采样时改变DA方法。0图4：(a)，(b)，(c)：在C→S上消融和分析CLUE。(d)：将不同的DA策略与CLUE相结合在C→S上。最佳观看颜色。我们进行了10轮B=500的主动DA，并报告了3次运行的准确度均值和1个标准差（通过阴影）。0通过在单个C→S转换上进行网格搜索选择T=0.1，发现它可以推广到其他DomainNet转换。ii）对预算B的敏感性。我们现在改变每轮的预算（因此也改变了主动适应的总轮数），并报告在剪贴画→素描转换上的性能。如图4c所示，CLUE在预算值为100、500、1k和2.5k时表现良好。我们还观察到在SVHN→MNIST转换上使用不同预算（B=30）时的一致性性能（详细信息请参见补充材料）。时间复杂度。表3显示了在SVHN→MNIST和C→S上的平均情况复杂性和每轮AL查询时间。由于（CPU）聚类步骤，CLUE和BADGE的准确性最高，运行速度较慢。CLUE可以通过GPU加速进一步优化，使用最后一层（而不是倒数第二层）的嵌入，或在聚类之前对数据进行预过滤。0AL策略查询复杂度查询时间（DIGITS，C → S）0fwd +cluster0CLUE (我们的方法) O(tNBD) (60s, 16.2m)BADGE [2] O(NBDC) (103s, 16.3m) c

下载后可阅读完整内容，剩余1页未读，立即下载