基于任务分解的半监督域自适应的论述中总结出的20字中文标题是：“协同训练的半监督域自适应方法”

43 浏览量更新于2023-10-13 收藏 1.13MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8906基于任务分解的半监督域自适应杨鲁豫1、王艳2、高明飞3、Abhinav Shrivastava1， Kilian Q.Weinberger2， Wei-Lun Chao4， Ser-NamLim51马里兰大学2康奈尔大学3Salesforce Research4俄亥俄州立大学5Facebook AI摘要SSDA半监督域自适应（SSDA）旨在将从标记源域训练的模型适应到不同但相关的目标域，从中提供未标记数据和一小组标记数据。目前的方法不加区别地对待源和目标监督，忽视了它们之间的内在差异，导致源主导模型没有有效地利用目标监督。在本文中，我们认为，标记的目标数据需要区分有效的SSDA，并提出显式地将SSDA任务分解为两个子任务：目标域中的半监督学习（SSL）任务和跨域的无监督域自适应（UDA）任务。通过这样做，两个子任务可以更好地利用对应的监督，从而产生非常不同的分类器。为了整合两个分类器的优势，我们应用了建立良好的协同训练框架，其中两个分类器交换其高性能。SSLCo-trainingUDA置信预测迭代地“互相教导”，使得两个分类器都可以在目标域中表现出色。我们称我们的方法为Deep Co-training with Task decomposition（DECOTA）。DECOTA不需要对抗训练，易于实现。此外，DECOTA是有充分根据的理论条件时，合作培训将取得成功。因此，DECOTA在几个SSDA数据集上实现了最先进的结果，在DomainNet上的表现明显优于现有技术4%。代码位于https://github.com/LoyoYang/DeCoTa网站。1. 介绍域自适应（DA）旨在将机器学习模型从源域调整到相关但不同的目标域[4，14，53，13]。DA在标记目标数据难以获得，但标记源数据丰富的情况下尤其重要[63，41，21]，例如，改编自图1：具有Task分解的深度协同训练（DECOTA）。我们将半监督域自适应（SSDA）分解为两个子任务：目标域中的半监督学习（SSL）这两个子任务为未标记数据（浅蓝&色和红色圆圈）提供了不同的伪标签置信度，我们通过共同训练来利用这些置信度：交换他们高度自信的预测来互相教导。合成真实图像[21，55，48，47，56]和适应新的或罕见的环境[10，69，54，9]。现有的大多数工作集中在无监督域自适应（UDA）设置，其中目标域是完全无标记的。然而，最近的几项工作表明，仅添加极少量的目标标记数据（例如，每个类别只有一个标记的图像）可以显着提高性能[51，26，45，1，31，30，12，74]，这表明这种设置可能更有希望使域适应成功。因此，在本文中，我们专注于后者的设置，这被称为半监督域自适应（SSDA）。标记源标记目标分类器未标记的靶伪标记靶8907尽管这两种设置之间存在看似细微的差异，但对SSDA和UDA有效的方法可能会有很大的例如，[51]表明，直接组合标记的源数据和标记的目标数据，然后应用流行的UDA算法，如域对抗学习[13]或熵最小化[16]，很难提高性能。换句话说，标记的因此，现有方法[51，45，26]提出了额外的目标，以加强SSDA中标记目标数据的影响。感兴趣的这些发现，我们调查的特点SSDA进一步强调两个根本的挑战。首先，标记的源数据的量远大于标记的目标数据的量。其次，这两个数据在分布上本质上是不同的与两个监督源一起学习的单个分类器因此容易被标记的源数据支配，并且不能利用附加的标记的目标数据。为了解决这个问题，我们建议明确分解两个监督源，并学习两个不同的分类器，但它们的目标是共享的：对未标记的目标数据进行分类。为此，我们将标记的源数据和未标记的目标数据配对以学习一个分类器，这本质上是一个UDA任务。对于另一个分类器，我们将标记和未标记的目标数据配对，这本质上是一个半监督学习（SSL）任务。也就是说，我们明确地将SSDA分解为两个经过充分研究的任务。对于每个子任务，可以独立地应用任何现有然而，在本文中，我们调查的想法，学习两个分类器联合两个令人信服的原因。首先，这两个任务共享相同的目标和相同的未标记数据，这意味着它们是相关的。第二，使用不同的标记数据进行学习意味着两个分类器在它们所犯的错误类型以及它们在哪些样本上是自信和正确的方面会有不同的收敛，这意味着它们是互补的。因此，我们建议通过共同训练来联合学习这两个分类器[6，2，8] 1，这可以说是多视图学习的最成熟的算法之一：在我们的例子中，是两个相互关联和互补的任务。方法很简单：使用每个任务的标记数据训练一个单独的分类器，并使用它们为未标记的数据创建伪标签。由于这两个分类器是在不同的监督下训练的，因此它们将产生不同的预测。特别地，将存在只有一个分类器对其有信心（并且更可能是正确的）的样本通过用置信分类器的预测标记这些样本并将它们添加到另一分类器的训练集中以进行重新训练，两个分类器基本上为此，我们采用了一种简单的基于伪标记的算法和深度学习，1我们注意到，联合培训[6]和联合教学[17]有着相似的概念，但本质上是不同的。见讨论2。类似于[5]，以训练每个分类器。基于伪标记的算法已经被证明对于UDA和SSL任务都是强大的[70，27]。换句话说，我们可以对两个子任务应用相同的算法，大大简化了我们的整体框架，我们将其命名为DECOTA：DeepCo-training withTask Decomposition（图1给出了说明）。我们在SSDA的两个基准数据集上评估D E C O TA：DomainNet [41]和Office-home [66]。虽然实现起来非常简单，并且没有任何对抗性训练[51，45]，但DECO TA在DomainNet上的表现明显优于最先进的结果[45，26]超过4%，并且和他们在办公室和家里的水平一样我们认为这是经验证据表明，我们的任务分解符合理论条件的reelaxed可扩展性[8，2]，这是足够的共同训练成功。DE CO TA的另一个优点是它不需要像特征分解这样的额外学习过程来从数据中创建视图[8，44，7]。据我们所知，我们的论文是第一篇在SSDA上实现深度学习和联合训练的论文。本工作的贡献如下。(1)我们明确地分解两个非常不同的源的监督，标记的源和标记的目标数据，在SSDA。(2)我们提出了DE CO TA，这是一种简单的基于深度学习的协同训练方法，用于SSDA联合学习两个分类器，每个分类器用于一个监督。（3）我们提供了中间结果和见解，说明了为什么DE CO TA有效。具体来说，我们表明DE COTA满足协同训练的可扩展性要求[2]（4）最后，我们支持这项工作具有强有力的经验结果，其表现优于现有技术。2. 相关工作无监督域自适应（UDA）。UDA已被广泛研究。许多方法[33，57，65]通过最小化其散度来匹配域之间的特征分布。一种主流方法是领域对抗学习[13，21，68，40，67，71，69，73]。更最近的工作[52，53，29，57]基于聚类假设[16]学习特征：分类器边界不应跨越高密度目标数据区域。例如，[52，53]试图使用极大极小训练将目标特征推离边界。其他一些方法采用具有伪标记的自训练[28，37，38，3]来逐步标记未标记的数据并使用它们来微调模型[7，25，78，24，62，32，23，27]。一些最近的方法使用MIXUP [76]，但主要是为了增强基于对抗学习的UDA方法（例如，[13]）通过稳定域鉴别器[61，71]或平滑预测[36，72]。相比之下，我们应用MIXUP来创建更好的伪标记数据用于共同训练，而无需对抗学习。半监督域学习（SSDA）。SSDA在DA中吸引的关注较少，尽管它在平衡准确性和标记工作方面有希望。在几乎没有标记目标数据的情况下，SSDA可以快速重塑类边界，以提高8908i=1i=1i=1b=1b=1b=1CC--|·准确性[51，45]。在深度学习之前提出了许多SSDA工作[74，31，20，42]，在保持标记目标数据准确性的同时匹配特征。[1，64]采用知识蒸馏[19]来规范标记目标数据的训练最近的工作使用深度学习，并发现对齐特征分布的流行UDA原则可能无法学习SSDA中的判别类边界[51]。[51]因此建议以极大极小的方式逐渐将类原型（用于导出类边界）移动到目标域;[45]引入了对置结构学习来聚类目标数据并分散源数据以平滑学习类边界的过程。两个作品[45，51]和[26]都将目标标记数据与源数据连接起来以扩展标记数据。[30]引入元学习以在域适应中搜索更好的初始条件。SSDA也与[60，43]相关，其中主动学习被并入标记数据以用于改进域适应。共同训练。协同训练是[ 6 ]中提出的一种强大的半监督学习（SSL）方法，它使用两个视图查看可用数据，从中交互地训练两个模型。通过将一个模型的置信预测添加到另一个模型的训练集，协同训练使模型能够有几个假设来确保共同训练的有效性[6 ]，这些假设后来被[ 2 ]与可扩展性的概念联系起来。[8]通过学习将固定的特征表示分解为两个人工创建的视图，将协同训练的范围扩大到单视图设置;[7]随后扩展了这个框架，将协同训练用于（半监督）域自适应2。最近的一项工作[44]将协同训练扩展到深度学习模型，鼓励两个模型学习不同的特征，并在单视图数据上表现不同DE CO TA的一个新颖之处在于，它适用于单视图数据（UDA和SSL任务都在查看图像），但不需要额外的学习过程，如特征分解，以人为地从这些数据中创建视图[8，44，7]。联合培训与合作教学联合教学[17]被提出用于使用噪声数据进行学习，其通过学习两个模型来过滤彼此的噪声数据，与联合训练它们之间有几个关键的区别，而DE CO TA是基于共同训练的。与[17]一样，联合教学是为带有噪声标签的监督学习而设计的，而联合训练是通过利用两个视图来学习DE CO TA将SSDA分解为两个任务（两个视图），以利用它们的差异来提高性能-协同训练的核心概念[7]。相比之下，合作教学不需要两种观点。此外，协同教学依赖于神经网络的记忆来选择小的损失样本来教导其他分类器，而DE CO TA从未标记的数据中选择高置信度的分类器。2类似于[45，51]，[7]简单地将目标标记数据与源数据以扩展标记数据。3. 基于任务分解的深度协同3.1. 方法概述传统上，联合训练策略被应用于具有两个视图的数据，例如，音频和视频，或具有HTML源和链接图的网页，之后在每个视图中训练分类器，并且它们在未标记的数据上相互教导。这是Blum和Mitchell [6]的原始公式，后来由[8]扩展到线性模型的单视图数据，并由[44]扩展到深度神经网络。两种方法都需要附加的目标函数或任务（例如，通过生成对抗性示例[15]）来学习创建人工视图，以便可以应用协同训练。然而，在本文中，我们发现在半监督域自适应（SSDA）中，实际上可以使用单视图数据（全部是图像）进行协同训练，而无需这样的额外学习子例程。关键是利用标记数据的固有差异（即，SSDA中提供的标记数据（例如，SSDA中提供的监督）：来自源域的标记数据 DS={ （ si ，yi）}NS，以及来自目标域的标记数据DT={（ti，yi）}NT，其通常比DS小得多。通过结合每一个将它们与来自靶域的未标记样品进行DU={ui}NU，我们可以在SSDA中构造两个子任务• -无监督域自适应（UDA）任务，其使用D_S和D_U训练模型w_g，• 使用DT和DU训练另一模型wf的半监督学习（SSL）任务。我们通过小批量随机梯度下降（SGD）来学习这两个模型。在每次迭代中，我们采样三个数据集，S={（sb，yb）}B由DS，T={（tb，yb）}B从DT，并且U=ubBfrom DU，其中B是小批量大小。然后，我们可以使用两个模型wg和wf，创建将用于更新wf和wg的伪标签集合U（f）和U（g），U（f）={（ub，y <$b= arg max p（c|ub; wg））;如果m×p（c|ub;wg）>}，U（g）={（ub，yb= arg max p（c|ub;wf））;如果m×p（c|ub;wf）>}，（1）其中，Ub是从U中提取的未标记样本，p（cubi）是类别c的预测概率，并且是伪标记选择的阈值。换句话说，我们使用一个模型通过联合观察U（f）和U（g），我们确实要求一个模型同时是老师和学生：它为另一个模型提供了自信的伪标签来学习，并从另一个模型的自信伪标签中学习CC8909b=1更新Lwg←wg-）rL（wg，S）+ rL（wg，U我我i=1S算法一：DECOTA算法输入：wf和wg，学习率ψ，批量大小B，迭代Nmax，贝塔分布系数ψ，置信阈值ψ，数据DS，DT，DU;forn←1toNmaxdo目标！源样本S={（sb，yb）}B样本T={（tb，yb）}B从DS，从DT，(a)(b)（c）第（1）款图2：S的t-SNE可视化（红点，从D采样）样品b=1B;U={ub}b=1从DU设U （f）=;，U （g）=;;forb←1 toB do如果maxcp（c|ub;wg）>则更新U （f）←U （f）+{（ub，y（b）}，和U（蓝点，从DU采样）：（a）在计算投影中包括M × UP之前和（b）在计算投影中包括M×UP之后;（c）S、U和MIXUP（S，U）的t-SNE。我们看到沿λ的明显数据转变。我们执行M U介于标记和伪标记yb=argmaxp（c|ub;wg）;IX P端如果麦克斯Cp（c |u;w）>则数据：即，在U（f）和T中的样本之间，以及在U（g）和S中的样本之间，以获得两组虚拟示例c bf~（f）~（g）更新U （g）←U （g）+{（ub，y（b）}，U和U. 然后我们通过SGD更新wf和wg，yb=argmaxcp（c|ub;wf）;（g）端获得U〜（f）={MIXUP（U （f），T;）}|U（f）|;wf←wf-rL（wf， T） +rL（wf，U~ （f）），获得U〜（g）={MIXUP（U （g），S;）}|U（g） |;更新iii=1其中是学习率，是平均损失例子.我们使用交叉熵损失。端wf←wf-rL（wf， T） +rL（wf，U~（f））;wg←wg-rL（wg，S） +rL（wg，U~（g））;在我们的实验中，我们发现MIXUP可以• 通过将不正确伪标签与正确伪标签（来自S或T）混合来有效地对不正确得到的y~至少包含λ部分的正确标记;输出：wf和wg（用于模型集合）。我们称这种方法为DE CO TA，它代表Deep Co-training with Task Decomposition。在下文中，我们将讨论如何提高伪标签质量（即其覆盖范围和准确性），并深入分析了DE CO TA工作原因。3.1.1具有高质量伪标签的DE CO TA从每个模型获取的伪标签是可理解的噪声。在训练开始时，这个问题特别严重，并且随着训练的进行影响模型的功效我们的经验表明，缓解对于处理伪标签中的噪声以进一步增强DE CO TA是必要的，为此，我们遵循 SSL [5] 的最近工作以应用 MIXUP [76 ， 35] 。MIXUP是一种通过凸组合构造虚拟实例的操作。给定两个标记的例子（x1，y1）和（x2，y2），我们定义MIXUP（（x1，y1），（x2，y2）;n）λ<$Beta（λ，λ），x=（1-λ）x1+λx2，y=（1-λ）ey1+λey2（二）以获得虚拟e示例（x~，y~），其中ey是第y个元素为1的独热向量λ控制MIXUP的程度，而β是指标准β分布。• 平滑地弥合美国和美国之间的领域差距。这通过在U（ g ）和 S 之间插值来完成。由此产生的 x{\displaystylex}可以看作域之间的中间示例换句话说，MIXUP鼓励模型在准确标记的数据和伪标记的数据之间线性地表现，这减少了由噪声伪标记引起的不期望的振荡，并稳定了跨域的预测。我们注意到，我们对MIXUP的使用与[61，71，36，72]根本不同，[ 61，71，36，72 ]采用MIXUP作为辅助损失来增强现有的DA算法，如[13]。我们在图2中对此进行了说明。在DS用于生成特征嵌入。然后，我们使用t-SNE [34]同时执行两项任务，即对嵌入的样本进行聚类，并将其投影到2D空间中进行可视化。在（a）中，仅嵌入从DS采样的S和从DU采样的U，而在(b) 和（c），将来自M×UP的S和U的另外的样品加入到折叠中以影响t-SNE(b)仅示出了之后的最终投影的S和U样本，而（c）示出了作为λ的函数的附加投影的M ×UP样本。可以容易地看出，MIXUP有效地闭合了源域和目标域之间的间隙。我们在算法1中总结了我们提出的算法。3.2. 有效联合训练在DE CO TA中，我们通过对单视图数据的任务为了进一步解释为什么端、（3）8910（||||||XX(a)（b）（c）（d）图3：两任务分解的分析。我们使用DomainNet [41]（Real to Clipart;三次拍摄）。（a）我们展示了两个模型都具有高置信度的测试示例的数量，确切地说是一个，并且没有一个模型具有高置信度（总共18，325）。这两项任务拥有独特的专业知识（即，有14%的数据部分，恰好一个视图是可信的），满足等式（1）中的共同训练的条件。（六）、（b）我们展示了联合训练的力量：没有联合训练的相同任务表现更差，表明模型相互受益详见第3.2。分析是在DomainNet（R到C;三个镜头，我们会澄清的。我们进一步分析（c）和（d）中的伪标签。对于每1K次迭代（即，24K未标记数据，可能重复），我们累积具有置信度（>0. 5）并且通过至少一个分类器校正预测详情见第4（c）使用DECOTA与MIST的伪标记数量和质量的比较。（d）MIST与自训练（S+T+伪U）。可以观察到，DECOTA具有最大数量的正确伪标签。DE CO TA工作，我们在本小节中分析了将SSDA问题分为两个任务进行联合训练所产生的差异也就是说，我们想验证分解导致两个任务符合共同训练的假设[2]。首先，我们训练两个模型：一个模型wS用S和U~ （S）训练，而另一个模型w S用S和U ~（S）训练。模型wT用T和U~ （T）训练。 U~ （S）是通过将wS应用于U以用于伪标签，随后是M IXUP与S而获得的。同样的定义也适用于U~ （T）。基本上，两者都UDA和SSL任务在类似于自训练过程中使用它们各自的模型独立地准备它们自己的伪标签[28，37，38，3]。训练后，我们将wT应用于整个DU，并为每个u2DU计算二进制置信度指标我们在DomainNet [41]上进行了研究，其中我们使用 Real 作为源， Clipart 作为目标。 (See 详情见第 4节。）我们考虑一个126类的分类问题，其中DS=70，358，DU=18，325，和DT=378（即，其中目标域中的每个类被给予三个标记样本的三次设置）。我们用在DS上预训练的ResNet [ 18 ]初始化wS和wT，并评估等式（1）。(4) 和等式(5) 每500次迭代（其中α=0. 5选择伪标签的置信度阈值）。图图3（a）示出了结果。这两种模式确实各有特色（即，产生不同的高置信度预测）。即使在训练结束时，也有14%的数据是一个模型有信心的，而另一个模型没有信心（蓝色曲线）。因此，如果我们能够在训练过程中适当地融合它们的特性-一个模型为数据提供伪标签h（u）= 1如果m×cp（c|u;wT）>，T0否则。（四）另一个模型是不确定的-我们很可能最终共同学习更强的模型。这正是我们共同培训方案的核心理念在这里，高置信度示例将获得值1，否则0的情况。我们还将wS应用于DU以获得hS（u）。用h¯T（u）=1-hT（u）表示hT（u）的非函数，我们计算以下三个指标来总结整个DU从理论上讲，这两个“视图”（或者，在我们的情况下是任务）必须满足某些条件，例如，可扩展性[2]。[8，7]放松了它，只需要扩展条件在未标记集合中平均保持不变，可以公式化为h两者：XhT（u）hS（u），如下，使用h两，h一和h没有一u2DUh一：u2DUh无：u2 DUhT（u）h¯S（ u） +h¯T（ u）hS（ u），（5）h¯T（u）h¯S（ u），hone≥ min（hboth，hnone）。（六）为了满足Eq. 6.必须有足够的例子，前一个模型是有信心的，使两个模型可以受益于教学对方。再次参考图3（a），我们的两个任务在完成任务之后始终保持在2左右对应的例子的数量，这两个，正是一个，并且没有一个模型分别具有高置信度直观地说，如果两个模型完全相同，则hone将为0，这意味着它们在一个示例上要么都有信心反之，如果两个模型优化得很好，但又保持各自的特点，则hone和hno都将是高值，而hno将是低值。8911前500次迭代（即，在模型开始学习特定任务的特质），这表明将联合训练应用到分解中。图3（b）中清楚地示出了联合训练的能力。没有共同训练的两个模型wT和wS比它们的共同训练对应物wf和wg表现更差（参见第3.1节，等式3.1）。(1)，方程式(3)），甚至使用相同的架构和数据。8912⇢表1：与DomainNet上SSDA的深度协同训练方法[44]进行比较，3次。（详见第4。）方法R到CR与PP到CC至SS至PR与SP至R是说深度联合训练[44] w/o MIXUP73.767.673.263.966.764.179.369.7深度联合训练[44]与MIXUP74.269.172.364.167.965.179.470.3DE COT80.475.278.768.672.771.981.575.63.3. 与其他联合训练方法与我们的方法概述，这是值得的对比DE CO TA与以前的协同训练工作领域适应。特别地，DE CO TA与被称为DA的联合训练（CODA）的方法显著不同[7]。虽然CODA也使用单视图数据对SSDA进行联合训练，但它与DE CO TA的根本区别如下：1. CODA采用以特征为中心的观点，因为其协同训练过程中的两个人工视图是通过将特征维度分解为两个互斥的子集来构建的另一方面，DE CO TA通过两个任务分解实现了有效的协同训练。2. CODA中的两个视图不像DE CO TA那样以小批量方式交换高置信度伪标签。CODA也不利用MIXUP，我们已经证明这对SSDA是有价值的。相反，CODA显式地通过最小化源域和目标域的分布之间的差异来进行特征对齐。3. CODA训练逻辑回归分类器。在深度学习时代，虽然联合训练已被用于多个视觉任务，但DE CO TA是SSDA中第一个以内聚和原则性的方式利用深度学习，联合训练和混合的工作，实现了最先进的性能。由于CODA不是基于深度学习的，为了进一步证明DECO TA的有效性，我们采用了[44]中描述的深度协同训练工作，该工作是为半监督图像识别设计的，并为SSDA定制它[44]通过对相同图像样本的两个不同对抗扰动来构建用于共同训练的多视图，之后训练两个网络以在相同对抗示例上犯不同错误为了公平比较，我们使用DomainNet [41]数据集比较[44]有和没有MIXUP结果在表1中给出。DE CO TA的表现略胜[44]。详细设置见第4节4. 实验我们考虑一次/三次设置，遵循[51]，其中每个类被给予一个或三个标记的目标示例。我们用DS、DT和未标记的DU训练。然后我们使用包含65个类的另一个基准测试-Home[66]，其中12个适应场景从4个域构建（即，R：真实世界，C：剪贴画，A：艺术，P：产品）。实作详细数据。我们使用Pytorch实现[39]。我们遵循[51]在DomainNet上使用ResNet-34 [18]，在Office-Home上使用VGG-16 [58]。我们还提供Office-Home上的ResNet- 34结果，以便与[26] 补充说明。这些网络在ImageNet上进行了预训练[11，49]。我们遵循[51，46]用K路余弦分类器（例如，K=126对于DomainNet）并在固定温度（0. 05英寸我们所有的实验）。我们用首先在DS上微调的模型初始化wf，并且用首先在DS上微调然后在DT上微调的模型初始化wg。我们这样做是为了鼓励这两种模式在开始时是不同的。在每次迭代中，我们对三个小批量SDS，TDT进行采样，和U DU的相等大小B=24（cf. 第3.1.1节）。我们设置置信度阈值=0。5，β分布系数=1。0的情况。我们使用动量为0的SGD。9，初始学习率为0。001.第001章[51]我们在DomainNet/Office-Home上进行 50 K/10 K迭代我们注意到，DE CO TA不会增加训练时间，因为在每次迭代中，它只更新和学习当前小批量未标记数据的伪标签，而不是整个未标记数据。基线。我们比较了四种最先进的SSDA方法，MME [51]，UODA [45]，APE [26]和ELP [22]。我们还比较了S+T，S + T是一个使用DS和DT训练的模型，而没有使用DU。此外，我们还比较了DANN[13]（领域对抗学习）和ENT[16]（熵最小化），这两个都是UDA的重要前期工作。我们修改它们，使得DS和DT联合用于训练分类器，如下[51]。我们用S表示仅用源数据DS训练的模型。我们方法的变体。我们认为我们的方法的变体进行广泛的消融研究。我们首先介绍一个我们称为MIXUP自我训练（MI ST）的模型。MI ST的培训如下w←w-rL（w，S） +rL（w， T）（7）+rL（w，U~ （w）） +rL（w，U~（w），揭示出DU的真实标签以供评价。~（w）S T~（w）数据集。我们使用DomainNet[41]，这是一个用于域适应的大规模基准数据集，具有345个类和6个域。我们遵循[51]，使用具有4个域的126类子集（即，R：真实，C：剪贴画，P：绘画，S：草图。）并报告了7种不同的适应情景。我们也其中U_S和U_T是从w获得的伪标记，随后分别是M×U_P与S和T。MI ST basis-在训练期间，Cally将所有伪和硬标记样本合并在一起，并且旨在与共同训练的S+T+伪U是训练的模型8913表2：使用ResNet-34，针对具有4个域的三次激发设置的DomainNet上的准确度（%）。方法R到CR与PP到CC至SS至PR与SP至R是说S+T60.863.660.855.659.553.374.561.2DANN [13]62.363.059.155.159.757.467.060.5耳鼻喉科[51]67.867.462.950.561.258.379.363.9MME [51]72.169.269.759.064.762.279.068.0UODA [45]75.471.573.264.169.464.280.871.2APE [26]76.672.176.763.166.167.879.471.7电子学习计划[22]74.972.174.464.369.764.981.071.6DE COT80.475.278.768.672.771.981.575.6表3：使用VGG-16，对于具有4个域的三次拍摄设置，在办公室-家庭上的准确度（%）。方法R到CR与PR至P至RP到CP到AA至PA至CA至RC至RC到AC至P是说S+T49.678.663.672.747.255.969.447.573.469.756.270.462.9DANN [13]56.177.963.773.652.456.369.550.072.368.756.469.863.9耳鼻喉科[51]48.381.665.576.646.856.973.044.875.372.959.177.064.8MME [51]56.982.965.776.753.659.275.754.975.372.961.176.367.6UODA [45]57.683.667.577.754.961.077.755.476.773.861.978.468.9APE [26]56.081.065.273.751.459.375.054.473.771.461.775.166.5电子学习计划[22]57.183.267.076.353.959.375.955.176.373.361.976.168.0DE COT59.983.967.777.357.760.778.054.976.074.363.278.469.3有自我训练但没有MIX UP双视图MIST是独立训练的模型的直接集合，每个视图一个，使用MIST（参见图1）。第3.2）。Vanilla集成是通过组合在DS、DT和DU上训练但具有不同初始化的两个MI ST的集成模型。对于所有只训练一个模型的变体，我们用一个预先训练好的模型初始化它，这个模型在DS上进行了微调，然后在DT上进行了微调。否则，我们以与DE CO TA相同的方式初始化这两个模型我们注意到，对于涉及两个模型的任何方法，我们对它们的输出概率执行集成。主要成果。我们在表2和表3中总结了与基线的比较。我们主要报道的是三枪结果，并将一次性结果留在补充材料中。DE CO TA在DomainNet上的性能大大优于其他方法，并且在Office-Home上的性能优于所有方法（平均值）。Office-Home的较小收益可能是由于其较小的数据大小和有限的场景。DomainNet更大，更多样化;它的显着改进我们进一步对DE CO TA进行了详细的分析。我们主要报告DomainNet的三次测试结果。其他de-在补充材料中可以找到带尾的结果。任务分解。我们首先将DE CO TA与MI ST进行比较。如表4（a）-（b）所示，DE CO TA的性能优于MI ST1%在DomainNet上，5%在Office-Home上。图3（c）还示出了模型训练中涉及的伪标签的数量（置信度大于0的那些）。（五）。我们看到，DE CO TA总是以比MIST更高的准确度生成更多的伪标签数据（也在图3（b）中），证明了我们的主张，即分解有助于保持DS结果，削弱了对更多未标记数据的预测共同训练。我们将DE CO TA与双视图MI ST进行比较。这两种方法都将数据分解为SSL和UDA任务。不同之处在于如何生成伪标签集（参见图1）。当量(1)）：双视图 MIST独立地构建每个集合（参见图10）。第3.2节）。DE CO TA优于两个视图MI ST的利润率，不仅在合奏上，而且在每个视图上，证明了两个模型交换其专长以使彼此受益的有效性。如表4（c）所示，D E C O T A的每个模型都优于M I ST. MIXUP。我们研究了MIXUP的重要性。具体地，我们比较了MI ST和S+T+伪U。第二个模型的训练方式与MI ST相同，只是它不适用MIX UP。在DomainNet（3次）上，MIST平均比S+T+伪U高9%。我们将这种差异归因于MIXUP的去噪效果：MIXUP是在定义伪标签集之后执行的，因此它不直接影响伪标签的数量，而是影响质量。我们进一步计算在训练过程中正确分配的伪标签的数量，如图3（d）所示。利用MIXUP，正确的伪标记池一致地增强相比之下，S+T+伪U用错误地作为签名的伪标签来加强自身;因此百分比保持恒定低。比较结果示于表4（d）中。与vanilla模型集成的比较。由于DE CO TA在进行预测时结合了wf和wg，为了公平的比较，我们训练了两个MIST模型（都使用DS+DT+DU），每个模型具有不同的初始化，并执行模型集成。如表4（a）-（b）所示，DE CO TA优于这个普通模型集合，特别是在Office-Home上，这表明我们的改进不仅仅是简单的8914表4：消融研究（三次激发）。（a）-（b）：MIST和DECOTA以及两个独立训练的MIST的vanilla集合的比较;（c）：双视图MIST（没有共同训练）和DECOTA的比较;（d）MIST和S+T+没有MIXUP的伪U的比较;（e）在源域测试数据上的DECOTA的每个模型，与在源（S）上的监督训练、DomainNet的平均值进行比较。所有准确度单位为（%）。(a) 在DomainNet上比较MI ST、Vanilla-两个MI ST的集成（具有不同的初始化）和DE CO TA方法R到CR与PP到CC至SS至PR与SP至R是说MI ST78.175.276.768.372.671.579.874.6香草合奏79.775.077.268.472.170.879.774.7DE COT80.475.278.768.672.771.981.575.6(b) 在Office-Home上比较MI ST、Vanilla-两个MI ST的集成（具有不同的初始化）和DE CO TA方法R到CR与PR至P至RP到CP到AA至PA至CA至RC至RC到AC至P是说MI ST54.781.264.069.451.758.869.147.670.665.360.873.863.9香草合奏56.181.863.472.954.155.174.249.572.167.455.275.664.7DE COT59.983.967.777.357.760.778.054.976.074.363.278.469.3(c) 分解任务独立训练与使用DECOTA训练的比较方法任务R到CR与PP到CC至SS至PR与SP至R是说分解的任务（无联合训练）wfwg合奏72.176.377.365.772.272.071.870.375.161.063.765.763.069.469.359.966.966.175.976.178.767.070.772.0WF80.174.678.668.472.571.281.175.2DE COTWG80.074.578.468.372.271.380.675.0合奏80.475.278.768.672.771.981.575.6(d) 在DomainNet比较MIST和S+T+伪U，没有MIXUP（e）源域上的准确性来自于模型集合，但来自于共同训练。关于D E-CO TA是基于共同训练的，因此不会遇到这个问题。这在表 4 （ a ， b ）中示出： MIST 和 Vanilla-Ensemble基于自我训练，并且DE CO TA优于它们。即使在训练结束时，当两个分类器具有相似的准确性时（见表4（c）），组合它们仍然可以提高准确性：即，他们会做出不同的预测源域上的结果。虽然wf和wg在DU上具有类似的准确性，但wf不从DS学习的事实表明它们在分类源域数据方面的差异。我们在表4（e）中验证了这一点，其中我们将每个模型单独应用于源域（由DomainNet提供）的保留集我们看到wg明显优于wf。它的准确性甚至与仅在DS上训练的模型相当，显示了DE CO TA的一个优点-该模型可以保持其在源域上的区分能力。5. 结论我们介绍了DE CO TA，一种简单而有效的半监督域自适应（SSDA）方法。我们的关键贡献是新颖的见解，标记的目标数据和标记的源数据）是固有不同的，并且不应当被直接组合。DECOTA因此明确地将SSDA分解为两个任务（即，视图）、半监督学习任务和非监督域适应任务，其中可以更好地利用每个监督为了鼓励两个任务之间的知识共享和整合，我们采用了联合训练，这是一种成熟的技术，可以让不同的观点相互学习。我们提供的实证证据表明，这两个任务都满足协同训练的理论条件，这使得DE CO TA有良好的基础，简单（无对抗学习），性能优越。谢谢。这项研究得到了 Facebook AI 、 NSF （ III-1618134 、 III- 1526012 、 IIS-1149882 、IIS-1724282 、TRIPODS-1740822、OAC-1934714、DMR-1719875 ）、 ONR DOD （ N 00014 -17-1- 2175 ）、DARPA SAIL-ON（W 911 NF 2020009）和法案梅琳达·盖茨基金会我们感谢俄亥俄州超级计算机中

下载后可阅读完整内容，剩余1页未读，立即下载