模型自适应：无源数据的无监督领域自适应

139 浏览量更新于2023-10-25 收藏 14.73MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

96410模型自适应：无源数据的无监督领域自适应0Rui Li 1 , Qianfen Jiao 1 , Wenming Cao 3 , Hau-San Wong 1 , Si Wu 201 香港城市大学计算机科学系 2 华南理工大学计算机科学与工程学院 3香港大学统计与精算学系0ruili52-c@my.cityu.edu.hk, qjiao4-c@my.cityu.edu.hk, wmingcao@hku.hk0cshswong@cityu.edu.hk, cswusi@scut.edu.cn0摘要0在本文中，我们研究了一种具有挑战性的无监督领域自适应设置——无监督模型自适应。我们旨在探索如何仅依靠未标记的目标数据来提高现有源预测模型在目标领域上的性能，因为在某些实际场景中可能无法获得标记的源数据，原因是数据隐私问题。为此，我们提出了一个新的框架，称为协作类条件生成对抗网络，以摆脱对源数据的依赖性。具体而言，通过生成的目标风格数据来改进预测模型，为生成器提供更准确的指导。因此，生成器和预测模型可以在没有源数据的情况下相互协作。此外，由于缺乏源数据的监督，我们提出了一种权重约束，以鼓励与源模型的相似性。还引入了基于聚类的正则化方法，以在目标领域中产生更具辨别性的特征。与传统的领域自适应方法相比，我们的模型在只有未标记的目标数据的多个自适应任务上实现了更优越的性能，验证了其在这种具有挑战性的设置中的有效性。01. 引言0尽管深度神经网络在各种视觉识别任务上取得了最先进的性能[24,17]，但其良好的性能严重依赖于具有多样化视觉变化的充分标记数据集的可用性[7]，并且训练和测试数据应该是独立且同分布的。当测试环境与源领域不同时，大多数视觉系统的性能将严重下降。这被称为领域偏移[42]，如图1所示。领域偏移是阻止转移的关键因素之一。0图1.传统基于数据的自适应（左）与我们的模型自适应（右）的比较。传统的无监督领域自适应方法在自适应过程中需要标记的源数据，而我们提出的模型自适应方法仅依赖于未标记的目标数据。0将研究结果转化为实际应用的一种直观策略是重新收集和注释足够的目标数据集以重新训练或微调模型[62,35]。然而，这种解决方案不仅昂贵，而且在各种环境中进行手动注释也不切实际。开发一种能够在少量或没有人工注释的情况下很好地泛化到不同领域的视觉识别模型引起了极大的兴趣。最近，无监督领域自适应受到了广泛关注，因为它在将预训练的预测模型泛化到目标领域（标签不可用）方面取得了很大进展。这是通过利用来自充分标记的源数据的知识实现的[56, 12,34]。现有的无监督领域自适应方法通常假设在训练期间源数据集是可用的。然而，在以下情况下，这种假设并不总是切实可行：1.对于许多公司来说，由于数据隐私和安全问题，他们只会提供学习的模型而不是客户数据。2.像视频或高分辨率图像这样的源数据集可能非常庞大，将其传输或保留到不同平台并不实际或方便。因此，开发一种无监督的领域自适应方法是很有必要的。96420没有源数据集的自适应方法具有很高的实用价值[6]。最近的领域自适应方法分为两组：1）通过最小化源域和目标域之间的特定分布距离来学习域不变特征[31]；2）基于生成对抗网络（GAN）直接将源数据转换为目标数据[13]。尽管这些方法取得了很大的进展，但由于估计源分布或两个域之间的转换是不可能的，因此无法处理源数据集不可用的情况。在本文中，我们专注于无监督的无源数据领域自适应，称为无监督模型自适应，并遵循两个域共享相同标签空间的标准假设。模型-基于的无监督领域自适应的思想如图1右侧所示。具体而言，传统的基于数据的无监督领域自适应旨在学习一个预测模型C，以便根据标记的源数据Ds ={Xs，Ys}和无标签的目标数据Dt ={Xt}来推广到目标域，而我们的基于模型的自适应是仅使用Dt将预训练的源模型C适应到目标域。换句话说，在模型自适应期间无法访问Ds。值得注意的是，我们可以轻松地通过Ds获得预训练的C。然而，这个过程不能逆转。因此，我们的新的基于模型的自适应是为上述情景设计的，它将现有模型适应到新的领域。首先，为了独立于源数据，我们开发了一种协作类条件生成对抗网络（3C-GAN），用于生成目标风格的训练样本。为此，引入了一个鉴别器通过对抗训练来匹配目标分布。在适应过程中，一个类条件生成器受到语义相似性约束，与预测模型协同工作。其次，我们引入了一种权重正则化，鼓励预测模型接近原始源模型，这可以稳定训练并提高性能。此外，我们还将基于聚类的正则化纳入到整体目标中，以强制决策边界位于低密度区域，从而提高最终的自适应性能。我们在多个无监督领域自适应基准测试上进行了广泛的实验。此外，我们进行了消融研究，以分析我们模型中每个组件的贡献。实验结果验证了我们方法的优越性。我们总结本工作的贡献如下：0•我们考虑了一种新颖且具有挑战性的适应设置，旨在仅使用无标签数据在不同领域之间转移预测模型。这对于现有的适应方法来说是不可行的。0•为了避免依赖源数据，我们提出了3C-GAN，其中生成器和预测模型可以在适应过程中进行协同增强。0•我们证明了所提出的模型在多个领域自适应基准测试中具有足够的有效性，并且在没有源数据的情况下优于最新的最先进结果。02. 相关工作0在本节中，我们重点关注基于卷积神经网络（CNNs）的最新无监督领域自适应方法，因为它具有出色的性能。大多数领域自适应方法根据[1]减轻了域之间的分布差异。目标域上的期望误差受以下因素的限制：1）源域上的期望误差；2）源域和目标域之间的域差异；以及3）预期损失的共享期望，该损失预计较小[60]。通过在源域中使用标记数据，可以将源域上的期望误差最小化。因此，核心任务是最小化域之间的差异。Deep Domain Confusion（DDC）[58]和DeepAdaptationNetworks（DAN）[31]采用最终多个层上的最大均值差异[15]来强制执行源域和目标域特征之间的分布相似性。JointAdaptationNetworks（JAN）[34]使用联合最大均值差异来对齐多个层之间的联合分布。Deep CORAL[54]使用特征协方差来衡量域差异。Philip等人[16]强制执行两个域内相似特征的关联。除了这些测量分布差异的方法之外，通过对抗训练最大化域混淆可以用于对齐分布。Domain Adversarial NeuralNetwork（DANN）[11]引入了一个域分类器，并通过梯度反转层[10]使两个域的提取特征无法区分。这些基于对抗训练的方法显示出有效的自适应性能[3,32]。Pinheiro等人将对抗损失和基于相似性的分类器[45]结合起来，以改善模型的泛化能力。为了将类别信息整合到学习域不变特征的过程中，Multi-Adversarial DomainAdaptation（MADA）[43]采用多个与每个类别对应的域判别器。在[49]中，Saito等人提出了两个任务分类器来通过最小化它们之间的差异来对齐分布，而不是依赖于域判别器。[26]采用切片Wasserstein度量来衡量分类器的不相似性。受GAN[13]的启发，最近的工作通过生成模型实现了特征分布对齐。Sankaranarayanan等人提出了一个GenerateToAdapt模型[50]，该模型诱导提取的源域或目标域嵌入生成类似源域的图像，从而期望提取的特征是域不变的。DuplexGAN[19]使用两个域的两个判别器，以确保提取的特征可以基于域代码在两个域上生成图像。图像到图像的转换[21]提供了一种方法来生成目标数据。ℓadv(G) = Ey,z[log D(1 − G(y, z))].(2)ℓsem(G) = Ey,z[−y log pθC(G(y, z))],(3)minθGℓadv + λsℓsem,(4)minθCλgℓgen + λwℓwReg + λcluℓcluReg,(5)96430为域适应提供了新的方向，实现了数据空间中的分布对齐。在没有配对的域数据的情况下，保留内容将是非常困难的，最近的一些工作通过在输入和转换后的输出之间引入额外的约束来执行无监督的图像到图像的转换。SimGAN [51]在它们之间使用重构损失，而PixelDA [2] 和DTN [55]分别鼓励输出具有相同的类标签和语义特征作为输入。CoGAN [30] 和UNIT [29]基于共享或非共享策略学习特征空间以进行跨域生成。Zhu等人提出了CycleGAN[65]，它涉及具有循环一致性损失的双向转换，强制执行转换后的图像可以映射回输入的条件。DiscoGAN [22]和DualGAN [61]采用相同的思想，实现了有希望的无监督图像转换性能。CyCADA [18]基于CycleGAN，在多个域适应任务上表现出良好的性能。此外，一些工作进一步探索使用未标记的目标数据通过共同训练[59]、伪标记[48,66]和熵正则化[52]来改进泛化能力。一些最近的工作关注开放集适应问题[63]。然而，这些工作在适应过程中需要源数据。因此，大多数先前的工作不适用于所提出的模型适应问题。一些增量学习的工作[8,27]与我们相关，但它们需要新任务的标记目标数据。在本文中，我们提出仅使用未标记的目标数据集来将预训练模型适应到目标域。03. 提出的方法0在本节中，我们详细阐述了我们针对无监督模型适应问题的模型，其中我们仅仅可以访问源域的预训练预测模型C和未标记的目标数据集Xt。我们的目标是将C适应到目标域Xt。为此，我们提出了一种协同类条件生成对抗网络（3C-GAN）用于在没有源数据的情况下进行模型适应。除了现有的预训练C，我们的框架还包括另外两个组件：一个用于匹配目标分布的判别器D和一个以随机采样的标签为条件的生成器G，用于生成有效的目标风格的训练样本。通过在训练过程中引入生成的数据，C在目标域上的性能得到改善，进而促进了G的生成过程。此外，我们设计了两个正则化项，以防止适应模型远离预训练源模型，并改善在目标域上的泛化能力。该架构如图2所示。D、G和C分别由θD、θG和θC参数化。下面介绍每个提出的组件的详细信息。03.1. 协同类条件GAN0为了避免使用源数据进行域适应，我们提出了协同类条件GAN（3C-GAN）来协同改进生成器G和预测模型C。如图2所示，这是通过将C集成到GAN框架中实现的。与标准GAN模型不同，其中G仅以噪声向量z为条件，我们的G还以预定义的标签y为条件，即xg = G(y, z)。与传统的条件GAN[37]不同，其中D以监督方式训练以区分真实和伪造的配对，我们的D被优化为区分xt和xg。D的目标函数可以表示如下：0最大化θDExt�Dt[logD(xt)]+Ey,z[log(1−D(G(y,z)))]。(1)0同时，G通过生成与xt具有相似分布的xg来欺骗D。因此，G的对抗损失ℓadv可以表示如下：0尽管 ℓ adv 模拟了目标分布，但不能保证与输入标签 y的语义相似性。受[5]的启发，我们提出了基于现有预测模型C 的语义相似性损失 ℓ sem 。它通过预测模型 C 强制 x g与输入标签 y 之间的语义相似性，定义如下：0其中 p θ C ( ∙ ) 表示预测模型 C 预测的类别概率。 ℓ sem使得生成具有语义。在包括与目标分布匹配的 ℓ adv之后，生成器 G 的优化目标定义如下：0其中 λ s 平衡了两个损失。我们交替更新 D 和 G 来优化 Eq.(1) 和 Eq. (4)，分别。因此， G可以生成新的目标风格实例，即 { x g , y } ，用于提高 C在目标域上的性能。在训练过程中，C 和 G相互协作，因为增强的 C 可以为 G提供更准确的指导，而更可靠的生成又可以提高 C的性能。因此，整体框架称为协作类别条件生成对抗网络。除了 ℓ gen = E y,z [ − y log p θ C ( x g )]，我们还包括两个正则化项来增强 C 的性能。预测模型 C的最终优化目标可以表示如下：0其中 ℓ wReg 和 ℓ cluReg分别表示权重正则化和基于聚类的正则化。λ g ， λ w 和 λ clu用于调整每个损失的相对影响。在适应过程中，不使用源数据集，如图2所示。. . .#$%&$'ℓ)*+ℓ,-.$%$'/ℓ01-'ℓ2341-'ℓ'-5ℓwReg = ∥θC − θCs∥2 ,(6)96440标签 !0噪声 " . . .. . .. . .0协作0目标生成0模型适应0图2. 提出架构的概述。在目标生成阶段（顶部），我们旨在学习一个类别条件生成器 G ，通过鉴别器 D 和预测模型 C（由虚线表示，固定不变）生成目标风格的训练样本 x g = G ( y, z )。生成的图像和提出的正则化方法用于模型适应（底部）。这两个过程是交替进行的， G 和 C 相互协作。（详见正文）03.2. 权重正则化0尽管仅将上述生成的目标样本纳入训练 C可以提高其性能，但由于缺乏来自标记源数据的准确监督，训练过程并不总是稳定的。受到[46,57]的启发，这两个方法试图为源域和目标域学习两个分离但相关的预测模型，我们提出了一个权重正则化项 ℓ wReg，以防止预测模型 C的参数偏离源数据集中预训练模型的参数太远。它可以定义如下：0其中 θ C s 是在源域上预训练的 C的参数，是固定的。我们可以观察到，如果将 θ C s设置为0， ℓ wReg 将被减少到标准的权重衰减正则化（ ℓ 2）。一方面， ℓ wReg防止了适应模型的过大变化，有助于稳定适应过程。另一方面，强制适应模型与源模型相似可以被视为保留源知识。实验证明，在大多数情况下， ℓ wReg可以实现更好的适应性。03.3.基于聚类的正则化0大多数域适应方法关注适应过程，其中仅使用无标签的真实目标数据来估计目标分布，而我们认为无标签的目标数据可以用来探索目标域的判别信息。集群假设0tion意味着预测模型的决策边界不应通过高密度的数据区域[14]。因此，我们最小化目标域上预测概率的条件熵，如下所定义：0Ex t �D t [−pθ C (xt) log pθ C (xt)]。（7）0然而，正如[14]中指出的，当预测模型不是局部平滑时，由Eq.（7）导出的条件熵是不可靠的。为了改进无标签目标数据上条件熵的近似，应添加局部平滑约束，定义如下：0Ex t �D t � max ∥ r ∥≤ ξ KL (pθ C (xt) || pθ C (xt + r))�，（8）0其中KL（∙||∙）表示Kullback-Leibler散度。根据[39]，我们尝试在ξ的强度范围内找到对预测影响最大的扰动r。这个约束强制使得xt和xt +r之间的预测输出相似。因此，对于每个无标签目标样本，预测模型在局部上是平滑的。因此，最终的基于聚类的正则化定义如下：0ℓ cluReg0+ [KL(pθ C (xt) || pθ C (xt + ˜r))]，（9）0其中˜r是从Eq.（8）得到的对抗扰动。share 31 classes and contain 2817, 795 and 498 samples,respectively. Following [43, 34], we evaluate on all six do-main adaptation tasks. These tasks can verify the effective-ness of our method when the number of samples is small.VisDA17 [44] is a challenging dataset for domain adapta-tion from synthetic domain to real domain with 12 sharedclasses. The synthetic domain contains around 152k im-ages produced by rendering 3D models under different con-ditions. We use the validation set as the real domain, whichcontains around 55k images collected from MSCOCO [28].Since the number of source data is very large, this taskcan demonstrate the superiority of our method which canachieve successful adaptation without source data.For experiments on digit and sign datasets, we resize allimages to 32×32×3. The architecture of C is similar to theone in [52] for a fair comparison. An UpResBlock moduleis adopted in the generator for high-quality image genera-tion. We adopt spectral normalization [38] in the discrim-inator for training stability. For experiments on Ofﬁce-31and VisDA17, we choose ResNet50 and ResNet101 [17]pre-trained on ImageNet [7] to extract features. Both gen-erator and discriminator consist of two dense layers.We use Adam [23] to optimize all the networks. Thelearning rates for D and G are 4 × 10−4 and 10−4, respec-tively. As to C, the initial learning rates are 10−3 and 10−496450算法1我们的模型适应过程的伪代码输入：源域上预训练的预测模型C，目标域中的无标签数据Xt，λg，λclu和λw，批量大小B；输出：预测模型C的θC；初始化学习率ζG，ζD和ζC用于G，D和C；1：对于epoch =1到N进行循环2：从Xt中随机采样大小为B的xt，并从均匀分布中随机向量{y，z}；3：对于每个小批量进行循环4：使用y和z生成新样本：Xg = G(y，z)5：通过θD ← Adam (�θD（�0xt log D (xt) + �0y,z log D (1 − G(y,z)))，θD，ζD)更新D。06: 通过θ G ← Adam (�θ G (ℓ adv + λ s ℓ sem)，θ G，ζ G) 更新G7: 如果开始适应，则通过θ C ← Adam (�θ C (λ g ℓ gen + λ w ℓwReg + λ clu ℓ cluReg)，θ C，ζ C) 更新C 8: 结束如果 9:结束for循环 10: 结束for循环03.4.实现细节0学习通过交替更新C，D和G来优化Eq. 5，Eq. 1和Eq.4中的相应目标。在实验中，我们在生成器经过几步之后才对C应用ℓ gen和ℓcluReg。整个模型是端到端训练的，实现如算法1所示。04.实验0在本节中，我们在多个域适应基准上进行了广泛的实验，以验证我们方法的有效性。对于每个任务，我们只使用源数据来获取预训练的源模型，并且在适应过程中不使用它。我们提供了最近最先进的域适应方法的结果进行比较或作为参考，因为它们大多数在适应过程中没有源数据时不适用。04.1.实验设置0数字和符号数据集：我们在五个数字数据集（MNIST[25]，USPS [20]，MNIST-M [11]，SVHN[41]，Syn.Digits [11]）和两个交通标志数据集（Syn.Signs[40]和GTSRB[53]）中评估我们的方法。数字数据集包含10个共享类别，而交通标志数据集包含43个类别。此外，Syn.Digits和Syn.Signs是合成域，这在实际应用中更有趣。Office-31[47]是一个标准的域适应基准，其中的图像来自三个不同的域：亚马逊（A），网络摄像头（W）和单反相机（D）。三个域0对于数字/符号数据集和Of�ce-31数据集，我们分别共享了31个类别，并包含2817、795和498个样本。我们按照[43,34]的方法评估了所有六个域适应任务。这些任务可以验证当样本数量较少时我们方法的有效性。VisDA17[44]是一个具有12个共享类别的从合成域到真实域的域适应挑战数据集。合成域包含大约152k个在不同条件下渲染的3D模型图像。我们使用验证集作为真实域，该验证集包含从MSCOCO[28]收集的约55k个图像。由于源数据的数量非常大，这个任务可以展示我们的方法在没有源数据的情况下能够实现成功的适应。对于数字和符号数据集的实验，我们将所有图像调整为32×32×3的大小。C的架构与[52]中的架构类似，以进行公平比较。生成器中采用了UpResBlock模块以生成高质量图像。鉴别器中采用了谱归一化[38]以提高训练稳定性。对于Of�ce-31和VisDA17的实验，我们选择在ImageNet [7]上预训练的ResNet50和ResNet101[17]来提取特征。生成器和鉴别器都由两个全连接层组成。我们使用Adam[23]来优化所有网络。D和G的学习率分别为4×10−4和10−4。至于C，初始学习率分别为10−3和10−4。04.2. 实验结果0数字和符号基准测试结果：表1比较了我们的模型适应和最近的无监督域适应方法的分类准确率。首先，与仅源域模型（基准）相比，我们的模型在目标域上的性能在所有域适应任务上都显著提高。特别是，在MNIST →MNIST-M任务中，我们的模型的准确率可以达到98.5%，比基准提高了约40%。显著的性能提升表明，在目标域上，源域的标记数据不足以实现良好的泛化性能，而我们提出的模型中生成的目标风格训练实例和正则化有助于适应并大大提高目标域上的性能。其次，所有其他最近的域适应方法在适应过程中都需要源数据，而我们的模型在没有源数据的情况下获得了与其他竞争方法相当或更好的性能。具体而言，我们的模型在SVHN → MNIST、USPS →MNIST和Syn.Sign → GTSRB任务上的测试准确率均大于ResNet50 [17]68.4±0.296.7±0.199.3±0.168.9±0.265.2±0.360.7±0.376.1DAN [31]80.5±0.497.1±0.299.6±0.178.6±0.263.6±0.362.8±0.280.4RTN [33]84.5±0.296.8±0.199.4±0.177.5±0.366.2±0.264.8±0.381.6DANN [11]82.6±0.496.9±0.299.3±0.281.5±0.468.4±0.567.5±0.582.7ADDA [57]86.2±0.596.2±0.398.4±0.377.8±0.369.5±0.468.9±0.582.9JAN [34]86.0±0.496.7±0.399.7±0.185.1±0.469.2±0.470.7±0.584.6MADA [43]90.0±0.297.4±0.199.6±0.187.8±0.270.3±0.366.4±0.385.2GenToAdapt [50]89.5±0.597.9±0.399.8±0.287.7±0.572.8±0.371.4±0.486.596460方法 SVHN → MNIST MNIST → USPS USPS → MNIST MNIST → MNIST-M Syn.Digits → SVHN Syn.Sign → GTSRB0仅源域模型 76.4 ± 1 . 5 92.4 ± 1 . 7 86.1 ± 1 . 3 54.2 ± 0 . 9 86.2 ± 0 . 9 78.3 ± 1 . 6 DAN [31] 71.1 81.1 - 76.9 88 91.1 AssocDA [16] 97.6 -- 89.5 91.8 97.6 DANN [11] 73.8 85.1 73.0 77.4 91.1 88.7 UNIT [29] 90.5 95.9 93.5 - - - GenToAdapt [50] 92.4 ± 0 . 9 95.3 ± 0 . 7 90.8 ± 1. 3 - - - DSN [3] 82.7 91.3 - 83.2 91.2 93.1 PixelDA [2] - 95.9 - 98.2 - - CyCADA [18] 90.4 ± 0 . 4 95.6 ± 0 . 2 96.5 ± 0 . 1 - - - SimDA [45] -96.4 95.6 90.5 - - MCD [49] 96.2 ± 0 . 4 94.2 ± 0 . 7 94.1 ± 0 . 3 - - 94.4 ± 0 . 3 VADA [52] 97.9 - - 97.7 94.8 98.8 DIRT-T [52] 99.4 - - 98.996.1 99.50我们的模型 99.4 ± 0 . 1 97.3 ± 0 . 2 99.3 ± 0 . 1 98.5 ± 0 . 2 95.9 ± 0 . 2 99.6 ± 0 . 10表1. 数字和符号数据集上的分类准确率（%）。'-'表示结果未报告。0方法 A → W D → W W → D A → D D → A W → A 平均0我们的模型 93.7 ± 0 . 2 98.5 ± 0 . 1 99.8 ± 0 . 2 92.7 ± 0 . 4 75.3 ± 0 . 5 77.8 ± 0 . 1 89.60表2. 基于ResNet50 [17]的office-31分类准确率（%）。099%。在MNIST → MNIST-M和Syn.Digits →SVHN上，我们的方法分别获得了98.5%和95.9%的准确率，与DIRT-T（98.9%和96.1%）相竞争。然而，DIRT-T是基于VADA的，它在第一个适应阶段涉及源数据。有趣的是，我们观察到在训练过程中包括源数据时，我们的模型可以达到99.2%和96.7%的准确率，超过了DIRT-T。在Of�ce-31上的结果：表2显示了我们的模型和其他无监督域自适应方法的性能。所有结果都是以ResNet50作为骨干网络获得的。第一行显示了基线的源域微调性能。很明显，我们的模型在所有竞争方法中都有很大的优势。具体而言，与涉及复杂架构和目标函数的GenToAdapt [50]和MADA[43]相比，我们的模型在六个适应任务中平均提高了约3%和4%的性能。此外，我们的模型在困难的适应任务上表现出更好的性能，即A � D，A �W。在这四个任务中，它的性能超过第二好的方法平均提高了4.5%。在VisDA17上的结果：表3显示了基于ResNet101的VisDA17的类别级别准确率。我们的模型明显优于其他无监督域自适应方法。具体而言，我们的模型使用普通的ResNet101实现了81.6%的类别平均准确率，并且这个结果可以通过更强大的骨干网络进一步提高。0例如，我们使用了表3中最后一行所示的增强型ResNet101。准确率提高到了83.3%，超过了使用ResNet152的SimDA[45]10.4%。此外，自我集成（SE）[9]依赖于数据增强和集成技术，而我们的模型在没有数据增强的情况下比SE（最小增强）提高了9.1%。此外，在适应过程中我们的模型不使用源数据，这在源数据集相当大的情况下更可取。04.3. 可视化分析0为了提供我们的3C-GAN中的协同机制的见解，我们展示了以0到9标签为条件生成的样本。如图3所示，每一列共享相同的类别标签，每一行共享相同的噪声向量。图3（顶部）表示在目标域中C较弱时生成的样本，图3（底部）表示在适应的后期生成的样本。我们观察到我们的生成器可以学习这些任务中的类别条件数据分布。此外，在将生成的实例合并到训练预测模型中后，预测模型的性能得到了提高（见表1）。增强的预测模型还可以改善生成器内的目标类别分布学习。图3（a）中有一个明显的说明。当适应的预测模型是“时，生成质量在后期阶段变得更好。(a) MNIST→MNIST-M(b) SVHN→MNIST(a) Syn.Digits→SVHN(b) Syn.Sign→GTSRBMNIST↓USPSUSPS↓MNISTMNIST↓MNIST-M96470方法 plane bcycl bus car horse knife mcycl person plant sktbrd train truck Average0仅源域训练 55.1 53.3 61.9 59.1 80.6 17.9 79.7 31.2 81.0 26.5 73.5 8.5 52.4 DAN [31] 87.1 63.0 76.5 42.0 90.3 42.9 85.9 53.1 49.7 36.385.8 20.7 61.1 MCD [49] 87.0 60.9 83.7 64.0 88.9 79.6 84.7 76.9 88.6 40.3 83.0 25.8 71.9 SWD [26] 90.8 82.5 81.7 70.5 91.7 69.5 86.377.5 87.4 63.6 85.6 29.2 76.4 SimDA [45](ResNet152) 94.3 82.3 73.5 47.2 87.9 49.2 75.1 79.7 85.3 68.5 81.1 50.3 72.9 Self-Ensembling[9] (min aug) 92.9 84.9 71.5 41.2 88.8 92.4 67.5 63.5 84.5 71.8 83.2 48.1 74.20我们的模型 94.8 73.4 68.8 74.8 93.1 95.4 88.6 84.7 89.1 84.7 83.5 48.1 81.6 我们的模型† 95.7 78.0 69.0 74.2 94.6 93.0 88.0 87.2 92.2 88.885.1 54.3 83.30表3. 基于ResNet101[17]的VisDA17的类别准确率（%）。†表示我们使用了ResNet101的增强版本，将第一个7×7卷积替换为三个3×3卷积。0图3. (a) MNIST → MNIST-M 和 (b) SVHN → MNIST的类别条件生成。顶部行表示使用预训练源模型生成的样本，底部行表示最后自适应阶段生成的样本。0图4. (a) Syn.Digits → SVHN 和 (b) Syn.Sign → GTSRB的类别条件生成（显示了43个类别中的前19个）。每列具有相同的类别y，每行共享相同的噪声向量z。0改进了目标域。这表明C和G在自适应过程中可以相互合作。为了进一步证明我们模型的有效性，我们对生成的图像进行了可视化检查。图4展示了两个任务上的类别条件生成。在两种情况下，生成的图像与输入标签一致。0(a) 自适应之前0(b) 自适应之后0图5. 在Syn.Sign →GTSRB任务中，目标特征的最后一个隐藏层的t-SNE投影(a)自适应之前和(b)自适应之后。不同颜色代表不同的类别。0方法 SVHN ↓ MNIST0仅源域训练 68.1 ± 1 . 5 85.3 ± 3 . 1 71.0 ± 1 . 8 50.3 ± 0 . 7 CMD[64] 86.5 - 86.3 85.5 ADDA [57] 72.3 89.4 92.1 80.7 CORAL [54]89.5 81.7 96.5 81.6 JDDA [4] 94.2 - 96.7 88.40我们的模型变体 w/o ℓ gen - - - - w/ ℓ gen 97.9 ± 0 . 2 94.5 ± 1 . 098.2 ± 0 . 2 91.8 ± 0 . 5 w/ ℓ gen , ℓ wReg 98.4 ± 0 . 2 95.4 ± 0 . 398.3 ± 0 . 1 94.2 ± 0 . 3 完整模型 99.2 ± 0 . 1 97.0 ± 0 . 2 99.3 ± 0 .1 97.0 ± 0 . 10表4. 在JDDA[4]中使用小的C进行数字任务的消融研究。‘-’表示结果未报告或未收敛。0标签和风格信息也通过噪声向量z进行编码。此外，我们可视化了目标特征在自适应之前和之后的分布。如图5所示，我们使用t-SNE[36]将最后一个隐藏层的特征投影到Syn.Sign →GTSRB的2D空间中。自适应后，目标实例在每个类别中都有很强的聚类。这些观察结果表明，我们的模型在目标域中实现了准确的类别条件生成，证明了其卓越的模型自适应性能。04.4. 消融研究0为了展示所提出方法的鲁棒性，我们采用了一个类似于JDDA[4]中使用的LeNet的小分类器进行进一步评估。从表4可以看出，我们的完整模型仍然优于仅源域训练（基准线）w/o smoothness93.4±0.391.0±0.574.0±0.577.3±0.3w/ smoothness93.7±0.292.7±0.475.3±0.577.8±0.196480图6. 在任务(a) SVHN → MNIST 和 (b) MNIST →MNIST-M上比较我们模型变体的性能。准确率是相对于训练步骤计算的目标集上的准确率。0在大多数情况下，我们的模型实现了约30%或更多的改进。与其他具有相同分类器的无监督领域自适应方法相比，我们的模型表现最好。例如，尽管JDDA在具有挑战性的SVHN→MNIST任务上报告了令人印象深刻的性能（94.2%），但我们的模型超过了它约5个百分点。在MNIST →MNIST-M任务中，我们的模型超过了它约7个百分点。这些结果证明了我们模型的有效性。为了探索每个组件的能力，我们进一步通过删除相应的模块或损失函数来比较我们模型变体的性能。为了评估生成图像在改进模型自适应性能方面的贡献，我们首先在我们的3C-GAN中删除ℓgen。从表4的最后一块我们可以看到，没有ℓgen，模型无法收敛。我们认为，仅具有提出的正则化将损害其辨别性的预测模型，因为其分布不同。接下来，我们删除了正则化项ℓwReg和ℓcluReg。我们的模型仅具有ℓgen的性能与仅具有源模型的Source-Only模型相比显著提高，如表4的最后第三行所示。这些结果表明，我们的3C-GAN能够实现可靠的类条件生成，从而提高模型的自适应性能。图6详细说明了在SVHN →MNIST和MNIST →MNIST-M任务上训练过程中的准确率曲线。在这两个任务中，ℓgen能够大幅提高基线模型的准确率，这可以通过比较图6中蓝色曲线和红色曲线的准确率趋势来看出。为了研究我们提出的正则化项的有效性，我们在训练过程中通过将λclu设置为0来禁用方程（5）中的ℓcluReg。如表4所示，通过添加ℓwReg，我们的模型的准确率进一步提高，这是基于仅涉及ℓgen的我们的模型变体的结果。我们认为，权重正则化不仅可以防止模型发生显著变化，还可以继承预训练源模型的知识[62]。因此，它导致更稳定和更好的性能，如图6所示（通过比较蓝色和绿色曲线进行颜色查看）0方法 A → W A → D D → A W → A0表5. 消融研究以研究平滑度的影响。0此外，通过包含聚类正则化项ℓcluReg，我们的完整模型的性能在所有任务上可以持续提高约1到3个百分点。特别是，如表4的最后两行所示，在MNIST →MNIST-M任务中，准确率从94.2%提高到97.0%，在MNIST →USPS任务中，从95.4%提高到97.0%。这表明我们的基于聚类的正则化可以

下载后可阅读完整内容，剩余1页未读，立即下载