无监督领域自适应中的DroptoAdapt方法

11 浏览量更新于2023-10-13 收藏 1.45MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1下载Adapt：无监督领域自适应Seungmin Lee*首尔国立大学首尔国立大学。NamilKimNAVERLABSSeong-Gyun JeongCODE42.ai摘要最近关于域自适应的工作利用对抗训练来从特征提取器和域判别器网络的联合学习中获得域不变特征然而，域对抗方法呈现次优性能，因为它们试图在不考虑手头任务的情况下匹配域之间的分布我们提出了Drop to Adapt（DTA），它利用对抗性dropout通过强制执行集群假设来学习强区分特征。相应地，我们设计了目标函数来支持鲁棒域自适应。我们证明了所提出的方法在各种实验的有效性，并实现了一致的改进，在图像分类和se-mantic分割任务。我们的源代码可在https://github.com/postBG/DTA.pytorch 获得。1. 介绍深度神经网络（DNN）的出现已经在使用大规模数据集的各种视觉识别任务上表现出卓越的性能[8，21，13]。训练DNN模型从管理数据及其相关标签开始。一般来说，注释过程是昂贵且耗时的。此外，在某些情况下，如果事件很少发生或与危险情况有关，我们无法收集适当的数据。因此，研究人员[32，34，10，35]正在注意在模拟环境中利用合成数据，其中注释标签对于各种场景都毫不费力。为了充分利用合成数据集，领域自适应已成为一个活跃的研究领域。在do- main适配设置中，我们利用源域上的丰富注释来在目标do- main上实现强大的性能，而然而，仅在源域上训练的模型提供了令人失望的结果。*表示同等贡献。这项工作是作者在NAVER实验室完成的对应{profile 2697，dongwan 123}@ gmail.com(a) （b）调整后的模式(c) 特征提取器(d) 分类器上的AdD图1.我们说明了域适应过程与adversarial辍学（AdD）。我们将源域和目标域分别描述为实线和虚线。仅在源域上训练的模型的决策边界容易违反聚类假设，因为它穿过目标特征密集区域（a）。我们可以在特征提取器（c）和分类器（d）上应用AddD。当在特征提取器上使用AdD时，决策边界被推离特征密集区域。相反，分类器上的AdD将特征推离决策边界。最终，我们的域适应模型绘制了一个鲁棒的决策边界，避免了聚类（b）。当目标域显示出固有的不同特性时，结果是不同的。这个问题被称为域转移，是目标域性能下降的主要原因之一因此，我们提出了一种新的方法，可以减少域自适应域移位。9192在本文中，我们解决了无监督域自适应（UDA），其中目标域是完全未标记的。最近的工作提出了通过域对抗训练来对齐源和目标域分布[11，44，12]。这些方法采用一个辅助的域特征表示来获得域不变的特征表示。在域adversar中的主要假设-如果特征表示是域不变的，则在源域的特征上训练的分类器也将在目标域上操作。然而，域对抗方法的弱点已经在[37，36，40]中指出。由于域分类器简单地对齐源和目标特征而不考虑类标签，因此所得到的特征很可能不仅是域不变的，而且对于类标签也是无区别的。因此，很难达到最佳的分类性能。我们的方法基于聚类假设，即决策边界应位于特征空间中的低密度区域[5]。在没有模型自适应的情况下，特征提取器为来自目标域的未见过的数据生成无差别的特征，并且分类器可以绘制穿过目标域上的特征密集区域的决策边界。因此，我们通过将决策边界推离目标域的特征来学习域适应模型。我们的方法Drop to Adapt（DTA）采用对抗性dropout [30]来在目标域上强制执行集群假设。更确切地说，为了支持各种任务，我们分别为全连接层和卷积层引入了元素和通道对抗性丢弃操作。图1概述了我们的方法，我们在3.3节中设计了相关的损失函数。我们将我们的贡献总结如下：1）我们在UDA中提出了一个通用框架，该框架建立在对抗性dropout [30]的基础上。我们的实现支持卷积层和全连接层; 2）我们在各种图像分类的域自适应基准上进行测试，并与最先进的方法相比取得了有竞争力的结果;以及3）我们将所提出的方法扩展到UDA中的语义分割任务，其中我们执行从模拟到真实世界环境的自适应。2. 相关工作领域适应已经被广泛研究。本-大卫等. [1，2]检查了两个域之间的各种发散度量，并定义了目标域误差的上限。基于这些研究，图像翻译方法在图像水平上最小化了两个域之间的差异[42，51，3]。另一方面，特征对齐方法试图匹配源域和目标域之间的特征分布[11，44，23]。特别是，Ganinetal. [11]提出了一种域对抗训练方法，旨在通过欺骗域鉴别器来生成域不变特征。许多最近的作品使用领域对抗训练作为其适应过程中的关键组成部分[12，4，15，40，31，47，46]。但是，域分类器不能考虑类标签;因此所生成的特征对于分类而言往往是次优的。为了克服领域对抗训练的弱点，最近的工作直接处理决策边界和基于聚类假设的特征表示之间的关系[5]。几项工作[25，9，40]利用半监督学习进行局部自适应。此外，MCD [37]和ADR [36]使用极大极小训练方法将目标特征分布推离决策边界，其中两种方法都由特征提取器和分类器组成。更确切地说，在[36]中，通过随机丢弃对两个不同的分类器进行采样。然后，对于相同的目标数据样本，更新分类器以最大化两个预测之间的差异。最后，多次更新特征提取器以最小化这种差异。极小极大训练过程使分类器处于噪声敏感状态。因此，它必须重新训练以获得最佳性能。虽然我们的工作部分地受到ADR的启发，但是与现有技术[36，37]相比，所提出的方法更有效且更简单地训练。我们没有更新分类器以最大化差异，而是在分类器上使用adversar- ial dropout [30]来实现类似的效果。此外，这种对抗性丢弃也可以应用于特征提取器。不需要极大极小训练方案，DTA具有简单可靠的自适应过程。Dropout是一种简单而有效的正则化方法，它在训练过程中随机丢弃一部分神经元[41]。根据Srivastava等人的研究[41]，dropout具有整合多个子集的效果，网络。Park等人[29]第29话：卷积层上的丢弃。Tompson等人[43]指出，卷积层的激活通常被同一特征图中的类似激活所包围;因此，丢弃单个神经元在卷积层中没有强烈的影响。相反，他们提出了空间丢弃，即丢弃整个特征图而不是单个神经元。建立在空间辍学，侯埃尔al。 [16]提出了一种加权的信道丢弃，其对各个信道使用可变的丢弃率，其中丢弃率取决于信道的平均激活值。加权通道丢弃仅适用于网络的深层，其中激活已知具有高特异性[50，49，48]。类似地，对于通道方式的对抗性丢弃，我们以对抗性方式移除整个特征图。933. 该方法3.1. 无监督域自适应我们首先定义了无监督域自适应（UDA）问题，以及我们工作。在UDA设置中，我们使用来自两个不同领域的数据：源域S={Xs，Ys}，目标域T={Xt}。一个来自源头的域xs∈ Xs有一个相关的标签ys∈ Ys，而目标域xt∈Xt中的一个没有配对的地面真值标签。我们采用一个特征提取器f（x; Mf），其中Mf表示可以应用于特征提取器的任意层的丢弃掩码。特征提取器从两个域x{\displaystyle x} S {\displaystyle x} T中获取数据点，并创建一个潜在向量，该潜在向量被馈送到分类器c（·;mc）中。分类器在任意层处应用丢弃掩码m。。我们将整个神经网络表示为特征提取器和分类器的组成h（x;mf，mc）=c（f（x;mf）; mc）.3.2. 对抗性脱落我们利用非随机丢弃机制 Ad- versarial Dropout（AdD）[30]进行无监督域自适应。对抗性丢弃最初被提出作为监督和半监督学习的有效正则化方法。更具体地，Parket al. [30]定义了两种类型的对抗性辍学：有监督的对抗性退出（SAdD）和虚拟对抗性退出（VAdD）。通过访问地面实况标签，SAdD用于最大化模型预测和地面实况标签之间的差异。另一方面，在没有标签的情况下，VAdD用于最大化输入的两个独立预测之间的分歧。由于缺乏靶结构域标签，SAdD不能用于我们的目的。因此，我们专门使用VAdD，为了方便起见，将其称为加法器提供了一个简单而有效的机制，生成两个不同的预测输入。最终，我们的目标是通过最小化预测之间的差异来对目标数据执行聚类假设。为此，我们介绍了元素明智的加法（EAdD），并提出了它的变种，通道明智的加法（CADD）。我们首先定义应用于网络h的中间层的丢弃掩码m。为了简单起见，我们通过应用dropoutm的层将网络h分解为后续的子网络hl和hu，例如：h（x; m）=hu（m<$hl（x）），（1）其中⊙表示逐元素乘法。注意，m与hl（x）的输出具有相同的维数。设D[p，p′]≥0度量两个分布p和p′之间的散度.然后，两者(a) 逐元素加法(b)智能加法（CAdD）图2. EAdD和CAdD的比较EAdD单独丢弃单元，而不管空间相关性如何。另一方面，CAdD丢弃整个特征图，使其更适合卷积层。具有不同dropout掩码m和ms的x的预测被定义为：D[h（x; ms），h（x; m）]（2）= D [hu（m shl（x）），hu（mhl（x））].3.2.1元素对抗性脱落逐元素对抗丢弃（EAdD）掩码madv相对于随机丢弃掩码ms定义为：madv = argmaxD [h（x; ms），h（x; m）]M其中ms−m≤δeL，（3）其中L表示m∈RL的维数，δe是控制关于ms的扰动幅度的超参数。目标是找到最小修改的对抗掩码madv，其最大化X的两个独立前向传递之间的输出散度D。为了找到madv，Park et al. [30]优化0/1背包在这个过程中适当放松的问题。其优化过程可以简化为以下步骤。首先，对hl（x）中的每个元素近似计算影响值，该影响值与元素对增加发散的贡献成正比当负的，该元素对发散度具有减小的作用。然后，在不破坏边界条件的情况下，调整ms的元素以使发散最大化。3.2.2竞争性对抗性退出为了在更广泛的任务中使用DTA，我们将EAdD扩展到卷积层。然而，在这些层中，由于特征图的个体激活之间的强空间相关性，标准丢弃相对无效[43]。当简单地应用于卷积层时，EAdD dropout会遇到相同的问题因此，我们制定CAdD，它adversarially下降整个特征图，而不是个别激活。虽然一般过程类似于EAdD的过程，但我们对掩模施加某些约束以表示空间丢弃[43]。图2突出了EAdD和CAdD之间的差异。94FFC考虑卷积层的激活，hl（x）∈RC×H×W，其中C、H和W分别表示激活的通道、高度和宽度维度。我们定义一个通道方向的丢弃掩码m（i）∈RH×W，其中以下限制：m（i）= 0或1，i∈ {1，···，C}.（4）这里，m（i）对应于h 1（x）的第i个激活图，域适应目标。作为主要的组成部分，我们提出的目标函数域适应。目标由影响特征提取器LfDTA和分类器LcDTA的两个部分组成：Ldta（T）= Lfdta（T）+Lcdta（T）。（八）我们的目标是最小化两个预测分布之间的分歧关于输入x：一个与一个范围，0∈RH×W表示零矩阵，1 ∈RH×Wdom dropout maskms另一个是对抗性的分别表示一的矩阵。然后，频道-wise adversarial dropout mask定义为：madv = argmaxD [h（x; ms），h（x;m）]，Mdropout maskmadv.在众多的散度度量中，我们选择了Kullback-Leibler（KL）散度。假设特征提取器包括在卷积层中，我们对m adv采用通道式对抗性丢弃：哪里1摄氏度Fms（i）−m（i）（5）电子邮件HWi=1LfDTA（T）=ExTD h（xt; ms），h（xt; madv）tf fΣΣΣΣ如前所述，δc是控制=ExTDKL h（xt; ms）h（xt;madv））.扰动查找通道的过程对抗性tf f（九）dropout掩码madv类似于元素式对抗dropout的掩码。然而，对于CAdD，由于等式1（x）中的约束，针对h 1（x）的每个激活图近似影响值。（四）、我们在补充材料的附录A中提供了关于近似的更多细节。3.3. 下拉以适应与现有技术[37，36]不同，所提出的算法利用统一的目标函数来优化所有网络参数。总损失函数被定义为四个目标函数的加权和：我们在图1中说明了LfDTA的影响。第1段（c）分段。最初，决策边界穿过特征空间中的高密度区域（图1）。1（a）），这违反了集群假设。通过在特征提取器上应用对抗性丢弃，我们使某些特征跨越决策边界（图12）。1（c），左）。然后，为了实施一致的预测，更新模型参数以将决策边界推离这些特征（图11）。1（c），右）。类似地，我们将AdD应用于分类器，其中分类器被定义为一系列完全连接的层。因此，我们执行逐元素对抗性dropoutmadv和计算散度：L（S，T）=L（S）+λL（T）+λL（T）+λL（T），LcDTA（T）=ExΔTΣDKL Σ ΣΣh（x t; m s）h（x t; madv））.T1DTA2 E3V（六）tc cc（十）其中，L_T、L_DT_A、L_E和L_V分别表示针对特定任务、域适应、熵最小化和虚拟对抗训练（VAT）的目标[27]。此外，相关的超参数λ1、λ2和λ3控制着这些项的相对重要性。具体任务目标。我们定义关于源域S的任务特定的目标函数LT。在实践中，该目标函数可以根据给定的任务。作为一个例子，我们提出了广泛用于分类的交叉熵：LT（S）= −Ex，y S[yTlogh（xs）]，（7）95不当对抗性丢弃应用于分类器时，我们确定特征空间中最不稳定的区域这些不稳定区域位于决策边界附近，即使是很小的扰动，这些区域中的预测也会发生变化(Fig.1（d），左）。因此，最小化LcDTA使得特征避免落入这样的易失性区域中（图1B）。1（d），右）。熵最小化目标。我们引入熵最小化目标，以加强集群假设，进一步。这种损失会惩罚目标样本接近决策边界，从而导致模型学习更多的判别特征：ss s其中ys是ys的独热编码向量。LE（T）= −ExT[h（xt）Tlog h（xt）]。（十一）96增值税目标。最后，我们利用增值税，这adversar-ially扰动的目标数据在输入水平。增值税最小化目标定义为：表1.在小图像数据集上的实验结果。* 我们将SE与MT+CT+TF进行比较。LV（T）=ExtTΣmaxDKL [h（xt）h（xt+r）]联系我们Σ、（十二）其中r表示输入xt上的虚拟对抗扰动。虽然DTA和VAT的动机类似，但它们用不同形式的扰动来正则化网络：网络参数扰动（ DTA ）和输入扰动（VAT）。因此，VAT为DTA提供了正交正则化，从而产生互补效应。DTA的解释图3使用Grad-GAM [39]可视化了对抗性退出的影响，其中强调了预测的最具鉴别力的区域。作为基线，我们展示了仅在源域上训练的模型的Grad-CAM可视化（SO，见图2）。第3（b）段）。我们将AdD应用于仅源模型（SO + AdD），并看到语义上有意义的区域被停用。相反，我们的域适应模型（DTA，参见图1B）。3（d））保持相对不受AdD的影响，因为它一直看到相同的区分区域（参见图3（d））。3（e）），无论添加。的可视化意味着，AdD促进激活更多的隐藏单元，并借给跨域的强大的决策边界。(a) 输入（b）SO（c）SO+ AddD（d）DTA (e)DTA+ AddD图3. 对抗性退出的影响。我们使用GradCAM [39]在目标域图像上可视化类激活图。与其仅在源域（b）上训练的基线模型相比，广告丢弃（c）有效地停用了用于预测的语义上我们的域适应模型（DTA）产生合理的预测（d），即使10%的单元被AddD（e）消除。4. 实验结果在本节中，我们将在小型和大型DA基准测试中评估所提出的方法。为了证明我们的模型的通用性，我们进行了两个主要的识别任务的实验：分类和分割。在每次实验，我们选择一个域作为源域，另一个域作为目标域。我们将“仅源”表示这两个作为基线的下限和上限性能域自适应。我们不调整一组数据增强方案，也不报告集合预测的性能，如法国人[9]。相反，所有评估结果都基于具有单个模型预测的相同数据增强策略4.1. 小数据集为了评估DTA模型的影响，我们首先在小数据集上进行实验。我们使用MNIST [20]，USPS [17]和街景门牌号（SVHN）[28]来适应数字识别。对于对象识别，我们使用CIFAR10（CIFAR）[18]和STL10（STL）[6]。为与最近的最先进的方法，如自集成（SE）[9]，VADA[40]和DIRT-T [40]进行公平的比较，我们在与SE相同的网络架构上进行实验。这并不是说VADA/DIRT-T使用的是略有不同的网络架构，参数的总数是可以比较的。结果见表1，超参数设置的完整列表见附录B。SVHN→MNIST。SVHN和MNIST是两位数分类数据集，两者之间具有剧烈的分布变化而MNIST由二进制手写数字图像，SVHN由街道门牌号的彩色图像组成。由于MNIST的图像维数明显低于SVHN，因此我们采用MNIST的维数为SVHN的32×当建议的DTA应用，我们的方法表明，的显着改进，比以前的作品，并实现了类似的性能“目标只”MNIST的性能MNIST参与。MNIST和USPS包含灰度图像，因此与SVHN→ MNIST相比，这两个数据集之间的域偏移相对较小源目标SVHNMNISTMNISTUSPSUSPSMNISTSTLCIFARCIFARSTL来源（Ours）76.596.376.960.178.2SE*[9]98.698.197.374.279.7VADA[40]94.5--73.580.0DIRT-T[40]99.4--75.5-[19]第十九话98.3--76.481.1[19]第十九话99.4--76.3-我们99.499.599.172.882.6目标（Ours）99.697.899.690.470.097表2.使用ResNet-101的VisDA-2017分类结果。航空自行车总线车马刀摩托。人植物sktb.火车卡车avg.源仅46.227.631.478.171.81.371.714.363.531.093.73.250.8DAN [23]87.163.076.542.090.342.985.953.149.736.385.820.761.1DANN [11]81.977.782.844.381.229.565.128.651.954.682.87.857.4中文（简体）87.060.983.764.088.979.684.776.988.640.383.025.871.9ADR [36]87.879.583.765.392.361.888.973.287.860.085.532.374.8我们93.782.285.683.893.081.090.782.195.178.186.432.181.5设置.在这两个适应方向，我们实现了一个accu-活泼接近目标域上的完全监督学习的性能。事实上，我们在USPS上获得了更高的准确性，当从MNIST适应时，比直接在USPS上训练时。这是因为USPS训练相对较小，允许我们通过使用DTA从MNIST适应来实现改进CIFAR参与。CIFAR和STL是具有彩色图像的10类对象识别数据集。我们删除不重叠的类，并将任务重新定义为9类分类任务此外，我们对STL的96×96图像尺寸进行了降尺度处理，使其与 CIFAR的32×在CIFAR→STL环境中，我们的方法的出于MNIST→USPS设置中提出的相同原因然而，在STL→CIFAR中，我们的方法有点弱。这是因为STL包含一个非常小的数据集，每个类只有50张图像。由于DTA规则化了模型的决策边界，其内在假设是模型在源域上可以实现较低的泛化误差。这个假设在大多数情况下都成立，但是当STL是源域时就不成立了。总而言之，我们在所有的主结构中实现了比仅源模型大幅度的改进。在五种配置中的四种配置中，我们的方法优于最近的最先进的结果。接下来，我们评估我们的方法更实际的设置，体现了现实生活中的域适应场景。4.2. 大型数据集我们将我们的方法应用于大规模，大图像数据集的适应特别是，我们评估了VisDA- 2017 [32]图像分类和VisDA-2017图像分割任务。分类. VisDA-2017图像分类是一个12类域自适应问题。源域由152，397个合成图像组成，其中3D CAD模型在各种条件下渲染目标域由从MS-COCO数据集拍摄的55，388张真实图像组成[21]。因为目标是从标记的(a) 仅来源（b）DTA图4.t-SNE。使用ResNet-101的VisDA-2017分类数据集的t-SNE可视化，在DTA适应之前和之后。t-SNE超参数在两种可视化中是一致的。合成图像并正确预测真实图像的类别，该数据集经常用于许多域适应工作[23，12，37，36，9]。为了与最近的作品进行公平比较，我们遵循ADR协议[36] 在我们的实验中。具体来说，我们在第二个全连接层之后应用EAdD，并在ResNet-50 [14]和ResNet-101模型的最后一个卷积层内应用 CAdD 。这两个模型都使用ImageNet [8]预训练模型的权重进行初始化。有关实施的更多详细信息，请读者参阅附录B。使用ResNet-101主干的每类自适应性能可以在表2中找到。该表清楚地表明，我们提出的方法大大优于以前的方法。请注意，此表中的所有方法都使用相同的ResNet-101主干。与仅源模型的性能相比，我们在平均精度上实现了30.7%的改进（或 60.4%的相对改进）。此外，DTA显示所有类别都有显著改善;事实上，它在所有类别中实现了最好的每类别性能，除了“卡车”类别，在该类别中它仅落后于ADR 0.2%。虽然我们的仅源模型略低于MCD [37]和ADR，但我们提出的方法有效地将模型从源域推广到目标域，比MCD和ADR的适应性能分别强9.6%和6.7%。在表4中，我们表明在不同的骨干网络上成功应用DTA是可行的。类似于98表3.GTA→ Cityscapes的结果，使用ResNet-50作为基础网络的修改后的FCN道路人行道建筑墙栅栏杆t 光 t标志蔬菜地球人乘用车卡车公共汽车火车mbikeMiou源仅25.313.756.82.717.221.220.08.775.311.272.045.74.942.214.220.20.419.50.024.8DANN72.419.173.03.99.317.313.15.571.020.162.232.65.268.412.19.90.05.80.026.4ADR87.815.677.420.69.719.019.97.782.031.574.343.59.077.817.527.71.89.70.033.3我们88.836.976.920.915.419.621.87.982.926.776.151.79.476.122.428.91.715.20.035.8表4. 使用ResNet-50进行VisDA-2017分类的结果。*SE报告多个预测的集合。所有其他方法，包括我们的方法，都是报告单个预测的平均值方法avg.仅源（我们的）45.6DAN [23]53.0RTN [25]53.6DANN [11]55.0[26]第二十六话61.6GTA [38]69.5SimNet [33]69.6CDAN-E [24]70.0我们76.2SE*[9]82.8在ResNet-101上的DTA，我们的模型优于最近的先前的方法，并证明了比仅源模型的显着虽然SE报告了最好的总体性能，但我们不认为它与其他方法（包括我们的方法）具有可比性，因为报告的准确性是16个集成预测的结果。对于定性分析，图4显示了VisDA-2017分类与t-SNE的特征表示[45]。仅源模型示出了源域的合成图像样本（蓝色）的强聚类，但未能对目标域的真实图像样本（红色）具有类似的影响。在训练过程中，DTA通过刺激模型的特征表示和决策边界来不断地执行目标样本的聚类。因此，我们可以清楚地看到DTA对目标特征的分离得到了改善，从而在VisDA-2017中获得了最佳性能。细分为了进一步证明我们的方法对现实世界适应设置的适用性，我们在具有挑战性的VisDA-2017语义分割任务中评估了DTA。对于源域，我们使用由24966个标记图像组成的合成GTA 5[34]数据集作为目标域，我们使用真实世界的Cityscapes [7]，由5000张图像组成。这两个数据集都是在19个类别的同一类别上进行评估的，具有平均交集（mIoU）度量。为了与最近的方法[12，36]进行公平的比较，我们遵循ADR的程序，并使用全卷积网络的修改版本（FCN）[22]在ResNet-50主干上。我们在ResNet-50的最后一个卷积层中应用CAdD。我们在表3中报告了我们的结果，以及现有方法的结果。我们的方法不仅明显地改进了仅源模型的mIoU，而且改进了竞争方法。即使使用与分类实验中相同的训练过程和设置，DTA在适应数据集中最常见的类方面也非常有效。这一结论在图5中得到了支持，其中我们显示了输入图像，地面实况以及仅源和DTA模型的相应输出的示例。虽然仅源预测在大多数类中是错误的，但DTA5. 讨论虽然建议的DTA在多个视觉任务上显示出显着的改进，我们想了解DTA中每个组件的作用以及它们的组合在实践中如何运作。我们进行了一系列消融实验，并在表5中给出了结果。所有消融均在VisDA-2017图像分类数据集上进行。为了验证有效性和通用性，我们使用ResNet- 50和ResNet-101模型进行本消融中的所有实验。修改后的基于ResNet的模型由在第二个完全连接层之后具有FAdD的原始卷积层和在最后一个卷积层内的CAdD组成。方程中的熵损失项（11）适用于除“仅源”设置之外的所有消融为了评估DTA（VAT、fDTA、cDTA）的每个模块是否在性能中起重要作用，我们首先用各个模块进行实验。总体而言，所有三个模块都比仅源模型提高了性能。我们观察到，这三个组成部分有助于每个类别的准确性不同。在ResNet-101中，虽然fDTA对“刀具”类别有很大影响理论上，VAT [27]可以被看作是通过扰动输入图像的正则化，而所提出的方法可以被看作是对模型的特征空间的扰动。因此，我们可以看到，两种组合（fDTA + VAT）、（cDTA + VAT）显示增加的每与单独正则化模型（即，73.2%（增值税）/77.0%（cDTA）→ResNet中的81.2%99(a) 输入（b）真实数据（c）仅源（d）DTA图5. 语义分割GTA→ Cityscapes的语义分割任务的定性结果，在DTA适应之前和之后。我们使用修改后的FCN架构，以ResNet-50为基础模型。表5. VisDA-2017分类数据集方法航空自行车总线车马刀摩托。人植物sktb.火车卡车avg.ResNet-50源仅54.227.717.657.148.44.086.411.069.115.695.77.346.0增值税83.162.570.553.081.813.289.974.488.541.189.038.267.1fDTA88.858.282.882.390.40.192.877.394.278.586.90.272.5fDTA+ VAT91.366.377.777.591.013.192.683.094.258.085.912.073.1CDTA92.472.975.172.692.87.490.882.195.066.687.831.674.7cDTA+ VAT90.072.783.779.392.06.891.482.692.270.486.322.975.4cDTA + fDTA88.268.887.282.892.35.889.478.495.574.882.416.175.0我们93.170.583.887.092.33.391.986.493.171.082.015.376.2ResNet-101源仅46.227.631.478.171.81.471.614.363.531.093.73.250.8增值税90.143.983.985.690.91.495.078.693.857.986.213.473.2fDTA89.175.584.687.292.372.989.778.591.839.584.110.876.4fDTA+ VAT93.084.881.878.193.270.188.882.094.081.587.439.680.5CDTA91.881.578.767.091.371.685.376.993.572.586.744.177.0cDTA+ VAT93.886.182.978.392.283.988.280.694.182.288.040.081.2cDTA + fDTA91.777.778.875.291.073.288.478.893.256.688.735.677.4我们93.782.285.683.893.081.090.782.095.178.186.432.181.5101 ， 67.1% （ VAT ） /72.5% （ fDTA ） →73.1% （在ResNet-50中）。这些结果表明，使用增值税是有益的[27]与所提出的方法。更具体地说，这两种方法表现出互补的效果，适应一个大的域转移。在fDTA + cDTA与所提出的方法的最终版本（VAT + fDTA + cDTA）的比较中也可以观察到该优点一个有趣的点是，所有这些趋势在两个主干模型中都得到了保持;唯一的区别是仅源的性能和单个模型的性能之间的裕量。从这一事实，我们得出结论，所提出的方法可以作为一个通用的正则化技术的适应，无论模型6. 结论我们提出了一个简单而有效的方法，无监督域自适应，尽管大的域移位。通过两种类型的对抗性dropout模块，EAdD和CAdD，我们在tar上强制执行了集群假设，获取域。所提出的方法很容易集成到现有的深度学习架构中。通过在各种小型和大型数据集上的广泛实验，我们证明了所提出的方法在两个主要适应任务上的有效性，并且在所有情况下，与仅源模型和最先进的结果相比，我们都取得了显着的改进。鸣谢。这项工作得到了韩国政府（MSIT）资助的信息通信技术促进研究所（IITP）的支持（第100号）。R7117-16-0164，基于V2X无线通信的广域驾驶环境感知和协同驾驶技术的引用[1] Shai Ben-David 、 John Blitzer 、 Koby Crammer 、 AlexKulesza 、 FernandoPereira 和 JenniferWortmanVaughan。从不同领域学习的理论。马赫学习. ，2010年。100[2] Shai Ben-David ， John Blitzer ， Koby Crammer ， andFernando Pereira.域适应的表示分析。在NIPS，2006年。[3] Konstantinos Bousmalis 、 Nathan Silberman 、 DavidDohan、Dumitru Erhan和Dilip Krishnan。无监督像素级域自适应生成对抗网络。在CVPR，2017年。[4] Konstantinos Bousmalis ， George Trigeorgis ， NathanSilber-man，Dilip Krishnan，and Dumitru Erhan.域分离网络。在NIPS，2016年。[5] Olivier Chapelle和Alexander Zien。通过低密度分离的半监督载于AISTATS，2005年。[6] Adam Coates，Honglak Lee，and Andrew Ng.无监督特征学习中的单层网络分析。载于AISTATS，2011年。[7] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。在CVPR，2016年。[8] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。CVPR，2009。[9] Geoffrey French，Michal Mackiewicz和Mark Fisher。视觉域自适应的自组装。在ICLR，2018年。[10] A Gaidon，Q Wang，Y Cabon和E Vig。虚拟世界作为多目标跟踪分析的代理。在CVPR，2016年。[11] 雅罗斯拉夫·甘宁和维克多·伦皮茨基。通过反向传播的无监督ICML，2015。[12] Yaroslav Ganin 、 Evgeniya Ustinova 、 Hana Ajakan 、PascalGermain、HugoLarochelle、FrancçoisLa violette、Mario Marchand和Victor Lempitsky。神经网络的领域对抗JMLR，2016.[13] Andreas Geiger ， Philip Lenz ， Christoph Stiller ， andRaquel Urtasun.视觉与机器人技术的结合：Kitti数据集。IJRR，2013年。[14] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。[15] Judy Hoffman ， Eric Tzeng ， Taesung Park ， Jun-YanZhu，Phillip Isola，Kate Saenko，Alexei A.埃弗罗斯和特雷弗·达雷尔。CyCADA：周期一致的对抗性结构域适应。在ICML，2018。[16] 侯赛辉和王子雷。加权通道丢失深度卷积神经网络的正则化。在AAAI，2019年。[17] 乔纳森·J赫尔一个用于手写文本识别研究的数据库IEEETPAMI，1994年。[18] 亚历克斯·克里热夫斯基从微小图像中学习多层特征，2009年。技术报告。[19] AbhishekKumar、PrasannaSattigeri、KahiniWadhawan 、 Leonid Karlinsky 、 Rogerio Feris 、 BillFreeman和Gregory Wornell。用于无监督域自适应的共正则化对齐在NIPS，2018年。[20] Yann LeCun ， Leon Bottou ， Yoonne Bengio ， andPattrick Haffner. 基于梯度的学习应用于文档识别。Proc.IEEE，1998.[21] 林宗义，迈克尔·梅尔，塞尔日·贝隆吉，卢博米尔·布尔德夫，罗斯·吉希克，詹姆斯·海斯，彼得·佩罗纳，德瓦·拉马南，C. 劳伦斯·齐特尼克和彼得·多尔·拉尔。Microsoftcoco ：上下文中的公共对象。 2014 年，在ECCV[22] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络。CVPR，2015。[23] Mingsheng Long ， Yue Cao ， Jianmin Wang ， andMichael I.约旦.使用深度适应网络学习可转移特征。ICML，2015。[24] Mingsheng Long ， Zhangjie Cao ， Jianm

下载后可阅读完整内容，剩余1页未读，立即下载