无监督域自适应的深度对抗性注意力对齐目标期望最大

199 浏览量更新于2023-10-13 收藏 978KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

用于无监督域自适应的深度对抗性注意力对齐目标期望最大康国梁1、梁铮1、2、颜颜1、易阳11悉尼科技大学{国良.康@学生。 Yan.Yan-3@student.， Yi .Yang@} uts.edu.au2澳大利亚国立大学计算机科学研究院liangzheng06@gmail.com抽象。在本文中，我们使用卷积神经网络（CNN）对无监督域自适应（UDA）做出了两个贡献。首先，我们的方法通过注意力对齐在所有卷积层中传输知识。大多数先前的方法对准高级表示，例如，全连接（FC）层的激活。然而，在这些方法中，支撑关键低级领域知识的卷积层不能直接更新以减少领域差异。具体地，我们假设图像中的判别区域对于图像风格变化是相对不变基于这一假设，我们提出了一个对所有目标卷积层的注意力对齐方案，以揭示源域共享的知识。其次，我们估计目标网络训练的未标记数据以前的方法，迭代地更新的伪标签的目标网络和细化的目标网络更新的伪标签，是容易受到标签估计误差。相反，我们的方法使用类别分布来计算训练的交叉熵损失，从而改善了估计标签的错误累积这两个贡献使我们的方法在Office-31数据集上的表现优于最先进的方法+2.6%。关键词：领域自适应·CycleGAN· attention· EM1介绍本文主要研究视觉分类任务中的无监督域自适应（UDA）。我们的目标是将来自源域数据训练的源网络的知识适应于目标网络的训练，该目标网络将用于在目标域中进行预测请注意，在UDA中，目标域是未标记的。UDA的日益普及源于这样一个事实，即当它们的底层数据分布不同时，在一个域上训练的模型的性能可能在另一个域上严重退化。在UDA社区中，许多深度学习方法试图最小化顶层上跨域的差异，例如完全连接2康国良等（a）（b）（c）（d）（a）（b）（c）（d）图1：ResNet-50最后一个卷积层的注意力可视化。在（a）中示出了原始目标输入图像。源网络、在标记的目标数据上训练的目标网络以及适应对抗性注意力对齐的目标网络的相应注意力分别在（b）、（c）和（d）中示出。层，通过明确施加惩罚项[16，17，23，26]或以对抗的方式[7，24，25]。虽然完全连接层处的修改原则上可以反向传播，但是它可能在几层之后衰减，特别是因此，卷积层可能是欠约束的。然而，域差异可能出现在卷积层的开始处，这使得纯粹在网络尾部的任何调整都不太有效。我们通过可视化它们的注意力机制来研究卷积层的域差异。本质上，注意力机制被强调为CNN的关键成分，由许多研究提出[20，22，27- 30，32 ]。 Zagoruy koetal. [2 8]发现现代的思维方式与注意机制高度相关：较强的模型总是比较弱的模型拥有更好的对齐注意力。从图1中，假设我们有分别在来自源域和目标域的标记数据上训练的网络，我们观察到相同目标域图像的卷积层表现出的不同注意力模式。当直接将源网络应用于目标域数据时，注意机制退化，这可能对分类性能产生负面影响。因此，本文期望卷积层的注意力对域移位是不变的。基于上述讨论，本文采取域差异通过将目标网络的注意力与源网络对齐，直接考虑卷积层的注意力。我们的假设是，无论如何域变化，图像的歧视性部分应该是不敏感的图像风格的变化。先前的差异度量（例如、MMD [16]和JMMD [17]）不能被平凡地转移以测量其中低级结构信息是关键的卷积层在本文中，我们建议使用CycleGAN [33]来建立跨域的数据对应关系，即，将数据从一个域转换到另一个域，而不修改用于UDA的3其基本内容。然后，对于配对样本（例如，真实源（或目标）图像和合成目标（或源）图像），我们显式地惩罚源网络和目标网络的注意力之间的距离。此外，我们使用来自源域和目标域的真实和合成数据来训练目标网络。对于源域及其转换数据，我们在预测和地面实况标签之间施加交叉熵损失。对于目标域及其翻译的源域数据，由于缺乏地面实况标签，我们利用它们的底层类别分布来提供对目标数据的洞察。概括地说，我们采用改进的期望最大化（EM）步骤，以最大限度地提高可能性的目标do-main图像和更新模型。训练迭代提高了标签后验分布估计和模型的区分能力。我们的贡献概述如下，– 我们提出了一种深度注意力对齐方法，允许目标网络模仿源网络的注意力。利用CycleGAN的配对性质，不需要额外的监督。– 我们提出使用EM算法来利用未标记的目标数据来更新网络。几个修改进行稳定的训练和提高适应性能。– 我们的方法在所有六个转移任务中的表现都优于最先进的技术，在真实世界的领域适应数据集Office-31上平均提高了2.6%。2相关工作无监督域自适应。已经提出了用于无监督域自适应的各种方法[7，16，17，26]。许多工作试图使神经网络尾部的表示跨域不变 Tzeng等人 [26]提出了一种域混淆损失，以鼓励网络学习语义上有意义的和域不变的表示。类似地，Long等人[16]最小化源域和目标域之间全连接激活的MMD距离，同时共享卷积特征。Ganin等人 [7]通过添加域分类器和反向传播逆梯度，使网络能够以对抗的方式学习域不变表示。JAN [17]在多个全连接层上惩罚JMMD，以最小化来自数据分布和标签分布的域差异。此外，JAN-A [17]作为JAN的变体，以对抗的方式训练网络，JMMD作为域对手。 DSN [3]将改进的域不变特征的性能扩展到具有域不变特征的能力。关联域自适应（ADA）[8]直接在嵌入空间中加强跨域的关联，以提取统计域不变和类别区分特征。很少有作品关注来自卷积层的域移位在本文中，我们注意到，当直接应用时，注意机制不能被保留4康国良等将在源域上训练的模型映射到目标域。为了缓解这个问题，我们通过跨域施加注意力对齐惩罚来CNN的注意有许多方法可以定义和可视化CNN学习的注意力机制Zeiler Fergus [29]通过两个称为“deconvn et”的网络（其具有与原始前馈网络相同的权重），将某些特征存储到图像中Simonyan等人[22]建议使用输入图像的类分数的梯度来可视化CNN。由[32]提出的类激活图（CAM）旨在可视化CNN使用的类区分图像区域。 Grad-CAM [20]结合了基于梯度的注意力方法和CAM，使得能够在不修改原始网络结构的情况下获得类别区分注意力图[32]。Zagoruyko等人 [28]将注意力定义为一组空间图，指示网络集中在哪个区域以执行某项任务。注意力图还可以在网络的各个层中定义，使得它们能够捕获低级、中级和高级表示信息。他们提出注意力机制应该是一种跨不同网络架构的知识转移。 Zaogruyko等人 [28]在训练过程中，针对完全相同的图像，在不同的架构中调整注意力，并旨在将知识从大型模型转移到较小的模型。与[28]不同，我们的方法将注意力跨不同的数据域对齐，其中跨域的图像是未配对的，并且旨在提高模型自适应性能。不成对的图像到图像转换。未配对图像到图像翻译旨在训练模型以在不存在配对信息的情况下跨域映射图像样本。它可以通过GAN来实现，以将真实源（或目标）和合成目标（或源）图像配对[2，11，12，14，15，19，21，33]。生成合成图像可以有益于各种视觉任务[5，6，18，31]。在本文中，我们专注于最大限度地利用给定的配对真实和合成样本。我们选择了CycleGAN [33]，形成这样的对抗性数据配对。3深度对抗性注意力对齐我们的框架如图所示二、我们训练一个源CNN，它引导目标CNN的注意力对齐，目标CNN的卷积层与源网络具有相同的目标CNN使用来自源域和目标域的真实图像和合成图像的混合进行训练。对于源和合成目标域数据，我们有地面实况标签并使用它们训练目标网络的交叉熵损失。另一方面，对于目标和合成源域数据，由于缺乏地面实况标签，我们通过EM算法优化目标网络。3.1对抗性数据配对我们使用CycleGAN将源域S中的样本转换为目标域T中的样本，反之亦然。获得平均值的基本假设用于UDA的5GAN ST T S T T T T TS源合成来源CycleGAN一对源VS源源VS合成的靶合成来源VS目标合成来源VS合成来源合成的靶目标数据对图第2章：深度对抗性注意力对齐的框架我们训练源网络并修复它。源网络引导目标网络的注意力对齐。目标网络用来自这两个域的真实图像和合成图像进行训练。对于标记的真实源和合成目标数据，我们通过计算预测和地面真实标签之间的交叉熵损失来更新网络。对于未标记的真实目标和合成源图像，我们使用EM步骤最大化数据的可能性。分别通过源网络和目标网络的一对图像的注意距离（如在“在一对图像处的D”块中所定义的）p被最小化。有意义的翻译是两个域之间存在着某种联系。对于无监督域自适应，跨域的感兴趣对象属于同一类别集合。因此，可以使用CycleGAN将源域中的样本映射到目标域中的样本，同时保持底层的感兴趣对象。生成对抗网络（GAN）旨在通过对抗损失生成与真实样本无法区分的合成图像。L（G，D，X，X）=ExT[logD（x）]+ExS[1- logD（G（x））]，（一）其中xS和xT分别从源域S和目标域T将XS映射到XT的生成器GST努力使其生成的合成输出GST（XS）与域鉴别器DT的真实目标样本XT不可区分。因为跨域的训练数据是不成对的，所以从源域到目标域的转换是高度欠约束的。CycleGAN将该映射的对抗训练与其逆映射相耦合，即从S到T的映射和从T到S的映射是同时学习的。此外，它引入了周期一致性损失以使训练规则化，Lcyc（GST，GTS）=ExS[GTS（GST（xS））−xS1]+ExT[GST（GTS（xT））−xT1]，（二）源网络……目标网络/……注意惩罚6康国良等(a)（b）（c）（d）图3：使用CycleGAN跨域的配对数据。(a)以及（c）：分别从源域和目标域采样的真实图像。(b)：与（a）至GST配对的合成目标图像。(d)：通过GTS与真实目标图像（c）配对的合成源图像。从形式上讲，CycleGAN的全部目标是，Lcyc（G，F，DX，DY）=LGAN（GST，DT，XS，XT）+LGAN（GTS，DS，XT，XS）+λLcyc（GST，GTS），（3）其中常数λ控制循环一致性损失的强度通过CycleGAN，我们能够在我们的视觉域适应任务的上下文中将源域中的图像转换为目标域中的图像（图1）。（3）第三章。如示于图1、目标模型过于关注感兴趣对象的不相关背景或区分度较低的部分。这一举措将降低现代化的效率。在这方面，我们提出使用风格转换的图像作为自然图像对应来引导目标模型的注意机制模仿源模型的模型，详见第3.2节。3.2注意力对齐基于成对的图像，我们建议施加注意对齐惩罚，以减少跨域的注意力地图的差异具体来说，我们将注意力表示为每个卷积层的空间映射的函数[28]。对于CNN的输入X，令关于层1的对应特征图由Fl（X）表示。然后，关于层1的注意力图Al（x）被定义为Σ2Al（x）= |Fl，c（x）|、（四）C其中Fl，c（x）表示特征图的第c个通道。在E q中的操作。（4）Σarealllelement-wise. 高级版本可以恢复ATTion映射包括c |Fl，c|还有max |Fl，c|等等。我们采用Eq.（4）强调显著性部分特征图。我们建议使用源网络来引导目标网络的注意力对齐，如图所示二、我们惩罚源网络和目标网络之间的矢量化注意力地图之间的距离用于UDA的7L我n我ML最大限度地减少差异。为了使注意力机制对域转移保持不变，我们用来自源域和目标域的真实数据和合成数据的混合物来训练目标网络。形式上，注意对准惩罚可以被公式化为，Σ ΣAS（xS）AT（xS）ΣAS（xS）AT（xT）LAT={li−li2+lj−ljAS（xS）AS（xS）lil i2l i 2jlj2lj2ΣAS（x~S）AT（x~S）ΣAS（x~S）AT（xT）+ lm −lm2 + ln−ln2}，AS（x~S）AT（xAS（x~S）AT（xT）mlm2lm2nln2ln2（五）其中下标l表示层，并且i、j表示样本。AS和T表示关于源网络的层l的注意力图，并且目标网络。xS和xT是实源域和实目标域在特定情况下。在x~T处设置字节数，在x~S处设置字节数在i s fyx~T=GST（xS）和dx~S=GTS（xT）处，r是精确的。i i n n通过Eq。（5），成对图像的注意力图的距离（即，（xS，x<$T）和（xT，x<$S））是最小化的. 更重要的是，我们将对所有jj nn在所述被输入的数据的映射上（即，e. .，x~ S和x~S）p作为sinthroughdiffffer_t网络. 注意力对齐惩罚L_AT允许注意力机制逐渐适应目标域，这使得目标网络的注意力机制对域移位不变性。讨论在最小化跨域差异方面，我们的方法与DAN [16]和JAN [17]有相似的想法。不同之处在于，我们的方法在卷积层上工作，其中关键结构信息被捕获并跨域对齐;相比之下，DAN和JAN集中在考虑高级语义信息的FC层。另一个显著的区别是，我们的方法通过CycleGAN数据配对处理图像级差异，而DAN和JAN考虑特征分布的差异。在DAN和JAN中，分别采用MMD和JMMD准则来度量域间特征分布的差异从技术上讲，MMD和JMMD也可以作为注意差异的措施。然而，如在实验部分中所示，MMD和JMMD产生劣性能的L2距离，使我们的方法中的对抗数据配对原因在于MMD和JMMD是分布距离估计器：它们将注意力映射到再生核希尔伯特空间（RKHS），丢失了结构信息。因此，它们不适合测量跨领域的3.3培训EM为了充分利用可用的数据（标记和未标记），我们使用来自源域和目标域的真实数据和合成数据的混合来训练目标域模型，如图所示。二、源代码及其翻译一8康国良等我通过使用合成目标域数据，我们计算预测和地面实况标签之间的交叉熵损失，以通过目标网络反向传播梯度。源和对应的合成目标域数据的交叉熵损失可以用公式表示如下，ΣLCE=−[logpθ（yS|xS）+Σ l ogpθ（yS|x~T）]，（6）i i j jI j其中，yS∈{1，2，· · ·，K}表示源样本x S的标签，并且在该数据集样本x S中的变换是s。 pθ（y）的概率|x）由给定输入图像的具有参数θ的目标网络的第y个输出来表示X. x~T=GST（xS）。J J对于未标记的目标数据，由于缺乏标记，我们采用EM算法来优化目标网络。EM算法可以分为两个备选步骤：（E）期望计算步骤和期望（M）最大化步骤。目标是使目标数据样本的对数似然最大化，Σlogpθ（xT），（7）我在图像分类中，我们的先验是目标数据样本属于K个不同的类别。我们选择每个样本的底层类别Zi∈{1， 2，· · ·，K}作为隐藏变量，并且该算法被描述如下（为了描述简单，我们省略了样本下标和目标域上标）。(i)Expectationstep. Wefirstestimatepθt−1（z|x）足够，pθt−1（x|z）p（z）pθt−1（z|x）=Σz pθt−1、（8）（x|z）p（z）当d位于pθt−1（z）上时|x）由两个任务k的区域来修改。 θt−1是最后一个训练步骤t − 1时目标域CNN的参数。我们采用均匀分布来描述p（z）（即，假设所有类别的出现概率相同）和p（x）（即，假设所有可能的图像实例在图像图库的流形中均匀分布在这个例子中，pθt−1（z|x）=αpθt−1（x|z）当re α是一个连续的t时。(ii)最大的我在我的办公室。 Basedonthecomputedposteriorpθt−1（z|X），我们的目标是更新θt以改进等式的下限。（7）、Σpθt−1（z|x）logpθt（x|z）（9）zΣ注意我们省略了zpθt−1（z|x）llogp（z）被视为将所有p（z）都添加到该与θt无关的均匀分布。此外，由于pθ（z|x）= pθ（x|z），当量（9）等于，Σpθt−1（z|x）logpθt（z|X）。（十）z用于UDA的9不此外，我们建议通过三个方面来提高上述EM步骤的有效性和稳定性A) p（z）的异步更新|X）。我们采用一个独立的网络M post来估计p（z|x）并且异步地更新M_post，即，M后处理器的参数θp与两个 k 的大小 N的关系为： θp=θp/N×N。以这种方式，我们避免了p（z）的频繁更新|（3）使训练过程更加稳定。B) 过滤不准确的估计。因为p（z）的估计|x）是不准确的，则我们设置阈值p_t并且丢弃p（z）的最大值|x）在z上的值低于pt。C) 在Mpost的每次更新之后初始化学习速率调度。为了加速目标网络适应分布p（z）的新更新|x），我们选择在M_post的每次更新之后初始化学习速率调度。不仅对于在ax∈S=GTS（xT）处出现的问题，我们还可以应用修改的EM步骤进行训练。因为GTS是一个定映射，我们假设p（z|x~S）=p（z|xT）。总之，当使用EM算法用目标数据和合成源数据更新目标网络时，我们首先计算后验p（z|xT）通过网络M后，每N步与目标网络进行迭代。那我们就尽量减少损失Σ Σ Σ ΣEM T T T SL=−{我pθpost（zi|xi）logpθ（zi|xi）+zijpθpost（zj|xj）logpθ（zj|x（j）}。zj（十一）在我们的实验中，我们表明，这些修改产生一致的改进，- ment的基本EM算法。3.4深度对抗性注意力对齐基于上述讨论，我们训练目标网络的全部目标可以公式化为，minLfull =LCE+LEM+βLAT（12）θ其中β确定注意力对齐惩罚项L_AT的强度。讨论我们的方法主要包括两部分：注意力调整和EM训练。一方面，注意力对齐对于EM训练的成功至关重要对于EM训练，最初不存在估计的隐藏变量Z被分配与地面实况标签对齐的语义含义的约束，即可能存在标签移位或数据以不期望的方式聚类。利用标记数据（例如，源数据和合成目标数据）进行训练并且使θpost与θ同步，可以缓解上述问题此外，注意力对齐通过鼓励该网络集中于期望的区别性信息。10康国良等另一方面，EM通过提供针对目标数据的标签分布估计而有益于注意力对准。EM近似地引导目标网络的注意力以适应目标域统计，而注意力对齐则将目标网络的注意力调节到离源网络不远。这两个看似敌对的对等体合作，使目标网络获得对域转移不变性的注意机制。请注意，这两个部分都是通过使用对抗性数据配对来提升的，对抗性数据配对提供了自然的图像对应关系以执行注意力对齐。我们的方法被称为“dee p ad v e r s ar al at t e nin i n i n m e n t”。4实验4.1设置数据集。我们使用以下两个UDA数据集进行图像分类。l数字数据集从MNIST [13]（60，000个训练+10，000个测试图像）到MNIST-M [7]（59，001个训练+90，001个测试图像）。MNIST和MNIST-M分别被视为源域和目标域MNIST-M的图像是通过将MNIST数字与从BSDS 500 [1]的彩色照片中随机提取的补丁组合作为其背景来创建的。m Office-31是现实世界领域适应任务的标准基准。它由4，110幅图像组成，分为31个类别。该数据集包含三个不同的域，1）分别在不同设置下从Amazon网站（Amazon域）收集的图像，2）网络相机（Webcam域），和3）数码SLR相机（DSLR域）。该数据集在各个域之间也不平衡，A域中有2，817张图像，W域中有795张我们评估了我们的算法在这三个域中的六个转移任务，包括A→ W，D→ W，W→D，A→ D，D→A和W → A。竞争的方法。我们将我们的方法与一些有代表性和最先进的方法进行了比较，包括RevGrad [7]，JAN [17]，JAN-A [17]，DSN[3]和ADA [8]，它们使CNN的FC层上的域差异我们比较了这些方法的结果，在他们发表的论文与相同的评价设置。对于任务MNIST→MNIST-M，我们还与PixelDA [2]进行了比较，PixelDA是该任务的最先进方法。CycleGAN和PixelDA都将源样式转移到目标域，而无需大量修改其内容。因此，PixelDA是跨域生成配对图像的另一种方法，并且与我们的框架兼容我们强调，一个模型能够产生更多的真正的配对图像可能会导致更高的准确性，使用我们的方法。在这个方向上的调查可以是平行的，超出了本文的范围。4.2实现细节MNIST→ MNIST-M源网络在MNIST训练集上训练。当源网络被训练时，它是固定的以指导用于UDA的11目标网络。目标和源网络由四个卷积层组成，其中前三个用于特征提取，最后一个用作分类器。我们将源网络和目标网络之间的注意力对准三个卷积层。Office-31为了与最先进的域适配方法[17]进行公平比较，我们采用ResNet-50 [9，10]架构来执行Office-31上的适配任务，并且我们从Ima-geNet [4]上预训练的模型开始。我们首先在源域数据上微调模型并修复它。然后，源模型用于引导目标网络的注意力对齐目标网络从微调的模型开始，逐步训练以适应目标域数据。除了第一个卷积层之外，我们对所有卷积层的注意力图的距离进行惩罚培训的详细情况见补充材料。4.3评价MNIST→ MNIST-M。将MNIST转移到MNIST-M的分类结果呈现在表1中。我们得出四点意见。首先，我们的方法优于一系列代表性的域自适应方法（例如，、RevGrad、DSN、ADA），所有这些都最小化了神经网络的FC层处的域差异此外，我们实现了与Pix-elDA报告的最先进结果（98.2%）竞争的准确性（95.6%）。请注意，从技术上讲，PixelDA与我们的方法兼容，并且可以用于提高我们模型的准确性我们将在未来调查这一点其次，我们观察到，当转移到目标域时，源网络的准确性大幅下降（从源测试集的99.3%到目标测试集的45.6%），这意味着从MNIST到MNIST-M的显著域转移第三，我们可以看到合成目标数据的分布比真实源数据更接近真实目标数据，通过观察合成目标数据的训练将源网络的性能提高了约+30%。最后，使用源数据和合成目标数据的混合数据进行训练有利于学习域不变特征，并且与仅使用合成目标数据训练的模型相比，自适应性能提高了+3.5%表1表明我们的EM训练算法是利用未标记目标域数据的有效方法此外，施加注意力对齐惩罚L_AT总是导致显著的改善。31号办公室基于ResNet-50的分类结果如表所示二、在相同的评估设置下，我们将我们的方法与以前的传输方法和我们的方法的变体进行比较。我们有三个主要结论。12康国良等表1：MNIST→ MNIST-M的分类准确度（%）。“CNN”表示源和大小，其中k为整数（等式4）。2）的情况。“S”和“Tf”表示在a处的可用资源，并且在a处的数据类型中是明确的。“T”和“S”分别表示未标记的方法列车数据准确度（%）方法列车数据准确度（%）RevGrad [7]S+T81.5CNNS45.6DSN [3]S+T83.2CNNTf75.0ADA [8]S+T85.9CNNS+Tf78.5PixelDA [2]S+T+Tf98.2CNN +LATS+Tf85.7我们的（woLAT）S+T + T+S93.5我们的（woLAT）S+Tf +T+S93.5我们的（带LAT）S+Tf +T+S95.6我们的（带LAT）S+Tf +T+S95.6表2：基于ResNet-50方法列车数据A →WD →WW →DA →DD →AW →A平均ResNet-50S68.4 ±0.296.7 ±0.199.3 ±0.168.9 ±0.262.5 ±0.360.7 ±0.376.1RevGrad [7]S+T82.0 ±0.496.9 ±0.299.1 ±0.179.7 ±0.468.2 ±0.467.4 ±0.582.2JAN [17]S+T85.4 ±0.397.4 ±0.299.8 ±0.284.7 ±0.368.6 ±0.370.0 ±0.484.3JAN-A [17]S+T86.0 ±0.496.7 ±0.399.7 ±0.185.1 ±0.469.2 ±0.470.7 ±0.584.6ResNet-50Tf81.1 ±0.298.5 ±0.299.8 ±0.083.3 ±0.361.0 ±0.260.2 ±0.380.6ResNet-50S+Tf81.9 ±0.298.5 ±0.299.8 ±0.083.7 ±0.366.5 ±0.264.8 ±0.382.5我们的（woLAT）Tf+T86.2 ±0.299.3 ±0.1100 ±0.086.5 ±0.669.9 ±0.670.2 ±0.285.4我们的（带LAT）Tf+T86.8 ±0.299.3 ±0.1100 ±0.087.2 ±0.571.7 ±0.571.8 ±0.186.1我们的（woLAT）S+Tf +T+S87.1 ±0.399.3 ±0.1100 ±0.087.1 ±0.272.3 ±0.272.2 ±0.286.3我们的（带LAT）S+Tf +T+S86.8 ±0.299.3 ±0.1100 ±0.088.8 ±0.474.3 ±0.273.9 ±0.287.27.576.565.550.760.740.720.74.540.683.502468101214Iters0.6602468101214Iters图4：培训过程分析（EM已实施）。左：在施加和不施加LAT惩罚项的情况下训练期间的LAT的趋势右：目标域上的测试精度曲线。给出了任务W→ A和D→A的结果。其他任务的结果类似。这里的一次迭代表示网络Mpost的一次更新（参见3.3节）。首先，从表2中可以看出，我们的方法在所有传输任务中以大的裕度优于现有技术在较难的转移任务上，改进更大，其中源域与目标域基本上不同并且具有比目标域少得多的数据，例如D→ A和W→ A。具体地，我们平均比现有技术结果提高了+2.6%，并且对于困难的转移任务D-A提高了+5.1%。其次，我们还比较了我们的方法与没有对抗注意力对准损失LAT。虽然对于轻松的传输任务，性能W！Awo ATW！A wAT D！A wo ATD！Aw AT注意力对齐丢失W！Awo ATW！ A wAT D！A wo ATD！A精度用于UDA的13表3：具有和不具有LAT的EM算法的变体。没有Mpost的异步更新的EM算法由EM-A表示，而没有过滤噪声数据的EM算法由EM-B表示。EM-C表示在更新M_post方法列车数据A →WA →DD →AW →A平均ResNet-50S68.4 ±0.268.9 ±0.262.5 ±0.360.7 ±0.365.1EM-AS+Tf +T+S68.6 ±0.373.5 ±0.362.7 ±0.352.8 ±0.364.4EM-A +LATS+Tf +T+S80.4 ±0.279.1 ±0.266.4 ±0.258.4 ±0.271.1EM-CS+Tf +T+S86.4 ±0.387.0 ±0.369.5 ±0.371.4 ±0.378.6EM-C +LATS+Tf +T+S86.2 ±0.286.6 ±0.371.8 ±0.373.7 ±0.279.6EM-BS+Tf +T+S非常低非常低非常低非常低非常低EM-B +LATS+Tf +T+S非常低非常低非常低非常低非常低我们的（woLAT）S+Tf +T+S87.1 ±0.387.1 ±0.272.3 ±0.272.2 ±0.279.7我们的（带LAT）S+Tf +T+S86.8 ±0.288.8 ±0.474.3 ±0.273.9 ±0.280.9表4：Office-31上不同注意力差异测量的比较测量A→ WA→ DD→ AW→ A平均L1范数非常低非常低非常低非常低非常低MMD84.784.166.264.574.9JMMD85.985.370.171.178.1我们86.888.874.373.980.9这两个变体中的一个是可比较的，当移动到更困难的任务时，我们观察到对抗性注意力对齐带来的明显改善，例如，对于任务D → A，具有对抗性注意力对齐的训练比没有注意力对齐的训练表现出+2%和+1。任务W →A为7%这意味着对抗性注意力对齐有助于减少跨领域的差异，并规范目标模型的训练。第三，我们验证了增加合成目标数据，以促进目标网络的训练带来了显着的提高准确性的源网络。这表明合成目标数据与真实目标数据之间的差异要小得多。我们还注意到，在我们的方法中，准确性用来自两个域的真实和合成数据训练的网络的性能比用真实和合成目标数据训练的网络好得多。这验证了由源域共享的知识可以被我们的框架充分地揭示，以提高目标网络的性能。图4示出了在施加和不施加该惩罚的情况下，注意力对齐惩罚L_AT在没有注意力对齐的情况下，源网络和目标网络之间的注意力地图的差异明显更大，并且随着训练的进行而增加。通过向目标添加LAT惩罚带来的准确性的改善可以归因于源模型和目标模型之间的注意力图的小得多的差异，即，更好的集中注意力机制。给出了任务D→ A和D→ A在目标域上的测试精度曲线14康国良等图4.第一章可以看出，测试精度稳步增加，并且具有LAT的模型比没有任何注意对准的模型收敛得快得多我们的方法的注意力地图的可视化在图中提供。1.一、我们观察到，通过注意力对齐，目标网络的注意力图很好地适应目标域图像，甚至比在标记的目标图像上训练的目标模型更好。4.4消融研究表3比较了不同EM变体的准确度。我们通过一次从系统中取出一个组件进行消融研究（考虑第3.3节中定义的三个组件）。对于EM的每个变体，我们还通过比较有和没有LAT的训练来评估施加LAT的效果。通过比较EM-A、EM-B、EM-C和我们所采用的完全方法的性能，我们发现这三种修改都对系统有很大的贡献。其中，噪声数据的滤除是最重要的因素。我们还注意到，对于EM-A和EM-C，与LAT一起训练总是导致显著的改善，这意味着执行注意对齐是提高适应性能的有效方法。4.5不同注意差异测量方法的在本节中，我们提供了一个方法比较，在测量的注意力差异跨领域的讨论在第3.2节。本文采用的是L2距离，比较的方法有L1距离、MMD[16]和JMMD [17]。结果见表4。我们发现，我们的方法达到了最好的结果之间的四个措施。L1距离在训练一个可行的网络时失败了，因为它被注意力地图中的噪音误导了。我们的方法比MMD/JMMD有很大的优势，因为我们的方法保留了结构信息，如3.2节所述。5结论在本文中，我们对UDA社区做出了两个贡献首先，从卷积层开始，我们建议对齐源网络和目标网络的注意力图，以使源网络的知识更好地适应目标网络。其次，从EM的角度来看，我们最大限度地提高了未标记目标数据的可能性，这使得目标网络能够利用更多的训练数据进行更好的领域适应。这两个贡献都受益于CycleGAN提供的无监督图像对应。实验结果表明，这两种贡献对系统性能都有积极的影响，并且它们在两个基准数据集上协同工作，取得了有竞争力甚至是最先进的结果。谢谢。我们感谢数据决策CRC（D2D CRC）和合作研究中心计划为研究提供资金用于UDA的15引用1. Arbelaez，P.，Maire，M.，福克斯角Malik，J.：轮廓检测与分层图像分割。IEEE transactions on pattern analysis and machineintelligence33（5），8982. Bousmalis，K.，Silberman，N. Dohan，D. Erhan，D.，Krishnan，D.：无监督像素级域适应与生成对抗网络。IEEE计算机视觉与模式识别会议（CVPR）（2017）3. Bousmalis，K.，Trigeorgis，G.，Silberman，N. Krishnan，D.，Erhan，D.：域分离网络。在：神经信息处理系统的进展pp. 3434. Deng，J.，Dong，W.，索赫尔河Li，L.J.，Li，K.，李菲菲：Imagenet：一个大规模的分层图像数据库。在：计算机视觉和模式识别，2009年。CVPR2009。 IEEEConfencen。pp. 248-255 02TheDog（2009）5. 丁，M.，Fan，G.：用于人体步态运动模型的多层关节步态-姿态流形。IEEETrans.Cyber neti cs45（11），24136. 董X Yan，Y.，欧阳，W. Yang，Y.：用于人脸标志点检测的风格聚合网络。在：IEEE计算机视觉和图像处理会议论文集（CVPR）中。pp. 3797. Ganin，Y.，Lempitsky，V.：通过反向传播的无监督域自适应。In：Internati n app. 11808. Haeusser，P.，Frerix，T.，Mordvintsev，A.，Cremers，D.：关联域自适应。国际计算机视觉会议（ICCV）。卷2，p.第六期（2017年）9. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习在：IEEE计算机视觉和模式识别会议论文集。pp. 77010. 他，K.，张，X.，Ren，S.，孙杰：深度剩余网络中的身份映射。In：EropeanConfer enceonCom up uterVison。pp. 630-645 02TheDog（2016）11. Hoffman，J.，Tzeng，E.，Park，T. Zhu，J.Y.，Isola，P.，Saenko，K.埃夫罗斯，匿名戒酒会Darrell，T.：苏铁：周期一致的对抗域适应。arXiv预印本arXiv：1711.03213（2017）12. 金，T.，Cha，M.，Kim，H.李，J.，Kim，J.：学习发现跨域关系与生成对抗网络。国际机器学习会议（2017）13. LeCun，Y.，博图湖Bengio，Y.，Haffner，P.：基于梯度的学习应用于D〇C 〇m_ n_t_cog_ n。参见IEEE86（11），227814. Liu，M.Y. Breuel，T.，Kautz，J.：无监督图像到图像翻译网络。 In：AvancesinNeur alInpr o c e s i n g S y s i n g Pr o c e s i n g S ysi ngP r o c e si n gSys i n g S i n gi pp. 70015. Liu，M.Y. Tuzel，O.：耦合生成对抗网络。In：Advances inneural informarmati onpoces. pp. 46916. Long，M.，曹玉，王杰，Jordan，M.：学习可转移的功能与深度和能力的工作。 In：Inter natina pp. 9717. Long，M.，王杰，Jordan，M.I.：使用联合自适应网络的深度迁移学习。在：ICML（2017）18. Luc，P.，库普利角Chintala，S.，Verbeek，J.：使用对抗网络的语义分割。在：NIPS对抗训练研讨会（2016）19. Russo，P. Carlucci，F. M.，Tommasi，T.，卡普特湾：从源到目标再返回：对称双向自适应GaN。arXiv预印本arXiv：1705.08824（2017）16康国良等20. Selvaraju，R.R.，Cogswell，M.Das，A.，韦丹塔姆河Parikh，D.Batra，D.：Grad-cam：通过基于梯度的定位从深度网络进行视觉解释在：ICCV. pp. 61821. Shrivastava，A.，Pfister，T.，Tuzel，O.，Susskind，J.，王伟，Webb，R.：通过对抗训练从模拟和无监督图像中学习。在：CVPR（2017）22. 西蒙尼扬，K.，Vedaldi，A.，齐瑟曼，A.：深入卷积网络内部：可视化图像分类模型和显着图。arXiv预印本arXiv：1312.6034（2013）23. 孙湾，英-地Saenko，K.：Deep Coral：Correlation Alignment for Deep DomainAda

下载后可阅读完整内容，剩余1页未读，立即下载