重用分类器的无判别式对抗学习网络：一种领域自适应方法

34 浏览量更新于2023-10-26 收藏 1MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7181重用特定任务分类器作为判别器：无判别器的对抗性领域自适应林晨 *陈淮安 * Zhixiang WeiXin JinXiao TanYi Jin <$EnhongChen中国科学技术大学{chlin，chen，zhixiangwei，jinxustc，tx2015} @ mail.ustc.edu.cn{jinyi08，cheneh}@ ustc.edu.cn摘要对抗性学习在无监督领域自适应（UDA）方面取得了显著的成绩。现有的对抗性UDA方法通常采用额外的然而，这些方法中的大多数未能有效地利用预测的判别信息，因此，S不S不（a）双分类器（b）额外鉴别器S不（c）我国导致发生器模式崩溃。在这项工作中，我们从不同的角度来解决这个问题，并设计了一个简单而有效的对抗范式的形式的无判别式对抗学习网络（DALN），其中的类别分类器被重用为判别器，通过一个统一的目标，实现明确的领域对齐和基本上，我们引入了一个核范数Wasserstein差异（NWD），它对执行判别具有明确的指导意义。这样的NWD可以与分类器耦合以用作满足K-Lipschitz约束的判别器，而不需要额外的权重裁剪或梯度惩罚策略。没有花里胡哨的，DALN在各种公共数据集上与现有的最先进的（SOTA）方法进行了有利的比较此外，作为一种即插即用技术，NWD可以直接用作通用正则化器以有益于现有的UDA算法。代码可在https://github.com/xiaoachen98/DALN 上获得。1. 介绍深度神经网络（DNN）在许多计算机视觉任务中取得了重大进展[4，5，16，37]。然而，这些方法的成功高度依赖于大量的注释数据[13，47，51]，这是非常耗时和昂贵的获得。而且由于*表示同等贡献。†通讯作者。图1. 不同对抗范式的插图，其中G，C和D分别表示特征提取器，特定于任务的分类器和分类器。与采用（a）附加分类器C′（称为双分类器）或（b）附加类别识别的典型范例不同，我们提出了一个不同的UDA视角，并引入了一个简单但有效的对抗范例（c），其中原始的特定任务分类器C被重用为隐式分类器，通过统一的目标实现显式域对齐和类别识别。训练数据和真实世界测试数据之间的差异[31，32]，尽管进行了大量的注释工作，但在注释数据上训练的DNN模型可能会在测试集上遭受显著的性能下降。为了解决这个问题，无监督域自适应（UDA）[6，9，30，48]，其目的是在存在域移位的情况下将知识从标记的源域转移到未标记的目标域。本大卫等人的理论分析的启发。[2]，现有的UDA方法通常探索学习域不变特征表示的思想通常，这些方法可以分为两个分支，即，矩匹配方法[20，24，25，43，49]和adver-sarial学习方法[11，12，25，39]。矩匹配方法通过匹配显式地减少了域偏移源域和目标域特征的明确定义的分布差异。对抗性学习方法通过玩对抗性最小-最大两人游戏来明显减轻域转移，这驱动生成器提取不可区分的特征以欺骗代理。GCGDCGC'C7182受对抗学习所取得的显著成绩的鼓舞，越来越多的研究人员致力于开发基于对抗范式的UDA方法[9，10，21，23，27，42]。基本上，基于对抗学习的UDA方法通常遵循两条对抗范式。一行[10，19，21，27，39]利用了两个任务特定分类器C和C'的差异（如图1（a）所示），可以被视为一个子分类器，以隐式地实现对抗学习并提高特征可转移性。这种范例使UDA方法能够减少类级别的域离散性。然而，遵循这种范式的方法容易受到模糊预测的影响，从而阻碍自适应优化。另一行[9，11，12，25]直接构建了一个额外的域鉴别器D，如图12所1（b），其通过充分混淆跨域特征表示来提高特征可转移性然而，遵循这种范式的方法通常集中在域级特征混淆上，这可能会损害类别级信息，从而导致模式崩溃问题[18，42]。为了解决这些问题，我们对UDA提出了一个不同的视角，并介绍了一个简单但有效的对抗范式，如图1（c）所示。在这种范式中，原始的特定于任务的分类器与一种新的差异相结合，作为一种分类器/评论器，它通过一个统一的目标同时实现域对齐和类别扩展，使模型能够利用预测的判别信息来捕获特征分布的多模态结构[12，25]。特别地，当分类器C用于分类时，它有助于实现类别级的对齐;此外，当C用作分类器时，它实现特征级的对齐。新的差异，称为核范数Wasserstein 差异（ NWD ），利用核范数和 1-Wasserstein距离的优点，以增强预测的确定性和多样性。与现有对抗方法[11，42，50]中使用的差异度量不同，NWD不仅具有有希望的理论推广界，而且对执行区分具有明确的指导意义，即，由于在源域上的监督训练，自然地这样的指导鼓励目标域的类内和类间相关性接近源域的相关性。此外，与最近的工作[40]中使用的现有Wasserstein差异相比，NWD使对抗性UDA范式能够满足K-Lipschitz约束，而无需设置额外的权重裁剪[1]或梯度惩罚[15]。基于引入的范式，我们提出了一个无鉴别器的对抗性学习网络（DALN），它实现了对抗性UDA分类，而不需要进行前处理。隐域由于NWD的明确指导，该算法收敛速度快，具有较好的预测确定性和多样性。请注意，DALN与最近将判别器集成到分类器中的方法[42，50]有很大DALN直接重用原始的特定于任务的分类器，而不需要任何额外的组件，使其非常简单和高效。在各种数据集上的实验表明，所提出的 DALN 优于现有的最先进的（SOTA）方法。此外，我们表明，建议的NWD是通用的，即插即用，这可以被用来作为一个正则化，以有利于现有的方法，这有助于他们实现更有竞争力的性能。本工作的主要贡献总结如下：• 我们通过引入一个简单而有效的对抗范式，为UDA提供了一个不同的视角，在这个范式中，原始的特定于任务的分类器被重用为鉴别器。基于此，我们提出了一种新的UDA方法，即DALN，它可以利用预测的判别信息进行充分的特征对齐。• 本文提出了一种新的偏差，称为NWD，它具有理论上的推广范围和一定的指导意义。这种差异使得隐式构造的神经网络能够满足K-Lipschitz约束，而不需要额外的权重裁剪和梯度惩罚策略。• 没有花里胡哨，但只有几行代码，所提出的方法在各种公共数据集上实现了极具竞争力通过将建议的NWD作为现有方法的正则化器，这些方法可以实现更有竞争力的性能。2. 相关作品现有的UDA方法可以主要分为两类，即，矩匹配方法[24，26，43，49]和对抗性学习方法[10，11，25，39，50]。矩匹配法矩匹配方法通过匹配定义良好的基于矩的跨域分布差异来学习域不变特征表示[51]。通常，DDC [43]试图通过最小化最大平均差异（MMD）来明确对齐跨域的学习特征分布。后来，[24，26]中的方法通过分别使用多核最大平均差异（MK-MMD）和联合最大平均差异（JMMD）执行对齐来改进DDC此外，MDD [49]提出了边缘差异差异（MDD），以减少分布差异。对抗性学习方法。受生成式对抗网络（GAN）[14]的启发，对抗学习方法通过最小-最大两个玩家学习域不变特征7183LL我我··∈·∈D ∈ X我我D D L··我 i=1SG（xi）我我我NtCLSGNWDGRL鉴别器C目标图像源图像源极低目标数据流全低反向传播反向传播CLSNWDG：特征提取器 C：分类器梯度反转层核标准操作员图2.DALN形式的对抗范式的概述，它由特征提取器G和特定于任务的分类器C组成。cls用于保证源域的低源风险，并且nwd用于凭经验估计可以与分类器C耦合以隐式地用作源域的NWD梯度反向层用于帮助执行对抗学习。游戏.作为最早的尝试之一，DANN [11]引入了一个额外的特征提取器来区分特征提取器生成的特征，成功地实现了域级自适应。DANN的成功展示了用GAN模型改进UDA的能力。后来，FGDA [12]利用一种新的方法来区分特征的梯度分布，这在减少域差异方面取得了更好的性能。受条件GAN [29]的启发，[25，34]中的方法将预测的判别信息与学习的特征相结合，以改善特征对齐。此外，本发明还NWD，隐式地构造满足K-Lipschitz约束的约束/评论，而不需要额外的权重裁剪或梯度惩罚策略。3. 方法3.1. 回顾初步知识给定从源域DS抽取的具有N个样本的标记源域集合{（xs，ys）}Ns，其中xs∈ Xs，ys∈ Ys，并且标记ys覆盖k个类，以及未标记源域集合{（x s，ys）} N s，域目标集合{xt}，具有从tar提取的N个样本DADA [42]试图将特定于任务的分类器获取域ii=1t不其中域可调以对齐两个域的联合尽管这些方法成功地学习了域不变特征，但当两个分布的支持集彼此不重叠时，它们不能保证用于最小化的适当发散[1]。除了采用额外的区分器的方法外，一些研究尝试使用两个任务特定分类器（称为双分类器），其中两个任务特定分类器的差异可以被视为区分器[10，19，27，39，50]，以隐含地实现对抗学习。代表性地，MCD [39]简单地使用L1距离来测量两个分类器的类内差异。 SWD [19]建议使用切片WassersteinT，其中xit，这项工作的目标是学习用于学习域不变的深度UDA模型表示和实现对目标域的可靠预测。该模型包括将输入数据映射到特征fRd的特征生成器G（），即，fs=G（x s）和f t=G（x t），以及生成对应预测p R k的任务特定分类器C（），即，ps=C（fs）和pt=C（ft）。为此，现有的对抗性UDA方法通常需要额外的分类器。通常，许多流行的方法[11，25]使用额外的ARID（）通过优化对象分类损失来Lcls和域对抗损失Ladv：S s而不是L1距离，以获得更多的地理差异，Lcls=E（xs，ys）<$DSLce（C（G（xi）），yi），（1）度量上有意义的类内差异。CGDM [10]s另外引入了跨域梯度差异以进一步减轻域差异。虽然这些方法在以下方面取得了相当大的改进：Ladv=EG（xs）<$D<$slog[D（G（xi））]+Et log 1 − D。G. （2）第一次见面减少域差异，大多数只考虑预测之间的类内差异，这可能导致模糊的预测。与上述采用额外的任务分类器的方法不同，我们通过将原始的特定于任务的分类器与设计其中，Dεs和Dεt分别表示S和T的诱导特征分布，并且ce（，）是交叉熵损失函数。然而，我们发现，最初的特定任务分类器C具有对源域和目标域的隐式区分能力，并且可以直接用作分类器（参见第2节）。3.2）。受此启发，7184−∥ ∥∥ ∥ −∥·∥∥ ∥∈∈Σ˜∥ ∥..Σ如图2所示，我们提出了一个简单而有效的对抗性UDA范例：重用特定于任务的分类器作为一个模型。3.2. 将分类器作为判别器动机再澄清。如前所述，原始的特定任务分类器具有对源域和目标域的隐式区分能力。图3显示了基于仅使用源数据训练的模型的源域和目标域预测的自相关矩阵。对于信源域，得益于监督训练，自相关矩阵的值相反，对于目标域，由于缺乏监督，预测在非对角元素上生成更大的值因此，在自相关矩阵中表示的类内和类间相关性能够构造对抗性批评器。对于源域，预测有助于大的Ia和小的Ie;而对于目标域，由于缺乏监督训练，预测通常产生相对小的Ia和大的Ie因此，Ia Ie可用于表示域差异。根据等式3，Ia和I e满足Ia+I e=b。同时，Ia等于预测矩阵Z的Frobenius范数，即Ia=<$Z<$F。因此，我们有I a−Ie=2 <$Z<$F−b。 Z是通过分类器C预测，所以我们可以使用2C Fb作为相关性评价函数，它自然会给出高分由于在源域上的监督训练，源域样本的得分较低，目标域样本的此外，考虑到权重2和偏置b都是常数，可以直接将CF用作相关性评判函数。1-Wasserstein距离的相关性受WGAN [1]的启发，一个简单的想法是引入一个额外的CJD来学习K-Lipschitz背包自行车自行车头盔书柜瓶子计算器课桌椅台灯桌面电脑文件柜耳机键盘1.00.8背包自行车自行车头盔书柜瓶子计算器课桌椅台灯桌面电脑文件柜耳机键盘1.00.8评价函数h期望对源表示f∈Dt给出高分，对目标表示f∈Dt给出低分，并测量1-Wasserstein距离笔记本电脑信箱手机监控鼠标马克杯纸_笔记本笔手机打印机投影仪环形装订器0.60.40.2笔记本电脑信箱手机监控鼠标马克杯纸_笔记本笔手机打印机投影仪环形装订器0.60.40.2W 1 D s，D tW. ˜˜在两个功能分布之间，Σ冲冲头尺剪扬声器订书机胶带分配器冲冲头尺剪扬声器订书机胶带分配器1Ds，Dt= sup�h�L≤KEfDs[h（f）]−EfDt[h（f）]，垃圾桶预测标签(a) 源域0.0垃圾桶预测标签(b) 目标域0.0（五）其中L表示Lipschitz半范数[46]，并且K表示Lipschitz常数。但是，正如我们上面所说的，图3.基于DNN模型的源域和目标域预测的自相关矩阵，该DNN模型仅使用Office-31任务A→W上的源域数据进行训练（放大一个CF作为D具有确切的批评意义。然后，域差异可以写为：清晰的可视化。）重新思考类内和类间的相关性。WF= supCEDs[<$C（f）<$F]−EDt[<$C（f）<$F]，（六）给定一个由C预测的预测矩阵ZRb×k，它包含k个类别乘以b个样本的预测概率，自相关矩阵RRk×k可以由R=ZT Z计算，其中预测矩阵Z=C（f）满足KZ i，j= 1 <$i ∈ 1. - 是的- 是的Bj=1Zi，j≥ 0 <$i ∈ i. - 是的- 是的b，j ∈ 1. -是的- 是的K.（三）对于自相关矩阵R，主对角线元素表示类内相关性，非对角线元素表示类间相关性或混淆[17]。为了方便起见，在这项工作中，我们将整体类内相关性定义为Ia，整体类间相关性定义为Ie：其中WF是WFDs，Dt的缩写，它表示两个域分布的基于Frobenius范数的 1-Wasserstein距离通过这种方式，我们可以通过统一的目标实现明确的域对齐和类别划分，有助于利用预测的区分信息来捕获特征分布的多模态结构。3.3. 使用NWD进行从弗罗贝纽斯规范到核规范所构造的预测器/评论器D=C F可以与生成器G进行对抗训练，这有助于实现可转移和有区别的表示，同时提高预测确定性。然而，基于Frobenius-norm 1-Wasserstein距离的对抗性学习可能k k降低了预测多样性，因为它倾向于推动Ia= R ijI e =（四）i，j=1i=j样本数量较少的类别与邻居-包含大量样本的类别远离1.01.01.01.00.90.11.01.01.01.01.01.01.01.01.01.01.01.01.00.9 0.11.01.01.01.00.80.10.10.1 0.90.90.11.01.00.10.90.10.90.10.91.01.00.90.10.7 0.10.10.10.90.10.70.10.10.10.90.10.10.80.10.60.10.10.10.10.10.70.10.10.10.80.10.1 0.70.10.10.10.60.10.10.60.10.10.10.10.10.10.10.50.10.10.10.10.10.70.10.10.10.81.00.10.10.70.10.90.10.10.80.10.10.10.10.60.10.10.8 0.10.10.90.10.10.10.10.10.40.10.10.90.10.10.80.10.10.80.10.10.80.10.10.80.10.10.8真实标签真实标签背包自行车自行车头盔书柜瓶子计算器课桌椅台灯桌面电脑文件柜耳机键盘笔记本电脑信箱手机显示器鼠标杯纸笔_笔记本笔电话打印机投影机打孔机活页夹尺剪刀扬声器订书机胶带分配器垃圾桶背包自行车自行车头盔书柜瓶子计算器课桌椅台灯桌面电脑文件柜耳机键盘笔记本电脑信箱手机显示器鼠标杯纸笔_笔记本笔电话打印机投影机打孔机活页夹尺剪刀扬声器订书机胶带分配器垃圾桶7185∥·∥√LL.ΣF→DD.D..Σ决策边界[8]。受最近关于核规范[7，8，36，41]的工作的启发，该规范已被证明与Frobenius规范有约束，我们试图取代核规范[7，8，36，41]。弗罗贝纽斯范数·与核范数·，因为简而言之，用于优化分类模型的总损失可以写为min，Lcls（xs，ys）+λmaxLn wd.xs，xt，，（12）F最大化Z-Z当C、G和C这意味着最大化[7]B是一个很好的例子，它可以帮助我们更好地预测未来。多样性。因此，域差异可以重写为其中λ用于平衡cls和nwd。在这项工作中，λ设置为1。在对抗学习的帮助下，DALN学习可转移和有区别的表示，保证了预测的确定性和多样性。WN= sup∥∥C∥∗∥L≤KEDs[C（f）]−EDt[C（f）]，（七）广义界限在这里，我们提出了理论保证所提出的方法。在[2]之后，我们一个二元分类实例。设F（f∈ F）其中WN是WND s的缩写，Dt表示两个主分布的核范数1-Wasserstein差异（NWD）那么我们的计划就可以改写当D=C。当分类器C用于分类时，表示固定表示空间，并且C：[0，1]是一个源分类器族，其中C属于hypoth-空间H.我们假设C在源上的风险域被描述为εs（C）=Ef<$D<$s[C（f）y]，其中它有助于实现猫的自我保护，但当C作为一个模板，它实现了功能级别的对齐。请注意，我们的分类器由一个全连接层和一个softmax激活函数组成。可以证明，我们的隐式模型的所有分量都满足K-Lipschitz约束（参见证明的补充材料），这使得所提出的模型能够在不需要额外的权重裁剪的情况下进行训练，梯度惩罚策略因此，我们可以通过最大化区域临界损失Lnwd来近似估计经验NWDWnwd ：D是由数据分布引起的特征分布源域S和y的关系是对应于诱导特征f的标签。此外，给定两个分类器C1，C2∈ H，我们定义这两个分类器在源域上的风险为ε s（C1，C2）= Ef<$[C1（f）= C2（f）].以同样的方式，我们定义目标域上的风险即εt（C）和εt（C1，C2）。然后，理想联合假设被写为C=arg minεs（C）+εt（C），其可以是：C用于最大限度地减少污染源和焦油的综合风险获取域名。因此，根据[2]，εt（C）的概率界可以写为：.s t1Σs1. .tΣΣεt（C）≤εs（C）+|ε s（C，C<$）−εt（C，C）|+η，（13）Lnwd x，x=Nsi=1D（G（xi））−NDtj=1GXI、（八）其中ηε=εs（C）+εtNsNtD7186∼∼（C）是一个足够小的常数，WN=maxLn wdxs，xt.（九）DALN的对抗学习在这项工作中，我们建立代表理想的综合风险。因此，UDA分类是为了减少领域差异项|.|.引理1. 设ν，ν∈ P（F）表示概率平均值.DALN由基于预训练的sts t的生成器G组成7187CLSNs i=1ce我我ResNet和一个用全连接的层和softmax层。为了避免繁琐的交替-7188[2019 - 01 - 19][2019 - 01 - 19][2019- 01][2019 - 01 -19][2019 - 01 - 19]7189其不包括上述梯度惩罚或权重裁剪，用于帮助实现7190一个反向传播。通过这种方式，DALN可以通过以下方式进行训练：7191玩最小最大游戏最小最大Lnwd.x s，x tt，（十）源域和目标域特征的确定，ρ（f，f）7192∈ H假设，这是一个足够小的常数。是将一个单位的材料从满足fsνs的fs到满足ftνt的位置ft，7193W1（νs，νt）表示NWD，K表示Lipschitz常数给定一族分类器C∈H1和一个理想7194分类器C ∈H1满足K-Lipschitz约束，其中H1是H的子空间，对于每个7195C，C ∈ H1.7196GC|ε s（C，C<$）− ε t（C，C<$）|1（ν s，ν t）.7197（十四）7198此外，为了确保UDA分类的保真度，我们需要保证源域的低源风险7199因此，生成器G和分类器C也应该是最优的。7200定理1. 基于引理1，对于每个C1，以下保持

下载后可阅读完整内容，剩余1页未读，立即下载