负迁移的正式定义、分析和避免方法

74 浏览量更新于2023-10-19 收藏 13.88MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

{ziruiw,dzihang,bapoczos,jgc}@cs.cmu.edu1112930表征和避免负迁移0Zirui Wang, Zihang Dai, Barnab´as P´oczos, JaimeCarbonell Cargenie Mellon University0摘要0当特定目标任务的标记数据稀缺时，迁移学习通常通过利用相关源任务的数据提供了一个有效的解决方案。然而，当从不相关的源进行知识转移时，可能会逆向损害目标性能，这种现象被称为负迁移。尽管负迁移普遍存在，但通常以非正式的方式描述，缺乏严格的定义、仔细的分析或系统的处理。本文提出了负迁移的正式定义，并分析了其中的三个重要方面。基于这个分析，提出了一种新颖的技术来通过过滤不相关的源数据来规避负迁移。基于对抗网络，该技术非常通用，可以应用于各种迁移学习算法。通过在四个基准数据集上进行实验，评估了六种最先进的深度迁移方法。从实证上看，所提出的方法始终提高了所有基准方法的性能，并且在源数据退化的情况下，很大程度上避免了负迁移。01. 引言0深度神经网络（DNNs）的发展提高了在各种机器学习问题和应用中的最新性能。然而，DNNs通常需要大量标记数据来训练出具有良好泛化能力的模型，并且与更传统的方法一样，DNNs依赖于训练数据和测试数据来自同一潜在分布的假设。在某些情况下，收集大量标记训练数据是昂贵甚至不可行的。迁移学习[20]通过利用一个或多个源任务的先前标记数据来解决这种数据稀缺的挑战。希望是这个源域与目标域相关，因此从源域中转移知识可以提高目标域内的性能。这种强大的范式已经在各种设置下进行了研究，并且在广泛的应用中被证明是有效的。0应用[39, 16, 17]。0然而，迁移学习的成功并不总是保证的。如果源域和目标域不足够相似，从这样的弱相关源进行迁移可能会阻碍目标的性能，这种现象被称为负迁移。负迁移的概念在迁移学习社区中已经得到了广泛认可[20,35]。一篇早期的论文[24]对一个简单的二分类问题进行了实证研究，以证明负迁移的存在。一些更近期的工作[7, 10,3]在不同设置下进行迁移学习时也观察到了类似的负面影响。0尽管有这些实证观察，但很少有研究工作发表来分析或预测负迁移，以下问题仍然存在：首先，虽然概念相当直观，但负迁移应该如何准确地定义还不清楚。例如，在测试时应该如何衡量它？应该与哪种基准进行比较？其次，目前还不清楚是什么因素导致了负迁移，以及如何利用这些因素来确定可能发生负迁移。虽然源域和目标域之间的差异肯定至关重要，但我们不知道负迁移必须有多大才会发生，也不知道它是否是唯一的因素。最重要的是，在有限或没有标记的目标数据的情况下，如何检测和/或避免负迁移。0在这项工作中，我们迈出了一步来解决这些问题。我们首先得出了一个正式的定义，即负迁移的定义在实践中是普遍且可行的。在这里，可行意味着我们可以明确地测量其在测试数据中的影响。这个定义进一步揭示了负迁移的三个潜在因素，这些因素使我们能够了解何时可能发生负迁移。在这些理论观察的启发下，我们开发了一种基于对抗网络的新颖且高度通用的技术来对抗负迁移。在我们的方法中，一个估计边际和联合分布的鉴别器被用作一个门，通过减少源风险和目标风险之间的偏差来过滤潜在有害的源数据，这对应于重要性重新加权的思想[5, 38]。我们的实验112940涉及八种迁移学习方法和四个基准数据集的实验证明了负迁移的三个因素。此外，我们将我们的方法应用于六种最新的深度方法，并比较它们的性能，证明我们的方法通过大大避免负迁移条件，显著提高了所有基准方法的性能。02. 相关工作0迁移学习[20,36]利用在源领域中学到的知识来辅助目标领域的训练。早期的方法利用传统的统计技术，如实例加权[14]和特征映射[19,32]。与这些早期方法相比，深度迁移网络在发现领域不变因素方面取得了更好的结果[37]。一些深度方法[16,27]通过分布（不）匹配度量，如最大均值差异（MMD）[14]进行迁移。最近的一些工作[9, 29, 3,26]利用生成对抗网络（GANs）[12]并添加一个子网络作为领域鉴别器。这些方法在计算机视觉任务[26]和一些自然语言处理任务[17]上取得了最先进的结果。然而，这些技术都没有专门设计来解决负迁移问题。负迁移早期注意到负迁移的工作[24]针对的是简单的分类器，如层次朴素贝叶斯。后来，在各种设置中也观察到了类似的负效应，包括多源迁移学习[7]、不平衡分布[10]和部分迁移学习[3]。虽然检测和避免负迁移的重要性引起了越来越多的关注[35]，但文献缺乏深入的分析。03. 重新思考负迁移0符号表示。我们将分别使用PS(X, Y)和PT(X,Y)来表示源领域和目标领域的联合分布，其中X是输入随机变量，Y是输出。按照惯例，我们假设可以访问标记的源集合S={(xis,yis)}nsi=1，从源联合PS(X,Y)中采样，一个标记的目标集合Tl={(xjl,yjl)}nlj=1，从目标联合PT(X,Y)中抽取，以及一个无标签的目标集合Tu={xku}nuk=1，从目标边际PT(X)中抽取。为了方便起见，我们定义T=(Tl,Tu)。0迁移学习。在符号表示下，迁移学习旨在设计一个算法A，该算法将源领域数据S和目标领域数据T作为输入，并输出一个更好的假设（模型）h = A(S,T)，与仅使用目标领域数据相比。对于模型比较，我们将采用标准的期望风险，定义为：0RPT(h):=Ex,y�PT[ℓ(h(x),y)], (1)0其中ℓ是具体任务的损失。为了使设置有意义，通常假设ns�nl。0负迁移。负迁移的概念缺乏严格的定义。一个被广泛接受的负迁移描述[20,35]是“从源领域转移知识可能对目标学习者产生负面影响”。虽然直观，但这个描述隐藏了许多负迁移的关键因素，其中我们强调以下三点：01.负迁移应该与算法有关。具体来说，上述非正式描述没有指定与何种情况下进行负影响的比较。例如，仅与仅使用目标数据的最佳算法进行比较将会产生误导，即将负迁移定义为：0RPT(A(S, T)) > minA' RPT(A'(�, T)), (2)0因为风险的增加可能不是来自于使用源领域数据，而是算法的差异。因此，要研究负迁移，应该一次只关注一个特定的算法，并将其在有和没有源领域数据的情况下的性能进行比较。因此，我们将任何算法A的负迁移条件（NTC）定义为：0R P T ( A ( S , T )) > R P T ( A ( � , T ))。0为了方便起见，我们还将负面迁移间隙（NTG）定义为负面迁移的可量化度量：R P T ( A ( S , T )) - R P T ( A ( �, T))，如果负面迁移间隙为正，则发生负面迁移，反之亦然。02.联合分布之间的差异是负面迁移的根源。由于负面迁移是算法特定的，自然会问是否存在一种迁移学习算法，它总是能够改善与目标域仅基准相比的期望风险。事实证明，这取决于 P S ( X, Y ) 和 P T ( X, Y )之间的差异[11]。作为一个极端的例子，假设 P S ( X ) = PT ( X )，并且对于任何 x，P S ( Y | x )是均匀的。在这种情况下，P S ( X, Y )中没有有意义的知识。因此，利用 S � P S ( X, Y )几乎肯定会损害对 P T ( Y | X ) 的估计，除非 P T ( Y | X )是均匀的。0在实践中，我们通常处理存在一些“系统相似性”的情况，即 P S ( X, Y ) 和 P T ( X, Y )之间存在一定的相似性。然后，理想的迁移将找出并利用相似部分，从而提高性能。然而，如果算法未能丢弃不同的部分并依赖于它，可以预期0更多讨论请参见补充材料。argminF,CargmaxDLCLF(F, C) − µLADV(F, D),(5)LCLF(F, C) = Exl,yl∼TL [ℓCLF(C(F(xl)), yl)]+ Exs,ys∼S [ℓCLF(C(F(xs)), ys)] ,(6)LADV(F, D) = Exu∼PT (X) [log D(F(xu))]+ Exs∼PS(X) [log(1 − D(F(xs)))] .(7)PS(Y |xs) = PT (Y |xt) = P(Y |F(xs)) = P(Y |F(xt)).̸P(Y |F(x′)) = P(Y |F(xs)) = P(Y |xs) ̸= P(Y |x′).112950负面迁移的发生。因此，无论算法选择如何，分布偏移是负面迁移的实际根源。03.负面迁移在很大程度上取决于标记的目标数据的大小。虽然前面的讨论侧重于分布层面，但负面迁移的一个被忽视的因素是标记的目标数据的大小，它具有混合的影响。0一方面，对于相同的算法和分布差异，NTC取决于算法在仅使用目标数据的情况下能够达到的性能，即方程（3）的右手边。在零样本迁移学习2 [8,21]中，没有标记的目标数据（nl =0），仅使用无标签的目标数据将导致一个弱随机模型，因此不太可能满足NTC。当有标记的目标数据可用时[24,29,17]，可以使用半监督学习方法获得更好的仅目标的基准，并且负面迁移相对更容易发生。在另一端，如果有大量标记的目标数据，那么从稍微不同的源域进行迁移可能会损害泛化能力。因此，这表明负面迁移是相对的。0另一方面，标记的目标数据的数量直接影响发现联合分布之间共享规律的可行性和可靠性。如上所述，迁移学习算法的关键组成部分是发现源联合 P S ( X, Y )和目标联合 P T ( X, Y )之间的相似性。当没有可用的标记目标数据（nl =0）时，必须依赖边缘 P S ( X ) 和 P T ( X )之间的相似性，尽管这具有理论上的限制[2]。相反，如果有大量的样本 (xl, yl) � P T ( X, Y ) 和 (xs, ys) � P S ( X,Y)，问题将变得可管理。因此，理想的迁移学习算法可以利用标记的目标数据来减轻不相关源信息的负面影响。0在考虑到这些要点的基础上，我们接下来转向如何系统地避免负面迁移的问题。04. 提出的方法0如第3节所讨论的，实现成功的迁移并避免负面影响的关键是发现和利用P S ( X, Y ) 和 P T ( X, Y )之间的共享底层结构。在实践中，有许多可能的规律可以利用。为了激发我们提出的方法，我们首先回顾了一条重要的研究线，并展示了第3节的观察如何帮助我们识别出限制。02 在文献中通常称为无监督领域自适应。04.1. 领域对抗网络0作为一个显著的例子，最近的一系列工作[16, 8,30]成功地利用了一个领域不变的特征空间假设来实现知识迁移。具体来说，假设存在一个特征空间，既被源域和目标域共享，又足够具有区分性，可以用于预测输出。通过学习一个特征提取器 F，可以将源输入和目标输入映射到相同的特征空间，从而使在源数据上学习的分类器可以迁移到目标域。为了找到这样一个特征提取器，一个代表性的解决方案是领域对抗神经网络（DANN）[9]，它利用生成对抗网络（GAN）框架来训练特征提取器 F ，使得特征分布 P ( F ( X S )) 和 P ( F ( XT )) 无法被判别器 D区分。基于共享的特征空间，一个简单的分类器 C在源数据和目标数据上进行训练。形式上，目标可以被写成：0直观地， L CLF 是目标和源标记数据上的监督分类损失，L ADV 是将 F ( x u ) 和 F ( x s )视为真实特征和伪特征的标准 GAN 损失， µ是一个平衡这两个项的超参数。有关更多细节和理论分析，请参阅原始工作[8]。现在，请注意，DANN目标隐含地做出以下假设：对于任何 x s ∈ X s ，都存在一个 x t ∈ X t，使得0换句话说，假设每个单独的源样本都可以为迁移学习提供有意义的知识。然而，正如我们在第3节中讨论的那样，有些源样本可能无法提供任何知识。考虑这样一种情况，存在一个源输入 x s ∈ X s ，使得对于任何 x t ，都有 P S ( Y |x s ) � = P T ( Y | x t ) 。由于 GAN 目标的结果是 P ( F (X s )) = P ( F ( X t )) ，因此存在一个 x ′ ∈ X t ，使得 F (x ′ ) = F ( x s ) ，因此 P ( Y | F ( x ′ )) = P ( Y | F ( x s ))。然后，如果 P ( Y | F ( x s )) 在源数据上训练以匹配 PS ( Y | x s ) ，则有0因此，依赖这些“无关”的源样本可能会损害性能，导致负迁移。受到这个局限性的启发，我们接下来提出了一个简单但有效的方法来处理有害源样本。LSUP = Ex,y∼PT (X,Y ) [ℓCLF(C(F(x)), y)]= Ex,y∼PS(X,Y )�PT (x, y)PS(x, y)ℓCLF(C(F(x)), y)� (8)PT (x, y)PS(x, y) =LgateCLF(C, F) = Exl,yl∼TL [ℓCLF(C(F(xl)), yl)]+λExs,ys∼S [ω(xs, ys)ℓCLF(C(F(xs)), ys)] ,ω(xs, ys) = SG�D(xs, ys)1 − D(xs, ys)�(9)LaugADV(F, D) = Exu∼PT (X) [log D(F(xu), nil)]+ Exs∼PS(X) [log(1 − D(F(xs), nil))]+ Exl,yl∼TL [log D(F(xl), yl)]+ Exs,ys∼S [log(1 − D(F(xs), ys))] ,(10)argminF,CargmaxDLgateCLF(F, C) − µLaugADV(F, D).(11)112960图1. 所提出的鉴别器门的架构，其中 f 是提取的特征层， ˆ y 和ℓ CLF 是预测的类别标签及其损失， ˆ d 是预测的领域标签， Lgate CLF 是分类损失， L aug ADV是对抗学习损失；GRL代表梯度反转层， ⊙ 是Hadamard乘积。0以系统的方式处理有害源样本的有效方法。04.2. 鉴别器门0DANN的局限性来自于一个不必要的假设，即所有源样本都是同样有用的。为了消除这个弱点，一个自然的想法是以某种适当的方式重新加权每个源样本。为了得到一个适当的权重，注意到标准的监督学习目标可以重写为0P S ( x,y )自然地作为源数据的重要性权重[5,38]。因此，问题转化为经典的密度比估计问题。在这里，我们利用GAN鉴别器来执行密度比估计[31]。具体而言，鉴别器将x和配对的y作为输入，并试图对该对是来自源域(假)还是目标域(真)进行分类。在任何时候，最优鉴别器由D(x, y) = P T ( x,y )给出。0P T ( x,y )+ P S ( x,y ) ，这意味着01 − D ( x, y )。0在我们的实现中，为了节省模型参数，我们重复使用特征提取器来获取x的特征，并将D(x, y)实例化为D(F(x),y)。通过权重比例，我们修改了DANN中的分类目标(6)，如下所示：0其中SG(∙)表示停止梯度，λ是引入的另一个超参数，用于缩放密度比。由于密度比起到了门控函数的作用，我们将这种机制称为鉴别器门。另一方面，我们还通过加入匹配联合分布的项来增强对抗学习目标(7)：0其中nil表示一个虚拟标签，它不提供任何标签信息，并且它被包括在内以使得鉴别器D可以同时用作边际鉴别器和联合鉴别器。作为一个好处，联合鉴别器可以利用无标签的目标数据，因为标记数据可能很少。同样，在这个目标下，特征网络F将同时接收来自边际鉴别器和联合鉴别器的梯度。从理论上讲，联合匹配目标包含了边际匹配目标，因为匹配的联合分布意味着匹配的边际分布。然而，在实践中，标记的目标数据TL通常是有限的，使得联合匹配目标本身不足够。这种特定的设计选择与我们在第3节中讨论的标记目标数据的大小如何影响我们的算法设计相一致。将门控分类目标(9)和增强对抗学习目标(10)相结合，我们得到了我们提出的迁移学习方法。0整体架构如图1所示。最后，尽管所提出的方法是基于DANN的，但我们的方法非常通用，可以直接应用于其他对抗迁移学习方法。实际上，我们甚至可以扩展非对抗方法以实现类似的目标。在我们的实验中，我们调整了三个不同类别的六种深度方法[16, 27, 8, 30, 4,26]，以展示我们方法的有效性。05. 实验0我们在四个基准数据集上进行了大量实验，以分析负迁移及其三个潜在因素，并评估我们提出的鉴别器门对六种最先进的方法的效果。05.1. 数据集0我们使用四个具有不同难度级别的标准数据集：（1）小领域转移：Digits数据集，（2）中等领域转移：Of�ce-31数据集，以及（3）大领域转移：Of�ce-Home和VisDA数据集。112970Digits包含三个标准数字分类数据集：MNIST，USPS，SVHN。每个数据集包含属于10个类别（0-9）的大量图像。由于其简单的数据分布，该数据集相对较容易，因此我们只考虑了一个更困难的情况：SVHN →MNIST。具体而言，SVHN[18]包含从Google街景图像中裁剪的73K个房屋号码图像，而MNIST[15]由在受限条件下捕获的70K个手写数字组成。Of�ce-31[25]是用于视觉迁移学习的最常用数据集。它包含来自三个领域的31个类别的4,652个图像：亚马逊（A）包含来自amazon.com的图像，Webcam（W）和DSLR（D）包含由网络摄像头和单反相机拍摄的图像。我们在三个任务中评估所有方法：W → D，A → D和D →A。我们选择这三个设置是因为其他三种可能的情况产生了类似的结果。Of�ce-Home[33]是一个更具挑战性的数据集，它包含通过几个搜索引擎和在线图像目录爬取的约15,500个图像，共65个类别。特别地，它包含四个领域：艺术图片（Ar），剪贴画（Cl），产品图片（Pr）和真实世界图片（Rw）。我们希望在涉及从合成到真实世界的适应的更有趣和实用的迁移学习任务上进行测试，因此我们考虑了三个迁移任务：Ar → Rw，Cl →Rw和Pr →Rw。此外，我们选择按字母顺序排列的前25个类别，以使我们的结果与先前的研究[4]更具可比性。VisDA[22]是另一个具有挑战性的合成到真实数据集。我们使用训练集作为合成源和测试集作为真实世界目标（合成→真实）。具体而言，训练集包含通过渲染3D模型生成的152K个合成图像，而测试集包含来自Youtube BoundingBox数据集[23]的72K个真实图像，两者都包含12个类别。05.2. 实验设置0为了更好地研究负迁移效应并评估我们的方法，我们需要控制第3节中讨论的三个因素，即算法因素，差异因素和目标因素。在我们的实验中，我们采用以下机制来控制每个因素。差异因素：由于现有的基准数据集通常包含彼此相似的领域，我们需要改变它们的分布以更好地观察负迁移效应。在我们的实验中，我们引入了两个扰动率�x和�y，分别用于控制两个域之间的边际差异和条件差异。具体而言，对于每个源域数据，我们独立地绘制概率�x的伯努利变量，如果返回1，则向输入图像添加一系列随机噪声，例如随机旋转，随机椒盐噪声，随机翻转等（示例见图2）。0根据[28,1]中的研究，这种扰动足以导致神经网络的误分类，因此对于我们的目的来说是足够的。此外，我们根据概率�y绘制第二个独立的伯努利变量，并在返回1时分配一个随机选择的标签。0（a）原始0（b）扰动后的0图2. 扰动前后的示例图像0目标因素：与之前的研究类似，我们使用所有标记的源数据进行训练。对于目标数据，我们首先将50％作为训练集，剩下的50％用于测试。此外，我们将所有目标训练数据用作未标记的目标数据，并将其中的L％作为标记的目标数据。源数据的对称研究可以在[34]中找到。算法因素：为了对负迁移进行更全面的研究，我们评估了五个类别的八种迁移学习方法的性能：TCA [19]，KMM [14]，DAN [16]，DCORAL[27]，DANN（也称为RevGrad）[8]，ADDA [29]，PADA[4]，GTA[26]。具体来说，（1）TCA是一种基于MMD正则化PCA的传统方法，（2）KMM是一种传统的样本重新加权方法，（3）DAN和DCORAL是非对抗性的深度方法，它们使用分布测量作为额外的损失，（4）DANN，ADDA和PADA使用对抗性学习并直接训练鉴别器，（5）GTA是一种基于GAN的方法，除了鉴别器外还包括一个生成器来生成实际图像。我们主要遵循各自论文中解释的默认设置和训练过程进行模型选择。然而，为了公平比较，我们对所有深度方法使用相同的特征提取器和分类器架构。具体而言，我们对Digits数据集使用了[26]中详细描述的修改后的LeNet。对于其他数据集，我们从在ImageNet上预训练的ResNet-50[13]进行微调，并在res5c和fc层之间添加了一个256维的瓶颈层。为了比较我们提出的方法的性能，我们对六种深度方法的每一种都进行了门控版本的适应（例如，DANNgate是门控的DANN）。具体而言，我们按照第4.2节中的描述直接扩展了DANN，ADDA和PADA。对于GTA，我们扩展了鉴别器以接受类标签并输出域标签预测作为门控。对于DAN和DCORAL，我们添加了一个额外的鉴别器网络用作门控，但是一般网络没有进行对抗性训练。对于超参数，我们将λ设置为1，并在所有实验中逐渐将µ从0增加到1。对于每个迁移任务，我们比较五次随机重复的平均分类准确率。Table 1. Classiﬁcation accuracy (%) of DANN and DANNgate on tasks W→D and A→D. Perturbation rates are set equal, i.e. ǫ = ǫx = ǫy. NTG1 andNTG2 are negative transfer gaps for DANN and DANNgate. ∆ is the performance gain of DANNgate compared to DANN.W→DA→Dǫ =0.0ǫ =0.3ǫ =0.7ǫ =0.9Avgǫ =0.0ǫ =0.3ǫ =0.7ǫ =0.9AvgL%DANN99.1±0.883.2±1.447.2±2.732.2±3.565.476.2±1.540.9±1.121.3±2.712.9±3.737.80%NTG1-96.5-80.3-44.1-28.3-62.3-73.7-37.3-17.2-9.7-34.5DANNgate98.9±0.683.3±2.148.4±2.532.1±3.165.776.0±1.241.0±1.621.5±3.113.2±2.437.9NTG2-96.3-80.4-45.3-28.2-62.6-73.5-37.4-17.4-10.0-34.6∆↓0.2↑0.1↑1.2↓0.1↑0.3↓0.2↑0.1↑0.2↑0.3↑0.1DANN99.5±0.486.8±2.873.1±3.348.8±4.377.078.6±2.754.8±3.149.6±2.132.3±2.653.810%NTG1-48.7-37.8-23.61.6-27.1-28.4-4.41.218.4-3.3DANNgate99.2±0.385.4±2.679.4±2.950.4±3.278.685.1±1.760.2±2.158.3±2.049.1±2.563.2NTG2-48.4-36.4-29.90.0-28.7-34.9-9.8-7.51.6-12.7∆↓0.3↓1.4↑6.3↑1.6↑1.6↑6.5↑5.4↑8.7↑16.8↑9.4DANN99.6±0.289.7±1.678.4±2.570.5±4.384.680.2±2.073.3±2.270.2±3.351.3±4.368.830%NTG1-18.5-10.31.88.2-4.7-1.56.58.928.410.6DANNgate100.0±0.190.4±1.882.0±1.879.9±3.888.189.0±1.582.6±1.081.3±2.180.6±1.883.4NTG2-18.9-11.0-1.8-1.2-8.2-10.3-2.8-2.2-0.9-4.1∆↑0.4↑0.7↑3.6↑9.4↑2.6↑8.8↑9.3↑11.1↑29.3↑14.6DANN100.0±0.092.2±1.785.8±2.378.2±4.889.184.5±1.977.6±3.870.6±4.965.4±6.374.550%NTG1-11.7-3.23.810.4-0.24.612.118.823.214.7DANNgate100.0±0.093.3±1.791.2±1.589.5±3.492.593.2±1.391.4±1.290.2±2.089.8±1.991.2NTG2-11.7-4.3-1.6-0.9-4.6-4.1-1.7-0.8-1.2-2.0∆→0.0↑1.1↑5.4↑11.3↑4.5↑8.7↑13.8↑19.6↑24.4↑16.7(a) L% ﬁxed at 20%(b) ǫ ﬁxed at 0.2Figure 3. Incremental performance on task Pr→Rw. ResS and ResT areResNet-50 baselines trained using only source data and only target data.Perturbation rates are set equal, i.e. ǫ = ǫx = ǫy.test whether negative transfer occurs, we measure the nega-tive transfer gap (NTG) as the gap between the accuracy oftarget-only baseline and that of the original method. Forinstance, for DANN, the target-only baseline is DANNTwhich treats labeled target data as “source” data and usesunlabeled data as usual. A positive NTG indicates the oc-currence of negative transfer and vice versa.5.3. Results and Analysis5.3.1Study of Negative TransferTo reveal the three dependent factors, we study the effectof negative transfer under different methods with varyingperturbation rates (ǫx, ǫy) and target labeled data (L%).Divergence factor. The performance of DANN underdifferent settings of ǫ and L% on two tasks of Ofﬁce-31 areshown in Table 1. We observe an increasing negative trans-fer gap as we increase the perturbation rate in all cases. Insome cases such as L% = 10%, we can even observe achange in the sign of NTG. For a more ﬁne-grained study,we investigate a wider spectrum of distribution divergenceby gradually increasing ǫ from 0.0 to 1.0 in Figure 3(a). Al-though DANN is better than DANNT when ǫ is small, itsperformance degrades quickly as ǫ increases and drops be-low DANNT , indicating the occurrence of negative transfer.On the other hand, by ﬁxing ǫy = 0 and using two domainsW and D that are known to be particularly similar, we studynegative transfer under the assumption of covariate shift inTable 3, and observe that negative transfer does not occureven with high ǫx and descent L%. These experimental re-sults conﬁrms that the distribution divergence is an impor-tant factor of negative transfer.Table 3. Classiﬁcation accuracy (%) under the Covariate Shift assumptionon task W→D. ǫy is ﬁxed at 0. Negative transfer gap is shown in brackets.Methodǫx=0.7 L%=10%ǫx=1.0 L%=30%DAN81.2(-29.3)85.8(-6.2)DANN83.0(-30.8)86.1(-6.5)GTA85.5(-33.5)88.1(-8.0)Target factor. Fixing a speciﬁc ǫ, we observe that thenegative transfer gap increases as L% increases in Table 1.In the extreme case of unsupervised adaptation (L% = 0%),NTG stays negative even if two domains are far apart (ǫ =0.9). In Figure 3(b), we ﬁx ǫ = 0.2 and plot the perfor-mance curve as L% increases. We can see that while bothDANN and DANNT perform better with more labeled tar-get data, DANN is affected by the divergence factor andoutperformed by DANNT when L% becomes larger. Thisobservation shows that negative transfer is relative and itdepends on target labeled data.Algorithm factor. In Table 2, we compare the results11298Table 2. Classiﬁcation accuracy (%) of state-of-the-art methods on four benchmark datasets with negative transfer gap shown in brackets. Perturbationrates are ﬁxed at ǫx = ǫy = 0.7. Target labeled ratio is set at L% = 10% and we further enforce each task to use at most 3 labeled target samples per class.DigitsOfﬁce-31Ofﬁce-HomeVisDAMethodSVHN→MNISTW→DA→DD→AAr→RwCl→RwPr→RwSynthetic→RealAvgTCA[19]58.7(18.2)54.2(-4.2)11.4(20.5)13.1(18.4)----34.4(13.2)KMM[14]70.9(6.0)58.7(-8.5)18.5(13.4)17.7(13.8)----41.5(6.2)DAN[16]78.5(-4.4)76.3(-19.5)55.0(-1.3)39.2(4.9)43.2(3.8)30.2(5.8)47.2(4.0)28.4(7.2)49.8(0.1)DANgate82.2(-8.1)78.7(-21.9)60.4(-6.7)43.9(0.2)46.8(0.2)38.0(-2.0)50.4(0.8)36.2(-0.6)54.6(-4.7)∆DAN↑3.7↑2.4↑5.4↑4.7↑3.6↑7.8↑3.2↑7.8↑4.8DCORAL[27]75.2(-1.2)75.7(-18.9)53.8(-0.4)37.4(5.0)44.0(3.7)32.4(4.1)48.0(2.2)30.5(5.7)49.6(0.0)DCORALgate81.0(-7.0)78.2(-21.4)59.0(-5.6)43.2(-0.8)48.5(-0.8)40.0(-3.5)51.6(-1.4)35.8(0.4)54.7(-5.1)∆DCORAL↑5.8↑2.5↑5.2↑5.8↑4.5↑7.6↑3.6↑5.3↑5.1DANN[8]68.3(7.7)75.0(-19.2)51.0(2.3)38.2(5.6)42.8(4.2)28.5(7.7)42.0(10.0)29.9(6.0)47.0(3.0)DANNgate78.1(-2.1)80.2(-24.4)61.8(-8.5)48.3(-4.5)51.2(-4.2)43.8(-7.6)55.2(-3.2)40.5(-4.6)57.4(-7.4)∆DANN↑9.8↑5.2↑10.8↑10.1↑9.4↑14.7↑13.2↑10.6↑10.4ADDA[30]63.2(12.2)74.5(-18.1)49.9(2.2)38.3(5.1)41.4(6.0)25.2(13.5)43.2(7.2)28.0(7.3)45.5(4.4)ADDAgate79.4(-4.0)82.9(-26.5)64.2(-12.1)47.7(-4.3)52.2(-4.8)48.0(-9.3)58.2(-7.8)43.0(-7.7)59.5(-9.6)∆ADDA↑16.2↑8.4↑14.3↑9.4↑10.8↑22.8↑15.0↑15.0↑14.0PADA[4]69.7(6.5)75.5(-19.0)50.2(1.9)38.7(5.1)43.2(3.8)30.1(5.5)43.4(6.6)32.2(5.5)47.9(2.0)PADAgate81.8(-5.6)81.6(-25.1)62.1(-10.0)44.8(-1.0)52.8(-5.8)45.2(-9.6)54.5(-4.5)41.4(-5.7)58.0(-8.1)∆PADA↑12.1↑5.9↑11.9↑6.1↑9.6↑15.1↑11.1↑11.2↑10.1GTA[26]81.2(-6.8)78.9(-20.5)58.4(-7.2)42.2(2.8)48.2(1.0)33

下载后可阅读完整内容，剩余1页未读，立即下载