深度域自适应：基于最优传输的数据对齐与判别保留

164 浏览量更新于2023-12-18 收藏 972KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

DeepJDOT：用于无监督域自适应的Bharath Bhushan Damodaran1分， BenjaminKellenberger2分，R′emiFlamary3分，Devis Tuia2分，Nicolas Courty1分1UiversitedeBretagneSud，IRISA，UMR6074，CNRS，France2荷兰瓦赫宁根大学3Uiverrsit′eCoted{bharath-bhushan. irisa.fr，benchmark. wur.nl}抽象。在计算机视觉中，人们经常面临域转移的问题，当人们将在源数据集上训练的分类器应用于共享相似特征的目标数据时，就会发生域转移。相同的类），但也有不同的潜在数据结构（例如，不同的收购条件）。在这种情况下，模型在新数据上的表现会很差，因为分类器专门用于识别特定于源域的视觉线索在这项工作中，我们探索了一种名为DeepJDOT的解决方案来解决这个问题：通过基于最佳传输的联合深度表示/标签的差异度量，我们不仅学习了源域和目标域之间对齐的新数据表示，而且同时保留了分类器使用的判别信息。我们将DeepJDOT应用于一系列视觉识别任务，与最先进的深度域自适应方法相比，它具有优势关键词：深度域自适应，最优传输1介绍跨数据集进行泛化的能力是计算机视觉的圣杯之一。在标签稀缺或获取成本高昂的应用中，设计能够在共享相似特征（如类）但同时呈现不同底层数据结构（例如不同背景、色彩空间或使用不同设备获取）的数据集上表现良好的模型是关键。然而，传统的学习机器很难在训练它们的数据集（或域）中表现良好。这是因为模型通常假设训练（或源）和测试（或目标）数据都来自同一个生成过程。在视觉问题中，诸如物体位置、照明、通道数量或季节性等因素打破了这一假设，并要求能够补偿这种变化的适应策略或域适应策略[1]。作者贡献相等2B.B. Damodaran等人在第一个粗略的细分中，域自适应策略可以分为无监督和半监督域自适应：前者假设目标域中没有标签，而后者假设目标域中存在一些标记实例，可以用作自适应的参考点在本文中，我们提出了一个贡献前，更具挑战性的情况下。设xs∈XS是源域的例子，其相关标签ys∈YS.类似地，设xt∈XT是目标域图像，但具有未知标签。无监督域自适应的目标是通过利用来自源域的信息来学习目标域中的分类器 f 为此，我们可以访问源域，如 et{xs ， ys}i=1 ， . ，nsandatargetdomaindataset{xt}i=1，.，ntwith我我只有观察，没有标签。早期的无监督域自适应研究解决了这个问题，即找到域之间的公共表示或潜在空间，其中一个单一的问题是可以从一个点或一个点中独立地使用在文献[4]中，作者提出在源中的类正则性约束下，使用离散最优运输来匹配两个域的移动的边缘分布。在[5]中，使用了类似的逻辑，但是联合分布使用考虑边缘的耦合直接对齐，并且类条件分布联合移位。然而，该方法有两个缺点，针对这两个缺点，本文提出了解决方案：1）首先，[5]缩放性差，因为它必须解决n1×n2耦合，其中n1和n2是要对齐的样本;2）其次，在输入空间之间计算最佳传输耦合γ（并使用1/2距离），这是要对齐的差表示，因为我们感兴趣的是匹配更多的语义表示，这些语义表示应该简化分类器使用它们来做出决策的工作我们通过一种基于深度学习的策略来解决上述两个问题。一方面，使用深度学习算法进行领域自适应已经引起了越来越多的兴趣，并且在最近的计算机视觉文献中显示出令人印象深刻的结果[6-9]。另一方面（更重要的是），卷积神经网络（CNN）提供了解决我们两个问题所需的特性：1）通过沿着CNN训练逐渐适应最佳传输耦合，我们获得了一个可扩展的解决方案，一个近似的随机版本JDOT; 2）通过学习CNN深层的耦合，我们对齐分类器用于决策的表示，这是类的更语义化的表示。总之，我们在单个CNN框架中共同学习两个域和分类器之间的嵌入。我们使用基于最优运输的域自适应损失函数，因此将我们的命题称为深度联合配送最优运输（DeepJDOT）。我们在一系列视觉域适应任务上测试了DeepJDOT，并与最近几个最先进的竞争对手进行了比较。DeepJDOT32相关作品无监督域自适应。无监督域自适应研究源域携带标记实例的情况，而目标域未标记，但在训练期间可访问[10]。早期的方法考虑将数据空间彼此对齐的投影[2，11，12]，从而试图利用移位不变信息来匹配原始（输入）空间中的域。后来的工作将这种逻辑扩展到深度学习，通常通过权重共享[6]/重建[13]，通过添加最大平均离散度（MMD）和源层和目标层之间的基于关联的损失[14-16]。其他主要的发展集中在包含对抗性损失函数上，这使得CNN无法区分样本是来自源还是来自非源。目标域[7，8，17]。最后，最近的工作将这种对抗逻辑扩展到GAN的使用[18，19]，例如使用具有共享权重的两个GAN模块[9]，迫使图像到图像架构具有相似的激活分布[20]或简单地欺骗GAN的这些基于对抗图像生成的方法[18- 20]使用类条件或循环一致性项来学习区分嵌入，使得两个域中语义相似的图像在嵌入空间中被投影得很近。我们提出的DeepJDOT使用了以下概念：两个域的共享嵌入[17]，并建立在类似的逻辑上，基于MMD的方法，还为对齐添加了明确的判别组件：所提出的DeepJDOT将表示和判别学习相关联，因为最佳传输耦合确保了分布匹配，而i）JDOT类损失执行源标签传播到目标样本，以及ii）学习深层耦合的事实。CNN确保了歧视权。域适应中的最佳传输最优传输[22 -24]已用于域自适应以学习域之间的转换[4，25，26]，并具有相关的理论保证[27]。在这些工作中，耦合γ用于通过称为重心映射的估计映射来传输（即变换）源数据样本。然后，在所传输的源数据表示上训练新的分类器。但是这些不同的方法只能解决小到中等大小的问题，因为它们依赖于所有样本上OT问题的精确解。最近，Shen等人。 [28]使用Wasserstein距离作为深度学习设置中的损失，以使用[29]中暴露的问题的对偶公式来促进嵌入表示之间的相似性。然而，这些方法都没有考虑到适应w.r.t.。的歧视性内容的代表性，因为我们提出在本文中。3域自适应我们的建议是基于最佳运输。在回顾了相关的基本概念及其与领域自适应的关系之后，我们详细介绍了JDOT方法[5]，这是我们命题的起点。4B.B. Damodaran等人2JJ3.1最佳传输最优运输[24]（OT）是一种允许以几何合理的方式比较概率分布的理论。它允许工作的经验分布，并利用数据嵌入空间的几何形状形式上，OT搜索两个分布μ1和μ2之间的概率耦合γ∈Π（μ1，μ2），其产生最小位移成本∫OTc（µ1，µ2）= infγ∈Π（μ1，μ 2）c（x1， x2）dγ（x1， x2）（1）R2w.r.t. - 给定的成本函数c（x1， x2），测量样本x1和x2之间的相异性。在这里，Σ（µ1，µ2）描述了具有边际值µ1和µ2的联合概率分布的空间。在离散设置中（两种分布都是经验分布），这变为：OTc（µ1，µ2）=minγ∈Π（μ1，μ 2）<γ，C>F，（2）其中，F是Frobenius点积，C≥ 0是表示成对成本c（xi，xj）的成本矩阵∈Rn1×n2，γ是具有指定边缘的大小为n1×n2这个优化问题的最小值可以用作分布之间的距离，并且，只要成本c是范数，它就被称为Wasserstein距离。求解方程（2）是一个具有等式约束的简单线性规划问题，但与样本大小成超二次方提出了有效的计算方案，其中熵正则化[30]和/或随机版本使用问题的对偶公式[31，29，32]，允许解决中小型问题。3.2联合配送最优运输Courty等人[5]提出了联合分布最优传输（JDOT）方法，以防止两步适应（即，首先调整表示，然后根据调整后的特征学习分类器），这是通过直接学习嵌入在成本函数C中的分类器来实现的。其基本思想是对齐联合特征/标签分布，而不是只考虑特征分布。因此，µs和µt是乘积空间X × Y的度量。与此空间相关联的一般化成本表示为要素和标注空间中成本的加权组合，即.s s ttdx i，y i; x j，y j = αc（x i，x j）+ λtL（y i，y j）（3）对于第i个源元素和第j个目标元素，并且其中c（·，·）被选择为λ2距离并且L（·，·）是分类损失（例如，铰链或交叉熵）。参数α和λt是衡量距离项贡献的两个标量值由于目标标签yt是未知的，它们将被替代版本替换f（x t），它依赖于分类器f：X → Y。考虑分类损失导致以下最小化问题：minf，γ∈ θ（μs，μ t）<γ，Df>F，（4）DeepJDOT5++Fig. 1.所提出的DeepJDOT方法的概述。虽然特征提取器g和分类器f的结构由两个域共享，但是它们被表示两次以区分两个域。潜在表示和标签都用于计算每个批次的耦合矩阵γ，该矩阵用于全局损失函数。其中D f依赖于f，并收集所有成对成本d（·，·）。作为该优化问题的副产品，共享公共表示和公共标签（通过分类）的样本被匹配，从而产生更好的区分。有趣的是，在[5]中证明了最小化这个量相当于最小化域自适应问题的学习边界。然而，JDOT具有两个主要缺点：i）在大型数据集上，求解γ变得棘手，因为γ在大小上与样本数量成二次比例;ii）在输入空间中将成本c（xs， xt）取为上的平方欧几里德范数。I j图像，并且可能无法提供两个样本之间的相异性我们DeepJDOT解决了这两个问题，它引入了一个随机版本，只计算CNN迭代过程中的小耦合，并且通过在CNN的深层而不是图像空间中的语义表示之间学习最佳传输。4该方法4.1深度联合配送最优运输（DeepJDOT）DeepJDOT模型，如图所示由两部分组成：嵌入函数g：x→ z，其中输入被映射到潜在空间Z，以及分类器f：z→ y，其将潜在空间映射到目标域上的标签潜在空间可以是模型提供的任何特征层，就像我们的例子中CNN的倒数第二个全连接层DeepJ- DOT联合优化了这个特征空间和分类器，以提供一种在目标域上表现良好的方法。这个问题的解决方案可以通过最小化以下目标函数来实现：min好吧ssttΣγ∈ θ（μs，μt），f，gγijdg（xi），yi;g（xj），f（g（xj））I j、（五）GG6B.B. Damodaran等人.sstttt2.StΣ其中dg（xi），yi;g（xj），f（g（xj）=α<$g（xi）−g（xj）<$+λtLyi，f（g（xj）），anddα和λt是控制两项之间的折衷的参数，如等式（3）所示。类似于JDOT，损失中的第一项比较源域和目标域的嵌入的兼容性，而第二项考虑在目标域中学习的分类器f及其相对于源中可用的标签尽管与JDOT [5]的公式相似，但我们的主张具有显着的差异，即在DeepJDOT 中， CNN 内的联合（嵌入空间 / 标签）分布之间的Wasserstein距离最小化，而不是原始输入空间之间的由于CNN的深层编码空间和语义信息，我们相信它们更适合描述这两个领域的图像内容，而不是受照明，姿势或物体相对位置等许多因素可以注意到，等式（5）中报告的公式仅取决于在目标域中学习的分类器通过这样做，人们把重点放在学习一个好的分类器的目标域，而忽略了分类器的性能时，考虑源样本。在最近的文献中，这种在源代码中的定义通常被称为“cataa t r o p h i c for get t i ng为了避免这样的遗忘，可以很容易地在（5）中重新合并源域上的损失，从而导致最终的DeepJDOT目标：min 1个小时。L（ys，f（g（xs）+γst2.St好吧γ，f，gnsii我i、jijα<$g（xi）−g（xj）<$+λtLtyi，f（g（xj））（六）最后一个公式是DeepJDOT解决的优化问题。然而，对于大样本量，计算完整γ的约束产生了计算上不可行的问题，无论是在内存还是时间复杂度方面。在下一节中，我们提出了一种基于随机优化的近似方法。4.2求解具有随机梯度的最优化问题在本节中，我们描述了求解DeepJDOT的近似优化过程。方程（6）涉及两组待优化的变量：OT矩阵γ和模型f和g。这建议使用替代的最小化方法（如前所述或原始JDOT）。我发现，在固定和固定的情况下，解决问题的方法（6）是将油倒向A。在以下情况下，我们将采取适当的措施-sociatedcostmatrixCij=α<$g<$（xs）−g<$（xt）<$2+λtLtys，f∈（g∈（xt））.Whenhenfixingi j i j因此，最佳化和过滤是一个可选择的解决方案。然而，用经典OT求解器计算最优耦合对于大规模数据集是不可扩展的。尽管最近在具有一般地面损失的大规模OT方面取得了一些进展[31，32]，但该模型的规模不足以满足最近计算机视觉任务的要求。因此，在这项工作中，我们建议使用来自源和目标域的小批量随机近似来解决问题[35]。DeepJDOT7这种方法有两个主要优点：它可以扩展到大型数据集，并且可以轻松集成到现代深度学习框架中。更具体地，通过对大小为m的小批量进行采样来近似目标函数（6），从而导致以下优化问题：Σ最小E 1微米L好吧（ys，f（g（xs））+minγs t2我Σ. sty，f（g（x））f、gmi=1iγ∈ θi、jijα<$g（xi）−g（xj）<$+λtLtiJ（七）其中E是相对于从源域和目标域抽取源域（Ls）和目标域（Lt）的分类损失函数可以是任何一般类的损失函数，其是二次可微的。在这两种情况下，我们都选择了传统的交叉熵损失。请注意，如[35]中所讨论的，小链上的期望值不会收敛到每对样本之间的真实OT耦合，这可能导致样本之间出现在完全耦合中未连接的然而，这也可以被看作是一种正则化，它将促进相邻样本之间的质量共享。最后请注意，我们没有像[35]中那样使用OT的正则化版本，因为它引入了一个额外的正则化参数，应该进行交叉验证，这可能会使模型校准更加复杂。尽管如此，DeepJDOT到正则化OT的扩展是直接的，并且可能有利于高维嵌入g。因此，我们建议获得随机更新方程。(7)如下（并在算法4中总结）：1. 利用固定的CNN参数（g，f），对m个样本在ch处的每一个随机分布，min布勒姆 γij.α<$g<$（xs）−g<$（xt）<$2+λtLt.ΣΣys，f（g（xt））（八）γ∈Π（μs，μ t）i j i ji，j=1使用网络单纯形流算法。2. 利用在预处理时获得的固定耦合γ，使用随机梯度更新来更新混合函数（g）和分类器（f），以用于小批量上的以下损失：1微米布勒姆Ls（ys，f（g（xs）+γij.α<$g（xs）−g（xt）<$2+λtLt.ΣΣys，f（g（xt））.Mii=1i iji，j=1I j（九）域对齐项仅将源样本和目标样本与相似的标签/标签对齐，并且这些标签/标签将在源样本和目标样本之间完全相同地进行标签传播。分类器f在源域和目标域中同时学习。S8B.B. Damodaran等人算法1 DeepJDOT随机优化Require：xs：源域示例，xt：目标域示例，ys：源域标签1：对于每批源样品（xbs， ybs）和目标样品（xbt），2：固定的几何形状和形状，用于求解等式（8）3：固定，并将数据更新为g和fac cr din g，以满足（9）4：结束，5实验和结果我们在三个适应任务上评估了DeepJDOT：数字分类（第5.1节），家庭数据集（第5.2节）和视觉领域适应挑战（visDA;第5.3节）。对于每个数据集，我们首先展示数据，然后详细介绍实现，最后展示和讨论结果。5.1数字分类数据集我们考虑来自数字分类字段的四个数据源（域）：MNIST[36]，USPS [37]，MNIST-M和街景门牌号（SVHN）[38]数据集。每个数据集涉及10类分类问题（检索数字0-9）：- USPS. 美国邮政总局统计了 7 2 9 1 张手写图像和 2 0 0 7 张手写图像，每张图像的大小为 1 6 × 1 6 像素。- MNIST。MNIST数据集包含60，000张- MNIST M.我们按照[8]中的协议生成MNIST-M图像。MNIST-M是MNIST的变体，其中（黑色）背景被从Berkeley Segmentation DataSet（BSDS 500）中提取的随机补丁替换[39]。训练和测试样本的数量与上面讨论的MNIST数据集相同。- SVHN。SVHN数据集包含从Google街景图像中提取的门牌号。我们使用SVHN的1992版本，其中图像被裁剪为32× 32像素。多个数字可能出现在一幅图像中，目标是检测图像中心的数字。该数据集包含73 '212张训练图像和26'032张大小为32 × 32×3的测试图像。每个数据集的相应示例如图2所示。运行以下三个实验（箭头方向对应于域适应的意义）：- 美国邮政参与者。USPS图像被零填充以达到与MNIST数据集相同的适应是考虑在两个方向：USPS→MNIST，MNIST →USPS。DeepJDOT9图二、来自MNIST、USPS、SVHN和MNIST-M数据集的示例- SVHN→MNIST。将单通道MNIST图像复制三次以形成灰色3通道图像，并调整大小以匹配SVHN图像的分辨率这里，仅在一个方向上考虑自适应：SVHN→MNIST。由于SVHN图像的变化，使SVHN图像适应MNIST具有挑战性[8]- MNIST→MNIST-M。MNIST被认为是源域，MNIST-M被认为是目标域。彩色MNIST-M图像可以很容易地被人类识别，但是对于在MNIST上训练的CNN来说，这是一个挑战，因为MNIST只是灰度图像。同样，将灰度MNIST图像复制三次以匹配MNIST-M图像的颜色分辨率模型对于所有数字自适应实验，我们的嵌入函数g从头开始训练，六个3× 3卷积层包含32，32，64，64，128和128个滤波器，以及一个128个隐藏单元的全连接层，分别跟随一个sigmoid非线性然后，分类器f由一个全连接层组成，后面是一个softmax，用于提供类得分。Adam优化器（lr= 2e−4）用于更新我们的模型，使用两个域的小批量大小mS=mT= 500（源小批量中每个类50个样本DeepJDOT的超参数，α = 0。001和λt= 0。0001，是实验性的。我们将DeepJDOT与以下方法进行比较：– 非对抗性差异方法：DeepCORAL [6]，MMD[14]，DRCN[40]，DSN[41]，AssocDA[16]，Self-ensemble[42]4，– 对抗性差异方法：DANN[8]，ADDA[21]，– 对抗图像生成方法：CoGAN[9]，UNIT[18]，GenToAdapt[19]和I2IAdapt[20]。为了确保公平比较，我们重新实现了最相关的竞争对手（CORAL，MMD，DANN和ADDA）。对于其他方法，结果直接来自相应的文章。表1中报告了DeepJDOT在四个数字适应任务上的性能第一行（仅源）显示目标精度4我们通过使用最小的数据增强（对应于[42]表1中的MT+CT增强我们不与他们的完整模型进行比较，因为他们使用了更重的数据增强和不同的网络。10B.B. Damodaran等人行（仅目标）报告使用在目标训练数据上训练的分类器实现的目标测试数据的准确度。该方法被认为是我们提出的方法的上限，可以看作是我们的金标准。StochJDOT（Stochastic adaptation of JDOT）是指当源域和目标域之间的差异在原始图像空间中以0.02的距离计算时，我们所提出的方法最后，DeepJDOT-source表示源数据的准确性，在适应目标域之后，可以被认为是灾难性遗忘的度量。实验结果表明，DeepJDOT实现的精度可比，或更高的当前国家的最先进的方法。当考虑表1的第一个块中的方法时，DeepJDOT的性能远远优于竞争对手，除了在MNIST→USPS任务上具有类似性能的DANN。在更具挑战性的适应设置（SVHN→MNIST和MNIST→MNIST-M）中，最先进的方法5不能很好地适应目标域。接下来，当考虑表1的第二块中的方法时，我们的方法显示出令人印象深刻的性能，尽管DeepJDOT没有使用任何复杂的过程来生成目标图像以执行自适应。t-SNE嵌入我们在MNIST→MNIST-M自适应任务上使用t-SNE嵌入来可视化DeepJDOT、StochJDOT和DANN学习的源域和目标域的嵌入质量（图3）。正如预期的那样，在源模型中，来自源域的样本被很好地聚类，而目标样本更加分散。具有DANN的t-SNE嵌入不能很好地对齐分布，并且该观察结果也适用于 StochJDOT 。值得注意的是，StochJDOT 不对齐分布，而是直接学习目标域中的分类器。StochJDOT对目标样本的不良嵌入表明了在深层CNN层中计算最佳传输的基础度量（成本函数）的必要性最后，DeepJDOT完美地将源域样本和目标域样本彼此对齐，这解释了为什么会出现如此多的错误。嵌入中的类的 “ 不匹配 ” 和接近完美的分离说明了 D e e p J D O T找到了一个既对齐源 / 目标分布，又最大化类之间的余量的嵌入。消融研究表2报告了在USPS→MNIST和MNIST→MNIST-M情况下仅使用我们提出的部分损失（公式（6））的模型中获得的结果。当仅考虑JDOT损失时（αd+Lt情况），在两种自适应情况下精度都下降这种行为可能是由于目标分类器对噪声伪（传播）标签的过拟合然而，性能与基于非对抗性差异的方法相当5对于SVHN→MNIST适应任务中的ADDA[21]，准确度来自论文，因为我们无法进一步提高仅源准确度DeepJDOT11源（红色）VS目标（蓝色）类别区分了图3.第三章。 t-SNEembedigf2' 000个t e s t a m p l e S t am左列显示域比较，其中颜色表示域。右列显示了方法区分类别的能力（样品相对于颜色进行着色）。类）。源仅DeepJDOTDANNStochJDOT12B.B. Damodaran等人表1.数字分类任务在目标测试数据集上的分类准确率。仅源和仅目标是指在没有域适应的情况下在相应数据集上进行训练第一个块中报告的准确性是我们自己的实现，而第二个块报告的性能来自相应的文章。粗体和斜体表示最佳和次佳结果。最后一行报告DeepJDOT在源域上的性能。方法适应：来源→目标MNIST →USPS USPS →MNIST SVHN →MNIST MNIST →MNIST-M源仅94.859.660.760.8DeepCORAL [6]89.3391.559.666.5MMD [14]88.573.564.872.5DANN [8]95.790.070.875.4ADDA [21]92.493.876.0578.8[第16话]--95.789.5自我合奏4[42]88.1492.3593.33-DRCN [40]91.873.681.9-[41]第四十一话91.3-82.783.2CoGAN [9]91.289.1--[18]95.993.590.5-[19]第十九话95.390.892.4-[20]第二十话92.187.280.3-StochJDOT93.690.567.666.7DeepJDOT（我们的）95.796.496.792.4只针对95.898.798.796.8DeepJDOT源98.594.975.797.8表2.DeepJDOT的消融研究方法USPS →MNIST MNIST →MNIST-MLs+（αd+Lt）96.492.4αd+Lt86.4173.6Ls+αd95.5382.3报告见表1。相反，当仅特征空间分布包括在等式（6）中时，即，在Ls+αd实验中，在USPS→MNIST方向精度接近我们的全模型，但在MNIST→MNIST-M方向精度下降。总的来说，与原始JDOT模型相比，精度得到了提高，这突出了包括来自源域的信息的重要性此外，这也突出了同时更新源域和目标域中的分类器的重要性。总而言之，本消融研究表明，单个组件带来了补充信息，以实现最佳分类结果。5.2企业简介Dataset数据集[43]包含来自四个不同领域的65个类别的大约15500张图像：艺术绘画，剪贴画，产品和真实世界的图像。DeepJDOT133.我的世界根据办公室的要求，制定JDO的步骤。“A r”= a rt i stic p a i n t in g s，“C l“= a rt p a rt，“P r”= p r o du c t，“R w“= re a l- w o rl d i m g e s。竞争性方法的性能图见[43]。方法Ar→ClAr→ PrAr→ RwCl→ ArCl→ PrCl→ RwPr→ArPr→ClPr→RwRw→ArRw→ClRw→Pr是说珊瑚[45]27.1036.1644.3226.0840.0340.3327.7730.5450.6138.4836.3657.1137.91JDA [46]25.3435.9842.9424.5240.1940.9025.9632.7249.2535.1035.3555.3536.97丹麦[47]30.6642.1754.1332.8347.5949.5829.0734.0556.7043.5838.2562.7343.46DANN [8]33.3342.9654.4232.2649.1349.7630.4438.1456.7644.7142.6664.6544.94DAH [43]31.6440.7551.7334.6951.9352.7929.9139.6360.7144.9945.1362.5445.54DeepJDOT39.7350.4162.4939.5254.3553.1536.7239.2463.5552.2945.4370.4550.67在这种情况下，我们使用预先训练的VGG-16模型[44]，最后一层被替换，但不执行数据增强。我们使用每个域3′250个样本来计算最佳耦合。我们将我们的模型与以下最先进的方法进行了比较：CORAL[45]，JDA[46]，DAN[47]，DANN[8]和DAH[43]。结果表3列出了DeepJDOT与一系列其他自适应方法相比的性能。可以看出，DeepJDOT在所有任务上都优于所有其他模型，除了从域“prod-u c t“到“c li p ar t“的适配。5.3VisDA-2017数据集2017年的视觉域适应分类挑战（VisDA-2017;[48]）需要为12个类别中的每个类别训练3D模型的渲染模型，并分别适应从MS-COCO[49]（验证集）和YouTube BoundingBoxes [50]（测试集）采样的自然图像。这里报告的测试集性能在官方服务器上进行了评估由于VisDA的强大适应复杂性，我们采用ResNet-50 [51]作为基础模型，用两个MLP替换最后一层，分别映射到512个隐藏类，然后映射到12个我们在源域上训练一个模型，然后冻结它来计算源特征向量，使一个最初相同的副本适应目标集。我们使用每个域4'096个样本来计算耦合。数据扩充遵循[42]的方案。在Vi s DA- 2017上的ResultsDepJDOT的性能与来自评估服务器6的基线（DeepCORAL，DAN）一起记录在表4中。我们在评估服务器中的条目被称为oatmil。我们可以看到，我们的方法比分布匹配方法（DeepCORAL [6]，DAN [47]）具有更好的准确性，除了刀。我们观察到DeepJDOT类车的负迁移，然而这种现象对于大多数当前方法也是有效的（参见评估服务器结果）。为了与评估服务器中的其他方法进行公平的比较，我们还显示了（表4括号中的值）源模型与6https://competitions.codalab.org/competitions/17052#results14B.B. Damodaran等人表4. DeepJDOT在VisDA 2017分类挑战中的表现。括号中的分数表示源（未调整）模型和目标（调整）模型之间的准确性差异。从评估服务器 6报告CORAL和DAN的相应值。方法平面 bcycl 总线车马刀MCYCL人植物sktbd 火车卡车是说源仅36.04.019.9 94.7 14.80.4238.73.837.48.171.96.728.0DeepCORAL [6]62.521.7 66.3 64.6 31.136.754.224.973.829.943.4 34.245.3（19.0）丹麦[47]55.318.4 59.8 68.6 55.3 41.463.430.478.823.062.9 40.249.8（19.5）DeepJDOT85.4 50.4 77.3 87.3 69.1 14.191.553.391.9 31.2 88.5 61.866.9（38.9）目标模型。当考虑平均精度时，我们的方法排名第六，当考虑出版时源模型和目标模型之间的差异时，排名第三。值得注意的是，我们方法的性能取决于源模型的容量：如果使用更大的CNN，我们方法的性能可以进一步提高。6结论在本文中，我们提出了DeepJDOT模型，用于基于最优传输的无监督深度所提出的方法旨在学习一个共同的潜在空间的源和目标分布，传达区分信息的两个领域。这是通过最优传输最小化联合深度特征/标签域分布的离散度来实现的我们提出了一种有效的随机算法来解决这个问题，尽管简单且易于集成到现代深度学习框架中，但我们的方法在跨域数字和办公室-家庭适应方面优于最先进的方法，并在VisDA-2017适应上提供了令人满意的结果。未来的工作将考虑在多域场景中评估该方法，以及考虑到嵌入层之间的表示的相似性和/或不同分类器之间的标签的相似性的更复杂的成本函数。确认这项工作得益于布列塔尼地区赠款和法国国家研究机构（ANR）的OATMIL ANR-17-CE 23 -0012项目的支持。匿名评论者的建设性意见和建议是非常感谢的。引用1. 帕特尔，V.M.，戈帕兰河Li，R.，切拉帕河：视域自适应：接收与显示的研究。《中国科学院学报》第32卷第3期（2015）53- 69页DeepJDOT152. Saenko，K.，Kulis，B.，Fritz，M.，达雷尔，T.：视觉类别模型适应新领域。 In：ECCV. （2010年）2133. 戈帕兰河Li，R.，切拉帕河：面向对象识别的领域自适应：一个不受欢迎的研究。 In：C.V.（2011）9994. Courty，N.，Flamary，R.，Tuia，D.，Rakotomamonjy，A.：最佳的运输方式为DOMAINAPTATON。IP.A.M.I39（9）（201 7）18535. Courty，N.，Flamary，R.，Habrard，A.，Rakotomamonjy，A.：域适应的联合分布最优运输。在：NIPS。（2017年）6. 孙湾，英-地Saenko，K.：Deep Coral：Correlation alignment for deep domainadaptation.In：EC CVworkshops. （2016）4437. 罗志Zou，Y.，中国科学院，霍夫曼，J.，李菲菲：标签跨领域和任务的可转移表示的有效学习在：NIPS。（2017年）8. 加宁，Y.，Ustinova，E.，Ajakan，H.，Germain，P.，Larochelle，H.，Laviolette，F.，Marchand，M.，Lempitsky，V.：神经网络的领域对抗训练。J. Mach. 我是一个人。是的。17（1）（Januarry201 6）20969. Liu，M.Y.，Tuzel，O.：耦合生成对抗网络。在李，D. D.，你好，M.，Lux burrg，U.五，古永岛，去吧，R.， e d s。：NIPS.（2016）46910. 本-大卫，S.，Blitzer，J.，克拉默，K.，佩雷拉，F.：分析表示形式的domainaptati on。 In：IPS. （2007年）13711. Jhuo，I.H.，Liu，D.，中国科学院，李，D.T.，Chang，S.F.：鲁棒的视觉域自适应与低宽范围的恢复。 In：CVPR. （2012年）216812. 霍夫曼，J.，Roxie，E.，Donahue，J.，Saenko，K.，达雷尔，T.：域不变图像表示的有效学习。In：ICLR. （二零一三年）13. 阿尔洪迪河Tuytelaars，T.：轻量级无监督域自适应卷积滤波器重建。In：ECCV. （2016年）14. 朗，M.，曹玉，王杰，约旦，密歇根州：学习可转移的功能与设计和数据处理的工作。 In：JiangsuJiangsu （2015）9715. 朗，M.，王杰，约旦，密歇根州：无监督域自适应残差传输网络。在：NIPS。（2016年）16. Haeusser，P.，Frerix，T.，Mordvintsev，A.，Cremers，D.：关联域自适应。In：ICCV. （2017年）17. Tzeng，E.，霍夫曼，J.，Darrell，T.，Saenko，K.：跨域和任务的同步深度传输In：ICCV. （2015年）18. Liu，M.Y.，Breuel，T.，Kautz，J.：无监督的图像到图像翻译网络。在盖永岛，Luxburg，U.V.，Bengio，S.，Wallach，H.，弗格斯河，你看，去吧，R.， eds。：NIPS. （2017）70019. Sankaranarayanan，S.，Balaji，Y.，卡斯蒂略，哥伦比亚特区，切拉帕河：生成以适应：使用生成对抗网络对齐域。CoRR abs/1704.01705（2017）20. Murez，Z.，Kolouri，S.，Kriegman，D.，Ramamoorthi河，Kim，K.：图像到图像的翻译领域适应。ArXiv电子印刷品（2017年12月）21. Tzeng，E.，霍夫曼，J.，Darrell，T.，Saenko，K.：对抗性判别域自适应。在：CVPR。（2017年）22. 我的天， G 。：M'emoireurlath'eorededesd'eblaisettdesremblais. 《皇室的爱》（Del23. Kantorovich，L.：关于物质的转移C.R. （Doklady）Acad.Sci. URSS（N.S. （1942年）37（1942）19924. Villani，C.：最佳运输：新旧。数学科学基础。03 The Dog（2009）25. Courty，N.，Flamary，R.，Tuia，D.：正则化最优传输的域自适应。In：ECML. （二零一四年）16B.B. Damodaran等人26. Perrot，M.，Courty，N.，Flamary，R.，Habrard，A.：离散运算域的映射估计。 In：IPS. （2016）419727. 雷德科岛Habrard，A.，Sebban，M.：带hoptimaltraspr t域自适应的理论分析。 In：ECML/PKDD. （2017）73728. 沈，J.，Qu，Y.，张伟，Yu，Y.：Wasserstein距离引导的领域适应表示学习。在：AAAI。（2018年）29. Arjovsky，M.，Chintala，S.，博图湖：Wasserstein生成对抗网络In：Jiangsu Jiangsu（2017）21430. Cuturi，M.：Sinkhorn距离：最佳运输的光速计算In：IPS.（2013）229231. 给我，A.， Cuturi，M.，你好G Ba

下载后可阅读完整内容，剩余1页未读，立即下载