无监督域自适应的可转移原型网络

56 浏览量更新于2023-10-18 收藏 1.41MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2239无监督域自适应的可转移原型网络YingweiPan <$，TingYao<$，Yehao LiXiang，YuWang <$，Chong-Wah Ngo<$，andTao Mei<$†JD AI Research，中国中山大学，广州，中国§香港城市大学，香港{panyw.ustc，tingyao.ustc，yehaoli.sysu，feather1014}@ gmail.com，cscwngo@cityu.edu.hk，tmei@live.com摘要在本文中，我们介绍了一种新的思想，通过原型网络的重塑，学习嵌入空间，并通过重塑的距离，每个类的原型进行分类的无监督域自适应。具体来说，我们提出了可转移的原型网络（TPN）的适应，使原型为每个类在源和目标域是接近的嵌入空间和预测的分数分布分别对源和目标数据的原型是相似的。从技术上讲，TPN首先将每个目标示例与源域中最近的原型相匹配，并将示例标记为“伪”标签。然后可以分别在仅源数据、仅目标数据和源-目标数据上计算每个类的原型。TPN的优化是通过联合最小化三种类型数据上的原型之间的距离和每对原型输出的分数分布的KL-发散来进行端到端训练的。在MNIST、USPS和SVHN数据集上进行了大量的实验，并与最先进的方法进行了比较，得到了较好更值得注意的是，我们在VisDA2017数据集上获得了80.4%的单模型准确率。1. 介绍深度神经网络的最新进展已经证明了在大型数据集上学习视觉模型的高能力。例如，残差网络的集合[7]在ImageNet测试集上实现了3.57%的前5名错误，甚至低于报告的人类水平性能的5.1%这些成就在很大程度上依赖于为深度模型学习提供大量注释数据的需求然而，在新数据集上执行密集的手动标记是昂贵且耗时的。一个有效的问题是，为什么不在新的领域中回收源领域中现成的学习知识/模型。困难源于领域鸿沟[33]这可能对性能产生不利影响，尤其是当源和目标数据分布非常不同时。解决这一挑战的一种有吸引力的方法是无监督域自适应，其目的是利用源域中的标记示例或学习模型以及目标域中的大量未标记示例来泛化目标模型。无监督域自适应中的一种常见做法是通过相关距离[27，34]或最大平均差异[31]等措施最小化域偏移来对齐源域和目标域之间的数据分布或建立跨域不变性在本文中，我们将在原型网络的框架下探索通用和特定任务的域适应[26]。原型网络的设计假设存在一个嵌入空间，其中每个类中样本的投影围绕一个原型（或质心）聚集。然后通过计算嵌入空间中每个类的原型表示的距离来执行分类。通过这种方式，通用适配是通过原型来表示每个类分布，并在从不同域的数据上学习的嵌入空间中匹配每个类的原型。任务特定适应的灵感来自于当源和目标分布一致时，目标数据应该被任务特定模型正确分类的比率在原型网络的背景下，任务特定的适应相当于适应不同领域的原型产生的分数分布。通过将通用自适应和特定任务自适应的思想整合到无监督的领域自适应中，我们提出了一种新的可转移原型网络（TPN）架构。理想情况下，TPN是学习输入样本到嵌入空间的非线性映射（神经网络），其中表示在域之间是不变的。具体地说，TPN采用一批标记的源示例和未标记的目标示例，将每个目标示例与在源数据上计算的每个原型进行比较，并为最近的原型分配标签。2240i=1原型作为“伪”标签到每个目标示例。因此，通用适配然后被公式化以最小化在源数据、具有伪标签的目标数据以及源加目标数据上测量的原型之间的距离这是为了缓解类级别上的域差异在特定于任务的自适应中，我们利用softmax将每个示例的嵌入距离作为分类器。KL散度被用来模拟在每个域或其组合中计算的原型上的分类器的得分分布的不匹配。在这种情况下，域差异在样本水平上被修正整个TPN通过最小化标记源数据上的分类损失加上两个自适应项来进行端到端训练，并在批次之间切换学习在推理阶段，每个原型被计算为先验。将测试目标示例投影到嵌入空间中以与每个原型进行比较，并将softmax的输出作为预测。2. 相关工作受使用深度卷积神经网络（DCNN）的图像表示的最新进展的启发，已经提出了一些基于深度架构的方法用于无监督域自适应。特别是，无监督域自适应的一个常见深度解决方案是通过最大平均离散度（M-MD）最小化域差异来指导DCNN中的特征学习MMD是一种比较源域和目标域分布的[31]是将MMD结合到DCNN中的早期作品之一，其在源域上具有常规的监督分类损失，以学习语义上有意义的和域不变的表示。在[15]中，Long et al. 通过MMD的多内核变体同时利用来自多个层的特征的可转移性。通过[17]中的残差传递模块调整分类器，进一步扩展了这项工作。最近，[16]探索了多个任务特定层的网络激活的联合分布中的域移位减少。D-CNN中无监督域自适应的另一个分支是通过学习域自适应来利用域混淆[4，14，29，30，35]。在这里，域判别器被设计为预测每个输入样本的域（源/目标），并以对抗方式进行训练，类似于GAN [5]，用于学习域不变表示。例如，[29]设计了一个域混淆损失，在域混淆中测量，用于强制learn- t表示为域不变。精神上相似多域图像的分布。最近，[30]将对抗学习与判别特征学习相结合，用于无监督域自适应。最近，[32]通过学习域不变特征提取器和执行特征增强来扩展域搜索总之，我们的方法属于基于域与以前的方法类似[16，31]，我们的TPN利用额外的未标记目标数据来学习特定于任务的分类器。新颖之处在于在类级和样本级上对原型网络中的多粒度域差异进行了开发，这在文献中尚未得到充分探讨。通过学习不同领域中每个类的相似原型来减少类级别的领域差异，而样本级别的差异是通过在不同领域的原型之间强制执行相似的分数分布。3. 无监督域自适应我们的可转移原型网络（TPN）是通过最小化多粒度领域差异来共同弥合领域差距，并使用未标记的目标数据和标记的源数据构建分类器，从而将原型网络改造为无监督的领域自适应场景。原型网络中的分类器通常通过测量每个类的示例和原型之间的距离来实现为了在原型网络中学习可转移的表示，TPN首先利用在纯源数据上学习的分类器直接预测未标记目标数据的伪标签，从而产生在纯目标数据和源-目标数据上构造的另外两种基于原型的分类器然后，通过将每个源样本分类为正确的类并在类级样本级减少多粒度通过匹配每个类的原型来减少类级域差异，并且通过在不同域之间同步执行每个样本的类上的分数分布我们在每次训练迭代中交替使用上述两个步骤，并以端到端的方式优化整个TPN。3.1. 原型网络Prototypical Networks在[26]中初步提出，以构建一个嵌入空间，其中点clus-围绕每个类的单个原型表示命名。特别地，给定具有N个标记样本的集合S=Ganin等人探索这样的领域混淆问题，作为一个双-{（xi，yi）}属于到 C 类别，哪里 yi∈nary分类任务和优化域判别，在[4]中，通过梯度反转算法来进行Tor。耦合GANs[13]直接将GANs应用到域自适应问题中，通过学习一个关节来显式地减少域偏移{1、2、…C}是样本x i的类标签。客观是学习嵌入函数f（xi;θ）：xi→Rm，用于将每个输入样本变换为m维em，通过原型的深层建筑的床上用品空间2241C嵌入空间源域目标域 S1 S2St1St2 不1 不2 S1S2St1 St2 不1不2无监督域自适应：以前为目标样品分配伪标签获取源、目标和源-目标数据的原型Xi通用域适配。使用MMD/域鉴别器的无监督域自适应：之后。特定任务域适配。无监督域自适应与TPN：之后。可转移原型网络图1.现有的无监督域自适应模型背后的直觉与MMD [15]或域自适应[29]和我们的可转移原型网络（TPN）（更好地查看颜色）。大多数现有的模型旨在通过测量源数据和目标数据的整体域差异/域混淆来减少域偏移，同时保留每个类的域差异或样本与分类器之间的关系。相比之下，我们的TPN解决这个问题，从通用和特定任务的适应的角度来衡量多粒度域的差异，在类水平和样本水平，分别。特别地，TPN最初将每个未标记的目标样本与源域中最近的原型匹配，并为每个目标示例分配“伪”标签。接下来，在仅源数据、仅目标数据和源-目标数据上计算每个类的原型。然后执行通用适配以将在每个域中计算的每个类的原型推到嵌入空间中接近。同时，我们执行特定于任务的适应，以调整每个样本在不同领域获得的原型产生的分数分布。整个TPN是通过最小化标记源数据的监督分类损失以及通用和特定任务的自适应项来训练的。其中θ表示可学习的参数。为了将类的高级描述传达为元数据，每个类的原型通过取属于该类的所有嵌入样本的平均值来定义：在[16，20，29]中，该任务的最终目标是设计一个嵌入函数f（xi;θ），该函数在形式上减少共享特征空间中的域移位，并使可转移表示和分类器都能够学习1µc=|Sc|Σxi∈Scf（xi;θ），（1）取决于Ss和St。不同于现有的转移技术[16，17]，其通常由以下组成：其中Sc表示来自类别c的样本集合。给定一个查询样本xi，原型网络通过一个关于到原型的距离的softmax函数，直接产生它在C个类上的得分分布Pi∈RC，其第c个元素是xi属于类别c的概率：两个级联的网络分别用于学习领域不变特征和目标判别分类器，我们在原型网络的框架下考虑了无监督的领域自适应。这样的框架自然地将特征和分类器的学习统一到一个网络中，通过纯粹基于每个特征和分类器Pic=p（yi=c|xi）=e−d（f（xi;θ），µc）′e−d（f（xi;θ），µc′）、（二）课这种设计反映了一个非常简单的归纳偏差，这在域适应机制中是有益的。具体来说，为了使原型网络可跨域传输，其中d（·）是距离函数（例如，欧氏距离在[26]中，在查询样本和原型之间。的通过最小化将正确类别标签c分配给该样本的负对数似然概率来执行原型网络的训练LS（xi）=−logp（yi=c|xi）。（三）3.2. 问题公式化在无监督域自适应中，我们给出Nsla-设计了两种自适应机制以通过减少多粒度（即，类级和样本级）域差异。在这两者之间，通用适配匹配每个类的原型，特定任务适配在每个样本的类上跨不同域强制执行类似的分数分布，如图1所示。3.3. 通用域适配beled samplesSs={（xs，ys）}Ns源域大多数现有的作品解决无监督域adap-i i i=1和Nt个未标记样本St={xt}Nt在目标做-通过最小化域之间的差异i i=1main. 基于广泛采用的MMD源外和目标数据分布假设[31]，或 S1S2St1 St2 不1 不22242我我s2t.Σ。 Σ。 Σ¨¨¨得双曲余切值.C|Ss|我C我|斯瓦特|xi∈Scxt∈S<$t{µc}，µcµc=Cµc−µc+Cµc−µcH+Cµc−µc、H+1Σ DKL Ps，Pst1Ic通过do-MMD最大化跨域的域混淆，计算如下：[29]. 两个领域的分歧，µs=1φ（xs），µt=1φxt，cy和域混淆术语是在整个环境中测量的|Ss|我xs∈Ss|St|我xt∈St（六）轮胎源和目标数据，无论具体类别如何输液袋的此外，域差异很少在每个类的域之间被利用，这可能是因为测量这种类级域差异需要源样本和目标样本的标签，而在典型的无监督域自适应设置中，没有为目标样本提供标签受自标签[11，24]领域自适应的启发，我们直接利用在标记源数据上学习的基于原型的分类器将每个目标样本匹配到源领域中最近的原型，然后为目标样本分配一个因此，所有目标LMMD=？µ−？H，其中φ（·）是到RKHSH的映射。仔细看看MMD的目标和我们的班级水平差异-损失在Eq。(5)我们可以观察到一些有趣的联系。具体地，源数据和目标数据（即，μs和μt）可以解释为RKHS中每个域的整体然后将MMD表示为跨域的整体原型类型之间的RKHS距离我们的类级域的差异，不同的MMD，计算为RKHS距离跨越原型的每个类从不同的领域。样本St={（xt，yt）}Nt都是伪标签后换句话说，源和目标的细粒度对齐-我我i =1获取源/目标数据的实/伪标签，分类器的种类（即，原型 µs， µt 和 µst）获取数据分布是在类级别执行的，而不是简单地将整体原型之间的距离C c c可以在仅源数据（Ss）、仅目标数据（St）和源目标数据（SsSt）上分别计算：跨域。3.4. 任务特定域适配µs=1f（xs;θ），µt=1SSΣf xt;θ，不通用域适配仅强制执行cxi∈Sc第1页CCCx∈StΣ。tΣ（四）在特征分布中的相似性，而离开关系-样本和特定于任务的分类器之间的关联（即，亲µc 为|Ss|+|斯瓦特|伊什f（xi;θ）+Sfxi;θi，totypes）未开发。此外，我们设计了一个新的adap-Ic站机制，即，针对具体任务的调整，以减少其中，Ss和St表示源/目标采样的集合样本水平的域差异，通过对齐的分数，不同分类器的分配（即，原型）跨do-同一个类C。为了测量跨域的类级域差异，我们从基于MMD的转移技术[16，17]中获得灵感，并计算来自不同域的相同类的原型之间的成对再生核希尔伯特空间（RKHS）距离。其基本思想是，如果源域和目标域的数据分布-每个样品的电源。样本级域差异的基本原理是，当源和目标分布很好地对齐时，每个源/目标样本应该被任务特定的分类器正确分类，从而导致跨域分类器的一致决策。具体地，给定每个源/目标样本xi，三个分数分布（Ps，Pt和Pst）通过三个s是相同的，实现了同一类的原型伊伊伊。sΣ。tΣ.圣路易分类器的种类（即，原型µc 、 µc和 µc）在不同的领域都是一样的。形式上，我们定义类级差异损失之后，学习仅源数据、仅目标数据和源-目标数据。为了测量样本级域差异，我们利用KL-散度来评估两两差异。.S. tΣ .st1Cst2不同地区的分数分布之间的比较（五）电源。源上的样本水平差异损失1摄氏度 ¨sc=1st21°C tst2c=1得双曲余切值..Lt.第一季第1集，st.sΣC. tΣC.圣路易CT{Pi}，PiPi为|Ss|+|斯瓦特|DKL 派派其中，µ 、 µ和µ表示相应的xi、x再生核希尔伯特空间H. 由min-最小化这个术语，计算的每个类的原型|+|斯瓦特|X|xΣi+stDKL我我，Pt，Pst，（七）每个域将被强制在D，Ps，Pt=1，d|+| S|X|xP s|| P t+d，Pt||请原谅，KLi i2公里我iKLi i嵌入空间，导致不变的表示分布，dKL ，Ps||Pt=Ps日志PsIC 、一般来说，跨域分布与MMD的联系MMD [6]是一种核双样本检验，它通过将源数据和目标数据映射到一个再生核希尔伯特空间来测量源数据和目标数据之间的分布差异。经验估计i i icPtc=1ic其中dKL（·）是KL-发散因子，DKL（·）是对称成对KL-发散。请注意，与独立匹配LG、c=1H目标样本定义为我我2243.Σ.Σ。 Σ不µµCµCC、CCC我我我.Σ。 Σ。 Σ每个类跨越不同的领域，任务特定的适应同时适应所有类的原型，追求每个样本的类上的相似分数分布。3.5. 优化我们的TPN的总体训练目标集成了等式中的监督分类损失。(3)以及多粒度差异损失（即，E-q类水平差异损失。(5)和样本水平差异损失方程。（七））。因此，我们得到以下优化问题：3.6. 理论分析本文对文献[1]中的理论进行了推广，给出了TPN的误差界由于TPN是在带有伪标签的源样本和目标样本的混合样本上进行训练的，因此分类误差自然被认为是源域和目标域中误差的线性加权和。分别将ys和yt表示为源样本的基础真值标签和目标样本的伪标签，h表示为假设。然后，错误被正式写为t smin1S（xs）+αLG。{µ s}，. µtΣ，.µstΣΣγ（h）=γθ|Ss|我xs∈Ss我C cc（8）吨+βLT。{Ps}，. Ptt t t，. 别这样，其中α和β是折衷参数。在这个总体损失目标下，优化的关键目标是学习深度嵌入函数f（xi;θ），其中输出表示在域之间是不变培训程序。为了解决方程中(8)，我们将训练过程分为两个步骤：1）其中γ是参数r的折衷。项t（h，y）=ExDt[|h（x）−y|]和s（h，ys）=ExDs[|h（x）−ys|表示目标域Dt和源域Ds的样本分布上分别相对于伪标签和地面实况标签的预期误差。接下来，一个有效的问题是错误γ（h）与评估在目标示例的地面真值标签yt上学习的分类器的oracle错误t（h，yt）越近计算分类器（即，原型源域的这两种损失越大，域自适应越理想并执行它以将伪标签分配给目标样本; 2）表演。下面的引理证明，计算分类器（即，原型t和st）on这两种损失之间的界限可以为我们的TPN。仅目标数据和源-目标数据，并根据总体目标函数的梯度下降来更新θ引理1. 设h是H类中的一个假设。然后我们在每次训练迭代中交替这两个步骤，.γt。1stH H直到满足收敛标准注意（h）−≤（1−γ）（d2（D，D）+λ）+γ p，（十）为了弥补自标记的错误，我们只分配伪标签到最大化分数超过0.6的目标示例，并在每次训练迭代中对用于标记的目标示例进行重采样，以避免伪标签的过拟合此外，我们的TPN的训练过程也抵抗伪标签的噪声，因为我们迭代地利用标记的源示例和伪标记的目标示例来学习嵌入函数。该方法既保证了源域的精度，又有效地减小了类级和样本级的离散性。这样的循环将逐渐提高目标域的精度。推理。在训练TPN之后，我们可以获得深度嵌入函数f（xi; θ）。有了这个，所有三套原型（S不和st）预先在整个训练集上计算并存储在存储器中。在测试阶段，这三个原型集合中的任何一个都可以作为最终的分类器对测试目标样本进行分类。我们经验性地验证了性能对原型1的选择不敏感，这隐含地揭示了学习特征表示的域不变特性因此，给定一个测试目标样本，我们通过f（x i;θ）计算它的嵌入表示，并比较到每个类的原型的距离，以输出最终的预测分数。1在我们的实验中，当使用不同的原型集进行四个域移位时，准确度始终在0.002范围内波动其中dH<$H（Ds，Dt）= 2 suph，h′∈H |t（h，h′）−|度量假设空间中的域差异H. ρ表示具有假伪标签的目标示例的比率 λ = s（h，y s）+t（h，y t）是联合理想假设h的两个域中的组合误差，其是通过最小化组合误差的最优假设：h= arg min s（h，ys）+t（h，yt）。（十一）引理1将该界分解为三项：由空间H中假设的不一致性的做标签。在TPN中，第一个术语是通过量化原型的类水平差异和不同领域之间分数分布的样本水平差异来评估的如[1]中所述，当联合理想假设的组合误差λ较大时，不存在在两个域上表现良好的分类器相反，在与域自适应最相关的情况下，λ通常被认为小得可以忽略，因此第二项可以忽略。此外，在每次迭代中，TPN搜索最优假设，并提高目标样本上伪标签预测的准确性。正确伪标签的增加反过来又有利于域离散的减少我们将凭经验验证伪标签中的噪声的第三项ρ在第2.1节中迭代地减小。4.3. 因此，TPN不断收紧Eq.（十）、µµµ22444. 实验我们对TPN进行了广泛的评估，用于从四个域移位进行非监督域适应，包括跨三个数字数据集的三个数字图像传输（即， MNIST [10]、 USPS [3]和SVHN[19]）和VisDA 2017数据集上的一个合成到真实图像传输[21]。4.1. 数据集和实验设置数据集。MNIST（M）和USPS（U）图像数据集都是包含10类数字的手写数字数据集。MNIST数据集由70k图像组成，USPS数据集包括9.3k图像。与t-wo不同，SVHN（S）数据集是Google街景图像中房屋号码的真实世界Digits数据集，包含100k裁剪Digits图像。VisDA 2017数据集是迄今为止最大的合成到真实对象分类数据集，在训练，验证和测试分割（域）中有超过280k张图像。所有这三个域共享相同的12个对象类别。训练域由152k合成图像组成，这些图像是通过从不同角度和在不同光照条件下渲染相同对象类别的3D模型而生成的验证范围包括通过从COCO [12]中裁剪真实图像中的对象而获得的55k图像测试域包含从YT-BB [22]中的视频帧裁剪的72k数字图像传输。在[30]之后，我们考虑三个方向：M → U、U → M和S → M，用于Digits数据集之间的非监督域自适应。为在MNIST和USPS之间传输时，我们从MNIST中采样2k图像，从USPS中采样1.8k图像，如[30]所示。对于S→M，两个训练集被充分利用。此外，CNN架构用于三位图像传输任务，是[10]（2 conv-layer LeNet）的简单修改版本，也在[30]中使用。合成到真实图像传输。第二个实验是在VisDA 2017中最具挑战性的合成到真实图像传输任务中进行的由于VisDA中测试数据的注释不公开，我们取训练数据（即，合成图像）作为源数据和验证数据（即，裁剪的COCO图像）作为目标域。此外，我们采用在ImageNet [23]上预训练的50层ResNet [7]作为我们的基本CNN结构。实施详情。方程中的两个折衷参数α和β(8)简单地设置为1。在无监督领域自适应中，一个常见的做法是目标领域中缺少注释，使得参数不能很好地确定估算因此，我们在所有实验中直接固定权衡参数- s。我们严格遵循 [2 ， 30] ，并将嵌入大小 m 设置为10/512，用于数字/合成到真实图像传输。我们主要基于Caffe [8]实现TPN。具体来说，网络权值由ADAM训练[9]具有0.0005的权重衰减和0.9/0.999的动量，用于数字/合成到真实图像的传输。学习率对于数字/合成图像到真实图像的转换，最小批量大小被设置为0.0002/0.00001和128/60。对于所有实验，最大训练迭代被设置为70k此外，在[30]之后，我们在标记的源数据上预训练TPN。对于数字图像传输任务，我们采用目标域上的分类精度作为评价指标.对于合成图像到真实图像的转换，我们在目标域上测量每个类别的分类精度最后一个指标是所有类别的准确性平均值。比较方法。为了从经验上验证我们的TPN的合并，我们比较了以下方法：(1)Source-only直接利用在源域上训练的分类模型对目标样本进行分类。(2)RevGrad[4]将域混淆视为二进制分类任务，并通过梯度反转来训练域混淆(3)DC[29]探索了在无监督域自适应的域自适应中(4)DAN[15]利用MMD的多核变体来对齐来自多个层的特征表示(5)RTN[17] 通过残差传输模块调整分类器来扩展DAN。(6)ADDA[30]设计了一种基于对抗学习目标的无监督域自适应模型。(7)JAN[16]通过跨域对齐多个层的网络激活（8）MCD[25]通过利用特定于任务的决策边界来调整源域和目标域的分布(9)S-En[2]探索了用于无监督域适应的时间集成 [28]的平均教师变体。(10)TPN是本文的建议。此外，TPN的两个略有不同的设置被命名为TPNgen和TPNtask，它们分别仅使用通用适应和特定任务适应进行训练。(11)Train-on-target是一个oracle运行，在所有标记的目标样本上训练分类器。4.2. 性能比较数字图像传输。表1（a）显示了Dig- its数据集之间三个传输方向上的性能比较总体而言，三种适应性调整的结果一致表明，我们提出的TPN相对于其他最先进的技术（包括基于MMD的模型（DAN，RTN，JAN ）和基于 DO-MANN 的方法（ RevGrad ， DC ，AD））实现了卓越的性能。DA、MCD）。特别是TPN在M→ U和U→ M的适应性上分别达到92.1%和94.1%，比最佳竞争者ADDA分别提高了2.7%和4%，这被普遍认为是适应性上的一个重大进步MNIST和USPS之间的关系。值得注意的是，与JAN一致，我们的TPN也明显提高了更难迁移S→ M的分类准确性，其中源域和目标域是实质上不同的。总体而言，这些结果突出了探索的关键重要性2245方法M →U U →MS →M仅源代码75.257.160.1RevGrad [4]77.173.073.9美国[29]79.166.568.1丹麦[15]80.377.873.5RTN [17]82.081.275.3ADDA [30]89.490.176.0JAN [16]84.483.478.4丹麦[25]90.088.583.3TPN基因91.393.590.2TPN任务88.188.088.8TPN92.194.193.0准点训练92.396.896.8方法飞机bcycl公共汽车小汽车马小刀mcycl人工厂sktbrd火车卡车是说只有源70.6 51.8 55.8 68.9 77.97.693.334.581.127.9 88.6 5.655.3RevGrad [4]75.9 70.5 65.3 17.3 72.8 38.658.077.272.540.4 70.4 44.7 58.6华盛顿特区[29]63.6 38.4 71.2 61.4 71.4 10.986.643.570.247.7 79.8 21.6 55.5丹麦[15]61.7 54.8 77.7 32.2 75.0 80.878.346.966.934.5 79.6 29.1 59.8RTN [17]79.5 59.6 78.0 47.4 82.7 82.084.754.781.634.5 74.2 6.663.8JAN [16]92.1 66.4 81.4 39.6 72.5 70.581.570.579.744.6 74.2 24.6 66.5丹麦外交部[25]87.0 60.9 83.7 64.0 88.9 79.684.776.988.640.3 83.0 25.8 71.9TPN基因94.5 86.8 76.8 49.7 92.1 12.584.775.292.186.8 84.1 47.4 73.6TPN任务89.2 62.8 71.7 83.5 90.6 24.688.891.189.874.7 69.1 36.1 72.7TPN93.7 85.1 69.2 81.6 93.5 61.989.381.493.581.6 84.5 49.9 80.4S-En+Mini-aug [2]† 92.9 84.9 71.6 41.2 88.8 92.467.563.584.571.8 83.2 48.1 74.2S-En+Test-aug [2]†96.3 87.9 84.7 55.7 95.9 95.288.677.493.392.8 87.5 38.2 82.8准点训练99.5 91.9 97.3 96.8 98.3 98.594.196.299.098.2 97.9 82.3 95.8表1.（a）MNIST（M）、USPS（U）和SVHN（S）之间数字图像传输的不同方法的分类准确度（%），以及(b) VisDA 2017数据集上的合成到真实图像传输对于数字图像传输，表示结果直接来自[30]。对于合成到真实图像的转换，†表示结果分别直接从[25]和[2]中得出。(a) 数字图像传输。（b）合成图像到真实图像的转换。类别级和样本级域差异VI-非监督域自适应中的通用和任务特定自适应，导致更多的域不变特征表示。仅在标记源数据上训练分类器的Source-only方法的性能可以看作是没有域自适应的一个下界。通过额外地结合域自适应项（MMD/域自适应项），RevGrad、DC、DAN、RTN、ADDA、JAN和MCD导致比仅源数据更大的性能提升，这基本上指示了测量源数据和目标数据上的域差异/域混淆的优点。此外，它们在更难的传输S→ M比我们的TPN生成和TPN任务低得多，TPN任务利用了类级/样本级通过针对每个类和不同分类器的分数分布在域上匹配原型来确定原型网络中的域差异（即，原型）分别用于每个样品。这证实了利用类级和样本级域差异在通用和特定任务适应中的有效性，特别是在更不同的域之间。在MNIST和USPS之间的两个易迁移任务中，TPN任务优于ADDA、MCD和TPNgen，这表明在跨相似领域的迁移任务中，各样本的分数分布的唯一匹配可能比领域/类别水平的差异更容易注入噪声S.此外，通过同时利用通用和特定任务的适应，我们的TPN一致地提高了所有三个数字图像转移任务的表现。结果表明，联合利用多粒度的领域差异在类级别和样本级别的无监督域自适应的优势。请注意，我们在此比较中排除了S-En的已发表结果，因为S-En最初是用更深的CNN（即，9 conv层），我们的TPN基于2 conv层LeNet。当在S-En中配备相同的CNN时，我们的TPN在M→ U上的准确率提高到98.6%，高于S-En的98.3%合成到真实图像传输。性能比较合成到真实图像传输任务VisDA 2017数据集总结见表1（b）。这里的S-En的结果都是在多重数据增强（DA）的情况下报告的。我们的TPN执行consis- tently优于其他运行没有任何DA参与。特别是，所有12个类别的平均准确率可以达到80.4%，与JAN相比绝对提高了13.9%。类似于对硬数字图像传输S→ M、TPN生成和TPN任务表现出比JAN更好的性能，样本级域差异考虑到非监督域自适应。此外，TPNgen比TPN任务表现更好，改善程度更大。当利用TPN的通用和特定任务适应时，可以实现这一目标请注意，S-En的最高准确度82.8%配备了测试时间增加（Test-aug），即，平均预测的16个不同的增强每个图像，而准确率80.4%的TPN是在单一的模型没有任何DA。当采用一种DA（Mini-aug）时，S-En仅达到74.2%，仍低于我们的结果。4.3. 实验分析特征可视化。图2（a）-（b）描绘了t-SNE[18] 仅限源代码和我们的VisDA 2017数据集上的TPN（每个领域10k个样本我们可以看到，目标样本的分布是远离源样本的只有源运行没有域适配。通过TPN的域自适应，使两种分布更加接近，使目标分布更加均匀。2246源源源源源源源目标(b)迭代：2k(e)迭代：15k321类级域差异丢失样本级域差异损失精度0(h)迭代：50k0510152025303540455055606570迭代次数（100k）(i)准确度损失与迭代塔尔格和和和所以urce目标目标目标所以urce目标目标目标所以urce目标所以urce目标目标目标所以urce(c)迭代：5k(f)迭代次数：20k(a) t-SNE：仅来源（b）t-SNE：主题方案网络（c）CM：仅来源（d）CM：JAN（e）CM：主题方案网络（f）CM：达标培训图2.（a）-（b）：由仅源和TPN生成的特征的t-SNE可视化（灰色：源，蓝色：目标）。（c）-（f）：仅来源、JAN、TPN和达标培训的混淆矩阵可视化。0.80.750.70.650.60.55图3.（a）-（h）：随着VisDA迭代次数的增加，TPN生成的特征的t-SNE可视化。(i)：随着VisDA上迭代次数的增加，类别级和样本级域差异损失（以彩色显示效果与源代码没有区别。混淆矩阵可视化。图2（c）-（f）显示了VisDA上仅源、JAN、我们的TPN和Train-on-target学习的分类器的混淆矩阵的可视化。检查仅源的混淆矩阵揭示了域移位相对较大，并且在具有类似3D结构的对象之间观察到大部分混淆，例如，刀滑板（sktbrd）和卡车。通过JAN和TPN的域自适应，减少了大多数类的混淆。特别是，在所有12个类别中，TPN在10个类别中取得了比JAN更高的准确率，表明我们的TPN学习的特征在目标域上更具区分力收敛分析为了说明我们的TPN的收敛性，我们在训练期间使用t-SNE可视化VisDA 2017数据集（每个域10k个样本）上子集的嵌入式表示的演变图3（a）-(h)说明目标类越来越被TPN源分类器区分。图3（i）进一步描绘了准确度不断增加（即，伪标签的噪声ρ减小），并且当迭代更多步骤时，两个自适应损失减小。具体地，在初始时刻，具有错误伪标签的目标示例的比率ρ为44.7%，即，只有55.3%的目标样品被分配了正确的标签。与随着TPN训练迭代次数的增加，这种伪标签噪声ρ逐渐减小，模型收敛后的最终准确率将提高到80.4%。这再次验证了最小化类级和样本级域差异将导致更好的适应。5. 结论我们提出了可转移原型网络（TPN），它以非监督的方式探索域适应。特别地，我们从通用和特定任务适应的角度来研究这个问题。为了验证我们的说法，我们在原型网络的框架下设计了每种适应的度量S.通用的适应是推动在每个域中计算的每个类的原型在嵌入空间中接近，从而通常导致跨域特定于任务的自适应还在对齐特征分布时考虑分类器的决策，这理想地导致域不变表示。在MNIST、USPS和SVHN数据集上进行的实验验证了我们的建议和分析。更值得注意的是，我们在VisDA 2017挑战赛中实现了单一模型在合成到真实图像传输方面的最新性能(a)迭代次数：0(d)迭代：10k(g)迭代：30k塔尔格和和和所以urce目标目标目标所以urce目标目标目标SSSourcurcurc e2247引用[1] Shai Ben-David 、 John Blitzer 、 Koby Crammer 、 AlexKulesza 、 FernandoPereira 和 JenniferWortmanVaughan。从不同领域学习的理论机器学习，2010年。[2] Geoffrey French，Michal Mackiewicz和Mark Fisher。用于域适应的自组装。在ICLR，2018年。[3] 杰罗姆·弗里德曼特雷弗·哈斯蒂罗伯特·提布希拉尼。统计学习的要素。Springer系列，纽约，2001年。[4] 雅罗斯拉夫·甘宁和维克多·伦皮茨基。通过反向传播的无监督ICML，2015。[5] Ian Goodfellow 、 Jean Pouget-Abadie 、 Mehdi Mirza 、Bing X-u 、 David Warde-Farley 、 Sherjil Ozair 、 AaronCourville和Yoshua Bengio。生成性对抗网。在NIPS，2014。[6] ArthurGretton，Karsten M Borgwardt，Malte J Rasch，Bern-hardSchoülk opf，andAl e xanderSmola. 一个核双样本检验。Journal of Machine Learning Research，2012。[7] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。[8] 杨青贾，埃文谢尔哈默，杰夫多纳休，谢尔盖卡拉耶夫，乔纳森龙，罗斯Girshick，塞尔吉奥瓜达拉马，和特雷弗达雷尔。Caffe：用于快速特征嵌入的卷积架构。在ACM MM，2014中。[9] 迪德里克·金马和吉米·巴。Adam：一种随机优化方法。2015年，国际会议[10] YannLeCun，Le'onBottou，YoshuaBengio和PatrickHaffner。基于梯度的学习应用于文档识别。IEEE会议录，1998。[11] 李东贤伪标签：简单高效的深度神经网络半监督学习方法-S.在表征学习的挑战研讨会，ICML，2013年。[12] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。Microsoft COCO：上下文中的公用对象。2014年，在ECCV[13] 刘明宇和昂塞尔·图泽尔。耦合生成对抗网络。在NIPS，2016年。[14] 扶辰龙、姚婷、齐岱、田心梅、罗杰波、桃梅。深度域自适应哈希与对抗学习。在SIGIR，2018。[15] 龙明生，曹跃，王建民，迈克尔·

下载后可阅读完整内容，剩余1页未读，立即下载