无监督领域自适应的可转移视觉Transformer（TVT）

74 浏览量更新于2023-10-16 收藏 1.05MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

520TVT：用于无监督领域自适应的可转移视觉Transformer杨金宇1，刘晶晶2，徐宁2，黄俊洲11，德州大学阿灵顿分校2，快手科技jinyu. mavs.uta.edu，jjliu08cas@gmail.com，ningxu01@gmail.com，jzhuang@uta.edu摘要无监督域自适应（UDA）的目的是从一个标记的源域中转移知识连接到未标记的靶结构域。以前的工作主要建立在卷积神经网络（CNN）上，以学习域不变表示。随着近年来视觉Transformer（ViT）在视觉任务中的应用呈指数级增长，ViT在适应跨领域知识方面的能力在文献中仍未得到探索。为了填补这一空白，本文首先全面研究了各种域适应任务的性能。令人惊讶的是，ViT表现出优越的泛化能力，而性能可以通过引入对抗适应来进一步然而，直接使用基于CNN的适应策略未能利用ViT的内在优点（例如，注意机制和顺序图像表示），这些在知识转移中起着重要作用。为了弥补这一点，我们提出了一个统一的框架，即可转移的视觉Transformer（TVT），充分利用域自适应ViT具体地说，我们设计了一个新颖有效的单元，我们称之为迁移能力适应模块（TAM）.通过将学习到的可转移性注入到注意力块中，TAM迫使ViT关注可转移性和区分性特征。此外，我们利用判别聚类来增强在对抗性领域对齐过程中被破坏的特征多样性和分离性。为了验证其通用性，我们进行了广泛的研究TVT的四个基准和实验结果表明，TVT达到显着的改善相比，现有的国家的最先进的UDA方法。1. 介绍深度神经网络（DNN）在各种机器学习问题和应用方面取得了前所未有的成就然而，如此骄人的业绩[1]本工作是杨金余在快手科技实习期间完成的;产品编号：https://github.com/uta-smile/TVT严重依赖大量的标记数据，这需要大量的时间和劳动力来收集。因此，期望训练可以利用来自不同但相关的领域的丰富标记数据的模型，并且在没有标记示例或具有有限标记示例的目标领域上很好地通用化。不幸的是，规范的监督学习范式遭受域转移问题，提出了一个重大的挑战，在跨域适应模型。这激发了对无监督域自适应（UDA）的研究[52]，这是迁移学习的一种特殊场景[36]。 UDA的核心思想是投影数据点将已标记的源域和未标记的目标域映射到一个公共的特征空间中，使得投影的特征既具有区分性（语义意义）又具有域不变性，从而很好地泛化以弥合域差距。为了实现这一目标，在过去的几十年中已经提出了各种方法，其中对抗适应已经成为该领域的主导技术，其试图通过域区分器最小化对抗损失来对齐跨域表示[13，47，30，59]。最近，Vision Transformer（ViT）[11]在视觉社区受到了与作用于给定图像的局部感受野的CNN不同，ViT通过全局自我注意机制对整个图像的视觉特征之间的远程依赖关系进行具体而言，在ViT中，每个图像被分割成一系列固定大小的非重叠补丁，然后将其线性嵌入并与位置嵌入连接为了与NLP范式保持一致，在补丁标记之前添加了一个类to- ken，作为整个图像的表示。然后，这些顺序嵌入被送入一堆变压器，以学习所需的视觉表示。由于其在全局上下文建模方面的优势，ViT在各种视觉任务上取得了优异的结果，例如图像分类[11]、对象检测[5，53]、分割[64，28]和视频理解[14，34]。尽管ViT越来越受欢迎，但与域适应相关的两个重要问题仍未得到解答。第一，如何概括的能力521跨不同域的ViT 有几个当代的工作[58，55，32]，适用于DeiT [46]和Swin [28]到UDA，但维生素T还没有被调查。第二个问题是，我们如何在适应不同领域时适当地改进ViT？一种直观的方法是直接将对抗性对齐应用到类标记上以执行对抗性对齐，其中类标记的状态然而，这种全局特征的跨域对齐假设图像的所有区域或方面具有相等的可转移性和辨别潜力，这并不总是成立的。例如，背景区域可以更容易跨域对齐，而前景区域更具区分性。换句话说，一些区别性特征可能缺乏可转移性，并且一些可转移特征可能对下游任务贡献分类）。因此，为了适当地增强ViT的可转移性，识别既可转移又具有区分性的细粒度特征是必要的。在本文中，我们的目的是提出我们的答案，上述两个问题。首先，为了填补理解ViT泛化能力的空白，我们首先在公共UDA基准上对vanilla ViT [11]进行了全面的研究。正如预期的那样，我们的实验结果证明，即使在源设置ViT优于其强大的CNN为基础的同行。ViT的强劲表现背后可能有多个深层原因[40，66]，这不在本文的范围内。此外，我们观察到进一步的改进，通过应用一个对抗性的符号的类的ViT，它只对齐全局表示。然而，这种策略不符合过于简化的假设，并且忽略了ViT的固有属性，这些属性有利于域自适应：i）顺序补丁令牌实际上为我们提供了对细粒度特征的自由访问;（2）Transformer中的自注意机制自然地起着区分性探针的作用。鉴于此，我们提出了一个统一的UDA框架，充分利用ViT我们将其命名为可转移视觉Transformer（TVT）。我们的方法的核心思想是保留可转移和歧视性的功能，这是必不可少的知识适应。为了实现这一目标，我们首先介绍了新的可转移性自适应模块（TAM）建立在传统的Transformer。TAM使用补丁级别的域令牌来测量补丁令牌的可传递性，并将学习到的可传递性注入到Transformer的多头自注意块中。一方面，自注意块中的补丁令牌的注意权重用于确定它们的语义重要性，即，具有较大关注度的特征更具鉴别性，但没有可转移性保证。另一方面，由于补丁令牌可以被视为图像的细粒度表示，令牌的较高可转移性意味着局部特征在域之间更可传递，尽管不一定是区分性的。通过简单地将ViT的最后一个Transformer替换为即插即用的TAM，我们可以驱动ViT专注于可转移和可区分的特征。由于我们的方法执行对抗适应，迫使两个域的学习特征相似，一个潜在的副作用是目标域的判别信息可能在特征对齐过程中被破坏。为了解决这个问题，我们设计了一个区分性聚类模块（DCM）.动机是强制个体目标预测接近独热编码（良好分离）并且全局目标预测均匀分布（全局多样），使得学习的目标域表示可以保留关于输入值的最大判别本文的贡献概括如下：• 据我们所知，这是第一次全面调查的ViT的能力，转移知识的边缘领域适应任务。我们相信这项工作提供了很好的见解，以了解和探索ViT• 我们提出了TAM，巧妙地利用了ViT的内在特征，这样我们的方法可以捕获可转移的和有区别的特征，用于域适应。此外，我们采用判别聚类假设，以减轻歧视性的破坏在对抗对齐。• 没有任何花里胡哨的东西，我们的方法建立了一个新的竞争基线，跨越了几个公共的UDA基准。2. 相关工作无监督领域适应转移学习旨在学习可转移的知识，这些知识可以在具有不同分布的不同领域中推广[36，62]。这是建立在机器学习模型中的特征表示，特别是在深度神经网络中，是可转移的证据之上的[63]。迁移学习的主要挑战是减少域偏移或跨域边缘概率分布的差异[52]。在过去的几十年中，已经提出了各种方法来解决一个典型的迁移学习问题，即，无监督域自适应（UDA），其中没有标签可用于目标域。例如，DDC [48]试图通过最小化两个域之间的最大平均离散度（MMD）[3]来学习域不变特征。Long等人进一步改进了DDC，522LLLLQKV我我 i=1J j=1D{}D{}SA softmax（2）在再生希尔伯特空间中的特定任务层，并使用MMD的多核变体来测量域距离[29]。Long等人提出通过联合最大平均差异度量来对齐跨域的多个域特定层的联合分布[31]。另一种努力受到对抗性学习成功的启发[16，61]。通过引入域判别器并将域自适应建模为极大极小问题[13，47，30，60]，通过欺骗试图区分源域特征和目标域特征的判别器，训练编码器以生成域不变特征。值得注意的是，所有这些方法都完全或部分使用CNN作为基本块[22，21，17]。相比之下，我们的方法探索了ViT [11]来解决UDA问题，因为我们相信ViT由于其一些特性而在域适应方面具有更好的虽然先前的UDA方法（例如，对抗性学习）能够在一定程度上改进普通ViT，但是它们没有针对基于变换器的模型进行良好设计，从而不能利用ViT然而，我们的方法是精心设计的性质的ViT，可以有效地利用transferability和歧视的每个特征的知识转移，从而有更好的机会，充分利用ViT的适应能力。在文献中讨论。为此，我们在这篇文章中，每每每一个ViT的跨领域的知识转移能力的调查此外，我们提出了一个新的UDA框架，为ViT量身定制，通过探索其内在的优点，并证明其优于现有的方法。值得注意的是，有几个当代工作[58，55，32]将DeiT [46]和Swin[28]应用于UDA。具体来说，[58，55]使用交叉注意来获得源图像和目标图像的混合表示，[32]使用两个类令牌来学习特定于领域的信息。与这些工作不同的是，本文着重于实证研究ViT3. 预赛3.1. 对抗学习UDA考虑了UDA中的图像分类问题，给出了一个有标记的源域s（x s，ys）ns和一个无标记的目标域t x t nt，其中源域s（x s，ys）ns有ns个例子，目标域tx tnt有nt个例子. UDA的目标是学习对域差异既有区别又不变的特征，进而保证对未标记目标数据的准确预测。这里，通常的做法是通过优化以下损失函数来联合执行特征学习、域自适应和分类器学习：s s s tVision TransformerTransformers [49]首先在NLP领域提出，并在各种语言任务上表现出破纪录的性能，例如，文本分类和机器翻译[10，2，65]。这些令人印象深刻的成就大部分归功于通过注意力机制捕捉远程依赖的能力。受此刺激，最近的一些研究试图将注意力整合到CNN中以增强特征图，旨在提供建模异构交互的能力[54，1，19]。完全无卷积架构的另一个开创性工作是Vision Transformer（ViT），它将变换器应用于一系列固定大小的非重叠图像块。不同于依赖于图像特定的归纳偏差的CNN（例如，局部性和翻译等方差），ViT从大规模预训练数据和全局上下文建模中获益。其中一种方法[11]以其简单性和准确性/计算权衡而闻名，在分类任务上与 CNN 竞争，并为将Transformer应用于不同的视觉任务奠定了基础。ViT及其变体已证明其在对象检测[5，67，53]、分割[64，57]和视频理解中的广泛适用性[14，34]等。尽管ViT在不同的视觉任务上取得了成功，但据我们所知，它们的可转移性和Lclc（x，y）+αLdis（x，x）（1）其中，CLC是监督分类损失，DIS是具有各种可能实现的转移损失，α用于控制DIS的重要性。最常用的DIS之一是对抗性损失，其通过域判别器来激励域不变特征空间[13]。3.2. 自我注意机制ViT的主要构建块是多头自注意（MSA），用于Transformer中以捕获远程依赖性[49]。具体地，MSA连接多个缩放的点积注意力（SA的缩写）模块，其中每个SA模块将一组查询（Q）、键（K）和值（V）作为输入。为了学习不同位置之间的依赖关系，SA计算查询与所有键的点积，并应用soft-max函数来获得值的权重。QKT（Q，K，V）=（d）V其中d是Q和K的维数。对于SA（Q，K，V），MSA定义为：MSA（Q，K，V）= Concat（head 1，.，标题k）WO具有ViT UDA方法的设计先前已经何处头（三）=SA（QW ，KW、大众）我我我523S∗D D D LdisnceGF我我xi∈D其中WQ，WK，WV是不同头部的投影4.2. ViT w/对抗性适应：基线我我我WO是另一个映射函数。直观地，使用多个头允许MSA共同关注来自不同位置处的不同表示子空间的信息4. 方法在本节中，我们首先研究了ViT之后，我们进行了早期的尝试，以提高ViT最后，我们介绍了我们的方法名为可转移的视觉Transformer（TVT），它包括两个新的适应模块，以进一步提高ViT我们首先研究ViT如何从对抗适应中获益[13]，这种适应广泛用于基于CNN的UDA方法。我们遵循典型的对抗适应fash-离子，采用编码器Gf的特征学习，一个class-sifierGc的分类，和一个域的全局特征对齐的adjacentDg这里，Gf被实现为ViT，并且Dg被应用于源图像和目标图像的类令牌的输出状态。为了实现领域知识自适应，Gf和Dg进行极大极小博弈：Gf学习域不变特征欺骗Dg，Dg区分源域特征和目标域特征。该目标可表述为：L（xs，ys）=1L（G（G（xs）），ys）4.1. ViT据我们所知，CLCnsce c fiixi∈Ds（四）L（xs，xt）=−1<$L（D（G（xt）），yd），任务。探讨ViT因此，我们选择vanilla ViT [11]作为我们所有研究的支柱，由于其简单性和受欢迎程度。我们只使用标记的源数据训练vanilla ViT，并通过目标数据的分类准确率来评估其泛化能力。如上所述，基于CNN的方法在过去几十年中主导了UDA研究，并取得了巨大的成功。因此，我们将vanilla ViT与基于CNN的架构进行了比较，包括LeNet [22]、AlexNet [21]和ResNet [17]。所有实验都是在具有标准评估程序的成熟基准上进行的。以Office-31数据集为例。如表2所示，Source OnlyViT获得了令人印象深刻的分类准确率89.5%，这远远优于其强大的CNN对手AlexNet（70.1%）和ResNet（76.1%）。在其他基准测试结果中可以观察到类似的现象，其中ViT与其他最先进的CNN骨干有利地竞争，如果不是更好的话，如表1、3、4所示。令人惊讶的是，Source Only ViT甚至比基于CNN的强大UDA方法更好，而没有任何额外的功能。例如，它实现了78.7%的平均准确率在Tube-Home数据集（表3），击败了所有基于CNN的UDA方法。与当今公认的最佳UDA模型SHOT [26]相比，SourceOnly ViT获得了7%的绝对准确性提升，这是推动UDA研究前沿的一大步。ViT [40，66]的强劲性能背后可能有多种原因，例如，ViT和CNN学习的特征之间的显著差异[40]。我们把它作为未来的工作。尽管如此，如表1所示，仅源模型和仅目标模型之间仍然存在较大差距（88.3%对99.2%），这表明ViT泛化能力的潜在其中n=ns+nt，=St，ce是交叉熵loss，上标可以是S或T以表示源域或目标域，并且Yd表示域标签（即，yd= 1是源，yd= 0是目标）。我们将对抗适应的ViT表示为我们的基线。如表1、2、3、4所示，在四个基准上，基线显示相对于普通ViT分别有7.8%、0.8%、1.6%和3.2%的绝对准确度提高。这些结果表明，全局特征对齐与一个主要的神经网络，有助于 ViT 然而，与数字识别任务相比，Baseline在更复杂和更具挑战性的目标检测方面的改进有限。我们将这样的观察结果归结为一个结论，即简单地应用全局对抗性对齐不能利用ViT的全部可转移能力，因为它没有考虑两个关键因素：（i）并非所有区域/特征都是同等可转移的或具有区别性的。为了有效的知识转移，它是必不可少的，以集中在可转移和歧视性的功能;（ii）ViT自然提供细粒度的功能，其向前传递的顺序令牌，注意力的权重在Transformer实际上传达的补丁令牌的歧视性潜力。为了应对这些挑战并充分利用ViT的优点，进一步提出了一种名为可转移视觉Transformer（TVT）的新UDA框架。4.3. 可转移视觉Transformer（TVT）TVT概述如图1所示，其中包含两个主要模块：（i）可转移性适配模块（TAM）和（ii）判别聚类模块（DCM）。这两个模块是高度相关的，并在基于ViT的体系结构的知识转移中发挥互补作用。TAM鼓励输出状态的ViT还没有在文献中研究之前，虽然ViT及其变体已显示出巨大的成功，在各种vi-524层我...transforTMLPsoftmax层规范可转让MSAQK图层规范R∈·qKTTSA softmax（6）可以用作区分权重，这里的一个主要障碍是，每个补丁令牌的可转移性不可用。为了绕过这个困难，我们采用补丁级别的域BIDD1，它通过优化来匹配跨域局部特征[37，56]：L（xs，xt）= −1 Σ ΣL （D（G）（x）），yd），专利nRcexi∈Dr=1l f irIR（五）图1.对拟议的TVT框架的概述。与ViT一样，源图像和目标图像都被分割成固定大小的补丁，然后线性映射并嵌入位置信息。生成的补丁被馈送到Transformer编码器中，该编码器的最后一层由可转移性适配模块（TAM）代替。特征学习、对抗域适应和分类由ViT-akin主干、两个域鉴别器（块级和全局级）、判别聚类模块（DCM）和基于MLP的分类器其中R是补丁的数量，并且Dl（fir）是该区域属于源域的概率。在对抗学习期间，Dl尝试为源域补丁分配1，为目标域补丁分配0，而Gf对抗这种情况。从概念上讲，可以容易地欺骗D1的补丁（即，D1约为0.5）在域之间更可转移，并且应该被赋予更高的转移能力。因此，我们使用t ir=T（f ir）=H（D l（fir））[0，1]来测量第i个图像的第r个令牌的可传递性，其中H（）是标准熵函数。另一种解释是：通过分配权重到不同的补丁，它解开一个图像到常见的空间表示和特定领域的representations，而特定领域的功能的通过路径被柔和地抑制。然后，我们通过可转移性适配将常规MSA转换为将学习到的可传递性注入到类标记的注意力权重中我们的T-MSA建立在可转移自我注意力（TSA）块的基础上，该块正式定义为：qKT（q，K，V）=（qd）<$[1;T（Kpatch）]V的类令牌，以关注可转移和语义有意义的特征，DCM强制执行对齐的fea。其中q是类标记的查询，K补丁令牌的密钥，贴片是目标域样本的结构将以大的间隔进行聚类。因此，通过TVT学习的特征在分类上是有区别的，并且也可以跨域转移。我们将在下面详细介绍每个模块。4.3.1可转移性适配模块如图 1 所示，我们引入了可转移性适配模块（TAM），该模块明确考虑了ViT的内在优点，即，注意机制和顺序，是Hadamard乘积，且[;]是级联操作。很明显，softmax（softmax）和[1;T（Kpatch）]表示区分（语义重要性），tance）和每个补丁令牌的可转移性。为了共同关注不同表示子空间和不同位置的可转移性，我们因此将T-MSA定义为：T-MSA（q，K，V）= Concat（头1，.，标题k）WO（七）其中头i=TSA（qWq，KWK，VWV）我我我临时补丁令牌。由于块标记被视为图像的局部特征，因此它们对应于不同的图像区域或捕获不同的视觉方面作为图像的细粒度表示。假设补丁令牌具有不同的语义重要性和可转移性，TAM旨在为这些令牌签署不同的权重，以鼓励学习的图像表示，即，类令牌的输出状态，以注意可转移和区分的补丁令牌。而自我注意力在ViT把它们放在一起，我们得到TAM如下：zl=T-MSA（ LN（zl−1））+zl−1（八）zl=MLP（ LN（zl））+zl，其中LN是LayerNorm层，MLP表示多层感知，zl是层l处的隐藏表示。我们只将 TAM 应用于最后一个Transformer层，其中补丁特征是空间非本地的，并且具有更高的语义含义。通过这种方式，TAM将重点放在细粒度特征525（p）I-我s s t tt×JJ不ntj=1J可以跨域转移并且对于分类是有区别的。所以我们有l=L，其中L是ViT中Transformer层的总数。4.3.2判别聚类模块针对利用未标记目标数据学习概率判别分类器这一具有挑战性的问题，只针对99.4 98.098.9最大限度地减少预期的分类错误，目标域。然而，通过TAM强迫两个域相似的跨域特征对齐可能会破坏学习到的表示的区分信息如果没有目标域的语义约束，只针对99.7 99.7 98.399.2介绍如图2所示，虽然目标fea-真与源特征难以区分，它的分布很混乱，这限制了它的鉴别力。为了解决这一局限性，我们受到以下假设的启发：（i）pt= softmax（G c（G f（x t）期望保留尽可能多的关于x t的信息[4，33，45，42，51];以及（ii）决策边界不应该跨越高密度区域，而是位于低密度区域，这也被称为聚类假设[6]。幸运的是，这两个假设可以通过最大化目标输入的经验分布和诱导的目标标签分布之间的互信息来满足[15，44，20，25，39]，其可以正式定义为：nt表1. Digits数据集上的性能比较。TVT* 表示主干在ImageNetDigits是UDA关于数字分类的基准。我们遵循之前工作中的相同设置，对MNIST [22]、USPS和街景房屋地图（SVHN）[35]进行对于每个源-目标域对，我们使用每个域的训练集来训练我们的模型，并对目标域的标准测试集进行评估Office-31包含31个类别的4，652张图像，这些图像来自三个领域：亚马逊（A），数码单反相机（D）和网络摄像头（W）。亚马逊（A）图像是（pt;xt）=H（p<$t）1ntKTJj=1nt K从amazon.zom下载，而DSLR（D）和Webcam（W）分别在办公室环境下通过网络和数码单反相机拍摄。=−p<$tlog（p<$t）+1 ΣΣptlog（pt）办公室-家庭[50]由四个不同Kk=1kntJKj=1k =1JK（九）域：艺术图像（Ar）、剪贴画（Cl）、产品图像（Pr）和真实世界图像（Rw）。每个领域共涵盖65个其中pt=softmax（Gc（Gf（xt），p<$t=Ex[pt]，并且K是的班级数量注意最大化VisDA-2017[38]是用于2018年VisDA挑战的合成到真实物体识别任务。它包含12个猫--1吨H（pt）执行目标预测，接近于独热编码，因此聚类假设是有保证的。为了确保全球多样性，我们还最大限度地H（p′t）避免每个要获取的数据都被分配给相同的课利用（pt;xt），我们的模型被鼓励学习具有均匀分布的紧密聚集的目标特征，使得目标域中的判别信息被保留。总而言之，TVT的目标函数是：Lclc （x， y）+αLdis （x，x）+βLpat （x，x）−γI（p;x）其中α、β和γ是超参数。5. 实验为了验证我们的模型的有效性，我们对常用的基准进行了全面的研究，并与最先进的UDA方法进行了实验比较，如下所示。从不同角度和不同照明条件下生成的渲染，而目标域包含55，388个真实世界图像。5.1. 现有方法为了公平起见，我们使用他们原始论文中的结果。对于每种类型的骨干，我们报告其下限性能，表示为仅源，这意味着模型仅使用源数据进行训练对于数字识别，我们还将Target Only结果显示为高端性能，这是通过对标记的目标数据进行训练和测试获得的。基线表示具有对抗适应的vanilla ViT [13]。5.2. 实现细节ViT-Base 16输入贴片尺寸（或ViT-B/16）[11] 在ImageNet-21 K [9]上预先训练的数据被用作我们的后台，（十）egories。源域包含152，397个合成2D算法S→MU→M M→UAvg源仅LeNet67.169.682.273.0RevGrad [12]73.973.077.174.7ADDA [47]76.090.189.485.2[26]第二十六话89.696.891.992.8CyCADA [18]90.496.595.694.2[43]第四十三话96.294.194.294.8源仅ViT88.692.798.099.088.298.698.999.473.197.097.798.288.3基线96.1TVT*98.2TVT98.9526算法A→ W D→ W W→ D A→ D D→ A W→ AAvg仅来源61.6 95.4 99.0 63.8 51.1 49.870.1DDC [48] 61.8 95.0 98.5 64.4 52.1 52.270.6丹麦[29] 68.5 96.0 99.0 67.0 54.0 53.172.9RevGrad [12] 73.0 96.4 99.2 72.3 53.4 51.274.3FAN [7] 83.0 99.0 99.9 76.3 63.3 60.880.4仅来源68.4 96.7 99.3 68.9 62.5 60.776.1DDC [48] 75.6 96.0 98.2 76.5 62.2 61.578.3丹麦[29] 80.5 97.1 99.6 78.6 63.6 62.880.4RevGrad [12] 82.0 96.9 99.1 79.7 68.2 67.482.2[27]100.0 100.093.273.172.1射击[26] 90.1 98.4 99.9 94.0 74.7 74.388.6阿尔达[8]95.697.7100.094.072.272.5 88.7仅来源-S 86.9 97.7 99.6 87.6 74.9 73.586.7CDTrans-S [58] 93.5 98.2 99.6 94.6 78.4 78.090.4仅来源-B90.498.2100.090.876.876.4 88.8CDTrans-B[58]96.799.0100.097.081.181.9 92.6仅来源89.294.1100.093.180.981.3 89.8BCAT[55]99.299.5100.099.685.786.1 95.0仅来源89.298.9100.088.880.179.8 89.5基线91.699.0100.090.680.280.1 90.2TVT*95.798.7100.095.480.680.3 91.8→ →→(A) 仅源（B）基线表 2.Office-31 数据集上的性能比较 TVT* 表示主干在ImageNet上进行了预训练。”-S” and ”-B”骨头 ViT-B/16 的 Transformer 编码器总共包含 12 个Transformer层。我们使用动量为0.9的小批量随机梯度下降（SGD）优化器训练所有基于ViT的模型。我们将学习率初始化为0，并将其线性增加到lr= 0。03500后训练步骤。然后，我们通过余弦衰减策略来减少它唯一的例外是我们设置lr= 0。Office-31数据集中的D→A和W→5.3. 数字识别对于数字识别任务，我们对SVHN MNISt、USPSMNIST和MNIST USPS进行评估，遵循UDA的标准评估方案如表1所示，TVT获得了每个任务的最佳平均准确度，并且在平均分类准确度方面优于先前的工作。TVT的表现也优于基线（+2.7%），这是由于拟议的TAM和DCM的贡献。特别是，TVT实现了与仅目标模型相当的结果，表明域转移问题得到了很好的缓解。5.4. 对象识别对于对象识别任务，在评估中使用Office-31、Vis-Home如Ta所示-表2 3，4，TVT为所有三个数据集建立了新的基准结果。在中等规模的EQUIP-Home数据集（表3）上，我们实现了比最佳先验UDA方法的显著改进（83.6% vs 71.8%）。（C）TAM（D）TVT图2. VisDA-2017数据集的t-SNE可视化，其中红色和蓝色点分别大规模VisDA-2017数据集的结果（表4）表明，我们不仅实现了更高的平均准确度，而且与ALDA和SHOT竞争也很有利具体来说，我们在这个实验中使用了最简单的伪标签策略（高置信度的伪标签）[23]请注意，DTA也强制执行聚类假设来学习区分性特征，但它未能鼓励全局多样性，这可能导致退化的解决方案，其中每个点都被分配给同一个类。此外，TVT超越了仅源和基线，揭示了它在传递领域知识的有效性（i）捕获可转移和区分的细粒度特征和（ii）保留区分信息，同时搜索域不变的表示。如图2所示，这也通过学习特征的t-SNE可视化得到证明显然，TAM可以有效地对齐源和目标领域的功能，利用本地功能的可转移性。然而，由于训练中目标标签的缺失以及对抗性对齐破坏了目标特征的区分性信息，因此目标特征不能很好地分离。幸运的是，DCM通过假设数据点应该以较大的裕度分类来解决这个问题，如图2（D）所示。值得注意的是，一些当代工作[58，55，32]使用DeiT [46]或Swin [28]作为骨干，并优于我们的方法。我们认为，这主要可以解释的数据效率的优点DeiT和Swin。详细讨论参见补充资料。5.5. 消融研究为了了解TAM和DCM在改善ViT知识可转移性方面的各自贡献，我们进行了表5中的消融研究。与SourceOnly相比，TAM持续提高了分类准确率，平均提高了4.9%，表明捕获可转移和区分特征的重要性的ViTSwinDeiTResNetAlexNet527算法A→CA→PA→RC→AC→PC→RP→AP→CP→RR→AR→CR→PAvg源仅净26.4 32.6 41.3 22.1 41.7 42.1 20.5 20.3 51.1 31.0 27.954.934.3DAN [29]X31.7 43.2 55.1 33.8 48.6 50.8 30.1 35.1 57.7 44.6 39.363.744.5RevGrad [12]Ale36.4 45.2 54.7 35.2 51.8 55.1 31.6 39.7 59.3 45.7 46.465.947.3源仅不34.9 50.0 58.0 37.4 41.9 46.2 38.5 31.2 60.4 53.9 41.259.946.1DAN [29]SNE43.6 57.0 67.9 45.8 56.5 60.4 44.0 43.6 67.7 63.1 51.574.356.3RevGrad [12]e45.6 59.3 70.1 47.0 58.5 60.9 46.1 43.7 68.5 63.2 51.876.857.6[26]第二十六话R57.1 78.1 81.5 68.0 78.2 78.1 67.4 54.9 82.2 73.3 58.884.371.8仅来源-S55.6 73.0 79.4 70.6 72.9 76.3 67.5 51.0 81.0 74.5 53.282.769.8CDTrans-S [58]不60.6 79.5 82.4 75.6 81.0 82.3 72.5 56.7 84.4 77.0 59.185.574.7WinTR-S [32]ei65.3 84.1 85.0 76.8 84.5 84.4 73.4 60.0 85.7 77.2 63.186.877.2仅来源-BD61.8 79.5 84.3 75.4 78.8 81.2 72.8 55.7 84.4 78.3 59.386.074.8CDTrans-B[58]68.8 85.0 86.9 81.5 87.1 87.3 79.6 63.3 88.2 82.0 66.090.680.5源仅赢得64.5 84.8 87.6 82.2 84.6 86.7 78.8 60.3 88.9 82.8 65.389.679.7BCAT [55]S75.3 90.0 92.9 88.6 90.3 92.7 87.4 73.7 92.5 86.7 75.493.586.6源仅66.2 84.3 86.6 77.9 83.3 84.3 76.0 62.7 88.7 80.1 66.288.778.7基线它71.9 80.7 86.7 79.9 80.4 83.5 76.9 70.9 88.3 83.0 72.988.480.3TVT*V67.1 83.5 87.3 77.4 85.0 85.6 75.6 64.9 86.6 79.1 67.288.078.9TVT74.9 86.8 89.5 82.8 88.0 88.3 79.8 71.9 90.1 85.5 74.690.683.6表3.性能比较在数据集上。TVT* 表示主干在ImageNet上进行了预训练。”-S” and ”-B” indicate that the backbone is DeiT-Smalland DeiT-Base,表4.VisDA-2017数据集上的性能比较TVT* 表示主干在ImageNet上进行了预训练方法数字办公室-31办公室-家庭 VisDA-2017 Avg源仅88.389.578.773.2八十二点四+Tam97.291.281.379.3八十七点三+DCM98.993.983.686.7九十点八表5.每个模块的烧蚀性能的研究，进一步提高了通过纳入DCM，证明有必要保留的歧视性，学习表征的形成值得关注的是DCM在大规模合成到真实的VisDA-2017数据集上带来了最大的改进我们怀疑VisDA-2017（自然图像的合成2D渲染）中的大域间隙是主要原因，因为简单地对齐两个具有大域偏移的域会导致混乱的分布式特征空间。然而，这一挑战可能是算法[12]第十二话[43]第四十三话阿尔达[8]DTA [24][26]第二十六话[58]第58话WinTR-B [32][55]第55话仅源基线TVT*TVT飞机bcycl公共汽车汽车房子刀mcycl人工厂sktbrd火车卡车平均55.1 53.3 61.9 59.1 80.681.9 77.7 82.8 44.3 81.2 29.587.0 60.9 83.7 64.0 88.9 79.6 84.793.8 74.1 82.4 69.4 90.6 87.2 89.093.7 82.2 85.6 83.8 93.0 81.0 90.794.3 88.5 80.1 57.3 93.1 94.997.7 48.1 86.6 61.6 78.1 63.4 94.797.1 90.5 82.4 77.5 96.6 96.1 93.698.7 91.2 93.0 91.9 98.198.7 63.0 86.7 68.5 94.6 59.4 98.099.1 91.6 86.6 72.3 98.7 97.9 96.598.2 73.0 82.5 62.0 97.3 63.5 96.594.6 81.6 81.8 69.9 93.5 69.9 88.697.1 88.8 86.4 64.4 96.4 97.4 90.697.1 92.9 85.3 97.1 89.331.2 81.0 26.5 73.5 8.552.428.6 51.9 54.6 82.8 7.857.476.9 88.6 40.3 83.0 25.871.967.6 93.4 76.1 87.7 22.277.882.1 95.1 78.1 86.4 32.180.3 91.5 89.1 86.3 58.282.910.3 87.7 47.7 94.4 35.567.188.6 97.9 86.9 90.3 62.888.472.7 97.0 95.5 95.357.922.0 81.9 91.4 96.7 25.773.982.3 94.2 96.0 93.9 61.389.229.8 68.7 86.7 96.7 23.773.250.5 86.8 88.5 91.5 20.176.464.1 92.0 90.3 93.7 59.685.175.5 95.0 94.7 94.5 55.186.7ViTSwinDeiTResNet528主要由DCM解决，其使得能够基于集群假设保留区分信息。6. 结论在本文中，我们进行了全面的调查ViT为了进一步提高ViT在传递领域知识方面的能力，我们通过明确考虑Transformer架构的内在合并来提出TVT具体而言，TVT捕获给定图像中的可转移特征和判别特征，并保留学习的域不变表示的判别

下载后可阅读完整内容，剩余1页未读，立即下载