结构保持生成跨域学习方法的研究

198 浏览量更新于2023-10-23 收藏 32.55MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

43640结构保持生成跨域学习0夏海峰�，丁正明†0� 印第安纳大学普渡大学印第安纳波利斯分校电子与计算机工程系†印第安纳大学普渡大学印第安纳波利斯分校计算机与信息技术系0{haifxia,zd2}@iu.edu0摘要0无监督域自适应（UDA）通过利用不同分布的已注释源领域知识来处理目标领域中不足或无标签数据的问题。UDA上的大部分研究工作探索在源监督下寻求一个域不变的分类器。然而，由于目标领域中标签信息的稀缺性，这样的分类器缺乏真实的目标监督，严重影响了分类器的鲁棒性和判别能力。为此，我们开发了一种新颖的结构保持生成跨域学习（GSP）方法，试图将目标数据转换为源域，以利用源监督。具体而言，我们开发了一种新的跨域图对齐方法，在目标-源翻译过程中捕捉两个域之间的内在关系。同时，我们训练了两个不同的分类器，以触发基于源监督的域不变特征学习，一个是传统的源分类器，另一个是源监督的目标分类器。在几个跨域视觉基准上的大量实验结果表明，与其他最先进的UDA算法相比，我们的模型具有很好的效果。01. 引言0深度神经网络在计算机视觉领域取得了越来越多的成功，因为有大量的标记数据，这使得深度学习模型能够轻松捕捉特征和类别之间的抽象和复杂关系[44]。然而，在现实中，收集带有注释的丰富数据在许多学习任务中变得非常困难和昂贵。解决这个现实问题的直观动机是将从使用可用注释样本训练的模型中提取的知识应用于目标任务。然而，这种策略往往容易受到领域转移问题[11]的影响，因为当评估时，训练好的模型更有可能无效。0对于具有不同分布的未标记目标域，视觉数据的领域转移是由光照条件、遮挡和背景的差异引起的[4]。0无监督域自适应（UDA）是一种有前途的技术，可以训练一个在目标领域上评估时具有较低风险的模型[13, 8, 9, 41,18]。现有的UDA方法[28, 21,7]通常首先最小化源数据上的风险，然后利用适当的统计特性消除跨域差异。衡量两个域之间分布差异的常见方法有两种，即差异度量[20, 22]和领域对抗混淆[44,19]。具体而言，差异度量如最大均值差异使用统计指标（分布的均值）来衡量跨域差异，并通过约束这个指标来对齐两个域的分布。而领域对抗混淆旨在以对抗训练的方式寻找两个域的领域不变特征生成器和领域混淆鉴别器。然而，这些方法在特征和类别之间的对齐方面仍然存在局限性，因为它们忽视了类别级别的信息[23]。它们通常面临两个具有挑战性的问题：1）来自不同类别的跨域样本的错位对齐和2）学习的分类器在目标域上缺乏泛化能力[14]。0为了缓解这些缺点，在训练过程中引入了目标伪标签，以有效增强类别级别的对齐[42,37]。此外，[40]将两个域上定义的类别先验概率作为类别特定权重，并通过辅助权重修改原始MMD，以提升目标域分类器的判别能力。类似地，[14]中提出的一种新的度量方法包括类内域差异和类间域差异。另一方面，最近的研究[25,15]更加关注第二个问题，即试图使目标域的学习决策边界更加鲁棒。解决这个挑战的常见策略是设计两个域特定的分类器。随后，[30]将这两个分类器视为不同视角的分类器。dgw :=infπ∈Π(ps,pt)� � �S×TL(dsij, dti′j′ )pdπii′ dπjj′� 1p ,43650相同的源域样本并最大化它们的差异以学习针对目标域样本的鲁棒分类器。此外，[16]开发了切片Wasserstein差异（SWD），将特征分布对齐和Wasserstein度量连接起来，以提高目标分类器的区分度。然而，使用来自相应域的样本训练特定于目标的分类器是不可行的，这无疑阻碍了分类准确性。这个问题源于目标标签的不可访问性。在本文中，我们提出了一种通过保持结构的生成跨域学习（GSP）模型，将目标域的样本与源域的监督一起纳入训练阶段（图1）。具体而言，我们定义了一种新的度量差异来衡量基于拓扑结构的跨域差异，包括节点和边的信息。为了最小化跨域差异，我们设计了两级对齐（即边级和节点级），以增强域不匹配的缓解。边级对齐旨在根据节点和度数发现两个域之间的匹配关系，而节点级对齐则利用学习到的匹配关系来限制特征表示。此外，我们开发了一个源标签监督的目标分类器，用源域的标签监督目标域的特征学习。此外，我们采用对称对抗方式训练两个域特定的分类器，既最大化两个分类器之间的差异，又提取有效的域不变特征。因此，我们的贡献总结如下：•我们引入了一种新的度量方法，以图分布为基础，并制定了节点级和边级的对齐。边级对齐旨在提取跨域匹配关系，而节点级操作旨在对齐特征表示。•为了提高分类器的判别能力，我们开发了源标签监督的目标分类器，该分类器使用来自目标域的匹配关系和特征的组合进行监督学习。此外，我们采用对称对抗方式训练两个域特定的分类器。•我们在几个视觉跨域基准上评估了我们提出的模型（GSP）。GSP方法在大多数域自适应任务中优于竞争方法，证明了解决UDA问题的有效性。广泛的分析说明了GSP方法中每个组件的功能。02. 相关工作0Gromov-Wasserstein差异（GW）被认为是衡量两个空间之间差异的有效工具[38]。给定两个紧致度量空间（S，d s，p s）和（T，d t，p t），其中 d s 和 d t 分别是在 S 和 T上定义的两个独立度量，p s ∈ R |S| ( p s � |S| = 1 ) 表示在 S 上定义的 Borel 概率测度，(p t 与 p s 含义相同)。第 p 阶Gromov-Wasserstein差异的公式如下：0( p s � |S| = 1 ) 表示在 S 上定义的 Borel 概率测度，( p t 与p s 含义相同)，第 p 阶 Gromov-Wasserstein 差异 ( p ∈[1, ∞) ) 的公式如下:0(1) 其中 L ( d s ij , d t i ′ j ′ ) = | d s ( s i , s j ) − d t ( t i′ , t j ′ ) | ，并且所有概率测度集合 Π( p s , p t ) 从 S × T中抽取，其中边缘分布为 p s 和 p t。根据上述公式，GW差异的损失函数首先测量每个紧凑空间内样本对之间的距离，然后将这些距离与 S中的距离进行比较与另一个空间 T中的距离。由于测量不同空间之间的差异的性质，GW度量已成功应用于测量不同图之间的差异[1,26]。此外，[38]在理论上证明了GW差异是图的伪度量。与仅学习不同图之间的匹配关系的这些应用不同，我们的工作不仅将节点级对齐引入到学习过程中，还利用学习到的关系来最小化域差异。具体而言，GW差异被扩展为以边级对齐为基础的图分布的跨域差异度量。根据跨域特征表示，我们将从边级对齐产生的图匹配关系与节点级对齐相结合，直接约束跨域特征学习以消除域差异。无监督域自适应（UDA）旨在使用强大且广义的模型提高目标域上的性能。其中，域不变特征学习试图在无监督方式下对两个域的分布进行对齐以生成有区分度的特征[44]。将两个域的差异限制在一定范围内的典型方法可分为两类：域对抗训练[21,32]和最大均值差异[14,20]。第一类试图通过对抗方式探索为源域和目标域生成相同的特征空间，而第二类进一步约束生成特征分布的属性。具体而言，[20,22]通过最小化分布均值的差异来努力限制目标风险。此外，[24, 19,3]采用生成对抗方式训练网络架构。当达到平衡时，网络系统合成了混淆判别器的域不变特征。此外，[44]提出了将分类器和判别器整合到单个框架中，并以对称对抗方式训练网络的域对称网络（SymNets）。与SymNets相比，我们的方法GSP通过源标签监督将目标域的特征引入到分类器中。并且采用对称对抗方式训练两个域特定的分类器，既最大化两个分类器之间的差异，又提取有效的域不变特征。因此，我们的贡献总结如下：•我们引入了一种新的度量方法，以图分布为基础，并制定了节点级和边级的对齐。边级对齐旨在根据节点和度数发现两个域之间的匹配关系，而节点级操作旨在对齐特征表示。•为了提高分类器的判别能力，我们开发了源标签监督的目标分类器，该分类器使用来自目标域的匹配关系和特征的组合进行监督学习。此外，我们采用对称对抗方式训练两个域特定的分类器。•我们在几个视觉跨域基准上评估了我们提出的模型（GSP）。GSP方法在大多数域自适应任务中优于竞争方法，证明了解决UDA问题的有效性。广泛的分析说明了GSP方法中每个组件的功能。Le=� �i,j∈Vs�i′,j′∈Vt|Asij − Ati′j′ |Asti,i′ Astj,j′� 1p= ⟨L(As, At, Ast), Ast⟩,(2)43660主要利用训练方式来最大化两个领域特定分类器之间的区别。03. 提出的算法03.1. 基础知识和动机0对于UDA，我们通常给定源数据集 D s = { ( x s i , y s i ) }n s i =1 和目标数据集 D t = { x t i } n t i =1 ，其中 D s包含了 n s 个数据样本 { x s i } n s i =1 和其对应的标签集 { y i } n s i =1 ，而 D t 由 n t 个数据实例 { x t i } n t i=1和目标领域的标签信息组成。尽管这两个领域共享相同的标签空间，但它们的数据样本集的分布是不同的，这限制了从源领域到目标领域的训练模型的性能。通过最小化源风险并限制两个不同分布之间的差异，可以有效提高模型的性能，这已经通过大量的理论分析得到验证。在这项工作中，我们从图分布的角度重新思考了UDA问题，并提出了一种具有结构保持的新型生成模型。具体而言，每个领域内的样本构成了具有节点、边和度信息的图结构。尽管两个领域之间存在分布差异，但它们的拓扑结构更可能是相似的。因此，所提出的方法通过Gromov-Wasserstein（GW）差异[ 38]在图上匹配拓扑信息，并利用学习到的关系消除 D s 和D t之间的领域差异。此外，我们还开发了一个新颖的源监督目标分类器，与跨领域对齐一起训练，使训练的分类器对无标签目标学习具有鲁棒性。03.2. 通过结构保持进行跨领域生成03.2.1 跨领域图对齐0现有方法[ 17 , 5 ]通过利用深度神经网络（如VGG [ 31 ]和ResNet [ 12]）取得了良好的性能。这些算法将现有的深度神经网络作为骨干来提取通用特征表示，并在顶部堆叠跨领域对齐。假设 F s = { f s i } n s i =1 和 F t = { f t j } n t j =1是来自两个领域 D s 和 D t的特征表示。利用提取的特征，我们将源领域和目标领域的可测图定义为 G s ( V s , A s ,p s ) 和 G t ( V t , A t , p t ) ，其中 V s = { v i } n s i =1 ( V t )是相应领域中的节点集合，源领域（目标领域）中元素之间的相似性或距离表示为 A s =[ a s ij ] ∈ R n s × n s ( A t )，而 p s ( p t ) 表示定义在 V s ( V t ) 上的 Borel概率测度。在实践中， p s0( p t )表示节点的经验分布，它是通过归一化节点度数估计得到的。为了有效地匹配两个不同的领域，我们提出了两级跨领域对齐，即节点级别和边级别。首先，我们探索GW距离来衡量两个领域之间的边相似性[ 33]。源领域和目标领域的度量指标分别为 d s 和 dt。根据这些定义，我们将GW方法扩展到衡量跨领域拓扑结构的差异，并得到以下边级别对齐的公式 L e :0其中 A st = { A st ∈ R n s × n t + | A st � n t = p s ,A T st � n s = p t } 是节点度数的联合分布，即 A st ∈ Π(p s , p t ) ， L ( A s , A t , A st ) = A s p s � T n t + � n s pT t A T t − 2 A s A st A T t 是根据[ 26 ]推导得到的， � A,B � 是矩阵 A 和 B的内积。为了进一步减小领域差异，我们要解决节点级别的领域差距。在实践中， v s i ( v t j ) 可以由特征 f s i ( f t j)表示。为了将来自不同领域的特征之间的关系进行耦合，我们进一步利用学习到的结构信息来约束特征表示并减小两个领域之间的差异。此外， A st ij 还表示 v s i 和 v t j属于同一类别的概率。因此，我们将节点级别的对齐定义为L n :0L n = ∥ F s − A st F t ∥ 2 F，（3）0其中∥ ∙ ∥ F是Frobenius范数。总之，我们的两级跨域图对齐模块由将Eq.（2）和（3）结合在一起定义如下：L g = L e + Ln。（4）0备注：Eq.（2）中的边级对齐将来自不同域的任意边缘和图的度信息的区别集成到一个系统中。跨域边缘的距离反映了嵌入到A st 中的域差异。最优的A st探索了将源节点与目标节点匹配的概率分配。与边级对齐相比，节点级对齐直接关注特征表示。A st ij 表示源特征f s i和目标特征f t j属于同一类别的概率。根据Eq.（3），具有相同标签的跨域样本倾向于在共享空间中聚类，并具有类似的特征表示。03.2.2 源域监督的目标分类器0Target Domain.........𝐹"𝐴$"𝐹"𝐹$𝑪𝒕𝑪𝒔𝐶"(𝐴$"𝐹")𝐶"(𝐹$)𝐶$(𝐴$"𝐹")𝐶$(𝐹$)True & False𝐴"𝐴$𝐴$"graph alignmentples from source domain to train a domain-invariant classi-ﬁer shared by target domain. Other works [30, 43] alterna-tively design two classiﬁers corresponding to two domainsand maximize distinction of them. To enhance the gener-alization ability of the classiﬁers to target samples, exist-ing works normally explore pseudo labels by involving thetarget supervision iteratively [42, 37]. However, the funda-mental challenge (e.g., to learn a robust classiﬁer for targetdomain) is still unsolved as ground-truth target label is notaccessible. In order to address this issue, we develop a novelsource-supervised target classiﬁer Ct(·) with structure pre-serving, as well as a traditional source-supervised classiﬁerCs(·) under a symmetric adversarial training manner.Ls = − 1ns� �+�i=1 ysi log�qs(�Lt = − 1ns� �+�i=1 ysi log�qt(�(5)43670源域0生成器（G）0图1：所提出架构的概述，其中特征F s 和F t通过生成器（VGG或ResNet）从原始数据中提取出来，然后根据图分布捕捉两个域之间的匹配关系（蓝色虚线）。此外，建立两个分类器并使用相同的输入进行训练。我们采用域对抗训练方式来最大化它们之间的差异。0首先介绍如何将未标记的目标样本输入到源域监督的目标分类器中，然后提出整个对称对抗架构。如第3.2.1节所讨论的，从D s 提取的特征F s可以在节点级别对齐下由目标域的特征F t 表示，即∥ F s −A st F t ∥ 2 F。不失一般性，任意的f s i 的表达式为 f s i ≈� n t j =1 a st ij f t j。较大的a st ij 不仅表明 v s i 与 v s j具有相似的拓扑结构，还表明 f s i 和 f t j来自同一类别。这种策略也被认为是从目标域中提取具有较大 a st ij 的样本并忽略其他样本对编码 f s i的影响的工具。最有可能的是，所选样本与 f s i具有相同的标签，并输入到训练分类器中，这极大地提高了分类器对目标域样本的判别能力。0因此，C s 和 C t 分别通过将 { F s , Y s } 和 { A st F t , Y s }作为输入来进行开发。需要注意的是，A st F t 与 F s共享相同的标签信息。C t还学习识别源域中各类别之间的界面。0有趣的是，C t ( ∙ ) 在 A st F t上训练后，也应该能够有效地识别 F t ，因为 A st F t 和 F t共享相同的特征空间。从这个意义上说，我们通过将目标特征转换为源特征，获得了具有基于真实源的监督的目标分类器。注意，A st F t可以被视为连接源域和目标域的桥梁。然而，考虑到 C t的任务是在目标域上触发更准确的预测，从 C t ( A st F t )和 C t ( F s ) 生成的概率应该不同。受 [ 44 ]的启发，我们采用对称对抗架构来实现这个目标。从图1可以看出，有两个平行的分类器 C s 和 C t，它们共享相同的输入 F s 和 A st F t 。C s 和 C t都采用相同的架构，包括全连接层和一个softmax层。对于任意的特征输入，如 f s i ，C s 和 C t 的输出分别表示为 qs ( f s i ) ∈ R C ( q s 的C = 1) 和 q t ( f s i ) ∈ R C ( q t的C = 1) ，其中 C 是类别的数量。给定特征 F s 和 A st F t，两个分类器生成四种类型的概率：q s ( F s ) ，q s ( A stF t ) ，q t ( F s ) 和 q t ( A st F t )。我们通过最小化以下交叉熵损失来训练 C s 和 C t对任何输入进行预测：0i =1 时，我们使用 y s i的对数来计算 q s ( f s i )0对于每个j，我们计算 a st ijf t j 的对数0i =1 时，我们使用 y s i的对数来计算 q t ( f s i )0对于每个j，我们计算 a st ijf t j 的对数0虽然 C s 和 C t使用相同的特征作为输入，但它们应该具有不同的识别功能。C s 的主要目的是提高特征的预测准确性Lsa = − 1ns�Lta = − 1ns�1 q∗tk(�Lc = Ls + Lt + Lsa + Lta,(7)Lem = − 1nt�− 1 �minCs,Ct Ls + Lt + Lsa + Lta.(9)ns�i=1log(C�k=1q∗sk(nt�jastijf tj)) −1nsnsi=1log(minG Ls + Lt + λ1(Ln + Ld) + λ2Lem,(10)43680F s 与 C t 更多地关注对 A st F t的预测。为了实现这个目标，我们从分类器 C s ( C t )中提取特征 H s ( H t ) ，然后将特征连接成 H s st = [ H s (F s ) , H t ( F s )] 和 H t st = [ H s ( A st F t ) , H t ( A st Ft )] 。随后，应用softmax操作以获得概率分布 [ q � s ( F s ), q � t ( F s )] 和 [ q � s ( A st F t ) , q � t ( A st F t )]。另外，q � s ( F s ) 应该大于 q � t ( F s ) ，但是 q � s ( A stF t ) 应该比 q � t ( A st F t ) 的值小。我们采用 [ 44 ]中的域对抗训练方式，通过最小化以下附加的交叉熵损失来实现这个目标：0i =1 时，我们使用的对数来计算0i =1 时，我们使用 C的对数来计算0对于每个 j，我们计算a st ij f t j 的对数0为了实现这个目标，我们可以将公式（5）和公式（6）整合到以下公式（7）中，通过最小化来训练分类器：0因此，这个损失函数涉及分类任务和域对抗任务。03.3. 熵最小化0虽然源域监督的目标分类器利用目标样本的协作来提高分类器的区分能力，但目标分类器没有机会直接访问目标域的特征。为了避免这个问题，我们采用熵最小化（EM）方法，该方法广泛应用于 [ 35 ]中，以提高分类器的鲁棒性。熵最小化函数旨在同时优化两个分类器，具有以下公式：0i =1 时，我们使用 f 作为输入，通过q s ( f ) 的对数来计算熵0在这里0i =1 时，我们使用 q t ( f t i )的对数来计算0其中qs(ftj)表示目标样本ftj的概率，qt(ftj)表示ftj的目标分类器的输出。在初始训练阶段，目标域的特征缺乏区分度，只能用错误的类别进行简单标记，并且在后续训练阶段很难正确识别。根据[ 44]中的建议，我们只使用熵最小化损失函数来训练生成器，而不是更新网络中的所有参数。03.4. 优化0我们的模型中有三个组件：生成器、图对齐和分类器，需要进行迭代优化。我们提供以下四个步骤来说明优化过程。步骤A：在初始训练阶段，我们使用带有相应标签的源实例来训练C s 和C t，并更新生成器G。尽管这种简单的训练方式0由于很难解决领域偏移问题，生成器在一定程度上学习到了两个领域的区分特征。根据这些提取到的特征，我们可以计算每个领域内的余弦距离A s 和At，然后得到跨领域相似性以初始化Ast。步骤B：第一阶段训练中训练的分类器C t 为目标域X t产生伪标签ˆY t。然后我们计算一个掩码矩阵M = Y s ˆY tT，用公式M ⊙ A st对Ast的不相关元素进行过滤，其中⊙表示逐元素乘法操作。随后，我们根据公式（4）优化Ast，学习最优的跨领域图匹配关系。步骤C：在这一步中，我们在固定生成器G的情况下训练两个分类器C s 和Ct。我们将F s 和A st F t作为输入，同时使用源标签作为监督信号。此外，分类器损失不仅实现分类任务，还最小化领域对抗损失。在这种情况下，分类器根据以下公式进行更新：0步骤D：由于对称对抗训练，生成器应该通过A st F t和F s混淆分类器。具体而言，目标分类器将F s视为真实，而源分类器对输入A st F t产生更多的值。因此，我们定义一个0领域损失定义为Ld = − 10k =1 q � t k ( f s j )) .0生成器通过对抗训练合成领域不变特征。具体而言，我们通过最小化目标函数来训练生成器，其中分类器是固定的：0其中λ1和λ2控制领域对齐和熵最小化的相对重要性。最后，我们重复步骤B、步骤C和步骤D，以获得我们模型的最优解。04. 实验0我们提出的方法在三个流行的无监督域自适应基准数据集上进行了评估，并与其他最先进的算法进行了比较。04.1. 实验设置0Of�ce-31被认为是UDA问题的标准基准数据集[ 29]。它包含了来自三个不同领域的4,110张图像：亚马逊网站（A）、网络摄像头（W）和数码单反相机（D）。尽管这三个领域的图像是在不同的条件下拍摄的，但是A、W[2], TADA [36], and SAFN [39].JAN is implementedwith the released code. Moreover, we cite the results ofDANN, SymNets, DSR, TADA and SAFN directly fromcorresponding papers [10, 44, 2, 36] for a fair comparisonas we adopt the exact the same experimental protocol.Implementation details.We implement the proposedmethod on Tensorﬂow. The ResNet-50 (without the last FClayer) pre-trained on ImageNet dataset [6] is employed toextract features from raw images. We only ﬁne-tune pa-rameters of ResNet-50 on source domain. The architecturein classiﬁer Cs and Ct both include two-layer FC layerswith activation function as Relu. We adopt Adam opti-mizer to update all parameters and select the learning rate43690表1：Of�ce-31数据集上UDA（ResNet-50）的Top-1准确率（%），最佳结果以粗体显示。0方法ResNet-50 DNN DANN [ 10 ] JAN [ 22 ] SimNet [ 27 ] SymNets [ 44 ] TADA[ 36 ] SAFN [ 39 ] 我们的方法0A → W 68.4 80.5 82.0 85.4 88.6 90.8 94.3 90.3 92.9 D → W 96.7 97.1 96.9 97.4 98.2 98.8 98.7 98.7 98.7 W → D 99.3 99.699.1 98.4 99.7 100 99.8 100 99.8 A → D 68.9 78.6 79.7 77.8 85.3 93.9 91.6 90.7 94.5 D → A 62.5 63.6 68.2 69.5 73.4 74.672.9 73.4 75.9 W → A 60.7 62.8 67.4 68.9 71.6 72.5 73.0 71.2 74.9 平均 76.1 80.4 82.2 82.9 86.2 88.4 88.4 87.6 89.50表2：Of�ce-Home数据集上UDA（ResNet-50）的Top-1准确率（%），最佳结果以粗体显示。0方法 ResNet-50 DANN [10] JAN [22] DSR [2] SymNets [44] TADA [36] SAFN [39] Ours0Ar→Cl 34.9 45.6 45.9 53.4 47.8 53.1 52.0 56.8 Ar→Pr 50.0 59.3 61.2 71.6 72.9 72.3 71.7 75.5 Ar→Rw 58.0 70.168.9 77.4 78.5 77.2 76.3 78.9 Cl→Ar 37.4 47.0 50.4 57.1 64.2 59.1 64.2 61.3 Cl→Pr 41.9 58.5 59.7 66.8 71.3 71.269.9 69.4 Cl→Rw 46.2 60.9 61.0 69.3 74.2 72.1 71.9 74.9 Pr→Ar 38.5 46.1 45.8 56.7 64.2 59.7 63.7 61.3 Pr→Cl31.2 43.7 43.4 49.2 48.8 53.1 51.4 52.6 Pr→Rw 60.4 68.5 70.3 75.7 79.5 78.4 77.1 79.9 Rw→Ar 53.9 63.2 63.968.0 74.5 72.4 70.9 73.3 Rw→Cl 41.2 51.8 52.4 54.0 52.6 60.0 57.1 54.2 Rw→Pr 59.9 76.8 76.8 79.5 82.7 82.981.5 83.2 平均 46.1 57.6 58.3 64.9 67.6 67.6 67.3 68.40D和D具有相同的31个类别的标签空间。此外，该数据集中域自适应的最大挑战是三个域之间的不平衡。具体而言，亚马逊域包含2817张图像，而DSLR域和Webcam域只包含498和795张图像。我们在Of�ce-31中评估了六个域自适应任务。Of�ce-Home是另一个更具挑战性的用于视觉域自适应的数据集[34]。它包含属于65个类别的15500张图像。这些包含各种日常物品的图像是在办公室或家庭场景中拍摄的。有四个不同的域：艺术图片（Ar），剪贴画（Cl），产品图片（Pr）和真实世界图片（Rw），形成12个自适应任务。ImageCLEF-DA数据集是另一个用于无监督域自适应的流行标准基准，包括三个域：Caltech-256（C），ImageNetILSVRC 2012（I）和Pascal VOC2012（P）。任意域包括12个类别，每个类别包含50张图像。与Of�ce-Home和Of�ce-31不同，该数据集中的三个域具有相同的规模。我们将评估六个无监督域自适应任务。比较。我们将我们的结构保持方法与生成对抗算法DANN[10]、SymNets [44]以及基于最大均值差异的方法JAN[22]和其他深度模型如DSR进行比较。0(1+ap)b，其中p从0线性变化到1。我们根据[44]中的策略设置初始学习率η0=0.01，α=10和β=0.75。λ1和λ2从{10^(-4)，10^(-3)，10^(-2)，10^(-1)，1}中选择。最后，我们使用Ct在目标域中获得分类准确率。04.2. 比较结果0表1显示了在Of�ce-31数据集上进行域自适应任务的分类准确率结果。在平均准确率方面，所提出的方法超过了所有比较方法。由于三个域之间存在不平衡的条件，模型很难将在小规模数据集中学到的知识转移到另一个更大的域中。1.01.21.41.61.82.01.01.21.41.61.82.01.01.21.41.61.82.043700(a) ResNet (Of�ce-31)0(b) 我们的(Of�ce-31) P：F s，Y：F t (c) 我们的(Of�ce-31) (d) 我们的(Of�ce-31)0(e) ResNet (Of�ce-Home) (f) 我们的(Of�ce-Home) (g) 我们的(Of�ce-Home) (h) 我们的(Of�ce-Home)0图2：ResNet-50和我们学习到的特征表示的t-SNE可视化比较。 (a)：ResNet (Of�ce-31)的t-SNE，使用F s和F t。(b)：我们的(Of�ce-31)的t-SNE，使用F s和F t。 (c)：我们的(Of�ce-31)的t-SNE，使用F s和A st F t。 (d)：我们的(Of�ce-31)的t-SNE，使用Ast F t和F t。 (e)：ResNet (Of�ce-Home)的t-SNE，使用F s和F t。 (f)：我们的(Of�ce-31)的t-SNE，使用F s和F t。(g)：我们的(Of�ce-Home)的t-SNE，使用F s和A st F t。 (h)：我们的(Of�ce-Home)的t-SNE，使用A st F t和Ft。我们使用Of�ce-31任务A→W和Of�ce-Home任务Ar→Cl的最后一个FC层的输出计算t-SNE。紫色表示F s，黄色表示F t，绿色表示A st Ft。0然而，与任务D → A和W →A中其他算法的结果不同，我们的模型对不平衡情况显示出较低的敏感性。我们模型成功的主要原因是我们将跨域图形信息引入到我们的方法中。与图对齐相结合，图的对齐发现了拓扑结构的相似性，并利用一致性来解决领域偏移。另一方面，具有跨域图的目标分类器从源域获得更多的标签信息，提供了目标域的特征学习。0关于Of�ce-Home [ 34]上的12个领域适应任务的分类结果报告在表2中。众所周知，由于Of�ce-Home数据集的类别比Of�ce-31数据集更多，同一方法在Of�ce-31数据集中很难产生比其在源域中的性能更好的结果。与仅在源域中微调的ResNet-50相比，使用上述方法取得了令人印象深刻的改进。我们的方法的性能在与其他算法的比较中显著提高。尽管SymNets在任务Cl →Ar，Cl → Pr和Rw →Cl上的结果更高，但我们的方法在大多数情况下显著提高了分类准确率，并获得了更好的平均性能。具体而言，我们的模型在一些困难任务（如Ar → Cl和Ar →Pr任务）中以较大的边际产生更高的准确率。这表明所提出的方法通过图对齐和领域对抗对齐有效地消除了领域差异并提取了领域不变特征。0表3报告了ImageCLEF-DA数据集上的分类准确率。与前两个数据集不同，该数据集中的每个领域具有相同数量的样本。所有方法，甚至是ResNet-50，都获得了令人印象深刻的准确率。根据与上述方法的比较0表3：ImageCLEF-DA数据集上的Top-1准确率（%）的UDA（ResNet-50），最佳结果以粗体显示。0方法 I → P P → I I → C C → I C → P P → C0ResNet-50 74.8 83.9 91.5 78 65.5 91.2 DAN 74.5 82.292.8 86.3 69.2 89.8 DANN [ 10 ] 75 86 96.2 87 74.391.5 JAN [ 22 ] 76.8 88 94.7 89.5 74.2 91.7 CDAN [ 21] 76.7 90.6 97 90.5 74.5 93.5 SymNets [ 44 ] 80.2 93.697 93.4 78.7 96.4 SAFN [ 39 ] 79.3 93.8 96.3 91.7 77.695.3 我们的方法 79.4 91.9 97.9 94.1 76.5 97.20我们的模型在大多数情况下（如P → C，C → I和I →C）都取得了最佳性能，证明了我们提出的方法在解决领域适应问题方面的有效性。此外，与传统的对抗训练方法（DANN和CDAN）相比，我们的模型和SymNets都表现出比它们更好的结果，这得益于对称对抗训练方式。对称对抗方法中的两个分类器倾向于从不同的角度描述相同的特征。因此，目标分类器的判别能力得到了显著提高。04.3.消融研究04.3.1 t-SNE可视化0为了理解图对齐的效果，我们使用t-SNE可视化技术观察2D空间中特征的分布。我们计算了生成器中最后一个全连接层的输出，并在Of�ce-31（A → W）和Of�ce-Home（Ar →Cl）上进行了实验，对比了原始ResNet-50特征和我们的模型。根据图2所示43710图3：我们提出的模型GSP的参数分析。我们在Of�ce-31上进行D →A任务的实验，并研究了在不同参数λ1和λ2下的分类准确率。（红色：λ1，蓝色：λ2）0(a)、目标实例（黄色）与源域样本（紫色）存在一些重叠，表明存在跨域分布差异，称为领域偏移。通过GSP的特征学习阶段，目标样本被嵌入到源域中，如图2(b)所示。当比较图2(a)和图2(b)中目标样本的位置时，我们还知道由于图对齐的影响，存在一种由翻译引起的现象，该现象将目标样本与源数据点匹配。图2(c)显示了F_s和A_stF_t之间的比较。与F_t不同，几乎所有的A_stF_t都附着在源域的特征上。这说明GSP学习了跨域匹配关系，并利用它将目标域转化为源域。由于源域（A）包含的样本比目标域（W）多，A_stF_t的空间比图2(d)中的F_t扩展得更大。因此，减小领域差异往往会受到A_

下载后可阅读完整内容，剩余1页未读，立即下载