源无关参数探索方法的领域自适应

195 浏览量更新于2023-10-25 收藏 14.82MB PDF 举报

领域自适应

文件标签

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

��…��Target-SpecificDomain-InvariantTarget Data…��(�)��(�)��(�)��(�)…………………………………neuronsSource classifierSource representations (unseen)Target representationsDomain-Invariant ParametersDomain-Specific Parameters��…��Target-SpecificDomain-InvariantTarget Data…��(�)��(�)��(�)��(�)…………………………………neuronsSource classifierSource representations (unseen)Target representationsDomain-Invariant ParametersDomain-Specific Parameters�� Do��…71510探索源无关参数进行领域自适应0王帆 �0山东大学0fanwangsail@gmail.com0韩忠义 �0山东大学0hanzhongyicn@gmail.com0山东大学龚永顺0ysgong@sdu.edu.cn0尹义龙 †0山东大学0ylyin@sdu.edu.cn0摘要0源无关领域自适应（SFDA）是一种新兴的方法，用于将经过充分训练的源模型的相关知识转移到未标记的目标领域，这在各种保护隐私的场景中至关重要。大多数现有方法侧重于仅依赖目标数据来学习领域不变表示，从而得到的表示是目标特定的。这种方法无法完全解决跨领域的分布偏移问题。相反，我们提供了一个有趣的见解：与其试图学习领域不变表示，不如探索源模型的领域不变参数更好。这个见解的动机很明确：领域不变表示仅由可用的深度源模型的部分参数主导。我们设计了领域不变参数探索（DIPE）方法，以捕获源模型中的这些领域不变参数，生成领域不变表示。相应地，我们开发了一种区分两种类型参数（即领域不变参数和领域特定参数）的方法，以及一种基于聚类校正技术的有效更新策略和一个目标假设。广泛的实验证明，DIPE在许多领域自适应数据集上成功超越了当前最先进的模型。01. 引言0无监督领域自适应（UDA）在过去十年中蓬勃发展，有效解决了跨领域的分布偏移问题。由于可以自由访问标记的源数据，以前的UDA研究取得了显著的成就[10, 25,49]。然而，在各种保护隐私的场景中，源数据是不可用的：数据隐私保护法律和临床实践中的数据孤岛[38]。此外，完全的测试时自适应[44]假设模型在测试过程中对变化条件（例如，领域偏移）敏感，而无需训练数据。在这种实际限制下，源无关领域自适应（SFDA）放宽了对源数据的要求，并利用源模型的知识进行领域自适应。SFDA的基本挑战是直接依赖目标数据探索领域不变表示非常困难，正如以前的工作所尝试的那样。SHOT [23]和PPDA [17]都利用了各种技术，如熵函数和自我0� 对本文的贡献相同 † 通讯作者0器0特征提取器0F0特征0分类器0现有方法0我们的方法0图1.现有方法与我们的方法的比较。现有方法（顶部）优化模型参数时没有区分，得到的目标特定表示可能不适应源分类器，即一些样本被错误分类。我们的方法（底部）通过探索领域不变参数来获得领域不变表示，保证源模型的泛化能力。0方法都无法完全解决这个问题。71520图2.在Of�ce-31上使用或不使用DIP（‘-DIP’）的准确率（%）。由源模型参数化的模型在自身预测的伪标签上进行微调。0监督损失，对源模型进行微调。在某种程度上，SHOT在学习域不变表示方面取得了一些进展。但它忽略了域漂移，固定的源分类器模块无法很好地识别学到的表示（见图1）。在本文中，我们提出了一个新的观点：在SFDA中，探索存储在源模型中的域不变参数比直接探索域不变表示更可行。这个观点受到了彩票票假设[8]的启发，彩票票假设证明了深度网络中部分参数对泛化的重要性。类似地，我们发现源模型中只有部分参数，称为域不变参数（DIP），对于域不变表示是显著的。相反，其他参数，称为域特定参数，倾向于适应域特定信息并损害泛化能力。如图2所示，在我们提出的方法Domain-Invariant ParameterExploring（DIPE）中，探索域不变参数的模型在Of�ce-31的四个任务上产生了更好的结果。DIPE旨在探索存储在源模型中的域不变参数，生成域不变表示并缓解域漂移。三个关键部分支持DIPE准确地捕捉域不变参数。首先，为了判断一个参数是域不变还是域特定，我们提出了一个同时观察源模型和目标模型中活跃参数的域平衡识别准则。其次，基于一个直觉，随着训练过程的进行，学到的表示会越来越接近于域不变表示，我们建议域不变参数的比例应随着迭代次数的增加而增加。第三，我们设计了一个有效的更新策略，根据源和目标假设的聚类校正，通过自监督损失对这两种类型的参数进行更新。具体而言，对于域不变参数，我们执行主动更新。对于域特定参数，我们执行被动更新，将惩罚它们的值接近零，并逐渐使它们失去活动性。0执行被动更新，将惩罚它们的值接近零，并逐渐使它们失去活动性。我们的主要贡献总结如下：0•据我们所知，我们首次探索了存储在给定源模型中的域不变参数，为SFDA开辟了新的视角。0•我们提出了一种新颖的DIPE框架，用于探索域不变参数，并引入了一个域平衡的识别准则来确定域不变和域特定参0• 提出了一种简单而通用的技术，聚类校正，以促进学习过程。02. 相关工作02.1. 无监督域自适应0UDA方法近年来取得了巨大的成功。这些方法可以分为四类：重要性估计、矩匹配、伪标签和对抗学习。(1)重要性估计的核心思想是测量源样本与源域和目标域之间重叠分布的距离，从而优化重要性加权的目标函数[39]。(2)矩匹配试图最小化跨域之间高维统计量的差异[15, 26]。(3)伪标签利用目标样本的伪标签实现标准的监督学习[34, 37,48]。(4)对抗训练的主要思想是引入一个域鉴别器来区分两个域之间的样本，以学习域不变的表示[9, 25,36]。然而，所有这些方法的成功都取决于访问的源数据，这是不安全且常常不现实的，因为源数据可能是私有的和分散的。02.2.无源领域自适应0随着数据隐私保护的关注，SFDA逐渐在文献中被考虑。少数SFDA工作可以分为基于模型微调的工作和基于数据生成的工作。（1）基于模型微调的工作试图通过微调源模型来探索领域不变表示。[23]试图通过信息最大化和自我监督损失来学习与源分布对齐的表示。[17]通过基于熵函数的可靠伪标签对目标样本进行源模型微调。然而，它们仅依赖于目标数据，不充分考虑给定模型的源信息，导致性能有限。（2）基于数据生成方法的核心思想是生成源数据或目标数据以实现标准领域适应。[22]提出了3C-GAN框架来生成带有注释的目标数据。尽管3C-GAN取得了一定的性能提升，但它需要大量的Source hypothesis ��Feature Extractor ��Target hypothesis ��……��(�)…��(�)��(�)��(�)��(�)��………………��Llss(fs; Xs, Ys) = −E(xs,ys)∈(Xs,Ys)qlsklogδk(fs(xs)) ,(1)where δk(a) =71530特征0II0b0仅用于训练阶段0FC0WN0权重归一化更新参数0固定参数0WN0目标数据0FC0WN0II0领域特定参数0领不变参数0�� 0获取伪标签0I0II0b0C0聚类0C0校正0I0II0a）标准0C0聚类0图3.领域不变参数探索（DIPE）的框架。我们可视化特征提取器的参数，其中蓝色链接表示领域特定参数，我们需要逐渐停用，红色链接表示领域不变参数，我们需要强调。这里的L self 是根据聚类校正的伪标签计算的。0对于复杂的目标任务，SFDA需要大量的计算资源，无法应用。最近，还讨论了更具挑战性的在线SFDA[44]和联邦SFDA [31]设置。02.3.彩票票据假设0彩票票据假设[8]证明了过参数化的DNN中包含对泛化有重要意义的中奖票（参数）。它表明，存储在网络中的部分参数对泛化贡献很小，似乎是多余的。尽管彩票票据假设激发了我们的想法，但这项研究与之根本不同。我们希望探索领域不变参数，减少领域特定信息的副作用。这些领域不变参数将进一步生成领域不变表示，这在SFDA中很难获得。03.领域不变参数探索0在本节中，我们首先介绍SFDA的必要符号。然后，我们提出了平衡领域识别准则，引入了平衡领域识别准则来确定领域不变参数的比例，并通过新设计的聚类校正的自我监督方式，提出了两种类型参数的有效更新策略。领域不变参数探索（DIPE）的框架如图3所示。03.1.学习设置0UDA和SFDA的主要区别在于，在隐私保护场景下，SFDA在训练过程中不能严格利用源数据，即源数据0无法直接获得数据 D s 。相反，给定一个在 D s上训练的经过良好训练的源模型 f s : X s → Y s和来自目标域 D t 的 n t 个无标签数据 { x i t } n t i =1，其中 x i t ∈ X t 。在多分类任务中，Y ∈ { 1 , ..., K } ，K表示类别数。这里，D s � p ，D t � q ，分布 p 和 q相似但不同。SFDA的目标是在没有源数据的情况下预测目标域中的标签 { y i t }n t i =1 。03.2. 源模型生成0在实际场景中，由第三方提供的源模型可能无法在实验室中获得，因此我们模拟第三方使用标记的源数据训练源模型 fs : X s → Y s。此外，为了使源数据聚集在紧密的簇中，我们使用标签平滑技术，参考 [ 23 ]。因此，目标函数为0其中 exp( a i ) 表示第 k 个元素在0一个 K 维向量 a 的 softmax 输出，q ls k = (1 − ϵ ) q k +ϵ K 。q k 是 y s 的 K 维编码，ϵ 是平滑参数。如图 3所示，由上述源模型参数化的目标模型由三个模块组成：特征提取器 g t : X t → R d ，源假设（固定分类器） h s，目标假设（可训练分类器） h t ，即 f t ( x ) = h t ( g t (x )) 。这里 d是输入特征的维度。我们提出了域不变参数探索（DIPE）来探索特征提取器（ g t）中的域不变参数，并生成能够很好地适应源假设（ h s）的域不变表示。DIPE可以减轻目标导向信息过多带来的负面影响，这是以往方法所忽视的。gi = |wsi (t) + wti(t)|,i ∈ [m] ,(2)71540可训练的目标假设（ h t）引入以与源假设合作，避免源导向信息。接下来我们将描述如何探索域不变参数。03.3. 领域平衡的识别准则0识别域不变参数的原则是找到那些在探索域不变表示中起决定性作用的关键参数。在前向传播中，有一些参数在源模型和目标模型的相同位置上相对较大，并且在同一位置上起正负相同作用。这些参数更活跃，并在表示提取中起协同作用。因此，我们将它们称为域不变参数（DIP）。相反，源模型和目标模型在相同位置上训练时正负参数的不一致性表明它们起相反方向的作用，因此我们将这些参数称为域特定参数（DSP）。基于上述分析，我们设计了一个域平衡的识别准则如下。在第 t 次迭代中，记为存储在源模型中的 w s i (t ) 和存储在目标模型中的 w t i ( t )的位置相同。判断准则表示为 g i ，即0这里 m 是特征提取器和目标假设的参数数量。如果 g i的值较大，则将 w t i 视为域不变参数。否则，将 w t i视为域特定参数，倾向于适应域特定信息。顺便说一下，探索域不变参数的目标假设旨在避免更新目标导向的梯度，进一步促进域不变参数的学习。03.4. 确定DIP的比例0直观上，随着网络训练的进行，表示逐渐趋向于域不变。因此，我们通过训练迭代次数的增加来确定域不变参数的比例。具体而言，我们用τ表示动态的域不变参数比例，定义如下：0τ = 1−d2exp(−10c)0T 01.0 + exp(−10c)0T m), (3)0其中c表示当前迭代次数，Tm表示最大迭代次数，τ∈[1−d,1]。03.5. 使用不同规则更新参数0更新不同类型的参数是传统参数微调策略的细粒度版本。域不变参数可以进一步找到并更新以加强，削弱域特定参数的潜在影响，从而产生域不变表示。因此，对于域不变参数，我们使用标准的随机梯度下降（SGD）[27]算法进行更新，称为主动更新规则。0(a) D → A (b) W → A0图4. 目标特征的t-SNE可视化。0进一步找到并更新以加强，削弱域特定参数的潜在影响，从而产生域不变表示。因此，对于域不变参数，我们使用标准的随机梯度下降（SGD）[27]算法进行更新，称为主动更新规则。0W IP(t+1) ← W IP(t) − η(∂L(0∂W IP(t) + λW IP(t)),0(4)其中λ∈R+是正则化参数，与SGD的权重衰减系数相等，η>0是学习率，t表示第t次迭代。WIP表示域不变参数集合，WSP表示域特定参数集合。对于域特定参数，我们仅使用正则化项（即权重衰减）来更新，称为被动更新规则[46]。此外，我们使用标准的sgn函数来替代正常的权重衰减，即用sgn(W SP)来使WSP的值在网络训练过程中更快地收敛到零或接近零。被动更新规则定义为：0W SP(t+1) ← W SP(t) − ηλsgn(W SP(t)), (5)0在实践中，目标数据的标签不可用，模型预测的伪标签质量较差，会学习到错误的信息。因此，我们提出了聚类校正来纠正伪标签。0聚类校正图4显示了源模型上目标特征的t-SNE可视化。它表明目标数据的同一类别在嵌入空间中仍然可以形成一个簇，即使在域转移的情况下。此外，许多域自适应工作[5, 21,30,40]已经验证了聚类的有效性。因此，聚类有助于探索目标数据的内在结构。此外，我们提出了聚类校正来获得更准确的伪标签，并支持监督损失的优化。聚类校正旨在通过探索表示之间的关系来纠正易出错的伪标签。具体而言，聚类校正首先利用深度k均值聚类[23]预测伪标签：�71550目标样本的标签通常无法获得，模型预测的伪标签质量较差，会学习到错误的信息。因此，我们提出了聚类校正来纠正伪标签。首先，聚类校正利用加权k均值聚类[23]获得伪标签：0ˆ y t = arg min k D f(g t(x t), c k), (6)0其中，D f(∙,∙)表示两个变量的余弦距离，gt表示学习到的表示，ck表示类别中心，可以稳健且更可靠地表征目标域中不同类别的分布。然后，聚类校正搜索每个样本的多个最近邻（余弦距离最近的）并纠正模糊的伪标签。具体而言，如果该样本的大多数邻居与其自身具有相同的伪标签，则保持样本的标签不变。否则，模糊样本的标签将被纠正为其邻居中大多数样本的标签，例如图3右上角的决策边界处的样本。红色、橙色和蓝色分别代表三个类别。不确定样本（红色边框）的模糊标签通过聚类校正进行纠正。0ˆ y t = maxcommon (ˆ y t 1 , ˆ y t 2 , ..., ˆ y tn )0其中n表示邻居的数量。根据目标样本的准确伪标签，我们通过以下标准监督损失进行优化0L self = E ( x t , ˆ y t ) ∈ ( X t , ˆ Y t ) � K0k =1 1 [ k =ˆ y t ] log δ k ( h s ( g t ( x t ))0L ent ( f ts ; X t ) = − E x t ∈X t � K0k =1 δ k ( f ts ( x t )) log ( δ k ( f ts ( x t0L div ( f ts ; X t ) = � K0k =1 ˆ p k log (ˆ p k ) = KL (ˆ p, 10K 1 ( K )) − log ( K )0L s IM = L ent ( f ts ; X t ) + L div ( f ts ; X t0其中f ts ( x ) = h s ( g t ( x ))是每个目标样本的K维输出，1( K )是一个全为1的K维向量，而ˆ p = �0x t ∈X t [ δ ( f ts ( x t)]是整个目标数据的平均输出嵌入。此外，为了防止学习到的特征过于源导向，我们从目标假设中计算L t IM，其中f t( x ) = h t ( g t ( x))。总之，更新两种类型参数的整体优化目标如下所述0L ( W, S ) = L s IM + γL t IM + βL self0其中β > 0和γ >0是平衡超参数。所提出的DIPE方法的整体过程总结如算法1所示。0算法1 DIPE算法。输入：源模型f s = g s ◦ h s，目标数据{xi t } n t i=1；参数：最大迭代次数E，权衡参数d，β，γ；初始化：冻结源假设h s并将参数复制到g t和h t；01: 令epoch = 1, iter num = 002: 当epoch ≤ E时循环 3:根据公式（6-7）进行基于聚类校正的伪标签获取；04: 当iter num < n b时循环05: 从D t中获取小批量ˆ D t；06: 使用公式（8），（9），（10）计算L(W, S)损失07: 使用公式（2），（3）将W划分为W IP和W SP；08: 使用公式（4）更新W IP09: 使用公式（5）更新W SP；010: 结束循环011: 结束循环04. 实验04.1. 实验设置0Digits是一个标准的UDA数据集，支持具有不同领域的数字识别。根据[14]中的协议，我们使用了三个子集：SVHN（S）[29]，MNIST（M）[18]和USPS（U）[16]。每个领域有10个类别。Of�ce-31[33]是一个由三个不同领域组成的小规模UDA数据集：Amazon（A），Dslr（D）和Webcom（W）。每个领域有31个类别。Of�ce-Home[43]是一个更具挑战性的UDA数据集，由四个领域组成：艺术图片（Ar），剪贴画图片（Cl），产品图片（Pr）和真实世界图片（Re）。每个领域有65个类别。VisDA-C[32]是一个模拟到真实的数据集，包含两个极端不同的领域：合成图像和真实图像。每个领域有12个类别。源领域包含由渲染3D模型生成的15.2万张图像，目标领域包含从MicrosoftCOCO[24]中采样的5.5万张真实图像。我们将我们设计的DIPE算法与最先进的方法进行比较：（1）ResNet-50，ResNet-101[12]；（2）UDA：域对抗网络（DANN）[10]，对抗性区分域自适应（ADDA）[41]，条件域对抗网络（CDAN）[25]，循环一致性对抗域自适应（CyCADA）[14]，带有教师的聚类对齐（CAT）[6]，切片Wasserstein差异（SWD）[19]，逐步自适应特征规范（SAFN）[47]，批量谱惩罚（BSP）[2]，对抗性丢失正则化（ADR）[35]，边际差异差异（MDD）[49]，逐渐消失的桥梁（GVB-GD）[4]，随机分类器（STAR）[28]，结构化规则化深度±±±DANN [10]79.782.068.296.967.499.182.2SAFN+ENT [47]90.790.173.098.670.299.887.1rRevGrad+CAT [6]90.894.472.298.070.2100.087.6CDAN [25]92.994.171.098.669.3100.087.7DSBN+MSTN [1]92.292.771.799.074.4100.088.3CDAN+BSP [2]93.093.373.698.272.6100.088.5CDAN+BNM [3]92.992.873.598.873.8100.088.6MDD [49]93.594.574.698.472.2100.088.9CDAN+TransNorm [45]94.095.773.498.774.2100.089.3GVB-GD [4]95.094.873.498.773.7100.089.3SRDC [40]95.895.776.799.277.1100.090.8DIPE96.693.175.598.477.299.690.1(a) Cl→Ar(b) Re→Cl71560表1. 数字准确率（%）。0方法 S → M U → M M → U 平均0仅源模型 [ 14 ] 67.1 ± 0.6 69.6 ± 3.8 82.2 ± 0.8 73.0 ADDA [ 42 ]76.0 ± 1.8 90.1 ± 0.8 89.4 ± 0.2 85.2 ADR [ 35 ] 95.0 ± 1.9 93.1± 1.3 93.2 ± 2.5 93.8 CyCADA [ 14 ] 89.2 98.0 95.6 94.3 CDAN [25 ] 90.4 ± 0.4 96.5 ± 0.1 95.6 ± 0.4 94.2 rRevGrad+CAT [ 6 ]98.8 ± 0.0 96.0 ± 0.9 94.0 ± 0.7 96.3 SWD [ 19 ] 98.9 ± 0.1 97.1± 0.1 98.1 ± 0.1 98.00仅源模型 69.2 87.8 79.1 78.7 SHOT [ 23 ] 99.0 ± 0.0 99.0 ± 0.097.7 ± 0.1 98.6 MA [ 22 ] 99.4 ± 0.1 99.3 ± 0.1 97.3 ± 0.2 98.70聚类（SRDC）[ 40]；（3）无源域适应：无源域适应（SFDA）[ 17]，源假设转移（SHOT）[ 23 ]，模型适应（MA）[ 22]。请注意，SFDA，SHOT和MA是先前最好的无源域适应方法。我们在PyTorch中实现了我们的算法。对于一些必要的参数，我们将动量设置为0.9，权重衰减设置为1e-3，学习率设置为η0 =1e-2用于新层和所有实验中从头开始学习的层，除了VisDA-C的η0 = 1e-3。我们进一步采用相同的学习率调度器η =η0（1 +10p）-0.75，其中p从0变为1。此外，我们将批量大小设置为64，初始化β = 0.3，γ = 0.3，n = 4，ε =0.1，适用于所有实验，除了数字的β =0.1，Of�ce-Home的d = 0.6。04.2. 结果04.2.1 数字识别结果0表1报告了DIPE和其他算法在数字上的分类准确率。与所有方法相比，DIPE在这三个任务上获得了最好的平均准确率。MA在巨大的计算量的代价下与DIPE获得了相同的结果。DIPE还提高了源模型的准确率20％，证明了其有效性。04.2.2 物体识别结果0表2、表3和表4报告了三个物体识别基准数据集（Of�ce-31，VisDA-C和Of�ce-Home）上的分类准确率。可以清楚地看到，DIPE在Of�ce-Home上明显优于现有方法，将平均准确率从71.3％提高到72.5％，而不需要访问源数据。同时，DIPE在12个任务中的6个任务中表现最好，与所有方法相比。对于大规模且具有挑战性的合成到真实的VisDA-C数据集，DIPE仍然实现了最佳的每类准确率。在Of�ce-31中，DIPE在A →D上也取得了最佳性能。这些结果表明，通过探索特征提取器中的域不变参数，可以获得更多的域不变表示，进一步对齐未见源分布。0Table 2. Of�ce-31上的准确率（%）（ResNet-50）。0方法 A → D A → W D → A D → W W → A W → D 平均0仅源模型 79.5 77.2 62.2 96.1 62.5 98.6 79.4 SHOT [ 23 ] 94.8 88.2 73.6 98.4 75.5 99.8 88.4MA [ 22 ] 92.7 93.7 75.3 98.5 77.8 99.8 89.60通过提取器，我们可以获得更多的域不变表示，进一步对齐未见源分布。04.3. 消融实验0领域不变参数（DIP）的效果。我们在Of�ce-Home上进行了几种方法的实验，例如，源模型通过自身预测的伪标签进行微调，SHOT [ 23]和我们提出的DIPE，旨在验证DIP的有效性。这里的“-DIP”表示在实验中未探索DIP。从表5中可以观察到，在具有挑战性的任务中，例如Cl → Ar，Pr → Cl和Re →Cl，有约1.0％的显著改进，而在简单任务中有较弱的改进，这表明探索DIP对SFDA中的具有挑战性的任务更有效。此外，通过图5中随着迭代次数增加准确率的变化，我们可以观察到探索DIP不仅提高了性能，还稳定了效果。0图5. DIP的消融研究。0聚类校正效果。图6(a)和(b)展示了在Of�ce-31中具有挑战性任务中聚类校正的优势。(a)表示第一轮迭代中伪标签的准确率，其中聚类校正获得了最佳结果。(b)显示了随着迭代次数增加准确率的变化情况，可以观察到聚类校正不仅提高了性能，还稳定了效果。MethodplanebcyclbuscarhorseknifemcyclpersonplantsktbrdtraintruckAvgResNet-101 [13]55.153.361.959.180.617.979.731.281.026.573.58.552.4DANN [10]81.977.782.844.381.229.565.128.651.954.682.87.857.4ADR [35]94.248.584.072.990.174.292.672.580.861.882.228.873.5CDAN [25]85.266.983.050.884.274.988.174.583.476.081.938.073.9CDAN+BSP [2]92.461.081.057.589.080.690.177.084.277.982.138.475.9SAFN [47]93.661.384.70.694.179.091.879.689.955.689.024.476.1SWD [19]90.882.581.770.591.769.586.377.587.463.685.629.276.4DSBN+MSTN [1]94.786.776.072.095.275.187.981.391.168.988.345.580.2STAR [28]95.084.084.673.091.691.885.978.494.484.787.042.282.7source model only58.720.448.270.663.912.182.118.376.432.887.17.448.2SFDA [17]81.579.480.361.892.391.984.582.786.558.474.243.576.4MA [22]94.873.468.874.893.195.488.684.789.184.783.548.181.6SHOT [23]94.887.777.653.094.094.882.282.690.687.785.558.082.4DIPE95.287.678.855.993.995.084.181.792.188.985.458.083.1MethodAr→ClAr→PrAr→ReCl→ArCl→PrCl→RePr→ArPr→ClPr→ReRe→ArRe→ClRe→PrAvgResNet-50 [13]34.950.058.037.441.946.238.531.260.453.941.259.946.1DANN [10]45.659.370.147.058.560.946.143.768.563.251.876.857.6CDAN [25]50.770.676.057.670.070.057.450.977.370.956.781.665.8CDAN+BSP [2]52.068.676.158.070.370.158.650.277.672.259.381.966.3SAFN [47]52.071.776.364.269.971.963.751.477.170.957.181.567.3MDD [49]]54.973.777.860.071.471.861.253.678.172.560.282.368.1CDAN+BNM [3]56.273.779.063.173.674.062.454.880.772.458.983.569.4GVB-GD [4]57.074.779.864.674.174.665.255.181.074.659.784.370.4SRDC [40]52.376.381.069.576.278.068.753.881.776.357.185.071.3source model only45.867.474.152.561.864.751.742.373.864.947.678.260.4SFDA [17]48.571.375.663.969.072.162.443.576.070.450.176.164.9SHOT [23]55.378.180.568.776.078.865.752.282.473.157.584.271.0DIPE56.579.280.770.179.878.867.955.183.574.159.384.872.571570Table 3. VisDA-C准确率（%） (ResNet-101).0Table 4. Of�ce-Home准确率（%） (ResNet-50).0聚类校正还提高了最终的分类准确性，表明更准确的伪标签可以进一步促进领域不变参数的探索。同时，Of�ce-Home中表6中的最后一行的结果也验证了其有效性。0(a) (b)0图6. 对聚类校正的消融研究。0损失函数的影响。我们进行消融研究，以证明Eq.（10）中的三个损失函数对Of�ce-Home中的几个任务的影响。如表6所示，我们验证了朴素的伪标签（PL）[20]对SFDA不适用，然后我们证明了Eq.（10）中的三个损失函数的重要性，因为在添加每个损失后都有明显的性能提升。0表6. 对Of�ce-Home（ResNet-50）进行消融研究（%）。0方法 Cl → Ar Cl → Pr Cl → Re Re → Ar 平均0仅源模型 52.5 61.8 64.7 64.9 61.0 朴素的伪标签（PL）[20] 59.4 66.6 70.5 67.7 66.10L s IM 66.9 74.7 76.0 73.1 72.7 L s IM + L t IM 67.5 75.3 77.4 73.1 73.3 L s IM + L t IM +PL [ 20 ] 67.0 74.3 75.6 73.1 72.5 L s IM + L t IM + 自监督PL [ 23 ] 68.7 78.1 78.4 73.274.6 L s IM + L t IM + 聚类校正 70.1 79.8 78.8 74.1 75.70领域不变参数比例的影响。我们进行消融研究，以分析Cl →Ar和Cl →Pr任务中领域不变参数的比例。当领域不变参数的比例设为零时，准确性非常低，并且由于所有参数都被动更新，不会收敛，因此我们不包括此结果在图中。相反，当比例设为一时，在图7中准确性仍然很低，因为所有参数都没有得到不同对待。我们可以看到，逐步设计的比例在不同任务中都能获得最佳结果。损失权重的影响。我们在图8中展示了Eq.（10）中γ和β不同取值的分类准确性。特征可视化。图9（a）和（b）展示了源模型和DIPE学习模型中具有挑战性任务（Cl → Ar）中目标表示的t-SNE嵌入[7]。71580表5. 对带或不带DIP的Of�ce-Home（ResNet-50）进行消融研究（%）。0方法 Ar → Cl Ar → Pr Ar → Re Cl → Ar Cl → Pr Cl → Re Pr → Ar Pr → Cl Pr → Re Re → Ar Re → Cl Re → Pr 平均0模型 - DIP 49.7 72.0 76.0 57.6 66.3 69.3 55.3 45.9 76.3 66.5 51.6 79.7 63.9 模型 49.8 73.2 76.3 59.4 66.6 70.5 56.5 46.1 76.9 67.7 52.2 79.9 64.6 ↑0SHOT - DIP 55.3 78.1 80.5 68.7 76.0 78.8 65.7 52.2 82.4 73.1 57.5 84.2 71.0 SHOT 56.0 78.2 80.9 69.3 75.6 78.9 66.4 53.9 82.5 73.2 58.9 84.071.5 ↑0DIPE - DIP 57.0 78.8 80.6 69.2 78.8 78.8 67.9 54.1 82.9 73.1 58.4 84.6 72.0 DIPE 56.5 79.2 80.7 70.1 79.8 78.8 67.9 55.1 83.5 74.1 59.3 84.8 72.5 ↑0(a) Cl → Ar (b) Cl → Pr0图7. 对领域不变参数比例的消融研究。0(a) Cl → Ar (b) Cl → Ar0图8. 对损失权重的消融研究。0(a) 源模型 (b) 我们的模型0图9.第一个5类分类任务的目标表示的t-SNE可视化。深色中的星号'*'表示未见过的源数据，浅色中的圆圈'o'表示目标数据。不同颜色代表不同的类别。0并且学习到的模型。显然，DIPE学习到的目标特征表示比给定的源模型更一致，验证了DIPE的有效性。05. 结论0在本文中，我们提出了一种新颖的方法来探索存储在训练良好的模型中的领域不变参数。0源自由领域自适应(SFDA)的源模型.它有效地缓解了领域转移问题,因为学到的领域不变参数可以促进学习领域不变表示.大量的图像分类实验表明,我们的方法在各种隐私保护应用中能够实现更准确的性能.探索领域不变参数的思想简单且与其他方法正交.人们可以将我们的工作扩展到各种实际的SFDA算法. 因此,我们的方法为SFDA开辟了新的视角. 在未来的工作中,可以研究更好的参数判断标准和更新策略.0更广泛的影响0最近领域自适应算法的成功依赖于大规模标记的源数据,这在保护隐私的场景中是不切实际的.我们的工作的积极影响是提高深度神经网络的鲁棒性和泛化能力, 以满足领域转移和数据隐私保护的需求.虽然我们相对于最先进的方法展示了改进的性能,但仍可能发生负迁移. 因此, 在没有人类监督的情况下,我们的方法不应用于关键任务或做出重要决策.0局限性0虽然我们可以通过改进效果来验证探索领域不变参数对SFDA的重要性, 但由于缺乏深度网络的理论保证和可解释性,领域不变参数的存在是具有挑战性的. 此外,SFDA依赖于训练良好的源模型,但源模型的训练过程可能会受到某些原因的影响.在这些意外情况下, SFDA方法的鲁棒性将面临严峻的挑战.0致谢0该工作得到了中国国家自然科学基金(62176139,61876098),山东省自然科学基金重点基础研究项目(ZR2021ZD15),中国科学技术协会的青年杰出科学家资助计划的支持.71590参考文献0[1] Woong-Gi Chang, Tackgeun You, Seonguk Seo, SuhaKwak, and Bohyung Han.针对无监督领域自适应的领域特定批量归一化.在IEEE/CVF计算机视觉与模式识别大会上的论文集中,页码7354-7362, 2019年. 6 , 70[2] Xinyang Chen, Sinan Wang, Mingsheng Long, andJianm

下载后可阅读完整内容，剩余1页未读，立即下载