可调节的域自适应：基于模型库的架构优化在资源有限的边缘设备上提升跨域泛化性能

186 浏览量更新于2023-10-25 收藏 13.02MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

71410可调节的域自适应0孟让2，陈伟杰1,2，†，杨世才2，宋杰1，林罗俊3，谢迪20蒲世良2，王新超4，宋明丽1，庄跃庭1，†01浙江大学，2海康威视研究院，3福州大学，4新加坡国立大学0{ mengrang, chenweijie5,yangshicai,xiedi,pushiliang.hri } @hikvision.com0{ sjie,songml,yzhuang } @zju.edu.cn, linluojun2009@126.com, xinchao@nus.edu.sg0摘要0传统的无监督域自适应方法倾向于优化具有固定神经网络架构的模型，在实际场景中并不实用，因为目标数据通常由不同资源有限的设备处理。因此，有必要促进不同设备之间的架构自适应。本文介绍了一个简单的框架，SlimmableDomainAdaptation，通过一个权重共享的模型库来改善跨域泛化性能，从中可以采样具有不同容量的模型，以适应不同的准确性和效率权衡。这个框架的主要挑战在于同时提升模型库中众多模型的适应性能。为了解决这个问题，我们开发了一种随机集成蒸馏方法，充分利用模型库中的互补知识进行模型间的交互。然而，考虑到模型间交互和模型内自适应之间的优化冲突，我们将现有的双分类器域混淆架构扩展为优化分离的三分类器对应物。在优化模型库之后，通过我们提出的无监督性能评估指标进行架构自适应。在各种资源约束下，我们的框架在多个基准测试上超过了其他竞争方法很大的差距。值得强调的是，即使在计算复杂度降低到1/64时，我们的框架仍然可以保持对源模型的性能改进。代码将在https://github.com/HIK-LAB/SlimDA上提供。01. 引言0深度神经网络通常是在离线收集的图像（标记的源数据）上进行训练，然后嵌入0† 通讯作者0图1.SlimDA：我们只在云计算中心上进行一次自适应，但可以灵活地采样具有不同容量的模型以分发到不同资源有限的边缘设备。0在边缘设备中，对从新场景（未标记的目标数据）中采样的图像进行测试。这种范式在实践中会由于域偏移而降低网络性能。最近，越来越多的研究人员开始研究无监督域自适应（UDA）来解决这个问题。传统的UDA旨在将源数据和目标数据对齐到一个共同的表示空间中，以便在源数据上训练的模型能够很好地推广到目标数据[7, 11, 20, 26, 29, 38,44]。不幸的是，学术研究与工业需求之间仍存在差距：大多数现有的UDA方法只能通过固定的神经网络架构进行权重自适应，无法高效地适应实际应用中各种设备的要求。以图1所示的广泛应用场景为例，一个在强大的云计算中心上训练的域自适应模型被迫分发到不同资源有限的边缘设备，如笔记本电脑、智能手机和智能手表，进行实时处理。在这种情况下，传统的UDA方法必须反复训练一系列具有不同容量和架构的模型，以适应不同设备的要求。71420方法数据类型教师模型学生模型0CKD 标记的单一的固定的0SEED 无标签的多个多样的0表1. 传统知识蒸馏（CKD）与随机集成蒸馏（SEED）的对比。0不同的计算预算，这是昂贵且耗时的。为了解决上述问题，我们提出了Slimmable DomainAdaptation（SlimDA），我们只需训练一次模型，就可以从中灵活地采样出具有不同容量和架构的定制模型，以满足不同计算预算设备的需求。尽管在监督任务中已经研究了可调节的神经网络[54-56]，其中具有不同层宽度（即通道数）的模型可以耦合成一个权重共享的模型库进行优化，但是当可调节的神经网络遇到无监督领域适应时仍然存在两个挑战：1）权重适应：如何同时提升模型库中所有模型的适应性能？2）架构适应：在给定特定计算预算的情况下，如何在无标签目标数据上搜索适当的模型？对于第一个挑战，有一个直接的基线方法，即将UDA方法直接应用于从模型库中采样的每个模型。然而，这种范式忽略了模型库中众多神经架构之间的互补知识。为了解决这个问题，我们提出了随机集成蒸馏（SEED），以相互作用模型库中的模型，以抑制无标签目标数据上的模型内适应的不确定性。SEED是一个课程互相学习的框架，其中利用从随机采样的模型的预测期望来辅助模型库的领域适应。SEED与传统知识蒸馏的区别如表1所示。对于模型内适应，我们借鉴了最先进的基于双分类器的领域混淆方法（例如SymNet [57]和MCD[38]）。然而，我们分析到模型间交互和模型内适应之间存在优化冲突，这促使我们增加了一个优化分离的三分类器（OSTC）来调节它们之间的优化。对于第二个挑战，在训练模型库之后，直观地搜索在不同计算预算下具有最佳适应性能的模型。然而，与监督任务中的性能评估不同，没有任何标记的目标数据可用。为了与无标签目标数据兼容，我们利用容量最大的模型作为锚定模型，以指导模型库中的性能排序，因为较大的模型往往具有更好的性能。0根据经验证明，我们的方法在[52]中被证明更准确。我们提出了一种无监督性能评估度量标准，该标准可以衡量候选模型和锚定模型之间的输出差异。度量标准越小，性能越好。我们在三个流行的UDA基准测试集上进行了大量的消融研究和实验，即ImageCLEF-DA [27]，Office-31[36]和Office-Home[45]，这些实验证明了我们提出的框架的有效性。与其他竞争方法相比，我们的方法可以取得最先进的结果。值得强调的是，即使将计算复杂度降低到1/64倍，我们的方法仍然可以保持对源模型的性能改进。总结起来，我们的主要贡献如下：•我们提出了SlimDA，这是一个“一劳永逸”的框架，可以同时适应适应性能和计算预算的资源有限设备。0•我们提出了SEED，可以同时提升模型库中所有模型的适应性能。特别地，我们设计了一个优化分离的三分类器来调节模型内适应和模型间交互之间的优化。0• 我们提出了一种无监督性能评估指标来促进架构适应。0•大量实验证实了我们提出的SlimDA框架的有效性，可以大幅超越其他最先进的方法。02. 相关工作02.1. 无监督领域自适应0现有的UDA方法旨在提高在未标记的目标领域上的模型性能。在过去的几年中，基于差异的方法[14, 26,41]和对抗优化方法[1, 11, 18, 25,38]被提出来通过领域对齐来解决这个问题。具体而言，SymNet[57]开发了一个双分类器架构来促进类别级别的领域混淆。最近，Li等人[21]尝试学习最优架构以进一步提高目标领域的性能，这证明了网络架构对UDA的重要性。这些UDA方法专注于在目标领域上实现具有更好性能的特定模型。02.2. 神经架构搜索0神经架构搜索（NAS）方法旨在通过强化学习[4, 42, 43,58, 59]、进化方法[9, 24, 34, 35]、基于梯度的方法[23, 30,40, 47, 49]等自动搜索最优架构。最近，一次性方法[2, 3,13, 33, 49, 54]非常流行，因为只需要一个超级网络minCs,Ct − 1nsnsi=1log(gsysi (xsi)) − 1nsnsi=1log(gtysi (xsi))(1)71430训练，并且同时优化各种架构的共享子网络。通过这种方式，可以从模型库中搜索到最优的网络架构。本文强调UDA是NAS中一个未被注意但非常重要的场景，因为它们可以合作以无监督的方式优化特定场景的轻量级架构。02.3. 跨领域网络压缩0Chen等人[6]提出了一种跨领域非结构化剪枝方法。Yu等人[53]采用MMD[26]来最小化领域差异，并采用Taylor-based策略对滤波器进行剪枝，而Yang等人[50,51]则专注于压缩图神经网络。Feng等人[10]在通道剪枝网络和全尺寸网络之间进行对抗性训练。然而，现有方法的性能仍有很大的改进空间。此外，它们的方法在不同的资源约束下无法获得大量的最优模型。03. 初步03.1. 基于双分类器的领域混淆03.1.1 符号0提供了一个带标签的源数据 D s = { ( x s i , y s i ) } n s i=1 和一个未标记的目标数据 D t = { ( x t i ) } n t i =1用于训练。SymNet [57]由特征提取器 F 和两个任务分类器 C s 和 C t组成。SymNet的一个新颖设计是构建一个新的分类器 C st，它与 C s 和 C t 共享神经元。 C st用于领域区分和领域混淆，而没有明确的领域判别器。 C s， C t 和 C st 的概率输出分别为 g ( x ; F, C s ) ∈ [0 ,1] K ， g ( x ; F, C t ) ∈ [0 , 1] K 和 g ( x ; F, C st ) ∈[0 , 1] 2 K ，其中 K 是任务的类别数。概率输出的第 k个元素分别可以写为 g s k ( x ) ， g t k ( x ) 和 g st k ( x) 。03.1.2 任务和领域区分0C s 和 C t 的任务区分训练目标是：0C st 的领域区分训练目标是：0minCst−10ns0i=1log0k=1gstk(xsi)−10nt0i=1log0k=1gstk+K(xti)(2)03.1.3类别级域混淆0类别级混淆的训练目标是：0minF−102ns0i=1log(gstysi(xsi))−102ns0i=1log(gstysi+K(xsi))(3)0域级混淆的训练目标是：0minF−102nt0i=1log(0k=1gstk(xti))−12nt0i=1log(0k=1gstk+K(xti0此外，在Dt上进行熵最小化损失以优化F。有关更详细的技术说明，请参考原始论文。04.方法04.1.直接基线0在可调整的神经网络中已经证明，可以将具有不同宽度（即层通道）的许多网络耦合成一个共享权重的模型库，并同时进行优化。我们从一个基线开始，其中SymNet直接与可调整的神经网络合并。为了简化起见，SymNet的整体目标统一为Ldc。在每个训练迭代中，可以从模型库{(Fj,Csj,Ctj)}mj=1∈(F,Cs,Ct)中随机采样出若干模型，称为模型批次，其中m表示模型批次大小。这里(F,Cs,Ct)可以看作是最大的模型，其余的模型可以以权重共享的方式从中采样。为了确保模型库能够完全训练，最大和最小的模型*应该在每个训练迭代中被采样并构成模型批次的一部分。（注意，在部署之前，每个模型应重新计算BN层的统计参数）。�∂Ldc0∂Cs,∂Ldc0∂Ct0�=�10m0m�0j=10∂Ldc∂Csj,10m0m�0j=10∂Ldc∂Ctj0�0∂Ldc∂F=10m0m�0j=10∂Ldc∂Fj(6)0这个基线可以看作是优化模型库的两个交替过程，即方程5和方程6。为了鼓励上述基线中的模型间交互，我们提出了我们的SlimDA框架，如图2所示。04.2.随机集成蒸馏0随机集合：直观上，模型库中的不同模型可以学习关于未标记目标数据的互补知识。受到具有模型扰动的贝叶斯学习的启发，我们通过蒙特卡洛采样利用模型库中的模型来抑制未标记目标数据的不确定性。期望的预测g种子(xti)可以通过对模型置信度{g(Fj,Csj,Ctj)}mj=1的期望进行近似，其中mj表示模型批次大小。0†:0g种子(xti)=Eg(Fj,Csj,Ctj)−g(xti;Fj,Csj,Ctj)×(7)0*默认情况下，最小的模型对应于本文中的1/64×FLOPs模型（1/8×通道）。†g(Fj,Csj,Ctj)是g(Fj,Csj,Ctj|D)的简写，其中D表示训练数据。模型置信度在[0,1]范围内，可以用来衡量模型库中模型之间的相对准确性。(9)Lseed = −1(11)71440图2.我们提出的SlimDA框架的训练细节。我们的框架由随机集成蒸馏（SEED）和优化分离的三分类器（OSTC）设计组成。SEED旨在利用模型库中的互补知识进行多模型交互。红色箭头跨越C s和C t分类器表示领域混淆训练L dc和模型库中的知识聚合。紫色箭头跨越Ca分类器表示SEED优化L seed。0g(x t i; F j, C s j, C t j) = 02 (g(x t i; F j, C s j) + g(x t i; F j, C t j)) (8)0其中E是一个加权平均函数，j = {1, ...,m}，E的下标表示权重。0假设4.1：正如在域内泛化工作[52]和域外泛化工作[5]中广泛的实证结果所示，具有更大容量的模型‡在统计上比具有较小容量的模型表现更准确。因此，假设g(F 1, C s 1, C t 1)≥ g(F 2, C s 2, C t 2) ≥ ... ≥ g(F m, C s m, C tm)，其中索引表示模型容量从大到小的顺序。0在这项工作中，我们以经验的方式定义了模型的置信度：0r j = M(F j, C s j, C tj)0M(F, C s, C t)0Ω = { ( F j, C s j, C t j )，其中r j ≥ λ }0g(F j, C s j, C t j) =0� 1 ，如果(F j, C s j, C t j)∈ Ω00 ，否则0其中λ默认设置为0.5，M(∙)表示模型容量。由于未标记的目标数据上的预测往往是不确定的，我们旨在产生较低熵的预测以提高区分度[12]。在这项工作中，我们对g seed (x ti)应用了一个锐化函数，以在SEED训练期间引发隐式熵最小化：0g seed,k (x t i) = g seed,k (x t i) 1 τ /0k ′ =1 g seed,k ′ (x t i) 1 τ(10)0‡ 在本文中，我们使用FLOPs作为衡量模型容量的指标。0其中τ是一个用于锐化的温度参数，在本文中默认设置为0.5。g seed (x ti)用于与课程互相学习中的领域混淆训练一起，来改进模型批次。0通过优化分离的三分类器桥接的蒸馏：由于模型库中存在两个异步任务，即模型内适应（方程1-4）和模型间交互（通过g seed (x t i)进行蒸馏），因此我们不能直接将g seed (xti)反馈给原始的双分类器进行蒸馏。具体来说，在第q次迭代中，多模型的领域混淆双分类器提供了两部分信息，包括任务区分和领域混淆，并且这两部分信息在g q seed (x ti)中进行了聚合。在下一次q+1迭代中，上述信息可以通过双分类器训练进一步更新。然而，如果我们将g q seed (x ti)转移到双分类器中，g q seed (x t i)将抵消g q+1 seed (xt i)中的这两部分信息的增益，并阻碍g seed (x ti)的改进。因此，我们SlimDA框架中的课程学习将被破坏。0为此，我们引入了一个优化分离的三分类器（OSTC）{ (C sj, C t j, C a j) } m j =1 ∈ (C s, C t, Ca)，其中前两个用于领域混淆训练，最后一个用于接收随机聚合的知识进行蒸馏。蒸馏损失的公式如下：0m × n t0m �0j =10i =1 g seed ( x t i ) log( g ( x t i ;F j , C a j ))0− 10m × ns0m �0j =10i =1 1 y s i log( g ( x s i ; Fj , C a j ))273.588.392.287.169.391.583.7474.389.092.687.569.892.084.2675.390.294.188.371.794.285.6876.189.994.988.171.794.285.81078.390.795.888.371.894.886.6(12)MobileNetV3 [19]5.4M219M72.885.393.280.365.091.781.4GhostNet [15]5.2M141M75.889.595.586.170.294.085.2MobileNetV2 [39]3.5M300M76.090.695.187.069.195.185.5EfficientNet B0 [43]5.3M390M76.588.596.587.371.394.085.6g(t; Fj, Caj ) GT(t)22< g(t; F, Ca) GT(t)22∆j = g(t; Fj, Caj )g(t; F, Ca)22(16)71450模型批次大小 I → P P → I I → C C → I C → P P → C 平均02 (w/ CKD) 71.8 83.3 93.0 82.2 67.3 89.2 81.10表2.ImageCLEF-DA上的两个消融研究：1）第二行表示传统知识蒸馏（CKD）的结果。2）在SlimDA中比较不同模型批次大小的结果。我们报告了上述结果，其中模型为1/64×。0基准 SEED OSTC 1 × 1/2 × 1/4 × 1/8 × 1/16 × 1/32 × 1/64 ×0� 88.6 88.0 86.9 86.0 84.1 82.0 81.7 � � 87.9 87.6 87.3 86.9 86.5 86.1 85.9 � � � 88.988.7 88.8 88.4 88.3 87.2 86.60表3. SlimDA在ImageCLEF-DA数据集上的组件消融研究。0方法 1 × 1/2 × 1/4 × 1/8 × 1/16 × 1/32 × 1/64 ×0SymNet w/o SlimDA 78.9 77.0 76.7 74.8 71.2 68.2 69.3 SymNet w/ SlimDA 79.279.0 79.0 78.7 78.8 78.2 78.30改进 0.3 ↑ 2.0 ↑ 2.3 ↑ 3.9 ↑ 7.6 ↑ 10.0 ↑ 9.0 ↑0MCD w/o SlimDA 77.2 75.0 75.0 72.3 70.3 68.7 69.6 MCD w/ SlimDA 78.5 78.278.1 78.0 77.7 77.6 77.70改进 1.3 ↑ 3.2 ↑ 3.1 ↑ 5.7 ↑ 7.4 ↑ 8.9 ↑ 8.1 ↑0STAR w/o SlimDA 76.9 74.0 69.7 68.1 65.6 62.9 64.7 STAR w/ SlimDA 77.8 77.577.2 77.2 77.0 76.9 77.00改进 0.9 ↑ 3.5 ↑ 7.5 ↑ 9.1 ↑ 11.4 ↑ 14.0 ↑ 12.3 ↑0表4. ImageCLEF-DA上的两个消融研究，用于I →P适应任务：1）将不同UDA方法注入到SlimDA中进行比较，表明我们框架的普适性。2）与独立训练的独立网络（即“w/oSlimDA”）进行比较，它们与我们搜索的模型具有相同的架构，但在模型库之外单独训练。0我们使用Ldc和Lseed损失函数来优化(Cs, Ct, Ca)：� ∂ L dc0∂Cs , ∂ L dc0∂Ct0� = � 10m0m �0j =10∂ L dc∂Cs j , 0m0m �0j =10∂ L dc∂Ct j0�0∂ 0∂Ca = 10m0m �0j =10∂ L seed0∂Ca j0为了优化F，我们使用公式9中的模型置信度来调节Ldc和Lseed的训练目标：0∂ L0∂F = E g ( Fj ,Cs j ,Ct j ) � ∂ L dc0∂Fj0�0+ E 1 − g ( Fj ,Cs j ,Ct j ) � ∂ L seed0∂Fj0� (13)0总结一下，公式12中的OSTC和公式13中的特征提取器在每个训练迭代中以交替的方式进行优化。一旦训练完成，(Cs,Ct)被丢弃，只保留Ca以更高效地部署。04.3. 无监督性能评估指标0在UDA的背景下，一个具有挑战性的问题是评估模型在未标记的目标数据上的性能排名，而不是搜索方法。根据三角不等式定理，我们可以得到候选预测之间的关系。0方法 #Params FLOPs I → P P → I I → C C → I C → P P → C 平均0SlimDA（1 / 8 × ResNet-50） 4.0M 517M 78.7 91.7 97.2 90.5 75.8 96.2 88.4 SlimDA（1 / 64 ×ResNet-50） 1.6M 64M 78.3 90.7 95.8 88.3 71.8 94.8 86.60表5.在ImageCLEF-DA数据集上与不同最新轻量级网络的性能比较。0模型（F j，C a j），最大模型（F，Ca）以及地面真实标签：0+ ∥ g ( D t ; F j , C a j ) − g ( D t ; F, C a ) ∥ 2 2 (14)这里 GT ( D t )表示目标数据的地面真实标签。根据假设4.1，容量最大的模型往往是模型库中最准确的模型，这意味着：0∥ g ( D t ; F j , C a j ) − GT ( D t ) ∥ 2 2 > ∥ g ( D t ; F,C a ) − GT ( D t ) ∥ 2 2 (15)结合公式14和公式15，我们可以将具有最大容量的模型作为锚点，比较候选模型在未标记的目标数据上的性能。每个模型的无监督性能评估指标（UPEM）可以写成：0其中 ∆ j是候选模型输出与锚模型输出之间的L2距离。通过使用UPEM，我们可以使用贪婪搜索方法 [ 33 , 54 ]进行神经架构搜索（注意，我们也可以使用其他搜索方法，但这不是本文的决定因素）。05. 实验05.1. 数据集0ImageCLEF-DA [ 26]包含1800张图像，涵盖12个类别，分布在三个领域：Caltech-256（C），ImageNet ILSVRC 2012（I）和Pascal VOC2012（P）。Office-31 [ 37]是一个常用的基准，包含约4110张图像，共有31个日常物品类别，来自3个领域：亚马逊（A），网络摄像头（W）和数码单反相机（D）。Office-Home [ 46]包含15500张图像，共有65个日常物品类别，来自4个不同的领域：艺术（Ar），剪贴画（Cl），产品（Pr）和真实世界（Rw）。05.2. 模型库配置根据现有方法 [ 6 , 10 , 53]，我们选择ResNet-50 [ 16]作为主网络进行以下实验。与这些方法不同，本文采用的ResNet-50是一个超级网络，它将许多具有不同层宽度的模型组合在一起形成模型库。与这些方法相同，超级网络应首先在ImageNet上进行预训练，然后在下游任务上进行微调。TCP [53]1/1.7×–75.082.692.580.866.286.580.6–1/2.5×–67.877.588.671.657.779.573.8–ADMP [10]1/1.7×–77.390.290.295.888.973.786.3–1/2.5×–77.089.595.588.972.391.285.7–SlimDA1×1×79.292.397.591.276.796.588.9–1/1.9×1/2×79.092.397.390.876.896.288.70.2↓1/3.9×1/4×79.092.297.390.877.296.388.80.1↓1/9.4×1/8×78.791.797.290.575.896.288.40.5↓1/12.8×1/16×78.891.597.390.276.096.288.30.6↓1/28.8×1/32×78.290.596.789.372.296.087.21.7↓1/641/6478.390.795.888.371.894.886.62.3SlimDA1×1×90.791.291.199.873.771.087.6–1/2×1/2×90.799.1100.091.873.371.187.60.0↓1/4×1/4×90.598.199.891.973.171.287.40.2↓1/10×1/8×90.698.8100.091.672.971.187.50.1↓1/14×1/16×90.598.799.891.473.171.087.40.2↓1/20×1/32×90.897.799.591.571.870.887.00.6↓1/641/6491.297.298.991.271.368.986.80.8↓71460方法 #Params FLOPs I → P P → I I → C C → I C → P P → C Avg. ∆0仅源 [ 57 ] 1 × 1 × 74.8 83.9 91.5 78.0 65.5 91.2 80.7 – DAN [ 26 ] 1 × 1 × 74.5 82.2 92.8 86.3 69.2 89.8 82.5 – RevGrad [ 11 ] 1 × 1 × 75.0 86.096.2 87.0 74.3 91.5 85.0 – MCD [ 38 ] (impl.) 1 × 1 × 77.2 87.2 93.8 87.7 71.8 92.5 85.0 – STAR [ 29 ] (impl.) 1 × 1 × 76.9 87.7 93.8 87.6 72.1 92.785.1 – CDAN+E [ 28 ] 1 × 1 × 77.7 90.7 97.7 91.3 74.2 94.3 87.7 – SymNets [ 57 ] 1 × 1 × 80.2 93.6 97.0 93.4 78.7 96.4 89.9 – SymNets (impl.) 1× 1 × 78.8 92.2 96.7 91.0 76.0 96.2 88.5 –0表6.ImageCLEF-DA数据集上的性能。“–”表示原始论文中未报告的结果。“impl.”表示我们使用发布的代码重新实现。“∆”表示搜索模型与基于ResNet-50的模型之间的性能差距。TCP和ADMP是两种相关的跨域网络压缩方法。我们根据七个计算约束（FLOPs）下的六个适应任务调整架构。由于不同任务的模型架构即使具有相同的FLOPs也不同，我们通过对6个适应任务中的模型进行平均来计算参数减少量（#Params）。0方法 #Params FLOPs A → W D → W W → D A → D D → A W → A 平均 ∆0仅源域 [57] 1 × 1 × 79.9 96.8 99.5 84.1 64.5 66.4 81.9 – 域混淆 [17] 1 × 1 × 83.0 98.5 99.8 83.9 66.9 66.4 83.1 – 域混淆+Em [17] 1 × 1 × 89.8 99.0 100.0 90.173.9 69.0 87.0 – BNM [8] 1 × 1 × 91.5 98.9 100.0 90.3 70.9 71.6 87.1 – DMP [31] 1 × 1 × 93.0 99.0 100.0 91.0 71.4 70.2 87.4 – DMRL [48] 1 × 1 × 90.8 99.0100.0 93.4 73.0 71.2 87.9 – SymNets [57] 1 × 1 × 90.8 98.8 100.0 93.9 74.6 72.5 88.4 – SymNets (impl.) 1 × 1 × 91.0 98.4 99.6 89.7 72.2 72.5 87.2 –0TCP [53] 1/1.7 × – 81.8 98.2 99.8 77.9 50.0 55.5 77.2 –0ADMP [10] 1/1.7 × – 83.3 98.9 99.9 83.1 63.2 64.2 82.0 –0表7. Office-31数据集上的性能。其他说明请参考表6的标题。05.3. 实现细节0本文中采用带有0.9动量的SGD优化器来训练所有UDA任务。根据[57]，学习率通过l = l0 / (1 +αp)β进行调整，其中l0 = 0.01，α = 10，β =0.75，p在训练时期线性地从0变化到1。训练时期设置为40。训练和测试图像分辨率为224 ×224。一个重要的技术细节是，在性能评估之前，模型库中的模型应该通过Ad-aBN[22]在目标域上更新其BN层的统计信息。我们主要以计算复杂度（FLOPs）作为架构适应的资源约束，默认情况下将1/64 × FLOPs设置为最小模型。05.4. 消融研究05.4.1 SEED分析0与传统知识蒸馏的比较：如表2所示，我们可以观察到即使在ImageCLEF-DA上使用1/64 ×FLOPs的ResNet-50，我们的SEED在不同的模型批次大小下也能大幅优于传统的知识蒸馏。不同模型批次大小之间的比较：模型批次大小是我们框架的一个重要超参数。直观地说，较大的模型批次更能够近似模型库中的知识聚合。如表2所示，较大的模型批次大小对于性能是有益的。1/2×52.472.077.262.872.073.065.153.279.472.155.382.068.00.4↓1/4×51.971.877.162.471.972.364.853.178.871.955.182.167.80.6↓1/8×51.671.476.662.571.071.065.053.078.471.555.281.667.41.0↓1/16×51.071.075.961.370.670.064.452.377.770.254.681.266.71.7↓1/32×50.070.674.057.770.368.960.151.676.367.551.780.965.03.4↓1/6449.770.172.956.670.066.356.548.375.965.955.580.964.04.4↓1/8×, 1/16×, 1/32×, and 1/64×, but the performances of1× and 1/2 × models with SEED fall 0.7% and 0.4%, re-spectively, compared with the baseline, which is attributedto the optimization conflict between intra-model domainconfusion and inter-model SEED. The last row shows thatour proposed OSTC provides an impressive improvementon the performance of large models (1× and 1/2×) com-pared with both the SEED and baseline.Moreover, ourproposed OSTC can further improve the performance ofother models with fewer FLOPs. Overall, each componentin SlimDA contributes to the performance-boosting of tinymodels (from 1/64× to 1/4×), the SEED w/o OSTC indeedbrings negative transferring for models with larger capac-ity. However, our proposed OSTC can remedy the nega-tive transferring issue and provide additional boosting undersix FLOPs settings. The results in the ablation study alsodemonstrate the process of solving the challenges in ourframework to accomplish the combination between UDAtraining and weight-sharing model bank.5.4.2Analysis for Architecture Adaptation71470方法 FLOPs Ar → Cl Ar → Pr Ar → Rw Cl → Ar Cl → Pr Cl → Rw Pr → Ar Pr → Cl Pr → Rw Rw → Ar Rw → Cl Rw → Pr 平均 ∆0仅源域 1 × 34.9 50.0 58.0 37.4 41.9 46.2 38.5 31.2 60.4 53.9 41.2 59.9 46.1 – DAN 1 × 43.6 57.0 67.9 45.8 56.5 60.4 44.0 43.6 67.7 63.1 51.5 74.3 56.3 – RevGrad 1 ×45.6 59.3 70.1 47.0 58.5 60.9 46.1 43.7 68.5 63.2 51.8 76.8 57.6 – CDAN-E 1 × 50.7 70.6 76.0 57.6 70.0 70.0 57.4 50.9 77.3 70.9 56.7 81.6 65.8 – SymNet 1 × 47.7 72.978.5 64.2 71.3 74.2 64.2 48.8 79.5 74.5 52.6 82.7 67.6 – BNM 1 × 52.3 73.9 80.0 63.3 72.9 74.9 61.7 49.5 79.7 70.5 53.6 82.2 67.9 –0表8. Office-Home数据集上的性能。其他说明请参阅表6的标题。0图3.在ImageCLEF-DA的六个适应性任务上与随机搜索模型的比较。在每个FLOPs下随机搜索100个模型。蓝色填充区域表示随机搜索模型中最大和最小准确性之间的差距。蓝色虚线表示随机搜索模型的平均值，红色实线表示我们搜索模型的准确性。0我们的优化方法。在后续的实验中，我们默认将模型批量大小设置为10。与独立训练的比较：如表4所示，与具有相同网络配置的独立训练相比，SEED可以大幅提高整体适应性性能。这里的“独立”意味着从1×到1/64×的模型与SlimDA对应的具有相同拓扑配置的模型在模型库之外单独进行适应。具体而言，不仅是微小模型（从1/2×到1/64×），而且使用SEED训练的1×模型也优于相应的独立模型，这可以通过表6和表7中的更多结果支持（比较1×模型和我们重新实现的模型的性能）。我们的SlimDA中每个组件的有效性：我们进行消融研究，以调查我们SlimDA框架中各个组件的有效性。如表3所示，第二行“基线”表示将SymNet和可调宽度神经网络直接合并的方法。我们可以观察到，SEED对于FLOPs较少的性能有显著影响，例如1/4×。0图4.无监督性能评估指标（UPEM）与使用真实标签进行准确性的皮尔逊相关系数。在五种不同的计算约束下，对六个适应性任务（ImageCLEF-DA）进行评估。在每个网格中，我们采样100个模型来计算皮尔逊相关系数。如果接近-1，意味着我们的指标与使用真实标签来衡量每个模型的性能是相同的。0UPEM的分析：为了验证我们提出的UPEM的有效性，我们进行了30个实验，包括六个适应任务和五个计算71480图5.模型库的收敛性能。六个子图对应ImageCLEF-DA上的六个适应任务。每个时期的结果来自随机采样的10个模型。0约束条件。在每个实验中，我们从模型库中采样100个模型，评估UPEM与目标数据上的基准标签的监督准确性之间的相关性。如图4所示，皮尔逊相关系数接近于-1，这意味着UPEM越小，准确性越高。与随机搜索的比较：如图3所示，在每个计算预算下，随机搜索模型之间的性能差异明显，突出了架构适应的必要性。同时，不同任务的搜索架构也不同。此外，给定相同的计算预算

下载后可阅读完整内容，剩余1页未读，立即下载