没有合适的资源?快使用搜索试试~ 我知道了~
models” [4], we should expect that more and more effortswill be dedicated to the design of procedures that allow forthe efficient adaptation of pre-trained large models undera variety of circumstances. In other words, these modelswill be “trained once” on a vast dataset and then adaptedat test time to newly-encountered scenarios. Besides be-ing important for resource reuse, being able to abstract thepre-training stage away from the adaptation is paramountin privacy-focused applications, and in any other situation inwhich preventing access to the training data is desirable. To-wards this goal, it is important that, from the point of viewof the adaptation system, there is neither access to the train-ing data nor the training procedure of the model to adapt.With this context in mind, we are particularly interested indesigning adaptation methods ready to be used in realisticscenarios, and that are suitable for a variety of models.83440无参数在线测试时适应0Malik Boudiaf ´ETS Montreal * Romain Mueller FiveAI Ismail Ben Ayed ´ETSMontreal Luca Bertinetto FiveAI0摘要0对于研究人员和从业者来说,训练最先进的视觉模型变得代价高昂。为了提高可访问性和资源重用性,重点是将这些模型适应到各种下游场景中。在线测试时适应是一种有趣且实用的范例,根据该范例,训练数据不可访问,测试分布中没有来自标记数据,适应只能在测试时和少量样本上进行。在本文中,我们研究了测试时适应方法在各种真实场景中的表现,显著扩展了它们最初的评估方式。我们发现,它们只在狭义的实验设置中表现良好,并且有时在超参数未针对相同场景进行选择时会发生灾难性失败。考虑到最终在测试时可能遇到的条件的不确定性,我们提出了一种特别“保守”的方法,该方法通过拉普拉斯调整的最大似然估计(LAME)目标来解决问题。通过调整模型的输出(而不是其参数),并使用高效的凹凸过程解决我们的目标,我们的方法在各种场景中表现出更高的平均准确性,同时速度更快,内存占用更低。代码可在https://github.com/fiveai/LAME上找到。01. 引言0近年来,对于许多机器学习问题,训练最先进的模型已经成为一项庞大的计算任务(例如,[5, 13,38])。例如,据估计,每次GPT-3的训练会产生相当于552吨二氧化碳的排放量,这大约相当于从纽约到旧金山的六次航班的排放量[35]。正如“基础模型”白皮书[4]中所暗示的,我们应该预计将会有越来越多的工作致力于设计在各种情况下能够高效适应预训练大模型的过程。换句话说,这些模型将在广泛的数据集上进行“一次训练”,然后在测试时根据新遇到的场景进行适应。除了资源重用的重要性外,从适应系统的角度来看,将预训练阶段与适应阶段分离开来对于注重隐私的应用程序以及任何希望防止访问训练数据的情况都是至关重要的。为了实现这个目标,重要的是从适应系统的角度来看,既不能访问训练数据,也不能访问模型的训练过程。在这种背景下,我们特别关注设计适应方法,以便在实际场景中使用,并适用于各种模型。0* 作为FiveAI研究实习的一部分完成的工作。通讯作者:malik.boudiaf.1@etsmtl.net0许多现实世界应用程序的一个共同特点是需要在线进行适应,并且数据量有限。也就是说,在接收数据时,我们应该能够进行适应。以自动驾驶车辆或无人机可能配备的视觉模型为例。在测试时,它将接收高度相关的数据流(非独立同分布的视频流),这些数据可以用于适应。我们希望能够确信利用这些信息将是有用的,而不会对可能存在于训练和测试数据之间的任何类型的领域转移产生破坏性的影响。这些转移可能是“低级”的(例如,数据流受到从未在加利福尼亚阳光明媚的训练阶段遇到过的雪天天气的影响),或者是“高级”的(例如,数据包括迈阿密海滩历史区的装饰艺术建筑),甚至是两者的组合。总之,我们对设计能够进行测试时适应的系统感兴趣,这些系统:1)是无监督的;2)可以在线操作并处理可能的非独立同分布数据;3)不假设对训练数据或训练过程有任何了解;4)不针对特定模型,以便可以直接利用社区的进展。0这个问题规范属于最近几项研究工作[1, 27, 29,56]中研究的完全测试时适应范式,其中简单的技术如测试时83450批量归一化的学习尺度和偏置参数[56]在某些情况下非常有效,例如低级别的破坏[17]。在我们的实验结果中,我们观察到现有的方法[25, 27, 29,56]在不确定但现实的情况下需要谨慎使用,因为它们对模型适应或域转换类型等变量的敏感性。事实上,我们表明,当选择超参数以最大化多个情景下的平均准确性时,现有的方法并不能胜过非自适应基线。为了使它们表现良好,超参数需要以特定情景的方式进行调整。然而,当测试时的条件事先未知时,这显然不是一个选择。这些发现表明,虽然对训练和测试环境都不加区分很重要,但明智地对待测试时适应问题是明智的。我们不是调整预训练模型的参数,而是通过找到优化数据的流形正则化似然的潜在分配来调整其输出。流形平滑性假设在包括图聚类[45, 46,52]、半监督学习[2, 7,19]和少样本学习[62]在内的其他问题中取得了成功,因为它对解决方案强制实施了期望的和一般的属性。具体而言,我们将拉普拉斯正则化嵌入为一个修正项,并导出了一种有效的凹凸过程来优化我们的整体目标,保证收敛。在对不同条件进行聚合时,这种简单且“保守”的策略在涵盖7个数据集、19个转换、3种训练策略和5种网络架构的大量实验中显著改善了非自适应基线和现有的测试时适应方法。此外,由于不执行模型适应,而只进行输出校正,与现有方法相比,它将总推理时间和内存占用减少了一半。02. 相关工作0一般而言,域自适应旨在放宽“训练和测试分布应匹配”的假设,这是大多数机器学习算法的基础。由于现实世界的应用很少符合教科书的假设,这种放宽引起了很多兴趣,并激发了大量的研究工作。要全面介绍这个主题需要进行多次调查(例如[10, 34, 57,58]),但在本文格式的限制下是不可行的。相反,在本节中,我们旨在描述与我们更相关的整体问题设置。域自适应早期的应用受到了限制,因为方法在训练过程中需要访问目标域[34]。无监督域自适应[58]使得情景稍微更加现实,因为它不需要来自目标域的标签。两种常见的方法是0一些常见的策略包括:通过最小化源域和目标域分布之间的某种差异度量(例如[20, 30,49])来显式地学习域不变的特征表示;或者在网络中嵌入“域鉴别器”组件,然后在损失中惩罚其成功(例如[14,37])。然而,这类方法需要在训练过程中同时访问源域和目标域的限制限制了其可用性。域泛化(DG)通过从多个域中学习模型来解决这个问题,以便推广到未见过的域[57]。解决这个问题的流行策略包括:通过增加训练数据的多样性,例如数据增强(例如[36, 54])、对抗学习(例如[55,61])或生成模型(例如[39,47]);学习域不变表示[3],以及解耦域特定和域无关组件(例如[18, 21,32])。值得注意的是,Gulrajani和Lopez-Paz的最新工作[15]在一个大型测试平台上表明,学习一个普通的分类器在多个数据集上的表现优于所有现代技术,从而传递了一个关于精心设计的实验协议的重要信息。尽管域泛化和我们考虑的设置具有共同的目标,即在不提前访问目标分布的情况下进行泛化,但DG与我们考虑的设置之间的一个基本区别是缺乏测试时的适应性。相反,属于源自由域自适应范式的方法[9]在适应过程中不需要访问训练数据。Liang等人[28]仅假设可以访问源数据集的摘要统计信息,并通过推测源域和目标域之间的类别中心点仅有适度偏移来关联这两个数据集的模型。在适应之前,Kundu等人[22,23]考虑了第一个“供应商端”阶段,在该阶段目标域未知,并且在增强的训练数据集上训练了一个模型,旨在模仿将在下游遇到的可能的域转换和类别间隙。Li等人[26]提出了协作类条件GAN,它将预测模型的输出整合到生成器的损失中,以生成目标域风格的新样本,然后通过反向传播来调整模型。在测试时训练[50]中,Sun等人通过自我监督通过同时优化两个分支(一个监督和一个自我监督)进行测试时适应。虽然比处理普通域自适应更加实用,但上述方法仍然相当有限,因为它们通常具有特定的训练过程。如第1节所述,我们希望促进模型的重用,以便直接利用社区在架构设计[13]、自我监督学习[8]或多模态学习[38]方面取得的进展。我们的设置与所考虑的设置大致相似̸̸83460在TENT论文[56]中,这被称为完全测试时间自适应场景。在这种情况下,目的是在“不限制或改变模型训练”的情况下执行无监督的测试时间自适应[56]。在TENT中,这是通过简单的熵最小化损失实现的,该损失通知批量归一化层的尺度和偏置参数的优化。至于批量归一化层的统计量,它们在测试数据上重新估计,类似于自适应批量归一化(AdaBN)方法[6, 27, 31,44]在ImageNet-C的扰动上表现出强大的性能。在类似的精神中,Liang等人[29]通过最大化互信息目标(SHOT-IM)来更新给定模型的特征提取器的参数。尽管我们与TENT和SHOT提出的动机有很多共同之处,但我们认为我们的工作在两个主要方面有所不同。首先,鉴于我们的模型独立性要求,我们明确研究了我们的方法在训练策略和架构上的适用程度。这种分析在先前的工作中缺失:正如我们将在第6节中看到的那样,被适应的模型类型是一个强烈影响TENT和SHOT有效性的变量。其次,为了提高可用性,我们特别关注在线自适应,这也导致我们考虑非独立同分布的场景作为我们评估的重要组成部分。03. 问题形式化0在(完全)测试时间自适应[29,56](TTA)中,我们可以访问在不可访问的标记源数据集Ds = {(x, y)�ps(x,y)}上训练的参数模型qθ(y|x),其中x是图像,y∈Y是其关联标签,Y是源类别集合。此外,我们考虑从任意目标分布Dt={x�pt(x)}中采样的无标签目标数据集。我们采用标准的协变量偏移假设[48],即ps(y|x) = pt(y|x)且ps(x) ≠pt(x),这意味着只有当存在某个类别y使得ps(y)ps(x|y) ≠pt(y)pt(x|y)时,才会发生偏移。这导致我们在本文中考虑两种类型的偏移:先验偏移,即pt(y)与ps(y)不同;似然偏移,即pt(x|y)与ps(x|y)不同。随着目标分布从源分布发生偏移,参数模型qθ(y|x)不再必然很好地逼近真实的域不变分布p(y|x)。这种现象的一个玩具示例可以在图2中找到,其中线性分类器只能在输入空间的有限区域内正确建模真实的正弦分布。因此,TTA方法旨在使qθ(y|x)适应目标分布以最大化其在目标分布上的预测性能。特别是,我们关注在线设置,其中分类器接收可能是非独立同分布的目标样本流,并且必须同时进行适应和预测。典型的大规模数据集包含数万个类别,并且是为了目标0覆盖了测试时可能感兴趣的概念的大部分。因此,它们很可能包含比特定TTA场景所需的更精细或相等(但不是更粗糙)的类别。因此,为了使我们的设置更实用,我们放宽了源类必须与目标类相符的常见假设。相反,我们允许目标类是超类,根据一些预定义的层次结构。[53]的作者通过在关联的子类之间进行softmax预测的最大池化来处理这个问题,但我们在实证中发现平均池化稍微更好,决定采用这种策略。有关更多详细信息,请参见附录。04. 关于网络自适应的风险0为了更好地在测试时近似底层分布p(z|x),TTA方法通常建议直接修改参数化源模型。我们将这类方法统称为网络适应方法(NAMs)。具体而言,这些方法[29,56]首先将网络分为可适应权重θa和冻结权重θf,并通过最小化无监督损失L(x;θa∪θf),x�pt(x)相对于θa进行优化。TTA方法在分区{θf,θa}和损失函数L的选择上有所不同。例如,TENT[56]仅通过熵最小化来适应批归一化(BN)层的比例和偏置参数(γ,β),而SHOT[29]通过最大化互信息来适应模型的卷积滤波器。虽然NAMs有潜力在目标样本上显著提高模型性能,但它们也有可能严重降低性能。在目标分布的狭窄部分上连续更新可适应权重θa可能导致模型过度特化。这种行为可能是由于特定场景的次优超参数选择和批次级别的样本多样性不足的组合引起的。需要注意的是,后者不仅在视频场景中出现,而且在高类别不平衡的情况下也会出现。此外,在网络中跨参数并在诸如SGD(涵盖许多数据批次)的迭代优化过程中调整参数,可能会导致模型随时间的推移而退化。为了更直观地理解这一点,在图1中展示了广泛使用的熵最小化原则的一种失败模式。在低批次内多样性情况下,熵最小化可能会悄然使模型退化。换句话说,在没有标签的情况下,它可能会失败而不表现出任何独特的行为,从而无法进行明确的诊断。图2传达了这种现象的说明。有人可能会认为选择最佳超参数可以解决上述问题。然而,为每个目标场景单独调整超参数需要访问标签。此外,这种方法将Class 1Class 2Class 30.00.51.01.50500100015002000250030000.00.20.40.60.81.083470第1批 第2批 第3批0在线批次0 500 1000 1500 2000 2500 30000在线批次0预测的熵(nats)0α =0.001 α =0.01 α =0.10在线批次0准确率0α =0.001 α =0.01 α =0.10图1.在非独立同分布场景中通过熵最小化进行适应可能会悄然使模型退化。(左)非独立同分布流是根据类别对样本进行分批处理生成的。(中)在这样的非独立同分布流上以在线方式最小化预测的条件熵。然而,仅从这些曲线评估适应是否有益或有害在无监督场景中是不切实际的。(右)相反,监控在线准确率(需要访问标签)将揭示模型实际上在考虑的三个学习率中有两个崩溃。0第1批 第2批 第3批0从中抽样0从中抽样0图2. 最小化条件熵(如TENT[56]中所示)鼓励模型qθ(y|x)产生高置信度的预测。几何上讲,这相当于增加决策边界与当前批次样本之间的间隔。在上面所示的低多样性情况下,第1批和第2批只包含红色样本。这导致边界远离红色样本。当第3批最终观察到绿色样本时,边界已经超过了绿色簇,因此样本(错误地)被分配到红色类别。0还需要知道在测试时会遇到哪种情况。这两点破坏了TTA范式的整个目的。因此,NAMs的超参数能够在各种情况下很好地泛化是可取的。然而,以TENT[56]的熵最小化方法为例,我们在图3的左侧矩阵中显示,实际上这种泛化远未实现。更具体地说,为了获得这个矩阵,我们创建了一系列12个验证场景(见第6节),提供了第3节讨论的偏移的广泛覆盖。第i行的读法如下:我们调整超参数仅考虑场景i,然后观察这种超参数选择在所有场景j∈{1,...,12}中的泛化程度。绝对改进0(或退化)相对于非自适应模型的性能报告在矩阵中。从图3中可以清楚地看出,熵最小化方法在超参数配置方面非常脆弱,特别是在非i.i.d.和类别不平衡的情况下,一个次优的选择可能导致模型的准确性相对于非自适应基线下降高达绝对值66%。我们强调,图3仅显示使用特定于场景的超参数时获得的验证结果,因此仅用于经验性地证明超特定超参数的问题。在附录中,我们展示了我们实验中所有NAMs都可以观察到相同的趋势。作为替代方案,在第5节中,我们提出了一种适应策略,它仅影响模型的输出(而不是其参数),一次只考虑一个数据批次,并且只有一个需要调整的超参数。05. LAME方法0为了解决上述问题,我们提出了一种方法,它只旨在提供分类器输出概率的修正,而不是修改其特征提取器的内部参数。一方面,冻结源分类器可以防止我们的方法在批次之间累积知识。另一方面,它减轻了退化分类器的风险,减少了计算需求(因为既不计算梯度也不存储梯度),并且本质上消除了搜索学习率或优化器动量等微妙超参数的需要。总体而言,我们凭经验证明,与在测试时条件未知时的NAMs相比,这种方法更可靠和实用。公式化。假设我们有一个从目标分布X∈RN×d�pNt(x)中采样的数据批次,其中N是样本数量,d是特征维度。我们的方法找到一个潜在的分配向量˜zi=0.3 -0.5 2.8 -1.1 0.12.24.6102-2.9 3.7 -2.90.20.20.30.30.32.31.87.10.40.40.90.2-0.4 -373-66 -3.4113.8204.5-655.1-640.20.20.30.30.32.31.87.10.40.40.90.20-14 -0.7 -403.9135.6182.3-52 -0.3 -520-14 -0.7 -403.9135.6182.3-52 -0.3 -520-14 -0.7 -403.9135.6182.3-52 -0.3 -52-0.4 -373-66 -3.4113.8204.5-655.1-64-3.1 -15 -0.7 -32-37-35-35-304.6-612-58-0.2 -0.6 0.6-1-11 -7.9 -8.621.80.82.80.5-0.4 -372.9-65 -3.2103.8204.5-655.2-64-0.2 -0.6 0.6-1-11 -7.9 -8.621.80.82.80.5ImageNet-ValImageNet-CImageNet-C16-05.90.75.8 -0.1 2.11.57-0.1 5.90.75.5-0161.716-0.221.97.3 -1.2170.617-0161.716-0.221.97.3 -1.2170.617-0161.716-0.221.97.3 -1.2170.617-05.90.75.8 -0.1 2.11.57-0.1 5.90.75.5-05.90.75.8 -0.1 2.11.57-0.1 5.90.75.5-0161.716-0.221.97.3 -1.2170.617-0161.716-0.221.97.3 -1.2170.617-05.90.75.8 -0.1 2.11.57-0.1 5.90.75.5-0161.716-0.221.97.3 -1.2170.617-09.60.99.3 -0.1 2.11.67-0.2100.99.9-0161.716-0.221.97.3 -1.2170.617ImageNet-ValImageNet-CImageNet-C160.02.55.07.510.0N�i=1N−NNN83480A B C D A B C D A B C D0D0C0B0A0D0C0B0A0D0C0B0A0ImageNet-C16ImageNet-CImageNet-Val0(a)TENT0A B C D A B C D A B C D0(b)LAME0-10.00-7.50-5.00-2.50图3. TENT[56](左)和我们提出的LAME(右)的交叉验证结果。位置(i,j)上的单元格显示了当前方法相对于基准方法的绝对改进(或退化),当使用场景i的最佳超参数进行评估时,但在场景j中进行评估。图例:A = i.i.d.,B = 非i.i.d.,C = i.i.d. + 先验偏移,D = 非i.i.d. + 先验偏移。有关场景的更多详细信息请参见第6节。0(˜zik)1≤k≤K∈∆K−1对于每个数据点xi,旨在近似真实分布p(z|x),其中K是类别数,∆K−1={˜z∈[0,1]K|1T˜z=1}是概率单纯形。实现这一目标的一种合理方法是找到最大化数据的对数似然的分配˜Z,同时满足单纯形约束˜zi∈∆K−1,�i:0L(˜Z) = log0k =1 p(xi, k)˜zik � c=0i =1 ˜ziT log(pi)(1)0其中˜Z ∈ [0, 1]NK是连接所有分配向量˜zi的向量,pi =(p(k | xi))1 ≤ k ≤ K ∈ ∆K−1,c =表示等式差一个加法常数。为了防止过度自信的分配,我们考虑负熵正则化,以阻止˜Z的单热分配。注意,这种正则化也作为一个限制,将˜zi的定义域限制为非负值,从而隐式处理˜zi ≥0的约束。因此,最大化正则化的对数似然目标等价于最小化以下Kullback-Leibler(KL)散度,同时满足 1T˜zi = 1,�i的约束:0i =1 ˜ziT log(pi)+0i =1 ˜ziT log(˜zi)=0i =1 KL (˜ zi || pi )(2)0问题(2)在˜zi = pi,�i时最小化。退一步说,我们无法访问pi,只能访问源参数模型qi = (qθ(k | xi))1 ≤ k ≤ K,回想一下,当在目标样本x �pt(x)上评估时,它可能是真实分布的一个较差的近似。事实上,将Eq.(2)中的pi替换为qi会得到源模型的预测作为最优解:˜zi =qi。为了补偿这种近似的固有误差,我们专注于拉普拉斯正则化,它可以0鼓励特征空间中的相邻点具有一致的潜在分配。拉普拉斯正则化广泛应用于半监督学习[2, 7,19],在半监督学习中,它与有标签数据点上的监督损失一起进行优化,或者在图聚类[45, 46,52]中,它在类平衡约束的条件下进行优化。TTA问题与众不同,因为与半监督学习不同,它不能依赖于任何监督,并且与聚类不同,类平衡约束是无关紧要的(甚至是有害的)。因此,我们引入了拉普拉斯调整的最大似然估计(LAME),它最小化了(2)中的似然,并与拉普拉斯校正一起进行,受到约束 1T˜zi = 1, �i的限制:0L LAME(˜Z) = 0i KL (˜ zi || qi ) −0i,j wij˜ziT˜zj (3)0其中 w ij = w(φ(xi),φ(xj)),其中φ表示我们预训练的特征提取器,w是一个衡量φ(xi)和φ(xj)之间相似度的函数。在特征空间中,点越接近,它们的相似度就越高。显然,当相似度很高(w ij很大)时,通过最小化(3)中的拉普拉斯项,可以寻求点积˜zTi˜zj的最大可能值,从而将点i和j分配给同一类别。因此,我们的模型(3)可以被视为批处理数据的图聚类,通过KL项对源模型预测的显著偏离进行惩罚。通过凹凸过程进行高效优化。接下来,我们将展示我们的问题(3)可以使用凹凸过程(CCCP)[60]进行最小化,这使我们能够获得一个高效的迭代算法,并保证收敛。每次迭代更新当前解˜Z(n)作为目标函数的一个紧上界的最小值。这保证了目标函数在每次迭代中不增加。对于一个凸和凹的和83490(a) 具有似然偏移的独立同分布 (I.I.D.)0(b) 具有似然偏移和先验偏移的独立同分布 (I.I.D.) (c) 具有似然偏移和先验偏移的非独立同分布 (N.I.I.D.)0图4.在相同的原始RN-50上跨7个测试场景的结果,用于验证。每个场景的平均值在图例中报告。批处理大小为64。每个实验使用不同的随机种子运行10次。由于每次随机运行使用新的类比例,每个类别比例从Zipf分布中采样,因此具有先验偏移的实验往往会表现出较大的方差。0当目标函数是凸函数和凹函数的和时,如我们在(3)中的情况,CCCP将凹部分替换为当前解的线性一阶近似,这是一个紧的上界,同时保持凸部分不变。在我们的情况下,当亲和矩阵W =[wij]是半正定时,Laplacian项是凹的,而KL项是凸的。可以通过将半正定W的Laplacian重新写为以下形式来验证W的Laplacian的凹性1:- �0i,j wij ˜zTi˜zj = -˜ZT(W �I)˜Z,其中�表示Kronecker积,I是K×K的单位矩阵。因此,我们将(3)中的Laplacian项替换为-((W �I)˜Z(n))T˜Z,得到以下紧的上界,与˜Z无关的一个常数可加:0L LAME (˜Z) c 0i KL(˜zi || qi) - ((W � I)˜Z(n))T˜Z (4)0解决最小化凸上界(4)对应的Karush-Kuhn-Tucker(KKT)条件,受到约束1T˜zi =1,�i,得到分配变量的以下解耦更新:0˜z(n+1)ik = qθ(k | xi) exp( �0j wij ˜z(n)jk )0k' qθ(k' | xi) exp( �0j wij ˜z(n)jk' ) (5)0这些迭代直到收敛。方程(5)的完整推导见附录。06. 实验设计0我们的实验协议的设计主要受到评估TTA方法的模型和领域独立性的需求的指导。对于模型独立性,我们需要评估方法在各种预训练模型下的性能。至于领域独立性,01 W半正定意味着W � I半正定。0一个固定的训练模型必须能够在多个适应性场景下评估TTA方法。这意味着预训练模型中编码的源类别必须能够充分覆盖可能在测试时遇到的感兴趣的类别。值得注意的是,在实践中,这是一个合理的要求,因为现代大规模数据集涵盖了数万个类别[24, 42, 43, 59]。0网络。由于它们在社区中的流行度和涵盖的大量类别,ImageNet训练模型是我们实验的理想场所。特别是,它们允许在两个方面评估模型的独立性。首先,与训练过程相关,通过使用相同的ResNet-50架构(以下简称RN-50),但以三种不同方式进行训练:来自微软亚洲研究院(MSRA)的原始版本[16],Torchvision的[33],以及使用自监督的SimCLR[8]。其次,与架构本身相关,通过在5个不同的主干网络上提供结果,包括RN-18、RN-50、RN-101、Ef�cient-Net(EN-B4)[51]和最近的Vision TransformerViT-B[13]。所有使用的模型都是在标准的ImageNetILSVRC-12训练集上进行训练的,除了ViT-B还使用了额外的ImageNet-21k[12]预训练步骤。0超参数搜索。为了验证目的,我们考虑了3个数据集。首先,我们使用ImageNet的原始验证集[43]。为了表示似然偏移,我们考虑了ImageNet-C-Val,它使用9个不同强度的逼真扰动增强了原始图像(来自原始ImageNet-C的其他10个用于测试)。最后,我们考虑了ImageNet-C16,它是ImageNet-C的一个变体,模拟了一个更简单但实际的场景,其中一部分ImageNet类别映射到16个超类。通过减少总类别数,ImageNet-C16还减少了批次级别的类别多样性,我们将其标识为-40%45%50%55%60%LAME (55.0)Baseline (51.0)SHOT (50.2)PseudoLabel (48.5)AdaBN (46.9)TENT (38.4)45%52%60%67%75%83500TORCHVISION0SIMCLR ORIGINAL0EN-B40RN-180RN-101 RN-500ViT-B0LAME(60.7)基线(56.9)SHOT(55.0)PseudoLabel(54.0)TENT(47.7)0图5.超参数在模型之间的可迁移性。对于每种TTA方法,我们使用在验证过程中获得的最佳超参数集,并使用原始的RN-50[16]作为骨干网络。图表上的每个顶点代表了特定架构在我们的7个测试场景中的平均值。图例中的值表示所有顶点的平均值。(顶部):我们使用相同的骨干网络但不同的训练过程来测试这些超参数。Torchvision指的是PyTorch模型库中可用的模型,SimCLR指的是从[8]的自监督方法得到的模型,original指的是用于选择超参数的相同模型。(底部):相同的超参数集用于不同的架构,从RN-18到最新的视觉变换器ViT-B[13]。为了在不同架构之间进行类似的设置,使用批量大小16生成上述结果。0在第4节中,我们将先验移位识别为NAMs方法的一个潜在关键因素。为了模拟真实的先验移位,我们将类别比例修改为遵循Zipf分布[41]。最后,为了涵盖非i.i.d.场景,我们向模型呈现一系列“任务”,其中每个任务要么表示一组受相同破坏影响的样本(在ImageNet-C的情况下),要么表示属于同一类的样本。3个数据集的所有组合,2个先验移位(具有和不具有Zipf不平衡类分布)和2个采样方案(i.i.d.或非i.i.d.)总共形成了12个验证场景。对于每种方法,进行突出超参数的网格搜索,并选择单一的超参数集。0选择在12个验证场景中获得最佳平均性能的模型,并在图4和5的测试实验中保持不变。每种方法的网格搜索的确切定义在附录中提供。0测试。对于测试,我们设计了4个i.i.d.和3个非i.i.d.的测试场景。对于i.i.d.情况,我们使用ImageNet-C-Test和ImageNet-V2[40]的4种组合,以及Zipf类不平衡的存在与否。至于3个非i.i.d.场景,我们再次使用ImageNet-V2(使用不同的划分),以及两个视频数据集:ImageNet-VID [43]和TAO[11]中的LaSOT子集。保持将模型提供给一系列任务的思路,视频数据集允许我们通过简单地将同一视频的帧分组来评估真实场景。对于每个测试实验,我们进行10次随机运行。有关所有数据集(和类别映射)的更多详细信息,请参见附录。0方法。作为第一个基准,我们评估了没有任何适应性的源训练模型,称为基线。对于网络适应方法(NAMs),我们重现并评估了四种最先进的TTA方法,可以在线运行:基于熵最小化的TENT[56],基于互信息最大化的SHOT-IM,基于最小熵最小化的PseudoLabel [25]和基于批归一化统计对齐的AdaBN[27]。最后,我们评估了LAME。07. 实验结果0针对领域无关的测试时适应性。正如第4节所提到的,大多数情景敏感的超参数来自于网络的优化。通过完全冻结分类器,我们的LAME方法不再有这样的负担。相反,LAME只通过一个不引入任何超参数的边界优化过程来寻找最佳的浅层分配。因此,我们只需要调整方程(3)中的亲和函数w,这比NAMs的优化相关超参数更不敏感。这个观点首先得到了通过检查LAME的交叉移位验证矩阵的支持,这个矩阵已经在前面用来说明NAMs的脆弱性。这次我们看一下图3的右图,我们可以看到在所有情况下,无论是平均性能还是最坏情况下的退化,都有了显著的改进。第二个支持这个观点的经验证据来自于图4中的测试场景结果。与图3中的验证结果一致,图4证实了LAME在标准的i.i.d.似然移位中没有帮助,并且在最坏情况下比基线低约0.5%。然而,当引入先验移位时,NAMs的性能并没有改善。02.我们推测在LAME中引入更多超参数(例如,对我们损失的不同项进行加权)可能会导致图3中的非对角线项变差,但整体性能更高。0.10.20.30.40.50.60.7EN-B4EN-B4RN-101RN-101RN-18RN-18RN-50RN-50ViT-BViT-B83510基线,而LAME表现出非常明显的改进。这在非独立同分布的情况下尤为明显,平均改进为(绝对值)6.7%,在ImageNet-v2的情况下可以达到15%。请注意,这种改进几乎不受批量大小的影响,如附录所示。NAM对训练过程非常脆弱。至于模型独立性,我们首先检查方法是否对训练过程的更改具有鲁棒性。在某些情况下,这种鲁棒性是期望的,例如在源模型的提供者发布更新的情况下:在这种情况下,TTA方法不应要求进行新的验证。作为第一个场景,我们研究了使用Original RN-50[16]获得的超参数集合是否推广到相同的方法,但是使用Torchvision提供的RN-50。鉴于两个模型都是使用标准监督和微小的实验差异进行训练的,人们会期望两种情况下的最佳超参数集合非常相似。图5的顶部图表的结果表明完全相反的情况。虽然LAME保持了相对于基线的相同改进,但所有NAM都失去了显著的优势,尤其是TENT表现特别差。我们进一步使用使用自监督SimCLR训练的RN-50进行实验,并观察到LAME再次保持了相对于基线的4%的改进,没有其他方法能够超越它。LAME可以推广到不同的架构,而NAM不能。对于任何TTA方法来说,跨不同架构的推广都应该是一个可取的特性。特别是对于非常大的模型,详尽的验证可能变得代价高昂,因此使“模型即插即用”成为一个有吸引力的特性。图5的底部图表显示了使用五种架构(Ef�cientNet-B4 [51],三个ResNet变体和更大的ViT-B[13]变换器)的结果。总体而言,LAME是唯一能够保持与基线相比持续显著改进的方法,而基线仍然是比任何NAM更好的选择,特别是对于像RN-18这样的小型骨干。LAME运行速度是NAM的两倍,同时需要的内存是NAM的一半。鉴于几个直接应用的测试时间适应涉及对数据流的实时适应,尽可能高效地运行也可能是从业人员的关键因素。为了测量运行时间,我们将推理分为3个阶段:第一次正向优化(对于NAM来说对应于SGD,对于LAME来说对应于第5节的边界优化过程)和第二次正向优化(只有修改模型参数的方法才需要)。总的来说,这三个贡献构成了每种方法的总运行时间。图6提供的结果证明了LAME相对于代表性的TENT的明显优势(其他NAM的运行时间与TENT大致相似)。就内存而言,与NAM相比,LAME不需要保留任何梯度或中间缓冲区。0相对于NAM,这大致减少了一半所需的GPU内存。0LAME帐篷 0.00运行时间/批次(秒)01. 正向优化 2.正向0图6.LAME与TENT在5种不同骨干(RN-18,RN-50,EN-B4,RN-101和ViT-B)上的每批次运行时间:RN-*系列使用批次64,EN-B4和ViT-B使用批次16(因为它们使用380x380图像而不是224x224)。 LAME提供了无需进行第二次正向传递的纠正输出。08. 结论0受到训练新模型成本高昂的影响,我们提出了一种新颖的在线测试时间适应(TTA)方法,该方法对训练和测试条件都是不可知的。我们引入了一个广泛的实验协议,涵盖了多个数据集,真实的偏移和模型,并通过确保测试时间域信息不泄漏以通知超参数的选择来评估现有的TTA方法。总体而言,这些方法的性能不如非自适应基线,并且甚至可能导致性能灾难性下降。我们确定模型参数的过度自适应是这些方法性能差的一个强烈嫌疑对象,并选择了一种更保守的方法,仅纠正模型的输出。我们提出了Laplacian AdjustedMaximum-likelihoodEstimation(LAME),这是一种无监督的目标函数,通过阻止与预训练模型的预测偏离,同时在流形平滑性假设下鼓励标签传播,找到最佳的潜在分配集合。在考虑了许多场景后,LAME在所有现有方法和非自适应基线上表现出色,同时需要更少的计算和内存。然而,由于受限于分类器的输出,LAME也具有固有的局限性。首先,它在标准的独立同分布和类平衡的场景中并没有明显的帮助。我们希望我们的工作能够激发这一研
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功