没有合适的资源?快使用搜索试试~ 我知道了~
7201连续测试-时域自适应王勤1Olga Fink1,3*Luc Van Gool1,4戴登新21瑞士苏黎世联邦理工学院2德国MPI信息学3瑞士洛桑联邦理工学院4比利时KU Lueven{qin.wang,vangool,dai} @ vision.ee.ethz.cholga. epfl.ch摘要测试时域自适应的目的是在不使用任何源数据的情况下使源现有的工作主要考虑的情况下,目标域是静态的。然而,现实世界的机器感知系统运行在非平稳和不断变化的环境中,其中目标域数据可以随时间变化。现有的方法,主要是基于自训练和熵正则化,可以从这些非平稳的环境受到影响。由于在目标区域中随时间的分布偏移,伪标签变得不可靠。噪声伪标签会进一步导致错误积累和分类遗忘.为了解决这些问题,我们提出了一个连续的测试时间自适应方法(CoTTA),它包括两个部分。首先,我们建议通过使用加权平均和增强平均预测来减少误差累积,这些预测通常更准确。另一方面,为了避免灾难性的遗忘,我们建议在每次迭代期间将一小部分神经元随机恢复到源预训练的权重,以帮助长期保存源知识。所提出的方法能够长期适应网络中的CoTTA易于实现,并且可以很容易地合并到现成的预训练模型中。我们证明了我们的方法在四个分类任务和一个连续测试时间适应的分割任务上的有效性,我们优于现有的方法。我们的代码可在https://qin.ee/cotta上获得。1. 介绍测试时域自适应旨在通过在推理时间期间从未标记的测试(目标)数据中学习来适应源预训练模型。由于源训练数据和目标测试数据之间的域转移,需要进行自适应以实现良好的性能。例如,一个语义分割模型在来自*通讯作者图1.我们认为在线连续测试时间适应的情况下。目标数据按顺序提供,并且来自连续变化的环境。使用现成的源预训练网络来初始化目标网络。该模型根据当前目标数据在线更新,并以在线方式给出预测。目标网络的适配不依赖于任何源数据。现有的方法经常遭受错误积累和遗忘,这导致性能随时间的推移而恶化。我们的方法使长期的测试时间适应不断变化的环境下。当在雪夜条件下进行测试时,晴朗的天气条件会使性能显著下降[50]。类似地,预先训练的图像分类模型在对由于传感器降级而导致的损坏图像进行测试时也会出现这种现象由于隐私问题或法律约束,在这种设置下,源数据通常被认为在推理时间期间不可用,使其成为比无监督域自适应更具挑战性但更现实的问题。在许多场景中,还需要以在线方式执行适配。因此,测试时间自适应是关键的现实世界机器感知应用领域转移的成功。现有的测试时间自适应工作通常通过使用伪标签或熵正则化更新模型参数来解决源域和固定目标域之间的分布偏移[43,61]。这些自我训练7202方法已被证明是有效的,当测试数据来自相同的平稳域。然而,当目标测试数据来自不断变化的环境时,它们可能不稳定[48这有两个方面的原因:首先,在不断变化的环境下,由于分布偏移,伪标签变得更嘈杂和错误校准[13因此,早期预测错误更有可能导致误差累积[4]。其次,由于模型在很长一段时间内不断适应新的分布,来自源域的知识更难保存,导致灾难性遗忘[11,41,45]。针对这些问题,在不断变化的环境下,这项工作的重点是在线连续测试时间适应的实际问题。如图1所示,我们的目标是从现成的源预训练模型开始,并不断地使其适应当前的测试数据。在这种设置下,我们假设目标测试数据是从一个不断变化的环境中流出来的。预测和更新是在线执行的,这意味着模型将只能访问当前数据流,而不能访问完整的测试数据或任何源数据。所提出的设置是非常相关的现实世界的机器感知系统。例如,对于自动驾驶系统,周围环境不断变化(例如,天气从晴朗变为多云,然后变为下雨)。它们甚至可以突然改变(例如,当一辆汽车离开隧道时,相机突然过度曝光)。感知模型需要在这些非平稳的域变化下自适应并为了有效地使预训练的源模型适应不断变化的测试数据,我们提出了一种连续的测试时间自适应方法(CoTTA),它解决了现有方法的两个主要局限性。所提出的方法的第一个组成部分旨在减轻误差积累。我们提出了两种不同的方式来提高伪标签的质量下的自训练框架。一方面,由于平均教师预测通常比标准模型具有更高的质量[55],我们使用加权平均教师模型来提供更准确的预测。另一方面,对于具有较大域间隙的测试数据,我们使用增强平均预测来进一步提高伪标签的质量。第二部分的建议的方法旨在帮助保存源知识,避免遗忘。我们建议将网络中的一小部分神经元随机恢复到预训练的源模型。通过减少错误积累和知识的积累,CoTTA能够在不断变化的环境中实现长期适应,并使训练网络的所有参数成为可能。相比之下,以前的方法[43,61]只能训练batchnorm参数。值得指出的是,我们的方法可以是容易的-执行中。加权和扩增平均策略和随机恢复可以很容易地被并入任何现成的预训练模型,而不需要在源数据上重新训练它。我们证明了我们所提出的方法的有效性,四个分类任务和分割任务的连续测试时间自适应,我们显着提高了现有方法的性能我们的贡献总结如下:• 我们提出了一种连续的测试时间自适应方法,可以有效地适应现成的源预训练模型不断变化的目标数据。• 具体来说,我们通过使用更准确的加权平均和增强平均伪标签来减少误差累积。• 通过显式地保存来自源模型的知识来减轻长期遗忘效应• 所提出的方法显着提高了连续的测试时间适应性能的分类和分割基准。2. 相关工作2.1. 域适应无监督域自适应(UDA)[44,46]旨在提高目标模型在标记源域和未标记目标域之间存在域偏移的情况下的性能。在训练过程中,UDA方法通常使用差异损失[39]或对抗训练[12,58]来对齐两个域之间的特征分布。或者,也可以在输入空间[18,67]中进行对齐。近年来,通过迭代地使用逐步改进的目标伪标签来训练网络,自训练也显示出有希望的结果[19,36,62,75]。2.2. 测试时间自适应在一些参考文献中,测试时自适应也被称为无源自适应[28,66]。与需要访问源和目标数据以进行自适应的域自适应不同,测试时自适应方法不从源域请求任何数据以进行自适应。一些现有的工作[29,33,68]利用生成模型来支持在缺乏源数据的情况下的特征对齐。另一个流行的方向是微调源模型,而不显式地进行域对齐。测试熵最小化(TENT)[61]采用预先训练的模型,并通过使用熵最小化更新Batchnorm层中的可训练参数来适应测试数据。源假设转移(SHOT)[37]利用熵最小化和多样性正则化进行自适应。SHOT需要使用源数据,通过标签平滑技术7203XY表1.我们提出的连续测试时间自适应和相关自适应设置之间的差异设置数据学习源目标训练站测试阶段标准域适配是的固定是的没有标准测试时间训练[54]是的固定是(辅助任务)是的完全测试时间适应性[61]没有固定否(预先培训)是的连续测试时间适应没有不断变化否(预先培训)是的权重归一化层。因此,它不能支持使用任意的预训练模型。[43]提出应用与输入变换模块组合的分集正则化器以进一步提高性能。[23]使用单独的归一化卷积网络来归一化来自新域的测试图像。[22]仅在推理期间使用伪原型更新最终分类层。[74]从贝叶斯的角度分析了这个问题使用目标数据更新批量归一化层中的统计数据是一种不同的路径,也显示出有希望的结果[21,34,70]。虽然大多数现有的工作集中在图像分类,[20,27,38]扩展测试时间适应语义分割。标准测试时间自适应考虑离线场景,其中为训练提供对完整测试数据集的访问。这对于在线机器感知应用来说通常是不现实的。大多数现有的作品(除了TENT变体[60])还需要重新训练源模型以支持测试时间自适应。因此,它们不能直接使用来自源域的现成的2.3. 连续域自适应与假设特定目标域的标准域自适应不同,连续域自适应考虑目标数据不断变化的自适应问题连续流形自适应(CMA)[17]是考虑适应不断发展的领域的早期工作增量对抗域适应(IADA)[63]通过对抗对齐源和目标特征来适应不断变化的域。[59]的目标是在不保留源训练数据的情况下,在减轻对可见域的遗忘的同时,不断地适应不可见的视觉域。[3]的目的是利用渐变域之间的连续性假设来适应渐变域现有的连续域自适应方法需要访问来自源域和目标域的数据,以便对齐分布。本文的主要重点是连续测试时自适应,它还考虑了在测试时不访问源数据的自适应。虽然这是现实世界中机器感知系统的现实场景,但适用于这种场景的方法数量非常有限。从理论上讲,网上的...TENT [61]的版本可以通过使用熵损失不断更新BN参数来适应这种设置。然而,由于错误校准的预测,它可能会遭受误差积累。测试时训练(TTT)[54]也可以使用来自旋转预测辅助任务的监督来不断更新特征提取器然而,它需要使用源数据重新训练源模型来学习辅助任务。因此,它不能被认为是完整管道的无源代码,并且不支持现成的源代码预训练模型。2.4. 不断学习持续学习[10]和终身学习[45]与持续适应问题密切相关,一种潜在的治愈灾难性遗忘的方法 康丁人工学习方法通常可以分为基于重放的[49]和基于正则化的[53,72]方法。 后者可以进一步分为以数据为中心的方法,如学习而不忘记(LwF)[35],以及以先前为中心的方法,如弹性权重巩固(EWC)[24]。来自持续学习的想法被用于持续领域适应方法[3,30]。2.5. 领域泛化这项工作也与广义上的领域泛化有关[42],因为共同的目标是提高潜在变化目标领域的性能。许多工作还表明,在训练[14,16,32,69]和测试[1,40,73]期间的数据扩充[52域随机化是最流行的方法之一,它通过从模拟环境的不同合成参数中学习来提高模型的泛化能力[56,57]。与主要旨在从源域训练更具泛化能力的神经网络的领域泛化方法不同,这项工作的重点是通过使用来自不断变化的目标域的未标记在线数据来提高现有预训练神经网络在测试时的性能。3. 连续测试-时域自适应3.1. 问题定义给定一个现有的预训练模型fθ0(x),其中参数θ是在源数据(S,S)上训练的,我们的目标是在训练过程中提高该现有模型的性能7204X不不不不TC→−t ttttt→−图2.建议的连续测试时间自适应(CoTTA)方法概述。CoTTA从现成的源预先训练的网络进行调整。通过使用教师模型来提供加权平均伪标签并使用多个增强来平均预测,可以减轻错误累积知道-减少误差累积。此外,为了帮助减少持续适应中的for-getting,我们建议显式地保留来自源模型的信息。所提出的方法的概述如图2所示。源模型现有的工作测试时适应的-十需要特殊的处理,在训练过程中的源模型,以提高域的泛化能力,并促进适应。例如,在源训练期间,TTT [54]有一个额外的辅助旋转预测分支来训练,以促进目标自适应监督。这需要对源数据进行重新训练,并且不可能重用现有的预训练模型。在我们提出的测试时自适应方法中,我们解除了这种负担,不需要修改架构或额外的源训练过程。因此,可以使用任何现有的预训练模型,而无需对源进行再训练我们将在实验中证明,我们的方法可以在广泛的预训练网络上工作,包括ResNet变体和基于Transformer的架构。加权平均伪标签给定目标数据xT通过随机恢复少量的可训练权重的元素。和模型不fθt,常见的测试时间目标,在不访问任何源数据的情况下,以在线方式为不断变化的目标域提供参考时间。顺序地提供未标记的目标域数据T在时间步长t,提供目标数据xT作为输入,并且模型fθ需要进行预测fθ(xT),并相应地针对未来输入θt θt+1进行自适应。 xT的数据分布是不断变化的。该模型的在线预测的基础上进行评估。这种设置在很大程度上是由机器感知应用程序在不断变化的环境中的需求所驱动的。例如,由于位置、天气和时间,自动驾驶汽车的周围环境不断变化。感知决策需要自训练框架是最小化预测y∈T=fθ(xT)和伪标签之间的交叉熵consistentc y例如,直接使用模型预测本身作为伪标签会导致TENT [61]的训练目标(即,熵最小化)。虽然这对于固定目标域起作用,但是由于分布偏移,对于连续变化的目标数据,伪标签的质量可能显著下降。由于观察到训练步骤的加权平均模型通常比最终模型提供更准确的模型[47,55],我们使用加权平均教师模型fθ'来生成伪标签。在时间步长t= 0时,教师网络被初始化为与源预训练网络相同。 在时间步长t处,伪标签首先由教师Y′生成,为需要在线制作,模型需要调整。Tt我们在表1中列出了我们的在线连续测试时间自适应设置与现有自适应设置之间的主要差异。与以前的设置相比,fθ′(xt). 学生fθt 然后通过学生和教师预测之间的交叉熵损失进行更新:L(xT)=−y′TlogyT,(1)在固定的目标域上,考虑了对不断变化的目标环境的长期θtt不TC TCC3.2. 方法我们提出了一种适应方法的在线连续测试时间适应设置。该方法采用现成的源预训练模型,并以在线方式使其适应不断变化的目标数据。由于错误累积是自训练框架中的关键瓶颈之一,我们建议使用加权和增强平均的伪标签来其中,y=tc是教师模型中c类的概率软伪标签预测,并且学生(Student)。损失加强了教师和学生预测之间的一致性。在使用等式1更新学生模型θt θt+1之后,我们使用学生权重通过指数移动平均来更新教师模型的权重:θt′+1=αθt′+(1−α)θt+1,(2)7205不0不不不电话+1不不不不不不∗⊙θt不TCTCyt =Nfθ′(augi(xt)),(3).y′ ,如果conf(f(x))≥p不其中α是平滑因子。 我们对算法1的最终预测建议的连续测试时间自适应输入数据xT是yT′T中概率最高的类。A:源预训练模型f(十)、教师t tθ0加权平均一致性的好处是双重的。 一方面,通过使用通常更准确的方法, 率[47]加权平均预测作为伪标签目标,我们的模型在连续自适应过程中遭受的误差累积较少 另一方面,教师预测y′t在过去的迭代中对来自模型的信息进行编码,因此,在长期持续的适应中不太可能遭受灾难性遗忘。并提高对未知领域的泛化能力。这受到半监督学习中[55在训练期间的数据扩充[52]已被广泛应用于提高模型性能。不同的增强策略通常是针对不同的数据集手动设计[26]或搜索[9]。虽然测试时间增强也被证明能够提高鲁棒性[5,54],模型fθ′(x)由fθ0(x)初始化。输入: 对于每个时间步长t,当前数据流x t。1:通过等式4从老师f θ '扩增x t并获得权重和扩增平均的伪标签。2:通 过公 式 5 中 的一 致性 损失更新student f θt。3:通过移动等式2中的平均值来更新教师f θ ′。图4:通过公式8随机恢复学生f θt。输出量:预测fθ′(xt); 更新学生模型fθt+1(x);更新的教师模型fθ′(x)。在具有小域间隙的置信样本上,有时会降低模型性能。我们会在补充质询中详细讨论这项意见。总之,我们使用置信度来近似域差异并确定何时应用增强。student由细化的伪标签更新:通常为特定数据集确定和固定增强策略,而不考虑分布在推理时间内发生变化。在一个不断变化的环境中,测试分布可能会发生急剧变化,这可能会使增强策略无效。在这里,我们考虑到测试时域偏移,并通过预测置信度来近似域差。仅当域差异大时才应用增强,以减少误差累积。N−1不L(xT)=−y′TlogyT,(5)虽然更准确的伪标签可以减轻错误积累,但长时间自我训练的持续适应不可避免地引入错误并导致遗忘。如果我们在数据序列中遇到强烈的域偏移,这个问题可能特别相关,因为强烈的分布偏移会导致错误校准甚至错误的预测。在这种情况下,自我训练可能只会强化错误的预测。2017年10月1日i=0时y′T=不TTtθ0tth不是的,否则,(四)适应,即使新的数据没有严重转移。为了进一步解决灾难性遗忘问题,我们提出了一种随机恢复方法,从源预训练模型恢复知识。其中y′t是增量--根据教师模型,yt是教师的直接预测模型, conf(fθ(xT))是源预训练模型考虑学生模型fθ中的卷积层在时间步长t处基于等式1的梯度更新之后:0吨当前输入上的预测置信度xT,并且pth是置信度阈值。通过使用公式4中的预训练模型fθ0计算当前输入xT的预测置信度,我们尝试近似源域和当前域之间的域差。我们假设较低的置信度表示较大的域间隙,相对较高的置信度表示较小的域间隙。因此,当置信度高且小于阈值时,我们直接使用y_t作为我们的伪标签,而不使用任何增强。 当置信度低,我们应用额外的N个随机增加以进一步提高伪标签质量。过滤是至关重要的,因为我们观察到,xl+1=Wt+1xl,(6)其中表示卷积运算,xl和xl+1表示到该层的输入和输出,Wt+1表示可训练卷积滤波器。所提出的随机恢复方法另外通过以下方式更新权重W:MBernoulli(p),(7)Wt+1=M<$W0+(1−M)<$Wt+1,(8)其中表示逐元素乘法。p是小恢复概率,M是与Wt+1形状相同的掩码张量。掩码张量决定Wt+1内的哪个元素要恢复回源权重W0。C更糟糕的7206→−→−→−→−随机恢复也可以看作是Dropout的一种特殊形式。通过将可训练权重中的少量张量元素随机恢复到初始权重,网络避免偏离初始源模型太远,从而避免灾难性的丢失。此外,通过保留来自源模型的信息,我们能够训练所有可训练参数,而不会遭受模型崩溃。这为自适应带来了更多的容量,并且是与仅训练BN参数用于测试时间自适应的熵最小化方法[43,61如算法1所示,将改进的伪标签与随机恢复相结合 , 得 到 了 我 们 的 在 线 连 续 测 试 时 间 自 适 应(CoTTA)方法。4. 实验我们在五个连续测试时间适应基准任务上评估了我们提出的方法:CIFAR 10到CIFAR 10 C(标准和渐进),CIFAR 100到CIFAR 100C,以及用于图像分类的 ImageNet-to-ImageNet-C , 以 及 用 于 语 义 分 割 的Cityscapses-to-ACDC。4.1. 数据集和任务CIFAR 10 C、CIFAR 100C和ImageNet-C最初是为了对分类网络的鲁棒性进行基准测试而创建的[15]。每个数据集包含15种类型的损坏,具有5个严重级别。对来自干净CIFAR10或CIFAR100数据集的测试集的图像应用损坏[25]。对于CIFAR10C和CIFAR100C数据集,每种损坏类型都有10,000张图像。对于我们的在线连续测试时间适应任务,使用在CIFAR10或CIFAR100数据集的干净训练集上预训练的网络。在测试期间,损坏的图像以在线方式提供给网络。与以前的方法不同,这些方法分别评估从干净图像预训练模型到每种腐败类型的测试时间自适应性能我们在最大损坏严重度级别5下评估所有型号。评价是基于在线预测结果后,立即遇到的数据. CIFAR10和CIFAR100实验都遵循这种在线连续测试时间自适应方案。对于CIFAR 10-to-CIFAR 10 C,我们遵循TENT [61]的CIFAR 10实验的官方采用相同的预训练模型,这是来自RobustBench基准[8]的 WideResNet-28 [71]模型我们在每次迭代时更新模型一步(即每个测试点一个梯度步)。我们使用相同的Adam优化器,学习率为1 e-3,作为-OTT实现。在[5]之后,我们使用相同的随机增强合成,包括颜色抖动、随机仿射、高斯模糊、随机翻转和高斯模糊。sian噪音。我们在实验中使用了32个增强。我们在补充材料中讨论了增强阈值p_th的选择。与只更新BN尺度和移位权重的TENT模型不同,我们在实验中更新了所有可训练参数。我们使用p = 0的概率。01我们所有的实验对于CIFAR 100到CIFAR 100C实验,我们采用[16]中 的 预 训 练 ResNeXt-29 [65] 模 型 , 该 模 型 在RobustBench基准[8]中用作CIFAR 100的默认架构之一使 用 与 CIFAR10 实 验 中 相 同 的 超 参 数 ImageNet-to-ImageNet-C [15]实验使用RobustBench [8]中的标准预训练resnet 50ImageNet-C实验在十种不同的腐败顺序下进行评估。Cityscapes-to-ACDC是一个连续的语义分割任务,我们设计它来模拟现实世界中的连续分布变化。源模型是在Cityscapes数据集上训练的现成的预训练分割模型[7]。目标域包含来自不利条件数据集(ACDC)[50]的各种场景的图像。ACDC数据集与Cityscapes共享相同的语义类,并在四种不同的不利视觉条件下收集:雾,夜,雨和雪。我们按照相同的默认顺序评估我们的持续测试时间适应。我们使用400个未标记的图像,从每个不利条件的适应。为了模拟现实生活中类似环境可能被重新访问的场景,并评估我们的方法的遗忘效果,我们将(四种条件中的)相同序列组重复10次(即总共40次:雾夜雨雪雾......)。这也提供了长期适应性能的评估。对于实现细节,我们采用基于Transformer的架构Segformer [64]进行Cityscapse-to- ACDC实验。我们使用在Cityscapes上训练的公共预训练Segformer-B5作为我们的现成源模型。对于基线比较法,TENT对归一化层中的参数进行了优化。对于所提出的CoTTA模型,所有可训练层都被更新,而不需要选择特定的层。ACDC的图像分辨率为1920x1080。我们使用960x540的下采样分辨率作为网络的输入,并在原始分辨率下评估预测。Adam优化器的学习率比Segformer的默认学习率小8倍,因为我们在在线连续测试时间适应实验中使用批量大小1而不是8(源训练的我们使用具有翻转的多尺度输入作为所提出的方法的增强方法,以生成增强加权的伪标签(如等式3所示)。遵循MMSeg[6]中为Cityscapes设计的默认做法,我们使用比例因子[0.5,0.75,1.0,1.25,1.5,1.75,2.0]。7207−t-y-p-e→2 −→ 3 −→ 4 −→ 5 −→ 4 −→ 3 −→ 2 −→ 1 −t-y-p-e→1−→ 2。-是的-是的、联系我们1−→表2.标准CIFAR10到CIFAR10C在线连续测试时间适应任务的分类错误率(%)。测试在WideResNet-28上进行评估,最大腐败严重级别为5。* 表示需要额外的域信息。t----------------------------------------------→方法是说源72.3 65.7 72.9 46.9 54.3 34.8 42.0 25.1 41.39.346.726.6 五十八点五30.343.5BN Stats Adapt28.1 26.1 36.3 12.8 35.3 14.2 12.1 17.38.412.623.8 十九点七分27.320.4伪标签26.7 22.1 32.0 13.8 32.2 15.3 12.7 17.3 16.510.113.422.4 十八点九25.919.8[61]第六十话24.8 23.5 33.0 12.0 31.8 13.7 10.8 15.9 16.27.912.122.0 十七点三24.218.6[61]第六十一话24.8 20.6 28.6 14.4 31.1 16.5 14.1 19.112.220.325.7 20.824.920.7CoTTA(我们的)✓27.2 22.8 30.8 12.1 30.1 13.9 11.9 17.2 16.09.413.119.9 十五点四19.918.3CoTTA(我们的)CoTTA(我们的)✓✓✓✓✓24.5 21.0 26.0 12.3 27.9 13.9 12.0 16.6 15.9 14.79.413.619.8 十四点七18.724.3 21.3 26.6 11.6 27.6 12.2 10.3 14.8 14.1 12.47.510.618.3 十三点四17.317.416.2(0.1)表3.逐渐将CIFAR10结果更改为CIFAR10C结果。严重程度在最低和最高之间逐渐变化。损坏类型在严重性最低时更改。结果是十种不同腐败类型序列的平均值。Avg.误差(%)源BN Adapt[61]第六十一话CoTTACIFAR10C24.813.730.710.4±0.24.2. CIFAR10至CIFAR10C的实验我 们 首 先 评 估 所 提 出 的 模 型 对 CIFAR10 到CIFAR10C任务的有效性我们将我们的方法与仅源基线和四种流行的方法进行比较。如表2所示,直接使用未经自适应的预训练模型产生43.5%的高平均错误率,表明自适应是必要的。BN Stats Adapt方法保持网络权重,并使用来自当前迭代的输入数据的批量归一化统计数据进行预测[34,51]。该方法简单且完全在线,并显著提高了仅源基线的性能。使用硬伪标签[31]来更新BN可训练参数可以将错误率降低到19.8%。如果TENT在线[61]方法可以访问额外的域信息,并在每次启动时将其自身重置为初始预训练模型,通过使用平均伪标签和随机恢复进行累积。为了验证我们的动机,我们对所提出的方法的每个要素进行了消融研究。如表2所列,通过使用来自教师模型的加权平均伪标签,错误率从20.7%降低到18.3%。这表明加权平均预测确实比直接预测更准确。通过使用多个增强来进一步改进加权平均预测,我们能够进一步将性能提高到17.4%。然而,性能仍然随着时间的推移而恶化(例如,与TENT-在线 *相比,用于对比度),这表明即使伪标签更准确,由于不可避免的错误预测,误差仍然会累积。最后,通过使用随机恢复显式地保留源知识,可以在很大程度上改善长期预测。这导致错误率降低到16.2%。括号中的数字是5粒种子的标准差。逐渐改变 setup. 在 的上述标准设置,腐败类型在最严重的情况下突然改变,我们现在报告渐进设置的结果。 设计了序列通过15种腐败类型的严重程度逐渐变化:计数器一个新的域,性能可以进一步提高,为18.6%。然而,这些信息通常不.... -是的-是的2−→1T-1及之前变化t型突变,渐变型突变变化vt+1ando}n在实际应用中可用在没有访问该附加信息的情况下,TENT连续方法不会产生超过BN统计自适应方法的任何改进值得一提的是,在适应的早期阶段,TENT连续性优于BN Stats Adapt。然而,在观察到三种类型的腐败后,该模型迅速恶化。这表明基于TENT的方法由于误差累积而在长期的连续适应下可能是不稳定的。我们提出的方法可以不断优于所有上述方法,通过使用加权和增广平均 consideration。错误率显著降 低到16.2%。此外,由于我们的随机恢复方法,从长远来看,消融研究:单个组件我们提出的方法的主要贡献是减少误差,其中,当损坏类型改变时,严重性级别是最低的(1),因此,类型改变是渐进的。每种类型的分布变化也是渐进的。我们创建了10个随机混洗订单的腐败类型t,然后评估的方法使用的平均错误率超过10个不同的序列。表3显示,所提出的方法优于竞争方法,导致10.4%的错误率,而TENT4.3. CIFAR 100-to CIFAR 100C的实验为了进一步证明所提出的方法的有效性实验结果总结于表4中。我们比较了我们的方法与源只基线,BN统计适应,伪标签,以及TENT连续的方法。我们观察到7208±表4.标准CIFAR100到CIFAR100C在线连续测试时间适应任务的分类错误率(%)所有结果都在ResNeXt-29架构上进行评估,最大腐败严重性级别为5。时间t− −- - - -− - -- - - -- − − - -- -- − − - -- − −- -- − − -−→方法是说源73.068.039.429.354.130.828.839.545.850.3 29.555.137.274.741.246.4BN Stats Adapt42.140.742.727.641.929.727.934.935.041.5 26.530.335.732.941.235.4伪标签38.136.140.733.245.938.336.444.045.652.8 45.253.560.158.164.546.2[61]第六十一话37.235.841.737.951.248.348.558.463.771.170.482.388.088.590.460.9CoTTA(拟定)40.137.739.726.938.027.926.432.831.840.324.726.932.528.333.532.5表5. Cityscapes-to-ACDC在线连续测试时间适应任务的语义分割结果(mIoU,%)。我们连续十次评估四种测试条件,以评估长期适应性能。为了节省空间,我们只显示第一、第四、第七和最后一轮的连续适应结果全部结果见补充材料。所有结果均基于Segformer-B5架构进行评估。时间t-→轮14710所有条件雾晚上雨雪雾晚上雨雪雾晚上雨雪雾晚上雨雪是说源69.140.359.7 57.869.140.359.7 57.869.140.359.7 57.869.140.359.757.856.7BN Stats Adapt62.338.054.6 53.062.338.054.6 53.062.338.054.6 53.062.338.054.653.052.0[61]第六十一话69.040.260.1 57.366.536.358.7 54.064.232.855.3 50.961.829.851.947.852.3CoTTA(拟定)70.941.262.4 59.770.941.062.7 59.770.941.062.8 59.770.841.062.859.758.6表6.标准ImageNet-to-ImageNet-C实验的平均错误超过10个不同的损坏序列(严重级别5)。Avg.误差(%)源BN Adapt[5]第五话帐篷[58]CoTTA图像网络-C82.472.171.466.563.0±1.8(0.1)由于错误累积和遗忘,TENT连续模型在后来的损坏类型上随着时间迅速恶化我们的方法产生了2.9%的错误率比BN统计适应的绝对改善,达到32.5%。更重要的是,随着时间的推移,改进变得更大,这表明所提出的方法能够从来自过去流的未标记的测试图像中学习,以进一步提高对当前测试数据的性能。4.4. ImageNet-to-ImageNet-C的实验为了对所提出的方法进行更全面的评估如表6所示,CoTTA能够持续优于TENT和其他竞争方法。后面的数字是10个不同损坏类型序列的标准差。4.5. 城市景观到ACDC的实验我们还评估了我们的方法更复杂的连续测试时间语义分割Cityscapes到ACDC任务。实验结果总结于表5中。结果表明,我们的方法也是有效的语义分割任务,是强大的架构的不同选择我们所提出的方法产生了1.9%的mIoU的绝对改善比基线,并实现58.6%的mIoU。值得一提的是BN Stats Adapt和TENT在此任务中表现不佳,并且性能随时间显著恶化这部分是因为两者都是专门为具有批量归一化层的网络设计的,而Segformer中只有一个批量归一化层,并且Transformer模型中的大多数归一化层都基于LayerNorm [2]。然而,我们的方法不依赖于特定的层,并且仍然可以在非常不同的架构上有效地执行这个更复杂的任务改进的性能在持续适应相对较长的时间后也在很大程度上保持。5. 结论在这项工作中,我们专注于在非平稳环境中的目标域分布可以随时间不断变化的连续测试时间为了解决这种设置中的错误积累和灾难性遗忘,我们提出了一种新的方法CoTTA,它包括两个部分。首先,我们通过使用加权平均和增强平均预测来减少误差其次,为了保存来自源模型的知识,我们随机地将一小部分权重恢复为源预训练的权重。所提出的方法可以在不需要访问源数据的情况下并入现成的预训练模型中。在四个分类和一个分割任务上验证了CoTTA的有效性鸣谢Qin Wang和Olga Fink的贡献由瑞士国家科学基金会资助PP00P2 176878。这项工作也由丰田汽车欧洲通过TRACE-Zurich项目资助。7209引用[1] ArseniiAshukha,AlexanderLyzhov,DmitryMolchanov,and Dmitry Vetrov.深度学习中的域内不确定性估计和集成的陷阱。ICLR,2020年。3[2] 吉米·雷·巴,杰米·瑞安·基罗斯,杰弗里·E·辛顿.层归一化。arXiv预印本arXiv:1607.06450,2016。8[3] 安德烈·博布,埃里克·曾,朱迪·霍夫曼和特雷弗·达雷尔。适应不断变化的领域。在ICLR研讨会,2018年。3[4] Chaoqi Chen , Weiping Xie , Wenbing Huang , YuRong , Xinghao Ding , Yue Huang , Tingyang Xu ,Junzhou Huang.无监督局部自适应的渐进式特征对齐。在CVPR中,第627-636页,2019年。2[5] 吉拉德·科恩和拉贾·吉里斯Katana:使用测试时间增加的 简 单 训 练 后 鲁 棒 性 。 arXiv 预 印 本 arXiv :2109.08191,2021。五、六[6] MM分割贡献者。MMSegmentation : Openmmlab 语 义 分 割 工 具 箱 和 基准。https://GitHub.com/open-mmlab/mmsegmentation,2020. 6[7] Marius Cordts , Mohamed Omran , Sebastian Ramos ,Timo Rehfeld,Markus Enzweiler,Rodrigo Benenson,Uwe Franke,Stefan Roth,and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。在CVPR,2016年。6[8] Francesco Croce,Maksym Andriushchenko,Vikash Se-hwag , Edoardo Debenedetti , Nicolas Flammarion ,Mung Chiang , Prateek Mittal , and Matthias Hein.RobustBench:一个标准化的对抗鲁棒性基准。NeuIPS数据集和基准跟踪,2021年。6[9] Ekin D Cubuk, Barret Zoph ,Dandelion Mane ,VijayVasude-van,and Quoc V Le.Autoaugment:从数据中学习增强策略。在CVPR,第113-123页,2019年。5[10] Matthias Delange、Rahaf Aljundi、Marc Masana、SarahParisot、Xu Jia、Ales Leonardis、Greg Slabaugh和TinneTuytelaars。持续学习调查:在分类任务中挑战遗忘。T-PAMI,2021年。3[11] Sayna Ebrahimi,Franziska Meier,Roberto Calandra,Trevor Darrell,and Marcus Rohrbach.对抗性的持续学习。在ECCV。Springer,2020年。2[12] 雅罗斯拉夫·甘宁和维克多·伦皮茨基。通过反向传播的无监督在ICML,第11802[13] Chuan Guo , Geoff Pleiss , Yu Sun , and Kilian QWeinberger.现代神经网络的校准。ICML,第1321-1330页。PMLR,2017年。2[14] Dan Hendrycks , Steven Basart , Norman Mu , SauravKadavath,Frank Wang,Evan Dorundo,Rahul Desai,Tyler Zhu,Samyak Parajuli,Mike Guo,et al
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功