动态无监督领域自适应方法及其应用

77 浏览量更新于2023-10-25 收藏 21.3MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

{muhammad.mirza, jakub.micorek, possegger, bischof}@icg.tugraz.at01002003004005003035404550147650规范必须继续：通过规范化实现动态无监督领域自适应0M. Jehanzeb Mirza 1, 2 Jakub Micorek 1 Horst Possegger 1 Horst Bischof 1, 201. 计算机图形与视觉研究所，格拉茨理工大学。2.嵌入式机器学习基督教多普勒实验室。0摘要0领域自适应对于将学习模型适应到新场景（例如领域转移或数据分布变化）至关重要。当前的方法通常需要来自转移领域的大量标记或未标记的数据。这在需要连续动态自适应或数据稀缺的领域中可能是一个障碍，例如在具有挑战性天气条件下的自动驾驶。为了解决这个连续适应分布变化的问题，我们提出了动态无监督自适应（DUA）。通过不断调整批归一化层的统计量，我们修改模型的特征表示。我们表明，通过仅使用目标域的一小部分未标记数据顺序地调整模型，可以获得很大的性能提升。即使使用少于1%的目标域未标记数据，DUA已经达到了与强基线方法相竞争的结果。此外，与以前的方法相比，计算开销很小。我们的方法简单而有效，可以应用于任何使用批归一化作为其组件之一的架构。我们通过在各种领域自适应数据集和任务上进行评估来展示DUA的实用性，包括目标识别、数字识别和目标检测。01. 引言0当训练和测试数据属于相同分布时，现代深度神经网络（DNNs）显示出有希望的结果[16, 26,68]。然而，如果存在领域转移，即测试数据来自不同的领域，神经网络往往难以泛化[4, 10,38]。事实上，即使只有轻微的分布转移，神经网络的性能也会明显下降[18,47]。克服领域转移期间性能下降的一种方法是从转移领域获取标记数据0用于自适应的样本数量0Top-1分类错误率（%）0仅源域 NORM TTT 动量ρ = 0.1 动量 ρ = 0.05动量 ρ = 0.025 动量 ρ= 0.01 DUA0（a）CIFAR-10C 结果。0（b）无雾天气中的检测结果（上）和带有DUA的雾天气中的检测结果（下）。我们将检测结果（蓝色）和真实值（橙色）叠加在一起。0图1. DUA的示例结果。a）在CIFAR-10C[18]上15种不同的损坏类型（最严重的级别5）的平均分类错误率。我们在使用少于1%的未标记数据从损坏的测试集中的情况下，优于最先进的NORM [42, 54]和TTT[60]。我们提出的自适应动量方案相对于固定的动量参数ρ具有更快和更稳定的改进。b）在恶化的天气条件下进行目标检测的定性结果：我们的DUA（底部）显著提高了在KITTI-Fog[14]上预训练的KITTI [11]的YOLOv3[48]的性能。最佳观看效果为彩色。0并重新训练网络。然而，大量数据的手动标注会带来巨大的人力和财力成本。这些问题可以通过无监督领域自适应（UDA）方法来解决，例如[4, 10, 12, 17, 24, 33, 34,14766052, 67,75]。对于UDA，目标是以无监督的方式修改网络参数，使其能够适应分布外的测试数据。传统上，这些方法需要标记的训练数据以及大量的未标记的测试数据。在许多实际场景中，传统要求，即同时访问标记的训练和大量的未标记的测试数据，往往无法满足。例如，在医疗领域，通常提供预训练模型而无法访问训练数据（由于隐私法规的限制）。同样，一些应用领域受益于对不断变化的环境进行动态自适应。例如，考虑用于自动驾驶的目标检测器，通常在大多数天气晴朗的图像上进行训练，例如[11, 15,58]。然而，在现实世界的情况下，天气可能会突然恶化，导致性能显著下降[40,41]。在这种情况下，无法从恶化的天气中获得标记的训练数据并从头开始重新训练检测器。更好的解决方案是在仅有少量（未标记的）恶劣天气示例的情况下动态调整检测器。在这项工作中，我们强调领域泛化的一个障碍是训练和（转移）测试数据之间的均值和方差的统计差异。因此，在推断过程中，我们通过批归一化层动态调整在训练过程中计算的运行均值和方差。此外，我们以在线方式动态地在一小部分测试数据上进行统计调整。为了确保稳定的自适应和快速收敛，我们提出了一种自适应更新方案。相关方法[28, 42, 54,63]通常忽略训练统计信息，并从头开始重新计算测试数据的批统计信息。然而，这需要大量的测试数据批次。我们认为，在现实世界的应用中，可能并不总是有大量的测试数据批次可用，例如自动驾驶车辆适应具有挑战性的天气（见图1）。我们表明，通过以在线方式（一次一个样本）调整运行均值和方差，可以实现显著的性能提升。特别是，我们仅需要从分布外数据中获取一小批连续样本。我们的贡献可以总结如下：0•我们展示了在少量无标签的测试数据上在线自适应批归一化参数可以提供强大的性能提升。即使使用不到1％的无标签测试数据，DUA的性能已经与使用整个测试集进行自适应的强基线相竞争。0•DUA是简单、无监督、动态的，不需要反向传播[50]。由于计算开销也可以忽略不计，因此非常适合用于实时应用。0用于实时应用。0•我们在各种领域转移基准上评估了DUA，展示了其有益的性能。我们在大多数基准上取得了最先进的结果，同时在其余基准上也具有竞争力。0•我们展示了我们的动态自适应方法适用于各种不同的任务和不同的架构。据我们所知，我们是首次展示目标检测的动态自适应。02. 相关工作0无监督领域自适应（UDA）近来引起了很大的关注。我们将这些方法总结为四个类别：减小领域之间的差异、对抗方法、自监督方法和纠正领域统计。通常在特定的网络层或对比的方式下，源域和目标域之间的差异减小通常是在特定的网络层或对比的方式下进行的。Long等人[37]匹配任务特定层的均值嵌入。Sun等人[56，57]通过最小化二阶统计量来对齐源域和目标域。他们对源域应用线性变换以使其与目标域对齐。Zellinger等人[73]提出通过引入中心矩差异（CMD）度量来匹配高阶矩以学习领域不变特征。Chen等人[2]提出通过匹配源域和目标域的三阶和四阶统计量来进行无监督领域自适应。另一方面，[23，64]使用对比学习[6]来减小领域之间的差异。对抗鉴别方法主要通过使用领域混淆损失来对齐源域和目标域的特征。Ganin等人[10]提出了一种基于预测必须在训练期间非鉴别性特征上进行的理念的方法。他们提出了一种新颖的梯度反转层，通过最大化领域混淆损失使源域和目标域的特征更加接近。Tzeng等人[62]也依赖于最大化领域混淆损失进行无监督领域自适应。Hong等人[19]使用完全卷积网络并使用生成对抗网络[13]来解决合成到真实特征对齐的问题。Chen等人[5]通过使用生成对抗网络来对齐全局和类别特征。对于各种任务，包括目标检测[4，8，17，24，65，67，69，70，75]，目标分类[30，33，34，36，46]和语义分割[1，3，22，29，71，76]，无监督领域自适应也采用了类似的方法，适用于2D和3D数据。自监督也被用于无监督领域自适应的目的。Sun等人[59]结合了不同的自监督辅助任务进行领域自适应。他们提出了在测试时间训练（TTT）中使用自监督的想法。他们提出了在测试时间去除固定决策边界的自我施加条件的想法。在他们的工作中，他们使用旋转预测任务[12]作为自监督任务，以使网络适应于分布不同的测试数据。对于UDA，还使用了通过批归一化层[21]计算的纠正领域统计。Li等人[28]提出了自适应批归一化，他们表明从头开始重新计算测试集的批归一化参数可以提高DNN的泛化能力。Carlucci等人[39]提出了可以在训练过程中学习超参数以找到源域和目标域统计的最佳混合的领域自适应层。Singh等人[55]研究了训练过程中较小批次大小的影响，并表明使用批归一化层的DNN受到较小批次大小的影响。他们提出了一个辅助损失来解决这个问题。类似地，[42，54，74]还表明，从头开始重新计算测试数据的批归一化统计量可以有助于解决源域和目标域之间的分布偏移问题。Wang等人[63]还为测试数据重新计算批归一化统计量。此外，他们通过计算预测的熵的损失并调整批归一化层的比例和偏移参数来适应。重要的是指出，[28，42，54，63]与TTT[60]共享相同的测试时间可变决策边界的理念。我们的工作与[28，42，54，63]密切相关，并且在哲学上与TTT[60]类似，旨在实现测试时间的可变决策边界。然而，我们与它们在几个基本方面有所不同：在[28，42，54，63]中，忽略了训练统计数据，而是从测试集重新计算批统计数据。因此，它们需要来自测试集的大批量数据。然而，通常情况下，可能无法获得大批量的测试数据。相反，我们以在线方式（对每个样本）调整从训练数据计算的统计数据。我们通过使用不到1％的无标签测试数据展示了有竞争力的结果，而之前的方法都使用了完整的测试集。此外，与[60，63]等先前方法不同，我们的方法不需要反向传播。我们的情景对于动态自适应更加现实，其中我们一次只能获得一个测试帧。ˆx =x − E[X]Var[X] + ϵ· γ + β,(1)ˆµk = (1 − ρ) · ˆµk−1 + ρ · µk,(2)ˆσ2k = (1ρ) ˆσ2k1 + ρ σ2k.(3)147670不同的自监督辅助任务用于领域自适应。Sun等人[60]还提出了具有自监督的测试时间训练（TTT）。他们提出了在测试时间去除固定决策边界的自我施加条件的想法。在他们的工作中，他们使用旋转预测任务[12]作为自监督任务，以使网络适应于分布不同的测试数据。纠正由批归一化层[21]计算的领域统计量也被用于UDA。Li等人[28]提出了自适应批归一化，他们表明从头开始重新计算测试集的批归一化参数可以提高DNN的泛化能力。Carlucci等人[39]提出了可以在训练过程中学习超参数以找到源域和目标域统计的最佳混合的领域自适应层。Singh等人[55]研究了训练过程中较小批次大小的影响，并表明使用批归一化层的DNN受到较小批次大小的影响。他们提出了一个辅助损失来解决这个问题。类似地，[42，54，74]还表明，从头开始重新计算测试数据的批归一化统计量可以有助于解决源域和目标域之间的分布偏移问题。Wang等人[63]也为测试数据重新计算批归一化统计量。此外，他们通过计算预测的熵的损失并调整批归一化层的比例和偏移参数来适应。重要的是指出，[28，42，54，63]与TTT[60]共享相同的测试时间可变决策边界的理念。我们的工作与[28，42，54，63]密切相关，并且在哲学上与TTT[60]类似，旨在实现测试时间的可变决策边界。然而，我们与它们在几个基本方面有所不同：在[28，42，54，63]中，忽略了训练统计数据，而是从测试集重新计算批统计数据。因此，它们需要来自测试集的大批量数据。然而，通常情况下，可能无法获得大批量的测试数据。相反，我们以在线方式（对每个样本）调整从训练数据计算的统计数据。我们通过使用不到1％的无标签测试数据展示了有竞争力的结果，而之前的方法都使用了完整的测试集。此外，与[60，63]等先前方法不同，我们的方法不需要反向传播。我们的情景对于动态自适应更加现实，其中我们一次只能获得一个测试帧。03. 方法0首先，在第3.1节中，我们总结了批归一化[21]，因为它是我们方法的核心。然后，在第3.2节中详细介绍了我们的DUA方法。03.1. 批归一化0Ioffe和Szegedy[21]提出了批归一化层，它已成为现代深度神经网络中的重要组成部分。0每个网络中的批归一化层计算来自训练数据X的每个激活的均值和方差，并将每个输入样本x归一化为0其中γ和β是比例和偏移参数，ϵ用于数值稳定性。通过运行均值估计训练统计量的期望值E [X]，0训练统计量的方差Var[X]通过运行方差估计，0这里，ˆ µ和ˆ σ2是从训练数据估计得到的均值和方差，而µ和σ2表示输入批次的均值和方差。超参数ρ是动量项（默认ρ =0.1），k表示每个训练步骤。直观地说，ρ可以被视为控制现有统计估计受到输入批次统计的影响程度的因子。较大的动量值实际上会更多地权衡输入批次的计算统计量。实验证明，批归一化有助于更快地训练，并稳定训练过程[53]。批归一化的行为在训练和测试期间有所不同，具体如下：0训练：在训练过程中，批归一化层计算整个训练集上的运行均值和方差。通过反向传播学习方程（1）中的比例参数γ和偏移参数β。每次前向传递时，使用新的批次统计数据更新运行均值和方差。0测试：在推理过程中，批归一化层的运行均值和方差是固定的。在测试过程中遇到的每个新样本都使用在训练期间计算的总体统计数据进行归一化。03.2. 动态无监督适应0设Φ src 是仅使用源数据X src训练的网络。我们的目标是以无监督的方式将训练好的模型适应到分布不同的目标数据X tar上。当训练和测试数据属于相似分布时，批归一化层表现出色[16,68]。然而，在许多实际情况下，情况并非如此。已经证明，当遇到分布不同的测试数据时，批归一化会显著影响性能[9, 28, 42, 54, 63, 66]。其中一个原因是ˆµk = (1 − (ρk + ζ)) · ˆµk−1 + (ρk + ζ) · µk,(4)ˆσ2k = (1 − (ρk + ζ)) · ˆσ2k−1 + (ρk + ζ) · σ2k,(6)147680激活分布0通道0（a）源模型0激活分布0通道0（b）使用DUA适应的模型0图2.CIFAR-10上训练的ResNet-26模型最后一个批归一化层的64个通道的输出分布密度图。a）黄色是训练数据的输出分布。红色是经过对比度级别为5[18]的移位测试数据的输出分布，即受到破坏。特征响应的不对齐是性能下降的一个原因。b）黄色是训练数据的输出分布。蓝色是经过对比度级别为5的移位测试数据的输出分布，即经过DUA适应后。DUA将受损数据的输出分布与干净（训练）分布紧密对齐。最佳观看效果为彩色。0性能下降是训练和非分布式测试数据之间激活分布的不匹配，如图2a所示。因此，我们的自适应过程将训练和移位测试数据之间的激活分布对齐，如图2b所示。在我们提出的自适应模式中，网络Φ src的所有参数，除了运行均值和运行方差之外，都是固定的。我们只通过使用从 X src 获得的训练统计数据作为先验来将E [ X ] 和 Var[ X ] 从公式（1）的新统计数据 X tar中进行调整。通过以顺序方式逐个处理（移位）测试数据的新示例来更新训练统计数据。一种简单的方法是使用固定的动量参数ρ来更新统计数据，如公式（2）和（3）所示。然而，如图1a所示，这种固定动量会导致一些问题：自适应性能要么不稳定，要么收敛较慢。这是因为使用默认参数时，运行均值和方差的自适应性非常不稳定，如图3a所示。因此，为了实现稳定和快速的收敛，我们通过每个新样本来调整动量。更具体地说，我们依次更新均值和方差：0其中 ˆ µ 0 = ˆ µ s , ρ k = ρ k − 1 ∙ ω, ρ 0 = 0 . 1 , (5)0和0其中 ˆ σ 2 0 = ˆ σ 2 s , ρ k = ρ k − 1 ∙ ω, ρ 0 = 0 . 1 .(7)0这里， ω ∈ (0 , 1) ，是动量衰减参数，而 ζ ，满足 0< ζ < ρ 0 ，是一个常数，定义了动量的下界。随着动量ρ k的衰减，后面的样本将产生较小的影响。我们的自适应动量方案直接影响运行均值和方差的调整。与默认参数相比，调整变得更加稳定，如图3b所示。每当我们从（移位）测试分布中获得一个新样本时，我们通过增加传入样本来创建一个小批次。特别是，我们使用随机水平翻转、随机裁剪和旋转。在我们的实验中，我们确保所使用的增强与CIFAR-10/100C中的任何污染不相关。我们在补充材料中提供了用于适应的批次示例。在我们的评估过程中，我们发现从单个图像创建一个小批次可以稳定自适应过程并改善结果，尽管这对于我们的自适应方案的工作并不是严格必要的。批处理和增强的效果在我们的消融研究中进行了分析。04. 结果0接下来，我们将在各种任务和基准测试中评估DUA。首先，我们总结数据集。接下来，我们介绍我们要进行比较的方法。最后，我们呈现详细的结果。02550751001251501752000.00-0.05-0.10-0.1502550751001251501752000.650.600.550.500.450.40Running VarianceImpulse NoiseDefocus BlurShot NoiseElastic TransformPixelate02550751001251501752000.00-0.05-0.10-0.1502550751001251501752000.650.600.550.500.450.40Running VarianceImpulse NoiseDefocus BlurShot NoiseElastic TransformPixelate147690运行均值0迭代次数/样本数量0（a）默认参数0运行均值0迭代次数/样本数量0（b）DUA0图3.CIFAR-10C中不同污染情况下最后一个批归一化层的单通道运行均值和方差。a）使用默认动量参数时每个自适应迭代的运行均值和方差值。这些值非常不稳定，导致自适应不稳定。b）DUA建议使用自适应动量方案，从而实现快速和稳定的收敛。这是因为运行均值和方差值的稳定性。最初，分布相距较远，因此我们希望更大的更新步骤（更快的同化），而后来较小的更新步骤是有益的。0高斯射击脉冲缺陷光斑运动噪声雪霜亮度对比度漏斗像素 JPG 均值0源 67.7 63.1 69.9 55.3 56.6 42.2 50.1 31.6 46.3 39.1 17.1 74.6 34.2 57.9 31.7 49.2 TTT 45.6 41.8 50.0 21.8 46.1 23.0 23.9 29.930.0 25.1 12.2 23.9 22.6 47.2 27.2 31.4 NORM 44.6 43.7 49.1 29.4 45.2 26.2 26.9 25.8 27.9 23.8 18.3 34.3 29.3 37.0 32.5 32.9DUA 34.9 32.6 42.2 18.7 40.2 24.0 18.4 23.9 24.0 20.9 12.3 27.1 27.2 26.2 28.7 26.80源 28.8 22.9 26.2 9.5 20.6 10.6 9.3 14.2 15.3 17.5 7.6 20.9 14.7 41.3 14.7 18.3 TENT 15.8 13.5 18.7 8.1 18.7 9.1 8.0 10.3 10.8 11.76.7 11.6 14.1 11.7 15.2 12.3 DUA 15.4 13.4 17.3 8.0 18.0 9.1 7.7 10.8 10.8 12.1 6.6 10.9 13.6 13.0 14.3 12.10表1. CIFAR-10C中每种损坏情况的最高严重程度（Level 5）的Top-1分类错误率（%）。源表示在干净的训练集上训练并在损坏的测试集上进行测试的结果。为了与TTT和NORM进行公平比较，我们使用了ResNet-26（上）；而对于TENT，我们使用了它们官方实现中的WRN-40-2（下）。最小的错误率以粗体显示。04.1. 基准和任务0CIFAR-10/100C: CIFAR-10C和CIFAR-100C [ 18]是用于测试模型对协变量转移的鲁棒性的图像分类基准。这些基准在CIFAR-10/100 [ 25]的原始测试集上添加了不同的损坏情况，共有5个严重程度级别。按照常见的协议[ 42 , 60 , 63]，我们评估了15种类型的损坏情况。0ImageNet-C: 与CIFAR-10/100C基准类似，ImageNet-C [18]也是一个图像分类数据集，将不同的损坏情况引入到ImageNet [ 7 ]的原始测试集中，且有多个严重程度级别。0KITTI:为了测试DUA在自动驾驶车辆的目标检测任务上的自适应能力，我们使用了著名的KITTI [ 11 ]数据集。此外，我们还使用了KITTI-Rain和KITTI-Fog数据集[ 14]，以测试KITTI预训练模型在恶劣天气下的适应性能。0KITTI-Rain和KITTI-Fog数据集[ 14]，以测试KITTI预训练模型在恶劣天气下的适应性能。04.2. 基线0我们将我们的DUA与以下方法进行比较：0• Source :表示仅在源数据上训练的相应基线模型的结果，即没有对测试数据进行任何自适应。0• TTT : 测试时间训练（TTT）[ 60]通过在每个（非分布式）数据样本上使用辅助任务来调整网络参数，然后再进行测试。0• NORM [ 42 , 54 ]:完全忽略训练统计数据，并在整个测试集上重新计算批归一化统计数据，利用更大的批量大小。CIFAR-10/100CImageNet-C1TTT: https://github.com/yueatsprograms/ttt_cifar_release2NORM: https://github.com/bethgelab/robustness3TENT: https://github.com/DequanWang/tent147700高斯射击脉冲缺陷光斑运动噪声雪霜亮度对比度漏斗像素 JPG 均值0源 89.5 88.8 95.5 68.4 83.3 65.0 63.5 62.4 74.9 70.3 42.9 83.0 61.1 84.4 65.5 73.2 TTT 83.8 83.0 86.8 59.9 77.7 57.9 59.2 61.570.6 70.5 44.5 69.8 56.5 80.2 60.3 68.1 NORM 72.5 72.7 77.1 48.6 69.3 49.7 47.9 59.5 59.7 58.4 41.8 53.1 58.8 57.3 67.7 59.6DUA 67.9 67.3 72.6 47.9 66.1 51.6 46.6 58.1 57.6 54.4 41.3 58.6 55.3 53.3 60.7 57.30源 65.7 60.1 59.1 32.0 51.0 33.6 32.4 41.4 45.2 51.4 31.6 55.5 40.3 59.7 42.4 46.7 TENT 40.3 39.9 41.8 29.8 42.3 31.0 30.0 34.535.2 39.5 28.0 33.9 38.4 33.4 41.4 36.0 DUA 42.2 40.9 41.0 30.5 44.8 32.2 29.9 38.9 37.2 43.6 29.5 39.2 39.0 35.3 41.2 37.60表2. CIFAR-100C中每种损坏情况的最高严重程度（Level 5）的Top-1分类错误率（%）。0高斯射击脉冲缺陷光斑运动噪声雪霜亮度对比度漏斗像素 JPG 均值0源 98.4 97.7 98.4 90.6 93.4 89.8 81.8 89.5 85.0 86.3 51.1 97.2 85.3 76.9 71.7 86.2 TTT 96.9 95.5 96.5 89.9 93.2 86.5 81.5 82.982.1 80.0 53.0 85.6 79.1 77.2 74.7 83.6 NORM 87.1 89.6 90.5 87.6 89.4 80.0 71.9 70.6 81.5 66.9 47.8 89.8 73.5 64.2 68.5 77.3DUA 89.4 87.6 88.1 88.0 88.6 84.7 74.3 77.8 78.4 68.6 45.6 95.9 72.2 66.5 67.4 78.20表3. ImageNet-C中每种破坏的最高严重程度（Level5）的Top-1分类错误率（%）。源表示在原始ImageNet上预训练的模型在破坏的测试集上的结果。所有结果都是使用ResNet-18骨干网络获得的。最小错误率以粗体显示。0• TENT : 测试时熵最小化（TENT）[ 63]通过反向传播重新计算批归一化统计量，并通过修改批归一化层的缩放和偏移参数（ γ 和 β）来修改它们。他们通过在来自分布外的大批量测试数据上计算预测熵来获得梯度。04.3. 实验0在本节中，我们提供了在不同数据集和基准测试上获得的所有结果的描述。我们在轻微的分布转移和严重的领域转移中测试了我们的DUA。对于我们的结果，我们总是使用少于1%的未标记测试数据，并以顺序方式对每个进入的样本进行适应（我们实验中用于适应的确切测试样本数量在补充材料中列出）。所有其他基线的结果都是通过在完整的测试集上进行适应来获得的，如其原始论文所述。请注意，与其他方法[ 42 , 54 , 63]相比，我们也不需要控制测试集的洗牌。除非另有说明，我们固定动量衰减参数 ω = 0 . 94 ，下界 ζ = 0 . 005。有关所有实验的详细信息，请参阅补充材料。为了重现实验结果，DUA的代码可在以下存储库中找到：https://github.com/jmiemirza/DUA0为了与TTT和NORM进行公平比较，我们使用ResNet-26 [16 ]，并遵循他们的参数化设置0对于TTT，我们使用了官方实现1,2。同样，对于TENT，我们使用了官方实现3中的Wide-ResNet-40-2 [ 72]。表1显示了在CIFAR-10C上最高严重程度级别的结果。请注意，我们实现了新的最先进结果。所有其他方法都使用了完整的测试集，大多数还使用了更大的批量大小和控制测试数据的洗牌。CIFAR-100C的结果列在表2中。在这里，DUA在超过TTT和NORM的同时与TENT竞争。较低严重程度级别的结果在补充材料中提供，表明DUA在较轻微的破坏方面也能提供强大的结果。0对于ImageNet-C的评估，我们使用了PyTorch [ 44]中的现成预训练ResNet-18。表3显示了最高严重程度级别的Top-1错误率。DUA在ImageNet-C上与所有基线表现相当。较低严重程度级别的结果在补充材料中提供。0目标检测0我们还测试了我们的方法在目标检测中的效果，并取得了显著的改进。我们使用YOLOv3 [ 48]进行这些实验。然而，我们的方法也可以应用于其他基础架构，如[ 31 , 35 , 49 , 61]，它们使用批归一化。为了评估我们的方法在目标检测上的效果，我们考虑了以下两种情况：(a) KITTI → KITTI-Fog(b) KITTI → KITTI-Rain147710汽车行人骑车者0仅源域 30.9 34.1 16.2 DUA 51.4 48.5 33.1完全监督 71.3 64.5 63.20汽车行人骑车者0仅源域 80.7 66.7 54.6 DUA 86.3 70.3 66.7完全监督 92.3 76.1 78.20表4. 在雨和雾数据集上测试KITTI预训练的YOLOv3的结果。我们报告平均精度（mAP@50）。a）最严重的雾等级，即30米能见度。b）最严重的雨等级，即200毫米/小时的降雨强度。0•在协变量转移期间的评估；这些评估是为了适应雨和雾的条件。0• 在领域转移期间的评估；这些评估测试了数据集之间的领域适应。0在恶劣天气条件下，目前的目标检测器性能急剧下降[40,41]。我们的目标是将在晴天数据上训练的检测器动态适应到恶劣天气条件下。在KITTI上增加了最严重的雾和雨的适应结果分别显示在表4a和4b中。对于雾，所有常见评估类别（即汽车、行人和骑车者）相对于源模型的平均改进为17.7%mAP。同样，在适应雨的过程中，我们也取得了显著的改进。在这里，相对于源模型的平均改进为7.1%mAP。关于不同严重程度的雾和雨的其他结果详见补充材料。0其他结果0我们还在补充材料中展示了DUA在其他几个数据集和适应任务上的好处。特别地，我们对以下内容进行了DUA的评估：0数字识别：DUA可以成功地用于跨数据集的领域适应，我们以手写数字识别任务为例进行了演示。特别地，我们使用了MNIST [27]和USPS[20]，这是由手写数字组成的数据集。此外，我们还使用了SVHN[43]，这是一个包含从Google街景图像中获得的房屋号码的数据集。0Office-31 [51]:是一个用于目标分类的视觉领域适应数据集，包含31个常见物体类别，在办公环境中捕获的图像，分为三个不同的设置。这些设置包括通过网络摄像头捕获的图像，通过DSLR捕获的图像以及从亚马逊收集的图像。我们在这三个设置之间进行领域适应的测试。0VIS-DA：视觉领域适应[45]数据集（VIS-DA）是一个大规模的图像识别数据集，0包含12个类别。训练集由合成图像组成。测试集由从MS-COCO数据集[32]裁剪的真实图像组成。0SODA10M：用于自动驾驶车辆的大规模目标检测数据集SODA10M[15]提供了白天和夜晚的数据。我们测试了从白天到夜晚的适应。此外，我们还测试了KITTI和SODA10M之间的领域适应。05. 消融研究0在本节中，我们进行了详细的消融研究，以更详细地研究我们的方法。05.1. 样本顺序无关紧要0为了了解适应过程中样本的顺序是否有重要性，我们对CIFAR-10C进行了300次独立运行的DUA，并在每次运行中随机洗牌测试集。初始的、仅源模型的平均错误率为49.2%。在适应了5个样本后，300次运行中最大的标准差出现在36.4±0.4。在适应了25个样本后，我们的平均错误率为28.3±0.19。在适应了100个样本后，性能趋于稳定，我们的平均错误率为27.2±0.09（详细的绘图见补充材料）。因此，DUA的性能在所有独立运行中都是稳定的，变化很小。这些结果很重要，可以理解DUA可以适应任何样本的排列。05.2. 连续动态适应0为了了解DUA在不同天气条件可以交替出现的现实场景中的表现如何，我们在KITTI-Fog上进行了这样的场景测试：白天→雾→白天→等等。结果如图4所示。请注意，在源域上只有轻微的下降（例如，在第100次迭代中比白天基线差5.8%），而且我们可以迅速恢复到相同的性能。这表明，尽管DUA不是一种增量学习方法，但它仍然记住了先前领域的信息。我们推测这是因为在适应过程中不改变学习到的权重。DUA只在测试时改变激活分布。0100200300400Iterations/Number of Samples020406080100Mean Average Precision (mAP) %Day → Fog27.1% → 52.7%Fog → Day84.9% → 89.3%Day → Fog38.5% → 48.3%Fog → Day80.1% → 86.7%SourceBlock1Block2Block3Blocks1-2Blocks1-3Blocks2-3Blocks1-2-3All20304050Top-1 Classiﬁcation Error (%)49.236.835.332.828.428.029.426.926.8BS-1BS-8BS-16BS-32BS-64BS-1282527293133Top-1 Classiﬁcation Error (%)32.232.332.332.332.332.328.327.927.927.827.927.928.427.527.527.427.427.429.027.127.027.026.826.8147720动态自适应（日→雾→日→雾→日）0日→雾雾→日0条件变化基线日（90.7%）0图4.DUA的动态自适应场景。我们让KITTI预训练模型适应雾，然后返回到原始KITTI数据集进行两个周期，以展示DUA如何动态适应不断变化的天气条件。0图5.在适应特定ResNet-26块的批归一化层后的CIFAR-10C结果。'全部'指的是适应所有批归一化层。这包括三个ResNet块后的最后一个批归一化层。05.3. 消除批归一化层0我们在图5中研究了仅适应选定的批归一化层的效果。为此，我们适应了特定ResNet-26块的批归一化层，同时保持其他所有层不变。从图中可以看出，适应架构中的所有批归一化层可以获得最佳性能。在后期批归一化层中，个别改进略大。05.4. 增强效果0如第3.2节所述，我们从每个输入样本中形成一小批增强版本。在图6中，我们消除了不同的增强和批次大小以研究它们的影响。除了为我们的自适应过程提供稳定性外，形成一个小批次并对其进行随机增强还可以进一步提高性能。对于我们的实验，我们通过增强每个输入图像来形成一个大小为64的批次。然而，即使批次大小只有8，也足以从DUA中受益（仅限于mi-0无增强裁剪裁剪+翻转裁剪+翻转+旋转0图6.不同批次大小和数据增强对CIFAR-10C和ResNet-26的影响。DUA通过使用不同的随机增强方法将每个连续图像组成一个批次。请注意，源错误率（无自适应）为49.2%。0无需牺牲性能）。06. 结论0我们已经证明，即使是轻微的训练和测试数据之间的分布偏移也会严重影响现代神经网络的性能。我们通过DUA来解决这个限制，DUA在每个来自分布不同的测试数据的未标记样本上以顺序方式调整训练模型的统计数据。为了确保快速和稳定的自适应，我们引入了自适应动量方案。DUA不需要访问训练数据，只需要一小部分测试数据就能达到与强基线相竞争的结果。在各种具有挑战性的基准和任务上进行了大量实验，证明了我们的方法在广泛的基于批归一化的架构上的实用性。由于我们可以以最小的计算开销动态适应不断变化的分布，DUA也非常适合实时系统和嵌入式设备。0致谢我们衷心感谢奥地利联邦数字和经济事务部、国家研究、技术和发展基金会以及克里斯蒂安∙多普勒研究协会的财务支持。这项工作还得到了奥地利研究促进局（FFG）在High-Scene项目（884306）下的部分资助。0参考文献0[1] Matteo Biasetton，Umberto Michieli，GianlucaAgresti和PietroZanuttigh。城市场景语义分割的无监督域自适应。在CVPRW会议上，2019年。20[2] Chao Chen，Zhihang Fu，Zhihong Chen，Sheng Jin，ZhaoweiCheng，Xinyu Jin和Xian-Sheng Hua。HoMM：Higher-147730无监督域自适应中的订单时刻匹配。在AAAI会议上，2020年。20[3] Hongruixuan Chen，Chen Wu，Yonghao Xu和BoDu。通过低级边缘信息传递进行语义分割的无监督域自适应。arXiv预印本arXiv:2109.08912，2021年。20[4] Yuhua Chen, Wen Li, Christos Sakaridis, Dengxin Dai, andLuc Van Gool. 用于野外目标检测的领域自适应FasterR-CNN。在CVPR 2018年会议论文集中。1，20[5] Yi-Hsin Chen, Wei-Yu Chen, Yu-Ting Chen, Bo-ChengTsai, Yu-Chiang Frank Wang, and Min Sun.没有更多歧视：道路场景分割器的跨城市自适应。在ICCV2017年会议论文集中。20[6] Sumit Chopra, Raia Hadsell, and Yann LeCun.通过应用于人脸验证的相似性度量进行判别学习。在CVPR2005年会议论文集中。20[7] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, andLi Fei-Fei. ImageNet：一个大规模的分层图像数据库。在C

下载后可阅读完整内容，剩余1页未读，立即下载