Refign：基于自训练的语义分割在不良条件下的对齐和优化

51 浏览量更新于2023-10-15 收藏 13.4MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

31740Refign：将语义分割适应于不良条件的对齐和优化0David Bruggemann Christos Sakaridis Prune Truong Luc Van Gool ETHZurich, Switzerland0{ brdavid, csakarid, truongp, vangool } @vision.ee.ethz.ch0摘要0由于在不良视觉条件下记录的图像缺乏密集的像素级语义注释，对于这类图像的语义分割，人们对无监督域自适应（UDA）表现出浓厚的兴趣。UDA将在正常条件下训练的模型适应目标不良条件域。同时，多个包含驾驶场景的数据集提供了相同场景在多种条件下的对应图像，这可以作为域自适应的一种弱监督形式。我们提出了Refign，这是一种基于自训练的UDA方法的通用扩展，利用这些跨域对应关系。Refign包括两个步骤：（1）使用一种基于不确定性的密集匹配网络将正常条件图像与对应的不良条件图像进行对齐，（2）使用自适应标签校正机制对不良预测进行优化。我们设计了定制模块来简化这两个步骤，并在ACDC和DarkZurich等多个不良条件基准测试中取得了新的最佳结果。该方法不引入额外的训练参数，在训练过程中只有最小的计算开销，并且可以作为一种插件扩展来改进任何给定的基于自训练的UDA方法。代码可在https://github.com/brdav/refign上获得。01. 引言0语义分割可以说是场景理解中最重要的任务之一。对于完全自主的车辆系统，需要准确可靠的像素级语义信息。在这种安全关键的应用中，分割模型对不良视觉条件的鲁棒性至关重要。由于最先进的语义分割模型通常在清晰天气的数据集上进行训练[6]，这些数据集提供了详细的像素级注释，因此它们在不良条件下[19, 37]表现脆弱。0目标0参考0对齐0目标预测0优化0图1.通过利用与目标场景相似的参考图像，Refign通过两个步骤改进目标预测：（1）将参考预测与目标进行空间对齐。（2）通过自适应标签校正机制对目标预测进行优化。0图像质量、光照或天气的变化。因此，大量的研究集中在无监督域自适应（UDA）上，将这些模型适应到不同的域中，这些域中没有可用的标签[14,35,52,54,65]。在本文中，我们提出了一种扩展的UDA方法，利用额外的参考图像（或正常条件图像）来改进目标域图像的预测结果（见图1）。参考图像描绘了与目标图像相同的场景，尽管视角不同，但在有利条件下（白天和晴天）拍摄。对于驾驶数据集，可以通过两次捕捉相同路线并通过GPS匹配帧来以最小的额外工作收集这样的图像对。近年来，一些驾驶数据集遵循了这个过程，例如RobotCar [27]，Dark Zurich [38]，ACDC[37]和Boreas[4]。当将语义分割模型从正常条件数据集（例如Cityscapes[6]）适应到不良条件时，参考帧代表了一个中间域。虽然它们在传感器和区域特征上与目标帧重叠，但它们共享源域的天气和时间。即使参考图像和目标图像在语义内容上可能略有不同，但这可以通过提供互补的、更容易学习的信息来增强域自适应过程。当前最先进的UDA方法[15,61,70]依赖于自训练[66]，其中网络使用自己的目标域预测作为自我监督进行训练。自训练的惊人有效性主要归因于巧妙的正则化策略[57]。31750由于缺乏真实标签，它容易受到确认偏差的影响。这些正则化策略旨在以迭代的方式将可用的真实标签正确传播到相邻的未标记样本。这个过程中的一个关键问题是噪声标签的误差传播，如果不加以缓解，会导致伪标签的漂移。已经证明大型神经网络很容易过拟合标签噪声，从而降低它们的泛化性能[1,69]。我们的方法通过结合两个独立视图的预测来改善这个误差传播问题，以推理给定场景的标签。广义上讲，它可以被认为是多视图学习的一个实例[64]。更具体地说，我们将目标预测视为一个噪声标签，通过补充的参考类别概率来修改它，将融合过程视为自标签校正[55]。回应该领域的最新进展，我们设计了一种自适应标签细化机制，允许学习器忽略或修正噪声标签。考虑到语义分割需要精确的像素级预测，我们假设参考-目标标签融合在两个帧之间的空间对齐中获得很大的好处。因此，在细化之前的一个预备步骤中，我们将参考预测进行变形，使其与目标对齐。考虑到这种对齐是不完美的——由于动态物体、遮挡和变形不准确性——我们同时估计每个变形像素的置信度，这在下游的细化过程中起到指导作用。为了简化这个过程，我们设计了一个几何匹配框架WarpC的概率扩展，并展示了它在准确性和不确定性意识方面的有效性。总的来说，Refign由对齐模块和细化模块组成。这两个模块在训练过程中引入了有限的计算开销，并且被证明可以显著提高基线UDA方法的性能。当添加到DAFormer [15]之上时，Refign在ACDC和DarkZurich上的语义分割mIoU分别达到了65.6%和56.2%，在这些恶劣条件的基准测试中创造了新的技术水平。02. 相关工作0适应恶劣领域。已经有一些关于语义分割的领域适应的工作，这些工作主要关注源域和目标域的对抗性对齐[13, 14, 26,39, 52–54, 56, 71]，目标域中使用伪标签的自训练[75,76]，以及将自训练与对抗性适应[24]或通过显式变换从源域到目标域的像素级适应[20,65]相结合。对于从正常到恶劣领域的适应，目前提出的方法较少，而这对于实际场景非常重要，比如自动驾驶，其中感知系统需要适应恶劣条件。0对不利条件具有鲁棒性，如雾、夜晚、雨和雪。从晴天对应物生成部分合成数据，已经被证明可以提高在具有雾[36]和雨[47]的真实恶劣条件集上的性能。通过基于课程的方案，利用逐渐增加的逆境领域序列[7, 35,60]。轻量级输入适配器[30]和对抗风格转换[33,43]被提议作为在预测源域模型之前的通用预处理步骤。利用不同领域之间的共享特征，如传感器和时间[9]或可见性[22]，来学习跨不同数据集的一致表示。最近引入的具有图像级跨条件对应关系的恶劣条件语义分割数据集，如DarkZurich [34]和ACDC[37]，已经为适应恶劣条件提供了弱监督。在[21]中使用稀疏的像素级对应关系来强制预测在不同条件下的一致性。DANIA[59]将白天预测变形为夜晚图像视点，并仅对静态类应用一致性损失。与他们的工作不同，我们直接使用一个具有不确定性感知的密集匹配网络来变形两个对应的图像。变形的不确定性为下游融合提供了指导，使得细化更加细致，甚至可以包括动态物体。最后，尽管大多数前述方法都针对特定条件进行了优化，但我们的方法可以应对任意恶劣条件。0稠密几何匹配。稠密对应估计旨在找到一对图像之间的像素级匹配。例如，[23, 28, 32,51]等方法预测一个4D相关性体积，从中提取密集的对应关系作为匹配分数的argmax。我们的匹配网络则遵循最近的一系列工作[18, 28, 40,48–50]，直接回归密集的光流场或对应关系图。DGC-Net[28]采用了一种由粗到细的方法，在最粗糙的尺度上构建全局代价体积以处理大的运动。然而，它只能处理固定、低分辨率的输入图像，这严重影响了预测流的准确性。为了解决这个问题，GLU-Net[48]集成了局部和全局的相关层。RANSAC-Flow[40]基于两阶段的细化策略，首先估计关联图像对之间的单应性，然后通过预测的残差流进行细化。COTR[18]依赖于基于transformer的架构进行匹配。与我们类似，PDC-Net[49]采用概率框架来回归光流及其不确定性。与我们的工作不同的是，它需要获取稀疏的地面真值匹配。Source Image ISSource Ground Truth YSTarget Image ITReference Image IRfθfθfEMAfEMAˆYSˆYTQRQTYTQaRPRQrT4:1TT11:l =( ˆY , Y ) +( ˆY , Y )14:ˆYR ← fθ(IR)15:l = L( ˆYS, YS) + L( ˆYR, YR)31760Re�gn0L0L0对齐0改进0伪造的0图2.UDA的通用自训练，由提出的Refign（灰色区域）补充。Refign利用额外的参考图像通过两个模块来改进目标伪标签。ALIGN模块是一个预训练的密集匹配网络（第3.1节），它（1）通过变形将参考预测与目标对齐（Q a R），并（2）估计变形的置信度图（PR）。REFINE模块（第3.2节）将上述量结合起来，改进自训练的目标伪标签YT。只有实线箭头反向传播梯度。0通过结构运动（SfM）进行训练。相反，我们提出了一种基于概率的warp一致性框架的扩展[50]，它利用了合成流和真实图像对，并且不需要训练注释。标签修正。标签修正（LC）方法旨在通过修改one-hot标签来改善从噪声标签中学习，例如通过与预测分布的凸组合。基于响应的知识蒸馏（KD）[12]方法是LC的一个重要例子。虽然KD中的修正是由一个单独的教师模型发起的，但Self-LC方法[31, 42, 44, 55,68]依赖于学习器自身来纠正错误的标签。与我们的方法类似，多个工作使用Self-LC来改进面向域自适应语义分割的自训练[70,73,74]。与这些工作不同，我们的方法利用了从同一场景的两个不同视角获得的互补信息来纠正标签。03. Refign0给定来自源域S（例如Cityscapes[6]）的标记图像，以及来自目标域T（例如ACDC[37]的恶劣条件图像）和参考域R（例如ACDC的正常条件图像）的无标记、对应的图像对，我们的目标是学习一个模型，为目标域图像预测语义分割图。在训练过程中，只有源域图像有真值语义分割标签。假设参考图像描绘了与目标图像相同的场景，但是从不同的视点和更好的视觉条件下观察。我们的方法Refign是一个与框架无关的自训练UDA方法的扩展，利用了从两个不同视角获得的互补信息来纠正标签。0算法1.通用UDA自训练，结合Re- fign（灰色区域）补充。0要求：样本D S，D T，D R，初始化网络f θ，预训练对齐模块ALIGN01：对于i从0到N循环执行02：更新/初始化教师网络f EMA03: 从 D S 中采样 ( I S , Y S ) ，从 D T 中采样 I T ，从 D R 中采样 I R05: if RAND (0 , 1) < 0 . 5 then // 适应 T06: Q T ← f EMA ( I T ) 且 Q R ← f EMA ( I R )07: Q a R , P R ← ALIGN ( Q R , I R , I T ) // 将 Q R 变形08: Q r T ← REFINE ( Q T , Q a R , P R ) // 公式 609: Y T ← PSEUDO ( Q r T ) // 例如通过 argmax012: else // 适应 R016: 结束条件017: 对 θ 应用梯度下降，梯度为 � θ l018: 结束循环0额外的参考图像。Refign的基础假设是 R 可以作为 S 和 T之间的中间域。已经有很多研究表明中间域可以增强UDA的效果。在我们的情况下，我们假设对于 R的高质量预测可以用来指导 T中的自训练。图2显示了一个通用的自训练UDA设置，其中我们的Refign模块被标记为灰色。在每个训练迭代中，模型fθ同时使用源域的真实标签YS和目标域的伪标签YT进行训练。大多数最先进的UDA方法[15,16,61]使用Mean Teacher[45]（fEMA）生成伪标签，使用fθ的指数移动平均（EMA）权重。这增加了伪标签的准确性并减轻了确认偏差[45]。如图2所示，并在算法1中总结，Refign在训练时引入了两个额外的步骤来改进伪标签：（1）一个预训练的对齐模块（第7行）计算从目标图像到参考图像的光流，并相应地变形参考预测。对齐模块还估计了一个像素级的变形置信度图PR。（2）一个非参数化的细化模块（第8行）使用PR作为融合权重，将目标和变形后的参考预测融合，产生精化后的目标预测。然后，根据基础UDA方法将目标预测转换为伪标签（第9行，例如通过argmax和置信度加权，如果Refign是建立在DACS[46]上的）。由于Refign依赖于高质量的参考预测，我们在每个第二个训练迭代中通过使用的UDA基础方法（第12-15行，在图2中省略）将fθ调整到R。Refign不引入任何额外的训练参数，因为对齐模块是预训练并且冻结的，细化模块是非参数化的。JII′W∝(4)IR(5)31770因此，在训练过程中，内存和计算开销很小，因为不需要额外的反向传播。在推理过程中，完全移除了Refign。我们在第3.1节和第3.2节中更详细地描述了Refign的两个主要组件——对齐模块和细化模块。03.1. 对齐0目标图像和参考图像的精确空间对齐是精确的、像素级的语义标签细化的关键预处理步骤。我们的对齐模块将参考图像变形以与目标图像对齐，并估计变形的置信度图，这是指导下游标签细化的重要资产。为了满足这些要求，我们在[50]的变形一致性（WarpC）框架的基础上扩展了不确定性预测。首先回顾一下WarpC，更详细的讨论请参考原文[50]。给定两个描述相似场景的图像I和J，尺寸为Rh×w×3，目标是找到一个密集的位移场FJ→I，尺寸为Rh×w×2。0将J中的像素与I相关联。WarpC利用图3中显示的一致性图来训练光流估计器。I被大量增强，例如通过随机采样的单应性，得到I'。合成的增强变形W随后监督两个目标：（1）直接估计流F I' → I 的估计值ˆF I' → I，0L I ′ → I = �� ˆ F I ′ → I − W �� 2，（1）0和（2）由F I ′ → J和F J → I链接形成的复合流F I ′ → J →I的估计：0L I ′ → J → I = �� V ∙ � ˆ F I ′ → J + Φ ˆ F I ′→ J (ˆ F J → I) − W �� 20= �� V ∙ � ˆ F I ′ → J → I − W ��2。0（2）Φ F（T）定义了T通过流F的扭曲，V∈{0, 1} h ×w是估计的可见性掩码。V旨在屏蔽I′中所有在J中没有对应物的像素，这是由于遮挡、图像边界等原因。我们根据Cauchy-Schwarz不等式（见补充材料B.1节）类似于[50]来估计V。（1）和（2）中的两个损失项相互补充：L I ′ →I促进收敛并偏好平滑解，而L I ′ → J →I学习真实的运动模式和外观变化。整个网络通过L align = LI ′ → I + λ L I ′ → J →I进行训练，其中λ是平衡各个损失的权重项。UAWarpC。我们的扩展，Uncertainty-AwareWarpC（UAWarpC）将预测的不确定性估计[29]添加到WarpC中。我们通过高斯p(F J → I | I, J) = N(F J → I; ˆ F J →I, ˆ Σ J →I)来对流在图像输入I，J上进行建模，这意味着预测的流是0图3.[50]的扭曲一致性图。合成扭曲W监督两个流：（1）直接流I ′→ I，（2）复合流I ′ → J →I。我们通过预测参数化流分布（显示为）对[50]进行了概率扩展。0受加性高斯噪声污染。请注意，每个像素预测一个不同的高斯分布。为了适应x和y流方向，这些分布是双变量的。为简单起见，我们假设方差在两个方向上相等。因此，网络被训练为输出均值ˆ F ij ∈ R 20和每个空间位置ij处的对数方差log ˆ Σ ij ∈R。高斯性使得可以将复合流F I ′ → J →I轻松地纳入这个概率框架中。假设在给定图像的情况下，FI ′ → J和F J → I在条件上是独立的，我们可以推断出p(F I ′→ J → I | I, J, I ′) = N(F I ′ → J → I; ˆ F I ′ → J → I, ˆ Σ I ′→ J →I)是另一个高斯分布。类似于（2）中的复合流均值，通过扭曲计算复合流方差。0ˆΣ I ′ → J → I = ˆΣ I ′ → J + Φ ˆ F I ′→ J (ˆΣ J →0我们遵循最大对数似然估计的原则来训练我们的模型（推导见补充材料A节）。0L prob I ′ → I = − log p( W | I, I ′)02 ˆ Σ I ′ → I L I ′ → I + log ˆ Σ I ′ → I0L prob I ′ → J → I的公式是通过替换下标得到的。尽管高斯的负对数似然对应于平方误差损失，但在实践中，我们在(1)和(2)中使用Huber损失[17]来增加对异常值的鲁棒性。标签细化的对齐。对齐模块在大规模MegaDepth[25]数据集上单独训练，并在分割网络的自我训练期间被冻结。在自我训练期间，它估计流F I T → IR，并相应地扭曲参考类别概率图Q R ∈ R h × w ×c，得到Q a R（见图2）。此外，它估计了扭曲置信度图P R∈ [0, 1] h × w。为了从我们的概率模型中获得PR，我们计算真实流F I T → I R在估计流ˆ F I T → IR的半径r内的概率，如[49]中所述（推导见补充材料A节）。0P R = p(∥ F I T → I R − ˆ F I T → I R ∥ ≤ r) = 1 − exp − r 201 独立正态分布随机变量的和服从正态分布，均值/方差为各个均值/方差之和。QrT = (1 − α) ⊙ QT + α ⊙ QaR,(6)mijk =α = s(QT ) max(PR, M).(10)31780我们设置 r = 1 。与无效变形区域对应的 P R的元素被设置为零。03.2. 细化0细化模块旨在使用对齐的参考类别概率 Q a R和匹配置信度图 P R 来改善目标类别概率 Q T。然后，经过细化的目标类别权重 Q r T被转换为伪标签以进行自训练。细化是一个凸组合，其中元素权重为 α ∈ R h × w × c :0其中 ⊙ 表示逐元素乘法。我们对 α的构建基于自标签校正原则[55]，如下所述。置信度。在早期训练阶段，网络的预测是不可靠的，特别是在更具挑战性的逆境领域。根据课程学习的原则[3]，模型应该更加依赖于“更容易”的参考图像。即使参考预测指导不准确——例如由于错误的变形——早期训练期间的退化是有限的，因为深度网络倾向于首先学习简单的模式，然后再记忆噪声[1]。然而，在训练的后期，模型应该被允许忽略或修正错误的参考预测。这种进展可以通过模型的置信度来捕捉，该置信度在训练过程中稳步增加。更具体地说，我们用目标概率图的归一化熵来衡量模型的置信度 ˆ H ( Q T ) = H ( Q T )0H max ∈ [0 , 1] h × w .我们对所有像素取平均值以获得全局图像级估计，并引入一个超参数 γ 作为指数以进行调整。这产生了一个信任分数s :0α ∝ s ( Q T ) = � 平均 � ˆ H ( Q T ) �� γ . (7)0大静态类别。根据连接类别段的平均大小，我们将三个类别pole , traffic light , 和 traffic sign 称为小静态类别(Cityscapes [6] 上的平均大小为 8k像素)，而其他八个静态类别被称为大静态类别 (平均大小为234k像素)。我们通过实验证明，与小静态类别相比，大静态类别更容易与对齐模块匹配准确 (参见补充材料，第 C节)。事实上，通过 P R引导大静态类别的细化可能过于悲观。匹配网络在非纹理区域 (例如 road , sky )学习变得不确定，无法识别出明显的匹配[49]。然而，即使对于这些区域， P R很低，由于对齐网络学习到的平滑插值，更广泛的语义类别仍然能够正确匹配。0我们提出了更加激进的大静态类别的细化方法来补偿这种效果。为了避免向大类别的不必要漂移，我们通过一个二进制掩码 M ∈ { 0 , 1 } h × w × c来限制激进混合的空间和通道间的混合，其中包含元素 mijk 。我们将 A 定义为大静态类别的集合， Z T =argmax c Q T 为目标预测， Z R 为参考预测。0� 1 如果 k ∈ A 并且 Z ij T ∈ A 并且 Z ij R ∈A , 否则为 0 . (8)0M 仅将激进混合限制在满足两个条件的张量元素上：(1)元素属于大静态类别的通道。 (2)相应的像素在两个域中都标记为大静态类别。激进混合的实现如下：0α ∝ max( P R , M ) . (9) 最大值( P R , M ) .(9)0稍微滥用符号，我们使用 max( ∙ , ∙ )来表示两个张量的逐元素最大值，这些张量被广播到相同的形状。在这里， P R 沿第三个维度堆叠了 c 次，以匹配M的形状。细化方程。结合这两个命题，我们得到自适应伪标签细化:0由于通过 P R的像素级调制，这种改进方案可以忽略难以对齐的动态对象和小的静态对象。另一方面，如果在同一位置巧合地存在两辆汽车，信息传输仍然是可能的。此外，该方案允许通过单个超参数（信任分数 s 的指数 γ）轻松调整混合程度。最后，由于与无效变形区域对应的 PR 条目为零，如果找不到匹配，就不会发生混合。04. 实验0我们对UDA和几何匹配进行了广泛的实验。第4.1节概述了实验设置。第4.2节和第4.3节分别与UDA和半监督领域适应的最新方法进行了比较。第4.4节讨论了消融实验，第4.5节展示了几何匹配的比较。培训设置和实现细节在补充材料的第B节中讨论。04.1. 设置0数据集。我们使用Cityscapes[6]作为源域。对于目标和参考域，我们使用ACDC [37]、Dark Zurich[38]、RobotCar Correspondence [21, 27]或CMU Correspondence[2, 21]。这四个目标域数据集中的每一个都包含了逆境-正常条件的街道AdaptSegNet [52]69.434.052.813.518.04.314.99.764.023.138.238.620.159.335.630.653.919.833.933.4BDL [24]56.032.568.120.117.415.830.228.759.925.337.728.725.570.239.640.552.729.238.437.7FDA [65]73.234.759.024.829.528.643.344.970.128.254.747.028.574.644.852.363.328.339.545.7DANNet (DeepLabv2) [58]✓82.953.175.332.128.226.539.440.370.039.783.542.828.968.032.031.647.021.536.746.3DANIA (DeepLabv2) [59]✓87.857.180.336.231.428.649.545.876.248.890.247.931.175.536.536.547.832.544.151.8DACS [46]58.534.776.420.922.631.732.746.858.739.036.343.720.572.339.634.851.124.638.241.2MGCDA (RefineNet) [38]✓73.428.769.919.326.336.853.053.375.432.084.651.026.177.643.245.953.932.741.548.7DANNet (PSPNet) [58]✓84.354.277.638.030.018.941.635.271.339.486.648.729.276.241.643.058.632.643.950.0DANIA (PSPNet) [59]✓88.460.681.137.132.828.443.242.677.750.590.551.531.176.037.444.964.031.846.353.5DAFormer [15]58.451.384.042.735.150.730.057.074.852.851.358.332.682.758.354.982.444.150.755.4Dark Zurich-test [38]ND [8]Bn [38,67]DAFormer [15]53.854.133.8ty-RobotCar [21,27]CMU [2,21]PSPNet [72]45.873.6DAFormer [15]51.775.631790表1. 在Cityscapes →ACDC领域适应的最新技术比较ACDC测试集。双线以上的方法使用DeepLabv2模型。“Ref.”：对于每个不良输入图像，使用来自相同地理位置的参考帧。0方法参考增强度 ↑0道路0墙壁0栅栏0灯光0标志0植被0地形0行人0卡车0火车0摩托车0自行车0平均0Refign-DACS (我们的方法) � 49.5 56.7 79.8 31.2 25.7 34.1 48.0 48.7 76.2 42.5 38.5 48.3 24.7 75.3 46.5 43.9 64.3 34.1 43.6 48.00Refign-DAFormer (我们的方法) � 89.5 63.4 87.3 43.6 34.3 52.3 63.2 61.4 86.9 58.5 95.7 62.1 39.3 84.1 65.7 71.3 85.4 47.9 52.8 65.50表2. 在Dark Zurich-test上比较Cityscapes → DarkZurich方法。训练模型在夜间驾驶（ND）和BDD100k-night（Bn）测试集上进行泛化测试。0方法mIoU ↑0DMAda（RefineNet）[8] 32.1 36.1 28.30GCMA（RefineNet）[34] 42.0 45.6 33.20MGCDA（RefineNet）[38] 42.5 49.4 34.90CDAda（RefineNet）[63] 45.0 50.9 33.80DANNet（PSPNet）[58] 45.2 47.7 28.00DANIA（PSPNet）[59] 47.0 48.4 27.00CCDistill（RefineNet）[9] 47.5 46.2 33.00DACS（DeepLabv2）[46] 36.7 39.5 25.30Refign-DACS（DeepLabv2，我们的）41.2 41.5 26.20Refign-DAFormer（我们的）56.2 56.8 35.20表3.在Cityscapes → RobotCar和Cityscapes →CMU上的半监督领域自适应。“Ref.”：每个不利输入图像使用参考帧。0方法Ref. mIoU ↑0Cross-Season，CE [21] � 53.8 79.30Cross-Season，Hinge C [21] � 50.6 72.40Cross-Season，Hinge F [21] � 55.4 75.30Refign-DAFormer（我们的）� 60.5 83.60训练集中的场景图像对。ACDC包含1600个训练图像，406个验证图像和2000个测试图像，均等分布在雾、夜晚、雨和雪中。DarkZurich包含2416个训练图像，50个验证图像和151个夜间测试图像。RobotCar（分别是CMU）Correspondence包含6511（28766）个训练图像，27（25）个验证图像和27（33）个测试图像，以不同的条件捕获。RobotCar和CMUCorrespondence数据集还有40和66个粗略注释的图像，可以进行半监督领域自适应。为了训练对齐网络0网络，我们使用MegaDepth[25]进行评估，使用[40]的测试集进行评估。为了测试对道路场景的对齐模块的能力，我们还使用[21]提供的稀疏地面实况匹配对RobotCar和CMUCorrespondence数据集进行了评估。架构。为了展示Refign的灵活性，我们将其与最先进的UDA方法相结合。我们选择DACS [46]（使用DeepLabv2 [5]）和DAFormer[15]（基于SegFormer[62]）作为基础方法。我们的对齐网络几乎与WarpC[50]（VGG-16 [41]编码器和GLU-Net[48]解码器）完全相同，还配备了[49]的不确定性解码器。指标。为了评估分割结果，我们使用平均交并比（mIoU）。几何匹配准确性使用给定像素阈值T下的正确关键点百分比（PCK-T）进行评估。匹配不确定性估计的质量使用稀疏化误差进行评估，具体来说是平均端点误差（AEPE）下的稀疏化误差曲线下的面积（AUSE）[49]。04.2.与UDA领域中的最新技术进行比较0ACDC。我们在ACDC测试集上与几种最先进的方法进行了比较，结果如表1所示。在DAFormer[15]的基础上应用Re-fign，mIoU达到了65.5%，在从Cityscapes到ACDC的领域自适应中创造了新的技术水平。Refign将DAFormer的性能提升了10.1%。除了静态类别，我们还观察到动态类别也有显著的改进，这要归功于我们的自适应细化方法。在基于DeepLabv2的方法中，我们的方法Refign-DACS在DANIA[59]之后排名第二。需要注意的是，Refign将DACS[46]的mIoU提高了6.8%。我们在图4中与FDA、DANIA和DAFormer进行了定性比较。我们的Refign-DAFormer始终产生比其他方法更准确的分割图。例如，Refign纠正了典型的错误。FDA [65]DAFormer [15]12345664.386.967.687.888.589.425.460.052.057.358.962.463.382.783.884.185.085.526.549.047.847.748.448.618.032.336.733.134.236.65.543.956.055.357.257.76.458.169.369.871.371.09.340.751.751.954.155.063.783.373.784.585.285.313.338.337.037.840.141.079.194.463.794.995.195.16.912.846.045.455.457.30.87.227.228.536.533.123.852.778.978.382.982.924.843.467.668.767.673.639.550.475.178.779.382.58.315.183.283.283.486.06.730.042.645.045.543.923.743.648.749.247.948.126.848.758.362.264.065.0γ = 1γ = 12γ = 14γ = 18γ =1160.00.2.4.60.81.00.540.560.580.600.620.6431800图像0DANIA（PSPNet）[59]0Refign-DAFormer0Ground Truth0图4. 从Cityscapes到ACDC的模型的定性分割结果。0表4. ACDC验证集上对Refign不同组件的消融研究（指标：IoU），详见（10）。在组件省略的情况下，默认值为：P R = 102，M = 0，s = 1。“R-ad”：同时适应R，即Alg. 1的12-15行。0ALIGN P R M s R -ad0道路0人行道0建筑0墙0栅栏0杆0灯光0标志0植被0地形0人0骑手0卡车0火车0摩托车0自行车0平均0�0�0�0�0�0�0�0�0�0�0�0�0�0� �0表5. 在ACDC验证集上对平均熵指数γ的超参数研究。0mIoU ↑0Refign-DAFormer 59.2 61.8 65.0 64.3 63.500 10k 20k 30k 40k0迭代0信任分数s(QT)0夜晚; 34.8 mIoU雪; 56.3 mIoU 雨;58.5 mIoU 雾;67.9 mIoU0图5.ACDC中不同条件下图像的信任分数s(QT)在训练过程中的变化。平均而言，困难的条件（夜晚，雪-较低的mIoU）表现出更高的s，意味着它们的目标预测受到参考预测的更强烈修正。显示的是DAFormer[15]基准模型的mIoU验证分数。00 10k 20k 30k 40k0迭代0多样性指数0Ground TruthDAFormer [15]Refign (我们的)Naive0图6.训练过程中ACDC验证集上的预测多样性。我们使用归一化熵作为多样性指数。与简单的平均（α =0.5，见（6））相比，Refign保持了更高的预测多样性。0DAFormer的分类结果，例如将天空识别为道路。DarkZurich。在表2中，我们在DarkZurich-test上对我们的方法进行了基准测试。根据以前的工作，训练的Dark Zurich模型也被用于在夜间驾驶[8]和BDD100k-night[38,67]上进行泛化测试。Refign0在DarkZurich-test和两个未知域上，我们对我们的方法进行了广泛的分析。值得注意的是，Refign-DAFormer在DarkZurich上达到了56.2％的mIoU，创造了新的技术水平。04.3. 半监督域自适应结果0表3列出了RobotCar和CMUCorrespondence数据集上的半监督域自适应结果。我们与DAFormer[15]和[21]中提出的三个基于PSPNet的模型进行比较。[21]中的模型依赖于通过多阶段流水线获得的稀疏2D匹配，该流水线涉及相机姿态估计，3D点云生成和匹配，匹配修剪和2D投影。相比之下，我们的对齐模块通过密集匹配网络直接建立对应关系。我们的模型在两个数据集上都取得了最好的分数，证明了我们方法的普适性。04.4. 消融研究和进一步分析0我们在ACDC验证集上对我们的方法进行了广泛的分析。为了获得更可靠的性能估计，本节中的所有实验都重复了三次，并报告了平均性能。表4显示了我们的改进方案（10）不同组件的消融研究。第一行列出了一个简单的改进方案，其中α =0.5，没有进行对齐。添加对齐（第2行；+21.9％mIoU）显著提高了所有类别的性能。进一步添加PR（第3行；+9.6％mIoU）显著提高了动态类别和小静态类别的性能，但一些大的静态类别由于混合不足而性能下降，原因是变形置信度较低PCK-1 ↑PCK-5 ↑PCK-10 ↑AUSE ↓PCK-1 ↑PCK-5 ↑PCK-10 ↑AUSE ↓PCK-1 ↑PCK-5 ↑PCK-10 ↑AUSE ↓DGC+M-Net [28]✓✓4.1033.6049.390.3201.1119.1238.920.2411.9927.1551.990.320GLU-Net [48]✓29.4655.9662.39-2.2133.7255.28-21.1880.9591.44-WarpC [50]✓50.8678.7683.00-2.5135.9357.45-24.7486.1095.65-PDC-Net+ [49]✓72.4288.1089.310.2932.5736.7158.440.18627.8485.2192.570.26831810表6. 几何匹配的与最先进方法的比较。所有方法都在MegaDepth上进行训练，并在MegaDepth、RobotCar和CMU上进行评估。“w/oSfM”：没有使用稀疏结构运动匹配进行训练，“UA”：不确定性感知匹配网络。0方法 w/o SfM UA MegaDepth [25] RobotCar [21,27] CMU [2,21]0UAWarpC (我们的) � � 53.04 78.52 81.92

下载后可阅读完整内容，剩余1页未读，立即下载