多模态自适应3D语义分割的MM-TTA方法

155 浏览量更新于2023-10-25 收藏 15.43MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

169280MM-TTA：用于3D语义分割的多模态测试时自适应0Inkyu Shin 1 Yi-Hsuan Tsai 2 Bingbing Zhuang 3 Samuel Schulter 30Buyu Liu 3 Sparsh Garg 3 In So Kweon 1 Kuk-Jin Yoon 101 KAIST 2 Phiar Technologies 3 NEC Laboratories America0摘要0最近，测试时自适应方法已经成为处理领域转移的实际解决方案，而无需访问源域数据。在本文中，我们提出并探索了一种新的多模态测试时自适应方法，用于3D语义分割。我们发现，直接应用现有方法通常会导致测试时性能不稳定，因为没有共同考虑多模态输入。为了设计一个可以充分利用多模态的框架，其中每个模态为其他模态提供正则化的自监督信号，我们在模态内和模态间提出了两个互补的模块。首先，引入模态内伪标签生成（Intra-PG），通过聚合两个在源数据上都进行了预训练但在目标数据上以不同速度更新的模型的信息，获得每个模态内的可靠伪标签。其次，引入模态间伪标签细化（Inter-PR），根据提出的一致性方案，自适应地从不同模态中选择更可靠的伪标签。实验证明，我们的正则化伪标签在许多多模态测试时自适应场景中为3D语义分割产生稳定的自学习信号。请访问我们的项目网站https://www.nec-labs.com/˜mas/MM-TTA01. 引言03D语义分割是一项具有挑战性的任务，它需要对输入场景进行几何和语义推理，但它可以提供丰富的见解，从而实现自动驾驶[32,34]、虚拟现实和机器人技术[5,27]等应用。随着传感器技术的进步，多模态传感器被认为是有效解决这个任务的关键[6,16,17]。特别是，为了获得更准确的3D点级语义理解，可以通过来自LiDAR传感器的3D点的几何属性加强2DRGB图像中的上下文信息，反之亦然。因此，开发用于3D语义分割的多模态方法具有很大的兴趣。0图1。我们提出了一种多模态测试时自适应（MM-TTA）框架，使模型能够在没有访问源域训练数据的情况下快速适应多模态测试数据。我们引入了两个模块：1）模态内伪标签生成（Intra-PG），通过以不同速度更新两个模型（批归一化统计量）来在每个模态内生成可靠的伪标签，即慢速和快速更新方案与动量，以及2）模态间伪标签细化（Inter-PR），根据两个模态的伪标签自适应地选择伪标签。这两个模块无缝协作，共同产生最终的跨模态伪标签，以帮助测试时自适应。0然而，当测试数据存在域差异时，多模态数据对分布转移非常敏感[1]。因此，对于模型在测试期间快速适应新的多模态数据以获得更好的性能至关重要，即通过测试时自适应（TTA）[19,30]。这与通常的域自适应语义分割设置[13,28,35]不同，后者可以在训练期间访问源数据和目标数据。在TTA中，我们只能访问在源数据上预训练的模型参数和有限的预算用于自适应的未标记测试数据，通常（也包括本文）指的是一次训练周期。这对于实际场景是可行的，但也具有挑战性，因为只有目标数据可用于有限的自适应预算。169290在本文中，我们研究了在测试时自适应的多模态三维语义分割，使用图像和点云作为输入。之前关于一般测试时自适应的工作，如TENT[30]，提出了熵最小化作为自训练损失来更新批归一化参数。虽然TENT[30]并不是为多模态设计的，但我们展示了一个简单的扩展，可以为每个模态（2D图像和3D点云）更新参数。然而，我们发现这个扩展在训练过程中会导致不稳定性。一个原因是，由于熵最小化倾向于生成尖锐的输出分布，将其分别用于2D和3D分支可能会增加跨模态差异。这进一步会导致2D和3D输出的子优模型集合，这是多模态语义分割的常见方案。缓解这种跨模态差异的一种方法是利用预测的2D和3D分支之间的一致性损失[13]，通过KL散度。然而，由于自适应期间的测试数据是无标签的，强制在模态之间保持一致性可能会加剧预测不准确的问题。为了解决上述问题并设计更好的测试时自监督信号，我们提出了一个跨模态正则化的自训练框架，旨在生成可靠和自适应的伪标签（见图1）。我们的方法主要由两个模块组成：1）模态内伪标签生成（Intra-PG）和2）模态间伪标签细化（Inter-PR）。对于模态内模块，我们旨在在每个模态中生成可靠的伪标签，以减轻测试时自适应中的不稳定性问题，即只通过一次观察测试数据来更新批归一化参数。为此，我们设计了一种慢-快建模策略。具体而言，为了保持模型的稳定性，我们从预训练的源模型初始化一个批归一化统计量，并使用来自另一个快速更新的批归一化参数的动量慢慢更新它，而这个快速更新的模型直接通过测试数据进行更新，这更加积极，但也提供了最新的统计信息。因此，我们的模型能够融合来自慢-快更新统计的预测，享受它们的互补优势。对于模态间模块，我们提出了一种自适应选择来自各个2D和3D分支的可靠伪标签的方法，因为每个模态为3D语义分割带来了自己的优势。为此，我们首先利用模态内伪标签生成模块分别测量每个模态的预测一致性，然后从慢-快模型提供一个融合预测给模态间伪标签细化模块（图1）。基于这些一致性，我们的模型自适应地从两个模态中选择可靠的伪标签，形成最终的跨模态伪标签，作为自训练信号来更新2D/3D批归一化参数。所提出的两个模块相互协作，用于多模态测试时自适应，因此我们将其命名为0我们将这个框架称为MM-TTA。我们进行了大量实验，包括几个TTA最先进的基线，并展示了我们的MM-TTA框架在不同的基准设置下取得了有利的性能，包括不同传感器的跨数据集、从合成到真实的和从白天到夜晚的场景。此外，我们进行了全面的分析，以展示我们提出的两个模块（Intra-PG和Inter-PR）的优势，并与现有方法进行了稳定性比较。以下是我们的主要贡献：01.我们探索了一个新的任务，即多模态3D语义分割的测试时自适应，并提出了一个有效的框架，可以产生跨模态的伪标签作为自学习信号。02.我们引入了两个无缝协同工作的模块：Intra-PG模块分别为每个模态生成伪标签，Inter-PR模块自适应地选择跨模态的伪标签。03.我们通过广泛的消融研究和实验比较，展示了我们的框架在不同的自适应设置下的性能，并与强基线和最先进的方法进行了实验比较。02. 相关工作0测试时自适应（TTA）旨在使现有模型能够快速适应新的目标数据，而无需访问模型训练时使用的源域数据。作为处理现实世界中动态领域转移的重要挑战，TTA在几个任务中越来越受到关注[4, 15, 19, 25,30]。其中，测试时训练（TTT）[25]通过在测试数据上应用自监督代理任务来在线更新模型参数。由于这个代理任务也需要用于训练样本，找到一个在训练和测试中都能很好工作的最佳代理任务是具有挑战性的。从这个角度来看，TENT[30]是第一个测试时自适应（TTA）方法，它提出了一种简单而有效的熵最小化方法，用于在训练过程中优化测试时批归一化参数，而不需要任何代理任务，这在图像分类和2D语义分割中得到了证明。然而，熵最小化倾向于鼓励模型增加自信度，尽管存在错误预测。为了在测试时设计一个规则化的自学习信号，一项同时进行的工作，S4T[19]，提出了一种选择性自训练方案，通过将伪标签与对齐的预测视图生成进行规则化，用于2D语义分割。然而，这种设计被认为是特定于图像级任务，其中可以进行空间增强。与上述工作相比，我们研究了类似的TTA设置，但在使用多模态进行3D语义分割的不同背景下，即多模态测试时自适应。ˆxMtj =xMtjM169300我们开发了内部模态和跨模态模块，无缝协同工作，以获得更可靠的自学习信号，称为多模态测试时自适应（MM-TTA）。03D语义分割被认为是一项重要的3D场景理解任务，旨在将每个LiDAR点分类为语义类别。因此，LiDAR的点云被认为是解决这个任务的主要模态[5, 27, 31, 32,34]。基于范围的方法[31,32]采用球面投影将3D点投影到2D图像平面上，然后通过2D骨干网络进行处理[11]。另一种方法是利用原始的3D点云设计3D分割模型[5, 27]。KPConv[27]在没有任何中间表示的点云上操作，而MinkowskiNet[5]对点云进行体素化，并利用SparseConvNet[9]进行处理。尽管有这些努力，LiDAR点云本身缺乏对场景复杂语义理解至关重要的2D上下文信息。为了解决这个问题，最近的工作[6,17]探索了使用多模态输入（RGB图像和LiDAR点云）进行3D分割。这些方法通常将2D和3D模态的骨干网络分开，并提出了两个输出之间的融合技术。考虑到每个模态的上下文和几何信息被证明可以提高3D语义分割的性能。然而，由于每个模态具有不同的数据集偏差（例如2D中的样式分布和3D中的点分布），基于多模态的模型更难适应新数据。在这项工作中，与监督训练不同，我们在测试时自适应设置中解决多模态3D语义分割，这在实际中是实用的，因为它在推理过程中结合了测试数据的统计信息，从而改善了多模态基线的结果。0无监督域自适应（UDA）旨在弥合标记源数据和无标记目标数据之间的差距。已经提出了针对2D [14, 24, 28, 29, 36,37]和3D [20, 23, 33,35]数据的方法。最近，也有少数工作[13,18]介绍了针对2D/3D多模态数据的UDA方法。具体而言，xMUDA[13]在训练时在源域和目标域的两个模态之间执行一致性学习，而DsCML[18]进一步利用了动态稀疏到稠密的跨模态学习进行对抗学习。所有UDA方法都可以在自适应过程中访问源数据，而我们处理的是测试时间自适应，只有源预训练模型可用，并且给定了有限的预算来更新模型的测试时间统计数据。03. 提出的方法0我们首先介绍测试时间自适应的准备工作，详见第3.1节。然后，我们在第3.2节中探索了多模态测试时间自适应的几种基线方法，使用0图像（2D模态）和点云（3D模态）作为3D语义分割的输入。最后，我们提出了我们的多模态测试时间自适应（MM-TTA）框架，如图2所示，其中包括两个新设计的模块：1）内部模态伪标签生成（第3.3节），用于在每个模态内生成伪标签；2）跨模态伪标签细化（第3.4节），用于自适应选择可靠的跨模态伪标签。0设置和符号。我们遵循测试时间自适应的设置[30]，在这种设置中，我们无法访问源数据，只能访问源预训练的多模态分割模型。该模型包括2D和3D分支，F2D和F3D，每个分支包括特征提取器G2D/G3D和分类器。在这里，我们还表示多模态测试时间目标数据（见图2），图像x2Dt∈RH×W×3和点云x3Dt∈RN×3（相机视野中的3D点）。需要注意的是，从2D分支提取的特征G2D(x2Dt)∈RH×W×f，在N个投影的3D点上进行采样，结果是一个N×f的特征形状。2D/3D的单独网络预测表示为p(xMt)=FM(xMt)∈RN×|K|，其中|K|是类别数，M∈{2D, 3D}。03.1. 准备工作0批量归一化（BN）[12]在当前的2D和3D模型中被广泛使用。它通常包括在第j个BN层中给定目标小批量输入xMt（其中M∈{2D, 3D}）的归一化统计和变换参数：0σM t j和yM t j = γM t jˆxM t j + βM t j，(1)0其中µMtj = E[xMtj]和(σMtj)2 =E[(µMtj−xMtj)2]是归一化统计量，γMtj，βMtj是可学习的变换参数。为了简化表示，我们使用Ω2Dt = (µ, σ, γ,β)2Dt表示2D，Ω3Dt = (µ, σ, γ, β)3Dt表示3D。0测试时间自适应中更新的参数数量受到效率和稳定性的限制。根据TENT[30]的方法，我们只估计和优化占据2D和3D分支中不到1%参数的(µ, σ, γ, β) t。03.2. MM-TTA的基线方法0由于我们提出了首个针对3D语义分割的多模态测试时间自适应的尝试，我们首先研究了几种基于现有方法的自学习基线，将其扩展到我们的MM-TTA设置中。0熵自学习最初由TENT[30]提出。其测试时间目标L(xt)是最小化模型预测p(xMt)=FM(xMt)的熵，其中FM是2D或3D分支（回忆M∈Lent(xt) = −�kp(x2Dt )(k) log p(x2Dt )(k)−�kp(x3Dt )(k) log p(x3Dt )(k),(2)Lcons(xt) = DKL(p(x2Dt )||p(x3Dt ))+ DKL(p(x3Dt )||p(x2Dt )),(3)ˆyt = arg maxk∈K1[ p(xt)(k) > θ(k) ] p(xt)(k),(4)Lpseudo(xt) = Lseg(p(x2Dt ), ˆy2Dt )+ Lseg(p(x3Dt ), ˆy3Dt ).(5)169310图2.多模态测试时间自适应（MM-TTA）框架概述。我们的MM-TTA包括两个模块：内部模态伪标签生成（intra-PG）和跨模态伪标签细化（inter-PR）。对于内部模态伪标签生成，我们采用一个逐渐更新的慢速模型S，该模型逐渐由一个快速更新的模型S以动量更新。需要注意的是，快速更新模型S中的统计数据直接由数据更新，更加积极但是最新，而模型S则缓慢地向目标数据统计数据移动，因此更加稳定。通过聚合慢速模型，每个模态可以生成稳健的伪标签（ˆy2Dt和ˆy3Dt）。对于跨模态伪标签细化，我们测量慢速和快速模型之间的一致性图，并基于计算得到的ζ2D和ζ3D进行自适应选择过程，以找到可靠的伪标签。通过同时考虑2D和3D的置信度，获得跨模态正则化伪标签（ˆyEnst），然后在两个模态中更新F的批量归一化参数。0{ 2D , 3D } ).这个MM-TTA基线的熵最小化的总目标表达为：0其中k表示类别。尽管这个目标很简单，但它只鼓励尖锐的输出分布，这可能会加强错误的预测，并且可能不会导致跨模态的一致性。0自学习一致性旨在通过2D和3D模态的预测之间的一致性损失实现多模态的测试时自适应：0其中DKL是KL散度。与具有源数据访问权限的标准领域适应设置中的xMUDA[13]不同，我们的MM-TTA不受源任务损失的规范化限制，因此这个目标可能无法捕捉到正确的一致性，当其中一个分支提供错误的预测时。0当其中一个分支提供错误的预测时，这个目标可能无法捕捉到正确的一致性。0伪标签自学习是另一种常见的测试时自适应方法。通常，伪标签ˆyt可以通过以下方式获得：0其中 1 [ ∙ ]是一个指示函数，如果条件满足，则返回true，即如果类别k的预测p(xt)(k)大于阈值θ(k)。请注意，伪标签ˆyt可以类似地获得2D和3D分支的伪标签，即ˆy2Dt和ˆy3Dt。伪标签的目标使用标准的交叉熵损失Lseg进行语义分割：0虽然伪标签为更新模型提供了监督信号，但在应用于我们的MM-TTA设置时存在潜在问题。首先，在自适应过程中，只有批归一化统计量被更新以替换原始源统计量，但用于生成目标数据的伪标签的模型仍然主要由预训练的固定参数组成。3.3. Intra-modal Pseudo-label GenerationΩSti = (1 − λ)ΩFti + λΩSti−1,ΩSt0 = Ωs,(6)p(xMt ) = (SM(xMt ) + F M(xMt ))2.(7)ˆyMt= arg maxk∈Kp(xMt )(k).(8)ζM = Sim(SM(xMt ), F M(xMt )),(9)Sim(x, y) =1+1/2.ˆyHt =Lmm-tta(xt) = Lseg(p(x2Dt ), ˆyEnst) + Lseg(p(x3Dt ), ˆyEnst).(13)169320在源数据上进行自学习可能导致质量较低的伪标签。其次，模型仍然缺乏跨模态的信息交流来改进伪标签，这也可能导致次优的性能。相比之下，我们提出的MM-TTA框架通过以下两个模块提供了简单而有效的解决方案来解决这些限制。0我们提出了Intra-PG方法，通过两个具有不同更新速度的模型S M和FM在每个模态中生成可靠的在线伪标签（见图2）。首先，我们定义一个快速更新的模型FM，直接从测试数据中替换和更新批归一化统计量，这与第3.2节中的基线模型相同。其次，我们引入一个额外的慢速更新模型SM，它最初是源预训练的，并且具有从快速更新模型FM的动量更新方案。简而言之，我们将这两个模型表示为慢/快模型S M / FM。也就是说，快速模型中的统计量更积极地通过测试数据进行更新，而慢速模型的统计量逐渐向目标统计量移动，从而提供稳定且互补的监督信号。请注意，推理时只使用慢速模型S M。在这里，我们将慢速模型SM的批归一化统计量表示为：0其中Ω S t i = ( µ, σ, γ, β ) S ti是迭代i中的移动平均统计量，具有动量因子λ来聚合快速模型的统计量Ω F t i和慢速模型的统计量Ω S t i −1。初始统计量Ω S t 0来自源预训练模型，表示为Ωs。请注意，当我们为λ设置一个较大的值（论文中为0.99）时，它将更慢地向目标统计量移动，否则它将移动得更快。为了进一步利用每个模态中的慢-快统计量，我们将它们的预测融合为：0然后，我们可以从慢-快模型中获得每个模态的聚合伪标签M ∈ { 2D , 3D } ：03.4. 跨模态伪标签细化0在（8）中获得每个模态的初始聚合伪标签后，我们提出了Inter-PR模块通过跨模态融合改进伪标签。为了实现这一点，我们首先分别计算每个模态的Intra-PG的慢模型和快模型之间的一致性度量（ ζ M ）：0其中我们定义 Sim ( ∙ )为KL散度的倒数，以表示两个概率之间的相似性：0(10)这个一致性度量帮助我们融合每个模态的预测并估计更可靠的伪标签。我们提出了两种变体：Hard Select和SoftSelect。前者从两个模态中的一个独占地获取每个伪标签，而后者使用一致性度量对两个模态的伪标签进行加权求和。我们将Hard Select定义为：0� ˆ y 2D t ，如果 ζ 2D ≥ ζ 3D ， ˆ y3D t ，否则。 (11)0和 Soft Select 如下：0ˆ y S t = arg max k ∈ K p W ( k ) t ，(12)0其中 p W ( k ) t = ζ � 2D p ( x 2D t ) ( k ) + ζ � 3D p ( x3D t ) ( k ) ，其中 ζ � 2D = ζ 2D / ( ζ 2D + ζ 3D ) ， ζ �3D = 1 − ζ � 2D是归一化的一致性度量。此外，我们忽略了两个模态的最大一致性度量，即 max( ζ 2D , ζ 3D ) ，低于阈值 θ ( k )的伪标签。形式上，我们的MM-TTA目标是使用生成的伪标签 ˆ y Ens t ( ˆ y H t 或 ˆ y S t ) 来更新批归一化统计量：04. 实验结果04.1. 数据集和设置0我们在几个需要测试时间适应的场景中评估了我们提出的MM-TTA。首先，在现实世界中，相机和LiDAR的传感器设置在训练和测试数据之间是不同的，我们采用了基准A2D2-to-SemanticKITTI。特别是，A2D2 [ 7]提供了一个2.3百万像素（MP）的相机和16个通道的LiDAR，而SemanticKITTI [ 2]使用了一个0.7MP的相机和64个通道的LiDAR。这种硬件规格的差异可能会导致现实世界中的不可预测的领域转移，因此需要快速将源上预训练的模型适应到即将到来的测试数据。其次，另一个现实世界的案例是nuScenesDay-to-Night，我们在这个适应场景中使用nuScenes [ 3]。LiDAR是一种主动传感器，发射的激光束在大多数情况下对光照条件不变。然而，白天和夜晚拍摄的图像在颜色分布上显然不同，没有任何适应会导致性能下降。A2D2SemanticKITTISynthiaSemanticKITTInuScenes DayNightTENT [30] - Eq.(2)TTA39.236.640.825.323.827.839.043.643.0TENTEns - Eq.(2)39.636.641.127.723.829.739.543.743.5xMUDA - Eq.(3)37.538.040.224.024.128.041.743.947.0xMUDA+TENT - Eq.(2),(3)38.137.540.524.424.028.041.844.043.5xMUDA+TENTEns - Eq.(2),(3)37.538.040.224.124.128.040.943.943.0xMUDAP L - Eq.(3),(5)36.539.542.924.225.029.040.843.645.2xMUDAP L+TENTEns - Eq.(2),(3),(5)37.040.043.024.325.029.041.343.646.0169330方法适应 2D 3D Softmax 平均 2D 3D Softmax 平均 2D 3D Softmax 平均0仅源域 - 37.4 35.3 41.5 21.1 25.9 28.2 42.2 41.2 47.80xMUDA [ 13 ] UDA 36.8 43.3 42.9 25.6 30.3 33.4 46.2 44.2 50.0 xMUDA P L 离线 [ 13 ] 43.7 48.5 49.1 25.4 33.9 35.3 47.1 46.750.80MM-TTA（Hard Select - Eq.(11)）TTA 43.3 42.4 47.0 31.4 29.9 35.2 42.6 43.6 51.1 MM-TTA（Soft Select - Eq.(12)）43.7 42.5 47.131.5 30.0 35.1 44.2 43.7 51.80表1. 多模态3D语义分割的UDA方法和TTA基准线的定量比较。0最后，我们使用Synthia-to-SemanticKITTI评估合成和真实数据之间的测试时间自适应，这是一个具有挑战性的基准，需要处理摄像机（由于合成数据中缺乏逼真性而导致的样式差异）和LiDAR（点分布和深度准确性）之间的显著领域转移。对于A2D2-to-SemanticKITTI和nuScenesDay-to-Night，我们遵循xMUDA[13]中的数据集设置。对于Synthia-to-SemanticKITTI，我们通过使用提供的图像和深度地面真值构建点云来重新组织Synthia[22]。由于深度图是密集的，我们随机采样像素以获得相应的点云。详细信息请参见补充材料。04.2. 实现细节0多模态模型：我们遵循xMUDA[13]构建双流多模态框架。对于2D分支，我们采用U-Net[21]和ResNet34[10]编码器。对于3D分支，我们使用U-Net（下采样6倍），该分支在体素化的点云输入上利用稀疏卷积[9]，其中我们在设置1中使用SparseConvNet [8]或MinkowskiNet[5]。对于每个设置，所有基准线比较都使用相同的框架和骨干模型进行评估。0使用源数据进行预训练：当我们使用SparseConvnet时，我们直接使用xMUDA官方代码中的源预训练模型进行公平比较。另一方面，我们从头开始训练MinkowskiNet的源数据。为了仅使用源数据实现与xMUDA相似的性能，我们使用学习率为1x10-3的Adam优化器进行2D模型训练，并使用学习率为2.4x10-1的SGD动量进行3D模型训练。01对于A2D2-to-SemanticKITTI和Synthia-to-SemanticKITTI设置，我们发现xMUDA中存在SparseConvnet的报告实现问题，因此我们在其他3D分割存储库[26]中使用MinkowskiNet以确保稳定性。对于nuScenesDay-to-Night，我们使用xMUDA中的SparseConvNet [13]。0目标数据的测试时间自适应：TTA[30]仅在训练期间优化批归一化仿射参数，然后在自适应1个时期后报告性能。我们对所有基准线和我们的方法采用相同的设置，在测试时使用批统计数据计算归一化参数。为了在Intra-PG中实现我们的慢-快模型策略，我们首先复制源预训练模型，然后在自适应过程中逐渐更新批归一化统计数据，使用快速模型的动量。04.3. 主要结果0在本节中，我们通过报告2D、3D和集成预测的mIoU（见表1）来展示对上述三个基准设置的定量评估。对于每个基准设置，我们主要与测试时间自适应（TTA）基准线进行比较，同时报告使用无监督域自适应（UDA）的xMUDA作为参考，该方法可以在训练期间访问源数据和目标数据而不受预算限制。0基准线。对于UDA，我们与多模态xMUDA框架进行比较，该框架利用一致性损失（xMUDA）和使用离线伪标签进行自训练（xMUDA PLoffline）。对于TTA基准线，我们评估TENT，xMUDA，xMUDAPL，如3.2节所介绍的。然后，我们将TENT扩展到多模态（TENT Ens），在2D和3Dlogits集合上进行熵最小化。我们还包括这些方法的组合，xMUDA+TENT，xMUDA+TENT Ens和xMUDA PL+TENTEns。对于所有方法，我们进行超参数搜索并报告最佳结果0结果。在表1中，我们展示了我们的MM-TTA方法（HardSelect和SoftSelect）在三个基准设置中相对于所有TTA基线的有利表现。对于A2D2-to-SemanticKITTI和Synthia-to-SemanticKITTI上的TTA基线，我们发现熵和伪标签169340图3.我们的MM-TTA在测试时间自适应过程中逐渐改进的示例结果。虽然TENT[30]在自适应过程中几乎没有改进，但我们的方法可以有效地抑制噪声，并在视觉上与地面真值产生类似的结果，尤其是在虚线白框区域内。0方法 Intra-PG Inter-PR 对伪标签的阈值 2D 3D Softmax平均值快速慢速融合选择0伪标签0(1) � 39.2 36.7 40.80(2) � � 40.1 37.6 41.90(3) � � Consensus 40.8 39 41.80(4) � � Consensus � 40.8 37.5 43.80(5) � � Merge � 43.1 37.4 45.30(6) � Merge � 39.3 36.7 41.60(7) � � Entropy � 40.2 39.6 43.40MM-TTA � � 一致性（Hard） � 43.3 42.4 47.00MM-TTA � � 一致性（Soft） � 43.7 42.5 47.10表2.在A2D2→SemanticKITTI基准测试中对Intra-PG和Inter-PR的影响的消融研究。我们提供了两种不同融合的变体：1）Consensus：使用在2D和3D之间一致的伪标签，2）Merge：取两个输出概率的平均值。对于选择过程，“Entropy”计算并比较2D和3D预测的熵。0基于方法（例如TENT，xMUDAPL）的方法比一致性损失（例如xMUDA）表现更好，这是因为捕捉跨模态的正确一致性的难度。此外，尽管一些TTA基线（例如TENT Ens，xMUDAPL）改善了单独的2D和3D预测的性能，但集成结果都比“仅源模型”更差。这是因为这些方法没有一个设计良好的模块来共同考虑多模态输出，而我们使用我们的Inter-PR来自适应生成跨模态伪标签。0对于nuScenesDay-to-Night，与其他设置不同，RGB的领域差距大于LiDAR，因此挑战主要在于如何改进2D分支并获得有效的集成结果。对于所有基线和我们的方法，3D分支的IoU是有竞争力的，而我们在2D分支和集成方面的结果显著提高，这显示了我们设计的Intra-PG和Inter-PR模块的优势。令人惊讶的是，我们的MM-TTA方法的集成结果比使用UDA设置的xMUDA方法更好。这表明了我们提出的MM-TTA框架在快速测试时间自适应方面的有效性。图30展示了在SemanticKITTI上的3D语义分割的示例结果。我们的MM-TTA方法在自适应过程中逐渐改进初始预测，并产生比TENT更完整和准确的输出。04.4.消融研究04.4.1 MM-TTA分析0用于伪标签细化的Inter-PR。我们展示了不同的Inter-PR伪标签细化方法，并将它们与我们的Hard Select和SoftSelect方案进行了比较。首先，在表2的方法（4）和（5）中，我们使用了两种简单的融合技术：1）仅使用2D和3D伪标签之间一致的点（Consensus），以及2）取两个输出概率的平均值进行伪标签（Merge）。其次，对于从2D或3D分支中选择伪标签，一种选择是计算并比较2D和3D预测的熵（Entropy），如方法（7）所示。总体而言，我们的MM-TTA方法表现优于这些模型变体。此外，我们还展示了使用伪标签阈值是一个不错的选择，例如将方法（3）与（4）进行比较。0.140.341.345.20.343.342.447.00.543.242.546.70.74342.346.20.141.241.545.70.343.742.547.10.543.942.646.90.743.742.346.3[1][2][3][4]2040100200300400500600657075169350方法阈值 2D 3D Softmax 平均0Hard0Soft0（a）伪标签阈值比率θ(k)0方法动量 2D 3D Softmax 平均0Hard 1.00 42.8 42.0 46.3 0.99 43.3 42.4 47.00.95 42.0 42.2 46.10Soft 1.00 43.2 42.1 46.5 0.99 43.7 42.5 47.1 0.9542.6 42.4 46.30（b）动量因子λ0表3.在A2D2→SemanticKITTI中的敏感性分析。0Intra-PG与慢-快建模。我们设计了模型变体来验证Intra-PG的有效性。在表2的方法（2）/（5）中，使用慢更新的模型分别改进了方法（1）/（6）。这表明Intra-PG在不同的伪标签方案中是有用的，例如在方法（2）中没有融合或在方法（5）中没有“合并”。请注意，我们的Inter-PR模块需要慢-快建模，因此这两个模块耦合在一起成为我们的最终模型，相比其他变体显示出性能增益。04.4.2 敏感性分析0阈值θ(k)。这个阈值对于伪标签非常关键，其中较低的值以类别方式过滤更多的点，反之亦然。表3a显示了我们的方法对θ(k)的稳健性，0.3的值表现最佳。0动量因子λ。我们使用慢-快建模策略，通过动量λ缓慢更新源预训练批归一化统计数据。表3b显示了改变λ的效果。将其设置为1.0将简单地保持源统计数据，这不是最优的。0在TTA期间的稳定性。由于TTA在自适应过程中只看到测试数据一次，稳定性很大程度上受到学习率等超参数的影响。在图4中，我们使用不同的学习率运行不同的方法，并发现我们的MM-TTA方法在自适应过程中表现稳健，并且具有更高的平均值（44.2/44.3）和较低的标准差（2.45/2.55）。04.4.3 伪标签准确性分析0我们在自适应过程中测量了我们提出的模块的伪标签准确率。我们测试了不同迭代中的准确率。0学习率0mIoU（%）0平均标准差0TENT 36.9 3.450xMUDA 25.8 14.10我们的方法（Hard）44.2 2.450我们的方法（Soft）44.3 2.550图4.在A2D2→SemanticKITTI中使用不同学习率的稳定性。对于2D/3D分支，我们使用四组学习率：[1] 1.0x10-5/2.4x10-5，[2]1.0x10-5/2.4x10-4，[3] 1.0x10-4/2.4x10-4，[4]1.0x10-4/2.4x10-3。0迭代次数0准确率（%）0快速快速+慢（Intra-PG）0Intra-PG+Inter-PG（Hard）Intra-PG+Inter-PG（Soft）0图5.在A2D2→SemanticKITTI中自适应过程中的伪标签准确率。0在每个迭代的100到600之间的6个阶段中，我们收集有效点的伪标签，并计算所有类别的平均准确率。在图5中，我们首先观察到在Intra-PG中使用慢-快建模可以将准确率从基线（仅使用快模型）提高2%。然后，结合我们提出的两个模块在所有迭代中都显示出改进，获得了5%的增益。05. 结论0在本文中，我们提出了一个新的问题设置，即多模态测试时自适应（MM-TTA）用于3D语义分割。我们首先确定了几个基线及其局限性，然后提出了一个简单而有效的自训练框架，由Intra-PG和Inter-PR两个模块组成，用于生成可靠的跨模态伪标签。在实验中，我们在几个基准设置中展示了我们的MM-TTA框架。此外，我们进行了广泛的消融研究和分析，以展示我们提出的模块的优势。致谢：本工作是InkyuShin在NEC LaboratoriesAmerica的实习的一部分，也得到了三星电子有限公司（G01200447）的部分支持，并在韩国国家研究基金会（NRF-2020M3H8A1115028，FY2021）管理的国际合作计划框架下得到支持。169360参考文献0[1] Khaled Bayoudh, Raja Knani, Fayc¸al Hamdaoui, andAbdel- latif Mtibaa. 关于计算机视觉的深度多模态学习的调查:进展、趋势、应用和数据集. The Visual Computer , pages 1 –32, 2021. 10[2] Jens Behley, Martin Garbade, Andres Milioto, Jan Quen-zel, Sven Behnke, Cyrill Stachniss, and Juergen Gall.SemanticKITTI: 用于激光雷达序列的语义场景理解数据集. InICCV , 2019. 50[3] Holger Caesar, Varun Bankiti, Alex H. Lang, Sourabh Vora,Venice Erin Liong, Qiang Xu, Anush Krishnan, Yu Pan,Giancarlo Baldan, and Oscar Beijbom. nuscenes:用于自动驾驶的多模态数据集. In CVPR , 2020. 50[4] Zhixiang Chi, Yang Wang, Yuanhao Yu, and JingshanTang. 用于动态场景去模糊的测试时快速适应性通过元辅助学习.In CVPR , 2021. 20[5] Christopher Choy, JunYoung Gwak, and Silvio Savarese.4D时空卷积网络: Minkowski卷积神经网络. In CVPR , 2019. 1 ,3 , 60[6] F. Duerr, H. Weigel, M. Maehlisch, and J. Beyerer.迭代式深度融合用于3D语义分割. In2020第四届IEEE国际机器人计算会议 (IRC) , pages 391–397, LosAlamitos, CA, USA, nov 2020. IEEE Computer Society. 1 , 30[7] Jakob Geyer, Yohannes Kassahun, Mentar Mahmudi,Xavier Ricou, Rupesh Durgesh, Andrew S Chung, LorenzHauswald, Viet Hoang Pham, Maximilian M¨uhlegg,Sebastian Dorn, 等. A2D2: Audi自动驾驶数据集. arXiv预印

下载后可阅读完整内容，剩余1页未读，立即下载