跨模态无监督域自适应的优势及应用

109 浏览量更新于2023-10-25 收藏 1.83MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1错误汽车未识别UDA基线单模态学习目标（晚上）xMUDA跨模态学习2D图像3D点云错误预测车辆行人xMUDA：用于3D语义分割的跨模态无监督域自适应Maximilian Jaritz1，2，3，Tuan-HungV u3，Raoul de Charette1，E'milieW irbel2，3，PatrickPe' rez31Inria，2法雷奥DAR，3Valeo.ai图1：交叉模态UDA（xMUDA）在存在域间隙（昼夜）的情况下的优势。在这个3D语义分割示例中，由于白天/夜晚域偏移，来自2D相机图像的UDA基线[16]预测没有检测到右侧的汽车。通过xMUDA，2D可以通过与3D LiDAR点云的信息交换来学习黑暗中汽车的外观，而3D可以学习减少错误的预测。摘要无监督领域自适应（UDA）对于解决新领域中缺乏注释的问题至关重要。有许多多模态数据集，但大多数UDA方法都是单峰的。在这项工作中，我们探索如何从多模态学习，并提出跨模态UDA（xMUDA），我们假设存在的2D图像和3D点云的3D语义分割。这是一个挑战，因为两个输入空间是异质的，并且可能受到域转移的不同影响。在xMUDA中，模态通过相互模仿相互学习，从分割目标中解脱出来，以防止较强模态采用较弱模态的错误预测。我们对新的UDA场景进行评估，包括白天到晚上，国家到国家和数据集到数据集，利用最近的自动驾驶数据集。xMUDA在所有测试场景上都比单模态UDA有了很大的改进，并且是对最先进的UDA技术的补充。代码可从https：//github.com/valeoai/xmuda网站。1. 介绍在许多应用中需要三维场景理解，特别是机器人、自动驾驶和虚拟现实。在关注的不同任务中，随着新数据集的发布，3D语义分割越来越受到关注[1，5，6]。与其他感知任务一样，3D语义分割可能会遇到监督训练和测试时间之间的域转移问题，例如白天和黑夜之间，不同的国家或数据集之间。领域自适应旨在解决这一差距，但现有的工作主要涉及2D语义分割[11，16，28，34]，很少涉及3D [32]。我们还观察到，以前的域自适应工作集中在单一模态上，而3D数据集通常是多模态的，由3D点云和2D图像组成虽然这两种模式之间的互补性已经被人类注释者和学习模型用来定位3D场景中的对象[18，21]，但我们通过一个新的角度来考虑它，提出以下问题：如果源域和目标域都有3D和2D数据，我们是否可以利用多模态来解决无监督域自适应（UDA）问题？1260512606我们将我们的方法称为跨模态 UDA ，简称为“xMUDA”，并考虑3种具有不同照明条件（白天到夜晚），环境（国家到国家）和传感器设置（数据集到数据集）的真实到真实的适应场景。由于各种原因，这是一项具有挑战性的任务。异构输入空间（2D和3D）使管道复杂，因为它意味着要与异构网络架构和2D-3D投影一起工作。在融合中，如果两个传感器注册相同的场景，则两者之间存在共享信息，但每个传感器也具有私有（或独占）信息。由于后者，在某些情况下，一种模态可能比另一种模态更强，但在另一种情况下可能相反，这取决于类，上下文，分辨率等。这使得基于先验知识选择“最佳”传感器是不可行的。此外，每种模态都可能受到域转移的不同影响。例如，cam-era深受昼夜域变化的影响，而LiDAR对其相对稳健，如图所示1.一、为了解决这些挑战，我们提出了一种跨模态UDA（“xMUDA”）框架，其中可以在2D和3D之间交换信息，以便针对UDA彼此学习（参见图 1A1）。我们使用一个非纠缠的2流架构，以解决域的差距，分别在每一个模态。我们的学习方案允许跨模态和分割对象的鲁棒平衡。此外，xMUDA可以与现有的单模态UDA技术相结合。在这项工作中，我们展示了与伪标签自训练的互补性。最后，在监督学习中通常使用特征融合（例如，早期或晚期融合）当多种模态可用时[8，18，27]：我们的框架可以扩展到融合，同时保持分离的跨模态目标。我们的贡献可归纳如下：• 我们定义了新的UDA场景，并在最近发布的2D-3D数据集上提出了相应的分割。• 我们设计了一个架构，通过在2D和3D中分离私人和共享信息来实现跨模式学习。• 我们提出了一种新的UDA学习方案，其中模态可以相互学习，与主要目标保持平衡。它可以应用于国家的顶部最先进的自我训练技巧来提高表现。• 我们展示了我们的框架如何扩展到后期融合并产生卓越的结果。在不同的基准测试中，我们的表现明显优于单模态最先进的UDA技术。因此，我们表明，开发多模态的UDA是一个强大的工具，可以受益于广泛的多传感器应用。2. 相关工作在本节中，我们将回顾每个焦点的代表作品，而不是彻底阅读文献。无监督域自适应。在过去的几年里，人们对无监督域自适应技术的兴趣越来越大，这些技术用于对象检测和语义分割等复杂的感知任务。在这些方法的背后，是学习域不变表示的相同精神，即，来自不同域的特征一些作品促进对抗训练以最小化源-目标分布偏移，无论是在像素[11]，特征[12]还是输出空间[26，28]上。从半监督学习[14]中重新审视，使用伪标签的自我训练最近也被证明对UDA有效[16，34]。虽然大多数现有的作品认为UDA在2D世界，很少解决3D对应。Wu等人。 [32]采用激活相关对齐[20]进行UDA，从LiDAR点云进行3D分割。在这项工作中，我们研究了同样的任务，但不同的是：我们的系统对多模态输入数据进行操作，即，RGB +激光雷达。据我们所知，没有以前的UDA作品在2D/3D语义分割多模态的情况下。只有一些人考虑额外的模态，例如。深度，仅在源域的训练时间可用，并利用这些特权信息来提高自适应性能[15，29]。否则，我们在这里假设所有模态在训练和测试时在源域和目标域上都可用多模态学习。在监督设置中，可以通过融合来自多个源的特征来自然地提高几何上最简单的情况是RGB-深度融合，具有用于2D分割的密集像素到像素对应性[8，27]。将3D点云与2D图像融合是比较困难的，因为它们位于不同的度量空间。一种解决方案是将2D和3D特征投影到另一种可能性是将2D特征从多视图图像提升到3D点云，以实现3D语义分割的联合2D-3D处理[3，13，24]。我们更接近最后一个系列的作品：我们有着相同的3D语义分割目标。然而，我们专注于如何利用多模态的UDA，而不是监督学习，只使用单视图图像及其对应的点云。用于语义分割的3D网络。而图像是密集的张量，3D点云可以以多种方式表示，这导致并行进化的竞争网络家族。体素与像素非常相似，但由于它们中的大多数是空的，因此非常占用内存。格拉哈姆等人 [7]和类似的实现[4]解决了这个问题12607S相机图像（、、3）2D网络密集像素特征图（、、2D）样品（、2D）分类（、）的内容分类2D（、）的内容二维→三维KL（3D ||2D → 3D）项目特征概率交叉模态损耗稀疏体素分类3DKL（二维||3D → 2D）（、3）Lidar点云3D网络（、3D）（、）的内容分类三维→二维（、）的内容图2：用于3D语义分割的xMUDA框架概述。该架构包括一个以图像为输入并使用U-Net风格2D ConvNet [23]的2D流，以及一个以点云为输入并使用U-Net风格3D SparseConvNet [7]的3D流两个流的特征输出具有相同的长度N，等于3D点的数量为了实现这一点，我们将3D点投影到图像中，并在相应的像素位置对2D特征进行采样。4个分割输出包括主预测P2D、P3D和拟态预测P2D→3D、P3D→2D。我们使用KL散度、DKL（P3D）||P2D→3D），其中2D模仿的目标头是估计主要的3D输出，反之亦然，DKL（P2D||P3D→2D）。问题是使用哈希表只对活动体素进行卷积。这允许非常高的分辨率，通常每个体素只有一个点基于点的网络执行融合的特殊情况在下文中，我们考虑源数据集S，其中每个样本由2D图像x2D、3D点云x3D组成S s在连续的3D空间中进行计算，因此可以直接接受点云作为输入。PointNet++ [22]使用逐点卷积，最大池化来计算全局特征和3D分割标签y3D以及目标数据集T，缺少注释，其中每个样本仅由图像x2D和点云x3D。图像x2D是空间的t t和用于分层学习的局部邻域聚合-类似于CNN。在这个方向上已经提出了许多改进，例如连续卷积[30]和可变形内核[25]。基于图形的网络在点云的边缘上卷积[31]。在这项工作中，我们选择SparseConvNet [7]作为3D网络，这是ScanNet基准测试[5]的最新技术。3. xMUDA跨模态UDA（xMUDA）的目的是通过实现模态之间的受控信息交换来开发多模态，以便它们可以相互学习这是通过让他们相互模仿对方的输出来实现的具体来说，我们调查xMUDA使用点云（3D模态）和图像（2D模态）的3D语义分割的任务。图1中描绘了概述。二、我们首先在第二节中描述架构。3.1，我们的学习计划在第二节。3.2，后来展示其扩展到尺寸（H，W，3）和点云x空间尺寸（N，3）的3D，其中N是相机视场中的3D点的数量3.1. 架构为了允许跨模态学习，提取每个模态的特定特征至关重要与将2D特征提升到3D的2D-3D架构相反[18]，我们使用具有独立的2D和3D分支的2流架构，这些分支不共享特征（见图1）。2）。我们使用SparseConvNet [7]用于3D，使用ResNet 34[9]修改后的U-Net [23]用于2D。即使每个流都有一个特定的网络架构，重要的是输出的大小相同，以允许跨模态学习。实施细节见第四点二。双分割头。我们将分割头称为网络中的最后一个线性层，它将输出特征转换对于xMUDA，我们在2D和3D之间建立了一个链接、图像尺寸num. 点2D、3D编号特征通道num. 类12608源2D公司简介源3D目标2DxM目标3D单模态自我训练伪标签，MinEnt源-靶比对深度logCORAL跨模态自我训练xMUDA输出概率，即，每种模态都应该预测另一种模态这允许我们显式地控制跨模态学习。在朴素方法中，每个模态具有单个分段头部，并且跨模态优化目标对准两个模态的输出。Unfortunately,this leads to only using information that is shared betweenthe two modalities, while discarding private informationthat is ex- clusive to each sensor (more details in theablation study in Sec. 5.1）。这是一个重要的限制，因为我们希望同时利用私有和共享信息，以获得最佳性能。为了保护私人信息，同时受益于共享的知识，我们引入了一个额外的分割头，以解耦的模仿目标从主要的分割目标。这意味着2D和3D流都有两个分割头：一个主头用于最佳可能的预测，一个模仿头用于估计另一模态的输出。4个分段头的输出（见图2）的大小为（N，C），其中C等于类的数量，使得我们获得每个3D点的类概率的向量。两个主要的头产生最好的可能的预测，P2D和P3D分别为每个分支。两个模拟头估计另一个模态3.2. 学习方案我们的跨模态学习方案的目标是以受控的方式在模态之间交换信息，以教它们意识到彼此。该辅助目标可以有效地提高每个模态的性能，并且不需要任何注释，使其能够用于目标数据集T上的UDA。在下文中，我们定义了基本的监督学习设置，我们的跨模态损失LxM，以及附加的伪标签学习方法。损失流程如图所示。3a.监督学习。3D分割的主要目标是通过交叉熵以经典的监督方式对源数据进行学习。我们可以把分割3DyPL2DX二维网3DXsegXM2DX三维网3DXPL(a) 拟议的UDA培训设置(b) 多模态数据图3：建议的跨模式训练与适应的细节。（a）xMUDA从源域（实线）上的监督和目标域（虚线）上的自我监督中学习，同时受益于2D/3D的跨模态预测。（b）我们考虑四个数据子集：源2D、目标2D、源3D和目标3D。与现有技术相比，xMUDA引入了用于UDA的跨模态自训练机制而另一个对域移动更鲁棒，则鲁棒模态应该教导敏感模态在没有标签可用的目标域中的正确类。其次，我们要在源和目标上设计一个辅助目标，其任务是估计另一模态通过不仅模仿具有最大概率的类，而且模仿整个分布，交换了更多的信息，从而导致更软的标签。我们选择KL散度作为跨模态损耗LxM并将其定义如下：LxM（x）= DKL（P（n，c）||Q（n，c））（2）对于每个网络流（2D和3D）的lossLseg为：X1公斤=−XP（n，c）log（n，c）X、（3）L（x，y3D）=−1 ΣCy（n，c）logP（n，c），（1）Nxn=1c =1（n，c）XsegssNsxsn=1c =1其中（P，Q）∈ {（P2D，P3D →2D），（P3D，P2D→3D）}，其中P是来自主预测的目标分布，其中xs是x2D或x3D。通过模拟预测Q来估计。这一损失S s应用于源域和目标域，跨模态学习。跨模态的无监督学习的目标是双重的。首先，我们希望在目标数据集上将知识从一种模态转移到另一种模态。例如，假设一种模态是敏感的不需要地面实况标签，是我们提出的领域适应框架的关键。对于源，LxM可以被视为除了主要分割损失Lseg之外的辅助模仿损失。PNQ12609S不|不|S每个网络流（2D和3D）的完整目标是源上的分段损失Lseg与源和目标上的跨模态损失LxM技术操作。与以前只作用于单一模态的UDA方法不同，xMUDA引入了一种新的跨模态自训练方法，因此是正交的minθΣ1|S|Σ。xs∈SΣLseg（xs，y3D）+λsLxM（xs）并补充现有的适应技术。4. 实验1 ΣΣ+λtLxM（xt），（4）x ∈T其中λs、λt是分别在源和目标上加权LxM的超参数，θ是2D或3D流的网络权重跨模态学习和模型提取之间存在相似之处，模型提取也采用KL散度作为模仿损失，但目标是将知识从大型网络转移到监督集中的较小网络[10]。最近，Zhang等人引入了深度相互学习[33]，其中一组单峰网络被联合训练，以相互协作学习虽然在某种程度上，我们的跨模态学习与这些策略具有相似的性质，但我们从不同的角度来处理，即。跨模式（2D/3D），而不是在监督下，但在UDA设置。使用伪标签进行额外的自我训练。交叉模态学习是对最初用于半监督学习和最近用于UDA [16，34]的伪标记[14详细地说，一旦用Eq.4、我们离线提取伪标签，基于预测的类概率选择高度置信的标签。然后，我们使用生成的伪标签从头开始再次训练，以在目标训练集上进行额外的分割损失优化问题写道：4.1.数据集为了评估xMUDA，我们确定了3种真实的自适应场景。在白天到黑夜的情况下，LiDAR具有小的域间隙，因为它是一种主动传感器，发出的激光束大多不受照明条件的影响。相比之下，相机具有大的域间隙，因为其被动传感遭受缺乏光源，导致对象外观的急剧变化。第二种情况是国家与国家之间的适应，其中LiDAR或相机的域差距可能更大：对于某些类，3D形状可能比视觉外观改变得更多，反之亦然。第三种情况是数据集到数据集，包括传感器设置的变化，例如相机光学，但最重要的是目标上更高的LiDAR分辨率。3D网络对变化的点云密度很敏感，图像可以帮助指导和稳定适应。我们利用最近发布的自动驾驶数据集nuScenes [2]，A2D2 [6]和SemanticKITTI [1]，其中LiDAR和相机是同步和校准的，允许计算3D点与其对应的2D图像像素之间的投影所选数据集包含3D注释。为了数据集的简单性和一致性，我们只使用前置摄像头图像和投影到其中的Li-DAR点。对于nuScenes，注释是3D边界框，我们获得3D语义分割的逐点标签minθΣ1|S|Σ。ΣLseg（xs，y3D）+λsLxM（xs）Xs如果点位于3D框内，则通过分配相应的对象标签进行分段;否则该点标记为1+|不|Σ。λPLL seg（xt，y<$3D）+λtLxM（xt）XtΣΣ、（五）背景我们使用Meta数据来生成拆分，两个UDA场景：日/夜和美国/新加坡。A2D2和SemanticKITTI提供分割标签。where λPL is weighting the pseudo-label segmentation lossand yˆ3D are the pseudo-labels. 为了清楚起见，我们将把使用带有伪标签的额外自训练的xMUDA变体称为xMUDAPL。3.3. 讨论我们工作的一个核心贡献是在多模态场景中通过KL发散最小化来制定跨模态学习，这不仅有助于我们从多个传感器中受益，还有助于减轻域转移。事实上，由于计算2D和3D预测之间的KL发散不需要地面实况，我们的学习方案允许对目标集进行额外的正则化-图3b显示了我们任务中考虑的4个数据子集，并显示了不同UDA的维度对于UDA，我们在两个数据集之间定义了10个共享类。LiDAR设置是主要的区别：在A2D2中，有3个16层的LiDAR生成相当稀疏的点云，而在SemanticKITTI中，有一个64层的高分辨率LiDAR。我们在补充资料中提供了数据分割的详细信息4.2. 实现细节2D网络。我们使用修改后的U-Net [23]和ResNet 34 [9]编码器，在第 3 层和第 4 层之后添加 dropoutIn thedecoder, each layer consists of a transposed convolution,concatenation with en- coder features of same resolution(skip connection) and an- other convolution to mix thefeatures. 网络需要12610美国/新加坡日/夜A2 D2/SemanticKITTI方法2D3Dsoftmax平均值2D3Dsoftmax平均值2D3Dsoftmax平均值基线（仅来源）53.446.561.342.241.247.836.036.641.8[20]第二十话52.647.159.141.442.851.835.8*39.340.3[28]第二十八话53.447.059.744.943.551.338.838.042.7PL [16]55.551.861.543.745.148.637.444.847.7xMUDA59.352.062.746.244.250.036.843.342.9xMUDAPL61.154.163.247.146.750.843.748.549.1Oracle66.463.871.648.647.155.258.371.073.7*使用批量大小6而不是8进行训练，以适应GPU内存。表1：不同跨模态UDA场景中用于3D语义分割的相应目标集上的mIoU我们报告每个网络流（2D和3D）的结果以及集成结果图像x2D作为输入，并产生具有相等空间维度（H，W，F2D）的输出特征图，其中F2D是特征通道的数量。为了将2D特征提升到3D，我们在3D点投影到特征图中的稀疏像素位置处对其进行采样，并获得最终的二维特征矩阵（N，F2D）。3D网络。对于SparseConvNet [7]，我们利用了一个具有6倍下采样的U-Net架构和一个可扩展的PyTorch实现。我们使用5cm的体素大小，其足够小，每个体素只有一个3D点训练对于数据增强，我们在2D中采用水平翻转和颜色抖动，在3D中采用x轴翻转，缩放和旋转。由于Se-manticKITTI中的广角图像，我们在水平图像轴上随机裁剪一个固定大小的矩形，以减少训练过程中的内存。在所有实验中使用对数平滑类权重来解决类不平衡。对于PyTorch中跨模态损耗的KL发散，我们将目标变量分离为仅在2D或3D网络中反向传播。我们使用的批量大小为8，Adam优化器的β1=0。9，β2=0。999，以及基于迭代的学习调度，其中学习速率为0。001在80 k和90 k迭代时除以10;训练在100 K结束。我们联合训练2D和3D流，并在每次迭代时，累积在源和目标批次上计算的梯度。所有的训练都可以放入一个11GB RAM的GPU中。对于xMUDA，我们使用Eq进行训练。4，其中我们使用源上的地面真值标签和源和目标上的跨模态损失来应用分割损失。对于xMUDAPL，我们使用先前训练的xMUDA模型离线生成伪标签，并从头开始再次训练，现在使用伪标签对目标进行额外的分割损失（公式16）（五）。注意，我们没有选择验证集上的最佳权重，而是使用最后一个检查点来生成伪标签，以防止任何监督学习信号。2D和3D网络在每次迭代时都在源和目标上进行联合训练和优化4.3. 主要实验我们在3种提出的跨模态UDA场景上评估我们的方法，并与单峰UDA方法进行比较：深度logCORAL[20]，熵最小化（Mi- nEnt ） [28]和伪标记（ PL）[16]。关于PL，我们应用[16]如下：我们在没有UDA的第一次训练中离线生成伪标签然后，我们从头开始运行第二次训练，在目标上添加PL损失。图像-2-图像转换部分由于其不稳定性、高训练复杂性和与LiDAR数据不兼容而被排除，从而限制了再现性。关于其他两个单峰技术，我们适应出版的对于所有这些，我们都搜索了最佳的相应超参数。我们在Tab中报告了 3D分割的1在3个UDA场景的目标测试集我们使用在验证集上获得最佳分数的检查点对测试集进行评估除了2D和3D模型的得分之外，我们还显示了通过对softmax之后的预测2D和3D概率取平均值而获得的集成结果基线仅在源上训练，而oracle仅在目标上训练，除了 Day/Night oracle ，我们使用50%/50% Day/Night的批次来防止过拟合。单模态UDA基线[16，20，28]分别应用于每种模态。xMUDA--我们观察到，xMUDA始终改善了两种模式（2D和3D），即即使是强模态也可以向弱模态学习。xMUDAPL在所有地方都取得了最好的成绩，只有Day/Night softmax avg除外。此外，交叉模态学习和伪标签（ PL ）的自我训练是互补的，因为它们在xMUDAPL中的组合是一致的126112D特征3D特征(a) 香草融合保险丝(b) xMUDA融合架构mIoU基线（仅源代码）Vanilla 59.9[20]第二十话[28]第二十八话[16]第十六话蒸馏香草65.8xMUDA Fusion xMUDA 61.9xMUDAPLFusion xMUDA66.6Oracle xMUDA 72.2表2：融合方法的mIoU，美国/新加坡地区。在“蒸馏”中1生成伪图4：融合的架构。（a）在香草融合2D和3D特征被连接，被馈送到线性层与ReLU混合的功能，然后是一个-标签从softmax平均，并使用这些来训练香草融合网络。2D其他线性层和softmax，以获得融合的预测Pfuse。（b）在 xMUDA Fusion 中，我们增加了两个单模输出P2D→fuse和P3D→fuse，用来模拟融合输出Pfuse。比每种单独的技术都得到更高的分数。定性结果如图所示。6，并显示了xMUDA在所有建议的UDA场景中的通用性。特征3D特征2DKL（二维||3D）KL（3D||二维）3D60504030200.0010.01 0.1 1.0不我们提供了额外的定性结果，(a) 单头架构(b) λs= 1.0，改变λttary和A2D2到SemanticKITTI场景的视频，http://tiny.cc/xmuda网站。4.4. 融合扩展节中4.3我们展示了如何使用xMUDA改进每个2D和3D模态。然而，我们能通过融合获得更好的结果吗？一个常见的融合架构是后期融合，其中来自不同来源的特征被连接在一起（见图11）。（见第4a段）。然而，当将主要的2D/3D分支合并成一个独特的融合头部时，我们不能再应用跨模态学习（如图2）。5a）。为了解决这个问题，我们提出了“xMUDA融合”，其中我们在融合层之前向2D和3D网络流添加额外的分段头，目的是模仿中央融合头（见图11）。第4b段）。注意，这个想法也可以应用于其他融合架构之上。在选项卡中。 2我们显示了不同融合方法的结果，其中我们指定使用哪种架构（来自图2的Vanilla后期融合）。4a或来自图4a的xMUDA融合。第4b段）。虽然5. 消融研究5.1.分段负责人在下文中，我们证明了我们的设计选择，即每个模态流有两个分割头，而不是一个图5：单与双分段头。（a）主预测和拟态预测不像图2的xMUDA中那样是解耦的。（b）mIoU相对于λt（单与双头架构。美国/新加坡情景。一个在一个天真的方法（见图）。5a）。在单头架构中，模仿目标直接应用于2个主要预测之间。在2D/3D之间存在共享信息，但在每个模态中也存在私有信息减少交叉模态损耗的不必要的解决方案LxM是网络丢弃私人信息，因此它们都只使用共享信息，从而更容易调整其输出。然而，我们推测，最好的perfor-曼斯可以实现，如果私人信息也被使用。通过使用双分割头将主要预测与模仿预测分离，我们可以有效地解耦两个优化目标：主要头输出最佳可能的预测以优化分割损失，而模仿头可以与其他模态对齐。以比较单个与在双分段头架构中，我们仅应用交叉模态损耗LxM，不包括PL，因为它不依赖于双头方法。我们将源上的LxM损失权重固定为λs=1。0，并且改变目标-得到λt。超参数λt是本分析的重点因为它控制目标集上的模态对齐，这是UDA的主要驱动力。在图5b中，我们显示xMUDA的双磁头架构实现了最佳性能，而单磁头架构在高λt时性能急剧下降。我们假设双concat2D特征2D→熔断器KL（熔断器||2D →熔断器）concat保险丝KL（熔断器||3D →熔丝）3D特征3D→保险丝单头2D单头3D双头2D双头3DMiou12612目标输入地面实况UDA基线（PL）xMUDAPL车卡车自行车人路人行道停车性质建筑其他物体车辆行人自行车交通边界背景图6：3种拟定拆分的定性结果。我们展示了在UDA Baseline（PL）和xMUDAPL上对2D和3D的softmax输出求平均所得的集成结果。A2 D2/SemanticKITTI：xMUDAPL有助于在传感器发生变化时稳定和优化分割性能（3x 16层LiDAR与64层LiDAR具有不同角度）。美国/新加坡：在新加坡，后面带有储物箱的送货摩托车很常见，但在美国却不常见。The 3D shape might resemblea vehicle. 但是，xMUDAPL中利用了2D外观信息来提高识别率。白天/夜晚：汽车在夜间打开前灯的视觉外观与白天有很大不同单模态UDA基线无法学习此新外观。但是，如果在xMUDAPL中交换摄像头和夜间强大的LiDAR之间的信息，则可以在夜间正确检测汽车。头部更健壮，因为它解开了片段，方法2D3Dsoftmax平均值方法融合从模仿的目标。不含LxM65.863.271.1香草融合71.0关于LxM66.463.871.6融合+LxM72.25.2. 跨模态源学习在（4）中，跨模态损失LxM被应用于源和目标，尽管我们已经在源上有监督分割损失Lseg 我们在2D上观察到4.8 mIoU的增益，4.4在3D上，当在源上添加LxM时，只瞄准目标由此可见，训练模拟头上的源，稳定的预测，这可以利用在适应目标。5.3. Oracle培训的跨模式学习我们已经表明，跨模态学习是非常有效的UDA。然而，它也可以在纯粹的超视设置中使用。当使用跨模态损失LxM训练oracle时，我们可以在基线上进行改进，参见Tab。3 .第三章。我们推测LxM是有益的辅助损失，有助于规范训练和防止过度装配。6. 结论我们提出了xMUDA，跨模态无监督Do- main适应，其中模态相互学习表3：Oracle训练美国/新加坡的mIoU以提高目标域上的性能。对于跨模态学习，我们引入模态之间的相互模仿，通过KL分歧实现我们设计了一个具有独立的主头和模仿头的架构，以将分割与跨模态学习目标分开。使用2D/3D数据集在新的UDA场景上进行3D语义分割的实验表明，xMUDA在很大程度上优于单峰UDA，并且是伪标签策略的补充。Ananalog perfor- mance boost is observed on fusion.我们认为，跨模态学习可能是有用的，各种各样的设置和任务，不限于UDA。特别是，它应该有利于监督学习和图像和点云以外的其他模式。美国-新加坡昼夜A2D2-SemKITTI12613引用[1] J. Behley，M. Garbade，A. Milioto，J. Quenzel，S.本克C. Stachniss和J.胆语义：用于LiDAR序列的语义场景理解的数据集。在ICCV，2019年。一、五[2] 放大图片作者：Holger Caesar，Varun Bankiti，AlexH.Lang，Sourabh Vora，Venice Erin Liong，Qiang Xu，Anush Krishnan，Yu Pan，Giancarlo Baldan，and OscarBeijbom.nuScenes：用于自动驾驶的多模态数据集。arXiv预印本arXiv：1903.11027，2019。5[3] Hung-Yueh Chiang，Yen-Liang Lin，Yueh-Cheng Liu，and Winston H Hsu.一个统一的基于点的三维分割框架。在3DV，2019年。2[4] Christopher Choy，JunYoung Gwak，Silvio Savarese.四维时空对流：Minkowski卷积神经网络。在CVPR，2019年。2[5] 戴安琪，天使X. Chang，Manolis Savva，Maciej Hal-ber ， Thomas Funkhouser ， and Matthias Nießner.Scannet：室内场景的丰富注释3D重建。在CVPR，2017年。第1、3条[6] Jakob Geyer，Yohannes Kassahun，Mentar Mahmudi，Xavier Ricou ， Rupesh Durgesh ， Andrew S. Chung ，LorenzHauswald ， VietHoangPham ， MaximilianMu？ hlegg，Sebas-tianDorn，Tif an yFernandez，MartinJ？ nicke ， SudeshMi- rashi ， Chiragkumar Savani ， MartinSturm，OleksandrVoro-biov，andPeterSchuberth.A2D2 ： AEV 自动驾驶数据集。http://www.a2d2.audi，2019年。一、五[7] 本杰明·格雷厄姆、马丁·恩格尔克和劳伦斯·范德马滕。基于子流形稀疏卷积网络的三维语义分割。在CVPR，2018年。二、三、六[8] Caner Hazirbas ， Lingni Ma ， Csaba Domokos ， andDaniel Cremers. Fusenet：通过基于融合的cnn架构将深度融入语义分割。InACCV，2016.2[9] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。三、五[10] Geoffrey Hinton Oriol Vinyals和Jeff Dean。在神经网络中提取知识在NIPS研讨会，2014年。5[11] Judy Hoffman 、 Eric Tzeng 、 Taesung Park 、 Jun-YanZhu、Phillip Isola、Kate Saenko、Alexei Efros和TrevorDarrell。苏铁：周期一致的对抗域适应。在ICML，2018。一、二[12] 朱迪·霍夫曼，王德全，余菲，特雷弗·达雷尔. FCNs inthe wild ： Pixel-level adversarial and constraint- basedadaptation.arXiv：1612.02649，2016。2[13] Maximilian Jaritz，顾嘉源，苏浩。用于三维场景理解的多视点网络。在ICCV研讨会，2019年。2[14] 李东贤伪标签：简单高效的深度神经网络半监督学习方法。ICML研讨会，2013年。二、五[15] Kuan-Hui Lee ， German Ros ， Jie Li ， and AdrienGaidon.Spi-gan：从模拟中获得特权的对抗学习。2019年，在ICLR。212614[16] 李云生，陆远，努诺·瓦斯康塞洛斯。语义分割领域自适应的双向学习在CVPR，2019年。一、二、五、六、七[17] 梁明，杨斌，陈云，胡瑞，拉奎尔·乌塔孙.多任务多传感器融合三维目标检测。在CVPR，2019年。2[18] Ming Liang，BinYang，Shenlong Wang，and RaquelUrtasun.多传感器三维目标检测的深度连续融合在ECCV，2018。一、二、三[19] Gregory P Meyer 、 Jake Charland 、 Darshan Hegde 、Ankit Laddha和Carlos Vall-Gonzalez。联合三维目标检测和语义分割的传感器融合。在CVPR研讨会，2019年。2[20] Pietro Morerio，Jacopo Cavazza，and Vittorio Murino.无监督深度域自适应的最小熵相关对齐。在ICLR，2018年。二六七[21] Charles R. Qi，Wei Liu，Chenxia Wu，Hao Su，andLeonidas J. Guibas从rgb-d数据中检测三维物体的截头体点网。在CVPR，2018年。1[22] Charles R.Qi，Li Yi，Hao Su，and Leonidas J.GuibasPoint- net++：度量空间中点集上的深度层次特征学习。NeurIPS，2017。3[23] Olaf Ronneberger ， Philipp Fischer ， and ThomasBrox.U-网：用于生物医学图像分割的卷积网络在MICCAI，2015年。三、五[24] Hang Su ， Varun Jampani ， Deqing Sun ， SubhransuMaji，Evangelos Kalogerakis，Ming-Hsuan Yang，andJan Kautz. Splatnet：用于点云处理的稀疏网格网络。在CVPR，2018年。2[25] 作者： Charles R. Qi ， Jean-Emmanuel Deschaud ，BeatrizMarcot e gui，Fran coisGoulette，andLeonidasJ.Guibas Kpconv ：点云的灵活和可变形卷积。在ICCV，2019年。3[26] Yi-Hsuan Tsai，Wei-Chih Hung，Samuel Schulter，Ki-hyuk Sohn ， Ming-Hsuan Yang ， and ManmohanChandraker.学习适应语义分割的结构化输出空间。在CVPR，2018年。2[27] Abhinav Valada，Rohit Mohan，and Wolfram Burgard.多模态语义分割的自监督模型适应。IJCV，2019年。2[28] Tuan-Hung Vu ， Himalaya Jain ， Maxime Bucher ，Matthieu Cord，andPatrickPe 'rez. Avent：用于语义分割中

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

跨模态无监督域自适应的优势及应用

语义分割的几何无监督域自适应算法的优势

使用跨模态交互进行领域自适应动作识别的方法

视频域自适应中的跨模态对比特征学习

"可控无监督域自适应：凝视和头部重定向的新方法

advent无监督域自适应

单源域自适应与多源域自适应

基于度量的域自适应和基于对抗的域自适应异同点

基于度量的域自适应和基于对抗的域自适应相似之处

unsupervised domain adaptation

NeRF与域自适应技术

DANN在域自适应算法中的优点

域自适应和域适应是一个概念吗

迁移学习全局域自适应，子域自适应，深度子域自适应分解是什么，他们的区别是什么

域自适应中的域由什么组成

解释一下“域自适应”和“迁移学习”

无监督领域自适应的研究现状

全局域自适应，子域自适应，深度子域自适应分解是什么，他们的区别是什么

域自适应需要考虑保护患者隐私的问题吗

域自适应迁移学习中损失函数

最新资源