无地面强监督学习3D物体形状布局

4 浏览量更新于2023-10-25 收藏 25.91MB PDF 举报

机器学习方法

大规模数据集

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

ℓ!"(, GT!#)↻ℓ!"16950无需3D监督学习3D物体形状和布局0Georgia Gkioxari 1 Nikhila Ravi 1 Justin Johnson 1 , 201 Meta AI 2 密歇根大学0摘要0一个3D场景由一组对象组成，每个对象都有一个形状和布局，给出它们在空间中的位置。从2D图像中理解3D场景是一个重要的目标，具有机器人和图形学的应用。虽然最近在从单个图像中预测3D形状和布局方面取得了进展，但大多数方法依赖于用于训练的3D地面真实数据，这在大规模收集方面是昂贵的。我们克服了这些限制，并提出了一种方法，学习在没有任何地面真实形状或布局信息的情况下预测对象的3D形状和布局：相反，我们依赖于可以更容易地大规模收集的带有2D监督的多视图图像。通过在ShapeNet、Hypersim和ScanNet上进行大量实验，我们证明了我们的方法可以扩展到大规模的现实图像数据集，并且与依赖于3D地面真实的方法相比具有优势。在Hypersim和ScanNet上，由于可靠的3D地面真实数据不可用，我们的方法优于在较小和不太多样化的数据集上训练的有监督方法。101. 引言0一个3D场景由一组对象组成，每个对象都有一个3D形状和空间中的3D布局。理解这个3D场景结构对于导航或与世界交互至关重要。不幸的是，直接测量或感知3D结构通常是不切实际的。因此，从2D图像中推断3D场景的形状和布局长期以来一直是计算机视觉中的一个基本问题，在机器人、自动驾驶车辆、图形学、增强现实/虚拟现实等领域有广泛应用。深度学习的兴起极大地改进了从单个图像中理解3D。方法已经从估计孤立对象的3D形状[6, 11,51]发展到预测复杂场景中的多个形状[14]，甚至联合预测形状和布局[38,50]。尽管令人印象深刻，但这些方法有一个缺点：它们使用地面真实的3D形状和布局进行训练。使用这些数据创建大规模、多样化的训练集是不切实际的，限制了依赖强3D监督的方法的可扩展性和实用性。01 项目页面 https://gkioxari.github.io/usl/0没有3D0监督0输入图像 2D对象检测02D地面真实布局和形状0旋转0ℓ !"0渲染0图1.我们提出了一个端到端的模型，它接受输入图像，在2D中检测所有对象，并预测它们的3D形状和布局。我们从多个2D场景视图中学习，例如视频的帧，而且没有任何3D监督。0一些最近的方法采取了一个极端的立场，完全没有任何3D监督地训练图像集合[15, 22, 27, 28,53]。虽然令人钦佩，但是从单个图像中克服3D的基本模糊性需要强大的类别特定形状先验，使其难以适应现实世界的复杂性。预测3D结构的另一种自然方法是使用多视图。多视图图像提供了弱的3D监督，并且可以使用视频或多摄像机设备进行大规模捕捉。经典技术，如运动结构和多视图立体[18]，可以在没有3D监督的情况下重建完整的3D场景，但需要许多视图，不预测语义，并且通常不是从数据中学习的。最近，可微分渲染使得一系列新方法能够在没有强3D监督的情况下预测3D形状[5, 24, 34,41]。在训练过程中，模型输入一张图像，并输出一个3D形状，该形状从一个或多个辅助视图中进行渲染；将渲染的预测与辅助视图中的2D轮廓进行比较，提供了一个训练信号。这个流程很有前景，因为它不需要地面真实的3D形状，而是仅从多视图图像和2D图像监督中进行学习，这可以16960然而，到目前为止，这种技术只应用于具有单个对象的简单图像。在本文中，我们旨在从单个图像中预测复杂场景中的三维物体形状和布局，如图1所示。关键是，我们在训练过程中不使用地面实况形状或布局；相反，我们从多视图图像中的物体轮廓中学习。我们在MeshR-CNN[14]的基础上进行了改进，该方法可以预测复杂场景中物体的三维形状，但不能预测布局，并且在训练过程中依赖于三维形状监督。我们通过一个布局网络来增强MeshR-CNN，该网络估计每个物体的三维位置，并用可扩展的多视图监督替代昂贵的网格监督。与之前的工作[5, 24, 34,41]一样，我们通过可微分渲染和2D损失进行学习；然而，这些方法只能预测三维形状-为了预测布局，我们使用了距离变换损失。我们将我们的无监督形状和布局估计方法称为USL。在测试时，USL输入一张单独的RGB图像，并联合检测物体并预测它们的三维形状和布局。我们在三个数据集上展示了我们可扩展的多视图监督的实用性。首先，我们在Scene-ShapeNet上展示了结果，这是一个由多个ShapeNet[3]对象组成的合成数据集，我们的方法与使用强三维形状监督训练的MeshR-CNN相比表现出强大的性能。然后，我们在Hypersim[44]上进行实验，证明我们的方法可以扩展到具有许多物体的复杂逼真场景。最后，我们在ScanNet[7]上展示了结果，其中相机姿态是通过BundleFusion[8]估计的，2D轮廓是使用PointRend[26]估计的，表明我们可以从带有噪声的真实世界视频中学习而无需昂贵的地面实况。02. 相关工作0从多个姿势视图中进行三维场景和物体重建已经得到了广泛研究，从传统的运动结构（SfM）和多视图立体（MVS）[18, 45]，通过形状先验[1, 2, 9,21]辅助到基于学习的技术[23, 25,46]。这些方法在测试时需要多个视图。在这项工作中，我们专注于单个图像推理。数据驱动方法从新颖场景的单个图像中预测对象的形状和布局。[16]从RGB-D输入预测三维物体框。[50]将定向的三维物体框与来自RGB输入的规范体素形状相结合；Total3D[38]用网格替换体素。MeshR-CNN[14]通过中间体素预测来预测三维物体网格，但没有解决布局问题。所有这些方法都是通过三维注释进行监督的，通过三维边界框[37,48]或三维物体形状，例如CAD模型[3,49]。然而，三维注释成本高昂，并涉及复杂的注释流程，限制了它们在少数对象和场景类型中的可用性。我们的工作与上述方法有相同的目标；我们预测从单个图像中的视图坐标中的三维物体形状和布局，但我们在没有三维监督的情况下进行预测。0对于形状预测任务，弱监督方法通过使用类别特定的对象先验[15, 22, 27, 28, 30, 55]或2D关键点[22,40]来消除对三维注释的需求。虽然这些方法对于少数几种对象类型显示出有希望的结果，但它们能否扩展到更多类别是值得怀疑的。在这项工作中，我们不使用对象先验，这使我们能够扩展到更多的对象类别。作为形状的补充，我们以端到端的方式预测对象布局，即对象在三维空间中的位置。消除对三维监督和对象先验的需求的一种自然方法是从多个视图中进行学习。可微分渲染[5, 24, 29, 34, 35, 39,41]允许信息从二维重新投影到三维。[5, 17, 24, 34,41]通过在训练过程中从2个或多个视图进行重新投影来实现从单个视图进行对象重建。[53]通过将轮廓重新投影与图像集合中的对象进行对抗性比较。虽然具有突破性，但这些方法侧重于简单背景上的单个对象的图像。在这项工作中，我们使用可微分渲染从多个视图中进行学习。然而，我们专注于具有多个物体的逼真场景，这会带来来自遮挡和多个实例的模糊性的显著挑战。最近的方法使用单个图像预测像素级深度，使用视频帧[36, 56]或三维监督[4, 10, 31,54]。虽然与布局相关，像素级深度只捕捉到对象的可见部分，并且通常预测归一化深度。在这项工作中，我们的目标是重建完整的物体形状并在度量空间中预测它们的三维位置，例如以米为单位。03. 方法0我们的模型输入一张RGB图像，检测对象，并为每个检测到的对象输出一个三维形状（三角网格）和布局（在三维空间中的位置）。这些输出共同构成了一个完整的三维场景，如图1所示。在训练过程中，我们的模型没有受到任何地面真实的三维形状或布局信息的监督。这些注释很昂贵，因此依赖它们严重限制了可用训练数据的规模。相反，我们使用每个场景的多个RGB视图以及二维真实情况：从一个视图预测的三维形状从其他视图进行可微渲染，其中它们的二维轮廓与二维真实轮廓进行比较。我们建立在Mesh R-CNN[14]的基础上，它扩展了Mask R-CNN[19]，可以同时检测对象和预测三维形状。我们对MeshR-CNN进行了三个主要的修改。首先，我们使用了一种称为RoIMap的新机制来计算顶点对齐的特征，它更好地保留了纵横比信息，并改善了三维形状的预测。其次，我们引入了一个额外的布局头，用于预测每个对象的三维位置。第三（也是最重要的），我们消除了对于三维形状监督的需求，而是使用多视图的二维监督进行学习。16970图2.我们的模型以RGB图像作为输入，在二维平面上检测所有对象，并通过布局和形状头部预测它们的三维位置和形状。输出是由所有检测到的三维对象组成的场景。在训练过程中，场景从其他视图进行可微渲染，并与二维的真实情况进行比较。我们不使用任何三维形状或布局监督。03.1. 方法概述0我们系统的架构在很大程度上遵循了Mesh R-CNN[14]，经过修改以允许在没有地面真实形状或布局的情况下进行训练。概述如图2所示。输入图像首先经过一个骨干网络（在我们的实验中为ResNet50-FPN [20,32]），该网络提取出一个骨干特征图。然后，区域建议网络（RPN）[42]提供类别无关的感兴趣区域（RoIs），这些RoIs由任务特定的头部进行处理。盒子头执行二维识别；根据[19]的方法，它预测每个RoI的二维边界框和语义类别。布局头执行三维定位：对于每个RoI，它预测对象的深度范围和三维位置。形状头为每个RoI预测一个三角形网格；根据[14,51]的方法，它通过图卷积将初始球形网格变形。盒子和布局头通过RoIAlign[19]从骨干网络接收输入，该操作从骨干特征图中裁剪和调整区域。形状头通过RoIMap从骨干网络接收每个顶点的特征。在训练过程中，我们假设可以访问场景的M个视图，包括相机姿态和实例分割。模型以第一个视图作为输入，并预测出三维场景，该场景从所有M个视图中进行可微渲染，并与二维的真实情况进行比较。03.2. 布局预测0我们的模型为每个对象预测一个三维位置，参数化为一个沿每个坐标轴的三维中心和长度的轴对齐框。盒子头在图像平面上定位对象；这依赖于直接的图像证据，因为标记属于每个对象的像素足以进行二维定位。相比之下，尺度/深度的模糊性使得仅凭借图像证据在图像平面垂直定位变得困难，并且必须依赖于对世界的先验知识。0因此，我们使用一个单独的布局头来定位深度中的对象。它预测每个对象在深度轴上的长度ρ和其中心的深度z。RoIAlign[19]中的RoI特征进行平均池化，并通过MLP传递给一个通过sigmoid函数预测标量˜ρ、˜z∈(0, 1)的模块。然后0ρ = ρ0 + ˜ρ(ρ1 - ρz) z = z0 + ˜z(z1 - z0) (1)0其中{ρ0，ρ1，z0，z1}是数据集特定的超参数，设置最小和最大物体深度和范围。与MaskR-CNN的盒子头部类似，˜ρ和˜z的预测是类别特定的，因此模型可以学习每个类别的先验知识。03.3. 形状预测0对于每个检测到的物体，形状头部输出一个带有顶点V和面F的3D三角网格T = (V,F)。预测组成了3D场景，不需要3D监督。我们遵循MeshR-CNN[14]的网格细化分支，通过一系列S个网格细化阶段来变形初始网格T0 = (V0,F)，每个阶段包括三个操作：特征采样为每个顶点提供一个与图像对齐的特征；图卷积沿着网格边传播信息；顶点细化预测每个顶点的偏移dVi并更新顶点位置Vi = Vi-1 +dVi。最后一个阶段的输出给出了预测的形状：V =VS。MeshR-CNN为每个物体预测一个体素化形状，从而产生实例特定的初始网格。这需要3D体素监督，无法在我们的设置中使用；因此，我们为每个物体的初始网格使用相同的球体。为了实现对3D平移的等变性，我们在归一化空间中为每个物体预测形状，其中V0和每个dVi的范围为[-1，+1]。通过针孔相机模型，将预测的形状投射到3D场景中：归一化空间中的[-1，+1]的3个立方体通过单应性映射到由相机内参和盒子头部和布局头部的输出定义的物体视锥中（见图3）。16980深度范围ρ0图像平面0相机中心02D盒子0物体深度z0物体视锥0归一化空间0单应性映射0图3.我们通过组合所有头部的输出将形状预测转化为3D场景。盒子头部预测2D盒子，布局头部预测物体深度z和深度范围ρ；与相机内参一起，它们在3D空间中定义了一个物体视锥。形状头部在归一化空间中预测一个网格，该网格通过单应性映射到物体视锥中。0RoIMap。形状头部必须精确地定位3D中的每个顶点。为此，每个网格细化阶段通过将当前网格投影到图像平面上，并进行双线性插值来从主干获取特征。虽然概念上很简单，但采样的确切机制会影响性能。Mesh R-CNN[14]使用RoIAlign[19]计算每个RoI的固定大小的特征图，然后使用VertAlign从RoI特征中采样顶点特征（见图4）。这会导致几个问题。首先，RoI特征是固定的正方形大小，因此顶点特征不会尊重输入图像的长宽比。其次，重复的双线性插值（首先是RoIAlign，然后是VertAlign）可能会导致伪影。第三，无法为RoI之外的顶点计算特征。如图4所示，我们通过直接从主干特征图中采样顶点特征而不是从RoI特征中采样来克服这些问题。我们将这种方法称为RoIMap。我们在第4节的实验中表明，这个看似小的改变显著提高了整体性能。[26]中也使用了类似的方法进行实例分割。0主干特征图0(a) RoIMap (b) RoIAlign0图4. Mesh R-CNN[14]从通过RoIAlign计算的每个RoI特征中采样顶点特征。我们改用RoIMap，它直接从主干特征图中采样顶点特征。03.4. 无需3D监督的学习0我们假设真实的3D物体形状和布局是昂贵的，因此不能直接用于监督形状和布局头部。相反，我们只使用来自多个视图的2D真实数据来监督我们的模型。0图5.(a)布局和(b)形状中的错误决定了用于比较图像轮廓的适当损失函数。0在训练过程中，我们采样了M个场景的RGB视图{I1,...,IM}，这些视图具有已知的姿势，因此Ri→j将Ii的相机视图中的3D点转换为Ij的相机视图中的点。设O为I1中可见的对象集合，Soj为Ij中o∈O的地面真实轮廓。我们的模型输入I1，并预测相机视图中的3D形状{T o1}o∈O。我们使用可微分的轮廓渲染器[34,41]从所有视图计算预测的2D轮廓，ˆSo1→j=render(R1→j∙To1)。我们学习3D形状和布局的训练损失为0L3D =1|O|1M0�0o∈O0j=1ℓ2D(ˆSo1→j, Soj) (2)0其中，ℓ2D使用单独的项来比较一对2D掩模，以纠正形状和布局中的错误。如图5所示，像素级的交叉熵损失ℓxent在两个掩模重叠但形状不同时提供了有用的学习信号。然而，当没有重叠时，ℓxent平等地惩罚所有预测，因此无法告诉模型如何纠正布局中的错误。因此，我们引入了距离变换损失ℓdist，它惩罚了掩模之间的2D距离：0ℓdist(ˆS, S) = �0ˆSinfs∈S∥ˆs−s∥22dˆs+�0Sinfˆs∈ˆS∥ˆs−s∥22ds.(3)0该损失根据屏幕空间距离惩罚不重叠的轮廓，有助于布局预测。我们将ℓdist近似为从ˆS和S中采样的双向Chamfer距离。从ˆS中采样时，我们从网格的表面采样（类似于[47]），然后投影到图像平面上，因此ℓdist不需要计算ˆS。距离变换在目标检测[12,13]中有着悠久的历史；[22]使用类似的损失来学习纹理。因此，我们在一对2D轮廓上的整体损失为0ℓ2D(ˆS, S) = ℓdist(ˆS, S) + 1[IoU(ˆS, S) > 0.5] ∙ ℓxent(ˆS, S) (4)0仅对重叠的轮廓（IoU >0.5）应用ℓxent。我们的完整训练损失是MaskR-CNN的2D损失、我们的3D损失L3D和鼓励平滑网格预测的3D形状正则化器的加权组合。169903D指标 Mask 2D IoU 模型 Ch.(↓) F1 输入视图0固定深度 0.275 20.1 18.4 14.1 随机深度 0.202 23.321.5 17.6 USL (2) 0.050 62.9 53.6 43.4 USL (5) 0.03470.9 52.3 46.70USL (5) w/o RoIMap 0.059 55.1 51.1 40.9 USL (5)w/o ℓdist 0.039 68.9 42.9 37.10Mesh R-CNN [14] 0.015 87.9 61.5 57.70表1.在Scene-ShapeNet验证集上的性能。我们报告了一个随机和一个固定深度的基准，它们分别在随机位置和固定深度放置每个对象的球体。我们报告了我们的模型USL，使用2个和5个视图进行训练，并消融了RoIMap和ℓdist。我们与监督学习的最先进方法Mesh R-CNN [14]进行了比较。0动态渲染。现实世界场景中的对象往往只占据很少的图像像素，因此简单地计算ˆSo1→j会花费大量资源来光栅化未被对象占据的像素，从而限制了渲染的分辨率。因此，我们使用动态渲染方案：在计算ˆSo1→j时，我们只渲染一个区域，该区域是地面真实轮廓和预测网格To1在视图j上的投影的并集。这样可以以4倍的分辨率进行渲染，捕捉更精细的对象细节，提高结果。04. 实验0我们在三个数据集上进行了实验：Scene-ShapeNet、Hypersim [44]和ScanNet [7]。Scene-ShapeNet从ShapeNet[3]对象中构建简单场景，而Hypersim和ScanNet包含复杂场景的视频序列，这些场景中有多个对象，外观、遮挡和光照条件各不相同；与单个对象基准测试相比，这是一个明显的差异。Scene-ShapeNet提供了地面真实的3D形状和布局，可以与监督方法进行比较，并使用3D评估指标。Hypersim和ScanNet上没有3D地面真实数据，因此我们将渲染的预测与多个视图的2D地面真实进行比较，以代替真实的3D度量。我们进行了广泛的定量分析，并展示了对新场景的挑战性图像的预测结果。与在较小且不太多样化的3D注释数据集上训练的最先进的监督方法相比，我们的方法在新场景中具有更好的泛化能力。0评估指标。在没有3D groundtruth的情况下，我们使用一种基于多视图2D比较的评估方案。具体来说，我们将每个物体的预测3D形状投影到场景的所有可用视图上。在每个视图中，我们计算渲染预测与该视图中的真实物体掩码之间的交并比（IoU）。我们报告两个指标：输入视图中的Mask 2DIoU是模型接收到的视图中的IoU，Mask 2D IoUviews是所有其他视图的平均值；两者都是对所有场景进行平均。0输入图像 USL Mesh R-CNN[14]0图6.在Scene-ShapeNetval上的预测。我们展示了输入图像（左侧）和我们的USL（中间）和3D监督的Mesh R-CNN[14]（右侧）预测的3D对象和布局。04.1. Scene-ShapeNet上的结果0我们引入了Scene-ShapeNet，这是一个由ShapeNet[3]对象组成的场景数据集。它的场景包含来自三种物体类型的对象对，即椅子、沙发和桌子。对象被随机放置在3D位置和姿态上，并且从多个视角渲染场景。该数据集包含86.4k张图像和4k个唯一的物体形状，分为80%的训练集、10%的测试集和10%的验证集。每个数据集都包含唯一的物体模型和场景。更多细节请参见附录。该数据集提供了3D groundtruth，因此我们可以在3D中评估预测的形状和布局。0训练细节。我们遵循Mesh R-CNN[14]的方法，在8个V100GPU上使用Adam进行25个epoch的训练，每个批次包含64张图像。对于批次中的每个示例，我们从相应场景中随机选择M个视图。输入图像为512×512；我们使用PyTorch3D[41]以每个像素10个面的分辨率128×128进行渲染；模糊半径和混合sigma为10^-3。骨干网络ResNet50在ImageNet上进行了预训练；其他参数从头开始学习。0评估。我们在验证集上进行评估，其中包含与训练集不重叠的物体和场景。由于有3D ground truth可用，除了Mask2D IoU之外，我们还报告标准的3D指标：3Dchamfer距离和F1@0.1m，按照[14]的方法。0结果显示在表1中。我们将USL的变体与M∈{2,5}的视图进行比较，并消除了RoIMap和距离变换损失ℓdist。我们报告了一个随机基线，将每个物体预测为具有随机深度z∈[1.4,2.0]和深度范围ρ∈[0.1,1.0]的球体，以及一个固定深度基线，将每个物体预测为具有z=1.7，ρ=1.0的球体。我们还将在Scene-ShapeNet上使用完全3D监督训练的MeshR-CNN[14]进行比较。chairchairchairchairchairchairchairchairchairchairchairchairchairchairchairchairchairtabletabletablepaintingpaintingchairchairchairchairchairsofatabletablepillowchairpillowpillowlampchairchairchairpillowbathtublampchairchairtelevisiontablechairchairchairchairchairchairchairchairchairchairchairchairlamplamplampcounterlamplamplamplampchairchairchairchairchairchairchairtable17000图7.在Hypersim上的预测。对于每个示例，我们展示了输入图像和检测到的2D物体（左侧）以及预测的3D物体和布局（右侧）。这些示例是具有多种外观和类型的许多物体的复杂场景。请参见我们的视频动画。0从表1可以看出，MeshR-CNN表现最好（第7行），这是预期的结果。我们的USL（第5行）在所有无监督基线中表现最好（第4行）。我们观察到，当我们用RoIAlign替换RoIMap时（第5行），性能下降，当我们省略ℓdist时（第6行），性能也下降。用2个视图训练的模型（第3行）比5个视图的模型表现更差。最后，我们注意到我们在视图上的Mask 2DIoU与3D指标相关，验证了它作为3D性能的代理的选择。图6比较了USL（第5行）和MeshR-CNN在Scene-ShapeNet上的预测。尽管USL没有接受3D监督，但它可以准确地预测出被遮挡的物体的3D布局和形状。MeshR-CNN做出了更准确的预测（见表1），但需要昂贵的大规模获取的3D监督。更多定性示例请参见附录。04.2. Hypersim上的结果0我们在Hypersim上进行实验[44]，这是一个包含461个复杂场景的数据集，每个场景都沿着相机轨迹渲染，共有77,400张带有姿态、语义和实例掩码的图像，涵盖了40个物体类别的实例ID，可以将物体在不同视角下进行链接。Hypersim每张图像平均有50个实例和10种物体类型；相比之下，COCO[33]图像平均只有7个实例。0训练细节。我们在Hypersim的365个场景的训练集上进行训练。我们遵循Mask R-CNN [19]的配方[52]，在8个V100GPU上使用16张图像的批次进行80k次迭代训练。我们使用SGD进行训练，初始学习率为10^-2，在第66k和74k次迭代后衰减0.1。对于批次中的每个示例，我们从相应视频中随机采样M个视图。我们使用PyTorch3D[41]进行动态渲染，渲染尺寸为72×72，每像素10个面，模糊半径和混合sigma为10^-3。骨干网络ResNet50-FPN在COCO上进行了预训练；所有其他参数都从头开始学习。更多细节可以在附录中找到。0评估。我们在Hypersim验证集上进行评估，该验证集由与训练集不重叠的46个场景组成。Hypersim没有提供地面真实的3D物体形状和布局信息，因此我们无法报告3D指标。然而，它提供了与实例掩码相结合的地面真实像素级度量深度（以米为单位），这使得我们可以额外报告每个物体的真实和预测最近深度之间的深度L1度量（对于输入和其他视图）。最后，我们还报告了输入和视图上的2D框gIoU，通过计算包围预测和真实物体轮廓的2D图像对齐框，用于2D掩码IoU，并测量gIoU[43]，这是传统IoU的一种推广，用于衡量两个框之间的接近程度。结果。我们与一个随机基线进行比较，该基线将每个物体预测为随机深度z ∈ [1.0, 10.0]和深度范围ρ ∈ [0.1,1.0]的球体，并且与一个固定深度基线进行比较，该基线将物体预测为固定在z = 5，ρ =0.5的球体。我们训练仅布局变体，使用M ∈{2,5}视图，学习布局但预测形状为固定球体。我们使用M ∈{2,5}视图训练USL，用于3D布局和形状。最后，我们与MeshR-CNN [14]进行比较。Hypersim没有发布用于训练MeshR-CNN所需的公共3D形状注释，因此我们使用[14]中的Pix3D在Pix3D上训练MeshR-CNN。Pix3D只提供真实的形状，但不提供布局，因此在这个基线中，我们将MeshR-CNN预测的形状与USL预测的布局相结合。表2显示了验证集上的性能。为了确保公平比较，我们通过在评估过程中使用输入图像上的真实2D框来解耦3D理解和2D检测（输入的2D框gIoU =1.0）。值得注意的是，我们的模型的2D物体检测器与形状和布局网络联合训练，实现了64%的AP和73%的AP50。我们在表2的最后一行报告了模型在使用自己的物体检测时的性能。InputViewsInputViewsRoIAlign0.670.204.383.86RoIMap0.740.341.781.72(a)0.740.282.612.44✓0.740.341.781.72(b)Sphere-Only0.580.45USL(5)0.740.53(c)17010预测 2D框gIoU 2D掩码IoU 深度L1 ( ↓ ) 模型布局形状输入视图输入视图输入视图0随机深度 � � 1.00 0.13 0.58 0.20 3.55 3.28 固定深度 � � 1.00 0.22 0.58 0.24 2.73 2.59 仅布局 (2) � � 1.00 0.25 0.58 0.252.51 2.35 仅布局 (5) � � 1.00 0.37 0.58 0.30 1.81 1.74 USL (2) � � 1.00 0.30 0.73 0.33 1.90 1.83 USL (5) � � 1.00 0.330.74 0.34 1.78 1.720Mesh R-CNN [14] + USL (5) 布局 � � 1.00 0.21 0.36 0.22 1.78 1.720表2.Hypersim验证集上的结果。我们报告了一个随机基线和一个固定深度基线，分别将每个物体放置在随机深度和固定深度。我们使用2个和5个视图训练了我们的方法的仅布局变体，它们将物体表示为预测的3D位置上的球体。最后，我们使用2个和5个视图训练了我们的USL，它们同时学习形状和布局。我们报告了在Pix3D [49]上预训练的Mesh R-CNN [14]用于3D形状预测，并与USL(5)布局预测相结合的性能。最后一行显示了使用模型的物体预测而不是地面真实检测时USL (5)的性能。0Mask 2D IoU Depth L10Mask 2D IoU Depth L1 ℓ dist InputViews Input Views0Mask 2D IoU Model InputViews0Table 3. Ablations on Hypersim for (a) RoIAlign vs. RoIMap, (b) distance transform loss ℓ dist, and with (c) oracle depth.0From Table 2, our USL (5) model (6th row) outperforms the layout-only, randomand fixed-depth baselines for Mask 2D IoU and Depth L1. The layout-only (5)baseline has a higher Box 2D gIoU but a lower Mask 2D IoU on views than USL (5)0(4th vs. 6th row), indicating that it works well for layout butnot for shape. Training with 5 views is better than 2 views(5th vs. 6th and 3rd vs. 4th row), which is expected as 5views during training provide more information. Usingmore than 5 views does not improve performance further,likely because walk-through videos cap the number offrames with new information about each part of the scene.The Mesh R-CNN baseline achieves low performancedespite being supervised, proving that existing 3Dannotated datasets are insufficient and don’t generalizewell to more complex scenes. Finally, we observe that Mask2D IoU correlates with Depth L1 on views, as models withhigher IoU have lower depth error. In the absence of any3D ground truth, Mask 2D IoU is likely to serve as a goodproxy for 3D metrics. Table 3a compares RoIMap toRoIAlign and shows the impact of RoIMap on theperformance. Table 3b ablates the distance transform ℓ dist(Equation 3) which proves crucial to our model’sperformance. Finally, note that Mask 2D IoU on viewscaptures both shape and layout errors; wrong layoutpredictions even for accurate shapes can result in low IoU.To decouple performance for layout and shape, wecompare our USL (5) to a sphere-only baseline, whichrepresents each object as a sphere, and provide true objectdepth for both models at test time in Table 3c. From Table3c we see that we outperform sphere-only for shape.Figure 7 shows predictions on Hypersim for diverse novelscenes with many object instances and types, includinglamp,0painting, sofa, chair, table, tv, bathtub and counter. Weobserve that our model captures layout well, while objectshapes are roughly correct but certainly less refined.Predicting detailed 3D shapes without 3D supervision is hard.In addition to the lack of 3D supervision, we learn from viewsextracted from walk-through videos which capture scenesfrom a constrained, far from 360o, set of views (e.g. backs ofcouches are never seen, etc.). This is in contrast toScene-ShapeNet, where 360o scene views are available, andthus our model is able to capture shape more accurately.0Comparison to Total3D. We compare to Total3D [38], astate-of-the-art fully supervised method for predicting shapeand layout from a single image. Total3D learns a layout modelon SUN RGB-D [48] which provides oriented 3D objectbounding boxes, and learns a shape model on Pix3D [49]which provides image aligned CAD models for 9 objectclasses. At test time, predictions from the shape model arepositioned according to predictions from the layout model;this gives final predictions in view coordinates.0Figure 8 qualitatively compares to Total3D on randomly selected input images;see more in the Appendix. Despite being supervised, we observe that Total3Dtends to fetch the nearest shape for the object class, which does not match theobject’s appearance in the input. For example, in the 1st0例如，它在预测时将矩形桌子预测为图像中显示的圆形桌子。关于布局，Total3D在正确的相对位置上放置物体方面存在困难，导致形状交叉和错误的布局。我们还注意到3D对象与2D对象不对齐（第2列与第4列）；Total3D不强制与2D对齐。bookbook

下载后可阅读完整内容，剩余1页未读，立即下载