从单个RGB图像进行逼真的多对象3D重建方法

151 浏览量更新于2024-01-22 收藏 1.69MB PDF 举报

输入图像

CAD模型

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4588输入图像3D边界框体素点云CAD模型从点到多目标三维重建Francis Engelmann1，†Konstantinos Rematas2Bastian Leibe1VittorioFerrari21 RWTH Aachen University2 Google Research图1：我们提出了一个单阶段模型，用于从单个RGB图像进行逼真的多对象3D重建该模型通过联合估计9-DoF边界框和表示不可知的3D形状样本来检测对象中心点并执行重建摘要提出了一种从一幅RGB图像中检测和重建多个三维物体的方法。其关键思想是优化RGB图像中所有对象的检测、对齐和形状，同时专注于逼真和物理上合理的重建。为此，我们提出了一个关键点检测器，将对象定位为中心点，并直接预测所有对象属性，包括9-DoF边界框和3D形状-所有这些都在一个向前传递。该方法将三维形状重建问题转化为形状选择问题，即形状选择问题。它从给定的数据库中的范例形状中这使得它不可知的形状表示，这使得一个轻量级的重建现实和视觉上令人愉快的形状的基础上CAD模型，而训练目标是制定周围的点云和体素表示。碰撞丢失提升了不相交的对象，进一步提高了重建的真实感。给定RGB图像，所提出的方法在单阶段中执行轻量级重建，它是实时的，完全可微的和端到端的可训练的。我们的实验比较了多种方法的9自由度边界框估计，评估新的形状选择机制，并比较最近的方法在3D边界框估计和3D形状重建质量。†在苏黎世Google Research实习期间完成的工作1. 介绍从单个图像中提取3D信息在计算机视觉、机器人和场景理解中具有多个应用因此，该领域在计算机视觉社区中获得了巨大的发展势头[10，23，31，36，46]。3D信息可以有多种形式：3D边界框、点云、网格、体素或距离场。代表的选择往往取决于任务。在本文中，我们的目标是以一种高效和可扩展的方式提取所有上述信息，所有这些信息都来自单个视图和单个通道。最近的方法[10，23]通过独立处理来自最先进的对象检测器[15，24]的检测来执行多对象重建，或者联合预测密集体素网格中的多个对象[36]，这可能由于可扩展性问题而在计算上是昂贵的。相反，受CenterNet [51]（一种用于准确和有效的2D对象检测的框架）的启发，我们建议使用关键点检测器将对象定位为稀疏中心点，并直接预测场景中所有对象的9-DoF边界框和形状。CenterNet架构是模块化的，可以轻松扩展以解决各种任务，如2D检测、3D检测、人体姿态估计和跟踪[47 ， 50] 。在本文中，我们主张使用CenterNet对多个对象进行完整和连贯的3D重建，其中每个像素投票给一个类标签、一个3D边界框和一个3D形状样本，以将对象放置到世界坐标系中。4589图2：拟议方法概述。给定单个RGB图像，我们的模型将对象中心检测为热图Y中的关键点。该网络直接预测场景中所有对象的形状样本z和9-DoF边界框碰撞损失Lcoll有利于非相交重建。我们的方法预测轻量级，现实和物理上合理的重建在一个单一的通行证。另一个关键问题是最佳形状表示。虽然已经提出了许多表示，例如。符号距离函数（SDF）[33]、网格[10，13]、体素网格[36]、点云[7，19]甚至混合方法[39]都有其与任务相关的优点和缺点。在这项工作中，我们提出了一个表示无关的形状选择机制。也就是说，从可以实现不同（或多个）表示的给定形状数据库中选择形状示例。最方便的①的人。此外，我们采取了额外的规定，一个现实的和物理上合理的重建。特别是，对象应该正确地放置在世界框架中，并且不应该彼此相交受3D场景中人体姿态估计的最新方法的启发[14，20，49]，我们添加了支持合理重建的碰撞损失，使得重建的对象不相交。总而言之，给定RGB图像，我们的单阶段方法执行轻量级重建，它是实时的，完全可区分的和端到端可训练的。在我们的实验中，我们比较了不同的9-DoF边界框公式，我们使用软标签评估了我们的形状选择机制，并与当前最先进的CoReNet进行了比较[36]。捐款.我们的主要贡献是：• 我们提出了一种用于多对象3D重建的方法，该方法扩展了CenterNet [51]框架，以执行在单级网络中从单个RGB图像形成完全整体的3D场景重建• 我们提出了一种形状选择机制来执行3D对象重建，其中我们使用软目标标签重新制定了1-of-K分类任务基于示例3D形状之间的几何相似性：这比先前基线中使用的硬标签显著改进[42]。• 我们通过利用碰撞损失来鼓励非相交重建，从而获得物理上合理的重建。此外，基于CAD的复制-表示保证有效和真实的形状。• 我们的方法对不同的形状表示是不可知的。由于我们将形状重建问题公式化为选择形状样本（即，指数在预先计算的形状数据库），我们可以从给定估计的形状样本的任何表示中进行选择2. 相关工作3D从一个单一的图像单图像3D recruitment已经看到了巨大的进步，在过去的几年里，与各种形状表示正在研究。像[6，9，16，38，45，46]这样的作品在体素网格上操作，这是一种非常适合卷积神经网络的表示。其他方法输出点云[7，19]，利用它们的紧凑性。一行工作[4，13，21，28，44]输出网格，这是一种强大的表示，为3D形状提供邻域结构。最近，隐式表示[5，29，32，34]因其能够以任意分辨率表示精细细节3D形状回归的替代方案是[42]的工作，其将3D重建作为分类/检索问题。然而，所有这些方法都集中在单个对象的情况下：图像包含要重建的单个对象，通常在白色背景上。通过让每个像素预测一个3D边界框，一个类似于[42]的形状索引和9-DoF，我们能够在场景中处理任意数量的对象，并在单个向前传递中。多目标三维重建。最近，多对象3D重建取得了重大进展：Im2CAD [18]在输入图像中执行对象检测和房间布局估计，然后从数据库中检索3D形状并将其对齐以匹配检测结果。然而，它涉及第二不可微优化步骤，该第二不可微优化步骤呈现估计并将估计与输入图像匹配。3D-RCNN [22]通过渲染和比较学习方法估计图像中每个对象实例的3D形状，其中形状表示为来自3D模型数据集的线性但是，这种形状表示对于具有低类内可变性的类（例如汽车和人类）是准确的。给定一个图像和一组对象建议，[43]分解底层3D场景4590CRRWH将每个对象的一组体素网格及其旋转/平移/缩放参数放入房间布局中。类似地，[31，48]建议估计每个对象的房间布局，3D对象边界框和形状。然而，3D估计依赖于初始的2D边界框。[2，12]利用中心预测，但需要3D重建作为输入。在[17]的工作中，3D场景被表示为正在优化的图形，因此对象和房间布局的Mesh R-CNN[10]可以被视为Mask-RCNN [15]的扩展，用于估计图像中每个对象实例的3D网格，但不解决其尺度/深度模糊性。Mask2CAD [23]与我们的工作共享中心预测和CAD模型检索的元素。主要的区别是：（1）我们的架构基于CenterNet（vs.ShapeMask）导致一个更简单的模型，可以更容易地进行端到端训练;（2）我们预测一个完整的9-DoF姿势，而[23]需要在测试时给定对象深度，并返回数据库中缩放的对象（相反，我们可以沿着3个维度中的每一个拉伸它）;（3）我们包括一个碰撞损失，致力于改善对附近对象的估计。(4)我们直接将姿态预测为有效的旋转矩阵（vs.两阶段方法）。上述工作基于复杂的两步架构，首先检测对象，然后估计它们的形状。相比之下，我们的方法是单步的，随着图像中对象的数量而扩展，并且不涉及后处理机制。CoReNet[36]在固定的1283体素网格中执行密集形状预测，该网格不随重建世界的大小而缩放此外，它在训练过程中将所有场景信息烘焙相反，我们的方法更加模块化，它可以检测和重建可变数量的对象，以及在训练过程中看不到的类的新组合。我们的方法预测了一个9自由度定向的边界框和形状。此外，我们的形状表示独立于实际表示。我们可以预测符号距离函数，点云，占用网格和网格，这自然会导致逼真的场景重建，而CoReNet倾向于预测漏洞/错误，特别是在多对象场景中。3. 方法概述图3：作为关键点检测的对象检测。左：预测的热图Y表示作为对象中心的像素概率。每个类别c的热图Y* 在图1中示出不同的颜色。分布的峰值被示出为白色圆圈P，它们对应于从其预测对象属性的检测到的对象中心P右：预测的对象属性。我们使用点云表示来显示估计的9自由度边界框和为了促进物理上合理的重建，我们提出了一个碰撞损失，以避免相交的物体（第二节）。3.4）。3.1. 作为关键点检测的我们方法的第一部分是遵循CenterNet设置的关键点检测器[51]。给定单个RGB图像I∈RW×H×3，检测器通过预测特定类别的热图来Y∈[0，1]××C（图其中C是对象类的数量，R = 4是下采样因子。检测到的中心点{p∈i∈R2}（如图1所示）。 3）对应于预测的热图Y中的局部最大值。它们是使用非最大值抑制获得的，实现为3×3最大池化。我们将置信度分数si=Y_p_i与每个检测到的k个y点p_i相关联。特征主干-沙漏模型[30]。在训练期间，我们遵循[25，51]并通过使用高斯核N（pi，σi）溅射地面实况中心点pi来生成目标热图Y，其中σ i取决于对象i的投影大小。训练关键点检测器依赖于焦点损失[27]，并且在所有像素（x，y）和类c ∈ {1，. . . ，C}在热图中：.−1<$（1-Y<$xyc）α·log（Y<$xyc）ifYxyc=1本节介绍图2所示完整模型的每个模块和相应损耗。我们制定L键=Nxyc（1-Y）xyc）β·（Yxyc）α·log（1-Yxyc）else（1）对象检测作为关键点检测问题，类似于CenterNet[51]，其中每个对象由其在2D图像中的中心点表示（第2节）。3.1）。从检测到的中心点，我们直接估计现实的形状（秒。3.2）和定向3D对象边界框（第3.2节）。3.3）。变成毛皮-其中N是地面实况对象的数量，α= 2和β= 4是焦点损失的超参数。在检测到作为中心点的对象实例后，网络联合选择3D形状（第2节）。3.2）和估计3D边界框（第3.2节）。3.3）对于场景中的每个对象。4591k=1k=1k=1zzi·iKM10硬标签K K软标签数据库Z中的形状样本的总数K是K=k·C，其中C是对象类型（椅子、瓶子等）的数量.出现在训练图像中的对象已经由其相应的CAD模型注释。因此，我们可以用它们最近的形状样本zk重新标记每个对象。此外，形状数据库可以是前-图4：形状选择。我们比较独热编码（硬倾向于存储显式的形状表示，例如SDF标签，左），用于使用软Zφ={φk}K，点云ZP={Pk}K或CAD mod-标签（右），允许在同时，基于几何相似性，特别是SDF形状表示之间的欧几里德距离。3.2. 形状选择我们的方法不是直接重建形状表示，如网格，体素网格或点云[7，13，36]，而是通过选择形状样本间接操作。更准确地说，网络被训练为针对每次检测从来自给定形状数据库的一组K个形状样本中选择一个形状样本z。这种选择是由我们重建真实场景的目标所激励的，因为它保证了对象数据库中的有效形状，而不像重建。elsZCAD ={ CADk}K.在每种情况下，存储的表示对应于在聚类度量下最接近聚类中心的模型（L2距离除以φ）。训练形状选择网络模块。一种直接的方法是训练一个1-of-K分类器. 具体地说，对于输入图像中的每个对象i，网络预测向量z∈i∈RK，每个向量给它打分g在形状数据库Z中的K个示例形状中。然后，我们可以在此输出上放置跨中心损失CE（·，·），用目标形状zi∈ {0，1}K的地面真实独热编码来监督它（图11）。4，左）：这些重建方法可能产生不完整、有噪声或过度平滑的重建。类似地，Tatarchenkoet al. [42]目前，L′= 1MMi=1.ΣCEzi，σ（zi）（二）用于单视图3D重建的方法主要工作，因为识别图中描绘的形状的类型1MK=− M.ΣK logσ（z）k（三）图像，而不是真正恢复几何细节是独一无二的为了重申，在这项工作中，形状估计问题被公式化为形状选择问题，该形状选择问题从给定形状数据库Z中选择一个形状样本Z，K形前emplars。在预测了一个前雇员z的情况后，显式形状表示X（体素网格，点云，CAD模型等）可以根据手头的任务或损失函数从预先计算的数据库ZX因此，所呈现的模型对于任何特定的形状表示是不可知的。建立形状数据库Z. 所呈现的形状数据库是从给定的一组CAD模型中选择的一组具有代表性的形状范例。一旦我们的形状数据库一旦构建完成，就不再需要完整的原始CAD模型我们现在描述如何选择那些示例性形状。首先，将CAD模型转换为规范的方向、位置和比例。具体来说，所有模型都面向负Z轴，质心平移到原点，我们应用各向异性i=1k=1其中，M是图像中的检测次数，σ是softmax函数（c.f.下一段，我们使用sig-moid S代替），zi是向量z i中的第k个条目。在测试时，预测的形状示例zi被计算为zi=a r gma xk（zi）。该方法对应于Tatarchenko等人提出的聚类基线。在[42]中。这种方法的问题是，两个几何相似的对象{i，j}（即， φi，φj ）可以具有不一致的监督信号{zi，zj}。这可能会对网络训练产生负面影响，因为网络被要求以同时预测K个数据库形状之一的高值，同时还预测另一个非常相似的形状的低值。相反，我们建议作为替代方案-本文提出了一种考虑形状相似性的二元目标带z∈{0，1}K的软松弛方法。具体地说，我们允许同时预测多个形状样本，它们不再像以前那样相互排斥。形式上，我们使用形状相似性函数d（·，·）来重新定义目标标签z（图2）。4，右t），使得：缩放，使得模型适合单位立方体。然后，对于每个对象i，我们计算有符号距离函数，L=−1zM.Σd（i，k）·logS（zk）（四）相应CAD的 SDF表示φi模型在离散化，下采样到323个网格并扁平化到矢量之后，我们使用k- Means++ [1]对每个对象类分别进行聚SDF sim.K4592类，k=50i=1k=1其中S是sigmoid函数，d（i，k）=[1−φi−φk<$2]+（5）4593ˆ′ ⊤ ′⊤2其中，[·]+=max（·，0），并且[·]+=max（·，0）是形状数据库Z φ中的形状样本的SDF φ k之间的欧几里德距离在下文中，我们将这些标签称为软标签-标签，以及当使用独热编码作为硬标签时。节中4，我们表明，这种替代的软配方是关键，以改善形状选择。在测试时，我们简单地选择形状样本与最高的输出值的网络。接下来，我们描述了我们的方法来估计3D边界框，随后用于将估计的对象形状从其规范的数据库姿势转换到场景坐标系中。3.3. 3D边界框估计（9自由度姿态）随着现实的形状表示，我们的目标是找到一个9自由度的边界框为每个对象在输入图像I。我们现在描述对9-DoF边界框参数的估计，从而在边界框中捕获对象姿态。现场它们包括三维旋转R∈SO（3）、三维平移R∈R3和三维尺度R∈S∈R3。这些参数用于将估计的对象形状从其规范数据库姿势到场景坐标系。在CenterNet中，Zhouet al. [51]将旋转估计公式化为在量化的仓上的分类之后回归到连续偏移的组合。该公式需要定义多个损失函数以及仔细调整的损失权重。相反，我们直接将对象旋转参数化为3D旋转矩阵R∈SO（3）. 具体来说，我们的网络预测一个9维输出，解释为一个3×3旋转矩阵M，具有（可微分）SVD分解[11]M=U <$V<$。然后通过将M投影到SO（3）[26]中来获得相应的对称正交旋转矩阵R*CADjCADiφjPi图5：碰撞损失的可视化。碰撞损失惩罚碰撞对象，有助于提高重建场景的真实感。左：两个碰撞物体的物理上难以置信的反射右：颜色表示在瓶子的SDF φ j中杯子的点位置Pi处采样的SDF值。在对象外部，采样值为零（蓝色），并随着到曲面的距离而增加（从蓝色到红色）。最后，尺度损失Ls被实现为预测和地面实况3D尺度平均之间的L1距离在输入图像中的所有对象上。与[51]类似，预测边界框参数的神经网络分支是类不可知的（即，对于所有类别c）都是相同的，并且仅在地面实况中心位置处接收监督。在总之， 9-DoF 边界框估计的损失由两项组成：λRtLRt+λsLs。3.4. 碰撞损失为了实现我们的目标，现实的多对象重建，这不仅是重要的，各个对象表现出逼真的形状，而且他们的姿势形成一个物理上合理的空间配置在场景中。一个具体的问题是，重建的对象不应该彼此相交或碰撞然而，我们刚刚提出的模型.ΣR=UV，其中=diag[1，1， det（UV）]（六）在实践中，sented经常预测碰撞的形状，特别是附近的物体。作为补救措施，我们建议增加碰撞损失，在-虽然更直接，但该公式可以直接可以使用，例如， Frobenius范数[11]：F.将平移定义为从场景原点到3D边界框质心的向量可以被优化，例如，Huber损失（平滑-L1）：t−tH。相反，我们建议使用级联变换T=[R]来联合优化旋转Rt和平移Rt|t]。具体地，我们最小化在估计的T_i和地面真实数据T下的对象的点云P_i之间的平方欧几里德距离。形式上，我们有：当两个或多个重建对象发生冲突时，将忽略惩罚特别是，我们依赖于我们的模型的方便属性，它可以从多个形状表示中进行选择，并使用对象j的SDF表示φj和另一个对象i的点云Pi来计算点到表面距离。具体地，SDF值为φj点到物体j最近表面的距离。它在物体内部是负的，在外部是正的。因此，我们定义φ=min（−φ，0），使得对象内部的值为零从形式上讲，一个对象i与所有其他对象j的损失是：CIMMLRt=ΣTix−T（七）CIMMLi=Σ φj（Tijx）（8）i=1x∈Pi其中M是图像中的对象的数量，x∈R3是aCollj=1x∈Pii/=j点云Pi中的点，该点云P i从输入图像中的地面实况对象i其中M是场景中的检测总数Tij是将点云Pi4594对象i的局部坐标系中。当我们将SDF值存储为离散体素网格时，当在连续点位置TijPi处采样时，我们执行可微分三线性插值。图5提供对损失的直观解释在对象j内部，SDFφj是正的，外面是零。请注意，SDFφ和点云P可以预先计算，因为形状重建任务在我们的模型中被公式化为示例选择问题，因此所有可能的输出形状都是预先已知的场景中所有对象的碰撞损失为：CIMM图6：数据扩充示例。强大的数据扩充是必不可少的。我们执行HSV颜色增强和随机水平翻转。为了比较，左上角的图像显示了一个没有增强的示例。x2/2Lcoll=i=1我Coll）（9）数据集我们评估多对象重建使用ShapeNet对和ShapeNet三元组数据集来自[36]。其中ρ（x）=1+x2是稳健的Geman-McClure损失[8]以补偿对象之间变化的点密度。3.5. 培训详细信息通过最小化使用先前引入的损失定义的多任务损失LL=Lkey+λRtLRt+λsLs+λzLz+λcollLcoll（10）{10，10，0. 1，1。0}分别。一个重要的观察-问题在于，碰撞损失可能与姿态损失LRt、Ls矛盾，特别是在训练过程的开始时，当初始对象姿态估计仍然远离地面实况时。在这个阶段惩罚碰撞物体是没有帮助的，甚至对犯罪有负面影响。收敛速度因此，我们仅在100个epoch之后启用碰撞丢失;在此之前，我们设置其权重λcoll= 0。我们使用Adam优化器从头开始和端到端地训练整个网络，并在四个P100 GPU上使用32个批次进行300训练模型收敛大约需要48小时。在5个epoch的预热之后，我们使用10−3的恒定学习率，并在200个epoch之后执行我们在Tensor-Flow 2中实现了我们的模型我们发现强大的数据增强对于训练稳定性至关重要。具体来说，我们执行HSV颜色增强和随机水平图像翻转（图1）。6）。4. 实验我们将我们的定量评估结构分为3个部分，每个部分都解决了论文的核心贡献：（1）我们比较了多个9-DoF边界框估计机制，并报告了CenterNet [51]中使用的改进分数(2)碰撞损失减少了碰撞的数量，这增加了重构的真实性和物理可扩展性;（3）我们表明，我们的使用软标签的形状选择机制比[42]所使用的硬标签有所改进最后，我们将我们的方法与当前最先进的多对象重建CoReNet方法进行了比较[36]。图7和图8显示了定性结果。它们包含256×256px的ei-其他成对或三个ShapeNet [3]对象放置在使用PBRT [35]渲染器，在环境地图背景上具有完整全局照明的地平面。场景从随机相机视点（偏航和俯仰）渲染。对象放置在地平面上的随机位置，具有随机缩放、旋转和无重叠。这非常适合于评估多目标重建的物理可行性。我们构建形状数据库Z使用ShapeNet [3]，作为其CAD模型和在IM中渲染的对象年龄在 [36] 的数据集中很容易获得。我们设定k=50，对象类型的数量C=6（ShapeNet-三元组）或C=13（ShapeNet-对）。最后，在本节的最后一部分，我们还报告了对（单对象）数据集Pix3D[41]的真实图像的评估。如何估计3D边界框？我们在这里比较不同的方法来估计旋转和trans-lation的三维边界框。具体地说，我们比较了等式中的组合损失L7个人损失LR和Lt使用Frobenious范数和Huber范数定义损失（Sec.3.3）。此外，我们考虑损失LM，它类似于LR，但不执行到SO（3）的投影，因此不能保证产生有效的旋转矩阵[ 26 ]。最后，我们将其与[ 51]的旋转参数化进行了比较，即：首先是量化仓上的分类损失L仓R，接着是R到连续偏移的回归损失L。我们使用平均精度（mAP）作为3D对象检测度量[37]，3D IoU阈值为0.25和0.5，如最初在[40]中提出的结果见表1。二、最好的选择是使用SVD直接预测旋转矩阵R，并将其与平移t一起使用我们的LRT。碰撞损失有多大？多目标重建的一个重要方面是物理可扩展性，即，重建的对象不应相交。为了评估碰撞损失的有效性，我们测量ρ（L4595<$桌子图7：真实图像上的定性结果。左：我们在野外获取的真实图像上的Points2Objects与CoReNet [36右：Points2Objects在来自单对象Pix3D数据集的真实图像上的定性结果[41]。图8：[ 36 ]的定性结果。顶行：单个RGB输入图像。底行：我们方法的输出。我们展示了9自由度的对象边界框和从CAD模型数据库ZCAD中选择的形状样本。ABS.每个对象类的3D IoU绝对值3D IoU Rel.3D IoU瓶碗椅子马克杯沙发表是说全球是说全球Ⓧ1[36] 2016年中国汽车工业发展报告32.230.246.854.432.443.049.143.049.1Ⓧ2CorReNetm9 [36] 61.836.230.148.052.934.843.949.843.949.8Ⓧ3Points2Objects（Ours）63.530.218.941.544.519.836.444.759.573.0Ⓧ4Points2Objects（Ours，aligned）78.239.930.647.354.938.748.352.078.984.9ⓍOracle 86.056.542.166.166.350.261.261.210010045965表1：与CoReNet的比较[36]。所有类别的每个类别和平均IoU以及1283体素网格上的类别不可知全局IoU。我们显示了绝对重建分数（Abs. 3D IoU）和相对分数（Rel. 3D IoU），即相对于最大可能得分。对于我们的模型，最大可能的分数由地面实况oracle105表示。4597一一CollzzL Rt（方程式7，我们的）48.6 77.2表2：3D边界框估计。我们比较了不同的表示来估计3D约束的旋转和平移，Points2Objects（Ours）Points2Objects（Ours）Points2Objects（Ours）三胞胎对三胞胎三胞胎对三胞胎三十六。2三十六。432岁7-10。百分之一包装盒。度量为mAP，IoU阈值为0.5和0.25。mIV 碰撞L'1168。8 4116表5：对不同对象类型和基数的泛化考虑到分数，即，因为我们的模型是用clus来监督的（从形状数据库Z），它只能是L′+L（我们的）7941627-60 百分之五和这个监督一样好。甲骨文205年指示该表3：碰撞损失的影响。我们报告所有对象和场景的平均截面体积（mIV），以及我们的模型在有和没有碰撞损失的情况下的碰撞我们模型的最佳得分，使用地面实况9-DoF边界框和Z的地面真实形状用于监督我们的模型。我们还执行了Procrustes对齐，从9自由度到地面真理的抽象形状估计绝对值3D IoU：平均全局L′（方程[42]第四十二章：一个人的世界2403Lz（等式36.第三十六章：一夜情四点四十四。7表4：软标签与硬标签。128× 3体素网格上的交并（IoU）形状重建质量碰撞物体之间的平均相交体积（mIV）和碰撞总数我们在Tab中报告这两个指标3关于ShapeNet-triplets的验证分割。我们的碰撞损失大大降低了相交体积，并将碰撞次数减少了60.5%。软标签和硬标签如何影响形状估计？节中3.2中，我们提出了两种从数据库Z中选取形状样本的方法。第一个优化L′（等式3）使用硬标签，即目标标签z的独热编码，如[42]中所做的第二种方法Lz（Eq. 4）依赖于考虑几何相似性的软标签对象之间的相似性，因此允许预测多个可能的形状，而不是迫使网络对一个特定的形状做出艰难的决定。使用[36]中的评估方法，我们在1283体素网格上评估形状重建为交叉-联合（IoU）（表1）。4）. 我们报告所有类的平均IoU和类无关的全局IoU。我们使用软标签的形状选择机制显著提高了形状预测，+4。超过硬标签基线2mIoU[42]。首先，我们将我们的重建与他们的 ShapeNet 对和ShapeNet三元组数据集上的CoReNet [36]进行比较。给定一个图像，[36]预测一个密集的1283体素网格。每个体素要么是空的，要么被分配给一个对象类，用焦点损失（m8）1或IoU损失（m9）2训练，见Ta b。1.一、我们的方法达到了更高的相对3D IoU（59.5vs. 43.9），但不完全匹配的CoReNet43.9）。相对分数取可能的最大值一9自由度边界框3D mAP：@0.5@0.25方法列车试验3D mIoULbinR+LoffR+Lt（如[51]）43.375.0[36]第三十六话三胞胎对−LM+ Lt44.877.0[36]第三十六话三胞胎三胞胎43号。9-22。百分之三LR+ Lt46.877.2[36]第三十六话对三胞胎三十四14598估计误差（48%vs. 36%）。接下来，我们分析了两种模型在不同数量的对象和类类型组合下的泛化能力（ Tab. 5 ）。我们在ShapeNet对上训练，在ShapeNet三元组上评估，反之亦然。我们的模型在对三胞胎进行训练和对配对进行评估时，泛化效果很好（36.41vs. 36.21）。当对配对进行训练并对三胞胎进行评估时，CoReNet和我们的表现都有所下降，但我们的损失比CoReNet少（-10%vs.22%）。最后，我们在与[36]相同的设置中在Pix3D上定量比较了CoReNet我们在所有9个类上报告mIoU，并如[10]所定义的那样划分S1，S2在S1上，我们得到34。1%（相对于三十三3%）。在S2，26。3%（与 23岁6%）。因此，在本发明中，我们的方法在真实图像上优于CoReNet。5. 结论我们提出了一个端到端的可训练模型，用于从单个输入RGB图像进行真实的和联合的3D多目标重建具体来说，我们扩展了CenterNet范式，以连贯地预测多个3D对象。首先将对象检测为点，然后通过联合估计9-DoF对象边界框和来自给定形状数据库的3D形状示例来重建对象我们的模型是不可知的形状表示和灵活的形状数据库中改变他们。我们进一步的目标是现实和物理上合理的重建场景。为此，该模型鼓励无碰撞重建，并使用CAD模型作为形状表示，以保证有效和现实的对象形状。致谢：我们谢谢塞尔吉凯尔斯，Ste- fanPopov和Kevis-Kokitsi Maninis进行了有益的讨论，Jonas Schult 和 Theodora Kontogianni 对论文提出了Bastian Leibe4599引用[1] 大卫·亚瑟和谢尔盖·瓦西里茨基。K-Means++：小心播种的优势。在Proceedings of the Eighteenth Annual ACM-SIAM Symposium on Discrete Algo- rithms，2007中。[2] ArmenAvetisyan ， TatianaKhanova ， ChristopherChoy ， Den- ver Dash ， Angela Dai ， and MatthiasNießner.SceneCAD：预测RGB-D扫描中的对象对齐和布局欧洲计算机视觉会议（ECCV），2020年。[3] 天使XChang，Thomas Funkhouser，Leonidas Guibas，Pat Hanrahan ， Qixing Huang ， Zimo Li ， SilvioSavarese ， Mano-lis Savva ， Shuran Song ， Hao Su ，Jianxiong Xiao ， Li Yi ， and Fisher Yu.ShapeNet ： AnInformation-Rich 3D Model Repository，2015.[4] Wenzheng Chen，Huan Ling，Jun Gao，Edward Smith，Jaako Lehtinen，Alec Jacobson，and Sanja Fidler.学习使用基于插值的可重构渲染器预测3D对象。在神经信息处理系统（NeurIPS），2019年。[5] 陈志勤和张浩。学习隐式场的生成形状建模。在计算机视觉和模式识别会议（CVPR），2019年。[6] Christopher B Choy ， Danfei Xu ， JunYoung Gwak ，Kevin Chen，and Silvio Savarese. 3D-R2 N2：单视图和多视图三维物体重建的统一方法。在2016年的欧洲计算机视觉会议（ECCV）[7] Haoqiang Fan，Hao Su，and Leonidas J. Guibas.一种用于从单幅图像重建三维物体的点集生成网络。在计算机视觉和模式识别会议，2017年。[8] 斯图尔特·杰曼。断层图像重建的统计方法。Bull. Int.Stat. Inst，1987.[9] R. Girdhar，D.F.福伊，M。Rodriguez和A.古普塔学习对象的可预测和生成向量2016年欧洲计算机视觉会议（ECCV）[10] Georgia Gkioxari Jitendra Malik和Justin J Johnson。网格R-CNN。在计算机视觉和模式识别会议（CVPR），2019年。[11] 吉恩·H Golub和Charles F.范·洛恩矩阵计算（第三版）.约翰霍普金斯大学出版社，1996年。[12] 大卫·格里菲思，扬·博姆，托拜厄斯·里切尔。找到你的（3d）中心：使用学习损失的3d对象检测。欧洲计算机视觉会议（ECCV），2020年。[13] 放大图片创作者：Thomas G. Kim，Bryan Russell ，andMathieuAubry. 学习3D表面生成的一种方法在计算机视觉和模式识别会议，2018年。[14] MohamedHassan ， VasileiosChoutas ， DimitriosTzionas，and Michael J. Black.解决3D人体姿态模糊与3D场景约束。2019年国际计算机视觉会议（ICCV）[15] 凯明赫，吉奥吉亚·吉奥萨里，彼得·多尔和罗斯·吉尔希克。屏蔽R-CNN。在2017年的国际计算机视觉会议（ICCV）上[16] Philipp Henzler，Niloy J Mitra，and Tobias Ritschel.逃离柏拉图2019年国际计算机视觉会议（ICCV）[17] Siyuan Huang，Siyuan Qi，Yixin Zhu，Yinxue Xiao，Yuanlu Xu，and Song-Chun Zhu.从单个RGB图像进行整体三维场景解析与在欧洲计算机视觉会议（ECCV），2018年。[18] Hamid Izadinia ， Qi Shan ， and Steven M Seitz.IM2CAD。在计算机视觉和模式识别会议（CVPR），2017年。[19] L. Jiang ， Shaoshuai Shi ， Xiaojuan Qi ， and J. Jia.GAL：单视图3D对象重建的几何对抗损失欧洲计算机视觉会议（ECCV），2018年。[20] Wen Jiang ， Nikos Kolotouros ， Georgios Pavlakos ，Xiaowei Zhou，and Kostas Daniilovsky.从单个图像中相干重建多个人。在计算机视觉和模式识别会议（CVPR），2020年。[21] 加藤浩治牛久义孝原田达也神经三维网格渲染。在计算机视觉和模式识别会议（CVPR），2018年。[22] Abhijit Kundu ， Yin Li ， and James M. 我的天 3D-RCNN：通过Render-and- Compare进行实例级3D对象重建。在计算机视觉和模式识别会议（CVPR），2018年。[23] Weicheng Kuo ， Anelia Angelova ， Tsung-yi Lin ， andAngela Dai.Mask2CAD：通过学习分割和缩放进行3D形状预测。欧洲计算机视觉会议（ECCV），2020年。[24] Weicheng Kuo，Anelia Angelova，Jitendra Malik，andTsung-Yi Lin. Shapemask：通过细化形状先验来学习分割新的Ob-Mask。参见abs/1904.03239，2019。[25] H. Law和Deng J. Cornernet：将对象检测为成对的关键点。欧洲计算机视觉会议（ECCV），2018年。[26] J. Levinson ， Carlos Esteves ， Kefan Chen ， NoahSnavely，A. Kanazawa、Afshin Rostamizadeh和A.马卡迪亚深旋转估计的奇异值分解分析。在神经信息处理系统（NeurIPS），2020年。[27] 放大图片创作者：林宗义，李伟. Girshick，KaimingHe，andPiotrDol la'r. 用于密集目标检测的焦度损失。2017年在国际计算机视觉会议（ICCV）上[28] Shichen Liu，Tianye Li，Weikai Chen，and Hao Li. SoftRasterizer：A Differentiable Renderer for Image-based 3DReasoning. 2019年国际计算机视觉会议[29] 拉尔斯·梅谢德，迈克尔·奥切斯勒，迈克尔·尼迈耶，塞巴斯蒂安·诺沃津，安德烈亚斯·盖格.占领网络：学习函数空间中的三维重建。在计算机视觉和模式识别会议（CV

下载后可阅读完整内容，剩余1页未读，立即下载