从单个RGB图像中的3D物体部件分解和重建

26 浏览量更新于2023-10-20 收藏 1.86MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1从单个RGB图像Despoina Paschalidou1，3，5 Luc van Gool3，4，5 Andreas Geiger1，2，51马克斯普朗克智能系统研究所图宾根2Tübingen大学3ComputerVisionLab，ETHZürich4KULeuv en5马克斯·普朗克ETH学习系统{firstname.lastname}@ tue.mpg.devangool@vision.ee.ethz.ch摘要人类将3D世界感知为一组不同的物体，其特征在于各种低级（几何形状，反射率）和高级（连接性，邻接性，对称性）属性。最近基于卷积神经网络（CNN）的方法在3D重建方面取得了令人印象深刻的进展，即使使用单个2D图像作为输入。然而，这些方法中的大多数集中于恢复对象的局部3D几何形状，而不考虑其基于部件的分解或部件之间的关系。我们解决这个具有挑战性的问题，提出了一种新的配方，允许共同恢复的几何-一个3D对象作为一组原语，以及他们的潜在的层次结构，而无需部分级别的监督。我们的模型以二叉树的形式恢复了各种对象的更高层次的结构分解，其中简单的部分用更少的分解来表示，更复杂的部分用更多的组件来建模我们在ShapeNet和D-FAUST数据集上的实验表明，考虑零件的组织确实有助于对3D几何形状的推理。1. 介绍在生命的第一年，人类对世界的物理行为有了常识性的理解[2]。这种理解在很大程度上依赖于正确推理场景中对象的布置的能力。认知科学[21，3，27]中的早期作品指出，人类视觉系统将物体感知为部分的层次分解。有趣的是，虽然这对人脑来说似乎是一项相当容易的任务，但计算机视觉算法很难形成如此高水平的推理，特别是在缺乏监督的情况下。场景的结构与其各部分的固有层次组织在粗略的级别上，图1：分层部件分解。我们考虑的问题，学习结构感知的表示，超越部分级的几何形状，并专注于部分级的关系。在这里，我们将我们的重建作为一个不平衡的二元树的基元，给定一个单一的RGB图像作为输入。请注意，我们的模型不需要对对象部分或3D对象的层次结构进行任何监督。我们表明，我们的表示是能够模型的不同部分的对象与不同层次的抽象，从而提高重建质量。场景可以被分解成对象，并且在更精细的级别上，每个对象可以用部分来表示，并且这些部分用更精细的部分来表示。结构感知表示超越了部件级几何，并关注对象和对象部件之间的全局关系。在这项工作中，我们提出了一个结构感知表示，考虑部分关系（图。1）并且以多个抽象级别对对象部件进行建模，即，几何上复杂的部件以更多的组件进行建模，而简单的部件以更少的组件进行建模。这样的多尺度表示可以有效地存储在所需的细节水平，即具有更少的参数（图1）。2）。10601061深度学习的最新突破通过学习作为神经网络实现的参数函数，在3D形状提取方面取得了令人印象深刻的进展，该函数将输入图像映射到表示为网格[32，17，25，53，58，39]，点云[13，43，1，24，49，58]，体素网格[5，8，14，44，45，48，55]，2.5D深度图[26，19，42，11]或隐式曲面[34，7，40，46，56，35]。这些方法主要集中在重建物体的几何形状，而不考虑其组成部分。这导致不可解释的重构。为了解决缺乏可解释性的问题，研究人员将注意力转移到使用形状图元的表示[51，41，31，10]。虽然这些方法产生有意义的语义形状抽象，但部分关系并没有显式地表现在它们的表示中。我们提出了一种新的神经网络体系结构，它可以在没有结构监督的情况下恢复对象的潜在层次布局，而不是将3D对象表示为非结构化的部件集合。特别是，我们employ一个神经网络，学习递归分区对象到其组成部分，通过建立一个潜在的空间，编码的部分层次结构和部分几何。预测的层次分解表示为基元的不平衡二叉树。更重要的是，这是在没有任何监督的情况下学习的，无论是对对象部分还是它们的结构。相反，我们的模型在训练过程联合推断这些潜在变量。总之，我们做出了以下贡献：我们共同学习预测零件关系和每个零件的几何形状，而无需任何零件级别的监督。训练我们的模型所需的唯一监督是一个防水网格的3D物体。我们的结构感知表示产生了语义形状重建，与[34]的最先进的3D重建方法相比，使用的参数明显较少，并且没有任何额外的后处理。此外，我们学习的层次结构具有语义解释，因为学习树中的相同节点ShapeNet [6]和动态FAUST（D-FAUST）数据集[4]上的实验证明了我们的模型将对象解析为结构感知表示的能力，与仅考虑对象部分的3D几何形状的方法相比，这些表示更具表达力和几何准确性[51，41，15，9]。代码和数据是公开的1.2. 相关工作我们现在讨论最相关的基于连续性和结构感知的形状表示。受监督的结构感知表示：我们工作涉及的方法，学习结构感知的形状表示，超越单纯的枚举对象1https://github.com/paschalidoud/hierarchical原语图2：细节层次。我们的网络表示一个对象作为一个树的原语。在每个深度级别d处，目标对象用2D基元重构。这导致具有各种细节级别的表示。自然地，从更深的深度水平的重建是更详细的.我们将每个图元与唯一的颜色相关联，因此用相同颜色示出的图元对应于相同的请注意，上面的重建是从相同的模型中导出的，最大训练数量为24 =16个基元。在推理过程中，网络动态组合来自不同深度级别的表示以恢复最终预测（最后一列）。部件，并基于部件级关系恢复对象的更高级别的结构分解[36]。Li等人[30]使用对称层次结构[54]表示3D形状，并训练递归神经网络来预测其层次结构。他们的网络学习边界框的层次组织，然后用体素化的部分填充它们请注意，该模型考虑监督方面的分段的对象到他们的原始部分。与[30]密切相关的是StructureNet[37]，它利用图形神经网络将形状表示为n元图。Struc-tureNet考虑监督的基本参数和层次结构。同样，Hu etal.[22]提出了一种监督模型，该模型将斜拉桥的3D结构恢复为二叉解析树。相比之下，我们的模型是无监督的，即，它既不需要对原始零件进行监督，也不需要对零件关系进行监督。基于物理结构感知表述：在不同的环境中也研究了推断部件之间的更高级别关系的任务Xu等人[57]通过观察物体在未来的运动方式，重新认识物体的各个部分，它们的层次结构和每个部分特别地，每个部分继承其父部分的运动，并且通过最小化这些局部位移向量的范数来Kipf等人[28]探索使用变分自动编码器来学习各种移动粒子之间的潜在相互作用Steenkiste等人[52]扩展了[16]关于像素的感知分组的工作，并学习了一个交互函数，该函数对对象是否在多个帧处彼此交互进行建模。对于两者[28，52]，层次结构来自多个时间戳的交互。与[57，28，52]相反，我们的模型不将层次与运动相关联，因此我们不需要多个帧来发现层次结构。10620KKi=1图3：概述。给定输入I（例如，图像，体素网格），我们的网络预测最大深度D的图元P的二叉树。特征编码器将输入I映射到特征向量c0。随后，分区网络对每个要素进行分割在两个{cd+1，cd+1}中的表示c d，导致{1，2，4，.. - 是的- 是的，2d}基元，其中，k2 k2 k+1k深度d处的第k个图元的特征表示。每个c/d都被传递给结构网络，由它到一个特定的基元p，d。因此，每个pd负责表示目标形状的特定部分，K K表示为点Xd的集合。最后，几何网络预测原始参数λd和重建K K每个基元的质量qd。为了计算重建损失，我们测量预测的基元与目标对象（对象重建）和分配的部分（部分重建）的匹配程度。我们使用板块符号来表示在每个深度水平d处的所有节点k上的重复。最后的重建如右图所示。基于监督基元的表示：Zou等人[59]第59话与一个男人的结合深度网络（MDN）来从深度图学习长方体表示。类似地，Niu et al.[38]采用RNN迭代预测长方体基元以及它们的对称性和连接关系。最近， Li et al.[31] 利用PointNet++[43]通过解决一系列线性最小二乘问题来预测随后用于估计原始参数的每个点的属性。与[59，38，43]相比，它需要在原始参数方面进行监督，我们的模型以无监督的方式学习。此外，使用超二次曲面建模基元，使我们能够利用更大的形状词汇，而不限于[59，38]中的立方体或[31]中的球体，圆锥体，圆柱体和平面。另一个工作线，与我们的互补，将构造性立体几何（CSG）[29]的原则纳入形状建模的学习框架[47，12，50，33]。这些工作需要丰富的注释的原始参数和序列的预测。无监督形状抽象：与我们的模型密切相关的是[51，41]的作品，其采用卷积神经网络（CNN）以无监督的方式回归最佳描述目标对象的基元的参数。基元可以是长方体[51]或超二次曲面[41]，并且通过最小化目标和预测形状之间的差异来学习，通过计算目标上的点和预测形状之间的截断双向距离[51]或倒角距离来学习。预测的形状[41]。虽然这些方法学习一个平面排列的部分，我们的结构感知表示分解成一个层次布局的语义部分描绘的对象。这导致零件几何形状具有不同的粒度级别。我们的模型不同于[51，41]也wrt。优化目标。我们根据经验观察到，对于[51，41]，所提出的损失公式遭受各种局部最小值，这些最小值源于其优化目标的性质。为了减轻这种情况，我们使用[34，7，40]中提出的更鲁棒的分类损失，并通过学习分类点是否位于目标对象内部或外部来训练我们的最近，[15，9]探索了从3D对象恢复形状元素的这种损失。Genova等人[15]利用CNN来学习从在不同视点渲染的一组深度图预测一组轴对齐的3D高斯的参数。类似地，Deng et al.[9]采用自动编码器将对象的几何形状恢复为平滑凸的集合。与[15，9]相比，我们的模型超越了零件的局部几何形状，并试图恢复对象零件的底层层次结构。3. 方法在本节中，我们将描述我们用于推断结构感知表示的新型神经网络架构。给定输入I（例如，RGB图像，体素网格）我们的目标是学习一个神经网络φθ，它将输入映射到一组最能描述目标对象的基元。目标对象被表示为一组对X={（xi，oi）}N，106300K克雷奇KKKK000KK克雷奇克雷奇22k2k+1kk=0克什托克其中xi对应于第i个点的位置，oi表示其标签，即xi位于目标对象内部（oi=1）还是外部（oi=0）我们通过在目标网格的边界框内采样点来获取这N个对，并使用防水网格确定它们的标签分区网络：特征编码器将输入I映射到描述根节点p0的中间特征表示c0∈ RF。划分网络实现了一个函数p θ：RF→ R2F，它递归地划分特征表示cd的节点pd分为两个特征表示，K K的目标对象。在训练过程中，我们的网络学习预测包含目标网格中所有内部点（o=1）而不包含外部点（o=0）的形状。我们语句，每个子节点{pd+1，pd+1}一个：p θ（cd）={cd+1，cd+1}.（二）i ik2k2k+1在补充资料中讨论我们的抽样策略。每个基元pd直接从cd预测，而不需要进行任何校正。而不是预测一个非结构化的基元集，我们以最大深度D的二叉树的形式恢复部分上的分层分解，DP={{p d}2−1|d={0. . - 是的（1）与其他中间特征相邻这意味着用于预测图元参数化的必要信息被完全封装在CD中，而不是封装在任何其它中间特征表示中。kk=0其中Pd是深度d处的第k个图元。请注意，对于深度为d的第k个节点，其父节点定义为p d −1，2结构网络：由于缺乏地面实况监督方面的树结构，我们介绍了结构网络，寻求学习伪地面实况两个孩子分别为pd+1和pd+1。2k2k +1在每个深度级别，P用{1，2，. . .，M}个基元。M是一个上限，目标对象的部分分解更正式地说，它学习一个函数sθ：RF→R3，映射每个特征表示cd到hd是R3中的空间位置。最大数量的基元，等于2D。更多k kd具体地，P构造如下：根节点与表示整个形状，并递归地分成两个节点（其子节点），直到达到最大深度D。这种递归分割产生的重建，恢复目标形状的几何形状使用2d图元，其中d表示的深度水平（见图。2）。在本文中，术语节点是我们可以把每个hk看作目标物体的特定部分我们定义DH={{hd}2−1|d ={0. - 是的- 是的（3）在所有深度级别上对象的所有部分的质心的集合。从H和X，我们现在能够导出目标对象的部分分解为点集Xd与原语可互换使用，并且始终指与该特定节点相关联的原语。每个原语都由一组参数完全描述参数λd，定义其在3D空间中的形状、大小和位置。由于不是所有对象都需要相同数量的基元，其位于具有质心Hd的部件内部。请注意，为了学习P，我们需要能够将目标对象划分为每个深度级别的2D部分在根层（d = 0），h0是目标对象的质心，X0等于X。对于d=1，h1和h1是质心我们使我们的模型能够预测不平衡的树，即，停止代表目标物体的两个部分 X1和X10 1递归分割，如果重建质量足够，古老的为了实现这一点，我们的网络还回归表示为qd的每个图元的重建质量。基于包含与X0相同的点。对于外部点，标签保持不变。对于内部点，如何-标签通常分布在X1和X1之间，k0 1根据每个Qd的值，网络动态地停止H1或H1是否更接近。也就是说，X1和X1k0 1 0 1递归分区过程导致简约的代表，如图所示，1.一、3.1. 网络架构我们的网络包括三个主要组成部分：（一）包含更多的外部标签和更少的内部标签，0到X0。重复这个过程，直到达到最大深度。更正式地说，我们定义点的集合Xdcorre-经由其质心hd隐式地响应于基元pd：分区网络，递归地将形状表示拆分为部分表示，（ii）结构网络，专注于学习层次安排Xd=K 、、、Nk（x，o）n（x，o）∈Xd−12K（四）基元，即在每个深度级别将对象的部分分配给基元，以及（iii）几何网络。恢复原始参数。概述这里，X d-1表示父节点的点。功能2Nk（x，o）将每个（x，o）∈ Xd−1分配给部分pd，如果它更接近其中s（k）是k的兄弟：拟议的管道是说明图。3 .第三章。第一我们的管道的一部分是一个功能编码器，ks（k）.（x， 1）hd−x≤hd-xbbbbbbbbbbbbbbbbbbbbbbbbb1064bbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbba ResNet-18 [20]，忽略最终的全连接层。相反，我们只保留长度为F=512的特征向量在平均池化之后。Nk（x，o）=K（x，0）否则s（k）（五）1065KKKK其中，α=[α1，α2，α 3 ]确定超二次曲面的大小，α=[α1，α2，α 3]确定超二次曲面的形状。如果f（x;λ）= 1. 0，则给定点x位于超二次曲面的曲面上，若f（x;λ）<1 .一、0，则对应点位于内部，并且如果f（x; λ）>1。0该点位于超二次曲面之外。为了说明不-对于由（7）中的指数运算引起的数值不稳定性，我们不直接使用f（x; λ），而是遵循[23]并使用f（x;λ）≠1。最后，我们将内部-外部函数转换为占用函数g：R3→[0，1]：g（x;λ）=σ（s（1−f（x;λ）<$1））（8）（b）第（1）款图4：结构网络。我们想象质心hd和对应于估计的这导致适合于我们想要解决的分类问题的逐点预测。σ（·）是S形函数，并且s控制占用函数的转变的锐度。为了考虑任何刚体运动变换，我们增加了原始参数其中平移向量t =[t x，t y，t z]和四元数q =[q0，q1，q2， q3][18]确定坐标系变换T（x）= R（λ）x+t（λ）。注意，在（7）、（8）中，为了清楚起见，我们省略了原始索引k、d。视-我们的补充质询已就第（8）项作出解释K K对于树的前三个级别的部分pd。图4b在视觉上解释了Eq.（四）、我们根据点的最近质心hd给点上色。用与以下项相关联的颜色表示的点一部分被标记为说明要点灰色被标记为3.3.网损我们的优化目标L（P，H;X）是四项的加权和：L（ P， H; X）= Lstr（ H; X）+ Lrec（ P; X）直观地说，这个过程递归地将点关联到二叉树的每个级别上最接近的兄弟节点，其中，+Lcomp（P;X）+Lprox（P）（九）关联由标记O确定。图4示出了使用H的目标形状的部分分解。我们看到了-给每个部分涂上不同的颜色。结构损失：使用H和X，我们可以将目标网格分解为不相交部分的层次结构。即每个hd隐含地定义了一组描述一个spe的点XdK K几何网络：几何网络学习一个函数rθ：RF→RK×[0，1]，该函数映射表示-从点cd到其相应的原始参数化λd如（4）中所述的对象的特定部分。为了量化那么H聚类输入形状X，我们最小化平方距离之和，类似于经典的k-means：K以及重建质量预测Qd：KL应力Σ（H;X）=1Σ2d− 1ox−hd（十）r（cd）={λ d，q d}.（六）hd∈H（x，o）∈XdθKKkkk3.2.基元参数化对于基元，我们使用超二次曲面。详细分析超二次曲面作为几何基元的使用超出了本文的范围，因此我们建议读者参考[23，41]更多详情下面，我们将重点介绍与我们最相关的对于任意点x∈R3，我们可以使用其隐式曲面函数（通常称为内外函数）来确定它是否位于超二次曲面的内部或外部：（一）21066注意，对于（10）中的损失，我们只考虑关于H的梯度，因为Xd通过H隐式定义。这导致类似于聚类点云的期望最大化（EM）的过程，其中计算Xd是期望步骤，并且每个更新的梯度对应于到最大化步骤。然而，与EM相反，我们在训练集的所有实例中最小化这种损失，从而导致简约但一致的形状抽象。在训练时执行的这个聚类过程的一个例子4.第一章. . Σ2.Σ2Σ ǫ2.Σ2重建损失：重建损失措施f（x;λ）=x100+α12002年α2ǫ1z1+α3（七）预测的图元与目标形状的匹配程度。类似于[15，9]，我们将重建损失公式化为1067DGKKKKKKkk2二进制分类问题，其中我们的网络通过分类X中的点是位于目标对象内部还是外部来学习预测预测形状的表面边界为了做到这一点，我们首先定义在每个深度水平的预测形状的占用函数。使用Occu-通过（8）中定义的每个基元的概率函数，深度d处的整体形状的概率函数变为：(a) 输入.ΣGd（x）= maxgdx;λd（11）dkk k∈0.2−1注意，（11）仅仅是每基元occu-函数的并集我们将重建损失公式化。对象和WRT。对象的每个部分如下所示(b) 预测(c) 预测层次结构ΣLrec（ P; X）=ΣDΣLG（x），o+（12）(d) 输入（x，o）∈Xd=0DD2. D.K x;λd，o（十三）d=0k=0（x，o）∈Xd其中L（·）是二进制交叉熵损失。第一项是对象重建损失（12），并且测量在每个深度水平处的预测形状与目标匹配的程度形状第二项（13），我们称之为部分重构损失，它衡量每个基元pd与它所表示的对象部分的匹配程度，定义为点集Xd.注意，部分重构损失强制执行非重叠基元，因为Xd通过构造是非重叠的。我们在图中说明了我们的重建损失3 .第三章。兼容性损失：这个损失度量了我们的模型能够预测原始p d的预期重建质量q d的程度。一个标准的度量标准，(e) 预测（f）预测层次图5：ShapeNet上的预测层次结构。我们的模型恢复了一个对象的几何形状作为一个不平衡的体系结构的基本要素，其中较简单的部分（例如。灯的底座）用很少的基元和更复杂的部分（例如，飞机的机翼）。邻近损失：增加该项是为了抵消由于（8）中的S形而导致的梯度消失。例如，如果基元的初始预测远离目标对象，则重建损失将很大，而其梯度-kk将是小的。如此一来，就无法“动”了重建质量是交集大于并集（IoU）。因此，我们要求我们的网络根据其IoU wrt来预测每个基元pd的重建质量的部分把这个原语放到正确的位置。因此，我们引入了一个邻近损失，鼓励每个primi的中心-Ddktivep k接近它所代表的部分的质心它所代表的对象XkDD2000年2月-1月Lcomp（ P;X）=2.D-1。Σ2qd−IoU（pd，Xd）（十四）Lprox（P）=t（λd）−hd（十五）k k kd=0 k=0d=0k=0其中t（λd）是基元pd的平移向量，在推理期间，qd允许进一步划分primi-dk kKIqU低于阈值qth的事件，并且如果IqU低于阈值q th，则停止。重建质量高（图元很好地拟合因此，我们的模型预测一个不平衡的图元树，其中对象可以用从1到2D的各种数量的图元来表示。这导致了简约的表示，其中简单的部分用更少的基元表示。我们凭经验观察到阈值q_th不会显著影响我们的结果，因此我们凭经验将其设置为0。六、在训练期间，我们不使用预测的重建质量qd来动态地划分节点，而是预测完整的树。hk是它所表示的部分的质心。我们证明我们的补充中的消失梯度问题4. 实验在本节中，我们提供证据证明我们的结构感知表示产生语义形状抽象，同时实现比各种最先进的形状重建方法（如[34]）具有竞争力（甚至更好的结果）。此外，我们还调查了学习层次的质量，并表明使用我们的结构感知表示产生语义场景解析。我-L1068倒角-L1IoU类别OccNet [34][41]第四十一话SIF [15]CvxNets [9]我们OccNet [34][41]第四十一话SIF [15]CvxNets [9]我们飞机0.1470.1220.0650.0930.1750.5710.4560.5300.5980.529板凳0.1550.1140.1310.1330.1530.4850.2020.3330.4610.437内阁0.1670.0870.1020.1600.0870.7330.1100.6480.7090.658车0.1590.1170.0560.1030.1410.7370.6500.6570.6750.702椅子0.2280.1380.1920.3370.1140.5010.1760.3890.4910.526显示0.2780.1060.2080.2230.1370.4710.2000.4910.5760.633灯0.4790.1890.4540.7950.1690.3710.1890.2600.3110.441扬声器0.3000.1320.2530.4620.1080.6470.1360.5770.6200.660步枪0.1410.1270.0690.1060.2030.4740.5190.4630.5150.435沙发0.1940.1060.1460.1640.1280.6800.1220.6060.6770.693表0.1890.1100.2640.3580.1220.5060.1800.3720.4730.491电话0.1400.1120.0950.0830.1490.7200.1850.6580.7190.770容器0.2180.1250.1080.1730.1780.5300.4710.5020.5520.570是说0.2150.1220.1650.2450.1430.5710.2770.4990.5670.580表1：ShapeNet上的单个图像重建。我们的方法对OccNet [34]和基于超二次曲面[41]（SQs），SIF [15]和CvxNets [9]的连续方法我们报告了容积IoU（越高越好）和Chamfer-L1距离（越低越好）wrt。地面实况网图6：D-FAUST上的预测层次结构。我们可视化输入RGB图像（a）、预测（b）和预测层次（c）。我们将每个原语与颜色相关联，我们观察到我们的网络在不同的关节中学习身体部位的语义映射，例如。节点（3，3）用于表示左腿的上部，而节点（1，1）用于表示上身。补充资料中详细介绍了实施细节和消融对我们模型数据集：首先，我们使用Choy的ShapeNet [6]子集使用动态FAUST（D-FAUST）数据集[4]进行实验，该数据集包含10个执行各种任务的人的129个序列的网格，例如我们将这些序列随机分为训练（91），测试（29）和验证（9）。基线：与我们的工作密切相关的是[51]和[41]的形状解析方法，它们采用长方体和超二次曲面作为基元。我们将[41]称为SQ，并使用其公开可用的代码2进行评估。此外，我们还将其与结构隐式函数（SIF）[15]进行了比较，该函数将对象的几何形状表示[9]使用平滑的凸形表示对象部分。最后，我们还报告了OccNet [34]的结果，这是最先进的隐式形状重建技术。请注意，与我们相反，[34]不考虑部分分解或任何形式的潜在结构。评估指标：与[34，15，9]类似，我们定量评估我们的模型并报告平均体积IoU和倒角-L1距离。这两个指标在我们的补充资料中详细讨论。4.1. ShapeNet上的结果我们评估我们的模型上的单视图三维重建任务，并与各种国家的最先进的方法进行比较。我们遵循标准实验设置，为13个ShapeNet对象训练单个模型。我们的模型和[41]都是针对最大数量64训练的等[8]，使用相同的图像渲染训练我们的模型-和训练/测试分裂，如Choy et al.此外，我们还2https://superquadrics.com1069（a）投入（b）供应链质量（c）我们的（d）投入（e）服务质量（f）我们的图7：单个图像3D重建。输入图像如（a，d）所示，其他列显示了我们的方法（c，f）与[41]（b，e）相比的结果。补充资料中提供了其他定性结果基元（D=6）。对于SIF [15]和CvxNets [9]，使用50个形状元素计算报告的结果。定量结果报告于表1中。我们观察到，我们的模型在IoU和OccNet [34]方面优于基于连续性的基线，主要是（a）投入（b）供应链质量（c）我们的（d）投入（e）服务质量（f）我们的图8：单个图像3D重建。我们的重建（c，f）的定性比较，[41]不考虑任何形式的结构（b，e）。输入RGB图像如（a，d）所示。请注意，我们的表示如何产生几何上更准确的重建，同时是语义上的，例如，用蓝色着色的基元一致地表示人的头部，而用橙色着色的基元捕获左大腿。补充资料中提供了其他定性结果物体的性质（7/13）。关于倒角-L1，我们的模型是第二个最好的原始表示，如[41]IOU倒角-L1针对该指标进行了优化这也说明了[41]，SQs [41] 0.6080.189在IOU方面表现得更糟。当我们的模型在我们的0.6990.098与现有的最先进的原始表示相媲美在Chamfer-L1方面，它还恢复了层次结构，这是我们的基线所没有的。我们的模型与SQs [ 41 ]的定性比较如图所示。7.第一次会议。图5可视化了该模型的学习层次结构。我们观察到，我们的模型恢复了不平衡的二叉树，将3D对象分解为一组部分。请注意，[51，41]最初是针对体积3D重建而引入的，因此我们在补充资料中提供了关于该任务的实验。4.2. 关于D FAUST我们还展示了动态FAUST（D-FAUST）数据集[4]的结果，由于人体的精细结构，这是非常具有挑战性的我们在单视图3D重建任务上评估了我们的模型，并与[41]进行了比较。这两种方法都是针对最多32个基元（D=5）进行训练的。图6示出了来自测试集的不同人的预测的高血压。我们注意到，预测的层次结构确实是语义的，因为相同的节点用于对人体的相同部分进行建模。图8比较了我们的模型与SQs的预测。我们观察到，虽然我们的基线产生更多的parsimonious抽象，其详细程度是有限的。相反，我们的模型捕捉了人体的几何形状，具有更多的细节。这也从表2中得到了定量验证。请注意，与ShapeNet相比，D-FAUST不包含长、细（例如，桌腿、椅腿）或中空部分（例如汽车），因此优化倒角- L1或IoU会导致类似的结果。因此，我们的方法-表2：D-FAUST上的单个图像重建。我们报告体积IoU和倒角L1 wrt。的与[41]相比，我们的模型的地面实况网格。[41]第41话，也是一种享受。由于空间有限，我们只说明预测的层次结构到第四个深度级别。补充资料中提供了完整的层次结构。5. 结论我们提出了一种基于学习的方法，共同预测部分的关系，连同每部分的几何形状的二叉树的形式，而不需要任何部分级的一个符号的训练。我们的模型产生几何准确的连续性为基础的重建，优于前的形状抽象技术，同时执行竞争力更灵活的隐式形状表示。在未来的工作中，我们计划扩展我们的模型和预测层次结构，保持一致的时间，从而产生运动树的对象。另一个未来的方向是考虑更灵活的基元，如一般的凸形，并纳入额外的约束例如对称性以进一步改善重建。致谢这项研究得到了Max Planck ETH学习系统中心和华为研究礼物的支持。1070引用[1] Panos Achlioptas，Olga Diamanti，Ioannis Mitliagkas，and Leonidas J.Guibas 三维点云的学习表示与在国际会议上。机器学习（ICML），2018年。2[2] 他是个天才。在幻想的物理世界里。Curr entDir-tions inPsychological Science，13（3）：891[3] 欧文·比德曼人类图像理解：最近的研究和一个理论。计算机视觉，图形和图像处理，1986年。1[4] Federica Bogo，Javier Romero，Gerard Pons-Moll，andMichael J.黑色. 动态FAUST：记录运动中的人体。正在进行IEEE会议计算机视觉和模式识别（CVPR），2017年。二七八[5] 放大图片作者：James M.里奇和尼克·韦斯顿使用卷积神经网络的生成和判别体素建模 arXiv.org ，1608.04236，2016.2[6] 天使X作者：Thomas A.作者：Leonidas J. Guibas、PatHanrahan、Qi-Xing Huang、Zimo Li、Silvio Savarese、Manolis Savva 、 Shuran Song 、 Hao Su 、 JianxiongXiao、Li Yi和Fisher Yu。Shapenet：一个信息丰富的3D模型存储库。arXiv.org，1512.03012，2015. 二、七[7] 陈志勤和张浩。学习生成式形状建模的隐式字段。正在进行IEEE会议计算机视觉和模式识别（CVPR），2018年。二、三[8] Christopher Bongsoo Choy ， Danfei Xu ， JunYoungGwak，Kevin Chen，and Silvio Savarese. 3d-r2 n2：一个统一的方法，用于单视图和多视图三维物体重建。在proc 欧洲会议。计算机视觉（ECCV），2016年。二、七[9] Boyang Deng、Kyle Genova、Soroosh Yazdani、SofienBouaziz 、 Geoffrey Hinton 和 Andrea Tagliasacchi 。Cvxnets：可学习的凸分解。arXiv.org，2019年。二三五七八[10] Theo Deprelle 、 Thibault Groueix 、 Matthew Fisher 、Vladimir G Kim、Bryan C Russell和Mathieu Aubry。学习三维形状生成和匹配的基本结构。在神经信息处理系统（NIPS）的进展，2019年。2[11] Simon Donne和Andreas Geiger使用连续重投影学习正在进行IEEE会议计算机视觉和模式识别（CVPR），2019年。2[12] Kevin Ellis、Daniel Ritchie、Armando Solar-Lezama 和Joshua B.特南鲍姆学习从手绘图像推断图形程序。在神经信息处理系统（NIPS）的进展，2018年。3[13] Haoqiang Fan，Hao Su，and Leonidas J. Guibas从单幅图像重建三维物体的点集生成网络。Proc. IEEE Conf.计算机视觉和模式识别（CVPR），2017年。2[14] Matheus Gadelha，Subhransu Maji和Rui Wang。从多个对象的2D视图的3D形状归纳。在国际会议上。关于3DVision（3DV），2017年。2[15] Kyle Genova ， Forrester Cole ， Daniel Vlasic ， AaronSarna，William T. Freeman和Thomas A.放克豪瑟学习具有结构化隐式函数的形状模板。在IEEE国际会议上。计算机视觉（ICCV），2019年。二三五七八[16] KlausGreff，SjoerdvanSteenkiste，andJürgenSchmidhube r. 神经期望最大化。在神经信息处理系统（NIPS）的进展，2017年。2[17] 放大图片作者：David G. Kim，Bryan C.罗素和马修·奥布里。学习3D表面生成的一种纸上方法。在Proc. IEEE计算机视觉与模式识别会议（CVPR），2018年。2[18] 威廉·罗恩·汉密尔顿。十一.四元数;或者代数中的一个新的虚数系统。伦敦，爱丁堡和都柏林哲学杂志和科学杂志，33（219）：58-60，1848。5[19] 哈特曼，加利亚尼，哈弗莱纳，范古尔，辛德勒。学习多补丁相似性。在proc IEEE International Conf.计算机视觉（ICCV），2017年。2[20] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习在proc IEEE会议计算机视觉和模式识别（CVPR），2016年。4[21] 唐纳德 D 霍夫曼和惠特曼 A 理查兹。部分认知。Cognition，18（1-3）：65-96，1984. 1[22] 胡芳桥，赵金，胡勇，李辉。学习大跨度桥梁三维重建的结构图布局和三维形状。 arXiv.org ，abs/1907.03387，2019. 2[23] 阿莱斯·雅克利奇阿莱斯·莱昂纳迪斯和弗朗克·索利纳超二次曲面的分割和恢复，计算成像和视觉的第20卷。Springer，2000年。5[24] Li Jiang ， Shaoshuai Shi ， Xiaojuan Qi ， and Jiaya Jia.GAL：单视图三维对象重建的几何对抗损失。在proc欧洲会议。计算机视觉（ECCV），2018年。2[25] 放大图片作者：Angjoo Kanazawa，Shubham Tulsiani，Alexei A.埃弗罗斯和吉坦德拉·马利克从图像集合学习特定类别的网格在欧洲会议上。计算机视觉（ECCV），2018年。2[26] Abhish e kKa r，ChristianHaíne，andJitendraMalik. 学习多视角立体机。在神经信息处理系统（NIPS）的进展，2017年。2[27] Katherine D Kinzler和Elizabeth S Spelke。人类认知的核心系统脑研究进展，164：2571[28] Thomas Kipf、Ethan Fetaya、Kuan-Chieh Wang、MaxWelling和Richard Zemel。交互系统的神经关系推理。在国际会议上。机器

下载后可阅读完整内容，剩余1页未读，立即下载