拓扑感知变形场的单视角三维重建

151 浏览量更新于2023-10-25 收藏 22.69MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

15360用于单视角三维重建的拓扑感知变形场0Shivam Duggal Deepak Pathak0卡内基梅隆大学0单视角三维重建0源纹理目标网格0无监督的纹理转移0无监督的对应估计0图1. 在训练时，给定一个已知相机姿态的对象类别的非配对图像集合，我们的方法学习：(a)仅通过单个图像在测试时重建底层的三维结构，以及(b)在类别实例之间建模密集的三维对应关系。所学习的对应场具有关节感知性、拓扑感知性，并固有地捕捉到类别的结构特性，从而实现了无监督纹理转移的任务。视频和代码请访问 https://shivamduggal4.github.io/tars-3D/。0摘要0我们提出了一个新的框架来学习密集的三维重建0从单个二维图像中进行构建和对应。形状以类别级别的占据场的变形隐式表示，并且在没有使用任何三维监督的情况下从未对齐的图像集合中以无监督的方式进行学习。然而，图像集合通常包含大量类别内的拓扑变化，例如不同椅子实例的图像，这是一个重大挑战。因此，先前的方法要么仅限于没有拓扑变化的类别来估计形状和对应，要么仅关注独立学习每个实例的形状而没有任何对应关系。为了解决这个问题，我们提出了一个拓扑感知的变形场，将物体空间中的三维点映射到一个更高维的规范空间。给定一张单独的图像，我们首先使用拓扑感知场将物体空间中的三维点隐式变形到一个学习到的类别特定规范空间，然后在规范空间中学习三维形状。规范形状和变形场都是使用可微分渲染通过学习的循环光线行进器进行端到端训练的。我们的方法被称为TARS，在几个数据集上实现了最先进的重建保真度：ShapeNet、Pascal3D+、CUB和Pix3D椅子。01. 引言0学习理解三维几何世界的0我们的二维观察快照的底层问题一直是计算机视觉中的一个长期问题，然而其泛化能力远远不及学习识别二维概念[15,22,23]。原因并不令人意外：在野外获得三维监督的可扩展方法缺乏，无论是同一对象的多个视图还是GT形状。与当前的视觉系统不同，人类可以仅从一张图像中推断出三维结构（即使在大面积遮挡下）。如果我们的（深度）学习模型要开发出这样的能力，我们必须首先弄清楚如何仅从一个不对齐和多样化的二维图像集合中理解三维结构-这是网络上大量可用的数据。然而，任何这样的方法首先必须回答一个基本问题-如何表示三维结构？0回顾近年来的研究，存在一个0压倒性的证据支持隐式表示，这要归功于神经隐式建模的进展[9, 36, 43, 44, 47, 53,56]。虽然这些隐式表示已经达到了高保真重建的黄金标准，但它们仍然依赖于在训练期间和有时在推理期间使用3DGT形状或密集多视图监督[44]，使它们难以应用。implicit dense correspondences between topologically vary-ing objects with just single view supervision is not straight-forward. This is because of inherent continuous nature ofMLPs used by implicit shape modeling techniques and theinherent discontinuities in correspondence ﬁeld between anytwo topologically different objects. For any two instanceswith different topologies, correspondence ﬁeld has to bedis-continuous in order to map one structure to the another.Please refer to supp. section B for more understanding. Toovercome this issue of implicitly learned deformation ﬁelds,we propose topologically-aware deformation ﬁelds.object space to the corresponding 3D-point in the category-level canonical space using our DeformNet module. Then, toaddress the above issue of implicit deformation ﬁelds and tolearn correspondences between topologically varying shapes,we take inspiration from Level Set Method (LSM) [50,51].Level Set Methods support topological merging/breaking ofshapes by representing any shape as a zero-level crossingof a higher-dimensional function. Inspired from them, wetransform our 3D canonical points to a higher-dimensionby concatenating them with learned object-space point fea-tures. We then estimate the underlying shape by mapping thehigher-dimensional canonical points to the correspondingSDF values using the Canonical Shape Generator module.A high-level overview of our approach is shown in Figure 2.15370图像潜在0RGB0点特征0∆ XYZ0拓扑感知变形场0XYZ0（基于LSTM的）射线行进器0射线行进步长0规范形状潜变量01. 使用射线进行行进0（基于LSTM的）射线行进器02. 使用具有拓扑感知的变形场将采样点变形到规范空间03. 使用SDF驱动的功能对应关系重建形状0对象空间规范空间0DeformNet0规范SDF生成器0HyperNet0HyperNet0图2.TARS概述。给定一张单独的图像，我们首先使用我们学到的具有拓扑感知的变形场将对象空间中的3D点映射到更高维的规范空间。然后，使用规范形状生成器模块将规范点映射到其SDF值。我们利用基于LSTM的可微分渲染器来指导变形和有符号距离场的学习。0到图像互联网。最近的研究[10, 26, 79,82]试图将多视图图像的要求从100个减少到2-10个。然而，只要任何方法需要超过一张图像，就无法用于在互联网上生成数万亿张图像的3D -在本文中考虑的情况下。我们可以从训练时的类别的2D图像集合中利用哪些信号，可以帮助在测试时为一个未知的2D图像生成3D？我们求助于柏拉图。0柏拉图的“形式理论”将属于同一（“柏拉图式”）类别的3D对象联系在一起0将现实中的对象转化为特定的形式或概念（柏拉图的理念）。他著名的“杯子性质”例子表明，虽然存在许多杯子，但只有一个“杯子性质”的理念。我们相信这与人类对物体的感知密切相关。例如，当我们玩pictionary游戏[1]时，只给出一个类别级别的对象描述，我们通常可以画出它的高级（类别级别）表示。只有当我们提供更多的观察或对象的属性（例如：带有扶手的椅子，“SUV”汽车，带有更宽翼的飞机）时，我们才能画出该类别的具体实例。这一哲学在可变形模型[6]中经典地被采用，但需要3D监督。最近，随着可微分渲染器[8, 29,35]的出现，这一哲学已被应用于从单个图像估计3D[5, 19,27,32]。然而，由于固定的网格连接性，这些方法仅限于具有最小或无类内拓扑变化的类别，并且绝对重建的质量也较低（请参见图6中的CMR结果）。0对于许多视觉和图形任务，这些对应关系非常有益：几何/形状理解[3, 39, 70, 84]，3D操作[6, 39,0通常继承类似的结构和语义属性。在这项工作中，我们遵循这种思想，并提出了一种3D重建算法，它可以：(a)仅从未对齐的2D图像集合中学习，而不需要任何3D或多视图监督进行训练和推理；(b)泛化到拓扑多样的类别，如椅子，而基于网格的方法无法实现；(c)通过将物体实例映射到类别均值，可以免费学习不同实例形状之间的密集3D对应关系，从而使模型能够利用跨图像的相似性。这些类内对应关系0使用单视图监督隐式学习不同拓扑变化对象之间的隐式密集对应关系并不直接。这是因为隐式形状建模技术中使用的MLP的固有连续性以及任意两个拓扑不同对象之间的对应场的固有不连续性。对于具有不同拓扑的任意两个实例，对应场必须是不连续的，以便将一个结构映射到另一个结构。请参阅补充材料B部分以了解更多信息。为了克服隐式学习的变形场的这个问题，我们提出了具有拓扑感知的变形场。0然而，仅仅扩展隐式模型和学习0从单视图重建开始，参见图2中的概述。我们在我们的流程中使用可微分渲染器来学习变形和形状重建模块，使用包含单视图RGB观测、相应的GT相机姿态和物体轮廓的图像集合。我们的可微分渲染器（受到SRN[60]的启发）是一种神经渲染的形式[64]，它接收一个3D点的特征作为输入。15380CMR SDF-SRN TARS（我们的方法）输入图像0图3.在CUB-200-2011上的3D重建。与先前的工作相比，我们的重建不仅保真度更高，而且学习到的（彩色编码的）变形场也具有关节感知性（例如：旋转的头部，展开的翅膀）。与CMR不同，我们没有硬编码对称性。0在物体空间中（从输入视点可见）的3D点，并预测其作为从输入视点看到的深度值。因此，在训练过程中，我们通过两种方式学习物体形状：（a）使用物体级特征学习的2.5D深度表示（通过可微分渲染器），（b）使用规范形状特征学习的3DSDF（通过规范形状生成器）。通过强制两种形状表示之间的一致性，我们能够有效地学习对应场。由于这种形状一致性是可微分渲染器的特性，我们在下面的章节中将其称为可微分渲染一致性。0他们是一种直接将物体空间中的一个点映射到相应的SDF值的方法，因此不会输出物体实例之间的密集对应关系。0我们通过在多个数据集上进行实验证实了我们学习到的形状的有效性。0多个数据集：ShapeNet [7]，Pascal3D+[77]，CUB-200-2011[73]和Pix3D椅子[61]。我们的方法TARS在3D重建保真度和生成具有更好全局结构和更精细的实例特定细节的形状方面优于先前的工作。与先前的可变形单视图重建工作[19, 27,32]不同，我们在对拓扑具有挑战性的类别（椅子）建模方面迈出了第一步。学习到的具有拓扑感知的变形场捕捉到了类别的结构特性（无需任何监督），从而实现了无监督的纹理转移（图1）。02. 相关工作0从2D观测中重建3D形状一直是一个活跃研究的问题[9, 30, 43, 45, 53,57]。直到最近，高保真度的重建结果主要归功于某种形式的3D数据的可用性[25, 45]，因此大部分的成功都是基于0从2D观测中重建3D形状一直是一个活跃研究的问题[9, 30,43, 45, 53,57]。直到最近，高保真度的重建结果主要归功于某种形式的3D数据的可用性[25, 45]，因此大部分的成功都是基于0仅限于合成数据集[7]。对于真实世界的3D形状的重建，要么是通过将学习到的合成模型转移到真实世界的物体上[4,16, 75, 76]，要么需要特殊的3D传感器[16, 45,80]。然而，收集稠密的3D数据是麻烦的、具有挑战性的，甚至对于某些类别来说是不可能的（例如：鸟类）。随着逆向图形学和可微分渲染的进步[8, 29, 35, 37, 38,68]，对3D监督的要求已经显著降低。最近，在这个方向上取得了显著的进展，重建质量已经达到了黄金标准，特别是得益于神经隐式表示和可微分渲染的结合[44, 48, 60,78]。然而，这些工作中的大多数仍然需要以成对的多视图图像形式进行密集的监督。这样的设置对于图像互联网可能是不可能的。我们的工作，TARS，通过仅在单视图数据上操作进一步减轻对密集监督的依赖。0具有单视图监督的3D重建：0单视图3D重建任务相对较少探索。Kar等人[28]，Kanazawa等人[27]通过学习大量不成对的图像从而学习3D结构。他们通过学习在（学习的）类别特定平均网格上的变形来重建底层形状。沿着这个方向的进一步研究集中在减少监督[19,32]，增强几何[8,67]和纹理保真度[5]。然而，这些工作仅限于重建具有拓扑相似实例的物体类别（例如：鸟类）。像CMR[27]一样，我们利用图像集合中嵌入的结构知识，通过学习变形来学习类别特定的平均形状，但克服了它们的拓扑限制。最近，Lin等人[33]将神经隐式建模[60]的成功引导到单视图3D重建任务中-ing category-speciﬁc deformable shapes have been found tobe prominently useful for 3D reconstruction [6,17,27,28,39].These approaches generally learn instance shapes as defor-mations to the initial shape bases. Prior works along thisline (reconstruction via deformation) have reconstructed 3Dshapes either in volumetric grid representation [17, 72] ormesh representation [27,28,40]. We learn both the deforma-tion ﬁeld and the 3D shape (signed distance ﬁeld) implicitly.Unlike deformations to mesh, learning deformations to animplicit ﬁeld is much more challenging, because of the lossof explicit structure (mesh connectivity). Recently, [13,83]learned category speciﬁc deformation and signed distanceﬁelds implicitly. However, unlike our approach (TARS), theyrequire dense 3D supervision during training.15390 TARS（我们的）0输入图像输入图像输入图像0图4. Shapenet上的3D重建。与基于网格的SoftRas相比，两种神经隐式方法都具有更高的3D保真度。我们的方法还提供了对应关系（甚至跨拓扑变化的结构），同时匹配SDF-SRN的形状保真度。0在几何保真度方面取得了最先进的结果。我们的工作通过同时学习类别特定的变形和SDF字段进一步提高了保真度标准。神经渲染：最近的研究[36,44,48,49,60,71,78]发现，学习类别特定的可变形形状对于3D重建[6,17,27,28,39]非常有用。这些方法通常将实例形状学习为对初始形状基础的变形。沿着这条线的先前工作（通过变形重建）要么在体积网格表示[17,72]中重建3D形状，要么在网格表示[27,28,40]中重建3D形状。我们隐式地学习变形场和3D形状（有符号距离场）。与对网格的变形不同，学习对隐式场的变形更具挑战性，因为失去了显式结构（网格连接性）。最近，[13,83]隐式地学习了类别特定的变形和有符号距离场。然而，与我们的方法（TARS）不同，它们在训练期间需要密集的3D监督。0用于渲染隐式表面的方法主要利用了某种形式的光线追踪（光线行进、体积或表面渲染）。最近的神经渲染调查[63]将渲染分为：（a）基于图像的渲染方法，通过转换/扭曲输入图像生成2D内容而无需明确建模3D（b）基于显式3D的方法。在我们的工作中，我们将SRN[60]作为我们的神经渲染器。SRN[60]执行基于LSTM的光线行进，隐式生成与输入图像对应的2.5D深度图。因此，SRN位于基于图像和显式渲染方法的交集处。通过使用SRN[60]作为基于图像的渲染器，我们以两种方式学习形状：使用对象空间特征学习的图像到深度图的转换，以及使用规范空间特征学习的图像到SDF的转换。两种形状表示之间的一致性是我们性能的关键贡献者。具有密集对应关系的3D重建：学习-03. 方法0给定一个物体的单个图像，我们的目标是重建-0结构底层的3D形状。与直接重新-0形状，我们通过将其隐式映射到（学习的）类别特定的规范形状来学习重建物体的3D形状。为此，我们利用类别特定的不成对物体图像集合（以及相机姿势和物体轮廓）作为我们的训练语料库。这使我们能够将类别特定的知识纳入我们的形状重建流程中。我们的流程（如图2所示）包括三个核心组件：（a）Deformnet，用于预测具有拓扑感知的变形场，（b）规范形状生成器，用于重建物体的3D形状（作为SDF），以及（c）可微分渲染器模块，用于渲染学习的SDF并在训练阶段指导Deformnet和规范形状生成器的学习。在接下来的章节中，我们首先讨论这些模块，然后将它们组合起来定义我们的推理和训练机制。03.1. 拓扑感知变形场0学习隐式变形场：DeformNet的目标是重建3D形状，即从输入图像中学习物体的3D形状。0DeformNet(g)的目标是从物体空间到规范空间学习密集的3D点变形。更具体地说，给定一幅图像I和物体空间中的一个3D点(x object)，变形估计任务定义如下：0x object + g(x object, I) = x canonical:3D (1)0其中xcanonical:3D是规范空间中对应的点。通过利用符号距离函数（SDF）作为两个空间之间的函数映射[52]，即xobject相对于物体表面的SDF应该与xcanonical:3D相对于规范形状表面的SDF相同，来学习两个点0我们将DeformNet模块实现为一个MLP。为了学习0为了对变形场进行条件化，我们通过超网络将DeformNet模块与输入图像联系起来。首先，将输入图像通过ImageNet预训练的ResNet编码器[23]传递，生成潜在代码。受到[33,58-60]的启发，然后将计算得到的潜在代码用于超网络，以预测DeformNetMLP的权重。我们观察到，使用超网络而不是直接学习MLP的权重可以得到更平滑的形状。15400输入图像CMR SDF-SRN TARS（我们的方法）输入图像CMR SDF-SRN TARS（我们的方法）0图5. 在Pascal3D+平面上的3D重建。与之前的工作相比，我们的方法即使在具有挑战性的真实观测情况下也表现良好，生成的3D形状噪声较小，更好地代表了地面真实形状的整体结构。0用于学习拓扑感知变形场的点特征：与之前的工作[5, 19, 27,32]不同，我们的目标是学习0即使对于具有大量类内拓扑变化的物体类别（例如：参见图1、图6和图7中的椅子），我们也能重建3D形状。为了实现这一点，我们需要确保我们的变形场能够将任何具有任意拓扑的输入物体映射到具有固定拓扑的规范形状。然而，使用MLP学习这样的变形场是一项具有挑战性的任务。这是因为MLP的连续性质。虽然MLP的连续性质有助于隐式学习3D形状，但这种性质却对跨物体变形的学习造成了困扰。这是因为不同拓扑的物体之间的变形场可能是不连续的（见补充图9）。为了克服这个问题并有效地学习变形和形状场，我们从水平集方法（LSM）理论中汲取灵感。LSM[50]通过将任何表面建模为更高维函数的零水平交叉来允许结构的拓扑合并和断裂。我们从这些工作[14, 24, 50,51]中汲取灵感，并学习一个更高维的变形场（在我们的实现中为7D），而不是之前学习的3D变形场。同时，Park等人[55]提出了类似的见解，用于学习同一物体实例的多视图之间的变形。为了学习更高维的变形场，我们还使用DeformNet的中间级特征学习物体空间点特征h（xobject），同时学习上述定义的3D变形场（方程1）。因此，我们将物体空间中的一个点（x object ∈R3）变形为更高维的规范点（x canonical:HD ∈R3+k）（k等于学习的点特征的维度），其中xcanonical:HD简单地是3D规范点（xcanonical:3D）和学习的点特征h（xobject）的串联。我们注意到，学习这些点特征可以得到更清晰的细节重建和更好地保持GT形状的拓扑（参见图8）。0我们还预测输入图像的视角无关的RGB值。0使用DeformNet的中间级特征来生成3D点。03.2. 规范形状重建0现在我们已经在物体空间中变形了3D点0将3D点对应到规范空间中的相应点后，我们的下一个任务是学习以SDF场形式表示的3D形状。为了估计3D物体点（x物体）的SDF值，我们通过相应的高维规范0通过规范形状生成器模块（f）来生成规范空间中的点（x规范:HD）。我们使用超网络学习形状生成器的权重。超网络以规范形状潜变量（L）为条件，该变量在训练期间一起学习。规范重建任务定义如下：0f(x规范:HD, L) = s0其中s是x规范:3D相对于规范形状表面的有符号距离值（也等于x物体相对于输入物体表面的有符号距离值，这是由于所建立的功能映射的性质）。03.3. 可微分渲染器一致性0在本节中，我们定义了可微分渲染器和0我们提出的可微分渲染器一致性项用于训练流程中（图2）。可微分渲染器用于在训练期间生成学习到的3D形状的2D渲染图像，然后将其与输入物体的GT2D观测（RGB图和轮廓）进行比较。我们使用SRN[60]作为基于LSTM的可微分渲染器，这与[33]的方法类似。渲染器通过执行光线行进过程工作，其中每个行进步骤都是根据当前相机光线方向沿着当前3D点的深度估计学习得到的。更多细节请参考SRN论文[60]。0关于变形驱动的逆向图形学的先前工作0[19, 27, 54,66]渲染了学习到的3D形状（无论是网格、密度场还是有符号距离场）以计算训练的损失项。与它们不同的是，我们不是渲染由规范形状生成器学习到的有符号距离场（如[36,71]所做），而是使用SRN作为基于图像的神经渲染器。它以DeformNet模块的中间级物体特征作为输入，并预测输入物体的2.5D深度图（从输入视点查看）。这使我们能够在训练流程中强制两种形状表示之间的一致性：（a）通过物体空间点特征学习到的2.5D深度图，（b）通过规范空间点特征学习到的3D有符号距离值。我们要求最后两个3D点（对于击中物体的光线）的有符号距离值分别为负值和正值。这个一致性项是从SDF-SRN[33]中采用的。然而，他们在同一物体空间中建立了这种形状表示之间的一致性。与他们不同的是，我们的目的是利用这种一致性来实现变形场的高效学习。image-based implicit shape modeling and novel-view syn-thesis works [33,44,60]. We begin with shooting variablenumber of camera rays from the input camera viewpoint. Weiteratively march along each camera ray and for each 3Dpoint (xiobject) along the ray, we predict: (a) correspondingcanonical point (xicanonical:HD) using the DeformNet, (b) cor-responding SDF value of the canonical point using the shapegenerator and, (c) the ray marching step (di) using the LSTMrenderer. The next 3D point along the ray is then estimatedas: xi+1object = xiobject+di�!r (�!r is the unit ray direction). Theabove procedure is repeated n times (i 2 n) along all rays(where n = # of ray marching steps). Our training objectiveis similar to SDF-SRN’s [33] and is deﬁned as:`total = `rgb + `sdf + `regRGB loss term (`rgb) is simply the mean-squared errorbetween a 3D point’s predicted RGB value and the GT pixelintensity of the corresponding rendered pixel.SDF loss term (`sdf) enforces the proposed differentiablerenderer consistency.For camera rays intersecting the3D object (guided by the GT object silhouette), SDF lossterm enforces all points other than the last ray point tohave SDF > 0 (outside the object surface) and the lastray point to have SDF < 0 (inside the surface).SDFvalue is penalized to be greater than 0, for all points onnon-intersecting rays. Following SDF-SRN [33], we alsoutilize the distance transform of the input object mask topenalize the lower-bound of the SDF values of points lyingoutside the surface. Please check SDF-SRN [33] for moredetails on the distance-transform loss term.Regularization terms (`reg): We utilize two regulariza-tion terms: Eikonal loss (`eik) and Deformation smooth-ness (`def).We apply eikonal loss on canonical points(xcanonical:3D) and def. smoothness on object-space points.`eik =Xx2⌦||rf(x + g(x, I)) � 1||22`def =Xx2⌦||rgx(x) + rgy(x) + rgz(x)||22For both the regularization terms, we sample from the unitcube (⌦) bounding a normalized 3D object.4. Experiments DetailsDatasetsWe train and evaluate our proposed approachas well as the baselines on following datasets: Shapenet[7], Pascal3D+ [77], CUB-200-2011 [73] and Pix3D chairs[61]. Each training example consists of cropped RGB image(centered around the object), corresponding segmentationmap and camera pose. At inference time, we only need theobject image as input. Please check supp. for more details.BaselinesWe compare against the state-of-the-art meth-ods on the task of 3D reconstruction: (a) SoftRas [35]:15410输入图像 CMR SDF-SRN TARS (我们的方法)0图6.在Pascal3D+（默认）椅子上的3D重建。与隐式方法相比，CMR无法完全建模具有不同拓扑结构的椅子类别。（颜色表示映射到规范空间）03.4. 推断和训练方法0推断：为了重建潜在的3D形状0在输入图像中，我们首先在单位立方体内密集采样点，并使用具有拓扑感知变形场的方法将它们从物体空间映射到规范空间。然后，利用规范形状生成器估计变形后物体点的SDF值。最后，我们利用Marching Cubes[41]从学习到的SDF场生成3D网格。0训练：我们的训练过程与最近的方法类似Input ImageSDF-SRNTARS (ours)Figure 7. 3D Reconstruction on Pix3D (trained on Shapenet).rasterization-based differentiable mesh renderer. (b) SDF-SRN [33]: neural implicit modeling approach for single-viewreconstruction. It is closest to ours but does not learn any cor-respondences across instances. (c) CMR [27]: deformation-driven mesh reconstruction approach which uses NMR [29]as the differentiable renderer and also learns dense correspon-dences. We achieve state-of-the-art quantitative results (orare at par) for most categories on all datasets while jointlylearning dense correspondences. The qualitative compar-isons with baselines highlight the efﬁciency of our approach.Table 1. 3D reconstruction results on ShapeNet. Compared to meshbased SoftRas algorithm, both the implicit approaches: SDF-SRNand our approach perform signiﬁcantly better on all metrics.15420评估指标：正确且高效地评估重建质量一直是一个问题0重建质量一直是一个有争议的问题[2，34，46，62]。在这项工作中，我们通过使用（a）Chamfer距离（b）EarthMover'sDistance（EMD）和（c）0.1阈值下的精确度、召回率和F分数来将重建形状与GT进行比较，评估重建质量。05. 实验结果05.1. 定性和定量比较0在CUBS-200-2011上的3D重建：我们在图3中比较了CMR [27]和SDF-SRN [33]的表现。作为一种基于网格的重建算法，SoftRas[35]能够重建汽车和飞机，但在椅子类别上失败，原因是类别内具有较大的拓扑变化。它无法0在CUBS数据集上与CMR [27]和SDF-SRN[33]进行比较，如图3所示。SDF-SRN根据输入图像独立重建每个3D对象，而CMR通过变形类别特定的平均网格来重建每个实例形状。另一方面，TARS通过将物体空间点变形到规范空间来隐式地重建3D实例。与这两种基于变形的重建方法相比，SDF-SRN生成的形状更加嘈杂（见第2行中鸟的嘈杂翅膀，图3）。由于我们方法的隐式特性，重建的形状更好地保持了GT对象的关节结构（见图1中旋转的头部，图3中展开的翅膀）。Shapenet上的3D重建：图4和表10类别方法 Chamfer距离 EMD Precision Recall F分数0类别方法 Chamfer距离 EMD Precision Recall F分数0SDF-SRN [33] 0.141 0.144 0.142 0.452 99.76 99.84 99.80 汽车0SoftRas [35] 0.372 0.302 0.337 0.723 93.04 96.62 94.800SoftRas [35] 0.572 0.475 0.523 1.017 82.56 89.18 85.740TARS (我们的方法) 0.141 0.140 0.140 0.446 99.70 99.81 99.750TARS (我们的方法) 0.353 0.312 0.332 0.817 93.43 95.39 94.400SDF-SRN [33] 0.352 0.315 0.333 0.854 94.18 95.21 94.69 椅子0SDF-SRN [33] 0.193 0.154 0.173 0.576 98.55 99.11 98.83 飞机0SoftRas [35] 0.215 0.207 0.211 0.588 98.74 98.42 98.580TARS (我们的方法) 0.194 0.152 0.173 0.533 98.79 99.34 99.060作为一种神经隐式重建方法，SDF-SRN[33]捕捉到了全局结构和细节。TARS与SDF-SRN的重建形状保持了相同的形状准确性，无论是定量还是定性方面（见图4中的飞机尾巴，旋转椅的扶手）。同时，TARS还免费学习了跨实例的结构对应关系。得益于提出的高维变形场，我们的重建结果能够保持GT形状的拓扑结构（图4中沙发的扶手都有洞）。0Pascal3D+上的3D重建：默认的Pascal3D+数据集0该数据集通过将PASCAL VOC [18]和Imagenet[12]的图像与最接近的CAD模型相关联，提供了2D-3D配对数据。由于训练集和测试集对象都使用相同的CAD模型，通过渲染3DCAD模型生成对象轮廓（在训练和推理过程中都使用）会在训练集和测试集之间产生偏差。因此，先前重建方法[11，33]在Pascal3D+数据集上的泛化结果应该持保留态度。与先前的工作[33]不同，我们在默认的有偏Pascal3D+数据集和同一数据集的无偏版本上展示了定性比较。在默认数据集和无偏数据集的飞机、汽车和椅子三

下载后可阅读完整内容，剩余1页未读，立即下载