从图像集合中学习分类特定网格

174 浏览量更新于2023-10-13 收藏 1.87MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

形状F相机纹理从图像集合中学习分类特定网格Angjoo Kanazawa*，Shubham Tulsiani*，Alexei A.伊滕德拉？马利克？加州大学伯克利{kanazawa，shubhtuls，efros，malik}@ eecs.berkeley.edu抽象。我们提出了一个学习框架，用于从单个图像中恢复对象的3D形状、相机和纹理。形状表示为对象类别的可变形3D网格模型，其中形状由学习的平均形状和每个实例预测的变形来参数化。我们的方法允许利用带注释的图像集合进行训练，其中可变形模型和3D预测机制在不依赖于地面实况3D或多视图监督的情况下被学习。我们的表示使我们能够超越现有的3D预测方法，将纹理推断，作为预测的图像在一个规范的外观空间。此外，我们表明，语义关键点可以很容易地与预测的形状。我们提出了定性和定量的结果，我们的方法对CUB和PAS-CAL 3D数据集，并表明，我们可以学习预测不同的形状和纹理的对象，只使用注释的图像集合。该项目的网址是https://akanazawa.github.io/cmr/。图1：给定对象类别的注释图像集合，我们学习预测器f，该预测器可以将新图像I映射到其3D形状，相机姿势和纹理。1介绍考虑图1中的鸟的图像。尽管这张印在纸上的平面二维照片可能是我们第一次看到这种特殊的鸟，但我们可以*前两位作者在这项工作上同样拖延2A. Kanazawa*，S.Tulsiani*，A.A. Efros，J.马利克推断其粗略的3D形状，了解相机姿势，甚至猜测它从另一个视图看起来像什么。我们之所以能做到这一点，是因为之前看到的所有鸟类都使我们能够建立一个关于鸟类的心理模型，而这些知识有助于我们恢复这个新实例的3D结构。在这项工作中，我们提出了一个计算模型，可以类似地学习推断一个3D表示给定的一个单一的图像。如图1所示，学习仅依赖于给定对象类别的注释的2D图像集合，包括前景掩模和语义关键点标签。我们的训练过程，如图2所示，迫使一个通用的预测模型来解释对象类别的许多示例这允许我们学习有意义的3D结构，尽管每个训练实例仅使用单个视图，而不依赖于任何地面实况3D数据进行学习。在推理时，给定一个新实例的单个未注释图像，我们学习的模型允许我们推断底层对象的形状、相机姿势和纹理。我们将形状表示为规范帧中的3D网格，其中预测的相机将网格从该规范空间变换到图像坐标。每个实例的特定形状通过用实例特定的预测变形使学习到的类别特定的平均形状变形来实例化。该共享3D空间的使用提供了许多优点，因为它隐含地强制执行跨不同实例的3D表示的对应性。正如我们在第2节中详细介绍的那样，这使我们能够将推断不同对象的网格纹理的任务制定为预测常见纹理表示中的像素值的任务。此外，我们还可以轻松地将语义关键点与预测的3D形状相关联。我们的形状表示是可变形模型的实例化，其历史可以追溯到 D'ArcyThompson [ 29 ]，而D'Arcy Thompson又受到了Dürer [ 6 ]的启发。Thompson观察到相同类别的对象的形状可以通过几何变换来对齐。Cootes和Taylor [5]将这一想法操作化，以学习2D图像的类特定变形模型Blanz和Vetter [2]的开创性这些技术已被应用于人体模型[1，19]，手[27，17]，最近在四足动物[40]。不幸的是，所有这些方法都需要大量的3D数据来学习模型，这阻止了它们应用于这样的数据收集不切实际的相比之下，我们的方法是能够学习只使用一个注释的图像集合。分享我们的动机放松的3D数据学习变形模型的要求，一些相关的方法已经研究了使用类似的注释图像集合。Cashman和Fitzgiant [3]使用关键点对应和分割掩码从图像中学习海豚的变形模型 Kar等人 [15]将此方法扩展到一般刚性对象类别。这两种方法都遵循基于拟合的推断过程，其依赖于测试时的掩模（以及可选地关键点）注释并且在计算上是低效的。相反，我们遵循基于预测的推理方法，并学习参数化的预测器，它可以直接从未注释的图像中推断出3D结构。此外，与这些方法不同的是，我们还解决了纹理预测的任务，这不能很容易地与这些方法相结合。类别特定网格重建3虽然可变形模型一直是3D推理的常见表示，但最近基于深度学习的预测方法的出现导致了使用不同形式的监督来探索过多的替代表示依靠地面实况3D监督（使用合成数据），一些方法已经研究了学习体素[4，8，39，33]，点云[7]或八叉树[10，26]预测。虽然一些基于学习的方法确实追求网格预测[14，35，18，24]，但它们也依赖于仅适用于受限类别或合成设置的3D监督。已经针对体素预测探索了减少对多视图掩模[34，21，30，9]或深度图像[30]的监督，但是每个实例的多个视图的要求仍然是限制性的。虽然这些方法显示出有希望的结果，但与我们的方法相比，它们依赖于在这些先前方法的背景下，所提出的方法主要在三个方面不同– 形状表示与推理方法。我们结合了classi- cally使用的可变形网格表示与基于学习的预测机制的好处。基于可变形网格的表示的使用提供了几个优点，例如存储器效率、表面级推理和对应关系关联。使用学习的预测模型可以从单个未注释的图像进行有效的推断– 从图像集合中学习与需要地面实况3D或多视图监督的最近的基于CNN的3D预测方法不同，我们仅依赖于带注释的图像集合（每个训练实例仅具有一个可用视图）来学习我们的预测模型。– 能够推断纹理。过去很少有从单个图像预测物体的3D形状和纹理的工作。最近的基于预测的学习方法使用不服从纹理（例如，体素）的表示。经典的可变形模型拟合为基础的方法不能很容易地将纹理的通用对象。一个例外是对人脸的纹理推断[2，22，23，28]，但这些方法需要大量具有高质量纹理图的3D地面真实数据。我们的方法使我们能够追求的任务，从图像集合的纹理推断，我们解决了相关的技术挑战，其纳入一个学习框架。2方法我们的目标是学习预测器fθ（参数化为CNN），其可以从单个图像I推断底层对象实例的3D结构。预测fθ（I）由标准帧中的对象的3D形状、相关联的纹理以及相机姿态组成我们在这项工作中追求的形状表示是一个三维网格的形式这种表示提供了几个优势，如概率体积网格的替代品，如顺从纹理，对应推理，表面水平的推理和可解释性。拟议框架的概述如图2所示。输入图像通过编码器传递到由三个模块4A. Kanazawa*，S.Tulsiani*，A.A. Efros，J.马利克图2：拟议框架的概述。图像I通过卷积编码器传递到潜在表示，该潜在表示由估计相机姿态、变形和纹理参数的模块共享。变形是对学习的平均形状的偏移，其在添加时在规范坐标系中产生实例特定形状。我们还学习网格顶点和语义关键点之间的对应关系。纹理被参数化为UV图像，我们通过纹理流来预测（见2.3节）。目标是最小化渲染掩模、关键点和纹理渲染与相应的地面实况注释之间的距离。我们不需要地面实况3D形状或多视图提示进行训练。其估计相机姿态、形状变形和纹理参数。变形被添加到学习的类别级平均形状以获得最终预测形状。该网络的目标是最小化当形状被渲染到图像上我们为每个对象类别训练一个单独的模型我们首先在第2.1节中介绍了我们的模型预测的表示，然后在第2.2节中描述了学习过程。我们首先介绍了我们的框架，预测形状和相机姿态，然后在第2.3节中描述如何扩展模型来预测相关的纹理。2.1推断的3D表示给定实例的图像I，我们预测fθ（I）≡（M，π）、网格M和相机姿态π以捕获底层对象的3D结构除此之外，这些迪-在直接预测的方面，我们还学习网格顶点和类别级语义关键点之间的关联。我们在下面描述推断的表示的细节形状参数化我们将形状表示为由顶点V ∈ R定义的3D网格M≡（V，F）|V|×3和面F。我们假设固定且预定的网格连通性，并且使用对应于球形网格的面F顶点位置V使用（学习的）实例独立的平均顶点X位置V’和V’来实例化。与实例相关的预测变形Δ V，当将其相加时，产生实例ver-t e x位置V=V¯+ΔV。直观地，平均形状V’可以被认为是预测形状V的学习偏置项。口损失：预测，GT平均形状预测形状3D关键点一关键点：ππ质地：纹理流∆V编码器纹理变形相机类别特定网格重建5i=1摄影机投影。我们用弱透视投影对摄像机进行建模，并从输入图像I中预测尺度s∈R，平移t∈R2和旋转（由四元数q∈R4捕获）。我们使用π（P）来表示一组3D点P通过由π（s，t，q）定义的弱透视投影到图像坐标上的投影。关联语义对应。当我们使用规范框架中的类别特定网格来表示形状时，跨实例的规则性鼓励跨实例的语义一致的顶点位置，从而隐含地赋予这些顶点语义。我们可以利用这种洞察力，学会明确地联想语义关键点G. 、bΣeak、l e gs等。通过一个k点分配可以与网格矩阵A∈R+|K| ×|V|S.T.Ak，v= 1。这里，每行Ak表示一个概率v在对应于关键点k的网格顶点上的分布，并且可以低于代表近似每个关键点的顶点选择的独热向量。如我们稍后在我们的学习公式中所描述的，我们鼓励每个Ak成为峰值分布。考虑到顶点x位置V，我们可以推断出第k个顶点的位置vk如vk=vAk，v v.更简洁地，由顶点V引起的关键点位置可以可以用A·V表示。我们均匀地初始化k个点分配矩阵A，但在训练过程中，它学会更好地将语义关键点与适当的网格顶点。总之，给定实例的图像I，我们预测对应的相机π和形状变形ΔV为（π，ΔV）=f（I）。此外，我们还学习（跨数据集）与实例无关的参数{V¯，A}。如上所述，这些类别级（学习的）参数结合实例特定的预测允许我们恢复网格顶点位置V和语义关键点的坐标A·V。2.2从图像集合中学习我们提出了一种训练fθ的方法，而不依赖于以对象实例的地面真实3D形状或多视图图像的形式进行强监督。相反，我们从用稀疏关键点和分割掩码注释的图像集合中引导学习这样的设置更自然并且容易获得，特别是对于有生命的和可变形的对象，诸如鸟或动物。获得这些类别的相同实例的扫描或甚至多个视图是极其困难的，但是相对更容易获得多个实例的单个图像。给定带注释的图像集合，我们通过制定由实例特定损失和先验组成的目标函数来训练fθ实例特定的能量项确保预测的3D结构与可用证据（掩模和关键点）一致，并且先验鼓励通用的期望属性，例如，光滑。当我们在许多实例中学习一个公共预测模型fθ时，跨类别的公共结构允许我们学习有意义的3D预测，尽管每个实例只有一个视图。培训数据。我们假设注释训练集{（Ii，Si，xi）}N为每个对象其中I i是图像，Si是实例分割，并且xi∈ R2×K是K个关键点位置的集合。如前所述[31，15]，应用结构-从运动到注释的关键点位置另外允许我们获得粗略的6A. Kanazawa*，S.Tulsiani*，A.A. Efros，J.马利克i=1-针对每个训练实例的弱透视Iv相机的估计这导致增广训练集{（Ii，Si，xi，π~i）}N，我们使用它来训练我们的预测器fθ。实例特定的损失。我们确保预测的3D结构与可用的注释匹配。使用经由关键点分配矩阵A与网格相关联的语义对应，我们用公式表示关键点重投影损失。该术语鼓励预测的3D关键点在投影到图像上时匹配注释的2D关键点Lrep= Σ||二、||2.（一）我类似地，当在图像坐标系中渲染dΣ时，我们强制预测的3D网格nates，与e接地掩码的注释一致：||Si−R（Vi，F，π~i）||二、这里，R（V，F，π）表示对应于以下的分割掩模图像的渲染：当通过相机π渲染时，3D网格M=（V，F）。在我们所有的实验中，我们使用NeuralMeshRenderer[16]来提供R（·）的不同实现。我们还训练预测的相机姿态以匹配获得的相应估计。通过使用回归损失Lcam=i的运动恢复结构得到||π~i−πi||二、We发现使用运动恢复结构相机π~i而不是预测相机πi来定义L掩模和L再现损耗是有利的这是因为在训练期间，特别是在预测通常不正确的初始阶段，尽管形状准确，但预测的相机中的误差可能导致高误差，并且可能不利地影响学习。前科除了确保预测与证据相匹配的数据相关损失之外，我们还利用通用先验来鼓励其他属性。我们使用的优先术语是：平滑度。在自然界中，形状往往具有光滑的表面，我们希望恢复的3D形状具有类似的行为使用网格表示的一个优点是它自然地特别地，计算机图形学社区已经广泛地研究了强制平滑表面[20，25]。根据文献，我们制定表面光滑的平均曲率的最小化。在网格上，这由图拉普拉斯算子的范数捕获并且可以简明地写为Lsmooth=||LV||其中L是离散Laplace- Beltrami算子。我们使用网格的连通性构造L一次，这可以可以表示为顶点位置上的简单线性算子。详见附录。变形正则化与可变形模型方法[2，3，15]中的常见实践保持一致，我们发现将变形正则化是有益的，因为它不鼓励任意大的变形并帮助学习有意义的平均形状。对应的能量项表示为||∆V||二、Keypoint关联。如第2.1节所述，我们鼓励关键点分配-因此，矩阵A应该是峰值分布，因为它应该直观地对应于一阶分布。hotvΣectoΣr.因此，我们最小化所有k个点上的平均输入：1|K|kv −Ak，v log Ak，v.类别特定网格重建7∆V1=∆V2Vφ，θI紫外总之，形状和相机的总体目标是L= L_rep_j+ L_mask + L_cam + L_smooth + L_def + L_vert2kp。（二）对称约束。几乎所有常见的对象范畴，包括我们所考虑的对象范畴，都表现出反射对称性。为了利用这种结构，我们将预测的由于我们的网格拓扑结构对应于球体的拓扑结构，我们确定了初始拓扑结构中的对称顶点对。给定这些对，我们仅学习/预测平均形状V ¯和变形Δ V的每对中的一个顶点的参数。详见附录。初始化和实施详细信息。虽然我们的网格拓扑对应于球体，但是遵循先前的基于拟合的可变形模型方法[15]，我们观察到平均顶点X位置V’的更好初始化加速了学习。我们计算在从运动恢复结构期间获得的平均关键点位置的凸包，并将平均顶点位置初始化为位于该凸包上作为Eq中的不同能量项。2具有自然不同的大小，我们相应地对它们进行加权以归一化它们的贡献。2.3快速纹理预测在我们的公式中，所有恢复的形状共享共同的底层3D网格结构-每个形状是平均形状的变形。我们可以利用该属性来减少特定实例的纹理以预测平均形状的纹理。我们的平均形状与球体同构，其纹理可以表示为图像Iuv，其值通过固定的UV映射映射到表面上（类似于将地球展开为平面地图）[13]。因此，我们将纹理预测的任务制定为推断Iuv的像素值的任务。该图像可以被认为是对象类别的规范外观空间。例如，预测形状上的特定三角形总是映射到Iuv中的特定区域，而不管它是如何被分解的。图3：UV映射的图示。我们说明了如何纹理图像Iuv可以诱导预测网格上的相应纹理。球面上的点可以经由使用球面坐标映射到图像Iuv由于我们的平均形状具有与球体相同的网格几何形状（顶点连通性），因此我们可以将此映射转移到平均形状上。不同的预测形状又简单地是平均形状的变形，并且可以使用相同的映射。形成了这在图3中示出。在该纹理参数化中，UV图像中的每个像素具有一致的语义含义，从而使得预测模型更容易利用常见模式，诸如鸟背与身体颜色之间的相关性。8A. Kanazawa*，S.Tulsiani*，A.A. Efros，J.马利克我纹理流UV图像图4：纹理流的图示。我们预测用于对输入图像I进行双线性采样以生成纹理图像Iuv的纹理流F。我们可以使用这个预测的UV图像Iuv，然后通过图3所示的UV映射过程对实例网格进行纹理化。我们通过设置将潜在表示上卷积到Iuv的空间维度的解码器来将纹理预测模块并入到我们的框架中。虽然直接回归Iuv的像素值是一种可行的方法，但这通常会导致图像模糊。相反，我们从[38]中获得灵感，并将此任务制定为预测外观流的任务。代替回归Iuv的像素值，纹理模块输出从原始输入图像复制像素的颜色的位置这种预测机制，如图4所示，很容易让我们预测的纹理保留输入图像中的细节我们把这个输出称为F∈ RHuv ×Wuv ×2，其中H uv、W uv是I uv的高度和宽度，并且F（u，v）指示要从中采样像素值的输入图像的（x，y）坐标。这允许我们通过根据预测流F对原始输入图像I进行双线性采样G来生成UV图像Iuv= G（I; F）。这在图4中示出。现在，我们制定我们的纹理损失，这鼓励渲染的纹理图像匹配前景图像：ΣL纹理=dist（Si⊙Ii，Si⊙R（Vi，F，π~i，Iuv））。（三）我R（Vi，F，π~i，Iuv）是具有由Iuv定义的xture 的3D 网格的渲染。我们使用Zhang等人的感知度量。[37]作为距离度量。上述损失函数向对应于图像的前景部分的Iuv的区域提供监控信号，但不向对应于图像中不直接可见的部分的Iuv的其它区域提供监控信号虽然跨数据集的常见模式，例如虽然鸟体和背部的相似颜色仍然可以允许有意义的预测，但是我们发现添加进一步的损失是有帮助的，该损失鼓励纹理流仅从图像中的前景区域选择像素。这可以简单地用sam来表示根据F对前景掩模D_S的距离变换场进行求和（其中对于前景中的所有点x，D_S（x）= 0），并对所得图像求和Σ ΣLdt=我u，vG（DSi; Fi）（u，v）.（四）与推断完整纹理图相反，直接对预测网格投影到其上的实际像素值进行采样会在边界处产生孔和背景纹理的泄漏。与形状参数化类似，我们还在Iuv预测中显式编码对称性，其中对称面被映射到Iuv中的相同UV坐标上。此外，我们只将梯度从L纹理反向传播到类别特定网格重建9这是因为双线性采样通常导致使形状学习不稳定的高频梯度我们的形状预测在此之前仅使用等式中的目标来学习。2，并且损失L_texture和L_dt可以被视为对学习形状的“顶部”上的正确纹理的鼓励预测3实验我们证明了我们所提出的方法学习单视图推理的形状，纹理和相机姿态只使用一个类别级别的注释图像集合的能力作为运行的示例，我们考虑我们首先在第3.1节中介绍了我们的实验设置，描述了所使用的注释图像集合和CNN架构。由于地面实况3D不可用于基准测试，我们在第3.2节中展示了大量的定性结果，表明我们学会了预测鸟类的有意义的形状和纹理我们还表明，我们捕获的类别的形状变形空间，并在可变形模型中的隐式对应关系，使我们能够有跨实例的纹理传输等应用程序。我们还提出了一些定量结果，为我们的形状和相机估计的准确性提供证据，在第3.3节。虽然对于重构像鸟这样的类别几乎没有工作，但是一些方法已经检查了使用针对一些刚性类别的注释图像集合来学习形状预测的任务在第3.4节中，我们展示了我们的方法在一些其他代表性类别上的结果，并表明我们的方法即使不比之前提出的替代方法更好，也具有相当的性能，同时具有几个额外的优点，例如：学习语义关键点和纹理预测。3.1实验装置数据集。我们使用CUB-200-2011数据集[32]，其中包含200种鸟类的6000个训练和测试图像。每个图像都用边界框、可见性指示符和14个语义关键点的位置以及地面实况前景遮罩进行注释。我们过滤掉了近300张可见关键点数量小于或等于6的图像，因为这些图像通常对应于截断的近距离镜头。我们将测试集分成两半以创建验证集，我们将其用于超参数调优。网络架构。我们的预测网络的各个模块的示意图如图2所示。编码器由ImageNet预训练的ResNet- 18 [12]组成，然后是卷积层，将空间和通道维度下采样一半。这被向量化以形成4096-D向量，该向量被发送到两个完全连接的层以获得大小为200的共享潜在空间。变形和相机预测分量是该潜在空间之上的线性层。纹理流组件由5个上卷积层组成，其中最终输出通过tanh函数传递，以将流保持在归一化的[-1，1]空间中。我们使用神经网格渲染器[16]，因此所有渲染过程都是可区分的。所有图像10A. Kanazawa*，S.Tulsiani*，A.A. Efros，J.马利克图5：样品结果。我们从测试集的图像上显示我们的方法的预测。对于左边的每个输入图像，我们可视化（按顺序）：预测的3D形状和从预测的相机观察的纹理，以及从三个新视点观察的纹理形状。有关其他随机选择的结果和视频，请参见附录，网址为https://akanazawa.github.io/cmr/。类别特定网格重建11使用实例边界框进行裁剪并调整大小，使得最大图像尺寸为256。我们通过抖动边界框的缩放和平移以及图像镜像来动态地增强训练数据。我们的网格几何形状对应于一个完美的对称球642顶点和1280面。3.2定性结果我们使用CUB数据集可视化我们学习的预测器的结果和应用我们展示了对应于不同输入图像的各种重建，可视化学习到的一些变形模式，并表明常见的可变形模型参数化允许我们将一个实例的纹理转移到另一个实例上。单视图三维重建。我们在图5中示出了来自CUB测试集的图像上的样本重建结果。我们显示预测的形状和纹理从推断的相机的观点，以及从新颖的意见。请参阅附录中的其他随机选择的样本和视频，显示360视图的结果。我们观察到，我们学习的模型可以准确地预测形状，估计相机，并从相应的输入图像中推断出有意义的纹理。我们预测的3D形状捕获整体形状（胖或瘦的鸟），甚至一些更精细的细节，例如。喙或大变形，例如飞鸟此外，我们学习的姿势和纹理预测在不同的实例中是准确和真实的。我们观察到，错误模式对应于不预测罕见的姿势，并且无法纳入不对称的关节。然而，我们认为，这些预测学习只使用一个注释的图像集是令人鼓舞的。学习形状空间。所提出的方法通过类别级学习的平均形状和每个实例预测的变形ΔV来表示实例的形状。为了深入了解通过我们的预测器捕获的常见变形模式，通过对训练集中所有实例的预测变形计算PCA来获得主要变形模式。我们在图6中可视化了在对应于三种常见变形模式的方向上变形的平均我们注意到，这些可能对应于鸟的3D结构变化的一些自然因素，例如胖或瘦的鸟、翅膀的张开、尾巴和腿的变形。图6：学习的变形模式。我们通过描述平均形状（中心）和通过PCA对数据集上的预测变形获得的三种常见变形模式来可视化学习形状的空间。纹理转移。回想一下，在我们的公式中，不同实例的纹理是以预测的“纹理图像”的形式在规范的外观空间中捕获的12A. Kanazawa*，S.Tulsiani*，A.A. Efros，J.马利克图7：纹理转移结果。我们的表示允许我们使用规范外观图像轻松地跨实例传输预测的纹理（详细信息请参见文本）。我们可视化的样本结果的纹理转移在不同的鸟对对于每一对，我们示出（左）：输入图像，（中）：来自预测视点的预测纹理网格，以及（右）：使用另一只鸟的预测纹理纹理的预测网格。我紫外线。这种参数化使我们能够轻松地修改表面外观，特别是在实例之间传输纹理。我们在图7中显示了一些结果，其中我们对实例对进行采样，并将纹理从一个图像转移到另一个图像的预测形状上。我们可以通过在为另一个渲染预测3D时简单地使用对应于第一个的预测纹理图像来实现这一点。我们注意到，即使两个视图可能不同，由于底层的3.3定量评价我们试图间接测量我们的CUB数据集上的恢复重建的质量。由于没有可用于基准测试的地面实况3D，我们反而评估掩模重投影精度。对于CUB数据集中的每个测试实例，我们通过从预测的相机视点渲染预测的3D形状来获得掩模预测。然后，我们计算该预测掩码与注释的地面实况掩码的交集（IoU）请注意，要正确预测前地掩模，我们需要两者，准确的形状和准确的相机。类别特定网格重建13我们的结果绘制在图8中。我们比较了我们的完整形状预测（使用学习的平均形状V′和预测的变形ΔV）与仅使用学习的平均形状的准确性，以获得预测的掩模。我们观察到预测的变形导致改进，表明我们能够捕获不同实例的形状的细节。此外，我们还报告了使用经由运动结构（其使用地面实况注释的关键点）而不是使用预测的相机获得的相机我们注意到，在两个设置中的可比结果证明了我们学习的相机估计的准确性最后，我们还可以使用正确关键点百分比（PCK）度量来测量我们的关键点重投影准确度[36]。我们类似地观察到，我们的完全预测形状比仅依赖于类别级平均形状执行（稍微）更好-通过获得0.81的PCK（在归一化距离阈值0.1处）与0.80相比。在该场景中，相对于平均形状的改进不太突出，因为所定义的大多数语义关键点在躯干上，因此通常仅经历小的变形。图8：CUB上的掩模重投影精度评估。我们绘制了预测和地面实况掩码之间具有高于不同阈值（越高越好）的IoU的测试实例的分数，并使用完整模型与仅使用学习的平均形状来比较预测。我们报告的reprojection精度使用预测的相机和相机获得的结构从运动的基础上的关键点注释。方法飞机车CSDM [15]0.400.60刚果民主共和国[30]0.420.67我们0.460.64表1：使用PASCAL 3D+的重建评价。我们在PASCAL3D+ 上报告了平均交集（IoU），以基准获得的3D重建（越高越好）。我们比较了先前的基于可变形模型拟合的[15]和使用类似图像收集监督的体积预测[30]方法请注意，我们的方法还可以预测纹理和语义。3.4对其他对象类的评价虽然我们的主要结果集中在使用CUB数据集预测鸟类的3D形状和纹理，但我们注意到，以前的一些方法已经研究了使用类似的注释图像集合作为监督的形状推断/预测任务。虽然这些以前的方法不推断纹理，但我们可以将我们的形状预测与通过这些技术获得的预测进行比较。我们使用PASCAL 3D+数据集比较了以前基于可变形模型拟合的[15]和体积预测[3014A. Kanazawa*，S.Tulsiani*，A.A. Efros，J.马利克图9：Pascal 3D+结果。我们从测试集的图像上显示我们的方法的预测。对于左边的每个输入图像，我们可视化（按顺序）：从预测相机观看的预测3D形状、从预测相机观看的具有纹理的预测形状、以及从新视点观看的具有纹理的形状。类别这两种方法都可以利用我们现有的注释即，分割掩模和关键点以学习3D形状推断（尽管[30]需要注释的相机而不是关键点）。与[30]类似，我们使用PASCAL VOC和Imagenet图像以及PASCAL3D+的可用关键点注释来训练我们的模型，并使用现成的分割算法[11]来获得ImageNet子集的前景掩模。我们在表1中报告了测试集的平均IoU评估，并观察到我们的表现相当，如果不是比这些替代方法更好的话。我们还注意到，我们的方法产生额外的输出，例如。纹理，这些方法没有。我们在图9中可视化了一些预测。虽然我们预测的形状通常是合理的，但纹理由于有光泽的区域（例如：用于汽车）或更少量的训练数据（例如用于飞机）。4讨论我们已经提出了一个框架，用于学习单视图预测的纹理3D网格使用的图像收集作为监督。虽然我们的结果代表了一个鼓舞人心的步骤，但我们绝没有解决一般情况下的问题，仍然存在许多有趣的挑战和可能的方向我们的公式通过类似的形状变形机制解决了形状变化和关节连接，并且扩展我们的可变形形状模型以明确允许关节连接可能是有益的另外，虽然我们提出了一种通过复制图像像素来合成纹理的方法最后，即使我们可以每个训练实例仅使用单个视图来学习，但是对于每个训练实例有多个视图可用的场景，我们的方法可能同样适用，并且然而，在监督范围的另一端，期望进一步放宽注释的需要，并且研究使用未注释的图像集合学习类似的预测模型。鸣谢。我们感谢David Fouhey的创意标题建议和BAIR社区成员的有益讨论和评论。这项工作得到了英特尔/NSF VEC奖IIS-1539099、NSF奖IIS-1212798和BAIR赞助商的部分支持类别特定网格重建15引用1. Anguelov，D.，Srinivasan，P.科勒D. Thrun，S.，Rodgers，J.，Davis，J.：SCAPE：人的形状完成与动画ACM Transactions on Graphics（TOG）-Proceedings of ACMSIGGRAPH（2005）2. Blanz，V.，Vetter，T.：三维人脸合成的可变形模型03 The Dark（1999）3. 现金男TJFitzgills，A.W.：海豚是什么形状的从2D图像构建3D可变形模型TPAMI（2013）4. Choy，C.B.，徐，D.，Gwak，J.，Chen，K.，Savarese，S.：3d-r2 n2：用于单视图和多视图3D对象重建的统一方法In：ECCV（2016）5. 库茨TF泰勒，C.J.：主动形状模型聪明的蛇。03 The Dog（1992）6. Dürer，A.：关于人类比例的书Formschne yder（1528）7. Fan，H.，Su，H.，Guibas，L.J.：从单幅图像重建三维物体的点集生成网络。在：CVPR（2017）8. Girdhar河Fouhey，D. Rodriguez，M. Gupta，A.：学习对象的可预测和生成矢量表示。In：ECCV（2016）9. Gwak，J.，Choy，C.B.，Garg，A.，Chandraker，M.，Savarese，S.：具有对抗约束的弱监督三维重建电影3DV（2017）10. Han-ne，C.， Tulsiani，S.，Malik，J.：用于三维物体重建的分层表面预测。电影3DV（2017）11. 他，K.，Gki oxari，G.，Dolla'r，P.，Girshick，R.：面具r-cnn。In：ICCV（2017）12. 他，K.，张，X.，Ren，S.，孙杰：深度剩余网络中的身份映射。In：ECCV（2016）13. 休斯，J.F.，Foley，J.D.：计算机图形：原则和实践。皮尔森教育（2014）14. Kanazawa，A.，布莱克，MJ Jacobs，D.W. Malik，J.：端到端恢复人体形状和姿势。来源：CVPR（2018）15. Kar，A.，Tulsiani，S.，卡雷拉，J.，Malik，J.：从单个图像重建特定于类别的对象。参见：CVPR（2015）16. Kato，H.，Ushiku，Y.，Harada，T.：神经三维网格渲染器。来源：CVPR（2018）17. Khamis，S.，Taylor，J.Shotton，J.，Keskin，C.，Izadi，S.，Fitzgibbon，A.：从深度图像学习手形变化的有效参见：CVPR（2015）18. Laine，S.，Karras，T.，Aila，T. Herva，A.，斋藤，S.，尤河Li，H.，Lehtinen，J. ：使用深度卷积神经网络的生产级面部表现捕捉。在： ACMSIGGRAPH/Eurographics计算机动画研讨会论文集（2017）19. Loper，M.，Mahmood，N.，Romero，J. Pons-Moll，G.，布莱克，M.J.：SMPL：一个有皮肤的多人线性模型.ACM Trans. Graphics（Proc. 03 TheFamous（2015）20. 平考尔大学Polthier，K.：计算离散极小曲面及其共轭。03 The Dog（1993）21. Rezende，D.J.，Eslami，S.A.Mohamed，S.，Battaglia，P.Jaderberg，M.，Heess，N.：从图像中无监督地学习三维结构。在：NIPS（2016）22. 斋藤，S.，韦湖，加-地胡，L.，Nagano，K. Li，H.：使用深度神经网络进行真实感面部纹理推断。在：CVPR（2017）23. Sela，M.，Richardson，E.，Kimmel，R.：使用图像到图像转换的无限制面部几何重建。In：ICCV（2017）24. 辛哈，A.，Unmesh，A.，黄，Q，Ramani，K.：Surfnet：使用深度残差网络生成3D形状表面在：CVPR（2017）25. Sorkin e，O.， Cohen-O r，D.，Lipman，Y.， Alexa，M.， R？ssl，C.，Seidel，H. P.：拉普拉斯表面编辑。在：2004年欧洲图形/ACM SIGGRAPH几何处理研讨会论文集。pp. 175-184. 04年01月05日16A. Kanazawa*，S.Tulsiani*，A.A. Efros，J.马利克26. Tatarchenko，M.，Dosovitskiy，A.，Brox，T.：八叉树生成网络：用于高分辨率3d输出的高效卷积架构。In：ICCV（2017）27. Taylor，J.斯泰宾河，Ramakrishna，V.，Keskin，C.，Shotton，J.，Izadi，S.，Hertzmann，A.，Fitzgibbon，A.：从单目深度序列的用户特定手部建模。在：CVPR（2014）28. Tewar i，A.， Zollh o¨ fe r，M.，Kim ，H. Garrido ，P. Bernard ，F. 佩雷兹海峡Theobal t，C.：Mofa：用于无监督单眼重建的基于模型的深度卷积人脸自动编码器。In：ICCV（2017）29. Thompson，D.：成长与形式。剑桥大学出版社（1917年）30. Tulsiani，S.，周，T.，埃夫罗斯，匿名戒酒会Malik，J.：通过可微分光线一致性进行单视图重建在：CVPR（2017）31. Vicente，S.，卡雷拉，J.，阿加皮托湖巴蒂斯塔，J.：重构pascal voc。在：CVPR（2014）32. Wah，C.，Branson，S.，Welinder，P.Perona，P.，Belongie，S.：Caltech-UCSD鸟类-200 - 2011数据集。Tech. 众议员CNS-TR-2011-001，加州理工学院（2011）33. 吴，J.，王玉，Xue，T.，太阳，X.，弗里曼，W. T.，Tenenbaum，J.B.：MarrNet：通过2.5D草图进行3D形状重建。In：NIPS（2017）34. Yan，X.，杨杰，Yumer，E.，Guo，Y.，中国科学院，Lee，H.：透视Transformer网络：学习单视图三维物体重建，无需三维监督。在：NIPS（2016）35. Yang，B.，Rosa，S.，Markham，A.，特里戈尼，N.，温，H.：从单个深度视图进行3D对象密集重建arXiv预印本arXiv：1802.00411（2018）36. 杨，Y.，Ramanan，D.：具有柔性部件混合的铰接姿态估计。在：CVPR（2011）37. 张，R. Isola，P.，埃夫罗斯，匿名戒酒会Shechtman，E.，Wang，O.：深度网络作为感知指标的不合理有效性。来源：CVPR（2018）38. 周，T.，Tulsiani，S.，孙，W.，Malik，J. Efros，A.A.：按外观流查看合成。In：ECCV（2016）39. Zhu，R.，（美国）Kiani，H.，Wang，C.，中国地质大学，Lucey，S.：重新思考重新投影：关闭从单幅图像进行姿态感知形状重建的循环In：ICCV（2017）40. Zuffi，S.，Kanazawa，A.，雅各布斯，D.布莱克，M.J.：3d动物园：为动物的3d形状和姿势建模。在：CVPR（2017）

下载后可阅读完整内容，剩余1页未读，立即下载