规范表面映射的几何圈一致性任务

184 浏览量更新于2023-10-12 收藏 1.57MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2202基于几何圈一致性Nilesh Kulkarni Abhinav Gupta* Shubham Tulsiani*卡内基梅隆大学Facebook AI Research{nileshk，abhinavg}@cs.cmu.edushubhtuls@fb.comhttps://nileshkulkarni.github.io/csm/图1：我们研究了正则曲面映射（CSM）的任务。该任务是关键点估计的概括，并且涉及将像素映射到规范3D模型。我们学习CSM预测，而不需要对应的注释，而是使用几何周期的一致性作为监督。这使我们能够为不同的类别训练CSM预测，包括刚性和非刚性对象。摘要我们探讨的任务规范表面映射（CSM）。具体来说，给定一个图像，我们学习将对象上的像素映射到该类别的抽象3D模型上的相应位置。但我们如何学习这种映射呢？监督方法将需要大量的人工标记，其不可扩展到超过几个手工挑选的类别。我们的关键见解是，CSM任务（像素到3D），当与3D投影（3D到像素）相结合时，完成了一个循环。因此，我们可以利用几何周期一致性损失，从而允许我们放弃密集的人工监督。我们的方法允许我们训练CSM模型的一组不同的类，没有稀疏或密集的关键点注释，只利用前景掩码标签进行训练。我们表明，我们的预测也使我们能够推断出两个图像之间的密集对应关系，并比较我们的方法对几种方法，预测对应关系，利用不同的监督量的性能。1. 介绍柏拉图有一句名言：虽然世界上有很多杯子，但杯子的“理念”只有一个。因此，范畴的任何特殊实例都可以通过它与这个柏拉图理想的关系来理解。作为说明，考虑图1中的鸟的图像。当我们人类看到这张图像时，我们不仅可以识别和分割鸟，还可以更进一步，甚至将像素映射到类别的抽象3D表示。将图像中的像素映射到抽象3D模型上的位置（此后我们称之为规范表面映射）的任务是关键点估计的一般化和致密化，并且是对对象的丰富理解但是我们如何学会做这项任务呢什么是正确的数据，监督或模型，以实现密集丰富的理解对象？学习规范表面映射任务的一种方法是收集大规模标记数据。具体来说，我们可以为每个图像标记数百或数千个关键点，* 最后两位作者同样没有参与。2203的图像。由于每个关键点位置定义了哪个像素对应于3D表面上的特定位置，因此手动标记关键点的这种方法可以为学习提供密集监督。事实上，这种方法已经被证明对特定类别（如人类）非常成功[2]。当然，收集这样的标记数据需要大量的手动标记工作，因此很难扩展到通用类别。有没有一种替代的监督信号，可以让一个学习，而不依赖于这种标记的数据？有趣的是，我们注意到，这个任务的规范表面映射是一个逆图形任务。任何这样的映射都受到在底层3D上操作的几何结构的约束，并且任何预测的映射也应该遵守该结构。特别地，对于属于由对象掩模给出的对象的像素，CSM函数将这些像素映射到3D形状上。3D形状上的这些点在使用（已知/预测的）相机投影回来时，应该映射回相同的像素。我们的关键见解是，循环（像素→3D→像素），并使用一致性损失作为目标。损失的梯度可以是传播回CSM函数预测函数，从而允许我们在不依赖于强监督形式的情况下学习该映射。在本文中，我们提出了一种方法来学习的任务，规范的表面映射的图像属于语义类别，其输入掩码和抽象的3D模型表示的语义类别的集合。此外，我们表明，预测一个规范的表面映射的图像，使我们能够推断出密集的对应关系，跨图像的类别，我们的方法使恢复密集的对应关系，没有任何对应监督！与针对该任务使用密集监督的方法[2]、或针对语义对应的相关任务利用关键点的方法[7]、或3D重建[18]相比这允许我们为不同的类集训练CSM模型：鸟类、斑马、汽车等（见图1）。我们相信我们的方法可以为大规模互联网驱动的3D理解和对应推理铺平道路，因为语义图像集和掩码都很容易获得（也可以使用自动方法）。2. 相关工作密集语义对应。一个基本的任务，相当于追求规范的表面映射是推断密集的语义对应-给定两个图像，目标是预测前一个像素中的在深度学习最近复苏之前的方法[22，24]表明，使用SIFT等特征进行匹配可以允许在实例之间恢复对应关系，后来的工作使用CNN特征显示了类似的结果[13，25]。虽然这些通用特征允许恢复对应关系，使用注释数据专门针对任务进行学习可以改善结果[7]。然而，收集这样的注释可能是繁琐的，因此有几种方法试图放松对学习对应的监督。其中，一个常见的范例是通过自我监督来学习对应，其中图像的随机扰动被用作训练对。这允许预测参数扭曲[17，31，32]以关联图像，或学习等变嵌入[38]以进行匹配。然而，这些方法基本上限于训练相同实例的数据，而在可见内容中没有变化，从而限制了具有视点变化的不同实例的性能。而对于某些类别的利益，例如，对于人类，一些方法[27，30，35，36，42]表明可以使用校准的多视图或运动捕获来生成监督，但是这种形式的监督对于所有类别的收集来说稍微乏味另一种监督形式可以通过合成数据来实现，其中使用与真实图像对相同的姿势渲染的合成图像对可以帮助学习周期一致的真实图像之间的对应函数[52]。然而，这种方法依赖于大规模合成数据的可用性和真实图像的已知姿态来生成超分辨率信号，并且我们表明这两个要求都可以放宽。学习不变量表示。我们的工作是广泛相关的方法，学习像素嵌入不变的某些变换。这些方法利用跟踪来获得对应标签，并学习对视点变换[34，49]或运动[44]不变的表示与自监督对应方法类似，这些方法也限于使用相同实例的观察进行训练，并且不能很好地跨实例进行推广虽然我们的规范表面映射也是一个像素嵌入不变量的某些变换，它有一个特定的几何意义，即。在一个实施例中，用户可以使用与3D表面的对应，并且利用这一点允许在没有对应监督的情况下进行学习类别特定的3D重建。在社区中进行的相关工作是使用特定于类别的可变形模型重建类别中的实例可以追溯到Blanz Vetter [4]的开创性工作结合已知/预测的相机参数，该表示还允许提取逐像素的规范映射。然而，这些方法通常依赖于3D训练数据来推断这种表示。即使是放松这种监督的方法[18，19，46]也至关重要2204在训练期间依赖于（稀疏或密集）2D关键点注释。相反，我们表明，学习一个规范的表面映射是可行的，即使没有这样的监督。此外，我们证明了直接学习映射函数比通过中间3D估计获得这些结果更准确。作为元监督的一致性。我们的任务并不是唯一一个获得直接监督往往不可行的任务，利用某种形式的一致性来克服这一障碍的想法已经在几个领域进行了探索近期体积重建[12，29，41，48]或深度预测[10，11，50]方法使用预测的3D视图和可用视图之间的几何一致性作为监督。类似地，当学习一些变换时，它们的组成通常遵循循环结构的概念已用于图像生成[23，53]，对应性估计[50，51]等。在我们的设置中，我们还观察到使用一致性作为Meta监督的方法我们通过利用与几何形状和循环一致性两者相关的见解来这样做-3. 方法给定一个图像，我们的目标是推断对象上的每个像素，其映射到类别的给定规范模板形状。我们通过学习参数化的CNNfθ来做到这一点，该CNN f θ预测给定输入图像的逐像素正则表面映射（CSM）。我们表明，我们的方法，而只依赖于前景蒙板作为监督，可以学习映射像素到给定的类别级模板形状。我们的关键见解是，我们的目标是学习这个映射函数具有一个几何结构，应该受到预测的尊重。我们操作这个洞察力，并学习CSM预测使用几何周期的一致性损失，从而使我们能够绕过需要的监督形式的注释（稀疏或密集）的关键点。我们首先在第3.2节中介绍了我们在sce- nario中的训练设置，其中给出了每个训练图像的相机姿势。然后，我们在第3.3节中展示了如何放松已知相机的这一要求。学习CSM预测器隐式地允许我们捕获实例之间的对应关系，并且我们在第3.4节中描述了给定两个图像恢复密集语义对应关系的过程。3.1. 预赛曲面参数化我们学习映射的模板形状实际上是3D空间中的二维表面。因此，模板形状的表面S可以通过两个参数u∈（0，1）和v∈（0，1）(or相当于2D矢量u）。这种参数化方法我们可以得到一个映射φ，使得φ（u）表示曲面S上的唯一点。图2：曲面参数化。我们展示了（u，v）空间到3D模型表面的两个类别。虽然有几种方法来构建这样的映射，但一种直观的方法是考虑u表示极角以参数化空心球体表面上的点，可以通过向内推它来映射到表面S[28]。给定一个具有曲面S的模板形状，我们使用这种方法来获得参数化φ。我们在图2中显示了从2D正方形到两个类别的模板3D形状的映射的Canonical Surface Mapping. 图像I的规范表面映射C是从像素到模板3D形状的映射。给定像素P≡（x，y），C[p]表示表面上的对应点作为表面具有二维参数化，C相当于与I大小相同的图像，每个像素处具有双通道值我们的参数化CNNf θ从输入图像预测此映射，因此学习每个像素的预测任务摄影机投影。我们模型的相机作为一个弱透视（缩放正交）变换。我们将每个图像I的摄像机表示为π，由尺度s∈ R、平移t∈ R2和旋转r参数化，它们是三个eu-1。更大的角度。我们用π（P）表示点P的投影使用相机参数π≡（s，t，r）。3.2. 通过几何循环一致性我们的目标是学习每像素预测器fθ，其在给定输入图像I的情况下输出规范表面映射。我们提出了一种方法来这样做，只使用前景掩模作为监督。然而，为了简单起见，我们首先在这里描述我们如何能够学习这个CSM预测器，假设每个训练图像的已知相机参数，并在第3.3节中放宽这一要求。我们的方法是从几何模型中获得学习信号，2205通过检查其在3D形状上的对应点φ（C[p]）的z坐标（比如zp）在投影到π下时是否具有较大的z坐标来确定像素pLvis= Σp∈Ifmax（0，zp−Dπ[p<$]）（2）图3：几何周期一致性损失。通过CSM函数fθ映射到u的像素通过φ映射到3D模板上。我们的损失迫使这个3D点，当通过相机π，应该映射回像素。这项任务的性质。特别地，由于类别的实例下的3D形状通常是相似的（并且因此与模板形状相似），因此在重投影下，到3D表面上的逐像素映射应该是（近似地）循环一致的。我们通过几何循环一致性损失来捕获这种约束这种损失，结合允许预测遵守某些可见性约束的目标，允许我们学习fθ。几何周期一致性损失。给定具有相关联的相机π和前景掩模If的图像I，我们希望强制执行预测的正则表面映射C∈fθ（I），考虑了基本的几何结构。具体地说，由于跨类别的实例与模板形状相似，给定对象前景上的像素p，我们将期望其在3D表面φ（C[p]）上的对应点（近似地）投影回到摄像机π下方，我们将其表示为p′。我们定义了一个几何一致性损失（见图3），它对所有前景像素的这种不一致性进行惩罚，从而使网络能够学习像素→3D映射函数，在3D→像素重投影下是周期一致的。网络详细信息。我们将fθ实现为具有UNet [33]风格架构的网络。该网络以大小为256 x 256的图像作为输入，并输出表示球面上的点的每像素单位向量，然后将其转换为类似于纬度和经度的（u，v）我们培训我们的网络，以最大限度地减少周期-一致性和可见性目标：L一致性=Lvis+L cyc（3）即使我们没有对映射的直接监督，当我们训练跨实例的共享预测器时，几何一致性的显式先验和CNN中空间等方差的隐式归纳偏差足以让我们学习有意义的预测器。前景遮罩预测。虽然上述训练过程鼓励在属于对象的像素处进行周期一致性预测，但学习的CNN f θ也预测其他像素处的一些（可能是虚假的）值。为了让我们忽略这些背景像素的推断环对应关系（见第节。 3.4），以及为了生成可视化，我们使用标准交叉熵损失L fg针对地面实况掩码训练附加的每像素掩码预测器。要做到这一点，我们只需修改fθ，以产生额外的每像素前景概率作为输出。L循环=Σp∈If2p<$−pp<$=π（φ（C[p]））（1）合并可见性约束。强制像素在被提升到3D时投影回到相同位置是期望的，但不是充分条件。作为示例，对于面向前方的鸟，喙和尾都在类似的位置突出，但只有前者可见。这意味着表面上在π下自闭塞的点也可以导致Lcyc最小化。我们的解决方案是阻止fθ预测映射到相机π下的自遮挡区域的u值。3D形状上的点在相机π下自遮挡，其在相机帧中的z坐标大于对应像素处我们使用神经网格渲染器（NMR）[20]来渲染相机π下模板形状S的深度图Dπ，并定义每个深度图的可见性损失。图4：培训程序概述。我们训练一个网络来预测前景上的每个像素，它到规范形状的映射。我们还共同学习预测相机姿态，几何周期一致性损失Lcyc以及前景监督，提供学习信号来训练我们的系统。输入CSM2206FGCYCCYCFGFG3.3. 没有姿势监督的我们已经提出了我们的方法来学习一个典型的表面映射预测器fθ假设已知相机π为每个训练图像。我们注意到我们的训练目标也是可微的。相机参数，并且因此我们这种联合训练可以允许我们绕过甚至相机监督的要求因此，我们学习额外的相机预测CNNgθ’，并使用预测的相机通过几何一致性训练目标学习CSM预测然而，为了克服某些琐碎的解决方案，我们还添加了掩模重投影误差，并且在[16，40]之后使用多假设相机预测器来避免局部最小值。我们的整体训练设置如图4所示。掩模重投影损失。如果唯一的学习目标这个框架允许我们通过几何循环一致性来学习正则表面映射函数fθ，除了给定的模板形状之外，只使用前景掩模注释。一旦学习了网络fθ，我们就可以从任何未注释的图像中推断出一个规范的表面图3.4. 通过CSM实现我们描述了一种用于预测规范表面映射而不依赖于姿势或关键点注释的方法。这使得我们能够在给定相同语义对象类别的两个图像的情况下推断出密集的语义对应关系，因为如果图像之间的像素对应，则它们应该映射到规范表面上的相同区域。给定（源，目标）图像对（Is，It），让我们用（Cs，Ct，Is，It）表示对应的预测的规范表面映射和前景掩模。给定这些预测，对于Is上的任何像素ps，我们可以推断其对应的通过搜索映射到最接近φ（Cs[ps]）的（前景）像素，在It上搜索像素Ts→t[ps]。包括摄像机预测和控制之间的自一致性和预测的CSM，网络可以学习一些平凡的解决方案，例如。总是预测一个Ts→t[ps]=argminpt∈It φ（Cs[ps]）−φ（Ct[pt]）相应的CSM。为了避免这一点，我们强制模板形状，当在预测的相机π下观看时，应该近似匹配已知的前景图像Ifg。为了实现这种损失，我们使用（NMR）[20]来获得可微分渲染frender，给定模板形状S和相机π，渲染掩模。虽然姿势可能仍然是模糊的，例如。面对汽车的前面和后面，这种广告掩模重投影损失允许我们避开所提到的琐碎的解决方案。这种重投影损失定义如下：2我们的方法不仅能预测相应的-对于两个图像之间的像素，它还允许我们推断不对应区域，在源图像中不存在目标图像中的对应关系的像素（例如，面向左和面向右的鸟之间的大多数像素不对应）。我们可以通过简单地表示方程中的最小距离的像素来推断这些。6高于特定阈值，因为在目标图像中不具有对应性。这种推断非对应性的能力对于通过随机扭曲[17，31，38]生成数据作为训练的自监督方法来说Lmask=f render（S，π）−If（四）用于这些的对从不具有非对应区域。多假设姿势预测。代替预测单个相机π≡gθ′（I），我们遵循先前的方法[16，40]并预测多个假设以克服局部最小值。我们的姿态预测器输出{（π i，ci）}gθ′（I）-一组Nc=8个姿态假设πi，每个具有关联的概率ci。我们初始化摄像头预测器gθ′使用预先训练的ResNet-18网络[15]。总体培训目标。由于我们的姿势预测器产生多个姿势假设πi，每个姿势假设都有一个相关的概率ci，因此我们可以通过最小化4. 实验我们的方法使我们能够预测典型的表面映射-平斯跨通用类别。然而，由于缺乏对任务的注释，这实际上是我们在没有监督的情况下学习的动机，因此很难直接评估预测。相反，由于我们的方法还允许我们恢复任何两个图像之间的对应关系（第3.4节），我们可以使用关键点转移任务来评估这些。这是一个通过学习语义对应的方法进行了充分研究的任务，我们报告了与预期损失。我们用Li我vis我掩模正确的-利用不同程度监督的基准，在相机预测πi下的响应损失。此外-为了最小化这些项上的预期损失，我们还使用额外的多样性先验Ldiv来鼓励多样性假设（详见附录）。使用这些工具的总体培训目标是：ΣNc训练我们首先在第4.1节中报告这些比较，然后介绍其他属类的结果（例如：马、羊、牛），使用具有自动获得的分割掩模的Imagenet图像。4.1. 通过Keypoint传输进行评估Ltot=Ldiv（gθ′（I））+i=1ci（Li的ivisi掩模）（5）我们使用我们学习的CSM预测模型来执行关键点传输，L，L+L+L2207图5：Keypoint传输结果。我们通过将地面实况关键点从顶行中的源图像转移到底行中的目标图像来显示密集对应结果的质量。值得注意的是，尽管视点发生了重大变化，该方法仍然能够传输关键点。在源图像具有一些注释的关键点的情况下，目标是预测这些关键点在目标图像中的位置。我们首先描述用于训练模型的数据集，然后简要调查我们比较的各种基线，然后呈现评估结果。4.1.1实验装置数据集。我们使用来自CUB-200-2011[43]的鸟类图像和来自PASCAL 3D + [47]数据集的汽车图像进行定量评估。CUB-200-2011包含6000张训练和测试图像，包含200种不同的物种。每只鸟都有14个注释的关键点，一个分割掩码和一个边界框。请注意，我们只在测试时使用关键点注释来评估我们的方法对前面描述的密集对应我们还在PASCAL 3D + [47]的汽车类别上训练模型，该模型具有超过6000个训练和测试图像，但仅在PAS- CAL VOC [9]的汽车上进行评估我们从[1]下载了一个免费的网格作为鸟的模板形状，平均使用10个Shapenet [6]模型来获得汽车的模板形状。基线。我们报告了几种方法的比较，这些方法利用不同的监督来进行学习：类别特定网格重建（CMR）[18]学习重建3D形状并预测给定实例的姿态，但依赖于已知关键点位置和分割掩模的训练时间监督由于跨类别使用公共可变形模型，因此我们可以通过针对每个像素计算在其位置（或在不完美投影的情况下的最近位置）处渲染的平均形状的坐标来计算隐含的表面映射然后，我们可以像3.4节那样推断对应关系。Zhou等[52]利用大量的三维合成模型，通过循环一致性来学习密集对应。在训练过程中，他们非常依赖于姿势监督（来自PASCAL 3D+），因为每个周期都包括从与真实图像对相同的视图渲染的合成图像。他们的方法以每像素流的形式输出密集的对应关系，并使用“匹配性”得分来推断Dense Equivariance（DE）[38]是一种学习对应关系的自监督方法，不需要任何姿势或关键点注释。我们重新实现此基线，以便它可以利用对象掩码的注释（详细信息请参见附件）。DE学习每个像素的特征向量，并强制相应的像素具有相似的特征。通过将已知的面内随机扭曲应用于图像来获得对对应性的监督。在推理过程中，我们可以通过搜索目标图像中最相似的特征来VGG传输。受Longet al的启发[25]观察到通用学习特征允许恢复对应性，我们设计了一个基线，通过该特征空间中的最近邻推断对应性。特别是对于源图像中的像素，我们从conv4层查找其VGG特征，并在目标图像中找到其对应的最近邻（我们发现这些特征比Long等人使用的AlexNet性能更好）。[25]）。4.1.2评估指标我们根据两个指标评估各种方法：a）正确关键点（ PCK ）的百分比，以及 b ）关键点转移 AP（APK）。我们使用两个单独的度量，因为虽然PCK度量评估在源图像和目标图像两者中可见的关键点的关键点转移的准确性，但是如果方法可以推断特定源关键点不对应于目标上的任何像素，则它不会消除歧义。因此，虽然PCK让我们评估对应准确性，但APK度量也让我们测量推断不对应的准确性。正确关键点的百分比（PCK）：给定在源上具有关键点注释的（源，目标）图像对，2208图6：六个不同类别的预测典型曲面映射。每个图像像素处的颜色描绘了左行中的3D模板形状上的对应表面点虽然预测大多是准确的，但一些错误模式包括：a）由于姿态模糊性而推断全局不正确的CSM（例如，第三匹马），或者b）由于缺少分割而导致的不正确的局部预测（例如，第二只羊）。每种方法预测目标图像中对应位置PCK度量报告跨关键点的关键点预测的平均准确度，这些关键点在对之间是共同一个预测被认为是正确的仅当预测位置位于αmax（h，w）范围内时用于传输的地面实况注释周围的半径我们报告α = 0的结果。1，并且h、w是指关键点被转移到的图像的高度和宽度关键点转移AP（APK）：除了预测源中每个关键点在目标图像中图像，该度量要求估计的置信度。理想地，如果源关键点在目标图像中不对应，则对应的预测置信度应当低，而在关键点在两者中可见的情况下，其应当高。我们的方法和CMR [18]可以依赖于模板/平均形状上的（逆）距离作为置信度度量。Zhou等[52]产生鉴于这些预测，我们改变置信阈值，2209注释方法鸟车我们的方法比其他方法更有效我们表1：PCK和APK。α = 0时正确关键点（PCK）和关键点转移AP（APK）的百分比。1.一、指标描述见第4.1.2节。所有的评价都是在10000图像对每个类别。越高越好。图7：关键点转移PR曲线。我们报告了关键点转移任务上所有方法的转移精度与召回率曲线。虚线表示具有姿势或关键点监督的方法。实线表示没有这种监督的方法。曲线下的面积在每个图的图例中报告（越高越好）。左边的图是CUBS-鸟[43]，右边的图是PascalVOC [9]中的汽车和关键点。指标描述见第4.1.2绘制“转移精确度”与“转移召回”的关系图，并将曲线下的面积报告为AP。“转移召回”测量在阈值以上已经恢复的地面实况中的对应的分数（在最低置信度阈值下，该值类似于PCK）。‘Transfer Precision’ measuresthe fraction of correspon- dences对于高精度，方法应当预测非对应关键点的低置信度分数。我们在附录中更详细地解释了这些指标。4.1.3结果除了报告我们的方法的性能之外，在没有任何姿势监督的情况下，我们还评估了使用姿势监督（表示为“CSM w/Pose”）时的方法然而，请注意，本文中的所有结果可视化都是在没有已知姿势的情况下我们在表1中报告了PCK和APK结果，并观察到4.2. 从无注释的图像集合中学习由于我们的方法在训练期间不需要关键点监督，因此我们可以将其应用于仅使用类别级图像集合（具有自动获得的分割）来学习通用类的规范表面映射。我们使用ImageNet [8]中的各种类别的图像，使用现成的系统[14]获得实例分割，并手动过滤掉具有严重遮挡的实例这导致每个类别大约有1000个实例，我们使用从网络上下载的每个类别的模板模型来训练CSM预测器（实际上，对于斑马，我们使用马模型）。我们在图6中显示了定性结果（在保持的图像上），并观察到我们学习了精确的映射，这些映射也尊重实例之间的对应关系有关其他可视化，请5. 讨论我们提出了一种方法来学习规范的表面映射的通用类别使用几何循环一致性目标。我们的方法允许我们这样做，没有关键点或构成监督，并学习CSM预测和Infer密集对应，而只依赖于前景蒙板作为监督。虽然这是朝着理解底层3D结构和跨图像的关联迈出的令人鼓舞的一步，但仍存在若干挑战特别是，当我们试图通过单个刚性模板的重投影来解释每像素预测时，我们的方法不直接适用于实例之间的形状差异显着或经历大清晰度的类别将我们的方法扩展到除了相机变换之外还允许预测潜在的变形和接合将是有趣的。此外，虽然我们的方法允许放松对应监督，但希望更进一步，并且在没有前景掩模监督的情况下从未注释的图像集合最后，我们的方法利用了几何周期的一致性，视频可以通过在时间上强制执行预测的一致性来提供额外的学习信号[45]。鸣谢。我们要感谢CMU视觉和机器人学习小组的专家和匿名评论者进行了有益的讨论和反馈。ST还要感谢Alyosha Efros不断推动CUBS-鸟类关键点转移PR1.0CSM w/ Pose：30.6CMR：22.40.8CSM：22.4DE：11.10.6VGG预训练：2.60.40.00.00.10.20.30.40.50.6转移召回PASCAL Cars Keypoint Transfer PR1.0CSM w/ Pose：21.0CMR：16.90.8Zhou et. al：10.5CSM：11.00.6DE：5.7VGG预训练：0.60.40.00.00.10.20.30.40.50.6转移召回传输精度传输精度PCKAPKPCKAPK图7中还显示了传输AP图，并注意到大KP +分段掩模CMR [18]47.322.444.116.9相对性能提升（特别是相对于自姿势+同步数据Zhou et. [第52话]--37.110.5监督方法[38]），表明我们的方法，在姿势+分段掩模CSM（我们的）w/pose56.030.651.221.0除了在对应关系存在时推断它们之外，还可以[38]第三十八话34.811.131.55.7当区域不对应时，实现。我们也想象隔离区掩模VGG传输17.22.611.30.6图5中的关键点转移的一些定性结果。CSM（我们的）48.022.440.011.02210引用[1] Free3d.com. http://www.free3d.com。[2]RızaAlpGuüler、Nat a liaN ev er ov a和IasonasKokkinos。密度：野外密集的人体姿势估计在CVPR，2018年。[3] D. Anguelov ， P. 斯里尼瓦桑 D.Koller ， S.Thrun ，J.Rodgers和J.戴维斯SCAPE：人的形状完成与动画。SIGGRAPH，2005年。[4] Volker Blanz和Thomas Vetter。的可变形模型3D面的合成。SIGGRAPH，1999年。[5] Thomas J Cashman和Andrew W Fitzgibbon。海豚是什么形状的？从2D图像建立3D可变形模型。TPAMI，2013年。[6] 天使XChang，Thomas Funkhouser，Leonidas Guibas，PatHanrahan，Qixing Huang，Zimo Li，Silvio Savarese，Mano-lis Savva ， Shuran Song ， Hao Su ， JianxiongXiao，Li Yi，and Fisher Yu. ShapeNet：一个信息丰富的3D模型库。技术报告arXiv：1512.03012 [cs.GR]，斯坦福大学-普林斯顿大学-芝加哥丰田技术研究所，2015年。[7] Christopher B Choy、JunYoung Gwak、Silvio Savarese和曼莫汉·钱德拉克通用通信网。InNeurIPS，2016.[8] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，还有李飞飞Imagenet：一个大规模的分层图像数据库。CVPR，2009。[9] Mark Everingham，Luc Van Gool，Christopher KIWilliams，John Winn和Andrew Zisserman。pascal视觉对象类（voc）的挑战。IJCV，2010年。[10] Ravi Garg、Vijay Kumar BG、Gustavo Carneiro和Ian里德用于单视图深度估计的无监督CNN：几何学拯救了我们。在ECCV。施普林格，2016年。[11] Cle´ mentGodard，OisinMacAodha，andGabrielJBros-拖。具有左右一致性的无监督单目深度估计。在CVPR，2017年。[12] JunYoung Gwak，Christopher B Choy，Animesh Garg，Man-莫汉·钱德拉克和西尔维奥·萨瓦雷斯具有对抗约束的弱在3DV，2017年。[13] 范苏·哈姆，赵敏秀科迪莉亚·施密德和Jean庞塞提案流程。在CVPR，2016年。[14] Kaimi ngHe，Geor giaGkioxari，PiotrDolla'r，andRossGir-shick.面具R-CNN。InICCV，2017.[15] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。[16] Eldar Insafutdinov和Alexey Dosovitsky 无监督利用可微分点云学习形状和姿态。NeurIPS，2018。[17] Angjoo Kanazawa、David W Jacobs和Manmohan Chan-德雷克。Warpnet：用于单视图重建的弱监督匹配。在CVPR，2016年。[18] 放大图片作者：Angjoo Kanazawa，Shubham Tulsiani，Alexei A.埃夫罗斯，还有吉坦德拉·马利克从图像集合学习特定类别的网格在ECCV，2018。[19] Abhishek Kar，ShubhamT ulsiani，JoaZuo Carreira和Jiten-马利克夫人。从单个图像重建特定于类别的对象。CVPR，2015。[20] Hiroharu Kato、Yoshitaka Ushiku和Tatsuya Harada。新-ral 3d mesh renderer.在CVPR，2018年。2211[21] Sameh Khamis，Jonathan Taylor，Jamie Shotton，CemKe- skin，Shahram Izadi，and Andrew Fitzgibbon.从深度图像学习手形变化的有效模型。CVPR，2015。[22] Jaechul Kim，Ce Liu，Fei Sha，and Kristen Grauman. 去-用于快速密集对应的可成形空间金字塔匹配CVPR，2013。[23] Taeksoo Kim，Moonsu Cha，Hyunsoo Kim，Jung KwonLee，还有金智元学习发现跨域关系与生成对抗网络。ICML，2017。[24] Ce Liu，Jenny Yuen，and Antonio Torralba.筛流：致密跨场景的通信及其应用。TPAMI，2011年。[25] Jonathan L Long，Ning Zhang，and Trevor Darrell. Docon-VNET学习通信？ NeurIPS，2014。[26] Matthew Loper，Naureen Mahmood，Javier Romero，Gerard Pons-Moll，and Michael J.黑色. SMPL：一个有皮肤的多人线性模型. SIGGRAPH Asia，2015.[27] Gerard Pons-Moll ， Jonathan Taylor ， Jamie Shotton ，Aaron赫茨曼和安德鲁·菲茨吉本。对应性估计的度量回归森林。IJCV，2015年。[28] 埃米尔·普劳恩和雨果·霍普球面参数化重新啮合。载于TOG，2003年。[29] Danilo Jimenez Rezende 、 SM Ali Eslami 、 ShakirMohamed 、 Peter Battaglia 、 Max Jaderberg 和 NicolasHeess。从图像非监督学习三维结构。InNeurIPS，2016.[30] Helge Rhodin，Mathieu Salzmann，and Pascal Fua. Unsu-用于3D人体姿态估计的受监督的几何感知表示。在ECCV，2018。[31] Ignacio Rocco、Relja Arandjelovic和Josef Sivic。Convo-用于几何匹配的逻辑神经网络架构在CVPR，2017年。[32]IgnacioRocco，ReljaArandjel o v ic´，andJosefSi vic. 端对端结束弱监督语义对齐。在CVPR，2018年。[33] Olaf Ronneberger ， Philipp Fischer ， and ThomasBrox.U-网：用于生物医学图像分割的卷积网络在MICCAI，2015年。[34] 坦纳·施密特理查德·纽科姆和迪特尔·福克斯。自我-用于密集对应的监督视觉描述符学习。IEEE Roboticsand Automation Letters，2017。[35] Tomas Simon、Hanbyul Joo、Iain Matthews和Yaser酋长使用多视图自举的单图像中的手关键点检测在CVPR，2017年。[36] 乔纳森·泰勒，杰米·肖顿，托比·夏普，安德鲁菲茨吉本维特鲁威流形：推断用于一次性人体姿势估计的密集对应性。CVPR，2012。[37] 乔纳森·泰勒理查德·斯特宾瓦伦·罗摩克里希纳凯姆·凯斯金，杰米·肖顿，沙赫拉姆·伊扎迪，亚伦·赫兹曼，安德鲁·菲茨吉尔.从单目深度序列的用户特定手部CVPR，2014。[38] James Thewlis Hakan Bilen Andrea Vedaldi不超-通过稠密等变图像标记的对象帧的可视化学习。NeurIPS，2017。[39] D’Arcy 成长与形式。剑桥大学1917年出版[40] 放大图片作者：A.埃弗罗斯和吉坦德拉·马利克多视图一致性作为学习形状和姿态预测的监督信号。在CVPR，2018年。2212[41] 放大图片作者： Shubham Tulsiani ， Tinghui Zhou ，Alexei A.埃弗罗斯和吉坦德拉·马利克。通过可微分光线一致性进行单视图重建的多视图监督在CVPR，2017年。[42] 董晓宇、董晓伟、尔辛·尤默、卡特琳娜弗拉基亚达基动作捕捉的自监督学习。在NeurIPS，2017。[43] Catherine Wah、Steve Branson、Peter Welinder、PietroPerona和Serge Belongie。加州理工学院-ucsd鸟类-200-2011数据集。2011年。[44] Xiaolong Wang，Kaiming He，and Abhinav Gupta. 反-自监督视觉表征学习的静态不变性。InICCV，2017.[45]Xiaolong Wang，Allan Jabri，and Alexei A.埃夫罗斯学习-从时间的周期一致性中寻找对应关系。在CVPR，2019年。[46] Jiajun Wu ， Tianfan Xue ， Joseph J Lim ， YuandongTian ， Joshua B Tenenbaum ， Antonio Torralba ， andWilliam T Freeman.单图像三维解释器网络。在ECCV，2016年。[47] Yu Xiang，Roozbeh Mottaghi，and Silvio Savarese. 超出pascal：一个野外3d物体检测的基准。在WACV，2014年。[48] Xinchen Yan，Jimei Yang，Ersin Yumer，Yijie Guo，and Honglak Lee.透视Transformer网络：学习单视图三维物体重建，无需三维监督。InNeurIPS，2016.[49] 曾安迪宋舒然： Matthias Nießner，MatthewFisher ， Jianxiong Xiao ， and Thomas Funkhouser.

下载后可阅读完整内容，剩余1页未读，立即下载