没有合适的资源?快使用搜索试试~ 我知道了~
4520关节感知的规范表面映射0Nilesh Kulkarni 1 Abhinav Gupta 2 , 3 David F. Fouhey 1 Shubham Tulsiani 301 密歇根大学 2 卡内基梅隆大学 3 Facebook AI研究0{ nileshk, fouhey } @umich.edu abhinavg@cs.cmu.edu shubhtuls@fb.com0图1:我们解决以下任务:a)规范表面映射(CSM),即将像素映射到模板形状上的相应点,以及b)预测该模板的关节。我们的方法允许在不依赖关键点监督的情况下学习这些任务,并可视化在多个类别上获得的结果。左侧的模板3D模型和图像像素之间的颜色表示它们之间的预测映射,而较小的3D网格表示我们在相机(顶部)或新视角(底部)中预测的关节。0摘要0我们解决以下任务:1)预测规范表面映射(CSM),指示从2D像素到规范模板形状上相应点的映射,以及2)推断与输入图像对应的模板的关节和姿势。虽然之前的方法依赖于关键点监督进行学习,但我们提出了一种可以在没有这种注释的情况下学习的方法。我们的关键洞察是这些任务在几何上是相关的,我们可以通过强制预测之间的一致性来获得监督信号。我们展示了在各种动物对象类别上的结果,表明我们的方法可以使用仅使用前景掩码标签进行训练的图像集合来学习关节和CSM预测。我们经验证明,允许关节推断有助于学习更准确的CSM预测,并且通过与预测的CSM之间的一致性来强制执行同样关键的学习有意义的关节。01. 引言0我们人类有着非凡的能力,能够将我们的2D感知与3D概念联系起来,无论是在全局还是局部层面上。举个例子,给定图1中马鼻子周围的像素和一个抽象的3D模型,我们可以轻松地将这个像素映射到其对应的3D点。此外,我们还可以理解两者之间的全局关系,例如图像中的3D结构对应着头部向下弯曲的模板。在这项工作中,我们追求局部和全局3D理解的目标,并解决以下任务:a)规范表面映射(CSM),即从2D像素映射到3D模板,以及b)预测与图像对应的模板的关节。虽然之前有一些工作解决了这些任务,但它们通常是独立进行的,通常依赖于大规模的注释来提供监督信号。例如,Guler等人展示了从像素到模板人体网格的令人印象深刻的映射,但代价是需要数十万个注释。类似地,追求关节推断的方法也依赖于关键点注释来实现。4530学习。虽然这些方法可以用于学习特定兴趣类别(例如人类、猫等),但依赖于如此大规模的注释使它们无法扩展到通用类别。相反,我们在这项工作中的目标是在不依赖这种手动注释的情况下实现学习关节和像素到表面映射。我们的关键洞察是这两种预测实际上在几何上是相关的。CSM任务产生了从像素到模板形状的密集局部映射,而推断全局关节(和相机姿态)则表示将该模板形状变换到图像上。我们展示了这两个预测可以相互提供监督信号,并且通过在它们之间强制执行一致性可以实现学习,而不需要直接监督这两个任务中的任何一个。我们提出了一种实现这一洞察的方法,并允许我们从在线图像集合中学习通用动物对象类别的CSM和关节预测。我们在各种类别上呈现了定性和定量结果,表明我们可以在使用来自现成系统的近似分割的ImageNet[6]图像进行学习的情况下,学习准确的关节和像素到表面映射。这使得我们能够处理以前的有监督方法无法处理的设置,并且我们相信这是迈向大规模互联网3D理解的一步。02. 相关工作0姿态和关节预测。我们要解决的任务之一是推断与输入图像相对应的相机姿态和关节。估计刚性物体的姿态是理解3D场景中物体的关键,几十年来已经有多个工作对此进行了研究,从基于匹配的方法[12, 27,37]到最近的基于CNN的预测器[29,32]。与我们的工作更相关的是,将这一任务推广到有生命的物体,还需要考虑它们的关节,即部分的运动,已经提出了大量基于拟合[4, 15]或基于预测[14, 36,43]的方法来解决这个问题。虽然这些方法在挑战性类别上显示出令人印象深刻的结果,但它们关键地依赖于(通常是密集的)0学习2D关键点注释,有时甚至是推理。我们的目标是在不需要这种监督的情况下学习这种预测。我们表明,通过强制实施从密集像素到3D映射的一致性,我们可以做到这一点。0密集映射和对应关系。除了学习关节,我们还预测每个像素到模板形状的映射。以前的几种方法类似地追求像素到表面[2, 23, 24, 28,42]或体积[35]的映射,但与我们的方法不同,它们关键地依赖于直接监督。请注意,这些映射还允许恢复图像间的对应关系,因为对应的像素具有相似的表示。为了实现学习尊重对应关系的表示的这一总体目标,几个先前的工作尝试设计[22]或学习对相机运动[9,38]或合成变换[30]不变的特征。虽然后一种方法可以在没有监督的情况下利用,但嵌入不强制执行几何结构,这正是帮助我们共同学习关节和姿态的关键。与我们的工作更相关的是,Kulkarni等人[18]学习了一种类似的映射,但与我们不同,他们忽略了关节的影响,而我们通过建模获得更准确的结果。0在3D中重建物体。我们的方法可以被视为从图像中预测一种受限制的3D重建,通过“重建”以关节模板形式和其姿态的3D形状。已有许多方法处理更一般形式的3D预测,从体积预测[5, 10]到点云推断[8,20]。与我们的表示更直接相关的是,根据Blanz和Vetter的开创性工作[3],将3D表示为可变形模型的工作线路,同时捕捉关节和变形[21, 25,26]。虽然所有这些方法都产生比我们的方法更具表现力的3D,但它们通常依赖于3D监督进行训练。即使是试图放松这一要求的方法[16, 33,39],也需要利用多视图或关键点监督进行学习,在这项工作中,我们也试图放松这一要求。03. 方法0给定输入图像I,我们的目标是推断:(1)每个像素在模板上的对应关系C,将I中的每个像素映射到模板上的一个点;(2)3D模板的关节δ以及表示物体在图像中出现或投影的相机姿态π=(s,R,t)。我们使用两个深度网络fθ和gθ'来实现这一目标,它们以图像I作为输入,并分别产生C ≡fθ(I)和δ,π ≡gθ'(I)。我们的关键洞察是,学习这些映射而无需大规模手动关键点注释的方法,我们努力寻求一种方法,只使用具有(可能带有噪声的)前景掩码的类别级图像集合进行学习。4540预测像素到3D模板映射和模板到图像帧的变换在几何上是相关的,我们可以通过预测之间的一致性来获得两者的监督信号。Kulkarni等人最近的工作[18]利用了类似的洞察力来学习CSM预测,但假设了一个刚性模板,这对于大多数有生命的物体类别来说是一个基本的限制性假设。我们提出了一种进一步允许模型关节化的方法,并观察到这使我们能够在无需监督的情况下学习关节,并恢复更准确的像素到表面映射。核心损失和技术是一种几何一致性损失,它同步了CSM、关节和姿态,我们在第3.1节中介绍了这个核心损失以及我们的关节参数化。然后我们在第3.2节中描述了如何训练fθ和gθ',它在这个核心损失的基础上添加了基于掩码监督的辅助损失,并展示了我们的方法如何在有稀疏关键点监督的情况下进行扩展。0网格基础知识。我们注意到网格的表面是三维空间中的二维流形,因此我们可以构造一个三维表面的二维参数化φ:[0,1)2→S。这将一个二维向量u映射到模板形状S表面上的唯一点。给定这样的表面参数化,规范表面映射C被定义为一个二维向量图像,使得对于给定的像素p,φ(C[p])是其在模板上对应的三维点。有关如何为模板形状构造φ的详细信息,请参见补充材料。03.1. 关节感知的几何一致性0关节参数化。给定一个以网格形式表示的模板形状,我们将其顶点近似分组为功能性的“部分”,例如头部、颈部、腿部等,并在这些部分之间定义一个层次结构。虽然我们的初始分组是离散的,但遵循计算机图形学中的标准实践,我们对每个顶点的分配进行了“软化”,如图2所示。假设有K个部分,这个“装配”过程为每个网格顶点v产生了与每个部分对应的成员资格αvk∈[0,1]。请注意,这种注释过程很容易扩展,每个类别只需要几分钟(对于非专家注释者)。该模板的关节δ由每个部分相对于其父部分的刚性变换(平移和旋转)来指定,即δ≡{(tk,Rk)},其中“身体”是根部分。给定(预测的)关节参数δ,我们可以计算每个部分的全局变换Tk(∙,δ),使得规范模板上的部分上的点p在关节模板中移动到Tk(p,δ)(详见补充材料)。因此,给定规范模板网格上的顶点v,我们可以计算其在关节变形后的位置。0kαvkTk(v,δ)。我们可以通过重心插值将此定义扩展到表面上的任意点p(详见补充材料)。0图2:每个部分顶点分配的示例。我们展示了对四足动物的各个部分进行的软化的每个顶点分配。这种预先计算的软分配使我们能够在关节变形下跨越部分边界获得平滑的模板网格变形。0图3:表面参数化和关节变形的示意图。给定一个二维坐标u∈[0,1]2,函数φ将其映射到模板形状的表面上,然后根据指定的关节变形δ进行变换。我们在这里展示了从这个二维空间到具有不同关节变形的关节形状的映射:具有移动腿的马和弯头的羊。0补充说明)。为了方便起见,我们稍微重载了符号,并用δ(p)表示经过δ指定的关节变换后S中任意点p的位置。0从规范到关节表面映射。对于任意的二维向量u∈[0,1)2,我们可以通过φ将其映射到模板形状上。如果该形状经过由δ指定的关节变形,我们可以通过组合关节变形和映射,即δ(φ(u)),将该向量映射到关节形状上的一个点。我们在图3中展示了这一点,并展示了在各种关节变形下从二维空间到模板的映射。给定像素到规范表面映射C,因此我们可以恢复出像素p在关节形状上的对应点,即δ(φ(C[p]))。0几何一致性。规范表面映射定义了从像素到三维网格上的点的二维到三维的映射;我们展示了如何使用观察网格的相机来定义从每个网格点到像素的循环一致性损失。特别地,规范表面映射C将像素映射到(非关节)模板上对应的三维点。反过来,(预测的)关节δ和相机参数π定义了从规范形状到图像空间的映射:网格的δ和π定义了从规范形状到图像空间的映射。4550图4:关节感知的几何循环一致性。给定一个图像像素,我们可以使用预测的CSM映射和φ将其映射到模板形状的表面上的一个点。然后,我们使用δ来关节表面,将模板形状上的点映射到关节形状上。由于在摄像机π下从关节形状重新投影点产生的不一致性,得到了几何循环一致性损失L gcc。0理想情况下,对于任何像素p,如果预测是几何一致的,那么从模板到关节再到投影的3D映射应该产生原始像素位置。我们将这个约束称为几何循环一致性(GCC)。0我们可以将其操作化,以测量规范表面映射C、关节δ和摄像机π之间的不一致性,如图4所示。给定一个前景像素p,它在模板形状上的对应点可以计算为φ(C[p]),在关节形状上的对应点可以计算为δ(φ(C[p]))。给定(预测的)摄像机π,我们可以计算其在图像帧中的重新投影为π(δ(φ(C[p])))。然后,我们惩罚初始像素位置和重新投影像素位置之间的差异,以强制一致性。0L gcc 0p ∈ I f ∥ p − ¯p ∥ ; ¯p = π(δ(φ(C[p]))) (1)03.2. 学习CSM和关节预测0回想一下,我们的目标是训练一个预测器fθ来预测CSMC和一个预测器gθ′来预测关节δ和摄像机π。我们的方法如图5所示,使用Lgcc来学习这些预测,同时还必须添加基于前景遮罩监督的辅助损失,以防止平凡或退化的解。这些损失惩罚注释的遮罩与从关节网格渲染的遮罩之间的差异。我们在下面更详细地描述学习过程和目标,然后讨论如果可用的话如何结合关键点监督。0可见性约束。GCC投影可以是一致的0关节化0摄像机0图像CSM0图5:我们方法的概述。我们的方法A-CSM同时学习预测CSM映射、摄像机和关节。我们要求这些预测彼此一致,通过强制L cyc和Lmask约束。0即使在映射到遮挡区域的情况下(例如图4中考虑的像素被映射到马头的另一侧),它的图像重新投影映射仍然是一致的。为了防止这样的映射到不可见区域,我们遵循Kulkarni等人的方法[18],并引入一个可见性损失Lvis,惩罚重新投影和渲染深度之间的不一致性(更多细节请参见补充材料)。0通过遮罩监督克服模糊。在没有任何基础的情况下,仅仅强制所有预测之间的自洽性可能会导致退化的解。因此,我们利用摄像机(π)下获得的模板形状在关节(δ)后的前景遮罩来匹配注释的前景遮罩。由于我们希望鼓励更精确的关节,我们发现通过前景遮罩引起的二维距离场的差异而不仅仅是比较每个像素的二进制值更有益,我们定义了一个目标Lmask来捕捉这个差异。这个目标是[17]中定义的遮罩一致性和遮罩覆盖目标的总和。我们在补充材料中进一步详细描述它。0学习目标。我们的整体训练目标Ltotal最小化上述损失的组合:0L total = L gcc + L vis + L mask (2)0此外,我们不是学习一个预测唯一输出的相机和变形预测器g θ ′ ,而是遵循先前的方法[13, 18,31],学习一个多假设预测器,有助于克服局部最小值。具体而言,g θ ′ ( I ) 输出8个(姿势,变形)假设,{ ( π i , δi ) }。Lkp =�i∈I∥xi − π(δ(Xi))∥(3)4560并伴随一个概率 c i ,我们在这些之间最小化期望损失。0利用可选的关键点(KP)监督。虽然我们主要关注在没有任何手动关键点注释的情况下进行学习,但我们的方法可以很容易地扩展到某些语义关键点的附加注释,例如鼻子、左眼等是可用的。为了利用这些,我们手动定义了模板上对应的这些语义2D关键点的相应3D点集合 X。给定带有2D注释 {x i }的输入图像,我们可以利用这些进行学习。为此,我们添加一个目标,确保在预测的相机姿态 π下,关节活动后对应的3D关键点的投影与可用的2D注释一致。我们用 I 表示可见关键点的索引,以形式化这个目标:0在有这种监督的情况下,我们观察到我们的方法可以轻松地利用它进行学习。虽然我们后来经验性地研究了这种情况并强调了在其中允许关节活动的一致性好处,但本文中的所有可视化都是在不使用这种额外损失的关键点无关设置中进行的。0实现细节。我们使用基于ResNet18[11]的编码器和卷积解码器来实现每像素的CSM预测器 f θ,并使用另一个基于ResNet18的编码器来实现变形和相机预测器 g θ ′。我们在补充材料中对这些进行了更详细的描述,并且代码链接可在网页上找到。04. 实验0我们的方法使我们能够:a)学习CSM预测,指示每个像素到模板形状上相应的3D点的映射;b)推断将模板转换为图像框架的关节活动和姿势。我们进行了评估这两个方面的实验,并经验性地表明:a)允许关节活动有助于学习准确的CSM预测(第4.2节),b)我们学习到了有意义的关节活动,并且强制与CSM的一致性对于这种学习至关重要(第4.3节)。04.1. 数据集和输入0我们使用现有数据集(CUB-200-2011 [34]、PASCAL[7]和Imagenet[6])创建我们的数据集,将其按动物物种划分为两组。第一组(Set1)是鸟类、牛、马和绵羊,我们在这些动物上报告定量结果。为了展示普遍性,我们还有第二组(Set2)或其他动物,我们在这些动物上展示定性结果。Set1中的动物有可用的关键点,这使得我们能够进行定量结果和在其中测试我们的模型的实验。0关键点的存在。第2组动物没有关键点,我们展示了定性结果。在整个过程中,我们遵循底层数据集的训练和测试划分,以确保有意义的结果。鸟类。我们使用CUB-200-2011数据集对鸟类进行训练和测试(使用标准划分)。它包括200个物种的6000张图像,以及前景掩码注释(用于训练)和关键点注释(用于评估和可选的训练)。第1组四足动物(牛、马、绵羊)。我们结合了来自PASCALVOC和Imagenet的图像。我们使用VOC掩码和Imagenet上使用COCO训练的MaskRCNN模型生成的掩码。当我们报告这些类别在训练过程中额外利用关键点的实验时,它们只在VOC训练图像的子集上使用这种监督(因此在关键点注释方面只是“半监督的”)。第2组四足动物(河马、犀牛、袋鼠等)。我们使用Imagenet上的图像。为了获得这些动物的掩码,我们为每个类别注释了大约300张图像的粗略掩码,然后通过将所有这些注释组合成一个单一类别来训练一个MaskRCNN,从而预测出一个通用的“四足动物”类别的分割。过滤。在整个过程中,我们过滤掉只有一个大的未截断且基本未遮挡的动物的图像(即一些草是可以的)。模板形状。我们从[1]下载了所有类别的模型。我们将四足动物分为7个部分,分别对应于躯干、4条腿、头部和颈部(参见图2中一些示例)。对于大象模型,我们额外标记了两个没有颈部的鼻子部分。我们的鸟类模型有3个部分(头部、躯干、尾巴)。0通过对应传输评估CSM0预测的CSM表示与3D模板形状的每个像素对应关系。不幸的是,直接评估这些需要密集注释,这很难获得,但我们注意到这种预测还允许推断图像之间的密集对应关系。因此,我们可以遵循通常用于测量图像对图像对应质量的评估协议[40,41],通过测量从源图像传输到目标图像的注释关键点的准确性来间接评估学习到的映射,如图7所示。使用CSM预测的关键点传输。给定源图像和目标图像,我们希望使用预测的像素映射将源图像的注释关键点传输到目标图像。直观地说,给定一个查询源像素,我们可以使用预测的CSM恢复其在模板上的对应3D点,然后可以在目标图像上搜索预测的最接近的像素(在补充中形式化描述)。给定一些关键点4570图6:引导部分标记。我们的CSM推理允许引导像素级语义部分预测。我们在第1列和第5列可视化模板形状的部分,以及通过相应的3D点在图像上引导的标签。0A-CSMRigid-CSMSource0图7:可视化关键点传输。我们将关键点从“源”图像传输到目标图像。Rigid-CSM[18]和A-CSM(我们)之间的关键点传输比较。我们可以看到由于建模关节的推断对应关系更准确,例如注意绵羊和马头部的关键点传输。0通过对一幅图像进行关键点注释,因此我们可以预测另一幅图像上的相应点。0评估指标。我们使用“正确关键点传输百分比”(PCK-Transfer)指标来间接评估学习到的CSM映射。给定多个源-目标图像对,我们将注释的关键点从源传输到目标,并将传输标记为“正确”,如果预测位置在离真实位置的0.1×max(w, h)距离之内。我们报告了我们在10K个源-目标对上的性能0基线。我们与两种利用类似监督形式的替代方法进行比较。首先,我们与Rigid-CSM[18]进行比较,该方法学习类似的像素到表面映射,但不允许模型关节。该基线的实现仅对应于使用我们的训练方法,但没有任何关节δ。我们还与Dense Equivari进行比较。0ance(DE)[30]方法,该方法从像素到隐式(非几何)空间学习自监督映射。结果。我们在两种设置下报告了实证结果:使用和不使用关键点监督进行学习。我们发现,在这两种设置下,使用关节感知几何一致性学习像素到表面映射的方法优于使用关节不可知一致性进行学习。我们还发现,与使用合成变换学习等变嵌入的方法相比,我们的几何感知方法表现更好。我们在图7中可视化了关键点传输结果,并观察到尽管关节不同(例如马头在目标中弯曲而不在源中),但传输仍然准确。然而,Rigid-CSM[18]基线没有成功地实现这一点。我们还在图6中可视化了通过将部分标签从3D模型传输到图像像素的引导部分标记。0通过关键点重投影进行关节评估。0为了分析学习到的关节(和姿势)的保真度,我们观察到在准确的预测下,图像中的注释2D关键点应该与模板上手动定义的3D关键点的重投影相匹配。因此,我们测量当关节化模板上的3D关键点与预测的相机姿态的重投影相匹配时,2D注释是否匹配。使用这个指标,我们解决以下问题:a)允许关节化是否有助于准确性?b)与CSM一致性的联合训练是否有帮助?评估指标。我们再次使用“正确关键点”(PCK)指标来评估关节化和重投影的模板的3D关键点的准确性。对于每个具有可用2D关键点注释的测试图像,我们获得3D点的重投影,并在预测位置与真实位置的0.1×max(w,h)距离之内标记重投影为正确。请注意,与“PCK-Transfer”不同,此评估是针对每个图像进行的。我们是否学习到了有意义的关节?我们报告了关键点4580图8:样本结果。我们展示了我们的方法在各种非刚性物体上学习CSM映射和关节的能力。图中显示:a)左侧的类别级别模板形状,b)每个图像的CSM预测,颜色表示对应关系,c)来自相机和新视角的预测关节形状。4590表1:用于评估CSM预测的PCK-Transfer。我们评估从源图像到目标图像的关键点转移,并将转移准确性作为PCK转移进行报告,如第4.2节所述。数值越高越好。0监督方法 鸟类 马 牛 绵羊0KP + Mask Rigid-CSM [18] 45.8 42.1 28.5 31.5A-CSM(我们的方法)51.0 44.6 29.2 39.00Mask Rigid-CSM [18] 36.4 31.2 26.3 24.7 Dense-Equi[30] 33.5 23.3 20.9 19.6 A-CSM(我们的方法)42.6 32.926.3 28.60表2:关节评估。我们根据手动注释的关键点在网格上进行重投影计算PCK,如第4.3节所述。数值越高越好。0监督方法 鸟类 马 牛 绵羊0KP + Mask Rigid-CSM [18] 68.5 46.4 52.6 47.9A-CSM(我们的方法)72.4 57.3 56.8 57.40Mask Rigid-CSM [18] 50.9 49.7 37.4 36.4A-CSM(我们的方法)46.8 54.2 41.5 42.50表3:Lgcc对学习关节的影响。我们报告了我们方法的性能,并与没有几何循环损失训练的变体进行比较。0监督方法 鸟类 马 牛 绵羊0KP + Mask A-CSM(我们的方法)72.4 57.3 56.8 57.4A-CSM w/o GCC 72.2 35.5 56.6 54.50Mask A-CSM(我们的方法)47.5 54.2 43.8 42.5 A-CSMw/o GCC 12.9 24.8 18.7 16.60表2中不同监督形式下各类别的关键点重投影准确性。我们与不建模关节的替代方法进行比较,观察到我们的方法产生了更准确的预测,从而突出了我们学习到的有意义的关节。唯一的例外是在没有关键点监督的情况下训练时的“鸟类”,但我们发现这是因为在模板上定义最佳3D关键点时存在一些歧义,如“背部”、“翅膀”等,我们发现我们的模型只是学习了一个稍微不同(但一致)的姿态概念,导致评估不够优化。我们还在图8和图1中展示了几个定性结果,展示了各种输入图像的规范网格的关节,我们确实观察到我们可以学习到像移动的腿、大象的鼻子、动物的头部等部位的关节,这些结果清楚地表明我们可以使用我们的方法学习关节。CSM的一致性有助于学习关节吗?0我们方法的基石是通过强制预测的CSM、关节和姿态之间的一致性来获得监督信号。然而,学习关节(和姿态)的另一个信号来源是掩模监督。因此,我们研究了这种联合一致性是否有助于学习,或者只有掩模监督就足够了。我们训练了一个我们模型的变体'A-CSM w/oGCC',其中我们只学习姿态和关节预测器g,而没有循环一致性损失。我们在两种监督设置下报告了结果,发现当有关键点监督时,使用一致性可以稍微改善性能。然而,当没有关键点监督时,我们观察到这种一致性对于学习关节(和姿态)至关重要,并且在没有强制执行时,没有关键点监督的情况下的性能显著下降。04.4. 从ImageNet学习0由于我们的方法可以在不需要关键点监督的情况下学习像素到表面映射和关节,因此我们可以使用自动获取的分割掩模从类别级别的图像集合(例如ImageNet)中学习这些内容。我们使用我们训练的“四足动物”Mask-RCNN获取每个实例的(嘈杂的)分割掩模。然后我们使用我们的方法来学习这些类别的关节和规范表面映射。我们在图1和图8中展示了一些结果,除了(鸟类、马、绵羊、牛)之外的所有类别都是使用ImageNet图像进行训练的。我们观察到,即使在有限和嘈杂的监督下,我们的方法也能够学习到有意义的关节和一致的CSM预测。05. 讨论0我们提出了一种联合学习规范表面映射和关节的方法,无需直接监督,而是通过强制保持预测之间的一致性来实现。虽然启用关节使我们能够超越通过刚性模板的重新投影来解释像素级预测,但在内在形状变化的情况下,允许的变换类可能仍然是有限的。我们的方法无法直接适用于模板不明确的类别,例如椅子,未来的尝试可以研究如何在这些类别上进行学习。最后,虽然我们的重点是在没有直接监督的情况下展示结果,但我们的技术也可以应用于具有大规模注释的情况,并且可以作为进一步的正则化或包含更多未标记数据进行学习的机制。致谢。我们要感谢FouheyAI实验室(FAIL)的成员,CMU视觉机器人学习实验室和匿名评审人员的有益讨论和反馈。我们还要感谢RichardHiggins对各种四足动物类别建议和3D模型注释的帮助。4600参考文献0[1] Free3d.com. http://www.free3d.com . [2] Rıza Alp G¨uler,Natalia Neverova, and Iasonas Kokkinos.在野外密集的人体姿势估计。在CVPR,2018年。[3] VolkerBlanz和ThomasVetter。用于合成3D面部的可变模型。在SIGGRAPH,1999年。[4] Federica Bogo,Angjoo Kanazawa,ChristophLassner,Peter Gehler,Javier Romero和Michael JBlack。保持它SMPL:从单个图像自动估计3D人体姿势和形状。在ECCV。Springer,2016年。[5] Christopher B Choy,JunYoungGwak,Silvio Savarese和ManmohanChandraker。通用对应网络。在NeurIPS,2016年。[6] JiaDeng,Wei Dong,Richard Socher,Li-Jia Li,Kai Li和LiFei-Fei。Imagenet:一个大规模的分层图像数据库。在CVPR,2009年。[7] Mark Everingham,SM Ali Eslami,Luc VanGool,Christopher KI Williams,John Winn和AndrewZisserman。帕斯卡视觉对象类别挑战:回顾。IJCV,2015年。[8]Haoqiang Fan,Hao Su和Leonidas JGuibas。用于从单个图像重建3D对象的点集生成网络。在CVPR,2017年。[9] Peter R Florence,Lucas Manuelli和RussTedrake。密集对象网络:通过和为机器人操纵学习密集视觉对象描述符。CoRL,2018年。[10] Rohit Girdhar,David FFouhey,Mikel Rodriguez和AbhinavGupta。学习可预测和生成的对象向量表示。在ECCV。Springer,2016年。[11] Kaiming He,Xiangyu Zhang,ShaoqingRen和JianSun。深度残差学习用于图像识别。在CVPR,2016年。[12]Daniel P Huttenlocher和ShimonUllman。通过与图像对齐来识别实体对象。IJCV,1990年。[13]Eldar Insafutdinov和AlexeyDosovitskiy。通过可微分点云无监督学习形状和姿势。在NeurIPS,2018年。[14] Angjoo Kanazawa,Michael J. Black,DavidW. Jacobs和JitendraMalik。端到端恢复人体形状和姿势。在CVPR,2018年。[15]Angjoo Kanazawa,Shahar Kovalsky,Ronen Basri和DavidJacobs。从2D图像学习动物的3D变形。在Eurographics,卷35,页365-374。Wiley Online Library,2016年。[16] AngjooKanazawa,Shubham Tulsiani,Alexei A. Efros和JitendraMalik。从图像集合学习类别特定的网格重建。在ECCV,2018年。[17] Abhishek Kar,Shubham Tulsiani,JoaoCarreira和JitendraMalik。从单个图像进行类别特定的对象重建。在CVPR,2015年。[18] Nilesh Kulkarni,Abhinav Gupta和ShubhamTulsiani。通过几何循环一致性进行规范表面映射。在ICCV,2019年。[19] John P Lewis,Matt Cordner和NicksonFong。姿势空间变形:形状插值和基于骨骼驱动的变形的统一方法。在第27届计算机图形学和交互技术年会上的论文集,页165-172。ACM Press/Addison-Wesley Pub-0lishing Co.,2000年。[20] Chen-Hsuan Lin,ChenKong和SimonLucey。学习用于密集3D物体重建的高效点云生成。在AAAI,2018年。[21] Matthew Loper,Naureen Mahmood,JavierRomero,Gerard Pons-Moll和Michael J.Black。SMPL:一个皮肤多人线性模型。SIGGRAPHAsia,2015年。[22] GLowe。Sift-尺度不变特征变换。IJCV,2004年。[23] HaggaiMaron,Meirav Galun,Noam Aigerman,Miri Trope,NadavDym,Ersin Yumer,Vladimir G Kim和YaronLipman。通过无缝环面覆盖的曲面上的卷积神经网络。2017年。[24] Natalia Neverova,James Thewlis,Riza AlpGuler,Iasonas Kokkinos和Andrea Vedaldi。Slimdensepose:从稀疏注释和运动线索中节约学习。在CVPR,2019年。[25] Markus Oberweger,Paul Wohlhart和VincentLepetit。深度学习中的手部姿态估计。arXiv预印本arXiv:1502.06807,2015年。[26] Georgios Pavlakos,VasileiosChoutas,Nima Ghorbani,Timo Bolkart,Ahmed AAOsman,Dimitrios Tzionas和Michael JBlack。富有表现力的身体捕捉:从单个图像中获取3D手部、面部和身体。在CVPR,2019年。[27] Bojan Pepik,MichaelStark,Peter Gehler和BerntSchiele。向可变形部件模型教授3D几何。在CVPR,2012年。[28]Ayan Sinha,Asim Unmesh,Qixing Huang和Karthik Ra-mani。Surfnet:使用深度残差网络生成3D形状表面。在IEEE计算机视觉和模式识别会议论文集上,页码为6040-6049,2017年。[29] Hao Su,Charles R Qi,Yangyan Li和Leonidas JGuibas。使用渲染的3D模型视图训练的CNN中的视点估计。在ICCV,2015年。[30] James Thewlis,Hakan Bilen和AndreaVedaldi。通过密集等变图像标记进行无监督的对象框架学习。在NeurIPS,2017年。[31] Shubham Tulsiani,Alexei A.Efros和JitendraMalik。多视角一致性作为学习形状和姿势预测的监督信号。在CVPR,2018年。[32] Shubham Tulsiani和JitendraMalik。视点和关键点。在CVPR,2015年。[33] ShubhamTulsiani,Tinghui Zhou,Alexei A. Efros和Ji- tendraMalik。通过可微分的射线一致性实现单视角重建的多视角监督。在CVPR,2017年。[34] Catherine Wah,Steve Branson,PeterWelinder,Pietro Per- ona和Serge Belongie。Caltech-UCSDBirds-200-2011数据集。2011年。[35] He Wang,SrinathSridhar,Jingwei Huang,Julien Valentin,ShuranSong和Leonidas J.Guibas。用于类别级别6D物体姿态和尺寸估计的归一化对象坐标空间。在CVPR,2019年。[36] Donglai Xiang,HanbyulJoo和YaserSheikh。在野外定位面部、身体和手部的单目总捕捉。在CVPR,2019年。[37] Yu Xiang,Roozbeh Mottaghi和SilvioSavarese。超越Pascal:野外3D物体检测的基准。在WACV,2014年。[38] Yu Xiang,Tanner Schmidt,VenkatramanNarayanan和4610Dieter Fox. Posecnn:一个用于在杂乱场景中估计6D物体姿态的卷积神经网络。RSS2018,2017。[39] Xinchen Yan,Jimei Yang,ErsinYumer,Yijie Guo和HonglakLee。透视变换网络:学习单视角3D物体重建而无需3D监督。在NeurIPS,2016。[40] Tinghui Zhou,Yong Jae Lee,Stella XYu和Alyosha AEfros。Flowweb:通过编织一致的像素对应关系进行联合图像集对齐。在CVPR,2015。[41] Tinghui Zhou,PhilippKr¨ahenb¨uhl,Mathieu Aubry,Qixing Huang和Alexei A.Efros。通过3D引导的循环一致性学习密集对应关系。在CVPR,2016。[42] Xiangyu Zhu,Zhen Lei,Xiaoming Liu,HailinShi和Stan ZLi。在大姿势范围内进行人脸对齐:一种3D解决方案。在CVPR,2016。[43] Silvia Zuf�,Angjoo Kanazawa,TanjaBerger-Wolf和Michael J Black。Three-dsafari:学习从野外图像中估计斑马的姿态、形状和纹理。2019年。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功