没有合适的资源?快使用搜索试试~ 我知道了~
基于无监督几何感知的三维人体姿态估计方法
基于无监督几何感知的三维人体姿态估计Helge Rhodin[3−2692−0801],Mathieu Salzmann[2−8347−8637],Pascal Fua[2−6702−9970]瑞士洛桑联邦理工学院CVLab{helge.rhodin,mathieu.salzmann,pascal.fua}@ epfl.ch抽象。现代3D人体姿态估计技术依赖于深度网络,这需要大量的训练数据。虽然弱监督方法需要较少的监督,但是通过利用没有注释的2D姿态或多视图图像,它们仍然需要具有3D注释的足够大的样本集合以用于学习成功。在本文中,我们建议克服这个问题,通过学习几何- try-aware身体表示从多视图图像没有注释。为此,我们使用编码器-解码器,该编码器-解码器在给定来自另一个视点的图像的情况下从一个视点预测图像。因为这种表示对3D几何体进行编码,所以在半监督设置中使用它可以更容易地从它学习到3D人体姿势的映射正如我们的实验所证明的那样,我们的方法在给定相同数量的标记数据的情况下显着优于全监督方法,并且在使用低至1%的标记数据的情况下优于其他半监督方法关键词:3D重建,半监督训练,表示学习,单目人体姿态重建。1介绍目前大多数3D人体姿态估计的单目解决方案依赖于基于卷积神经网络(CNN)的方法随着网络变得越来越复杂,现在的主要瓶颈是足够大的训练数据集的可用性,这通常需要大量的注释工作。虽然这样的努力对于少数对象和特定运动(诸如行走或跑步)可能是实用的,但是覆盖整个范围的人体形状、外观和姿势是不可行的。因此,减少实现期望性能水平所需的注释量的弱监督方法是有价值的。例如,基于铰接式3D骨架的方法不仅可以使用实际的3D注释进行训练,还可以使用2D注释[21,54]和多视图镜头[25,47]进行训练。一些方法完全免除2D注释,而是利用同步相机采集的序列中的多视图几何结构[31,55]。然而,这些方法仍然需要足够好的3D训练集来初始化2Helge Rhodin,Mathieu Salzmann,PascalFua无监督无监督几何感知表示学习半监督3D姿态估计(一)损失损失输入图像预训练三维潜浅输出姿势GT姿势输入图像深度CNN输出姿势GT姿势编码器变量NN(b)(c)第(1)款图1:接近。(a)在训练期间,我们首先使用未标记的多视图图像学习几何感知表示然后,我们使用少量的监督来学习从我们的表示到实际3D姿势的映射,这只需要一个浅层网络,因此监督量有限。(b)在运行时,我们计算测试图像的潜在表示并将其馈送到浅层网络以计算姿势。(c)相比之下,大多数最先进的方法训练网络直接从图像回归到3D姿势,这需要更深的网络,因此需要更多的训练数据。学习过程,它对使用未标记示例可以实现的绝对增益设置了限制在本文中,我们提出使用从多个视图中拍摄的同一个人的图像来学习潜在表示,如图1的左侧所示。如图1(a)所示,捕获人体的3D几何形状。学习此表示不需要任何2D或3D姿势注释。相反,我们训练一个编码器-解码器来预测从一个视点看到的图像,从一个不同的视点捕获的图像。如图1右侧所示在图1(a)中,我们然后可以然而,我们的方法的关键在于,因为我们的潜在表示已经捕获了3D几何形状,所以到3D姿态的映射要简单得多,并且可以使用比依赖于多视图监督的现有方法[31,55]少得多的示例来学习,并且更一般地,可以使用试图直接从图像回归到3D姿态的最先进的方法如可见于图1,我们的潜在表示类似于体积3D形状。虽然这样的形状可以从轮廓[50,45]中获得,但身体轮廓通常难以从自然图像中提取。相比之下,学习我们的表示不需要任何轮廓信息。此外,在测试时,它可以从人的单目视图获得。最后,它也可以用于新视图合成(NVS),并在自然图像上定性地优于现有的编码器-解码器算法[36,37,23]。监督无监督几何感知表示3因此,我们的贡献是一个潜在的变量身体模型,可以在没有2D或3D注释的情况下学习,对3D姿势和外观进行编码,并且可以集成到半监督方法中以减少所需的监督训练数据量。我们在著名的Hu-man 3.6 Million [13]数据集上证明了这一点,并表明当只有少数标记的示例可用时,我们的方法在3D姿态重建准确性方面大大优于完全监督的方法。2相关工作在下文中,我们首先回顾了关于单目3D人体姿态估计的半监督方法的文献,这与我们的目标最密切相关然后,我们讨论的方法,像我们一样,利用几何表示,无论是在和人类姿态估计的背景下,最后简要回顾了新颖的视图合成文学,启发了我们。半监督人体姿态估计。虽然大多数当前人类姿势估计方法[25,54,24,42,27,20,22,33,38]是完全监督的,依赖于用来自多视图运动捕捉系统[21,12]的地面实况3D位置注释的大型训练集,但最近已经提出了几种方法来限制对标记数据的要求在这种情况下,前方和背景增强[30,32]以及合成数据集[2,48]的使用集中在增加训练集大小上。不幸的是,这些方法不能很好地推广到与模拟数据不同的新运动、服装和环境由于存在用于2D姿态估计的更大和更少约束的数据集,因此它们已用于迁移学习[47,22]并提供重新投影约束[54]。此外,给定同一个人的多个视图,可以从2D检测中对3D姿态进行三角测量[25,14],并且可以在从注释引导之后将2D姿态网络训练为视图一致的然而,这些方法仍然需要在捕获目标运动和外观的图像中进行2D注释相比之下,[31,55]的方法利用由同步相机获取的序列中的多视图几何形状,从而消除了对2D注释的需要然而,在实践中,它们仍然需要足够大的3D训练集来初始化和约束学习过程。我们将展示我们从多视图图像中学习的几何感知潜在表示,但没有注释,允许我们使用更少的标记数据来训练3D几何感知表示。多视图图像长期以来一直用于从轮廓导出3D人体姿势的体积表示,例如通过雕刻出空白空间。这种方法可以与基于学习的方法[44]结合使用,通过如果可以在重建之前推断观察到的形状的分布,则它甚至可以扩展到单视图训练场景[56,8]。然而,这些方法的主要缺点是,准确的轮廓是很难自动提取在自然场景中,这限制了它们的适用性。4Helge Rhodin,Mathieu Salzmann,PascalFua另一种编码几何形状的方法依赖于从3D表示生成图像的渲染器[9,35,16,52],并且可以用作自动编码器设置中的解码器[1,39]。对于简单的渲染器,渲染函数甚至可以学习[5,6]并充当编码器。当放在一起时,这种学习的编码器和解码器已用于无监督学习,无论是有GAN [3,43,46]还是没有GAN [17]。在[41,40]中,CNN被训练为在没有监督的情况下映射到球形网格表示。虽然这些方法也有效地学习基于图像的几何感知表示,但它们仅应用于约束良好的问题,例如人脸建模。因此,不清楚它们将如何推广到3D人体姿势的更大程度的可变性。新颖的视图合成。我们的方法借用的想法,从新颖的视图合成文学,这是致力于从以前看不见的观点创建逼真的图像的任务最新的技术依赖于编码器-解码器架构,其中潜在代码被增强了视图变化信息,例如偏航角,并且解码器学习从新的角度重建编码图像[36,37]。大的视图变化是困难的。它们是通过依赖于执行增量旋转步骤的循环网络来实现的光流信息[23,53]和深度图[7]已用于进一步改进结果。虽然在简单对象上展示了上述然而,这些方法中的大多数使用附加信息作为输入,例如部分分割[18]和2D姿势[19]。在这里,我们建立在[4,49]的方法上,这些方法被设计用于处理大的视点变化。我们在第3节中更详细地描述了这些方法和我们的扩展3无监督的几何感知潜在表示我们的目标是设计一个潜在的表示L,它编码3D姿态,以及形状和外观信息,并且可以在没有任何2D或3D姿态注释的情况下学习。为了实现这一点,我们建议利用从多个同步和校准的相机获取的图像序列为了有用,在设置和采集过程期间需要小心这样的镜头。然而,与注释数万个2D或3D姿势所需的工作量相比,所涉及的工作量可以忽略不计。为了使L实用,它必须容易解码成其各个分量。为此,我们从图像中学习身体的3D姿态和几何形状的单独表示,这是一个很好的方法,以及身体的形状。我们将它们分别称为L3D、Lapp和B让我们假设我们被给定一个集合,U={(Ii,Ij)}Nu,Nu个图像对不tt =1无注释,其中i和j上标表示使用以捕获图像,并且下标t为采集时间。令Ri-j是从相机i的坐标系到相机j的坐标系的旋转矩阵。现在我们转向学习L的各个组成部分无监督几何感知表示5编码器解码器潜在变量3D潜在变量(几何感知)信息流训练损失轮换输入图像(from照相机i)输出图像目标图像(for照相机j)(from照相机j)输入图像输出图像输入图像摄像机旋转(摄像机i到摄像机j)目标背景几何感知3D表示学习传统自动编码器图2:表示学习。我们学习一种编码几何的表示法-尝试并由此以无人监督的方式获得3D姿态信息。我们的方法(左)扩展了传统的自动编码器(右)的三维潜在空间,旋转操作,和背景融合模块。3D旋转强制3D信息的显式编码背景融合使得能够应用于自然图像。学习编码多视图几何。对于单个图像,自动编码器,如图右侧所示。2已经成为在无监督设置中学习潜在表示的标准工具。假设这样的自动编码器包括编码器Eθe和解码器Dθd,其中θe和θd是控制它们的行为的权重。为了图像表示的目的,可以使用自动编码器将图像I编码为潜在表示L = Eθe(I),其可以被解码为重建结构图像(I=Dθd(L))。 θe和θd通过在v e r a t e t U上的v erat为了利用多视图几何,我们从Novel View合成方法[36,37,4,49,11]依赖于训练编码器-解码器上的同一物体的多个视图,如汽车或椅子。设(I, I,j)∈ U为不不从不同视点但同时拍摄的两个图像。由于我们被给予连接两个视点的旋转矩阵Ri-j,因此我们可以将该信息作为附加输入馈送到编码器和解码器并训练如[36,37]中所示,将它们编码Ii并重新合成Ij然后,小说的观点t t可以通过改变旋转参数Ri-j来渲染对象。然而,这并不强制潜在表示显式地编码3D信息。为此,我们通过设计编码器Eθe和解码器Dθe将潜在表示L3D∈R3×N建模为3D空间中的N个点的集合,使得它们分别具有三声道输出和输入,如图1的左侧所示二、这使得我们能够通过在将其用作解码器的输入之前将编码器输出与旋转矩阵进行矩阵乘法来形式上,所得到的自动编码器Aθe,θd的输出可以写为:Aθ,θ(Ii, Ri→j)=Dθ(Ri→j L3D),其中L3D =Eθ(Ii),(1)eD 不di,ti,te不并且权重θd和θe被优化以最小化Aθ,θ(Ii, Ri→j)−I je d t t训练集U.在这个设置中,它也被用于[4,49],并受到启发[11],解码器D不需要学习如何将输入旋转到新视图,而仅需要学习如何解码3D潜在向量L3D。 这意味着编码器被迫映射到适当的3D潜在空间,即仍然可以解码的空间6Helge Rhodin,Mathieu Salzmann,PascalFua不输入图像(from相机k和帧输出图像(for相机k输入图像(from相机i和帧t)输出图像目标图像(for照相机j(来自摄像机j和帧t)和帧t)从摄像机i到摄像机j的输出的信息流,帧t未使用的信息一维表观潜变量训练损失旋转交换编码解码1D外观变量三维潜变量表象表征学习图3:外观表征学习。为了编码主体身份,我们将潜在空间分成3D几何部分和外观部分。 后者不是旋转的,而是在描绘同一主题的两个时间帧t和t’之间交换,以便强制它不包含几何信息。在任意旋转之后,由D然而,虽然L3D现在对多视图几何进行编码,但其还对所述背景和所述背景的应用进行编码。我们现在的目标是将它们从L3D中分离出来,并创建两个新的矢量B和Lapp,它们对后两个矢量进行编码,使得L3D仅表示几何形状和3D姿态。排除背景因素。让我们假设我们可以例如通过取从给定视点j拍摄的所有图像的中值来构造背景图像Bj。为了将它们分解出来,我们在解码器中引入到目标背景Bj的直接连接,如图1B所示二、更具体地说,我们将背景图像与解码器的输出连接起来,并使用额外的1× 1卷积层来合成解码图像。 这使得网络的其余部分不必学习背景,并确保我们学习的L3D向量不再包含有关它的信息。不考虑外表。为了在我们的潜在表示中将外观与几何分离,我们将编码器E的输出分解为两个单独的向量L3D和Lapp,它们分别描述姿势和外观为了加强这种分离,我们同时在两个帧It和It’上进行训练,这两个帧在不同的时间t和t’描绘相同的主题,如图所示3.第三章。虽然解码器使用L 3D和L 3D,但与之前一样,它交换了L app和L app。 在tt′tt′换言之,解码器使用L3D和Lapp来重新合成帧t和L3D。tt′t′Lappfororframet′. 由于t和t’之间的外观的变化并不剧烈,并且图像中的差异是由3D姿态变化引起的,因此这导致L个3D编码姿态,而L个app编码外观。实际上,编码器E有两个输出,即Eθ:Ii→(L3D,Lapp)eti,t i,t并且解码器Dθd在交换之后接受这些加上背景作为输入外观和旋转两个视图i和j的几何表示。因此,我们将编码器-解码器的输出写成A(I i,Ri-j,Lapp,B)= D(Ri-j L3D,Lapp,B)。(二)θe,θdtk,t′jθdi,tk,t′j视点k可以是任意的。关键是它是从使得t和t’处的姿态不相关。因此仅无监督几何感知表示7时不变外观特征被编码到Lapp中。类似的信息交换已经在[28]中进行了类比变换。它与分离面部身份,姿势和照明的作品有关[17,51,26]。组合优化。用几个人的序列训练A和背景,我们随机选择U中的Z个三元组(Ii, Ij, Ik)的小批次,不不t ′其中t/=t′,来自单个序列。换句话说,所有三个视图都以同一个人为特征。前两张照片是同时拍摄的,但拍摄的角度不同.第三个是在不同的时间和从任意视点k拍摄的。对于每个这样的小批量,我们计算损失1ΣE=A(Ii, Ri→j,Lapp, B)−Ij, (3)θd,θeZ Ii, Ij,Ik∈Uθe,θdtk,t′jtt tt′t=/ t′其中L′=(L3D,Lapp)是编码器E的输出应用于图像Ik,Bk,tk,t′k,t′θet′j是视图j中的背景,Ri→j表示从视图i到视图j的旋转J. 请注意,我们应用E两次,以获得等式中的L3D和Lapp3、忽略LApp和L3Di,t通过上面讨论的交换。k,t′i,tk,t′在训练时,我们将总损失最小化,该总损失是像素方面的Eq.的误差Eθd,θe3和第二项,通过首先在输出和目标图像上应用具有在ImageNet上训练的18层的Resnet,然后在第二个块级之后计算特征差异来获得,如之前通过[23]使用VGG所对所有单个像素和特征差异进行平均,并且通过将特征损失加权2来平衡它们的影响我们用L1和L2规范进行实验。与附加特征项组合的L1范数允许更清晰的解码和改进的姿态重构。翻译和增强。 对象缩放和深度方向上的平移对于单眼重建和NVS而言本质上是不明确的。 为了使我们的模型对这些效果保持不变而不是模糊,我们使用训练数据集中提供的作物信息。 我们计算相对于裁剪中心而不是图像中心的两个视图之间的旋转,并剪切裁剪的图像,使得它看起来好像是从指向裁剪方向的虚拟相机拍摄的。由于人类处于相同的位置和比例,这些裁剪消除了对对象建模和相机平移的需要我们还应用随机平面内旋转来增加视图多样性。因此,Ri→j和Bj依赖于时间t,但为了可读性,我们在符号中忽略了这一点43D人体姿势估计回想一下,我们的最终目标是从单目图像中推断出人的3D姿态由于L3D可以旋转并用于生成新视图,我们已经在这方面取得了一定的进展。作为一个3×N矩阵,它可以被理解为一组N个3D点,但这些点没有任何语义意义。然而,在大多数实际8Helge Rhodin,Mathieu Salzmann,PascalFuat=1在一些应用中,必须推断预定义的表示,诸如具有K个主要人体关节的骨架,其被编码为向量p ∈R3K。为了实例化这样的表示,我们需要映射F:L3D→R3K,其可以被认为是重建3D姿态而不是图像的不同解码器要学习它,我们依靠监督。然而,正如我们将在结果部分中看到的,所需的人类注释量远远小于直接从图像学习映射所需的量,如在许多其他最近的人类姿势估计方法中一样。设L={(It,pt)}Ns是由图像构成的N个标记示例的小集合对和对应的地面实况3D姿态。我们将F建模为深度网络其中参数为θf。我们通过优化业务结合功能来实现Eθ= 1ΣNsFθ(L3D)−pt(四)fNsft tet=1因为我们的潜在表示L3D已经编码了人类3D姿势和形状,所以F可以被实现为简单的两层全连接神经网络。与第3节中介绍的以无监督方式训练的编码器-解码器一起,它们形成由图2所示的半监督设置。第1段(b)分段。换句话说,我们的无监督表示在将图像提升到3D表示的困难任务中做了很多艰苦的工作,这使得最终的映射相对容易。5评价在本节中,我们首先评估我们在3D人体姿势估计任务上的方法,这是我们的主要目标应用,并表明我们的表示使我们能够使用比最先进的方法少得多的注释训练数据来实现更好的准确性。然后,我们评估我们的潜在空间本身的质量,并表明它确实编码的几何形状,外观和背景分开。数据集。我们使用众所周知的Human3.6M(H36M)[12]数据集。它被记录在一个校准的多视图工作室和地面实况人类姿势可用于所有帧。 这使得很容易比较不同的监督级别,非监督,半监督或完全监督。与以前的方法[54,31,42,27,22]一样,我们使用数据集提供的边界框来裁剪图像。5.1半监督人体姿态估计我们的主要重点是半监督人体姿态估计。 我们现在证明,如图所示。4,当有大量带注释的训练数据可用时,最近的最先进的方法可以比我们做得更好。然而,随着我们使用越来越少的这些注释,基线的准确性受到很大影响,而我们的则没有,这在注释难以获得的情况下具有显着的优势我们现在详细解释图1B的曲线图如何被改变。四是提出并进一步讨论其意义。无监督几何感知表示9185175165155145135125115 10595N-MPJPE(mm)类型方法MPJPE NMPJPE PMPJPE全监督S1ResNet177.2166.5135.649 496 2.5k 5k 25k 49k 129k 179k 370k[31]第三十一话n/a153.3128.6(0.1% S1)(1% S1)(5% S1)(10% S1)(50% S1)( S1)(S1+S5)(S1+S5+S6)(所有子)半监督S1OursUnet149.5135.9106.4OursUnet OursResnet OursResnetL1 Resnet RhodinCVPROursResnet131.7122.698.2(a)(b)图4:(a)作为训练样本数量的函数的性能。 当使用H36 M中所有可用的带注释的3D数据时,即370,000张图像,Rhod- inCVPR和Resnet产生比我们的方法更好的准确性。然而,当tramplingeringea min ge d el ed e l es e ledelow180' 000时,bas e e l i n e s a cc ura d e d e s e s a c u ra d e s e d e s e s a ed e s e s a c u ra d e s a d e s e s a d e s e s a d e s e s a d e s e s a e d e s e s a d es e s a e s e s d e s e s a d e s d e s e s a e s e s d e s e s a e s d e s d e s e s,而OursResnet降级得多优雅,并且我们的准确性变得明显更(b)这种改进在各个指标中是一致的。指标.我们评估姿态预测精度的平均每联合预测误差(MPJPE),其归一化的变体N-MPJPE和P-MPJPE,其中姿势对齐地面实况在最小二乘意义上的规模,只有或在规模,旋转和平移,分别计算MPJPE之前。后者也被称为Procrustes对齐。我们在16个主要的人体关节上做这件事,所有的位置都以骨盆为中心,如[54]所示。我们的结果在所有指标上都是一致的,如图所示。第4(b)段。基线。我们将我们的方法与[31]的最先进的半监督方法进行比较,该方法使用与我们相同的输入并输出归一化姿势。我们将其称为RhodinCVPR。我们还使用流行的基于ResNet的架构[22]直接从图像回归到3D姿态,如图所示。1(c),我们将其称为Resnet。请注意,在文献[24,20,54,38,27]中已经报道了H36M上比RhodinCVPR和Resnet更高的准确性,但它们取决于更复杂的架构和使用额外的信息,例如标记的2D姿势[22,54,38,20]或语义分割[27],这不是我们的重点。我们希望表明,当只使用3D注释并且其中没有太多可用时,我们的表示仍然可以让我们表现得很好。实施.我们将我们的编码器-解码器架构基于UNet [34]网络,该网络用于执行[19]中的类似任务我们简单地删除跳过连接,以强制将所有信息编码到潜在空间中,并将特征通道的数量减少一半。具体地,编码器E由两个卷积的四个块组成,其中每两个卷积之后是最大池化。对于128× 128像素的输入图像分辨率,所得卷积特征的维度为512× 16× 16这些被映射到Lapp∈R128和L3D∈R200×3,通过一个单一的全连接层,然后以概率0.3丢弃解码器D映射10Helge Rhodin,Mathieu Salzmann,PascalFua将L3D映射到尺寸为(512 − 128)× 16 × 16的特征映射,其中具有全连接层,然后是ReLU和dropout,并复制Lapp以形成大小为128 ×16 × 16的空间统一映射。这两个映射被级联,然后通过两个卷积的四个块来重构,其中第一卷积之前是双线性插值,并且所有其他对之前是上卷积。 每个卷积之后是批量归一化和ReLU激活函数。我们还尝试了一个变体,其中编码器E是一个现成的Resnet,有50层[10],在ImageNet上预先训练,解码器与之前相同。我们将这两个版本分别称为OursUnet和OursRes-net。姿态解码器F是具有维度为2048的两个隐藏层的全连接网络。地面实况构成方程的最小二乘损失。4被定义为以根为中心的3D姿态。姿势和图像通过它们在训练集上的平均值和标准差 我们使用大小为32的小批量,并使用长度为1 0−3的Ad最优化器来优化θe、θd和θf。数据集拆分。在H36 M上,我们将用于学习我们的表示的未标记集U作为完整的训练集-S1,S5,S6,S7和S8,其中SN是指第N个主题的所有序列-但没有可用的3D标签。提供所需的监督以训练图1的浅层网络1(b),然后我们定义几个场景。– 全监督训练,所有五个训练科目的3D注释– 我们使用S1、S1和S5或S1、S5和S6的所有3D注释– 对于S1,我们仅使用50%、10%、5%、1%或0.1%的3D注释在所有情况下,我们使用S9和S11进行测试。我们以10ps对测试和训练视频进行子采样,以减少冗余和验证时间。我们使用的注释图像的结果4.第一章与现有技术的比较。RhodinCVPR是唯一一种设计用于利用未标记的多视图镜头而不使用补充2D数据集的方法[31]。OursUnet的表现明显优于它,例如,在标记的受试者S1上增加了13.6mm(8.9%相对改善),而OursResnetL1甚至获得了35.7mm的增益(23.3%相对改善)。 事实上,Resnet架构,训练过程和数据集分割对于我们的方法和RhodinCVPR是相同的,这证明这种收益是由于我们利用未标记示例的新方式,从而显示了以无监督方式学习几何感知潜在表示的有效性。讨论和消融研究。如图4,当使用超过300,000个注释图像时,基线优于我们。然而,他们的准确性迅速下降时,更少的可用和我们的方法,然后开始占主导地位。它只会在5,000张图像下非常缓慢地失去准确性,并且仅在500张图像下仍我们在等式中使用L2损失。默认情况下为3,因为我们的主要目标是3D姿态估计,而不是NVS质量。然而,有趣的是,使用L1损失不仅使重建更清晰,而且使3D姿势估计更准确。它无监督几何感知表示11方法N-MPJPE P-MPJPE⋆OursUnet145.6112.2⋆OursUnet,不带外观空间,如[4,49]159.0117.1⋆OursUnet,无后台处理,如[4,49]159.6124.6⋆OursUnet,不含3D潜在空间,如[36,37]191.7139.0方法N-MPJPE P-MPJPE⋆OursUnet145.6112.2⋆OursUnet,双线性上采样149.2114.1⋆OursUnet,w/o ImgNet loss154.1118.7⋆OursUnet,F,带1个隐藏层157.4121.9输入i视图j。. . decodedViewj′。. . decodedViewj′′。. . 解码◦ ◦ ◦ ◦ ◦ ◦ ◦ ◦0 45 90 135 180 225 270 315图5:新视点合成。第一排其左侧的三个图像对中的每一个包括从不同视点获取的原始图像和从输入图像i合成的图像。最后一排。我们还可以合成以前看不见的视点的图像并去除背景。将姿态精度一致地提高约5%,如图中的OursResnetL1所示。4.除非另有说明,否则所有结果均采用L2度量产生。为了更好地评估我们方法的不同方面,我们使用OursUnet版本进行消融研究,其结果见表1。简而言之,不分离背景和外观潜在空间使N-MPJPE减少14 mm,并且使P-MPJPE减少超过12 mm。在F中使用两个隐藏层而不是一个,将精度提高了12 mm。 基于ResNet-18特征的损失项不仅导致更清晰的NVS结果,而且还将姿态估计提高了9 mm。对所有解码层使用双线性上采样而不是去卷积将性能降低4 mm。到目前为止,当我们使用我们的标准OursUnet架构但没有我们的几何感知3D潜在空间。它出现在左边表格的最后一行,强烈表明使用我们的潜在表示比以各种方式调整架构具有更大的影响。5.2定性评估潜在表示我们现在转向通过在OursUnet上进行的一些实验来评估我们的潜在表示的质量我们表明,几何形状可以分离的外观和背景,这提高了结果。合成图像的质量在补充视频中最佳可见⋆无旋转增强。误差以mm为单位报告。表1:消融研究,使用S1进行半监督训练。NVS方法[36,37]和[4,49]的扩展以及进一步的模型选择提高了准确性。12Helge Rhodin,Mathieu Salzmann,PascalFua◦ ◦ ◦ ◦ ◦ ◦ ◦ ◦电话:+86-0512 - 8888888传真:+86-0512 - 8888888图6:消融研究。第一排在没有背景处理的情况下,如在[4,49]中所使用的,合成的前景姿势看起来模糊。第二排在没有几何感知潜在空间的情况下,如[36,37]所使用的,结果在新视图中是不准确和模糊的。第三排 OursResnet可以准确地捕捉姿势和外观,但轮廓仍然模糊。第四排OursResnetL1产生更精确的结果。新视图合成。回想一下第3节,E将图像编码为变量L3D和Lapp,它们分别表示几何形状和为了验证这一点,我们将L3D乘以不同的旋转矩阵R,并将结果与原始Lapp一起馈送到D。图图5描绘了这样的合成的新颖视图。为了比较的目的,在图。6,我们合成旋转图像,而不使用我们的几何感知潜在空间,即[37]。由此产生的图像比OursResnet的图像要模糊得多。图6进一步示出了在没有后台处理的情况下结果降级,即如[4,49,11]中所示使用L1而不是L1损失进一步提高了重建质量。测试对象穿着与训练数据中看到的颜色和形状不同的衣服。作为结果,合成图像中的几何形状保持正确,但是外观最终是训练外观的混合,其近似于未看见的外观。可以说,使用训练集中出现的五个以上的主题应该会导致更好的外观编码,这是我们计划在未来的工作中调查的。外观和背景切换。 设Ij和Ig是受试者j和g以及(L3D, Lapp,Bj)=E(Ij)和(L3D, Lapp,Bg)=E(Ig)j jg g编码。使用一个的L 3D和另一个的L app进行重新编码产生诸如图1所示的结果。7.请注意,一个的外观将正确地转换为另一个的姿势,而几何体在旋转时保持不变。该方法可以用于通过改变现有多视图序列的外观来合成由多个演员执行的相同运动的图像,从而生成附加的训练数据。无监督几何感知表示13输入主题A输入主题A. . .过渡. . .过渡. . .受试者B. . .受试者B目标目标◦ ◦ ◦ ◦ ◦ ◦ ◦ ◦0 45 90 135 180 225 270 315图7:外观分离。上面两排。通过混合外观特征向量,可以将相同的姿势解码为不同的身份在第一行中,两个受试者都出现在训练集中。在第二行中,它们来自测试集。下面两排 我们生成旋转视图的测试对象和其转移的外观,以证明外观可以改变而不影响3D姿势。输入新视图白色图片Bg.pic.输入新视图白色图片Bg pic.图8:背景分离。背景与前景分开处理,并且可以在解码时任意选择从左到右,在输入背景上、在新视图上、在白色上和在图片上解码的输入第一行是来自训练集的某人,第二行是来自测试集的某人。类似地,我们可以在解码潜向量之前切换背景而不是外观,如图所示。8.在一种情况下,我们将背景设为白色,在另一种情况下,我们使用自然场景。在第一种情况下,在主体下方可以看到黑色斑块,显然是对隐式学习的阴影效果进行了建模。在第二种情况下,绿色的树往往被渲染为或- ange,因为我们的训练场景大多是红色的-一个更大的训练数据库几乎肯定会解决这个问题。5.3概括与局限为了分析无监督训练的可扩展性,我们只使用五个无监督训练对象中的四个进行测试额外的受试者通过16 N-MPJPE大幅这表明培训还没有14Helge Rhodin,Mathieu Salzmann,PascalFua◦ ◦ ◦ ◦ ◦ ◦ ◦ ◦电话:+86-0512 - 8888888传真:+86-0512 - 8888888图9:如果在训练和测试中看到前景对象,也会重建前景对象。输入偏航横滚俯仰图10:3DHP上的泛化我们的NVS解决方案可以很好地推广到3DHP中的不同摄像机位置,允许偏航、俯仰和滚动变换。通过利用巨大的未监督集,饱和和高得多的准确度似乎是可能的。这些,无论是室内还是室外,都相对容易获得。在我们使用的数据中,一些图像包含受试者坐在上面的椅子有趣的是,如图9、通过我们的方法忠实地重建了椅子的外观和3D位置。这表明,它不是特定于人类的姿势,可以概括为刚性对象以及多个对象类。在未来的工作中,我们打算将其应用到更一般的问题。我们进一步在MPI-INF-3DHP(3DHP)[21]数据集上测试了我们的方法,该数据集具有更多样化的服装和视角,例如低挂和天花板摄像头,因此非常适合探测NVS的极端条件。在不改变任何参数的情况下,OursResnet能够合成滚动,偏航和俯仰的视图变换,如图所示。10.在H36M上,由于只有胸部高度的训练视图,无法学习6结论我们已经介绍了一种方法来学习的几何感知表示的人体在无监督的方式,只给出多视图图像。我们的实验表明,这种表示是有效的,作为一个中间的3D姿态估计和新的视图合成。对于姿态估计,当只有很少的注释数据可用时,我们的半监督方法比最先进的方法在未来的工作中,我们将通过学习更大的多视图数据集的等效潜在表示来扩展其范围,但仍然是以无监督的方式。谢谢。这项工作得到了微软联合研究项目的部分支持。无监督几何感知表示15引用1. Bas,A.,Huber,P.,史密斯,W. Awais,M.,Kittler,J.:3D变形模型作为空间Transformer网络。ArXiv预印本(2017)2. 陈伟,王,H.,李,Y.,Su,H.,王志,Tu,C.,Lischinski,D.,Cohen-or,D.,陈,乙:合成训练图像以增强人体3D 姿态估计。电影3DV(2016)3. 陈旭,段玉,Houthooft河Schulman,J.,萨茨克弗岛Abbeel,P.:In-fogan : Interpretable Representation Learning by Information MaximizingGenerative Adversarial Nets.在:神经信息处理系统的进展pp. 21724. Cohen , T. , Welling , M. : 学 习 视 觉 表 征 的 变 换 特 性 02 The Dog(2014)5. Dosovitskiy,A.,Springenberg,J.,Brox,T.:学习用卷积神经网络生成椅子。计算机视觉与模式识别会议(2015)6. Dosovitskiy,A.,Springenberg,J.,Tatarchenko,M.,Brox,T.:学习用卷积 网 络 生 成 椅 子 、 桌 子 和 汽 车 。 IEEETransactionsonPatternAnalysandMachineIntellige39(4),6927. Flynn,J.,纽兰德岛,Philbin,J.,Snavely,N.:Deepstereo:学习从世界的 记 忆 中 预 测 新 的 视 觉 。 I : C 〇 nferenceonC 〇 nputerVisionandPaternRecognition。pp. 55158. Gadelha,M.,Maji,S.,Wang,R.:从多个对象的2D视图的3D形状归纳。arXiv预印本arXiv:1612.05872(2016)9. Grant,E.,Kohli,P.,范·M Gerven:Deep Disentangled Representations forVolumetricReconstructi on.In:EuropeanConferenceonCom up uterVison。pp.26610. 他,K.,张,X.,Ren,S.,孙杰:用于图像识别的深度残差学习。In:CVPR. pp. 77011. Hinton,G.Krizhevsky,A.,Wang S.:转换自动编码器。In:Interna-tionalCo nfere nArticialNe uralNetwo r ks.pp. 第4412. 约内斯库角卡雷拉,J.,Sminchisescu,C.:用于3D人体姿态估计的迭代二阶标签敏感池。计算机视觉与模式识别会议(2014)13. 约内斯库角帕帕瓦岛Olaru,V.,Sminchisescu,C.:Human3.6M:自然环境中3D人体感知的大规模数据集和预测方法IEEE Transactions onPattern Analysis and Machine Intelligence(2014)14. Joo,H.,刘洪,谭湖Gui,L.,Nabbe,B.,马修斯岛Kanade,T.,Nobuhara,S.,Sheikh,Y.:Panoptic Studio:一个用于社交运动捕捉的大规模多视图系统计算机视觉国际会议(2015)15. K ar,A., Ha?e,C., Malik,J. :Learningigamulti-vies t eomachine。N:NeuralI inPr oces pp. 36416. Kim,H., Zollhüofer,M. ,Te wari,A., 这是J Ri chardt,C., C. :在网络中:从单个图像进行深度单次反向面部渲染。ArXiv预印本(2017)17. Kulkarni,T. D.,Whitney,W. Kohli,P.,Tenenbaum,J.B.:深度卷积逆图形网络。电影ArXi
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- NIST REFPROP问题反馈与解决方案存储库
- 掌握LeetCode习题的系统开源答案
- ctop:实现汉字按首字母拼音分类排序的PHP工具
- 微信小程序课程学习——投资融资类产品说明
- Matlab犯罪模拟器开发:探索《当蛮力失败》犯罪惩罚模型
- Java网上招聘系统实战项目源码及部署教程
- OneSky APIPHP5库:PHP5.1及以上版本的API集成
- 实时监控MySQL导入进度的bash脚本技巧
- 使用MATLAB开发交流电压脉冲生成控制系统
- ESP32安全OTA更新:原生API与WebSocket加密传输
- Sonic-Sharp: 基于《刺猬索尼克》的开源C#游戏引擎
- Java文章发布系统源码及部署教程
- CQUPT Python课程代码资源完整分享
- 易语言实现获取目录尺寸的Scripting.FileSystemObject对象方法
- Excel宾果卡生成器:自定义和打印多张卡片
- 使用HALCON实现图像二维码自动读取与解码
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功