单个RGB相机重构服装中的3D人体形状与外观

103 浏览量更新于2023-10-17 收藏 1.87MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1学习从单个RGB摄像机重构服装中的人物Thiemo Alldieck1，2，* Marcus Magnor1 Bharat Lal Bhatnagar2Christian Theobalt2 Gerard Pons-Moll21计算机图形实验室，TU Braunschweig，德国2马克斯·普朗克信息学研究所，萨尔信息学院，德国{alldieck，magnor}@ cg.cs.tu-bs.de{bbhatnag，theobalt，gpons}@ mpi-inf.mpg.de图1：我们提出了一种基于深度学习的方法，使用单个RGB相机来估计个性化的体型，包括头发和衣服上面显示的形状仅使用8个输入图像计算，并使用SMPL重新定位。摘要我们提出了Octopus，这是一种基于学习的模型，可以从单眼视频的几帧（1-8帧）中推断出从语义分割图像中，我们的Octopus模型可以在10秒或更短的时间内重建3D形状，包括SMPL加上衣服和头发的参数。该模型基于两个关键的设计选择实现了快速准确的预测。首先，通过在规范的T姿态空间中预测形状，网络学习将人的图像编码成姿态不变的潜在代码，其中信息被融合。其次，基于前馈预测速度快但并不总是与输入图像对齐的观察，我们使用自下而上和自上而下的流（每个视图一个）进行预测，允许信息在两个学习仅依赖于合成的3D数据。一旦学会，Octopus可以将可变数量的帧作为输入，并且能够以5mm的精度在3个不同的数据集上的结果证明了我们的方法的有效性和准确性。代码在[2]中可用。* 部分工作是在马克斯·普朗克信息学的真实虚拟人类小组实习期间进行的。1. 介绍包括服装和面部细节的详细3D人体形状和外观的自动获取对于诸如VR/AR、游戏、虚拟试穿和电影摄影的许多应用是需要的。获取此类模型的常见方法是使用扫描仪或多视图工作室[3，46]。成本和尺寸阻碍了这种装置的广泛使用。因此，许多作品致力于用更实际的设置来捕捉身体形状和姿势，例如，从少量摄像机[60]，或者使用一个或多个深度摄像机，或者专门用于人体[9，77，84]或者用于一般自由曲面[88，51，54，37，26，70]。最实用但也具有挑战性的设置是从单个单目RGB相机捕获。一些方法试图从单个图像中推断身体模型的形状参数[41，53，10，24，8，32，86，39，55]，但重建的细节被约束到模型形状空间，因此不能捕获个性化的形状细节和服装几何学。最近的工作[6，5]估计更详细的形状，包括服装，从一个人在相机前旋转，同时保持粗略的A姿势的视频序列虽然重建的模型具有高质量，但优化方法仅对形状成分需要约2分钟。更重要的是，主要的瓶颈是预处理步骤，这需要使用耗时的非线性拟合算法将SMPL模型拟合到每个帧轮廓11751176线性优化（120帧，120分钟）。这是不切实际的许多应用程序，需要快速acquisi和灰，如网真和游戏。在这项工作中，我们解决了这些局限性，并介绍了Octopus，这是一种基于卷积神经网络（CNN）的模型，它可以学习预测在给定一个人在单个摄像机前旋转的几帧情况下以典型姿势的3D人体形状。Octopus使用自下而上和自上而下的流（每个视图一个）进行预测，允许信息双向流动。它可以在每个视图50毫秒内进行自下而上的预测，并在10秒内使用相同的图像进行自上而下的有效改进。自下而上和自上而下的推理都是使用相同的模型全自动执行的。因此，Octopus易于使用，比以前的作品更实用[6]。学习仅依赖于合成的3D数据，并且依赖于从合成的视频序列导出的语义分割图像和关键点。因此，Octopus可以在没有配对数据的情况下进行训练Octopus预测SMPL身体模型参数，这些参数表示未穿衣服的形状和姿势，加上附加的3D顶点偏移，这些顶点偏移对SMPL空间中的衣服、头发和细节进行建模。具体地，CNN将人的F个帧（处于不同姿势）编码成F个潜在代码，这些潜在代码被融合以获得单个形状代码。根据形状代码，两个单独的网络流预测SMPL形状参数，以及规范T姿态空间中的3D顶点偏移，从而给出预测T形迫使F个潜码是姿态不变的，这对于融合每个帧中包含的形状信息是必要的。Octopus还预测每个帧的姿态，这允许具体地，由于自下而上模型不具有反馈回路，因此前馈3D预测是正确的，但不与输入图像完美地对准。因此，我们通过优化F姿势、T形和顶点偏移来优化预测，以最大化轮廓重叠和联合重新投影误差。在新收集的数据集（ LifeScans ），公开的PeopleSnapshot数据集[6]和[9]中使用的数据集上的实验表明，我们的模型在不到10秒的时间内以4mm的重建精度推断形状。总之，Octopus比纯粹基于优化的拟合方法（如[6]）更快，它在单个模型中结合了自下而上和自上而下方法的优点，并且可以从几个视频帧中重建详细的形状和服装。反射结果的例子如图所示。1.一、为了促进这一方向的进一步研究，我们将章鱼用于研究目的[2]。2. 相关工作用于3D人体形状和姿态重建的方法可以大致分类为自顶向下或自底向上。自上而下的方法要么拟合自由曲面，要么拟合统计身体模型（基于模型）。自下而上的方法直接从传感器数据中导入表面或身体模型参数化。我们将回顾自下而上和自上而下的人类重建方法。自上而下的自由形式方法非刚性变形网格[14，22，12]或体积形状表示[36，4]。这些方法基于多视图立体重建[42]，因此需要多个RGB或深度相机，这对许多应用来说是一个实际障碍。使用深度相机，KinectFusion[38，52]方法通过在规范帧中逐步融合帧几何形状和外观[85]有几种方法基于KinectFusion进行身体扫描[64，47，82，20]。问题是，这些方法需要人站着不动，而相机是转身。DynamicFusion [51]通过结合非刚性跟踪和融合将KinectFusion推广到非刚性对象。虽然无模板方法[52，37，65]是灵活的，但它们只能处理非常小心的动作。增加鲁棒性的常用方法是预扫描模板[88]，或使用多个kinect [26，54]或多视图[67，44，19]。然而，这些方法不将时间3D重建注册到相同的模板，并且专注于其他应用，例如流或远程呈现[54]。通过补偿姿态变化来估计形状可以追溯到Cheung等人。 [17，18]，他们随着时间的推移对齐视觉外壳，以改善形状估计。为了补偿清晰度，他们将形状信息合并到一个粗略的体素模型中。但是，它们需要单独跟踪每个身体部位，并且需要多视图输入。所有自由形式的作品都需要多视图输入，深度相机或无法处理移动的人类。自上而下，基于模型的方法利用由姿势和形状组成的参数化身体模型[7，33，48，89，57，40]来规范拟合过程。一些基于深度的方法[77，34，79，84，9]通过优化单个形状和多个姿势（联合或顺序）来利用时间信息。这导致昂贵的优化问题。使用多视图，一些作品实现了快速性能[60，61]，代价是使用基于高斯[68]或预先计算的模板[80]的较粗糙的身体模型。早期基于RGB的方法仅限于估计身体模型的参数，并且需要多视图[8]或手动点击点[30，86，39，63]。形状和服装已经从RGB图像[31，15]，深度[16]或扫描数据[56]中恢复，但需要人工干预或服装仅限于预定义的模板集在[78]一个模糊顶点关联从服装1177W引入到人体表面，这使得复杂的布料建模为身体偏移。有些作品介于自由形式和基于模型的方法之间。在[27，76]中，作者预扫描模板并插入骨架，并且在[70]中，作者将SMPL模型与体积表示相结合以从深度相机跟踪穿着的人体。自下而上多视图照片一致性[45]的特征学习以及与视觉外壳[28，72]相结合的自动编码器已显示出可改善自由形式的性能捕获。然而，这些作品需要不止一个摄影机视图。很少有作品学习从图像中预测个性化的人体形状-缺乏训练数据和缺乏前馈预测和图像之间的反馈循环使得问题变得随机森林和神经网络的变体已被用于[24，23，25，75]从轮廓回归形状。这里的问题是预测往往看起来过于平滑，局限于模型形状空间，并且不包括衣服。服装是从单个图像中预测的[21]，但是每个新服装的单个模型都需要训练，这使得它很难在实践中使用。最近的纯自下而上的人体分析方法[50，49，58，87，69，71，62]通常预测以粗线条或骨骼轮廓表示的形状，并且不能估计体型或服装。混合方法。最近的一个趋势是结合了自下而上和自上而下的最直接的方法是将3D身体模型[48]拟合到2D姿势检测[10，43]。然而，这些方法无法捕捉模型空间之外的服装和细节。服装，头发和形状[6，5]可以通过将视频的动态轮廓（自下而上预测）融合到规范空间来推断。即使有良好的2D预测，这些方法在初始化不正确时也容易受到局部最小值的影响，并且通常很慢。此外，2D预测网络和模型拟合是解耦的。从前馈3D预测开始，自上而下地集成语义分割、关键点和场景约束，以便预测多个人的姿势和形状[81]。其他最近的工作将SMPL模型或体素表示[74]集成为网络架构内的层[41，55，53，73]。这有几个优点：(i)预测受到人类形状空间的约束，以及（ii）自下而上的3D预测可以在训练期间使用2D关键点和轮廓自上而下地进行验证然而，形状估计被限制在模型形状空间中，并且倾向于接近平均值。这些作品的重点是，而强大的姿态估计，而我们专注于个性化的形状。我们还将SMPL集成到我们的AR中-在测试时间。因此，我们可以使用单个相机预测服装，头发和个性化形状。3. 方法这项工作的目标是从单眼RGB视频的几帧中创建一个主题的3D模型，并且在不到10秒的时间内。模型应该包括身体形状、头发和衣服，并且应该是可动画的。我们采用[6]中的描述，并专注于合作设置，其中视频中的人在摄像机前旋转，保持粗略的A姿势-与以前的工作[6]相反，我们的目标是快速和全自动重建。为此，我们训练了一个新的卷积神经网络，从少量的输入帧推断出主题的3D网格模型此外，我们训练网络来重建每个帧中主体的3D姿态。这使我们能够通过利用网络的解码器部分来细化身体形状，例如特定的优化（图1）。2）的情况。节中3.1我们描述了在这项工作中使用的形状表示，然后将其集成到所使用的预测器中（第3.1节）。3.2）。节中3.3我们解释了实验中使用的损失最后，我们描述了特定于实例的自顶向下的结果细化（第二节）。第3.4段）。3.1. 形状表示与以前的工作类似[83，6]，我们使用SMPL统计身体模型[48]表示形状，该模型表示未穿衣服的身体，以及一组偏移建模实例特定细节，包括衣服和头发。SMPL是将姿态θ和形状β映射到V=6890个顶点的网格的函数M（·）。通过将偏移D添加到模板T，我们获得了一个姿势形状实例，如下所示：M（β，θ，D）=W（T（β，θ，D），J（β），θ，W）（1）T（β，θ，D）=T+Bs（β）+Bp（θ）+D，（2）其中，具有权重W的线性混合蒙皮W（·）与姿势相关变形Bp（θ）一起允许基于其骨架关节J（·）对T形状（T+Bs（β））进行姿势调整。表示为SMPL+D的SMPL加上偏移相对于姿态θ、形状β和自由形式变形D是完全可区分的。这使我们能够直接将SMPL作为固定层集成到我们的卷积架构中。3.2. 模型和数据表示给定一组图像I ={I0，. . . ，IF-1}，其从不同侧描绘具有对应2D关节的对象但是我们的工作在几个方面是不同的第一、J ={J0，. . .，JF−1}，我们学习预测因子f在─我们的架构融合了几个图像的信息，同一个人不同的姿势第二，我们的模型在训练过程中加入了一个快速的自上而下的组件，指的是身体形态β，个人和场景特定的身体和3D姿态P ={θ0，. . .，θF−1}以及3D位置T={t0，. . .，tF−1}。1178CNN形状构成WWW2W我Wβ，D我θ0，t0JP，TS（I）θ1，t1θ2， t2N3D（I，J，i）N2D（I，J，i）图2.我们的方法概述：我们的新CNN预测3D人体形状的语义图像在一个规范的姿势连同每图像的姿势信息计算从2D关节检测（左到中心）。姿态信息可以用于经由使用相同预测器（右到中心）的“渲染和比较”优化来细化形状：（I，J）›→（β，D，P， T）是一个CNN参数化，同样地，我们也可以将这些关节投影到NJ3D上到图像网络参数w.输入方式。人类的图像在外观上高度多样化，在深度学习的背景下需要大量的注释图像数据集。因此，为了提取尽可能多的信息，同时仍然保留形状和姿态信号，我们在以前的工作[29，13]的基础上将每个RGB图像简化为语义分割和2D关键点检测。这使我们能够只使用合成数据来训练网络，并推广到真实数据。模型参数化。通过整合SMPL+D模型（第 3.1）到我们的网络公式中，我们可以在训练中使用它的网格输出。具体地说，我们以三种方式监督预测的SMPL+D 参数：直接在网格顶点M（β，θ，D）上，在预测的关节位置J（β）及其在图像上的投影上，以及密集地在使用差分渲染器[35]。公式（1）中的T形（T+Bs（β）+D）现在用以下函数从语义图像I的集合预测2S（I）=T+B（fβ（ I））+fD（ I），（3）平面透视投影π：NJ2D（I，J，i）=πc（NJ3D（ I，J，i））（8）所有这些操作都是可微的，我们可以方便地使用它来制定合适的损失函数。3.3. 损失函数我们的架构允许两种监督来源：（i）3D监督（在我们的实验中，来自通过将SMPL+D拟合到静态扫描而得到的合成数据），以及（ii）仅来自视频帧的2D监督。在本节中，我们将讨论不同的损失函数用于训练预测因子f。对于数据集{（I，J），（β，D， P， T）}中的配对样本，我们在估计模型N3D和地面实况模型M（·）扫描之间使用• 正则T姿态0θ中的每顶点损失。这种损失提供了一个有用的3D监督形状独立的姿态：SwwL S= ||S（I）− M（β，0θ，D）||二（九）其中f是要学习的回归量。类似地，通过以下函数从图像I i和2D关节J i预测网格姿态N3D（I，J，i）：D（I， J，i）=W（P（I，i），J（fβ（I）），fθi（I， J），W）（4）• 定态空间中的逐点损失。这种损失监督欧几里得空间上的姿势和形状：FΣ−1L=||N 3 D（I，J，i）− M（β，θ，D）||（十）w wN3D我i=0时P（I，J，i）=S（I）+Bp（fθi（I，J）），（5）根据该模型，使用线性回归预测3D关节• 轮廓重叠：格雷索尔河B25：LN2DFΣ−1=||Rc(N 3D（I，J，i））− b（I）||第二章，（十一）NJ3D（I，J，i）=JB25（N3D（I，J，i））（6）i=0时其中b（Ii）是二进制分割掩码，并且Rc是JB25已被训练为输出与BODY 25 [1]关键点排序一致的25个关节位置。所估计的已设定姿势的网格N3D可以用由相机c参数化的+渲染F1179图像形成函数R（·）以均匀颜色渲染：N2D（I，J，i）=Rc（N3D（ I，J，i））（7）定义在等式（1）中的图像形成函数。7 .第一次会议。 L N2D 是弱监督损失，因为它不需要3D注释，并且可以直接从RGB图像估计b（Ii）在实验中，我们研究这种自我监督的损失是否可以减少所需的3D监督量（见4.4）。此外，我们表明，N2D可以是1180SW我2个DWLJJcB252在测试时使用，以自顶向下的方式细化自底向上的预测和捕获实例特定的细节（参见3.4）。• 每个顶点SMPL未穿衣身体损失：上述损失仅对最终的SMPL+D 3D形状不利。有用的是包括地面实况图3.来自LifeScans数据集的样本扫描。4. 实验其中0DL=||S（I）−M（β，0θ，0D）||二（十二）Sβ（I）=T+Bs（fβ（I）），（13）是长度为0的向量。这也防止了下一节重点介绍我们的方法的评价。节中4.1我们介绍了所使用的数据集和网络架构的技术细节。以下章节描述了定量和定性分析偏移D解释了人的整体形状。造成具体损失。除了姿态空间LN3D和轮廓重叠LN2D损失之外，我们还使用预测参数Lθ，t的直接损失来评估以及消融和参数分析。4.1. 实验装置数据集。为了缓解配对数据的缺乏，我们使用F-1。L=Σ||R（fθi）−R（θ）||2个以上||f ti−t||2，（14）2043个穿着衣服的人的静态3D扫描。我们-θ，tWi=0时iwi从renderpeople.com上追踪了163次扫描，从axyz上追踪了54次扫描design.com. 1826次扫描由Twin提供-其中R是24个关节的矢量化旋转矩阵。类似于[53，43，55]，我们使用可微SVD来迫使预测矩阵位于旋转矩阵的流形上该术语使得网络的姿势部分更快地收敛。关节损失。我们通过在欧几里得空间中对关节施加损失来进一步正则化姿势训练：FΣ−1dom（https：//web.twindom.com/）.不幸的是，在2043中，姿势和形状没有足够的变化来学习概括的模型。因此，我们通过将SMPL+D非刚性配准到每个扫描来生成合成3D数据。这使我们能够改变潜在的身体形状和姿势的扫描使用SMPL，见图。3 .第三章。像[6]一样，我们关注的是一个合作的场景，即这个人在摄像机前转身。因此，我们-LJ3D=i=0时||NJ3D （I， J，i）−JB25（M（β，θ，D））||2（15）将扫描与转身姿势和随机形状相匹配并从中渲染视频序列。我们将结果数据集称为LifeScans，它由渲染的图像组成。类似于模型LN2D上的2D图像投影损失（等式10），11），我们也有一个弱监督的2D联合投影损失LJ2DFΣ−12D =||N（I，J，i）− π（J（M（β，θi，D）||. （十六）i=0时3.4.特定于实例的自顶向下优化神经模型的自下而上的预测可以在测试时自上而下地细化，以捕获实例特定的细节。需要注意的是，此步骤不需要3D注释，因为网络仅使用2D数据进行微调具体地，在测试时间，给定对象的图像I和2D关节J，我们使用图像和关节投影损失L N 2 D，L J 2 D优化f中的一小组层（参见4.1）。通过固定网络的大多数层并仅优化潜在层，我们找到了网络学习的多种形状和新特征之间的折衷，没有被学习。我们进一步正则化这一步使用拉普拉斯平滑，面对地标，和对称项[6，5]。表1说明了优化前后的流水线性能（见4.2、4.3）。1181年龄与各种形状和姿势的3D动画扫描配对。由于静态扫描来自真实的人，因此生成的图像接近照片真实感，参见图3。为了防止过度拟合，我们使用语义分割和关键点作为中间图像表示，保留形状和姿态签名，同时抽象掉外观。这减少了训练所需的外观变化量。为了能够渲染合成语义分割，我们首先从不同的视角渲染LifeScans子图，并使用[29]的方法对输出进行分割然后，我们将语义标签投影回SMPL纹理空间，并使用基于图切割的优化融合不同的视图。这最后一步实现了配对训练数据的完全合成生成。标度模糊。尺度是单目图像中固有的模糊性。三个因素决定了图像中物体的大小：到相机的距离、相机特性和对象的大小。由于它是不可能的解耦这种模糊性在单目设置与移动物体，我们固定两个因素和回归之一。在其他作品[53，41，55]作者已经假定固定距离凸轮-1182WWW我时代我们不能做出这种假设，因为我们利用同一主题的多个图像，其中到相机的距离可能会有所不同。因此，我们将受试者的大小固定为平均身高。准确地说，我们通过将模型乘以1来使SMPL高度独立。66m除以描述脚踝和眼睛的顶点的y轴距离。最后，我们将焦距固定到传感器高度。网络架构。在下文中，我们描述卷积神经网络的细节。图1给出了概述4.第一章f的输入是一组1080 x1080 px的语义分割图像I和对应的2D关节位置J。f用一组五个3x3卷积与ReLU激活，然后是2x2最大池化操作将每个图像Ii编码为姿势不变的潜在代码linv.在我们的实验中，我们将linv的大小固定为优化前优化后全流水4.47±4.454.00±3.94GT姿势4.47±4.413.17±3.41表1.在F= 8个输入图像上计算的55个测试样本的平均顶点误差（mm）。使用推断姿势的完整方法产生与使用GT姿势相当的结果。两种变体都从后续优化中获得F=8个语义分割图像和2D姿势作为输入，并优化结果，最大预算为10秒。所有结果都是在没有密集的超参数调整的情况下计算的。为了量化形状重建精度，我们调整估计的姿态以匹配地面实况，如下[83，9]。这将姿态误差与形状误差分开，并允许量化形状i i准确性。最后，我们计算双向顶点，20块姿态分支将最后一个卷积层的联合检测和输出两者映射到大小为200的向量，并且最终经由完全连接的层映射到大小为100的姿态相关的潜在码Ipose形状分支聚集了图像之间的姿势不变信息，并计算平均值。请注意，这个公式允许我们聚集姿态相关和不变的信息在一个任意的和不同数量的视图。形状分支继续预测SMPL网格上的SMPL形状参数β和自由形式变形Dβ直接从具有线性层的Iinv为了预测来自潜在代码Iinv的每顶点偏移，我们使用具有Chebyshev滤波器和网格上采样层的四步图卷积网络，类似于[59]。每个卷积之后都是ReLU激活。由于内存限制和为了获得结构化预测，我们更喜欢图卷积网络而不是完全连接的解码器培训计划。所提出的方法，包括渲染，是完全可微的和端到端的可训练的。我们发现在训练形状分支之前训练姿势分支更好。此后，我们优化网络端到端。我们对姿势分支使用类似的训练计划[55]，其中我们首先使用关节和姿势参数（LJ3D， Lθ，t）上的损失训练网络，然后使用顶点和姿势参数（LN3D， Lθ，t）上的损失训练我们还对各种训练方案进行了实验，并表明弱监督训练可以显着减少对3D注释数据的依赖（参见第二节）。4.4）。对于该实验，我们使用交替的全（LS，LS，LN3D，LJ3D）和弱监督（L N2D，L J2D）来训练模型。在特定于实例的优化期间，我们保持大多数层固定，并且仅优化潜在姿势Ipose、潜在形状Iinv和输出自由形式位移D的最后一个图形卷积层。4.2. 数值评价我们定量评估我们的方法在一个单独的测试集的LifeScans数据集包含55个主题。我们使用扫描和重建之间的表面距离。我们在表1中报告了整个测试集的平均误差（单位：毫米）。1.一、我们区分完整方法和地面实况（GT）姿势。完整方法是指我们的方法，如第二节所述。4.1.后者是我们的方法的变体，其使用地面实况姿态，其允许研究姿态误差的影响。在图5中，我们显示了两种变体的测试集中的受试者以及每个顶点的错误热图。视觉上，结果看起来几乎无法区分，这通过GT和预测姿态模型之间的数值误差仅增加0.01 mm的事实得到证实。这证明了我们方法的鲁棒性我们在图中展示了更多具有相应纹理的示例，以进行定性评估1.一、使用基于图切割的优化，使用语义标签计算纹理，如[5]所述。4.3. 关键参数我们的方法有两个关键的超参数，即输入图像的数量F和优化步骤的数量在下面的部分中，我们将研究这些参数以及它们如何影响我们方法的性能。我们也证明了我们的设计选择。图7说明了我们的方法随着优化步骤数量的增加而表现出的性能。虽然性能增益在大约70-80步时饱和，但我们在以下实验中使用25步，作为精度和速度之间的折衷。对于F=8个输入图像的情况，在单个Volta V100 GPU上，25步的优化需要100秒。我们认为10秒是一个实际的等待时间，对许多应用程序的妥协。因此，我们将以下实验的时间预算固定为10s。在测试时包含更多的输入视图可能会提高了方法的性能。然而，在实践中，这意味着更多的数据预处理和更长的推断时间。图8示出了具有不同数量的输入图像的性能。也许令人惊讶的是，在光学成像之前，像素已经在大约5个图像处饱和，1183WWW图4.网络架构：我们的自下而上推理网络首先将输入（语义上分割的图像I和2D关节J2D）编码到解耦的、姿态相关的I姿态和姿态不变的Iinv潜在空间中。姿态分支随后从I姿态推断每帧姿态和平移参数P和T。形状分支从Iinv推断T姿势中的身体形状β和自由形式变形D。我们使用基于图卷积的解码器来学习每顶点偏移D。整个模型是端到端可训练的。橙色FC层和最终的图形卷积层可以在测试时进行微调，以更好地建模特定于实例的细节（请参见第第3.4段）。图5.LifeScans的结果与地面实况形状的比较（绿色）。我们显示了使用地面真实姿势计算的结果（蓝色）和完整方法的结果（黄色），以及相对于地面真实形状的相应误差热图（红色表示≥2cm）。mization优化后，误差在8幅图像左右饱和。虽然更多的图像可能意味着更好的监督，但我们无法看到许多图像优化的改进结果。这可以用本实验中的固定时间预算来解释，其中更多的图像意味着更少的优化步骤。虽然我们可能会使用更少的图像，但我们发现F=8个视图是实际的输入视图数量。原因如下：计算的化身不仅应该在数字上准确，而且应该在视觉上吸引人。基于更多视图的结果显示更精细的细节，最重要的是允许精确的纹理计算。4.4. 监督类型由于视频比3D注释更容易获得，我们优化前优化后百分百4.47±4.413.17±3.41百分之五十4.57±4.523.19±3.43百分之二十4.74±4.653.29±3.53百分之十4.73±4.563.46±3.62表2.形状分支训练过程中不同完全监督量的55个测试样本的平均顶点误差（mm）f训练只需要10%的完全监督，精度损失最小。视野这个实验表明，我们可以通过使用额外录制的视频来监督我们的模型来提高性能。我们把这个留给未来的工作。4.5. 定性结果和比较我们将我们的方法与大多数评估他们在多大程度上可以替代全3D监督来训练我们的网络。为此，我们拆分了LifeScans数据集。一部分用于全监督，另一部分以图像掩模和2D关键点的形式用于弱监督。所有形式的监督都可以是综合性的，从LifeScans数据集生成。我们训练F10%、20%、50%和100%的全面监督和协调，在选项卡中的测试集上检查性能。二、为了在训练过程中排除有问题的姿势的影响，我们在这个实验中使用了地面真实姿势的相关工作[6]在他们的PeopleSnapshot数据集。虽然他们的方法利用了120帧，但我们仍然使用F=8帧进行重建。为了更公平的比较，我们在这个实验中优化了2000s。这仍然比[6]所需的122分钟快几个数量级。他们的方法需要2分钟进行形状优化，加上每帧1分钟的姿势。图我们将与[6]进行我们的结果在视觉上仍然不相上下同时需要一小部分数据。我们还比较了我们的方法与[9]，一个基于RGB-D结果表明，F只需要很少的优化方法他们的数据集显示了大量的全面监督，给出了强大的姿势预测。网络的性能仅在低于100%的完全监控下略有下降。最有趣的是，10%、20%和50%全超声波的结果几乎相同最小的衣服旋转在前面的相机在T-姿势。不幸的是，语义分割网络不能成功地分割最小服装的主题。因此，我们稍微改变了这个实验的设置。SMPL2D关节图像我摆姿势FCAvg. 池linvFCG.转换1G.转换2G.转换3G.转换4P、 T和Dβ1184a）b）图6.与最先进的基于优化的方法[6]的比较。他们的方法（a）使用120帧，而我们的方法（b）只使用8幅图像，并且快了几个数量级。4.第一章54.第一章03 .第三章。53 .第三章。00 10 20 30 40 50 60 70 80优化步骤图9.与RGB-D方法的比较[9]（a）。我们的方法图7.测试集的误差随着在F= 8个输入图像上计算的优化步骤的增加而减少。五、5五、04.第一章54.第一章03 .第三章。53 .第三章。01 3 5 8 10 12 15数目的输入图像图8.优化前（虚线）和优化后（实线），输入视图F数量增加的测试集上的错误发展优化受到10s时间预算的限制，允许大量视图的梯度步骤非常少，这解释了为什么超过8个视图的错误平台。我们使用半自动方法[11]分割他们的数据集，并重新训练我们的预测器，以便能够处理二进制分割掩码。此外，我们用T姿势增强LifeScans数据集我们在图中显示了并排的比较。9.第九条。再次，我们的结果在视觉上是相似的，尽管使用较少，只有单眼数据。5.讨论和结论我们提出了一种新的方法，用于从人移动的单目视频的仅1-8帧中自动3D我们的章鱼模型预测网格为基础的姿势不变的形状和每图像的3D姿态从一个灵活的视图数。实验表明，前馈预测已经相当准确（ 4 。5mm），但通常缺乏细节，并且不能与输入图像完美重叠。这激发了针对输入图像的自上而下优化来细化细化使误差降低到4mm，并将模型与输入图像轮廓对齐，这允许纹理映射-(b) 尽管只使用8个RGB图像作为输入，但在视觉上还是不相上下平.总之，我们在以下方面改进了最先进的技术：我们的方法首次允许以全自动的方式估计穿着衣服的人的全身重建我们显着减少了测试时所需图像的LifeScans数据集上的大量实验证明了预测器的关键参数的性能和影响。虽然我们的模型与输入图像的数量无关，并且可以针对不同数量的优化步骤进行优化，但我们已经证明，使用8个视图并优化10秒是准确性和实用性之间的良好两个真实世界数据集上的定性结果表明，尽管仅从合成数据进行训练，但对真实数据的泛化。未来的工作应该使所提出的方法能够用于受试者不合作的场景，例如来自Youtube视频或传统电影材料。此外，具有远离身体的几何形状的服装，例如裙子和外套或马尾辫等发型将需要不同的配方。通过在短短几秒钟内从几张图像中实现全自动3D体形重建，我们为广泛获取个性化3D化身奠定了基础。现在，人们可以仅使用网络摄像头快速数字化自己，并可以将他们的模型用于各种VR和AR应用。致谢作者感谢Deutsche Forschungsgemeinschaft（DFG德国研究基金会）对项目MA 2555/12-1和409792180的资助。我们要感谢Twindom为我们提供扫描数据。另一个感谢Verica Lazova在数据处理方面的巨大帮助全方法GT姿势a）b）全方法GT姿势平均顶点误差（mm）平均顶点误差（mm）1185引用[1] https://github.com/cmu-perceptual-computing-lab/openpose.4[2] http://virtualhumans.mpi-inf.mpg.de/octopus/的网站。一、二[3] Naveed Ahmed，Edilson de Aguiar，Christian Theobalt，Marcus Magnor，and Hans-Peter Seidel.从多视角视频自动生成个性化的人类化身。在 ACM Symposium onVirtual Reality Software and Technology中，VANUSA，2005. ACM。1[4] 本杰明·阿兰，让-塞巴斯蒂安·佛朗哥，埃德蒙·博耶.一种有效的形状跟踪体框架在IEEE Conf. on ComputerVision and Pattern Recognition，第268-276页，Boston，United States，2015中。美国电气与电子工程师协会。2[5] Thiemo Alldieck ， Marcus Magnor ， Weipeng Xu ，Christian Theobalt，and Gerard Pons-Moll.从单目视频的详细的人类化身。国际会议2018年9月在3D Vision上发布。一二三五六[6] Thiemo Alldieck ， Marcus Magnor ， Weipeng Xu ，Christian Theobalt，and Gerard Pons-Moll.基于视频的三维人体模型重建。在IEEE会议计算机视觉和模式识别，2018年。一二三五七八[7] Dragomir Anguelov 、 Praveen Srinivasan 、 DaphneKoller、Se- bastian Thrun、Jim Rodgers和James Davis。SCAPE：人的形状完成和动画在ACM Transactions onGraphics，第24卷，第408-416页中ACM，2005年。2[8] Al e xandruOBalan和MichaelJBlack。赤裸裸的事实：估计衣服下的身体形状在欧洲会议中计算机视觉，第15-29页。Springer，2008. 一、二[9] 作者：Michael J.布莱克马修·洛珀哈维尔·罗梅罗从单目RGB-D序列对移动的人进行详细的全身重建。在IEEEInternational Conf. 计算机视觉，第2300-2308页，2015年。一二六七八[10] Federica Bogo、Angjoo Kanazawa、Christoph Lassner、Pe ter Gehler、Javier Romero和Michael J Black。保持它SMPL：从单个图像自动估计3D人体姿势和形状。在欧洲会议中计算机视觉。施普林格国际出版社，2016年。第1、3条[11] Sergi Caelles ， Kevis-Kokitsi Maninis ， Jordi Pont-Tuset ， LauraLeal-Taixe' ， DanielCremers 和LucVanGool。单镜头视频对象分割。在IEEE计算机视觉和模式识别上，2017年。8[12] Cedric Cagniart，Edmond Boyer，and Slobodan Ilic.从多个视频中进行概率可变形表面跟踪在Kostas Daniilidis，Petros Maragos，and Nikos Paragios，editors，EuropeanConf. on Computer Vision ， Lecture Notes in ComputerScience，第6314卷，第326-339页，Heraklion，希腊，2010。斯普林格。2[13] 曹哲、托马斯·西蒙、魏世恩和亚瑟·谢赫。使用部分仿射场的实时多人2d姿态估计。在IEEE计算机视觉和模式识别会议上，2017年。4[14] Joel Carranza，Christian Theobalt，Marcus A Magnor，and Hans-Peter Seidel.人类演员的自由视点视频。1186在ACM Transactions on Graphics，第22卷，第569- 577页。ACM，2003年。2[15] 陈小武，郭玉，周斌，赵琴萍。可变形模型用于从单个图像中估计穿着衣服和裸体的人体形状。 The VisualComputer ， 29 （ 11 ）： 1187-1196 ，2013. 2[16] 陈小武、周斌、路飞翔、林望、郎必、谭平。使用深度相机进行服装建模 ACM Transactions on Graphics ， 34（6）：203，2015. 2[17] 德国 KM Cheung ， Simon Baker ，和Takeo Kanade.关节对象的轮廓形状及其在人体运动学估计和运动捕获中的应用。在IEEE计算机视觉和模式识别会议上，第1卷，第I-I页。IEEE，2003年。2[18] 德国 KM Cheung ， Simon Baker ，和Takeo Kanade.随时间变化的可视船体对齐和细化：一种结合立体视觉与轮廓恢复的三维重建算法。在IEEE计算机视觉和模式识别会议上，第2卷，第II-375页。IEEE，2003年。2[19] Alvaro Collet 、 Ming Chuang 、 PatSweeney 、 DonGillett 、 DennisEvseev 、 David Calabrese 、 HuguesHoppe、Adam Kirk和Steve Sullivan。高质量的可流式传输的自由视点视频。ACM Transactions on G

下载后可阅读完整内容，剩余1页未读，立即下载