单图像人体形状重建：从单张照片获取完整人体形状的简单有效方法

157 浏览量更新于2023-10-12 收藏 1.79MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2293Tex2Shape：从单个图像获得Thiemo Alldieck1，2 Gerard Pons-Moll2 Christian Theobalt2 Marcus Magnor11计算机图形实验室，TU Braunschweig，德国2马克斯·普朗克信息学研究所，萨尔信息学院，德国{alldieck，magnor}@ cg.cs.tu-bs.de{gpons，theobalt}@ mpi-inf.mpg.de图1：我们提出了一个图像到图像的转换模型，用于从单个图像进行详细的完整人体几何重建将输入图像转换为不完整的纹理，然后我们的Tex2Shape网络将纹理转换为法线和位移贴图。贴图使用细节、头发和衣服来增强平滑的身体模型。结果在地面实况姿态中可视化。摘要我们提出了一个简单而有效的方法来推断详细的完整的人体形状，只有一张照片。我们的模型可以推断出全身的形状，包括面部，头发和衣服，包括在交互式帧速率的皱纹。即使在输入图像中被遮挡的部分上，结果也能显示特征细节。我们的主要思想是把形状回归转化为对齐的图像到图像的翻译问题。我们的方法的输入是从现成的方法获得的可见区域的部分纹理图。从一个局部纹理，我们估计详细的法线和矢量位移图，这可以应用到一个低分辨率的光滑的身体模型，以添加细节和服装。尽管纯粹使用合成数据进行训练，但我们的模型可以很好地适应真实世界的照片。大量的结果表明，我们的方法的通用性和鲁棒性。1. 介绍在本文中，我们解决的问题，自动详细的全身人体形状重建从一个单一的图像。人体形状重建在虚拟现实、增强现实、场景分析、虚拟试衣等领域有着广泛的应用。对于大多数应用程序，采集应该是快速和容易的，视觉保真度是很重要的。重建的几何体是最有用的，如果它显示头发，脸，和衣服的褶皱和皱纹在足够的细节-至于具体的形状。细节增加了真实感，让人们感觉与他们的自我化身和他们的interlocutors认同，并经常携带关键信息。虽然大量的论文专注于从单个图像恢复姿势和粗略的身体形状[35，25，36，9]，但专注于恢复详细形状的论文要少得多。最近的一些方法从单目视频[57]中恢复姿态和非刚性变形，甚至是实时的[15]。但是，它们需要预先捕获每个主题的静态模板。其他最近的作品[4，2]恢复静态的身体形状，并将衣服作为SMPL身体模型[32]（基于模型）顶部的位移，或使用体素表示[50，33]。基于体素的方法[50，33]通常会在身体的四肢产生错误，并且需要事后拟合模型[50]。基于模型的方法更稳健，但结果往往缺乏细节。我们假设有三个原因。首先，它们主要依赖于用于拟合[4]或基于CNN的回归加拟合[2]的剪影，忽略了RGB值中包含的丰富照明和阴影信息。其次，从图像像素直接回归到3D网格位移是困难的，因为输入和输出不对齐。此外，高分辨率网格的预测需要基于网格的神经网络，这是非常有前途的，但比标准的2D CNN更难训练。最后，它们依赖于3D姿态估计，这很难准确获得。基于这些观察，我们的想法是将形状回归转化为对齐的图像到图像的平移问题。2294lem（见图1）①的人。为此，我们将输入和输出对映射到SMPL模型的姿态无关UV映射。UV映射将身体表面展开到2D图像上，使得每个像素对应于身体表面上的3D点与[34]类似，我们使用DensePose [5]将可见图像像素映射到UV空间，而不是回归- ING的细节直接在网格上，我们建议回归的UV空间位移和法线贴图的形状。每个像素存储从平滑形状（在SMPL空间中）到详细形状的法线和位移向量。我们将模型称为Tex2Shape。我们用2043个3D扫描数据集训练Tex2Shape，这些数据集包含不同服装、姿势和形状的人。为了将所有扫描形状映射到UV空间，我们将SMPL非刚性地配准到每个扫描，优化模型形状参数，自由形式的位移，并将后者存储在位移图中。注册也是有用的增强;使用，ING SMPL，我们呈现不同的姿势和相机视图的多个图像。我们进一步增加渲染与现实主义照明，这是一个强有力的线索，在这个问题。根据朗伯反射率模型，我们知道颜色是由光的方向与表面法线的乘积相乘而形成的。阴影恢复形状[60]允许反转过程并从阴影中估计表面，这在之前用于细化基于立体的[55]或基于多视图的人类表现捕获结果[56，29]的几何结构。在合成图像对之后，我们训练Pix2Pix网络[19]从部分纹理映射到完整的法线和位移映射，并训练第二个小网络来估计SMPL体型参数。几个实验表明，我们提出的数据预处理无疑是值得的。仅从合成图像训练，我们的模型可以在一个镜头中强大地生成具有不同服装，形状和头发的人的完整3D形状。与仅为可见图像部分生成法线或着色的模型相比，Tex 2Shape还为被遮挡部分生成了形状-有效地总的来说，我们的贡献是：• 我们把一个硬的全身形状重建问题变成一个更容易的3D姿态无关的图像到图像的翻译。据我们所知，这是第一种通过图像到图像的转换来推断详细体型的方法• 从单个图像，我们的模型可以在50毫秒内回归完整的3D服装，头发和面部细节。• 实验表明，虽然非常简单，但Tex2Shape非常有效，能够在静态环境中回归完整的3D服装，头发和面部细节一次拍摄中的参考姿势。• Tex2Shape可用于研究目的[1]。2. 相关工作人体形状重建是一个广泛的研究领域，通常与姿态重建一起进行。在下文中，我们回顾了从单目图像和视频中重建人体姿态和形状的方法。全身方法通常受到面部几何估计方法的启发。因此，我们在我们的评论中包括面部重建。当涉及到细节重建时，服装起着重要的作用。因此，我们总结了服装重建和建模的简要概述。姿势和形状重建。用于单眼姿态和形状重建的方法通常利用参数化身体模型来限制搜索空间[6，16，32，39，23]，或者使用预扫描静态模板来捕获姿态和非刚性表面变形[57，15]。为了恢复姿势和形状，3D身体模型针对2D姿势进行拟合。在早期的作品中，2D姿势已经完全或部分手动点击[14，62，21，42]，后来该过程自动化[9，28]，具有来自深层神经网络的2D地标检测[37，18，11]。在最近的工作中，SMPL [32]模型已被集成到网络架构中[25，36，35，48]。这进一步自动化和鲁棒性的过程。所有这些工作主要集中在鲁棒的姿态检测。形状估计通常限于具有骨长度的表面重建。最重要的是，形状仅限于模型空间。相比之下，我们只关注形状，并估计模型空间之外的几何细节。衣服和头发可以通过基于优化的方法获得[4，3]。从主体以A姿势转身的视频中，轮廓被融合在规范姿势中。在相同的设置中，作者在[2]中提出了一种基于混合学习然而，所有这些方法只能处理A姿态，并依赖于鲁棒的姿态检测。[54]中的方法放松了这种限制，并通过SMPL参数的2D扭曲从单个图像创建人形另一项最近的研究以体素表示的形式估计姿势和形状[49，20，33]，这允许更复杂的服装，但限制了细节水平在[61]中，作者通过使用预测的法线贴图增强可见部分来消除这种限制。相比之下，我们提出了3D姿态独立的形状估计在参考姿态与高分辨率的细节也对不可见的部分。先前的几种方法利用高频纹理中的阴影线索来估计高频细节。例如，他们估计了照明和反射率，以从立体[55]或多视图图像[56，29]中计算人类模板的形状从阴影细化的几何形状面部重建。最近的几种单目人脸重建和性能捕获方法使用阴影-2295基于几何改进的细化，例如，在合成分析拟合[43]或细化中，或者在训练的神经网络[44，17]中。与我们的方法相关的还有最近在神经网络中集成可微分人脸渲染器的作品，以估计几何形状和相对于基本模型的几何形状的实例相关性[47]，或者从视频中从头开始学习身份几何形状和几何形状基础[46]。服装再造和建模。在没有[59]的情况下以及与来自3D扫描和RGB-D [45]的单独服装层[38][58]介绍了一种技术，它允许复杂的服装被建模为从裸露的身体偏移。[52]中的工作描述了一种模型，该模型在单个共享潜在代码中对形状、服装草图和服装模型进行编码，这使得能够进行交互式服装设计。使用CNN [27，22]在UV空间中或使用数据驱动的优化方法[40]直接在3D中预测高频皱纹作为姿势的函数所有这些方法[27，58，22]都针对服装的逼真动画，并且只能单独预测服装[27，22]。基于学习的法线和深度恢复[7]或网格[12]已经被证明，但同样仅用于单个服装。相比之下，我们的方法是第一个通过学习图像到图像映射从单个图像重建全身3. 方法这项工作的目标是从一张照片中创建一个可动画的3D模型。模型应反映主体的体型，并包含头发和衣服等细节。细节还应当存在于在输入图像中不可见的身体部位上，例如，在人的背后与以前的工作[33，54，2]相比，我们的目标是不需要精确的3D姿态的全自动重建为此，我们训练Pix 2 Pix-style [19]卷积神经网络来推断SMPL身体模型上的法线和向量位移（UV形状图像）[32]。为了将输入图像与输出的UV形状图像对齐，我们使用现成的方法[5，25]提取可见区域的部分UV纹理图。图1给出了概述。二、第二个小CNN从图像中推断SMPL形状5.1）。节中3.1我们描述了在这项工作中使用的参数化身体模型，并在第二节。3.2我们解释我们的外观，法线和位移的参数化。3.1. 参数化人体模型SMPL是一个参数化的身体模型，它是从穿着最少衣服的受试者的扫描中学习的它被定义为姿态θ和形状β的函数，返回N=6890个顶点和F=13776个面的网格。形状β对应于训练数据主题的前10个主成分。由于尺度在单目图像中是一种固有的模糊性，因此在这项工作中，我们使β与身高无关。我们的方法用标准化的高度估计β，并且与姿态θ无关。超出SMPL形状空间的细节通过UV位移和法线贴图（UV形状图像）添加，如第2节所述。3.2.在数据集生成期间（参见第4），我们使用SMPL来合成在相机前摆姿势的人的图像。3.2. UV参数化SMPL模型用包含6890个顶点的网格描述身体形状。不幸的是，这种分辨率不足以解释精细的细节，如衣服褶皱。另一个问题是，网格不存在于规则的2D网格状图像，因此需要泰勒解决方案[10]，其在图像域上还不如标准CNN有效。为了利用标准CNN的功能，我们建议使用网格表面的完善参数化：UV映射[8]。UV贴图将曲面展开到图像上，允许将曲面上定义的功能表示为图像。因此，U和V表示图像的2个轴。该映射是每网格拓扑定义一次，并通过相邻顶点的重心插值将映射中的每个像素通过使用UV贴图，可以使用与UV贴图分辨率成比例的分辨率的几何细节来增强网格我们使用两个UV贴图，即法线贴图和矢量位移贴图来增强SMPL法线贴图包含新的曲面法线，可以通过着色添加或增强视觉细节。矢量置换贴图包含置换基础曲面的位移和法线定义在SMPL的规范T姿态上。我们的神经网络的输入是输入照片上可见像素的部分纹理图（见第二节）。5.3）。4. 数据集生成为了学习我们的模型，我们从人的真实3D扫描中合成了一个不同的数据集。具体来说，我们在真实照明下与法线贴图、位移贴图和SMPL形状参数β配对，合成了各种姿势的人类图像。大部分扫描（1826）由Twin- dom（https：//web.twindom.com/）提供。我们还从www.example.com和axyz-design.com分别购买了163份和54份扫描件renderpeople.com。这些扫描不共享相同的网格布局，因此我们不能直接计算相干法线和位移贴图。为此，我们针对每个扫描非刚性地配准SMPL模型这确保了所有顶点在数据集中共享相同的上下文此外，我们可以使用SMPL改变扫描不幸的是，非刚性配准2296假房输入UV展开发生器鉴别器图2.我们方法的关键组成部分概述：一个主题的单张照片被转换为部分UV纹理贴图。然后，使用具有跳过连接的U-Net处理该地图，以保留高频细节。PatchGAN增强了现实主义。生成的法线和位移可以使用标准渲染管道应用于SMPL模型。穿衣服的人是一个非常具有挑战性的问题本身（见第二节。4.1），并经常导致不自然的形状。因此，我们手动选择了2043个高质量注册。不幸的是，我们目前的数据集稍微偏向于男性，因为由于长发，裙子和连衣裙，目前女性的注册失败率更高。在2043次扫描中，我们保留20次扫描用于验证，55次扫描用于测试。在下文中，我们将更详细地解释我们的非刚性配准过程，并描述用于训练模型的成对数据集的合成。4.1. 扫描配准如第3.1，N=6890个顶点不足以解释细节。为此，我们将SMPL中的每个面细分为四个，从而产生一个新的网格，该网格由N=27554个顶点和F=55104个面组成。这种高分辨率网格可以更好地解释扫描中的精细几何细节。虽然联合优化通常是可取的，但在分阶段进行时，配准更加稳健：我们首先计算3D姿态，然后是身体形状，最后是非刚性细节。我们通过重建扫描对象的姿势因此，我们通过渲染来自多个相机的扫描并最小化2D联合OpenPose检测的2D重新投影误差来找到3D地标[11]。然后，我们优化SMPL姿态参数θ来解释估计的3D关节位置。接下来，我们优化形状参数β以最小化扫描到SMPL表面的距离。在这里，我们通过为扫描之外的顶点支付更高的成本来确保SMPL顶点留在扫描之内，因为SMPL只能可靠地解释裸露的身体形状。最后，我们通过优化SMPL顶点的位置来由此产生的配准解释了细分SMPL网格布局扫描的高频细节，并且可以重新定位。4.2. 球谐照明对于配对数据集，我们首先需要合成人类的图像。对于真实的照明，我们使用球面谐波照明。球面谐波（SH）是在球面上定义的正交基函数。对于渲染，SH用于描述光照射到场景中的方向[41]。我们遵循标准程序，并描述每种颜色的前9个SH分量的照明。为了产生各种各样的现实照明条件，我们将Laval室内HDR数据集[13]的图像转换为漫射SH系数，类似于[24]。为了进一步增强，我们围绕Y轴随机旋转4.3. UV地图合成为了完成我们的数据集，我们计算UV图，解释3D配准的细节。在UV贴图中，网格的每个面在UV图像中都有一个2D对应面。因此，UV映射基本上是通过2D网格定义的。给定一个3D网格和一组逐顶点信息，可以通过标准渲染合成UV贴图。顶点间的信息通过重心插值填充。这意味着，给定高分辨率的registrations，我们可以简单地渲染详细的UV位移和法线贴图。置换贴图编码的是自由形式的偏移量，它不是SMPL的一部分.法线贴图包含规范T姿势中的曲面法线。这些贴图用于增强标准分辨率的裸SMPL，从而消除了对更高网格分辨率或逐顶点偏移的需求。我们在所有的实验中使用标准分辨率的SMPL与UV地图增强。5. 模型和培训在下文中，我们将更详细地解释所使用的网络架构、损耗和训练方案。进一步，我们解释了如何从DensePose [5]结果中获得部分纹理。5.1. 网络架构我们的方法由两个CNN组成-一个用于法线和位移映射，一个用于SMPL形状参数β。我们的方法的主要组成部分是Tex2Shape网络，如图所示。二、该网络是一个条件生成对抗网络（Pix 2 Pix）[19]，由一个U-Net生成器和一个PatchGAN生成器组成。U-Net具有七个卷积-ReLU-batchnorm向下和向上采样层，具有跳过连接。的采样器由四个这样的下采样层组成。我们基于512×512部分纹理，UV变换2297两点意见：首先，当从HD 1024×1024图像映射像素到UV时，分辨率足够高以包含来自前景的大多数像素，并且不太高以防止大的未占用区域。其次，使用训练集的网格分辨率，较大的UV贴图只会包含更多插值数据。参见补充材料，了解使用较小UV贴图的消融实验。β网络将1024×1024个密集姿态检测作为输入。然后再次对这些进行下采样，convolution-ReLU-batchnorm层，并最终映射到10个β-参数由一个完全连接的层。5.2. 损失和培训计划我们的方法的目标是创造具有高感知质量的结果。我们相信结构比准确性更重要，因此实验有以下损失：引入结构相似性指数（SSIM）来预测图像的感知质量。多尺度SSIM（MS-SSIM）[53]在不同的图像尺度上评估图像我们最大限度地提高了地面实况的结构相似性，并通过最小值预测了法线和位移图，最小化相异度（MS-DSSIM）：（1-MS-SSIM）/2。我们进一步训练与完善的L1损失和GAN-loss来自于网络。最后，用L2参数损失训练β网络。我们使用Adam优化器训练两个CNN [26]，并在损失达到平台时衰减学习率。5.3. 输入部分纹理贴图形成我们方法输入的部分纹理是通过基于DensePose检测将像素从输入图像转换到UV空间来创建的，参见图。3.第三章。Dense- Pose预测了SMPL身体模型的24个身体部位的UV坐标（图1）。3中间）。为了更容易的映射，我们预先计算了一个查找表，以从24个密集姿势 UV 贴图转换为单个关节 SMPL UV 参数化。DensePose检测中的每个像素现在映射到SMPL UV贴图中的坐标。使用这种映射，我们从输入图像计算部分纹理（图1）。3右）。6. 实验在下文中，我们定性和定量地评估我们提出的方法。四个不同数据集上的结果以及与最新技术水平的比较证明了我们方法的通用性和稳健性以及结果的质量（第6.1节）。此外，我们研究了不同的监督损失的影响（第二节）。6.2），评估不同的UV映射方法（第6.2节）。6.3），并测量不同能见度水平的鲁棒性（第6.3节）。6.4）。最后，在第6.5我们展示了我们提出的方法的潜在应用更多的实验和烧蚀研究可以在材料中找到。由于单目图像中的尺度模糊性，图3.为了创建我们方法的输入，我们首先使用DensePose处理输入图像（左）。密集姿态结果（中）包含UV坐标，可用于将输入图像映射到部分纹理（右）。所有结果都符合比例。此外，我们的方法不计算姿势。为了更好地检查，我们以地面实况或A-pose描述结果此外，我们通过用于UV映射的方法对结果进行颜色编码（参见第6.3）。使用DensePose映射的结果是绿色的，蓝色标记地面实况映射，红色表示基于HMR的[25]纹理再现，地面实况形状是灰色的。所有结果均以交互式帧率计算。准确地说，我们的方法在NVIDIATesla V100上进行位移图、法线图和β估计平均需要50ms。可以实时执行使用DensePose的UV贴图。6.1. 定性结果和比较我们将我们的工作与PeopleSnapshot数据集上的四种单目人体形状重建相关方法进行了定性比较[4]。BodyNet [49]是一种基于体素的方法，仅从一张图像中估计人体姿势和形状。SiCloPe [33]也是基于体素的，但通过依赖于主体的合成轮廓来恢复某些细节HMR[25]是一种使用SMPL身体模型从单个图像估计姿势和形状的方法。在[4]中，作者提出了第一种基于视频的单目形状重建方法，该方法超出了SMPL的参数。他们使用120张相同主题的图像，大致摆成A姿势，并将轮廓融合成一个规范的表示。然而，该方法是基于优化的，并且需要首先在每个帧中拟合姿势，这使得该过程非常缓慢。在图6中，我们显示了与我们的结果的并排比较。我们的方法显然具有最高级别的细节，即使与使用120帧的[4]相比，我们的方法只需要一个图像作为输入，并以交互式帧速率运行。在图4中，我们展示了我们的方法的更多结果。我们在自己的数据集上对地面实况进行了比较，并在3DPW[51]、DeepFashion[30，31]和PeopleSnapshot[4]数据集上显示了我们的方法成功地generalizes到各种现实世界的条件。请注意如何现实的衣服褶皱是虚幻的看不见的模型。一般来说，我们可以看到我们的方法能够从单个图像输入中推断出具有头发、面部细节和包括衣服褶皱的各种衣服的2298图4.我们在四个不同数据集上的3D重建结果（绿色）我们在我们的合成数据集（第1行和第2行）上与地面实况（灰色）进行比较3DPW（第3行），DeepFashion（第4行左）和PeopleSnapshot（第4行右）的定性结果表明，我们的模型可以很好地推广到现实世界的镜头。模型背面的细节是由我们的模型产生的。图5.与输入图像和地面实况网格（灰色）相比，使用三种不同方法进行部分纹理创建的结果：地面实况UV映射（蓝色）、DensePose UV映射（绿色）、基于HMR的纹理重投影（红色），参见图7 .第一次会议。2299图6.我们的方法相比，其他方法的人体形状重建。从左至右：输入图像，BodyNet [49]，HMR [25]，SiCloPe [33]，Video [4]和我们的。我们的方法保留了最高级别的细节。6.2. 监督类型节中5.2、我们介绍了MS-DSSIM的损耗。使用这种损失背后的直觉是，对于视觉保真度，结构比准确性更重要。为了评估这一设计决策，我们训练了一个仅具有L1和GAN损失的Tex2Shape网络变体。由于量化更好的结构并不简单，我们在视觉基础上仔细检查我们的结果。我们发现，用MS-DSSIM损失训练的变体能够更可靠地重建复杂的布料。示例如图所示。8.请注意，使用MS-DSSIM损失计算的结果成功重建了护套。6.3. UV映射我们的方法需要首先将输入图像映射到部分UV纹理。我们建议使用DensePose [5]，这使得我们的方法独立于主体的3D姿态。在下文中，我们评估UV映射的选择对我们的方法的影响。为此，我们训练了我们网络的三个变体。首先，我们使用从扫描中计算出的地面真实UV映射进行训练。我们在图像空间中渲染扫描5.3）。我们将此变体称为GT-UV。其次，我们训练了一个可以与现成的3D姿态估计器一起使用的变体。为此，我们渲染UV坐标的裸SMPL模型没有自由形式的偏移。通过这种方式，仅映射被裸露SMPL形状覆盖的像素，这模拟了来自3D姿态检测器（3D姿态变体）的结果的纹理重投影最后，我们将使用DensePose与我们的标准训练过程进行比较。图中给出了使用三种变体创建的部分纹理的比较。7.第一次会议。请注意，我们如何通过使用DensePose贴图丢失大部分纹理。为了评估3D姿态变量，我们选择HMR [25]作为3D姿态检测器。不幸的是，HMR的结果确实图7.使用不同方法计算的部分纹理。从左至右：输入、地面真实UV贴图、密集姿态、HMR。图8.在使用MS-DSSIM损失使能的训练之后（绿色），比仅使用L1损失的训练之后（黄色）更可靠地重建复杂服装并不总是与输入图像对齐，这在UV空间中产生较大的误差。为此，我们通过最小化SMPL关节到OpenPose[11]检测的2D重投影误差来优化结果。我们选择狗腿优化并优化20步。图5我们展示了这三个方面的并排比较变体。虽然GT-UV和DensePose变体几乎相同，但3D姿势变体缺乏一些细节并在面部区域中引入噪声。这是由于即使在姿势细化之后仍然没有实现完美的对齐。GT-UV和DensePose变体在发型和短裤的边界上差异最大，这并不奇怪，因为头发和衣服仅部分由DensePose映射。然而，这两种变体与地面实况结果非常相似。密集姿势和3D姿势映射变体可以直接用于现实世界的镜头，而只使用合成数据进行训练6.4. 能见度的影响在下文中，我们数值评估了我们的方法对由不同姿势和到相机的距离引起的不同可见度设置的鲁棒性。以下结果是使用 GT UV 贴图计算的，以消除由DensePose引入的噪声。哪些像素可以映射到UV局部纹理由主体的姿势和到相机的距离确定身体的某些部分可能不可见（例如，对象如果被摄体远离相机，则它仅覆盖图像的一小部分区域，因此只能映射少量像素。在图9中，我们测量了这如何影响我们结果的准确性。在一个测试集与55个主题，我们合成的三个不同的姿势与各种距离的相机大小的图像。这三个姿势是A型，走向相机，并摆出侧身与手接触。我们23001312111030 25 2015 10UV贴图中占用的像素（%）图9.三种不同姿势的平均位移误差（红色：A姿势，蓝色：步行，绿色：用手触摸侧向摆姿势）和到相机的不同距离。阴影区域标记了经过训练的UV贴图占用的边缘。2015100 10 20 30 40 50 60 70 80 90相对旋转相机（°）图10. A姿势受试者的平均位移误差和相对于相机绕Y轴的不同旋转。我们的模型已经在旋转±20度上进行了训练。报告3D位移图（包括未看到的区域）的平均每像素误差与部分纹理中占用像素的百分比对于所有三个姿势，误差线性增加，即使是未经训练的纹理职业。毫不奇怪，所有三种姿势中最少的都存在于受过训练的职业的边缘。不可否认，对于更高的概率，错误稍微上升，这是由以下事实引起的，即网络没有针对主体完全覆盖输入图像的场景进行训练。图10，我们研究了我们的方法对不可见姿势的鲁棒性我们用人类大致面对摄像头的图像训练网络。因此，我们在我们的数据集中随机采样姿势，±20mm。在这个实验中，我们围绕Y轴旋转A姿势，并报告平均每像素3D位移误差。从0° C到30° C，误差几乎保持不变，30° C之后，误差线性增加。同样，这种行为可以通过网络没有针对这些角度进行训练来解释。这两个实验都证明了我们的方法对训练集未覆盖的场景的鲁棒性。6.5. 服装转移在我们的最后一个实验中，我们希望展示我们的方法的潜在应用，即服装转移或虚拟试穿。我们采取我们的方法的几个结果，并使用它们来合成一个新衣服的主题为了实现这一点，我们保持SMPL形状参数β。然后我们根据不同的结果改变法线和位移贴图。因此，我们保留面部区域中的细节，以保留主体的身份和发型。由于我们在UV空间中编辑，因此可以使用标准图像编辑技术简单地完成此操作。在图11中，我们展示了一个穿着三种不同合成服装风格的受试者。图11.由于所有重建共享相同的网格布局，我们可以提取服装样式并将其转移到其他主题。图12.我们方法的失败案例：预测者会把裙子和短裤混淆，把女性和男性对象混淆，把兜帽和衣领混淆。7. 讨论和结论我们已经提出了一种简单而有效的方法，从一个单一的输入图像中的人的全身形状。对于第一次，我们提出了单一的图像形状rebrief- tion与精细的细节，也对闭塞的部分。这项工作的核心思想是把一个困难的全身形状repricing- tion问题变成一个更容易的3D姿态无关的图像到图像的翻译。我们的模型Tex2Shape将从DensePose创建的部分纹理贴图作为输入，并以法线和位移贴图的形式估计UV空间中的估计的UV图允许用高频细节增强SMPL身体模型，而我们的实验表明，Tex2Shape可以稳健地推广到真实世界的镜头，而只在合成数据上进行训练。我们的方法在训练集没有覆盖的头发和衣服上发现了它的局限性对于长发和连衣裙尤其如此，因为它们不能被建模为矢量置换场。典型的故障情况如图所示。12个。这些失败可以用丢失训练样本引起的服装类型或性别混淆来解释。在未来的工作中，我们希望进一步开放的问题，人体形状估计和explore形状表示，允许所有类型的服装，甚至配件。我们已经表明，通过将一个困难的问题转化为一个简单的公式，复杂的模型可以被执行。我们的方法奠定了广泛的三维重建的人的各种应用程序，甚至从遗留材料的基础。致谢。这项工作的部分资金来自德国研究基金会（DFG，德国研究基金会）- 409792180 （Emmy Noether 计划，项目：Real VirtualHumans）和项目MA 2555/12-1。我们要感谢Twindom为我们提供扫描数据。平均误差（mm）平均误差（mm）2301引用[1] http://virtualhumans.mpi-inf.mpg.de/tex2shape/.2[2] ThiemoAlldieck ， MarcusMagnor ， BharatLalBhatnagar，Christian Theobalt，and Gerard Pons-Moll.学习从一个RGB摄像机重建穿着衣服的人。在IEEE计算机视觉和模式识别会议上，2019年。一、二、三[3] Thiemo Alldieck ， Marcus Magnor ， Weipeng Xu ，Christian Theobalt，and Gerard Pons-Moll.从单目视频的详细的人类化身。国际会议2018年9月在3D Vision上发布。2[4] Thiemo Alldieck ， Marcus Magnor ， Weipeng Xu ，Christian Theobalt，and Gerard Pons-Moll.基于视频的三维人体模型重建。在IEEE会议计算机视觉和模式识别，2018年。一、二、五、七[5] RızaAlpGuéler，Na taliaN ev er ov a，andIasonasKokkinos. 密度：野外密集的人体姿势估计。在IEEE计算机视觉和模式识别会议上，第7297-7306页，2018年。二、三、四、七[6] Dragomir Anguelov 、 Praveen Srinivasan 、 DaphneKoller、Se- bastian Thrun、Jim Rodgers和James Davis。SCAPE：人的形状完成和动画在ACM Transactions onGraphics，第24卷，第408-416页中ACM，2005年。2[7] Jan Bednarik，Pascal Fua，and Mathieu Salzmann.学习从单个视图重建纹理较少的可变形表面国际会议关于3DVision，第606-615页，2018年。3[8] James F Blinn和Martin E Newell。计算机生成图像中的纹理和反射Communications of the ACM，19（10）：542-547，1976. 3[9] Federica Bogo、Angjoo Kanazawa、Christoph Lassner、Pe ter Gehler、Javier Romero和Michael J Black。保持它SMPL：从单个图像自动估计3D人体姿势和形状。在欧洲会议中计算机视觉。施普林格，2016年。一、二[10] Michael M Bronstein，Joan Bruna，Yann LeCun，ArthurSzlam，and Pierre Vandergheynst.几何深度学习：超越欧几里得数据。IEEE信号处理杂志，2017年。3[11] 曹哲、托马斯·西蒙、魏世恩和亚瑟·谢赫。使用部分仿射场的实时多人2d姿态估计。在IEEE计算机视觉和模式识别会议上，2017年。二四七[12] RDaneEscherichek， EndriDibra ， C？ ztireli ， RemoZie gler ，andMarkus Gross.深衣：根据单个图像的3D服装形状估计。在计算机图形论坛，第36卷，第269-280页。WileyOnline Library，2017. 3[13] Marc-Andre'Gardner ， KalyanSunkavalli ， ErsinYumer，Xi-aohuiShen，EmilianoGambaretto，ChristianGag ne'，andJean-Fran c oisLalonde. 学习从单个图像预测室内照明ACM Transactions on Graphics，9（4），2017。4[14] PengGuan ， Ale xanderWeiss ， Ale xandruOBalan ，andMichael J Black.从人体模型估计人体形状和姿态一个单一的形象。IEEE国际会议计算机视觉，2009年。2[15] MarcHabermann ， WeipengXu ， MichaelZollhofer ，GerardPons-Moll，and Christian Theobalt.Livecap：从单目视频中实时捕捉人类行为。ACM Transactions onGraphics，38（2）：14：1-14：17，2019。一、二[16] Nils Hasler ， Carsten Stoll ， Martin Sunkel ， BodoRosenhahn，and H-P Seidel.人体姿势和体型的统计模型计算机图形学论坛，2009年。2[17] Loc Huynh，Weikai Chen，Shunsuke Saito，Jun Xing，Koki Nagano，Andrew Jones，Paul Debevec，and HaoLi.使用深度神经网络的介观面部几何推断在IEEE计算机视觉和模式识别会议论文集，第8407-8416页3[18] Eldar Insafutdinov，Leonid Pishchulin，Bjoern Andres，Mykhaylo Andriluka，and Bernt Schieke. Deepercut：更深、更强、更快的多人姿势估计模型。在欧洲会议中计算机视觉，2016年。2[19] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei AEfros. 使用条件对抗网络进行图像到图像翻译在IEEE会议计算机视觉和模式识别，第1125-1134页，2017年。二、三、四[20] 亚伦·S·杰克逊，克里斯·马纳法斯，乔治斯·齐米罗普罗斯。通过体积回归从单个图像进行3D人体重建。在欧洲计算机视觉会议上，第64-77页。Springer，2018. 2[21] ArjunJain 、 ThorstenThorm¨ hlen 、 Hans-PeterSeidel 和Christian Theobalt。影片整形：在视频中跟踪和重塑人类。 ACMTransactions on Graphics ，第 29 卷，第 148页。ACM，2010年。2[22] Ning Jin ， Yilin Zhu ， Zhenglin Geng ， and RonaldFedkiw. 基于像素的数据驱动服装框架。arXiv预印本arXiv：1812.01677，2018。3[23] Hanbyul Joo Tomas Simon和Yaser SheikhTotal Capture：用于跟踪面部、手部和身体的3D变形模型。在IEEE计算机视觉和模式识别会议上，第8320-8329页，2018年。2[24] 金盛义弘和远藤由纪。重新照亮人类：用于全身人体图像的遮挡感知逆绘制。ACM Transactions on Graphics，37（270）：14[25] 作者：Michael J.作者：David W.雅各布斯和吉坦德拉·马利克端到端恢复人体形状和姿势。在IEEE会议计算机视觉和模式识别，2018年。一二三五七[26] Diederik P Kingma和Jimmy Ba。 Adam：随机最佳化的方法。在国际会议上学习表示，第5卷，2015年。5[27] 佐拉·拉纳丹尼尔·克里默斯托尼·董深皱纹：精确逼真的服装造型。在欧洲会议中计算机视觉，第667-684页，2018年。3[28] Christoph Lassner 、 Javier Romero 、 Martin Kiefel 、Federica Bogo、Michael J Black和Peter V Gehler。团结人民：关闭3D和2D人类表现之间的循环。在IEEE会议计算机视觉和模式识别，2017年。22302[29] Guannan Li，Chenglei Wu，Carsten Stoll，Yebin Liu，Kiran Varanasi，Qionghai Dai，and Christian Theobalt.在一般不受控制的照明下捕捉可重燃的人类表演。计算机图形学论坛，2013年。2[30] Ziwei Liu，Ping Luo，Shi Qiu，Xiaog

下载后可阅读完整内容，剩余1页未读，立即下载