DeepHuman：通过图像进行3D人体重建

141 浏览量更新于2023-10-13 收藏 1.59MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7739DeepHuman：从单个图像进行郑泽荣郑陶宇魏逸轩戴琼海刘业斌北京航空航天大学北京航空航天大学北京航空航天大学摘要我们提出了DeepHuman，这是一种图像引导的体积到体积转换CNN，用于从单个RGB图像进行3D人体重建为了减少与表面几何重构相关联的模糊性，甚至对于不可见区域的重构，我们提出并利用从SMPL模型生成的密集语义表示我们网络的一个关键特征它通过体积特征变换将不同尺度的图像特征融合到3D空间中，这有助于恢复精确的表面几何形状。可见的表面细节通过一个正常的细化网络，它可以连接到使用我们提出的体积正常投影层的体积生成网络进一步细化我们还贡献了THuman，一个包含约7000个模型的3D使用从数据集生成的训练数据来训练网络。总的来说，由于我们的网络的特定设计和数据集的多样性，我们的方法仅在单个图像的情况下就可以进行3D人体模型估计，并且性能优于最先进的方法。1. 介绍基于图像的人体重建是VR/AR内容创建[7]、图像和视频编辑和再现[19，43]、全息摄影[40]和虚拟着装[42]的重要研究课题。为了执行全身3D重建，当前可用的方法需要融合目标的多视图图像[8，25，20]或多从单个RGB图像中恢复人体模型仍然是一项具有挑战性的任务，迄今为止几乎没有引起人们的注意。仅使用单个图像，可用的人类解析研究已经涵盖了从2D姿态检测[41，6，39]开始的流行主题，到3D姿态检测[33，44，64]，最后扩展到使用人类统计模板（如SMPL [32]）的体形捕获[27]然而，统计模板只能捕获最少穿着的身体的形状和姿势，并且缺乏表示正常服装层下的3D人体模型的能力。虽然最近的工作，图1：仅给定单个RGB图像，我们的方法自动重建穿着人体的表面几何形状。BodyNet[52]开创了这一目标的研究，它只生成几乎没有衣服的身体重建结果，偶尔会有身体部位断裂。我们相信，从单幅图像重建正常服装下的三维人体，这需要进一步研究，很快将成为下一个热门的研究课题。从技术上讲，从单个RGB图像进行人体重建是非常具有挑战性的，这不仅是因为需要预测不可见部分的形状，还因为需要对可见表面进行几何恢复。因此，能够完成这样的任务的方法应当满足两个要求：首先，应当约束输出空间的自由度以避免不可解释的伪像（例如，破碎的身体部位）;第二，该方法应该能够有效地从输入图像中提取几何信息，例如服装风格和皱纹，并将它们融合到3D空间中。在本文中，我们提出了DeepHuman，一个基于深度学习的框架，旨在解决这些挑战。具体地，为了为网络提供合理的初始化并约束输出空间的自由度，我们提出通过在估计参数化身体模板的形状和姿势参数（例如，SMPL[32]）。注意，推断图像的相应SMPL模型的要求并不严格;相反，几种精确的方法可用于从单个图像进行SMPL预测[5，27]。的7740输入图像和语义体积图被馈送到图像引导的体积到体积转换CNN中以用于表面重建。为了最大限度地准确恢复发型或布料轮廓等表面几何形状，我们提出了一种多尺度体积特征变换，以便将最后，我们引入了一个体积法向投影层，根据输入图像进一步细化和丰富可见表面细节该层旨在连接体积生成网络和正常细化网络，并实现端到端训练。总之，我们通过将该任务分解为三个子任务来以粗到细的方式执行3D人体重建：a）从输入图像的参数化身体估计，b）从图像和估计的身体的表面重建，以及c）根据图像的可见表面BodyNet [52]中用于网络训练的可用3D人体数据集[53]本质上是一组在SMPL模型上纹理化的合成大小的图像[32]。没有公开的大规模人体三维数据集的表面几何形状下正常的衣服。为了填补这一空白，我们提出了 THUMAN 数据集。我们利用最先进的DoubleFusion [63]技术进行实时人体网格重建，并提出了一种捕获流水线，用于快速有效地捕获穿着具有中等表面细节和纹理的休闲服基于该流水线，我们对THuman数据集进行了捕获和重构，该数据集包含约7000个人体网格，其中包括随机采样姿势下的约230种衣服我们的网络从THuman数据集合成的训练语料库中学习利用数据集的多样性，该网络能很好地推广到自然图像，并在给定单个图像的情况下提供满意的重建。我们证明了改进的效率和质量相比，目前国家的最先进的方法。我们还展示了我们的方法的能力和鲁棒性，通过扩展应用程序上的单目视频。2. 相关工作来自多视图图像的人体模型。先前的研究集中于使用多视图图像进行人体模型重建[26，47，30]。形状线索，如sil-houette，立体声和阴影线索已被整合，以提高重建性能[47，30，58，57，55]。最先进的实时[11，10]和极高质量[8]的重建结果也已经通过使用双目[12]或多视图立体匹配[13]算法的数十甚至数百个摄像机得到了证明。为了捕捉多个交互角色的详细运动，已经使用了六百多个摄像机来克服遮挡挑战[24，25]。然而，所有这些系统都需要复杂的环境设置，包括摄像机校准、同步和照明控制。为了降低系统设置的难度，最近已经通过使用CNN来学习剪影提示[15]和立体提示[20]，研究了这些系统需要大约4个摄像机视图用于粗略的表面细节捕获。还应注意，尽管已经开发了使用轻量级相机设置[54，9，14]的时间变形系统，用于使用电子束跟踪[54，31]或人体网格模板变形[9]的动态人体模型重建，但这些系统将预扫描的特定于受试者的人体模板假设为变形的关键模型。从时间图像的人类模型。为了探索低成本和方便的人体模型捕获，许多研究尝试通过聚合来自多个时间帧的信息来仅使用单个RGB或RGBD相机来捕获人体。对于RGBD图像，DynamicFusion [38]打破了静态场景假设，并使非刚性目标变形，以在规范静态模型上进行TSDF融合。BodyFusion [62]试图通过添加关节连接先验来提高稳健性。DoubleFusion [63]在融合管道中引入了人体形状先验，并实现了最先进的实时效率、鲁棒性和循环闭合性能，即使在快速运动的情况下也能实现高效的人体模型再现。还有用于多个RGBD图像的全局配准以获得全身模型的离线方法[29]。为了使用单视图RGB相机重建人体，已经提出了在目标保持尽可能静止的同时旋转相机的方法[65]，或者在目标旋转时保持相机静止最近，已经提出了可以仅使用单个RGB摄像机重建动态人体模型的人体表演捕获[59，18];然而，与多摄像机场景[54，9，14]类似，这种方法需要预扫描的人体模型作为输入。从单个图像进行人类解析。从一幅图像中解析出人体是近年来计算机视觉领域的一个热门课题.该研究可以分为稀疏2D解析（2D骨架估计）[6，39]，稀疏3D解析（3D骨架估计）[33，44，64，48，50，35，61]，密集2D解析[17]和密集3D解析（形状和姿势估计）。最近，由于SCAPE [4]和SMPL [32]等人类统计模型的出现，来自单个图像的密集3D解析引起了极大的兴趣例如，通过将SCAPE或SMPL模型拟合到检测到的2D骨架和图像的其他形状线索[5，28]，或者通过使用CNN回归[27，49，51] SMPL模型，可以从单个图像自动获得形状和姿态参数。关于单视图人体模型重建，只有Varol等人的几个最近的作品[52]，Jack- son et al.[23]和Natsume et al. [36]第30段。在第一项研究中，用于网络训练的3D人体数据集缺乏几何细节，导致其中的SMPL样体素几何形状。7741产出第二项研究显示了输出高质量细节的能力，但他们的训练集受到高度约束，导致泛化困难，eidogg，不同的人类姿势。Natsume et al.[36]预测多视点2D轮廓来重建3D模型，但是它们的重建结果具有有限的姿态变化。3D人体数据集。大多数可用的3D人类数据集用于3D姿态和骨架检测。HumanEva [46]和Human3.6M [21]都包含多视图人类视频序列，具有从基于标记的运动捕捉系统获得的地面实况3D图像注释。由于需要穿戴标记或特殊套装，两个数据集的服装差异有限。MPI-INF-3DHP [34]数据集通过使用多视图无标记mocap系统丰富了布料外观。然而，所有这些数据集都缺乏每个时间帧的3D模型。为了满足从单个图像进行姿态和形状重建的要求，通过在不同的服装纹理下渲染具有不同形状和姿态参数“Unite the People”数据集[28]提供了用3D SMPL模型半自动注释的真实世界人类图像。这两个数据集与我们的数据集相反，不包含表面几何细节。3. 概述给定一个穿着休闲服的人的图像，用I表示，我们的方法旨在用合理的几何细节重建他/她的全身3D表面。直接从图像中恢复对象的表面模型是非常有挑战性的，因为深度模糊，身体自遮挡和输出空间的高自由度。因此，我们以由粗到细的方式执行3D人体重建。我们的方法从参数化的身体估计，然后执行全身表面重建，最后细化的表面上的可见区域的细节我们利用最先进的方法HMR[27]和SMPLify[5]从I估计SMPL模型;更多细节请参见为了将SMPL估计馈送到CNN中，我们根据SMPL上的每个顶点在静止姿态下的空间坐标为SMPL上的每个顶点预定义语义代码（3维向量）。给定SMPL估计，我们将语义代码渲染到图像平面上以获得语义映射Ms，并通过首先将SMPL模型体素化为体素网格，然后将语义代码传播到体素网格中来生成语义体素Vs。我们的稠密语义表示有三个优点：（1）它编码了关于身体的形状和姿势的信息，从而为网络提供了合理的初始化，并限制了输出空间的自由度;（2）它提供了关于3D体素和2D图像像素之间对应关系的线索;（3）它很容易被纳入神经网络。补充文件提供了更多细节。图2：网络架构。我们的网络主要由一个图像特征编码器（橙色），一个体积到体积的翻译网络（蓝绿色）和一个正常的细化网络（黄色）。对于表面几何重建，我们采用占用体积来表示表面[52]。具体地，我们定义3D占用体素网格Vo，其中表面内的体素值被设置为1和0。 ER被设置为0。所有的占有量都有一个固定的分辨率-分辨率为128×192×128，其中y轴的分辨率设置为更大的值，并且可以自动适合于所观察的人体的长轴为了在I和Ms的帮助下从V s重建V o，我们提出了一种图像引导的体积到体积平移网络（第4.1节），其中我们使用多尺度体积特征变换（第4.1.1节）将2D图像引导信息融合到3D体积中。因此，网络将利用来自2D图像和3D体积两者的知识由于分辨率的限制，体素网格总是无法捕获诸如衣服褶皱之类的精细细节为了进一步丰富和细化表面可见部分的几何细节，我们建议直接从Vo（第4.1.2节）投影2D法线映射N换句话说，我们使用2D法线映射对可见表面的几何细节进行编码，从而降低了内存需求。为了训练具有监督的网络，我们贡献了THuman，一个真实世界的3D人体模型数据集（第5节）。我们从数据集中合成训练语料库。一旦网络被训练，它就可以在给定人的图像和对应的SMPL估计的情况下预测可见表面的占用体积和法线图我们首先使用March-ingCube算法从占用体积中提取三角形多边形网格，然后使用[37]中的方法根据法线映射细化网格，从而获得最终重建结果4. 方法4.1. 网络架构我们的网络由3个组件组成，即图像编码器G，体积到体积（vol2vol）转换网络，7742FFFFFFFFFF图4：可微深度投影的图示。图3：在k级的体积特征变换（VFT）的图示。独立切片.ΣVFTV（k）（zi）=αk<$V（k）（zi）+βk（1）工作H和正常的细化网络R，如图2所示。图像编码器G旨在提取多尺度2D特征图M（k）（k=1，. . .，K）从I和M的组合。vol 2 vol网络是一个体积U-Net [60]，其取Vs和M（k）（k=1，. . .，K）作为输入，并且输出表示表面的占用体积V。我们的vol2vol网络H融合了多尺度语义特征M（k）（k = 1，. . . ，K）通过多尺度体积特征Transformer输入到其编码器中。在生成Vo之后，一个正常的细化U-Net [45] R在直接从Vo通过一个体积到正常投影层。网络中的所有操作都是可区分的，因此可以以端到端的方式进行训练或微调。实施细节见补充文件。4.1.1多尺度体积特征Transformer在这项工作中，我们扩展了空间特征 Transformer（SFT）层[56]以处理多尺度特征金字塔中的2D-3D数据对，并提出了多尺度体积特征变换器（VFT）。SFT首先在[56]中用于执行以语义分类先验为条件的图像超分辨率，以避免回归均值问题。SFT层学习输出调制参数，基于输入先验的ter对（α，β）然后，对特征图F的变换被执行为：SFT（F）=α <$F + β，其中α是Hadamard积。在我们的网络中，在每个级别k，特征体积V（k）其中V（k）（z i）是平面z=z i，z i=1，2，. . .，Z，Z是最大z轴坐标。VFT层的输出是变换后的特征切片的重新组合图3是VFT的示意图VFT的优势有三方面。首先，与将特征体/图转换为潜码并在网络瓶颈处将它们连接相比，它保留了图像/体特征的形状连续性，从而编码更多的局部信息。第二，它是高效的。使用VFT，可以在单次仿射变换中实现特征融合，而不需要额外的卷积或完全连接。第三，它是灵活的。VFT可以在原始图像/体积或下采样特征图/体积上执行，从而可以融合不同尺度的特征并实现更深的特征转移。为了最大限度地整合图像特征，我们对多尺度特征金字塔进行体积特征变换;参见图2中的蓝色我们只在vol 2 vol 网络的编码器部分执行 VFT; 然而，transformation- tion信息可以通过跳过连接传播到解码器。如第6.3节所述，与直接连接网络瓶颈处的潜在变量相比，多尺度特征变换有助于恢复更准确的表面几何形状。4.1.2体积到法线投影图层我们的目标是获得几何细节（例如，皱纹和布料边界）。(blue图2中的立方体）和特征图M（k）（橙色然而，基于体积的表示无法限制-图2中的正方形）由先前的编码层提供。类似于[56]，我们首先将特征图M（k）映射到mod-1。通过卷积+激活层（参见图3的第二行）计算参数（αk，βk）注意操作在SF中，T（·）不能直接应用于V（k），M（k）是-由于分辨率的限制，无法获得如此精细的细节因此，我们将可见的几何细节编码在2D法线映射上，这可以使用我们的可微分体积到法线投影层从occulus体积该层首先投影深度图，从占用体积中，转换深度维度不一致的原因（V（k）有z轴，而（αk，βk）因此，我们沿着z轴将特征体积切片成一系列特征切片，沿z轴的厚度为1。然后，我们对每个特征z应用相同的逐元素仿射变换。映射为顶点图，然后通过一系列数学运算计算法线图4是解释层如何投影深度图的2D图示。在图4（a）中，蓝色圆圈是我们要重建的模型，圆圈所占据的体素7743SOOVOfv fvoo oo用灰色标记。考虑图像平面上的像素p=（xp，yp）作为示例。为了根据Vo计算p的深度值D（p），一种简单的方法是将用于平衡占用和未占用体素的损失贡献。类似于[52]，我们在轮廓上使用多视图重新投影损失作为额外的正则化：沿z轴放置一条射线并记录占用状态1 天（xy）（xy）所有的体素沿该射线（图4（b））。之后，我们可以LFS= −。.SFVlogSfv+通过找到最近的被占用体素来确定D（p）一般来说，D（p）根据下式获得：. ..fv. x为oh.Σ1−S（xy）日志.Σ1 −S（xy）（七）D（p）= inf、、、z|V（xpypz）= 1（二）fv fvO其中V（xpypz）表示坐标（xp，yp，z）处的体素的值。虽然这种方法很简单，但由于通过它进行微分的复杂性，很难将运算inf{·}并入神经网络其中，LFS表示前视图轮廓重投影损失，Sfv是Vo的轮廓重投影，Sffv是V o的轮廓重投影。对应的地面实况轮廓，以及S（xy）和S（xy）在坐标（x，y）处表示它们各自的像素值。假设一个弱透视相机，我们可以很容易地观察到-通过正交投影得到S（xy）：S（xy）=因此，我们将占用体积转换为深度fv fv体积Vd通过应用变换f：最大zV（xyz）. 侧视重投影损失LSS是-V（xyz）=f（V（xyz））=M（1−V（xyz））+zV（xyz）（3）其中M是足够大的常数。然后，如图4（c）所示，D（p）可以计算为：罚款类似。对于法线贴图细化，我们使用余弦距离来测量预测的法线贴图与相应的地面真实值之间的差异：D（p）= min f（V（xpypz））。（四）D1ΣLN=. .1−. N.|·|N（x y）|Nˆ(xy)|（八）z.. x为oh在深度投影之后，我们通过根据深度像素在图像上的位置将x和y坐标分配给深度像素来将深度图变换为顶点图Mv然后用Sobel算子计算顶点映射在x和y方向上的方向导数：Gx=Sx<$Mv，Gy=Sy<$Mv，其中Sx和Sy是索贝尔算子。像素p=（xp，yp）处的法线可以是计算如下：其中，N（xy）是由正常细化r产生的细化的正常映射，N（xy）是地面实况映射，并且类似地，N（xy ）和N（xy）表示它们在坐标（x，y）处的相应pi x值。因此，合并损失为L=LV+λ FSLFS+λ SSLSS+λ NLN。（九）5. THuman：3D真实世界人体数据集N（xpyp）=Gx（p）×Gy（p），（5）其中×表示叉积。最后，N被上采样2倍，并通过U-Net进一步细化。4.2.损失函数我们用于训练网络的损失函数包括3D占用场和2Dsil-houette的重建误差我们使用扩展的二进制交叉熵（BCE）损失来重建占用体积[22]：L=−。1.一、γV收集具有包含休闲服装、各种人体形状和自然姿势的纹理的丰富的3D人体表面模型一直是一项耗时且费力的任务，因为它总是依赖于昂贵的激光扫描仪或受控环境中的复杂多视图系统。幸运的是，最近推出的DoubleFusion[63] 使这项任务变得更容易，DoubleFusion是一种使用单个深度相机的实时人类行为捕获系统基于DoubleFusion，我们开发了一种获取三维人体网格模型的方法，并收集了一个名为“THuman”的三维真实世界人体网格数据集THuman有大约7000个数据项;每个数据项包含一个纹理表面网格，一个RGBDV.ˆ..O. x，y，zO（1−γ）O.Σ1−VΩ（xyz）7744O日志.Σ1−V（xyz）（六）来自Kinect 传感器的图像，以及伴随的井-对齐SMPL模型。有关捕获系统和数据集的更多详细信息，请参见补充文档。在这项工作中，我们只使用纹理表面网格，其中，V_ o是对应于V的地面真值解，V（xyz）和V_o（xyz）是响应中的v_ox元素伴随的SMPL模型来生成训练数据。训练语料库按以下步骤合成：对于我们数据集中的每个模型，我们首先渲染4种颜色的图像，oo o坐标（x，y，z）处的观察体积，γ是使用类似于以下方法的4个随机观察点的权重年龄7745方法HMRBodyNet我们平均3D IOU41.4%百分之三十八点七百分之四十五点七表1：使用3D IOU评分的定量比较。[53];之后，我们生成相应的语义图和体积，占用体积以及法线图。通过枚举数据集中的所有模型，我们最终合成了28K的图像用于网络训练。6. 实验6.1. 结果我们在图5中用各种人类图像展示了我们的方法。输入图像是从LIP数据集[16]中采样的自然图像。如图5所示，我们的方法能够重建3D人体模型和表面细节，如衣服的褶皱，腰带和下摆。在图6中，我们展示了一个扩展的应用程序，从一个单一的RGB视频三维人体表现捕捉。应该注意的是，重建结果是通过将我们的方法独立地应用于每个视频帧而生成的，而不涉及任何时间平滑度。结果表明，我们的方法来处理各种人体姿势和其强大的性能的能力。请参阅补充材料和视频了解更多结果。6.2. 比较在图5和图7中，我们将我们的工作与三种最先进的基于深度学习的单视图3D人体重建方法进行了定性比较：[27]，[28]，[29]，[29]，[29]。如图5所示，我们的方法能够实现比HMR和BodyNet更详细的重建（见图5（a）），并且当一些身体部分被遮挡（参见图5（b，g，h））。在图7中，我们示出了SiCloPe在一些具有挑战性的姿势上失败，并且在其他常见姿势上产生不准确的重建。总的来说，由于从粗到精的算法设计，我们的方法在通用性和准确性之间取得了更好的平衡。对我们的合成数据的测试集进行了与HMR[27]和BodyNet[52]的定量比较，结果见表1。数值结果表明，我们的方法达到了最高的精度在所有的方法中重建。BodyNet偶尔会产生破碎的身体，因此得分最低。更多详细信息和比较请参见补充文件。6.3. 消融研究6.3.1语义体/图表示基线。我们的语义体积/地图的替代表示是BodyNet中使用的身体关节热量体积/地图[52]。联合热图是多通道2D图像，其中每个通道中的高斯分布具有固定方差表2：语义体积/图表示的数值评估。以相应关节的图像位置为中心通过将2D热图的概念扩展到3D，我们还可以定义身体关节的热量为了评估我们的语义体积/地图表示，我们实现了一个基线网络，该网络将身体关节的热图和热体积作为输入，并具有与第4节中所在该实验中，我们从地面实况SMPL模型生成输入语义体积/图和联合热量体积/图，以消除不准确SMPL估计的影响。结果图8显示了实验结果。我们可以看到，与稀疏关节相比，将密集语义图/体积作为输入的网络能够学习更准确地重建3D模型。在表2中，我们还在我们的合成数据集的测试部分上测试了这两种方法，并使用网络输出的IoU得分和地面真实体积来测量重建误差。数值结果还表明，采用密集的语义图/体作为输入有助于网络实现更高的重建精度。我们认为，这是因为我们的语义体积/地图表示编码的身体形状和姿势的信息联合，并提供了一个很好的初始化的体积重建网络。6.3.2多尺度体特征变换基线。为了评估我们的多尺度VFT组件，我们实现了3个基线网络：基线（A）只在最细尺度上执行VFT，而基线（B ）在最粗尺度上执行 VFT;与原始网络和Baseline（A）（B）不同，Baseline（C）首先将输入图像/卷编码成潜码，将图像的潜码与卷的潜码连接，然后将连接馈送到卷解码器。结果图9显示了不同融合方法的重建损失。在这里，我们发现，通过使用多尺度VFT，网络在模型边界的重建方面优于基线方法（见图9中的第二个从图10所示的视觉比较中可以得出相同的结论由于缺乏更高尺度的信息，使用粗 VFT （基线（ B ））或潜在代码concantenation（基线（C））会导致女孩头部的过度平滑重建由基线（A）生成的结果要精确得多，但包含噪声。利用所提出的多尺度VFT组件，我们的网络能够重建女孩的发髻（图10中的蓝色圆圈）。表示IOU评分（%）关节热图/体积74.16语义图/卷79.147746图5：自然图像上的重建结果在每个面板中，输入图像显示在左列中，而最后五列显示HMR[27]（橙色），BodyNet[52]（绿色）和我们的方法（蓝色）的结果。对于BodyNet和我们的方法，我们从两个视图呈现结果，即，输入相机视图和侧视图。图6：使用我们的方法从单眼视频进行3D重建。通过将我们的方法独立地应用于每个单独的视频帧来生成重建结果。最后三个视频片段来自MonoPerfCap的数据集[59]。6.3.3普通精炼基线。为了评估我们的法线细化模块，我们通过从原始网络中删除体积到法线投影层和法线细化U-Net来结果评估实验使用我们的合成数据集和结果如表3和图11所示。在表3中，我们提出了预测误差的表面正常和正常的细化。这个数值比较表明，法线细化网络可以根据输入图像正确地细化曲面法线。我们还可以观察到，在图11中的正常细化之后，表面细节得到增强和丰富。7747图7：与SiCloPe的比较[36]。蓝色：我们的成果;绿色：SiClope的结果。图10：多尺度VFT的视觉评价。从左到右：输入图像、通过我们的方法的头部重建结果、基线（A）、基线（B）和基线（C）。0.040.030.020.010 2 4 6 8 10 12 14 1618培训迭代（k）表3：有/无正态细化的数值正态误差图8：语义体积/图表示的评估。我们评估了图像引导vol2vol网络的两个不同输入，并显示了组合重建损失（LV+λ F S L F S + λ SS L SS）。实线表示训练误差，虚线表示训练误差。行显示验证错误（它们几乎彼此重叠10(a)（b）（c）图11：正常细化的定性评估（a）参考图像和地面实况法线。(b)曲面法线和错误贴图，不使用法线细化。(c)细化法线和相应的误差图。9872 4 6810 12 14 16 18如果SMPL估计是错误的，则我们不能给出准确的重建。另外，不可见区域的重建是过平滑的;使用生成对抗网络可以迫使网络学习向这些区域添加真实的细节。由于分辨率有限，0.120.110.10.090.08培训迭代（k）2 4 6 8 10 12 14 1618培训迭代（k）在深度图中，DoubleFusion无法重建手的几何形状，因此在THuman数据集中所有的手都是紧握的。因此，我们的方法也无法恢复精细的细节，如面部表情和手这个问题可以使用专注于面部/手部重建的方法来解决。结论在本文中，我们提出了一个基于深度学习的框架，用于从单个图像重建3D人体基于三阶段任务分解、稠密语义表示，提出图9：多尺度体积特征变换的评估信息（VFT）。我们评估了几种将2D特征融合到3D体积中的方法，并显示了体积损失（LV）和轮廓图中的损失（LF S+LSS）。为了清楚起见，我们不显示验证损失。7. 讨论局限性。我们的方法依赖于HMR和SMPLify来估计输入图像的SMPL模型因此，在本发明中，网络设计和3D真实世界的人类数据集，我们的方法是能够估计一个合理的几何形状的目标在输入图像。我们相信，我们的数据集和网络都将为VR/AR内容的创建提供便利，并激发人们对3D视觉的进一步研究。致谢本工作得到国家自然科学基金资助项目：NO.61827805，NO.61861166002，NO.61531014;深圳孔雀计划KQTD 20140630115140843.Desen Semantic Maps/人体关节热图/关节10-3多尺度最细刻度瓶颈连接综合重建损失轮廓损失误差度量余弦距离2-范数未经提炼0.09410.336有精炼0.05830.262容积损失7748引用[1] ThiemoAlldieck ， MarcusMagnor ， BharatLalBhatnagar，Christian Theobalt，and Gerard Pons-Moll.学习从一个RGB摄像机重建穿着衣服的人。在IEEE计算机视觉和模式识别会议，2019年6月。[2] 放大图片作者： Marcus A. Magnor ， Weipeng Xu ，Chris-tian Theobalt，and Gerard Pons-Moll.从单目视频的详细的人类化身。在3DV，2018年。[3] 放大图片作者： Marcus A. Magnor ， Weipeng Xu ，Chris-tian Theobalt，and Gerard Pons-Moll.基于视频的三维人物模型重建。在IEEE CVPR，2018年。[4] Dragomir Anguelov 、 Praveen Srinivasan 、 DaphneKoller、Se- bastian Thrun、Jim Rodgers和James Davis。SCAPE：人的形状完成和动画。ACM事务处理图表，24（3）：408[5] Federica Bogo、Angjoo Kanazawa、Christoph Lassner、Peter Gehler、Javier Romero和Michael J.黑色. SMPL：从单个图像自动估计3D人体姿势和形状。ECCV，第561-578页，2016年[6] 曹哲、托马斯·西蒙、魏世恩和亚瑟·谢赫。利用局部仿射场进行实时多人二维姿态估计。在IEEE CVPR，第1302-1310页[7] Young-Woon Cha，True Price，Zhen Wei，Xinran Lu，Nicholas Rewkowski ， Rohan Chabra ， Zihe Qin ，Hyounghun Kim，Zhaoqi Su，Yebin Liu，Adrian Ilie，Andrei State ， Zhen-lin Xu ， Jan-Michael Frahm ， andHenry Fuchs.使用头戴式摄像机捕捉全移动3d人脸、身体和环境。 IEEE Transactions on Visualization andComputer Graphics，24（11）：2993[8] Alvaro Collet 、 Ming Chuang 、 Pat Sweeney 、 DonGillett 、 Dennis Evseev 、 David Calabrese 、 HuguesHoppe、Adam Kirk和Steve Sullivan。高质量的可流式传输的自由视点视频。ACM Trans. Graph，34（4）：69，2015.[9] Edilson de Aguiar，Carsten Stoll，Christian Theobalt，Naveed Ahmed，Hans-Peter Seidel，and Sebastian Thrun.从稀疏多视图视频中捕获性能。ACM事务处理图表，27（3）：98：1[10] 作者：Philip L. Davidson，Sean Ryan Fanello，SamehKhamis，Adarsh Kowdle，Christoph Rhemann，VladimirTankovich，and Shahram Izadi. Motion2fusion：实时容积性能捕获。ACM事务处理图表，36（6）：246：1[11] Mingsong Dou，Sameh Khamis，Yury Degtyarev，PhilipDavidson，Sean Ryan Fanello，Adarsh Kowdle，SergioOrts Escolano ， Christoph Rhemann ， David Kim ，Jonathan Taylor，et al. Fusion4d：实时性能捕获的场景。ACM Trans. Graph，35（4）：114，2016.[12] 作者：Sean Ryan Fanello，Julien P. C.放大图片创作者：George W.大卫-森，和沙赫拉姆·伊扎迪。超立体：主动立体声系统中基于学习的高效匹配。在IEEE计算机视觉和模式识别会议（CVPR）2017年，第6535-6544页[13] 古川康孝和让·庞塞。准确、密集、坚固的多视图立体视觉。IEEE T-PAMI，32（8）：13627749[14] Juergen Gall ， Carsten Stoll ， Edilson de Aguiar ，Christian Theobalt ， Bodo Rosenhahn ， and Hans-PeterSeidel.使用关节骨架跟踪和表面估计的运动捕获。在IEEE CVPR，第1746-1753页[15] 安德鲁·吉尔伯特、马可·沃利诺、约翰·科洛莫斯和阿德里安·希尔顿。从最小摄像机视点捕获体积性能。在ECCV中，第591-607页[16] Ke Gong ， Xiaodan Liang ， Dongyu Zhang ， XiaohuiShen，and Liang Lin.看人：自我监督结构敏感学习和人类解析的新基准。在IEEE CVPR，2017年7月。[17] Rı z aAlpGuüler，N a taliaN ev er ov a，andIasonasKokkinos.密度：野外密集的人体姿势估计。在IEEE CVPR，2018年。[18] MarcHabermann ， WeipengXu ， MichaelZollhofer ，GerardPons-Moll， and Christian Theobalt.Reticam ：从单目视频中实时捕获人类表演。 CoRR ，abs/1810.02648，2018。[19] 放大图片作者：John P. Colomosse和Adrian Hilton混合骨骼表面运动图形的角色动画从4d性能捕获。ACM事务处理图表，34（2）：17：1[20] Zeng Huang，Tianye Li，Weikai Chen，Yajie Zhao，Jun Xing ， Chloe LeGendre ， Linjie Luo ， ChongyangMa，and Hao Li.从非常稀疏的多视图性能捕获的深度体积视频。在ECCV，第351-369页[21] Catalin Ionescu ， Dragos Papava ， Vlad Olaru ， andCristian Sminchisescu. Human3.6m：大规模数据集和自然环境中三维人体感知的预测方法。IEEE T-PAMI，36（7）：1325[22] Aaron S Jackson，Adrian Bulat，Vasileios Argyriou，and Georgios Tzimiropoulos.通过直接体积cnn回归从单幅图像重建大姿态3d人脸IEEE ICCV，2017年。[23] 亚伦·S杰克逊，克里斯·马纳法斯，乔治斯·齐米罗普洛斯 .通过体积回归从单个图像进行 3D 人体重建。CoRR，abs/1809.03770，2018。[24] Hanbyul Joo 、 Hao Liu 、 Lei Tan 、 Lin Gui 、 BartNabbe 、 Iain Matthews 、 Takeo Kanade 、 ShoheiNobuhara和Yaser Sheikh。Panoptic Studio：用于社交运动捕捉的大规模多视图系统。在IEEE ICCV，第3334-3342页，2015年。[25] Hanbyul Joo Tomas Simon和Yaser Sheikh总捕获量：用于跟踪面部、手部和身体的3d变形模型。在IEEECVPR，2017年。[26] Takeo Kanade，Peter Rander，and P.纳拉亚南虚拟现实：从真实场景构建虚拟世界。IEEE MultiMedia，4（1）：34[27] 作者：Michael J.作者：David W.雅各布斯和吉坦德拉 · 马利克端到端恢复人体形状和姿势。在IEEECVPR，2018年。[28] 放大图片作者：Christoph Lassner，Javier Romero，Martin Kiefel，Federica Bogo，Michael J.布莱克和彼得五世盖勒团结人民：关闭3D和2D人类表现之间的循环。在IEEE CVPR，第4704-4713页[29] Hao Li，Etienne Rugga，Anton Gudym，Linjie Luo，Jonathan T.巴伦和格列布·古谢夫。3D自画像ACM事务处理图表，32（6）：187：17750[30] Yebin Liu，Qionghai Dai，and Wenli Xu.一种基于点云的自由视点视频多视点立体算法。IEEE Transactions onVisualization and Computer Graph-ics，16（3）：407[31] Yeb

下载后可阅读完整内容，剩余1页未读，立即下载