DenseRaC：单目RGB图像中的3D人体姿势和体形估计

28 浏览量更新于2023-10-12 收藏 2.3MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7760DenseRaC：通过Dense Render-and-Compare进行徐元璐1、2朱松春2董建华11Facebook Reality Labs，索萨利托，美国2加州大学洛杉矶分校，美国merayxu@gmail.com，sczhu@stat.ucla.edu，tony. fb.com摘要我们提出了DenseRaC，一种新的端到端的框架，用于从单目RGB图像中联合估计3D人体姿势和体形。我们的两步框架采用身体像素到表面的对应图（即，IUV图）作为代理表示，然后执行参数化的人体姿势和形状的估计具体来说，给定估计的IUV图，我们开发了一个深度神经网络，优化3D身体重建损失，并进一步集成渲染和比较方案，以最小化输入和渲染输出之间的差异，即，密集的身体标志、身体部位掩模和对抗性先验。为了促进学习，我们进一步利用网络抓取的Mocap序列，3D扫描和动画构建了一个大规模合成数据集（MOCA）。生成的数据涵盖多样化的相机视图，人类动作和身体形状，并与完整的地面实况配对我们的模型联合学习从混合数据集中表示3D人体，缓解了不成对训练数据的问题我们的实验表明，DenseRaC在各种人类相关任务的公共基准测试中获得了优于最先进技术的性能1. 介绍虽然在人体姿态估计、身体分割和动作识别方面已经取得了很大的进展，但是由于数据采集的困难、来自单目输入的模糊性和自然图像中的干扰（例如，照明、遮挡、纹理）。现有的基于学习的方法[22，39，55]严重依赖于稀疏的2 D/3 D界标（即，骨架关节）、身体部分遮罩或剪影。然而，从这样有限的信息中恢复3D人体姿势和身体形状是模糊的。在本文中，我们提出了DenseRaC，一个新的框架，用于从单色RGB图像进行3D人体姿势和体型估计第二章：• 该任务在两步框架中解决，首先通过估计像素到表面的对应（即，IUV图像），然后通过利用估计的IUV图像将其转化为3D人体姿势和身体形状。• 一种参数化的人体姿态和体形表示方法图1. DenseRaC估计3D人体姿势和身体形状给定的人在野外的图像。所提出的框架实时处理多人、所有性别和各种服装的场景在这里，我们展示了互联网图像上的结果[1]。被集成到向前传递和向后传播中，受到最近工作的启发[22，39]。• 一个基于IUV图像的密集渲染和比较方案被纳入框架。我们最大限度地减少3D重建误差以及输入和渲染图像之间的差异，从估计的输出。我们使用未配对和配对的数据学习所提出的模型，与不同级别的监督兼容。端到端训练最大限度地减少了对人体姿势和体型联合定义的多个损失，包括参数回归，3D重建，地标重投影，身体部位分割，以及不可能配置的对抗性损失（参见第二节）。3.3）。为了促进学习，我们进一步构建了一个大规模的综合数据集，涵盖了多样化的人体姿势和身体形状。合成数据是使用网络抓取的3D动画和扫描的所有性别体型生成的，用于人类研究，并从各种相机视图中渲染（见第二节）。4）.从合成数据中学习缓解了流行的公共people-in-the-wild和Mo-cap基准中未配对、部分配对或不准确注释的训练数据的问题，以及提高了模型对不同相机视图和遮挡的鲁棒性。在我们的实验中，我们评估了三个任务：3D姿态估计，语义身体分割和3D身体重建。定性和定量实验结果表明，DenseRaC在公共基准和新提出的合成数据集上的性能优于现有方法（见第二（五）。7761RGB输入IUV输入比较对抗性重投影零件遮罩ℒ��ℒ��ℒ��共享权重DensePose-RCNN联合训练鉴别器差分渲染器（，，）编码器皮肤重建ℒ��发生器回归ℒ��3D人体MOCA数据集Mocap Body数据集皮肤渲染图2. DenseRaC的插图。我们的两步框架使用人体的像素到表面的对应关系作为中间表示，通过DensePose-RCNN对现实图像的估计或对合成3D人体的渲染图像提供数据源给定IUV图像，我们开发了一个进行参数姿态和形状回归的深度神经网络，以及一个执行渲染和比较的可微分渲染器。所提出的框架通过端到端学习优化了3D重建的损失以及输入和呈现的输出之间的差异。据我们所知，这是第一个端到端框架，它引入了像素到表面的对应映射作为中间表示，以及相应的密集渲染和比较方案，用于学习3D人体姿势和体型。我们相信，DenseRaC在监控、娱乐、AR/VR等众多现实世界应用中显示出巨大的潜力。一些特色结果如图所示。1.一、2. 相关工作所提出的方法主要涉及三个领域的研究。单目三维位姿估计是计算机视觉中一个长期存在的问题。目前的方法从大规模训练集训练深度网络，以回归3D人类关节变换[18，27]。深度神经网络架构能够通过姿势预测实现直接身体定位，与传统的基于模型的方法相比，这是一个优势，需要良好的初始化[4，26]。几种方法直接预测单目数据的3D姿态[52，41，50，38，32，16，19，47]。另一方面，许多方法提升2D人体姿势[8，5]，用作中间表示，并学习2D-3D姿势空间映射的模型[61，63，62，34，9]。这条赛道的最新技术在受欢迎的基准上获得了迷人的性能，这些基准仅限于实验室仪器环境，但在野外图像上显示出不令人满意的结果另一个常见的问题是，大多数现有的方法没有结合物理上合理的人体骨骼模型，并且缺乏对估计结果的约束，这导致图形相关应用的额外后处理。三维人体重建的目标是从单个RGB图像或视频序列中恢复完整的三维人体网格，而不是主要的三维骨骼关节。例如，Zuffiet al. [64]一体化的两个现实体模型和基于部分的图形模型[58，57，59]，用于共同强调人体形状的图形模型和基于部分的人体姿势推断。在[30，4，26，53]中，皮肤身体模型（SMPL）被用于将身体形状公式化为变形基础的线性函数（即，具有混合形状）。在[51，42，22，39]中，SMPL被认为是3D人体的参数表示，并且DNN被开发用于端到端地估计这些参数。Guler等人[13，12]通过学习密集的图像到模板的对应关系来构建用于人体形状估计的FCN。其他工作[7，55，20]侧重于使用RGB或RGBD图像重建3D体形，而不是直接估计3D人体姿势和体形。这些方法也适用于多视图视频捕获设置[35，54]。在本文中，我们使用SMPL变体作为三维人体的参数化表示，并进一步开发了一个基于像素到表面的密集对应的渲染和比较框架。向人造人学习。在任意场景中建模3D人体需要有代表性的训练集。许多先前的工作已经考虑自动生成用于辅助3D模型的数据，上半身[40]，全身轮廓[2]。[14]在利用照相机参数和几何布局的同时人工地呈现场景中的行人，并且进一步训练场景特定的行人检测器。在[44]中，通过添加小扰动来重塑真实的2D姿态样本Rogez等人[49]，对于给定的3D姿态，将来自具有运动约束的若干图像的局部图像块组合以创建新的合成图像。Rahmani等人[46]将合成的3D人体模型拟合到Mocap模型中，并从许多虚拟视点呈现人体姿势Varol等人[56]还生成具有随机因子合成人体数据集（例如，姿态、形状、纹理、背景等）。这些数据集不能仅仅用于7762RGB图像IUV图像IUV map 3D人体模型创建适合梯度流的IUV图像的基本光栅化器。在渲染和比较方案之后，我们定义了三个损失来测量和最小化输入IUV图像和来自我们的模型输出的渲染IUV图像之间的•一个约束不可能的配置不成对的数据。我们设计了两个浅网络，图3.从像素到3D表面的映射图示。我们的框架估计IUV图像和密集的3D地标从RGB输入，其像素是指身体模型上的3D点由于合成图像和真实图像之间的差距，训练模型推广到真实数据在本文中，我们建议使用像素到表面的对应映射来弥合差距。混合数据集上的联合训练被证明是有效的，以提高对现实数据的性能据我们所知，我们是第一个使用这种训练方式来解决联合人体3. DenseRaC框架如示于图2、所提出的框架在两个步骤中估计3D人体姿势和身体形状：首先获得像素到表面的对应关系（即，IUV图像），然后利用中间结果IUV图像生成3D表面。IUV输入有两个来源：i）使用预训练的DensePose-RCNN [ 12 ]从RGB输入进行估计，以及ii）从合成数据渲染IUV图像。我们的框架采用了一个紧凑的和富有表现力的三维人体模型，它是由三维人体姿态θ∈R58×3，身体形状β∈R50参数化，而不是直接估计三维点云，体素或深度图。3D人体姿势表示为树结构，具有58个关系。父关节和子关节之间的三维旋转，而身体形状由50个形状系数表示，如第二节中所述。三点五3.1. 网络架构给定IUV输入，我们设计了一个由三个模块组成的网络架构•具有骨干基础网络的发电机（即， ResNet-50[15]）来提取表达性特征图，以及采用拉伸特征图的回归器（即，2048D特征向量）作为输入，并估计3D人体参数[θ，β]和摄像机参数α∈R3（即，227D级联载体）。相机模型被假定为正交投影，由比例因子f和相机轴（x，y）参数化。再-Gressor由3个完全连接的层组成，每个层具有1024个节点。受[22]的启发，我们考虑回归量对最终输出的迭代更新θ，β，α进行建模，从从参数mean[θ<$，β<$，α<$]。重量是共享的在所有三个层上，模拟3D人体姿势内的递归树结构。•可微分渲染器使用估计的相机参数创建重建的3D人体网格的2D投影（参见第2节）。3.3）。我们实施不同的-两个完全连接的层作为一个层。一个是用于区分三维人体姿势和身体形状的另一个。子网络中用于姿态和形状的节点数量分别设置为512和64。3.2. IUV作为代理表示如示于图3、利用IUV图像作为代理表示。与图形中的UV贴图类似，IUV贴图定义了从2D图像到3D表面网格的像素到表面的对应关系（一对一）。 IUV图像的每个像素都涉及身体部位索引I和（U，V）坐标，这些坐标映射到身体模型表面上的唯一点（参见第2节3.5）。同样如[39]中所讨论的，RGB输入包含的人类目标信息比传统上用作代理表示的2D关节，sil-houettes或身体部位遮罩多得多。然而，诸如外观、照明或服装的与[39]类似，我们还观察到，与RGB图像和普通轮廓相比，显式身体部位表示对于3D人体姿势和体型估计任务更好的部分分割产生更好的3D重建精度，同时提供对人的全空间覆盖（与关节热图相比）。虽然进一步增加分割部分的数量（五）。我们认为，以前的工作只估计平均体型。注意，我们进一步使用两个IUV图像源作为输入，来自[12]估计的现实图像的IUV图像和来自我们的渲染器合成的虚拟人的IUV图像（参见第二节）。3.3）。IUV估计可以通过其他现成的模型或两阶段/端到端训练来获得这两个输入都经过我们的神经网络模型，并用于估计3D人体姿势和体型参数。因此，使用IUV图像表示有几个好处：i）提高对自然图像中的光和纹理的干扰的鲁棒性，ii）提供关于3D人体的更丰富的几何信息（通过包括身体部分掩模和密集地标），iii）统一用于联合学习的真实和合成数据。3.3. 密集渲染和比较在本文中，3D人体姿势和身体形状由参数模型表示（见第二节）。3.5）。参数化的3D人体被推断并拟合到输入图像，同时给定相机参数。人体表面被表示为3D三角形网格，并且身体姿势被表示为7763通过标准线性共混结皮获得。为了将重建的3D人体与其2D观察完全结合，我们集成了可微分渲染器，即，一种计算机图形技术，从3D物体创建2D图像其中Lrpj、Lmsk和Ladv分别表示界标重投影损失、部分掩模损失和对抗损失地标重投影损失Lrpj测量地面实况和估计的密集2D土地之间的使用微分运算[31，23]，并开发一个端到端的弱监督训练方案。标记：ΣNLrpj =我 1ipi−pi1，（3）渲染包括投影网格的3D顶点并将其光栅化（即，对面部进行采样）。3D到2D投影通过可微变换的组合获得[33]。光栅化是一种离散操作，需要梯度定义以允许神经网络中的反向传播。在[31]中，作者在不连续的遮挡边界处近似导数，而颜色在顶点之间插值（即，关于结构没有区别）。在[23]中，作者通过模糊图像来获得近似梯度，以避免突然的像素颜色变化。这将产生非零梯度，并启用像素（颜色）值到顶点位置之间的梯度流。然而，自然图像中的光照和材料属性建模和集成到神经网络中是复杂的相反，我们的IUV表示对背景，光照条件和表面纹理（如衣服）是不变的（见第二节）。3.2）。此外，每个身体部位I上的UV值相对于相邻像素是连续的（参见图11）。（3）第三章。这实际上允许自然地计算梯度其中，1i表示第i个2D地标（总共N个）的可见性（如果可见，则为1，否则为0），pi∈R2和pi∈R2分别表示来自地面实况和3D网格重投影的第i个2D地标为了根据地面实况（即， IUV图像估计自DensePose [12]），我们将此问题表示为点对点贪婪匹配，并通过k-最近邻（k-NN）搜索解决对应问题。具体来说，我们首先创建一个三维人体网格顶点的IUV值的k-D树。对于任何输入的IUV图像，我们搜索每个可见像素的1-NN，并获得与距离阈值τ内的最近的3D人体网格顶点的匹配对。经验cally，τ∈[0. 010 1]产生100-300个匹配对，被视为接近最佳的一对一2D/3D密集地标通信。这用作弱监督的scaf- fold以将3D人体密集地拟合到重新投影的2D图像。请注意，匹配是离线计算的，并作为IUV输入的预处理步骤，如图所示。五、Part Mask LossLmsk为身体部位的位置提供语义信息：在网格表面和边界处，并将它们反向ˆˆ|IkIk|通过网络层。我们的渲染器创建IUV图像可比的gen-Lmsk=（1 −IoU（Ik，Ik）），IoU（Ik，Ik）=K|Ik∪Iˆk|、（四）[12]见图4。自遮挡由深度缓冲处理。我们的光栅化器在每个像素处只绘制最接近相机（并面向相机）在反向传播过程中，我们只传递对应于可见区域的像素的梯度流不同于[53，24]，其中在轮廓和2D深度图上计算渲染和比较损失，我们使用地面实况IUV图像和渲染图像之间的IUV值来计算密集渲染和比较损失Lrac。（见SEC）第3.4段）。可微分渲染器（包括IUV光栅化器）和损失使用具有自动微分的神经网络框架通过可微分操作实现[6，53，24]。3.4. 损失条款我们的模型集成了一个密集的渲染和比较模块，在反向传播中具有相应的损失计算，因此利用了以前的方法[42，22，39，55]。损失函数定义为其中k是身体部分index，并且Iout（·，·）表示两个掩码的并集上的交叉。我们保持与[12]中指定的相同的身体部分（12个部分）I和（U，V）映射对抗损失Ladv约束配置的可行性。与[22]使用未配对或基于Mosh的[29]弱监督SMPL注释不同，我们使用地面实况3D人体姿势和身体形状来自我们的合成数据集，其中包含比大多数Mocap序列更大的动作变化（参见第二节）。4）.我们相信这种长尾姿态对于寻找决策边界的对抗性损失至关重要。因此，我们将数百万个合成样本作为现实数据集的配对地面真值和未配对的我们遵循[10]中的GAN损耗定义，并联合训练我们的生成器和判别器。• 3D重建损失Lrec测量重建的3D人体与地面相比truth：June2009L = LRAC+1升rec +1升RGR 、（1）Lrec=Pi−P我其中，1表示存在这样的注释，Lrac、Lrec和Lrgr分别表示渲染和比较损失、3D重建损失和参数回归损失•在三个测量下评估渲染和比较损耗Lrac，即，Lrac= Lrpj+ Lmsk+ Ladv，（2）其中，Pi和Pi表示来自输入的3Dk点位置并分别生成3D网格。•参数回归损失Lrgr测量估计参数[θ，β，α]和地面真实值[θ，β，α]之间的均方误差：Lrgr=<$[Rθ，β，α] −[Rθ<$，β<$，α<$]<$2，7764（6）7765图4.来自MOCA的IUV图像是通过对Mixamo的3D姿势和CAESAR的体型获得的3D身体进行光栅化生成的。MOCA包含2M+图像，具有完全配对的地面实况。其中Rθ表示θ的旋转矩阵。值得注意的是，姿态参数首先在旋转矩阵中变换损失是在这样的矩阵上计算的，并且梯度是自动反向传播的。这有助于避免基于XYZ-Euler的3D旋转的奇异性问题，并且不需要对旋转矩阵的额外约束，即，RR T=diag（1，. . .，1）， det（R）= 1，（7）其中det（·）表示矩阵行列式。3.5. 人体模型我们使用类似于SMPL的体型模型[30，4]。通过对真实人类的姿态归一化3D模型进行PCA来获得统计身体模型，所述真实人类的姿态归一化3D模型通过将身体模板非刚性配准到CAESAR数据集1的3D扫描来获得，所述CAESAR数据集1表示4，400名男性和女性的人体测量可变性。身体模板网格有7，324个顶点，14，644个三角形面和一个带有身体和手关节的骨架我们的模型是用数据集中的所有3D扫描进行训练的，结果是一个统计模型，可以从看不见的野外图像中描述身体，无论性别如何。然后可以通过一组形状系数（即，形状参数或形状混合形状）。将形状系数截断为50个主成分使得能够重建所有性别的体型而没有明显的失真：例如，10个系数的SMPL-Male模型不能很好地重建女性的外形（RMSE=9.9mm），而全性别模型可以很好地重建女性的外形（RMSE=6.3/3.4mm，10/50系数）。考虑到在AR/VR、3D动画和更好地利用注释中的潜在应用，我们丰富了标准SMPL 24关节骨架，其中28个关节用于模拟手指，另外5个关节用于脊柱和头部以获得更好的灵活性。我们进一步添加一个根节点用于全局平移和旋转，从而生成一个具有58个关节的骨架。4. MOCA合成数据集文献已经提供了几个数据集来评估人的3D姿态（例如，H3.6M [18]，MPI-INF-3DHP [36]），但是对于关节3D姿态和身体形状只有很少的（例如，SUR- REAL [56]和UP-3D [26]）。然而，SURREAL专用于身体分割和深度估计，并且仅具有粗略的骨架（24个主要身体关节），而UP-3D具有弱监督形状（从SMPL拟合到LSP和MPII），可以说是不精确的[55]。因此，我们提出了MOCA，这是一个大规模的合成数据集，包含2，089，104张包含地面真实体型和3D姿势的图像，如图所示。4.第一章对于各种各样的人体姿势和动作，我们寻求一个流行的三维人体动画的收集中心（即，Mixamo2），其来源主要来自Mocap系统和艺术家设计。我们实现了一个网络爬虫获取高保真动画。值得注意的是，Mixamo支持调优参数（例如，肢体长度、能量、长度）来生成变量。由于我们观察到某些参数设置可能会引入伪影，因此我们保留所有序列的默认设置。我们收集了一组2，446个3D动画序列，其中261，138帧为30 fps，涵盖了体育，战斗，日常和社交活动的广泛动作类别。我们使用Maya提取一个更精细的3D骨骼，包括手指和面部骨骼，并将这些关节重新映射到我们的身体模型上。然后，我们使用CAESAR数据集的3D扫描生成2，781个身体，并计算相应的（PCA）形状系数。通过结合三维姿态θ和形状β，我们将身体模型通过标准的线性混合蒙皮设置为特定的姿态形状配置所有3D姿势和身体形状的完整组合产生了大量的3D人体样本。目前，我们为每个动作序列随机选择8个身体形状。我们进一步为每个序列添加一个随机的相机视图，并使用我们的IUV光栅化器将它们渲染为IUV图像序列（见第二节）。3.3），获得总共具有2，089，104帧的数据集，以及身体形状、3D姿势和摄像机视图的完全配对的基础事实。对于训练/测试集划分，我们将比例设置为90%/10%。我们将前2，201个Mixamo动作序列和2，502个CAESAR体型合成训练集，剩下的246个动作序列和279个体型只对测试集可见。5. 实验我们在几个公共的大规模基准上评估了DenseRaC的三个任务：3D姿态估计，体型估计和身体语义分割。我们进一步评估了人类3D重建结果（即，网格级重构、关节形状参数估计）对所提出的包含地面真实3D姿态和身体形状的大型合成数据集MOCA进行建模。我们的实验比得上最先进的技术。估计的3D姿势和1http://store.sae.org/caesar/ 2http://www.mixamo.com7766m−I图5.来自公共基准的预处理训练样本左：原始图像，右：估计的IUV图像、地面实况关键点注释（黄色）和密集地标（红色）。身体形状在视频上是稳定的（见其他材料）。我们的定性结果也显示了自然的手部姿势（例如，打开，握紧）。5.1. 数据集我们使用五个公共的人类基准加上我们的合成MOCA进行模型训练和评估，LSP [21]，MPII [3]，COCO [28]，H3.6M [17，18][36]第36话我们在所有数据集上采用标准的训练/验证/测试分区，并使用交叉验证校准损失项。当某个数据集用于评估时，其他数据集的所有数据都将用于训练。对于所有训练和测试样本，我们使用地面实况边界框裁剪出整个图像中的每个人。所有样本的大小调整为150-180像素高度保留纵横比，并进一步调整为224×第224章分别与你相遇然后我们运行IUV图像估计[12]对所有样本。考虑到样本I可能包含多个人和假警报，我们计算显著性得分s=|M|对于每个检测到的个人掩模m，其中m c和Ic分别表示个人掩模和图像的中心。然后，我们选择具有最大显着性分数的人物面具，并抑制其他检测响应。对于训练集，我们进一步运行像素到表面匹配（如第2节所述）。3.3）创建密集的对应关系。由于IUV图像估计在这种情况下通常会失败，因此我们丢弃了少于200个对应对的样本。如示于图5、预处理很好地抑制了训练样本中的干扰。在训练过程中，所有训练样本将进一步增加平移，缩放和反射的随机抖动，以提高模型的鲁棒性。我们还随机地涂黑了合成样本的矩形图像区域，以模拟现实场景中的遮挡。为了统一所有数据集的骨架结构，我们使用与LSP中相同的14个关节进行关节相关计算，同时在后端保持我们的58个关节骨架。5.2. 实现细节在这些实验中，整个框架使用TensorFlow实现，并在DGX工作站上运行表1.在方案#1、#2、#3下的H3.6M和方案#1、#2下的MPI-INF-3DHP上的估计的3D姿态和地面实况之间的每关节位置误差平均值（MPJPE）、PCK和AUC的定量比较。- 表示未报告结果。较低的MPJPE、较高的PCK和AUC指示较好的性能。最佳分数以粗体标记。配备2个Intel E5 CPU、512GB内存和8个Titan V100GPU。数据合成和预处理（即，IUV图像估计）是用多GPU数据并行实现的。多GPU渲染器处理约300fps，需要2天时间生成200万个MOCA样本（总大小为2.7TB）。在真实数据集上进行数据预处理需要12个小时来准备80万个样本。对于学习，由于梯度传输的困难和潜在的性能下降，仅使用单个GPU。我们使用批量大小128，生成器的学习率为10−5，学习器的学习率为10 −4，Adam作为优化器。我们的完整模型在所有数据集上联合训练了30个epoch。根据经验，对于一个批处理，前向传递花费大约15 ms，而后向传播花费大约130 ms，IUV图像渲染和比较（约55ms）作为开销。整个培训过程大约需要一周时间才能完成。为了进行推理，IUV图像首先估计为15 fps左右，然后调用我们模型的前向传递，以120 fps的速度进行，从而实现实时。5.3. 3D姿态估计我们首先评估我们的方法在H3.6M[18]和MPI-INF-3DHP[36]数据集上进行3D姿态估计的任务。对于H3.6M，我们使用三种评估协议，衡量性能：i）方案1使用5名受试者（S1、S5、S6、S7和S8）进行培训，2名受试者（S9和S11）进行测试。序列被下采样到10 fps，所有4个相机和试验都用于评估。MSE是在估计的和真实的3D关节之间测量（ii）H3.6M 协议#1协议#2方案#3MPJPEMPJPEMPJPEMartinez等人（ICCV62.947.784.8Fang等人(AAAI’18)60.345.772.8Rhodin等人（CVPR66.8--Yang等（CVPR58.637.7-Hossain等人（ECCV51.942.0-Lassner等人（CVPR80.7--[ 22 ]第二十二话88.056.877.3Pavlakos等人（CVPR-75.9-美国国家广播公司（3DV-59.9-DenseRaC基线82.453.977.0+渲染和比较79.551.475.9+ 合成数据76.848.074.1MPI-INF-3DHP协议#1协议#2PCK AUC MPJPE PCK AUC MPJPEMehta等人(3DV’17) 75.7 39.3117.6---Mehta等人(TOG’17) 76.6 40.4124.783.9 47.398.0[ 22 ]第二十二话 72.9 36.5124.286.3 47.889.8DenseRaC基线 73.1 36.7123.186.8 47.888.7+渲染和比较 74.7 38.6124.987.5 48.386.7+ 合成数据 76.9 41.1114.289.0 49.183.57767输入DenseRaC HMR NBF BodyNet输入DenseRaC HMR NBF BodyNet图6.DenseRaC与最新技术水平估计结果的定性比较[22，39，55]。DenseRaC估计最接近现实的3D请注意，所有示例都来自测试集。最好用彩色观看。“DenseRaC baseline”, we use SMPL model and the samelosses as [变体“+渲染和比较”表示将所提出的密集渲染和比较方案损失添加到框架和部件掩模中。变体如表1所示，我们可以观察到DenseRaC中的每个组件都有助于最终性能，表2.UP-3D和MOCA数据集上前景和部分分割的定量比较精度单位为%。- 表示未报告结果。最佳分数以粗体标记。方案#2选择与方案#1相同的受试者进行训练和测试，而评估仅对从正面摄像机捕获的序列进行（即，“凸轮3”）。预测通过刚性变换进行后处理（即，每帧Procrustes分析）。iii）协议#3使用与协议#1中相同的子帧、帧速率和试验用于训练和测试，除了相机视图被进一步划分。前三个摄像机（即，“cam 0, 1, 2”) areused for “cam 3”) for对于MPI-INF-3DHP，我们使用来自S1-S7的所有序列作为训练集，并且使用来自S8的序列作为测试集。我们将协议#1视为默认比较，将协议#2视为在比较之前应用刚性变换。我们将我们的方法与面向任务的3D姿势的最新技术[50，62，34，36，37，9，48，60，16]和四个基于参数身体模型的估计[26，22，42，39]。我们设立了两个基线，以验证拟议框架中两个关键组成部分的有效性：渲染和比较以及与合成数据的联合学习。在DenseRaC的性能远远优于最先进的参数身体模型估计器。还请注意，DenseRaC与最新的面向任务的3D姿态估计器相当。5.4. 人体分割给定来自输出的渲染图像，我们进一步采用语义分割作为另一任务来测量重建的3D人体看起来与输入图像中的人有多我们评估了人体分割的任务，并在UP-3D [26]和MOCA数据集的LSP子集上测试了我们的方法。对于UP-3D，我们通过合并到带注释的6个身体部位掩码中来后处理我们的24个身体部位掩码（即，头部、躯干、左腿和右腿以及左臂和右臂），并对身体部分和前景分割进行评估，同时对两个身体部分分割进行评估（忽略4个细微身体部分，即，手和脚）和MOCA上的前景分割。我们测量了分割准确度和结果的平均F1评分，并在表5.3中报告了指标和比较。可以观察到，我们的方法在所有数据集上实现了与现有技术相当或更好的性能[4，26，22，555.5. 3D人体重建注意3D姿态估计和身体语义分割是专注于评估以下部分知识的任务：UP-3D身体部位Fg/Bg精度F1精度F1DpCut上的SMPL（ECCV87.70.6491.90.88SMPL，UP-P91（ICCV87.30.6191.00.86[ 22 ]第二十二话87.10.6091.70.87[ 55 ]第55话--92.80.84DenseRaC87.90.6492.40.88MOCA身体部位Fg/Bg精度F1精度F1[ 22 ]第二十二话86.60.1992.10.60DenseRaC89.30.2796.40.687768RPJ方法MPJPEMPVPEMSEθ，β[ 22 ]第22话HMR（CVPR110.291.9----DenseRaC，LJRPJDenseRaC，LJ+LadvRPJDenseRaC，LJ+Ladv+LmskRPJDenseRaC，Lrpj+Ladv+LmskDenseRaC，LJ+Ladv+LJRPJ RecDenseRaC，LJ+Ladv+Lmsk+LJRPJ RecDenseRaC，Lrpj+Ladv+LrecDenseRaC，Lrpj+Ladv+Lmsk+LrecDenseRaC，Lrpj+Lmsk+Lrec+LrgrDenseRaC，全133.0131.5122.8107.988.686.582.982.480.480.3174.5173.6161.5142.3121.1119.8111.0110.7105.4105.218.22717.82016.30513.60811.90110.4968.9438.7228.1648.151表3. MOCA数据集上MPJPE、MPVPE、姿势形状参数均方误差MSEθ、β的定量比较。值越低越好。详细解释见正文重建的三维人体，我们进一步评估重建的三维人体使用两个指标：平均每网格顶点位置误差（MPVPE）和回归误差的MOCA数据集。这两个度量将3D人体作为一个整体来考虑，并且提供了关于重建的3D人体如何的更多指导为了比较，我们重新训练HMR，它将IUV图像作为输入，并使用2D/3D联合监督（即，只有14个 LSP 格式的 2D/3D 关节）及其原始未配对数据（H3.6M上的Mosh [29]和外部Mocap）。如表3中所报告，DenseRaC仍显著优于竞争性方法。消融研究。我们设置了DenseRaC的变体来验证每个损失项的有效性我们也-图7.当前限制：严重的遮挡（第一行）、不正确的IUV估计（第二行）和像儿童一样的未充分表示的身体形状（第三行）。每个三元组显示原始图像，来自[12]的IUV（我们的模型输入）和我们的模型输出。输入DenseRaC DenseRaC+Sim BodyNet BodyNet拟合图8.级联和端到端框架的比较罚款两个损失变量LJLJrec 代表14个关节-虚拟穿衣的应用。只有关键点重投影和3D重建损失，分别从结果中，我们可以得出以下结论：（i）所有损失条款均影响最终履约; ii）用于密集渲染和比较的损失提供了比来自稀疏关节的损失更丰富的信息，大大减少了不可能的3D身体配置;iii）当给出面向任务的损失项时（即，Lrec和Lrgr），密集渲染和比较方案的贡献似乎被抑制，但这种更精细的监督帮助DenseRaC达到更好的局部最优。实证研究。我们提出了定性的结果和比较有更好的理解我们的方法的优点。如图6、DenseRaC优于其他竞争方法，重建出更真实、更自然的3D人体。值得注意的是，依赖于稀疏界标的HMR有时重建合理的3D人体外观，但混淆了身体的前部和后部。NBF和BodyNet都对遮挡和厚重衣物敏感。当将SMPL拟合到这种错误的重建体积时，BodyNet往往会产生高度非人类的身体形状3。对于所有三种方法，估计的人体可以说是平均体型，对性别不敏感。我们还在验证集上搜索失败案例，如图所示。7.第一次会议。DenseRaC患有3我们使用BodyNet的3D骨架拟合结果，因为体积拟合通常表现得更差。IUV估计中的误差（例如，遮挡，长尾数据），并受到正交投影假设和基于SMPL的人体表示的限制。我们还探索了虚拟穿衣，即利用我们的服装下估计，将虚拟服装披在三维人体如图1（右上角）和图。8，用于添加布料的物理模拟的cas-caded框架是可能的[11，25]，并且比BodyNet的端到端体积重建在视觉上更容易接受。6. 结论我们提出了DenseRaC，一个新的端到端的框架，用于从野外的单目RGB图像重建3D人体。DenseRaC利用像素到表面的对应映射作为代理表示，并结合了密集的渲染和比较方案，以最大限度地减少渲染输出和输入之间的差距。我们进一步使用大规模合成数据（MOCA）来增强模型训练所提出的框架获得了优异的性能，并且我们将探索处理遮挡和交互（例如，通过多视图融合[45]、时间平滑[43]）。鸣谢。我们要感谢Tengyu Liu和Elan Markowitz帮助收集数据，Tuur Jan M Stuyck 和Aaron Ferguson进行织物模拟，Natalia Neverova和FRL，FAIR和UCLA的同事们的支持和建议。和7769引用[1] 图片和视频可在 youtube.com 、 onlinedoc-tor.superdrug.com、shutterstock.com获得。1[2] Ankur Agarwal和Bill Triggs。从单目图像恢复3D人体姿态。IEEE Transactions on Pattern Analysis and MachineIntelligence，28（1）：44-58，2006. 2[3] Mykhaylo Andriluka，Leonid Pishchulin，Peter Gehler，and Bernt Schiele. 2D人体姿态估计：新的基准和最先进的分析。在IEEE计算机视觉和模式识别会议上，2014年。6[4] Federica Bogo、Angjoo Kanazawa、Christoph Lassner、Peter Gehler、Javier Romero和Michael J.黑色. SMPL：从单个图像自动估计3D人体姿势和形状。2016年欧洲计算机视觉会议。二、五、七[5] 曹哲、托马斯·西蒙、魏世恩和亚瑟·谢赫。利用局部仿射场进行实时多人二维姿态估计。2017年在IEEE计算机视觉和模式识别。2[6] 彼得·达扬杰弗里·辛顿雷德福·尼尔和理查德·泽梅尔。亥姆霍兹机器。神经计算，1995年。4[7] Endri Dibra 、 Himanshu Jain 、 Cengiz Oztireli 、 RemoZiegler和Markus Gross。Hs-nets：用卷积神经网络从剪影中估计人体形状。在2016年的3D视觉国际会议上。2[8] 方浩树，谢淑琴，戴玉荣，陆策武。RMPE：区域多人姿势估计。在2017年IEEE国际计算机视觉会议上。2[9] Hao-Shu Fang，Yuanlu Xu，Wenguan Wang，XiaobaoLiu，and Song-Chun Zhu.学习姿势语法编码人体结构以进行3d姿势估计。2018年AAAI人工智能会议。二六七[10] Ian J. Goodfellow、Jean Pouget-Abadie、Mehdi Mirza、Bing Xu 、 David Warde-Farley 、 Sherjil Ozair 、 AaronCourville和Yoshua Bengio。生成性对抗网。在神经信息处理系统年会上，2014年。4[11] 放大图片作者：David A. Hirshberg，Alexander Weiss，and Michael J.黑色.披巾：给任何人穿衣。ACM SIGGRAPH，2012年。8[12] Riza Alp Gu

下载后可阅读完整内容，剩余1页未读，立即下载