基于卷积网格回归的单幅图像人体形状重建

59 浏览量更新于2023-10-18 收藏 2.96MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1基于卷积网格回归的单幅图像人体形状重建Nikos Kolotouros，Georgios Pavlakos，KostasDaniilovsky宾夕法尼亚摘要本文讨论了从一幅图像中估计三维人体姿态和形状的问题以前的方法考虑人体的参数模型，SMPL，并试图回归模型参数，产生与图像证据一致的网格。这种参数回归一直是一个非常具有挑战性的任务，与姿势估计方面的非参数解决方案相比，基于模型的方法表现不佳。在我们的工作中，我们建议放松这种对模型参数空间的严重依赖我们仍然保留了SMPL模板网格的拓扑结构，但不是预测模型参数，而是直接回归网格顶点的3D位置对于一个典型的网络来说，这是一项繁重的任务，但我们的关键见解是，使用Graph- CNN，回归变得非常容易。这种架构允许我们在网络中显式地编码模板网格结构，并利用网格必须提供的空间局部性。基于图像的特征被附加到网格顶点，Graph-CNN负责在网格结构上处理它们，而每个顶点的回归目标是其3D位置。在恢复了网格的完整3D几何形状之后，如果我们仍然需要特定的模型参数化，则可以从顶点位置可靠地回归。我们证明了我们提出的基于图的网格回归的灵活性和有效性，通过附加不同类型的特征的网格顶点。在所有情况下，我们都优于依赖于模型参数回归的可比基线，同时我们也在基于模型的姿态估计方法中获得了最先进的结果。11. 介绍从图像中分析人类超出了估计一个人[27，47]或多个人[2，32]的2D姿态，甚至估计简单的3D姿态[24，25]。我们的理解在很大程度上依赖于能够从单目图像中正确重建人的完整3D姿势和形状。并且虽然在具有多个相机的设置中很好地解决了这个问题[8，14]，1项目页面：seas.upenn.edu/ www.example.com图1：我们的方法总结。给定一个输入图像，我们直接用图卷积回归一个3D形状可选地，从3D形状输出，我们可以回归身体模型的参数表示。过度的模糊性、有限的训练数据和宽范围的成像条件使得该任务在单目情况下特别具有挑战性。传统上，基于优化的方法[1，18，49]为单目姿态和形状恢复提供了最可靠的解决方案。然而，缓慢的运行时间，依赖于良好的初始化和典型的失败，由于坏的局部最小值最近转移的重点到基于学习的方法[15，18，28，31，39，43]，直接从图像中回归姿势和形状。这些作品中的大多数调查什么是最可靠的模态回归姿势和形状。表面地标[18]、姿态关键点和轮廓[31]、语义部分分割[28]或原始像素[15]都被视为网络输入。虽然输入表示主题已经引起了很多争论，但所有上述方法都很好地符合SMPL模型[21]，并使用其参数表示作为选择的回归目标然而，决定提交到一个特定的参数空间可能会受到很大的限制。例如，SMPL不建模手部姿势或面部表情[14，36]。更令人担忧的是，模型参数空间可能不适合作为回归目标。在SMPL的情况下，姿态空间以3D形式表示。45014502附加图像特征图中逐顶点特征向量编码器（xt，yt，zt）我我我.xt，yt，ztΣJJJ. . .模板格网输入：图像特征模板三维坐标图CNN输出：3D顶点坐标输出网格图2：拟议框架概述。给定输入图像，基于图像的CNN将其编码为低维特征向量。通过将该特征向量附加到每个顶点i的3D坐标（xt，yt，zt），将该特征向量嵌入到由模板人体网格定义的图中。然后，我们通过一系列图卷积层处理它，并回归我我我变形网格的3D垂直 x坐标（xi，yi，zi）旋转，一个非常具有挑战性的预测目标[23，26]。取决于所选择的3D旋转表示（例如，轴角、旋转矩阵、四元数），我们可能面临周期性、非最小表示或不连续性的并且事实上，与通过3D联合回归来回归信息较少但更准确的3D骨架的方法相比，所有上述基于模型的方法在姿态估计度量方面表现不佳[3，24，29，38]。在这项工作中，我们提出了一个更混合的路线，以-ward姿态和形状回归。即使我们保留SMPL引入的模板网格，我们也不直接回归SMPL模型参数。相反，我们的回归目标是3D网格顶点。考虑到网格的顶点数量过多，如果简单地解决，这将是网络的特别沉重的负担。不过，我们的关键见解是，通过引入 Graph-CNN，可以有效地解决这一任务。这种架构使得网络中的网格结构的显式编码成为给定单个图像（图2），任何典型的CNN都可以用于特征提取。将ex-texture特征附加在模板网格的顶点坐标上，并且在为Graph-CNN定义的图形结构上继续处理。最后，每个顶点将其在变形网格中的3D位置作为目标。这使我们能够恢复人体的完整3D几何形状，而无需明确承诺预先指定的参数空间，使网格拓扑成为唯一的手工设计选择。方便的是，在-估计每个顶点的3D位置，如果我们需要我们的预测符合特定的模型，我们可以从网格几何形状中非常可靠地回归其参数（图1）。这使得我们的方法更加混合使用，使其直接与基于模型的方法相媲美。此外，我们基于图形的处理在很大程度上与输入类型无关，允许我们附加从RGB像素[15]，语义部分分割[28]，甚至从密集对应[6]中提取的特征在所有这些情况下，我们证明了我们的方法优于直接从相同类型的特征回归模型参数的基线，而总体而言，我们在基于模型的基线中实现了最先进的姿态估计结果。我们的贡献可归纳如下：• 我们重新制定的问题，人体姿态和形状估计的形式回归的三维位置的网格顶点，以避免直接模型参数回归的困难。• 我们为此任务提出了一个Graph CNN，它对网格结构进行编码，并实现3D顶点位置的卷积• 我们通过考虑不同的输入表示来展示我们框架的灵活性，优于直接回归模型参数的基线。• 在基于模型的姿态估计方法中，我们取得了最先进的结果回归3D顶点坐标（xi，yi，zi）（xj，yj，zj）45032. 相关工作存在关于以简单化身体骨架的形式的3D姿态估计的丰富的最近文献，例如，[第3、19、22、24、25、29、30、34、35、38、40、41、42、50、51]。然而在这个部分，我们专注于恢复人体的完整形状和姿势的更多相关作品。基于优化的形状恢复：超越简单的骨架，恢复完整的姿势和形状，最初，最成功的方法如下基于优化的解决方案。Guanet al. [5]依赖于带注释的2D地标，并针对生成的SCAPE参数模型的参数进行了优化一个最适合这个证据的网该过程通过Bogo等人的SMPLify方法自动完成。[1]，其中通过CNN的帮助定位2D关键点[32]。Lassner等人[18]包括人体表面上的辅助标志，并在拟合过程中另外考虑了估计的轮廓。Zanfir等人[49]类似地优化了重新投影的网格与人类身体的语义部分的一致性，同时将该方法扩展到也适用于多人尽管获得了可靠的结果，这种类型的方法的主要问题是，他们提出了一个复杂的非凸优化问题。这意味着最终的解决方案对初始化非常敏感，优化可能陷入局部最小值，同时整个过程可能需要几分钟才能完成。这些缺点促使人们对基于学习的方法越来越感兴趣，就像我们的方法一样，姿势和形状直接从图像中回归。直接参数回归：当涉及到姿态和形状回归时，绝大多数作品采用SMPL参数模型并考虑姿态的回归和形状参数。Lassner等人[18]检测身体表面上的91个标志，并使用随机森林来回归姿势和形状的SMPL模型参数。Pavlakos等人[31]依赖于较少数量的关键点和身体轮廓来回归SMPL参数。om-ran等。[28]遵循类似的策略，但是使用部分分割图作为中间表示。另一方面，Kanazawaet al. [15]尝试直接从图像中回归SMPL参数，使用依赖于2D关键点重投影的弱监督方法和以对抗方式学习的姿势先验。Tung等人[43]提出了一个自我监督的方法，同样的问题，而谭等人。[39]依靠较弱的监督形式的身体轮廓。所有这些工作的共同主题是，他们专注于使用SMPL参数空间作为回归目标。然而，作为姿态参数涉及的3D旋转在回归中产生了问题不连续性或周期性），并且与仅基于非连续性的基线相比，在姿态估计方面通常表现不佳。在这项工作中，我们建议采取一个正交的方法，他们通过回归的3D位置的网格顶点的Graph-CNN的装置。我们的方法对我们使用的输入表示类型是透明的，因为Graph网络的灵活性允许我们考虑在先前工作中使用的不同类型的输入表示，例如基于语义部分的特征[28]，直接从原始像素中提取的特征[15]，甚至是密集对应[6]。非参数形状估计：最近，非参数- ric方法也被提出用于姿势和形状估计。Varol等人[44]使用具有体素输出体积同时考虑中间监督的Jackson等人[12]还提出了一种体积重建的形式，通过扩展他们最近的面部重建网络[11]来处理全身图像。这些采用完全非参数路线的方法的主要缺点是，即使它们恢复人体的精确体素化雕塑，也没有捕获或捕获很少的语义信息。事实上，为了恢复身体姿势，我们需要使用恢复的体素图显式地执行昂贵的身体模型拟合步骤，如[44]中所做的。与之相反，我们保留了SMPL网格拓扑，这使我们能够获得我们的3D预测与图像的密集语义对应，并且最后我们还可以轻松地回归给定顶点3D位置的模型Graph CNN：Wanget al. [46]使用Graph CNN通过变形初始椭圆体来从图像重建对象的网格。然而，任意物体的网格重建仍然是一个悬而未决的问题，因为即使在同一类物体中，椅子，没有相同的属。与一般对象相反，任意的人体形状可以被重建为模板模型的连续变形。事实上，最近有很多研究将图卷积应用于人体形状应用。Verma等人[45]提出了一种新的数据驱动的图形卷积算子，并将其应用于形状分析。Litany等[20]使用Graph VAE来学习人体形状的潜在空间，这对形状完成很有用。Ran- jan等。[33]使用网格自动编码器网络从一系列网格中恢复3D人脸的潜在表示。我们的方法的主要区别在于，我们的目标不是从3D形状学习生成形状模型，而是执行单图像形状重建;我们网络的输入是一幅图像，而不是一个3D形状。单独使用Graph CNN并不新鲜，但我们认为Graph CNN提供了一种非常自然的结构来实现我们的混合方法是一种贡献。它们帮助我们避免SMPL参数空间，据报道，SMPL参数空间具有回归问题[24，31]，同时允许网络中的图结构的显式编码，以便我们可以利用空间局部性并保留语义对应性。45043. 技术途径在本节中，我们提出了我们提出的方法，从一个单一的图像预测三维人体形状。首先，在3.1小节中，我们简要描述了我们用作通用特征提取器的基于图像的在第3.2小节中，我们重点介绍了我们方法的核心，即Graph CNN架构，该架构负责回归变形以重建人体的网格的3D顶点坐标。然后，小节3.3描述了将我们的非参数回归与SMPL模型参数预测相最后，第3.4小节重点介绍了重要的实现细节。3.1. 图像CNN我们管道的第一部分由遵循ResNet-50架构的典型基于图像的CNN组成[7]。在最初的设计中，我们忽略了最终的全连接层，仅保留平均池化层之后的2048-D特征向量。该CNN用作来自输入表示的通用特征提取器。为了证明我们的方法的灵活性，我们用各种输入进行实验，即，RGB图像，部分分割和密集姿态输入[6]。对于RGB图像，我们简单地使用原始像素作为输入，而对于其他表示，我们假设另一个网络[6]为我们提供预测的部分分割或DensePose。虽然我们提出了各种输入的实验，我们的目标不是调查的输入表示的效果，而是我们把注意力集中在基于图形的处理。邻域平均对于产生高质量形状是必不可少的，因为它强制相邻顶点具有相似的特征，因此输出形状是平滑的。通过这种设计选择，我们观察到不需要形状上的平滑度损失，如[16]中的示例。我们还试验了[45]中提出的更强大的图卷积，但我们没有观察到结果的定量改善，因此我们决定保留原始和更简单的设计选择。对于图卷积层，我们使用残差连接，因为它们有助于显著加快训练速度，并导致更高质量的输出形状。我们的基本构建块类似于瓶颈残差块[7]，其中1×1卷积被逐顶点全连接层和批归一化[9]由Group Normalization取代[48]。我们注意到，批量归一化会导致训练不稳定和测试性能差，而没有归一化，训练非常缓慢，网络可能会陷入局部极小值，并在训练过程中过早崩溃。除了每个顶点的3D坐标外，我们的Graph CNN还回归了弱透视相机模型的相机参数。在 Kanazawaetal.[15]，我们预测缩放因子s和2D平移向量t。由于网络的预测已经在摄像机帧上，因此我们不需要回归额外的全局摄像机旋转。摄像机参数是从图嵌入而不是从图像特征直接回归通过这种方式，我们可以获得与输出形状一致的更可靠的估计。3.2. 图CNN重新开始培训，让Y∈RN×3是预测的3D在我们方法的核心，我们建议采用Graph CNN来回归网格顶点的3D坐标。对于我们的网络架构，我们从Litany等人的工作中汲取灵感。[20 ]第20段。我们从一个具有N个顶点的模板人体网格开始，如图2所示.给定由基于图像的通用网络提取的2048-D特征向量，我们将这些特征附加到模板网格中每个顶点的3D坐标。从高级角度来看，Graph CNN使用每个顶点的3D坐标以及输入要素作为输入，目标是估计每个顶点的3D坐标形状，Y为地面实况形状，X为地面实况关节的2D关键点位置。从我们的3D形状，我们还可以回归预测的3D关节J3D采用与SMPL模型相同的回归器用于从顶点恢复关节。给定这些3D关节，我们可以简单地将它们投影到图像平面上，X<$=s<$（J<$3D）+t。现在，我们使用两种形式的监督来训练网络。首先，我们应用每个顶点的L1损失，预测的和真实的形状，即，ΣN在输出的变形网格中。此处理由一系列图形卷积层执行。L形=i=1||1.一、||1.（二）对于图卷积，我们使用Kipf等人的公式。[17]其定义为：Y=AXW（1）其中X∈RN× k是输入特征向量，W∈Rk×N是权矩阵，A∈RN×N是图的r o w-归一化邻接矩阵. 从本质上讲，这等效于执行逐顶点全连接操作，随后是邻域平均操作。经验上，我们发现，使用L1损失导致更稳定的训练和更好的表现比L2损失。此外，为了强制图像模型对齐，我们还在投影的关节位置和地面实况关键点之间应用L1损失，即，ΣMLJ=||Xi−Xi||1 .一、（三）i=14505βθMLP回归形状参数化形状图3：从回归形状预测SMPL参数。给定来自图2的网络的回归的3D形状，我们可以使用多层感知器（MLP）来回归SMPL参数并产生与原始非参数形状最后，我们完整的培训目标是：L=L形+LJ。（四）这种形式的监督训练要求我们能够访问具有完整3D地面真实形状的图像。然而，根据我们的经验观察，没有必要让所有的训练示例都带有地面真值形状。事实上，根据Omranet al. [28]，我们可以利用仅提供2D关键点地面实况的额外图像。在这些情况下，我们简单地忽略前一个方程的第一项，只使用关键点丢失进行训练。我们已经将评估纳入了这一较弱的监督设置中。Mat.3.3. 来自回归形状的SMPL虽然我们证明了非参数回归对于网络来说是一项更容易的任务，但仍然有许多应用，其中人体的参数表示可能非常有用（例如，运动预测）。在本小节中，我们提出了一种简单的方法来将我们的非参数预测与特定的参数模型相结合，即，SMPL。为了实现这一目标，我们训练另一个网络，该网络在给定回归的3D形状作为输入的情况下回归SMPL参数模型的姿态（θ）和形状（β）参数该网络的体系结构可以非常简单，即，多层感知器（MLP）[37]用于我们的实现。该网络如图3所示，训练的损失函数为：L=L形+LJ+Lθ+ λLβ。（五）这里，Lshape和Lj是如前所述的3D形状和2D联合重投影上的损失，而Lθ和Lβ分别是SMPL姿态和形状参数上的L2正如以前的作品所观察到的那样，例如，[31，24]，回归姿态参数θ是一项挑战，轴-角度表示中的三维旋转为了避免这种情况，我们遵循Omran等人采用的策略。[28]第10段。更具体地说，我们使用Rodrigues公式将参数从轴角表示转换为旋转矩阵表示，并将网络的输出设置为回归旋转矩阵的元素为了确保输出是一个有效的旋转矩阵，我们使用可微SVD操作将其投影虽然这种表示并没有明显改善我们的定量结果，但我们在训练过程中观察到更快的收敛速度，因此我们选择它作为更实用的选项。3.4. 实现细节关于我们的Graph CNN的一个重要细节是，我们不直接在原始SMPL网格上操作，而是首先将其子采样为4倍，然后使用[33]中描述的技术再次将其上这基本上是通过预计算下采样和上采样矩阵D和U来执行的，并且每次我们需要进行重采样时将它们与图形左乘。该下采样步骤有助于避免由于顶点的空间局部性而导致的原始网格中的高冗余，并降低训练期间的内存需求。关于MLP的培训，我们采用两步培训程序。首先，我们训练回归非参数形状的网络我们还尝试了端到端的训练，但我们观察到网络在参数和非参数形状方面的性能都有所下降4. 实证评价在本节中，我们提出了我们的方法的实证评估。首先，我们讨论我们在评估中使用的数据集（第4.1小节），然后我们为我们的管道提供训练细节（第4.2小节），最后，定量和定性评估（第4.3小节）如下。4.1. 数据集我们采用了两个数据集，为训练提供3D地面实况，Human3.6M [10] 和 UP-3D [18] ，同时我们在Human3.6M和LSP数据集上评估了我们的方法[13]。Human3.6M：这是一个室内3D姿态数据集，包括子任务执行活动，如步行，吃饭和吸烟。我们使用受试者S1、S5、S6、S7和S8进行训练，并保留受试者S9和S11进行测试。我们给出了两种流行协议（P1和P2，如[15]中定义的）和两种错误度量（MPJPE和重建错误，如[51]中定义的）的结果。UP-3D：它是通过在人类的自然图像上应用SMPLify [1]并选择成功拟合而创建的数据集。我们使用该数据集的训练集进行训练。SMPL4506方法MPJPE重新开始误差SMPL参数回归[15]-77.6网格回归（FC）200.8105.8网格回归（图形）102.169.0网格回归（图形+SMPL）113.261.3表1：Human3.6M中的3D姿态估计的评估（方案2）。数字是MPJPE和重建误差，单位为mm。我们基于图的网格回归（有或没有SMPL参数回归）与直接回归SMPL参数的方法进行了比较，以及使用完全连接（FC）层而不是Graph-CNN的朴素网格回归。LSP：它是一个2D姿态数据集，还包括由Lassner等人提供的分割注释。[18 ]第10段。我们使用该数据集的测试集进行评估。4.2. 培训详情对于基于图像的编码器，我们使用在ImageNet [4]上预训练的 ResNet50 模型 [7] 。所有其他网络组件（SMPL参数的Graph CNN和MLP）都是从头开始训练的对于我们的训练，我们使用Adam优化器，批量大小为16，学习率设置为3e我们没有使用学习率衰减。仅使用来自Human3.6M的数据进行训练持续10个epoch，而使用来自Human3.6M和UP- 3D的数据进行混合训练需要25个epoch，因为图像多样性更大。为了训练从我们预测的形状回归SMPL参数的MLP，我们使用来自Human3.6M和UP-3D的3D形状。最后，对于使用PartSegmentation或DensePose [6]预测作为输入的模型，我们使用[6]的预训练网络来提供相应的预测。4.3. 实验分析回归目标：对于初始消融研究，我们的目标是研究我们的网格回归对3D人体形状估计的重要性。为此，我们专注于在Human3.6M数据集上，我们通过3D姿态精度评估回归的形状。首先，我们评估3D顶点坐标的直接回归，与直接从图像中通过SMPL模型参数的回归隐式生成3D形状相比。这一类别中最相关的基线是[15]的HMR方法。在表1中，我们给出了这种方法（SMPL参数回归）与我们的非参数形状回归（网格回归-（图））的比较。为了进行更公平的比较，我们还包括了使用非参数网格作为输入来回归SMPL参数的MLP的结果（网格回归-（图+ SMPL））。在这两种情况下，我们的表现都优于[15]的强基线，这证明了估计图像FC图CNN图4：使用一系列全连接（FC）层来回归顶点3D坐标会使回归任务严重复杂化，并产生非平滑网格，因为网络无法直接利用图形的拓扑结构。输入回归类型MPJPEP1和P2重新开始误差P1和P2RGB参数[15]88.0-58.156.8网格（图形+SMPL）74.771.951.950.1部分参数[28]---59.9网格（图形+SMPL）80.477.456.153.3DP[6]参数[15]82.779.557.854.9网格（图形+SMPL）78.974.255.351.0表2：对于不同的输入表示，在Human3.6M（方案1和2）上直接SMPL参数回归与我们提出的网格回归的比较。数字是平均3D关节误差（mm），有和没有Pro-crustes对齐（Rec.错误和MPJPE）。我们的结果是从我们的非参数形状回归SMPL参数后计算的数字取自各自的作品，除了[15]在密集姿态图像上的基线，这是由我们评估的。更灵活的非参数回归目标，而不是一次性回归模型参数。除了回归目标之外，我们的贡献之一也是洞察到，当使用Graph CNN进行预测时，回归3D顶点坐标的任务可以大大简化。为了研究这种设计选择，我们将其与一种朴素的替代方案进行比较，该替代方案在我们基于图像的编码器（Mesh Regression -（FC））之上用一系列完全连接的层来回归顶点坐标。与我们基于Graph的架构相比，这种设计显然表现不佳，这表明了在回归过程中通过Graph CNN杠杆化网格结构的重要性。基于图的处理的好处也在图4中定性地展示。输入表示：对于下一个消融，我们演示了不同网格回归的有效性4507输入输出形状MPJPEP1和P2重新开始误差P1和P2RGB非参数75.072.751.249.3参数化74.771.951.950.1部分非参数78.073.454.650.6参数化80.477.456.153.3DP[6]非参数78.072.355.350.3参数化78.974.255.351.0表3：我们的非参数网格与根据我们的形状回归的SMPL参数网格在Human3.6M（方案1和2）上的比较。数字是以mm为单位的3D关节误差。两个基线的性能相似。表4：与Hu-man 3.6M（方案2）上的最新技术水平的比较。数字是重建误差，单位为mm。我们的方法优于以前的基线。FB分段部件段acc.F1acc.F1SMPLifyoracle [1]92.170.8888.820.67SMPLify [1]91.890.8887.710.64SMPLify on [31]92.170.8888.240.64[第44话]92.750.84--HMR [15]91.670.8787.120.60我们91.460.8788.690.66表5：LSP测试集上的分段评估。数字是准确率和f1分数。我们包括纯粹基于回归的方法（底部）和执行一些优化（后）处理的方法（顶部）。我们的方法与最先进的方法有竞争力输入表示的类型，即，RGB图像、部分分割以及密集姿态图像 [6] 。完整结果见表 2 。 RGB 模型在Human3.6M + UP-3D上训练，而其他两个模型仅在Human3.6M上训练。对于每种输入类型，我们与最先进的方法[15，28]进行比较，并表明我们的方法在所有设置和指标中都优于它们。有趣的是，当仅使用Human3.6M数据进行训练时，由于过度拟合，RGB输入的表现比其他表示（表1）更差。然而，我们观察到RGB特征为野生图像捕获了更丰富的信息，因此我们选择它用于大多数实验。图像非参数化参数化图5：错误重建的示例。典型的失败可以归因于挑战性的姿势，严重的自我封闭，或多人之间的互动。从回归的形状SMPL：此外，我们检查从我们预测的3D形状估计SMPL模型参数的效果。如表3所示，在我们的非参数形状估计之上使用简单的MLP 添加SMPL预测，仅对性能具有较小的影响（在某些情况下为正，在其他情况下为负这意味着我们回归的3D形状封装了模型重建所需的所有重要信息，使得从我们的非参数形状预测中恢复参数表示（如果需要）变得非常简单与现有技术的比较：接下来，我们目前的比较，我们的方法与其他国家的最先进的方法，三维人体姿态和形状估计。对于Human3.6M，详细结果见表4，其中我们优于其他基线。我们在这里澄清，不同的方法使用不同的训练数据（例如，Pavlakos等人[31]不要使用任何Human3.6M数据进行训练，NBF等人。[28]仅使用来自Human3.6M的数据，而HMR [15]仅使用具有2D地面实况的额外图像）。然而，在这里，我们收集了每种方法在该数据集上报告的最佳结果。除了3D姿态，我们还通过LSP测试集上的轮廓重投影来评估3D形状。我们的方法优于金泽等人的基于回归的方法。[15]，并且与基于优化的基线竞争[1]，在这个任务中，它们往往比回归方法（如我们的）表现得更好，因为它们明确地优化了图像模型对齐。定性评价：图5和图6显示了定性评价结果。方法复溶误差Lassner等人[18] 93.9SMPLify [1] 82.3Pavlakos等人[31] 75.9[28]第二十八话HMR [15] 56.8我们的50.14508图像非参数化参数化图像非参数化参数化图6：我们的方法的成功重建。行1-3：LSP [13]。第4-5行：人3.6M [10]。用浅粉色表示回归的非参数形状，用浅蓝色表示从先前形状回归的SMPL模型我们的方法，包括非参数网格和相应的SMPL网格回归使用我们的形状作为输入的仿真例子。典型的失败可归因于具有挑战性的姿势、严重的自我封闭以及多人之间的交互。运行时间：在2080 Ti GPU上，单个图像的网络推理持续33ms，这是有效的实时性。5. 总结本文的目标是通过尝试放松对参数模型（通常为SMPL [21]）的先前工作的严重依赖来解决姿势和形状估计问题虽然我们保留了SMPL网格拓扑结构，但我们的目标是首先估计3D网格顶点的位置，而不是直接预测给定图像的模型参数为了有效地实现这一目标，我们支持-提出了Graph-CNN架构，该架构显式编码网格结构并处理附加到其顶点的图像特征我们的卷积网格回归优于直接针对各种输入表示回归模型参数的相关基线未来的工作可以集中在当前的限制（例如，输出网格的低分辨率，恢复的形状中的缺失捕捉在许多人体模型中缺少的方面，如手部动作、面部表情、衣服和头发）。鸣谢：我们衷心感谢通过以下赠款提供的支持：NSF-IIP-1439681（I/UCRC）、NSF-IIS-1703319、NSF MRI 1626008、ARL RCTA W911 NF-10-2-0016、ONR N 00014 -17-1-2093、ARL DCIST CRA W911 NF-17-2-0181、DARPA-SRC C-BRIC，以及本田研究所4509引用[1] Federica Bogo、Angjoo Kanazawa、Christoph Lassner、Peter Gehler、Javier Romero和Michael J Black。SMPL：从单个图像自动估计3D人体姿势和形状。在ECCV，2016年。一、三、五、七[2] 曹哲、托马斯·西蒙、魏世恩和亚瑟·谢赫。使用部分亲和场的实时多人2D姿态估计。在CVPR，2017年。1[3] Rishabh Dabral、 Anurag Mundhada 、 Uday Kusupati、Safeer Afaque、Abhishek Sharma和Arjun Jain。从结构和运动学习三维人体姿势。在欧洲计算机视觉会议（ECCV）的会议记录中，第668-683页，2018年。二、三[4] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。CVPR，2009。6[5] Peng Guan，Alexander Weiss，Alexandru O Balan，andMichael J Black. 从人体模型估计人体形状和姿态一个单一的形象。ICCV，2009年。3[6] RızaAlpGuéler，Na taliaN ev er ov a，andIasonasKokkinos. 密度：野外密集的人体姿势估计。在CVPR，2018年。二三四六七[7] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。四、六[8] Yinghao Huang， Federica Bogo ，Christoph Classner，Angjoo Kanazawa ， Peter V Gehler ， Ijaz Akhter ， andMichael J Black.随着时间的推移，朝向准确的无标记人体形状和姿势在3DV，2017年。1[9] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。ICML ，2015。4[10] Catalin Ionescu ， Dragos Papava ， Vlad Olaru ， andCristian Sminchisescu. Human3.6M：大规模数据集和预测方法，用于自然环境中的3D人体感知PAMI，36（7）：1325-1339，2014. 五、八[11] Aaron S Jackson，Adrian Bulat，Vasileios Argyriou，andGeorgios Tzimiropoulos.通过直接体积CNN回归从单个图像进行大姿态3D人脸InICCV，2017. 3[12] 亚伦·S·杰克逊，克里斯·马纳法斯，乔治斯·齐米罗普罗斯。通过体积回归从单个图像进行3D人体重建。在ECCVW，2018年。3[13] 山姆·约翰逊和马克·埃弗林汉姆用于人体姿态估计的聚类姿态和非线性外观模型。在BMVC，2010年。五、八[14] Hanbyul Joo Tomas Simon和Yaser Sheikh Total capture：用于跟踪面部、手部和身体的3D变形模型在CVPR，2018年。1[15] Angjoo Kanazawa、Michael J Black、David W Jacobs和Jitendra Malik 。端到端恢复人体形状和姿势。在CVPR，2018年。一、二、三、四、五、六、七[16] Hiroharu Kato 、 Yoshitaka Ushiku 和 Tatsuya Harada 。Neu- ral 3D网格渲染器。在CVPR，2018年。4[17] Thomas N Kipf和Max Welling使用图卷积网络的半监督分类。在ICLR，2017。44510[18] Christoph Lassner 、 Javier Romero 、 Martin Kiefel 、Federica Bogo、Michael J Black和Peter V Gehler。团结人民：关闭3D和2D人类表现之间的循环在CVPR，2017年。一、三、五、六、七[19] Sijin Li和Antoni B Chan.使用深度卷积神经网络从单目图像估计3D人体姿势InACCV，2014. 3[20] 或者 Litany ， Alex Bronstein ， Michael Bronstein 和Ameesh Makadia。可变形形状完成与图形卷积自动编码器。在CVPR，2018年。三、四[21] Matthew Loper、Naureen Mahmood、Javier Romero、Gerard Pons-Moll和Michael J Black。SMPL：一个有皮肤的多人线性模型 .ACM Transactions on Graphics（TOG），34（6）：248，2015。1、8[22] Diogo C Luvizon，David Picard，and Hedi Tabia.使用多任务深度学习进行2D/3D姿态估计和动作识别。在CVPR，2018年。3[23] Siddharth Mahendran，Haider Ali，和Rene Vidal.一种用于从2D图像估计3D姿态的混合分类-回归框架。在BMVC，2018年。2[24] Julieta Martinez、Rayat Hossain、Javier Romero和JamesJ Little。一个简单而有效的三维人体姿态估计基线。InICCV，2017. 一、二、三、五[25] DushyantMehta ，SrinathSridhar， OleksandrSotnychenko ， Helge Rhodin ， Mohammad Shafiei ，Hans-Peter Seidel ， Weipeng Xu ， Dan Casas ， andChristian Theobalt.虚拟现实：实时三维人体姿态估计与一个单一的RGB相机时代。ACM Transactions onGraphics（TOG），36（4）：44，2017。第1、3条[26] Arsalan Mousavian、Dragomir Anguelov、John Flynn和JanaKosˇeck a´。使用深度学习和几何的3D边界框估计在CVPR，2017年。2[27] Alejandro Newell，Kaiyu Yang，and Jia Deng.用于人体姿态估计的堆叠沙漏网络。在ECCV，2016年。1[28] Mohamed Omran 、 Christoph Lassner 、 Gerard Pons-Moll、Pe ter Gehler和Bernt Schiele。神经身体拟合：统一深度学习和基于模型的人体姿势和形状估计。在3DV，2018年。一、二、三、五、六、七[29] GeorgiosPavlakos ， XiaoweiZhou ， andKostasDaniilidis.用于3D人体姿势估计的有序深度监督。在CVPR，2018年。二、三[30] Georgios Pavlakos ， Xiaowei Zhou ， Konstantinos GDerpanis，and Kostas Daniilidis.粗到细的体积预测，为单一图像的三维人体姿势。在CVPR，2017年。3[31] Georgios Pavlakos，Luyang Zhu，Xiaowei Zhou，andKostas Daniilidis.学习从单个彩色图像估计3D人体姿势和形状。在CVPR，2018年。一、三、五、七[32] Leonid Pishchulin ， Eldar Insafutdinov ， Siyu Tang ，Bjoern Andres，Mykhaylo Andriluka，Peter V Gehler，and Bernt Schiele. DeepCut：联合子集分割和标记用于多人姿势估计。在CVPR，2016年。第1、3条[33] Anurag Ranjan ， Timo Bolkart， Soubhik Sanyal， andMichael J Black.使用卷积网格自动编码器生成3D面。在ECCV，2018。三、五4511[34] 格里高利· 罗杰斯和科迪莉亚· 施密德。用于野外3D姿态估计的Moc ap引导数据在NIPS，2016年。3[35] GregoryRogez ， PhilippeWeinzaepfel 和 CordeliaSchmid。LCR-Net：人体姿势的定位-

下载后可阅读完整内容，剩余1页未读，立即下载