金字塔网格对齐反馈：基于回归的参数校正方法

171 浏览量更新于2023-10-13 收藏 1.37MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11446PyMAF：具有金字塔网格对齐反馈回路的Hongwen Zhang§‡*，Yating Tian†*，XinchiZhou，WanliOuyang，Yebin Liu‡，Limin Wang†，ZhenanSun§§CRIPAC，NLPR，中国科学院自动化研究所†南京大学软件新技术国家重点实验室澳大利亚悉尼大学中国清华大学自动化系{hongwen.zhang@cripac，znsun@nlpr}. ia.ac.cn{ yatingtian@smail.，lmwang@}nju.edu.cn{xinchi.zhou1，wanli.cn} @ sydney.edu.auliuyebin@mail.tsinghua.edu.cn摘要基于回归的方法最近在从单目图像重建人体网格方面显示出了良好的结果通过将原始像素直接映射到模型参数，这些方法可以经由神经网络以前馈方式产生参数模型。但是，米-全局特征预测Θt预测Θt+1采样采样空间特征预测Θt预测Θt+1金字塔形网格-参数的偏差也不会导致估计的网格和图像证据之间的明显的未对准。为了解决这个问题，我们提出了一个金字塔网格对齐反馈（PyMAF）循环，以利用特征金字塔，并根据我们的深度回归器中的网格图像对齐状态明确地纠正预测参数在PyMAF中，给定当前预测的参数，网格对齐的证据将相应地从更高分辨率的特征中提取并反馈用于参数校正。为了减少噪声和提高这些证据的可靠性，一个辅助的逐像素监督是不确定的。迭代误差反馈（一）网格对齐反馈（b）第（1）款对齐证据（c）第（1）款提出的特征编码器，这为我们的网络提供了网格图像对应的指导，以保留PyMAF之前（d）其他事项PyMAF之后空间特征中最相关的信息。我们的方法的有效性在几个基准上进行了验证，包括Human3.6M，3DPW，LSP和COCO，其中实验结果表明，我们的方法始终改善了重建的网格图像对齐包含代码和视频结果的项目页面可以在https://hongwenzhang.github.io/pymaf找到。1. 介绍针对产生自然和良好对齐的结果的相同目标，研究界已经研究了用于人体网格恢复的两种不同范例。基于优化的方法[5，29，63]明确适合* ：平等缴款。：通讯作者。图1：我们的主要想法。(a)常用的迭代误差反馈.（b）我们的网格对准反馈。(c)从特征金字塔提取的网格对齐证据。(d)我们的方法PyMAF提高了估计网格的网格图像对齐。模型的2D证据，这通常可以产生准确的网格图像对齐的结果，但往往是缓慢和敏感的初始化。或者，基于回归的[22，42，27，26]建议直接从图像预测模型参数，这已经显示出非常有希望的结果，但仍然遭受预测网格和图像证据之间的粗略对齐。对于像SMPL [34]这样的参数模型，关节姿势表示为相对于其父关节的相对旋转，这意味着沿着运动链累积的微小旋转误差可能导致注意。11447关节位置的灵活漂移。为了生成良好对齐的结果，基于优化的方法[5，29]设计目标函数中的数据项，使得可以显式优化网格投影与2D证据之间的对齐。在基于回归的方法[22，42，27，26]中也采用了类似的策略，以在训练过程中对估计网格的投影然而，在测试期间，这些深度回归器要么是开环的，要么在其架构中简单地包括迭代误差反馈（IEF）循环[22]。如图1（a）中，IEF在其反馈回路中重复使用相同的全局特征，使得其回归器在推理阶段几乎察觉不到网格图像未对准。正如在以前的工作中所建议的那样[44，38，32，50]，神经网络倾向于保留高级信息，并在减少特征映射的空间大小时丢弃详细的局部特征为了利用回归网络中的空间信息已经进行了几次尝试来利用逐像素表示，例如在其回归网络中的部分分割[40]或密集对应[59，66虽然这些回归器考虑到像素级的证据，它仍然是具有挑战性的，他们学习的结构先验知识，并在同一时间仅基于高分辨率的背景下获得的空间细节受上述观察的启发，我们在我们的回归网络中设计了金字塔网格对齐反馈（PyMAF）循环，以利用多尺度上下文来更好地实现重建的网格图像对齐。我们的方法的中心思想是明确和逐步校正参数偏差的对齐状态的基础上。在Py-MAF中，根据估计网格的二维投影从空间特征中提取网格对齐证据，然后反馈给回归器进行参数更新。如示于图1，与常用的迭代误差反馈回路[22，7]相比，网格对齐反馈回路可以利用更多信息特征进行参数校正。为了利用多尺度上下文，从特征金字塔中提取网格对齐证据，使得可以基于较低分辨率特征以大步长校正粗对齐网格此外，为了增强空间线索的可靠性，对最高分辨率特征施加辅助任务以推断逐像素密集对应，这为图像编码器提供了保持网格图像对准信息的指导。这项工作的贡献可概括如下：• 针对基于回归的人体网格恢复，引入网格对齐反馈环，利用网格对齐证据明确地纠正参数误差，使估计的网格与输入图像更好地对齐。• 特征金字塔进一步与网格合并在一些实施例中，回归网络可以包括多尺度对齐反馈回路，使得回归网络可以利用多尺度对齐上下文。• 在图像编码器上施加辅助的逐像素监督，使得其空间特征可以更有信息性，并且网格对齐的证据可以更相关和可靠。2. 相关工作2.1. 人体姿态和形状恢复基于优化的方法。该领域的开创性工作主要集中在拟合参数模型的优化过程（例如，SCAPE [3]和SMPL[34]）到2D观察，如关键点和轮廓[48，13，5]。在目标函数中，先验项用来描述不自然的形状和姿态，数据项用来度量网格重投影与二维证据之间的拟合误差。基于该范例，已经研究了不同的更新，以在拟合过程中结合诸如2D/3D身体关节[5，68]、轮廓[29，16]、部分分割[63]尽管通过这些基于优化的方法获得了最近，Songet al. [49]在拟合过程中利用学习的梯度下降。虽然该解决方案利用丰富的2D姿势数据集并缓解了传统基于优化的方法中的许多问题，但它仍然依赖于2D姿势的准确性并打破了端到端学习。或者，我们的解决方案支持端到端学习，但也可以利用丰富的2D数据集，这要归功于进展（例如，SPIN [26]和EFT[21]）在生成用于2D数据集的更精确的伪3D地面实况中的应用。基于回归的方法或者，利用神经网络强大的非线性映射能力，最近的基于回归的方法[22，42，40，26，9，18，8]在直接从单目图像预测人体模型方面取得了重大进展。这些深度回归器将2D证据作为输入，并在学习过程中在不同类型的监督信号[53，22，41，43，11，61，28为了减轻回归量的学习难度，还设计了不同的网络架构来利用代理表示，例如剪影[42，54]，2D/3D关节[53，42，37]，分割[40，45]和密集对应[59，66]。这些策略可以受益于合成数据[59，47]和代理代表估计的进展[6，1，50，57]。尽管这些模块有效，但代理表示的质量成为重建任务的瓶颈，这也可能阻碍深度回归器的端到端学习。此外，虽然监督信号施加在估计模型的投影上以惩罚拟合失准11448--SppR∈F·⊕·M∈∈·SSS t=0SSpSS在深度回归器的训练期间，它们的架构在推理阶段期间几乎不能察觉未对准。相比之下，所提出的PyMAF对于训练和推理都是闭环的，这使得我们的深度回归器中的反馈回路能够利用空间证据来更好地对齐估计的人类模型的网格图像。我们的工作重点是回归器架构的设计，并且还可以为使用后处理[14]或伪地面实况生成[26，21]的那些方法提供更好的回归器。直接从图像回归模型参数是非常具有挑战性的，即使是神经网络。现有的方法还提供了非参数解决方案以在非参数表示中重构人体模型。其中，体积表示[54，70]，隐式函数[46，69]，网格顶点[27，31]和位置图[60，67，64]已被用作回归目标。使用非参数表示作为回归目标更容易利用高分辨率特征，但3. 方法在本节中，我们将介绍我们的方法的技术细节。如示于图2，我们的网络produces一个功能金字塔的网格恢复在一个由粗到细的方式。粗对齐的预测将通过利用从空间特征图提取的网格对齐的证据此外，辅助预测任务强加于图像编码器，使得那些空间线索可以更可靠和相关。3.1. 基于特征金字塔的人体网格回归我们的图像编码器的目标是生成一个金字塔的空间特征，从粗到细的粒度，它提供了在不同的尺度级别的图像中的人构成的描述。特征金字塔将用于具有姿态、形状和相机参数Θ = θ、β、π的SMPL模型的后续预测中。形式上，编码器将图像I作为输入，并且输出一组空间要素{t∈RCs×Ht×Wt}T−1最后，其中Ht和Wt单调递增，输出。此外，仅使用高分辨率特征使得算法对遮挡更敏感，而无需额外的结构先验。在我们的解决方案中，深度回归利用多个尺度的空间特征进行高分辨率分析。水平和细粒度的感知，并产生参数ing.在级别t处，基于特征图Xt，将使用一组采样点Xt来提取逐点特征。具体地，对于X t中的每个2D点x，将相应地从t中提取逐点特征t（x）∈RCs×1。模型，无需进一步处理。2.2. 回归任务中的迭代拟合在文献中还研究了将拟合过程与回归相结合的策略。对于人体模型重建，Kolotouros等人[26日]执行双线性采样。这些逐点特征将通过用于降维的MLP（多层感知器），并进一步连接在一起作为特征向量t，即，t= F（F.t（x）Σ，对于x在XtΣΣ，（1）将迭代拟合过程与训练过程相结合，以便产生更精确的基础事实，用于更好的监督。为了在训练和推断阶段改进估计的网格，已经进行了几次尝试来变形人类网格，以便它们可以与中间估计对齐，例如深度图[72]，部分分割[62]和密集对应[14]。这些方法采用中间估计作为拟合目标，因此依赖于它们的质量。相比之下，我们的方法使用当前估计的网格来提取深度特征以进行细化，这不仅对于训练和推理都是对称的，而且还能够实现深度回归器的完全端到端学习。为了将我们的方法放在更广泛的视野中，已经做出了显着的努力，以在其他计算机视觉任务中涉及迭代拟合策略，包括面部标志定位[58，52]，人/手姿势估计[39，7]等。对于通用对象，Pixel2Mesh [56]通过利用感知特征逐渐地变形初始椭圆体。根据这些工作的精神，我们利用新的策略来提取细粒度的证据，并在人类网格恢复的背景下提供新的解决方案。其中f（）表示特征采样和处理操作，f（）表示级联，并且f（）是MLP。之后，参数回归器t将特征和参数的当前估计Θt作为输入，并输出参数残差。然后通过将残差加到Θt 来将参数更新为 Θ t +1。 F或水平t=0，Θ0采用从训练数据计算的平均参数。给定每个级别处的参数预测Θ（为简单起见省略下标t），可以相应地生成具有M=（Θ，β）RNX3的顶点的网格，其中N=6890表示SMPL模型中的顶点的数量。这些网格顶点可以被映射到稀疏3D关节J通过预训练的线性回归r，以及进一步投影在图像坐标系上作为 2D 关键点 K=Π（J）其中Π（）表示基于相机参数π的投影函数。注意，Θ中的姿态参数被表示为沿着运动链的相对旋转，并且微小的参数误差可以导致2D投影与图像证据之间的大的未对准。为了在回归网络的训练过程中惩罚这种不对齐，我们遵循常见的做法[22，26]，在需要进一步处理以检索参数化模型11449S||·||SSRFSGM电话+1不不不S不图2：所提出的金字塔网格对齐反馈（PyMAF）的概述。PyMAF利用特征金字塔，并在我们的网络中实现对齐反馈循环。给定一个粗对齐的模型预测，网格对齐的证据相应地从更高分辨率的特征中提取，并反馈给一个回归量进行参数校正。为了提高空间证据的可靠性，在图像编码器的最终输出上施加辅助的逐像素预测任务从估计的网格投影的2D关键点。同时，当地面真实3D标签可用时，添加了对3D关节和模型参数的总的来说，参数回归量从而可以在我们的回归器中利用网格对齐的证据来校正当前参数并改进当前估计模型的网格-图像对齐。为此，当T>0，我们提取网格对齐被写为来自t的特征基于当前估计的网格Lreg =λ2d ||+λ3d ||+λ3d||+λ||+λpara||、（二） ||,(2)Mt获得更细粒度和位置敏感的证据。与整体特征或单一特征相比，哪里是平方L2范数，K、J和Θ分别表示地面实况2D关键点、3D关节和模型参数。对常用参数回归器的改进之一是我们的回归器可以更好地利用空间信息。与常用的回归变量以全局特征∈RCg×1为输入，我们的回归-网格对齐特征可以反映当前估计的网格图像对齐状态，这对于参数校正来说是更有信息量的。具体地，采样点Xt通过以下方式获得：首先对网格Mt进行采样到Mt，然后投影。在2D图像平面上，i. 例如，Xt=（Mt）。基于Xt，则将从不不不不˜排序使用从空间数据库中获取的逐点信息特点提取逐点特征的直接策略将是使用具有网格图案的点Xt并且从X t均匀地采样特征。在该方法中，采样点Xt采用网格模式。在t= 0的级别，并且将根据使用Eq. 1，即，m=（εs，Π（Mt））. 这些网格对齐的特征将被馈送到回归器T中用于参数更新。总的来说，所提出的网格对准反馈回路可以被公式化为Θ=Θ+R。Θ，F（t，Π（M~））Σ，对于t>0。（三）当t> 0时，当前估计的网格。我们将展示这样的网格条件采样策略有助于回归以产生更合理的结果。3.2. 网格对齐反馈回路如HMR [22]中所述，一次性直接回归网格参数具有挑战性。为了解决这个问题，HMR使用迭代误差反馈（IEF）循环来通过采用全局特征和当前估计来迭代地更新Θ将Θ的值作为输入。尽管IEF战略降低了成本，但rameter错误逐渐增加，它使用相同的全局要素每次用于参数更新，其缺乏细粒度信息并且不适应新的预测。通过对比，我们提出了一个网格对齐反馈（MAF）环3.3. 辅助逐像素监督如图2的第二行所示。3.空间特征往往受到噪声输入的影响，因为输入图像可能包含大量不相关的信息，例如遮挡、外观和照明变化。为了提高从空间特征提取的网格对齐线索的可靠性，我们在最后一级的空间特征上施加辅助像素预测任务。具体地，在训练期间，空间特征图T-1将通过卷积层来预测应用了逐像素监督的密集对应图。密集对应编码2D图像平面上的前景像素与空间特征金字塔Θ0编码器Θ1图像网格特征补片M1下采样投影Θt反卷积Θt+1卷积网格对齐特征更新补片Mt+1辅助逐像素预测网格对齐反馈回路回归量。回归量。11450×⊙××××R关于我们−三维空间中的网格顶点。以这种方式，辅助监督为图像编码器提供网格-图像对应指导，以保留空间特征图中最相关的信息。在我们的实现中，我们采用了在DensePose [1]中定义的IUV映射作为稠密对应表示，它由网格顶点的部分索引和UV值组成。请注意，我们不在数据集中使用DensePose注释，而是基于地面实况SMPL模型渲染IUV地图[66]。在训练过程中，分类和回归损失分别应用于密集对应图的部分索引P和UV通道。具体地，对于部分索引P个通道，应用交叉熵损失来对属于背景或身体部分中的一个的像素进行分类。对于UV通道，应用平滑L1损失来回归前景像素的对应UV值。在UV回归损失中仅考虑前景区域，即，在应用回归损失之前，估计的UV通道首先被地面实况部分索引通道总的来说，用于辅助逐像素监督的损失函数被写为图3：空间特征图和预测的密集对应的可视化。顶部：输入图像。二/第三行：在没有/有辅助监督（AS）的情况下学习的空间特征图。下图：辅助监督下的预测密集对应图。洛 =λpiCrossEntropy（P，P）+λuvSmoothL1（P⊙U，P⊙U）+λuvSmoothL1（PV，PV），（四）6890到431每个点的网格对齐特征将由三层MLP处理，使得它们的尺寸将从Cs减小到5。因此，网格对齐特征向量具有2155 = 4315的长度，其类似于全局特征的长度。中使用的格网要素t=0时，它们以21×21从0其中表示掩码操作。注意辅助仅在训练阶段需要预测网格图案，即，点数为S441=21×21 这是图3可视化了在有辅助监督和没有辅助监督的情况下训练的编码器的空间特征，其中特征图简单地沿着通道维度添加我们可以看到，当应用辅助监督时，空间特征对输入变化更加整洁和鲁棒。4. 实验4.1. 实现细节所提出的PyMAF在ImageNet[10]上预先训练的ResNet-50 [15]主干上进行了验证。ResNet-50主干以224224图像作为输入，生成大小为20487的图像特征7.为经典的回归网络HMR [22]，平均池化后将获得2048 1的全局特征向量。在我们的方法中，图像特征将经过反卷积层，从而产生具有分辨率的空间特征图。关于14十四、二十八二十八五十六56，其中Cs= 256所有决议。这里，设置最大数量T到3，其等于HMR中使用的迭代次数。当生成网格对齐的特征时，使用[27]中提供的预先计算的下采样矩阵对SMPL网格进行下采样，之后顶点数量从近似于网格下采样之后的顶点数量431。回归量t与HMR中的回归量具有相同的架构，除了它们具有稍微不同的输入尺寸不同。在设置SPIN [26]之后，我们使用Adam [24]优化器训练我们的网络，学习率设置为5e5，批量为64一个2080 Ti GPU。在训练期间不应用学习率衰减。实现的更多细节可以在我们的代码和补充材料中找到。4.2. 数据集根据先前工作的设置[22，26]，我们的方法在来自具有3D和2D注释的几个数据集的混合数据上进行训练，包括Hu-man 3. 6 M [17]，MPI-INF-3DHP [36]，LSP [19]、LSP-[ 20 ][22][23][24][25][26][27][28][29]对于最后五个数据集，我们还利用它们的伪地面实况SMPL参数[5，26]进行训练。我们不使用来自3DPW [55]的训练数据，而是仅对其测试集进行评估。此外，我们不使用COCO中的DensePose注释进行辅助监督，而是使用[66]中我们评估我们的方法使用各种指标与以前的方法进行定量比较图像与尽Dens. Corre.不含11451FB分段部件段基线117.998.560.964.843.7PyMAF，不含AS113.695.658.860.342.3PyMAF110.192.858.957.740.5表1：3DPW和Human3.6M上的重建误差。†表示根据非参数结果评价的数字。ODS，即，PVE、MPJPE和PA-MPJPE用于评估3D姿态估计、分割精度、f1分数，AP用于测量网格图像对齐。有关数据集和评价指标的详细说明，请参见补充材料。4.3. 与最新技术三维人体姿态和形状估计。我们首先评估我们的方法上的三维人体姿势和形状估计任务，并与以前的国家的最先进的基于回归的方法进行比较。我们在表1中提供了3DPW和Hu-man 3. 6 M数据集的定量比较的评价结果。我们的PyMAF实现了以前的方法之间的竞争力或优越的结果，包括基于帧和时间的方法。注意，表1中报告的方法不是严格可比较的，因为它们可以使用不同的训练数据、学习速率调度或训练时期等。为了进行公平的比较，我们在表1中报告了我们的基线结果，该基线是在相同的设置下使用PyMAF训练的基线方法具有与HMR [22]相同的网络架构，并且还采用6D旋转表示[71]用于姿态参数。与基线相比，PyMAF在3DPW和Hu-man 3. 6 M数据集上分别将MPJPE减小5.7mm和7.1mm。辅助监督（AS）还帮助PyMAF具有更好的重建结果，如表1的最后两行所示。从表1中，我们可以看到PyMAF在度量MPJPE和PVE上有更我们认为，度量PA-MPJPE不能完全揭示表2：LSP测试集上的前景-背景和六部分SMPLify或-acle表示使用地面实况关键点作为输入的SMPLify。网格图像对齐性能，因为它是作为刚性对齐后的MPJPE计算的如补充材料中所描绘的，具有较小PA-MPJPE值的重建结果可以具有较大的MPJPE值和重新投影的网格与图像之间的较差对准。2D分割和姿态估计。为了定量地测量预测的网格-图像对准，我们还对2D分割和姿态估计任务进行评估，其中预测的网格被投影在图像平面上以获得2D部分分割和关键点。表2报告了LSP测试集上前景-背景和六部分分割性能的评估。如表2所示，基于优化的方法在2D对齐度量方面仍然非常有竞争力，并且往往优于大多数基于回归的方法。背后的原因基于优化的方法被明确地优化用于网格图像对准。虽然PyMAF是基于回归的，但它超越了所有其他方法，包括基于优化的方法。最后，我们评估2D人体姿态估计性能的COCO验证集，以验证我们的方法在现实世界中的有效性。在评估期间，我们将来自估计的网格的关键点投影在图像平面上，并且基于与地面真实2D关键点的关键点相似性来关键点定位AP 的结果在表3 中报告。还包括OpenPose [6]，一种广泛使用的2D我们可以看到，COCO数据集对于人类网格重建的方法是非常具有挑战性的，因为它们通常在2D关键点定位准确性方面具有差得多的性能在表3中，我们还包括通过拟合SMPL的基于优化的SMPLify [5]3DPWHuman3.6M时间方法PVE MPJPE PA-MPJPE MPJPE PA-MPJPE基于帧Kanazawa等人[23日]139.3 116.572.6-56.9Doersch等人[第十一届]--74.7--Arnab等人[4]美国--72.277.854.3[第51话]--69.559.142.4Pavlakos等人[第四十二届]----75.9HMR [22]-130.076.788.056.8NBF [40]---59.9GraphCMR [27]--70.2-50.1HoloPose [14]---60.346.5DenseRaC [59]---76.848.0[26]第二十六话116.496.959.262.541.1DecoMR [64]--61.7†-39.3†DaNet [65]--56.961.548.6Song等人[49个]--55.9-56.4I2L-MeshNet [37]-100.060.055.7†41.1†[12]---59.643.2方法acc.F1acc.F1SMPLify oracle [5]92.170.8888.820.67SMPLify [5]91.890.8887.710.64SMPLify on [42]92.170.8888.240.64HMR [22]91.670.8787.120.60BodyNet [54]92.750.84--CMR [27]91.460.8788.690.66[41]第四十一话91.820.8789.000.67[26]第二十六话91.830.8789.410.68DecoMR [64]92.100.8889.450.69[12]92.230.8889.590.69基线91.670.8789.230.68PyMAF，不含AS92.430.8889.980.70PyMAF92.790.8990.470.7211452×表4：使用不同类型反馈功能进行优化的消融研究不应用辅助监督图4：COCO验证集重建结果的定性比较。方法APAP50AP75APMAPLOpenPose [6]65.385.271.362.270.7SMPLify [5]22.037.723.127.717.6HMR [22]18.947.511.721.517.0GraphCMR [27]9.326.94.211.38.1[26]第二十六话17.339.113.519.016.6基线16.838.212.818.516.0PyMAF，不含AS20.743.917.422.319.9PyMAF24.648.922.726.024.2表3：COCO验证集上的关键点定位AP共有50，197件样品用于评价。SMPLify [5]的结果基于SPIN [26]中的实现进行评估，具有300次优化迭代。HMR [22]，GraphCMR [27]和SPIN [26]的结果基于其公开发布的代码和模型进行评估。模型到地面实况2D关键点。正如之前的工作[26]所指出的，SMPLify可能会产生对齐良好但不自然的结果。此外，SMPLify比基于回归的解决方案更耗时在恢复3D人体网格的方法中，PyMAF以显著的幅度优于以前基于回归的方法。与我们的基线相比， PyMAF 显著改善 AP 和 AP50 ，分别为 7.8% 和10.7%。辅助监督（AS）也大大有助于在这个具有挑战性的数据集更强大的重建，并带来了3.9%的性能增益AP。COCO的重构结果如图所示 4进行定性比较，其中PyMAF令人信服地表现优于SPIN [26]和我们的基线，产生更好的对齐和自然的结果。4.4. 消融研究在本部分中，我们将在Human3.6M上进行各种设置下的消融研究，以验证我们的方法中提出的关键组件所有消融方法均在Human3.6M上进行训练和测试，因为它包括地面实况3D标签，并且是3D人体姿势和形状估计的最广泛使用的基准。网格对齐特征的有效性。在PyMAF中，网格对齐特征在反馈回路中提供当前网格图像对齐信息，这对于更好的网格恢复至关重要为了验证这一点，我们交替地用全局特征或从空间特征均匀采样的网格特征替换网格对齐特征作为参数回归的输入。表4报告了在反馈回路中配备有不同类型特征的方法的性能。在非金字塔设置下的结果也包括在表4中，其中从具有最高分辨率的特征图中提取网格和网格对齐的特征（即，（56）在t = 0处的平均姿态下在网格的重新投影点上提取网格对准特征。为了与基线进行公平比较，在非金字塔设置下具有全局、网格和网格对齐的反馈特征的方法也使用单个回归量，但是对每次迭代的预测具有单独的监督。此外，表4中的所有方法都不使用辅助监督。不出所料，使用网格对齐的特征在非金字塔和金字塔设计下产生最佳性能。使用从空间特征图中采样的网格特征的方法比使用全局特征的方法具有更好的结果，但比网格对齐的方法更差。当使用金字塔特征图时，网格对齐的解决方案实现甚至更多的性能增益，因为多尺度网格对齐证据可以在反馈回路中被利用。虽然网格特征主要包含均匀分布的像素位置上的空间线索，但它们不能反映当前估计的对齐状态。这意味着，网格对齐的功能是最有用的一个回归器，以纠正当前的网格参数。受益于辅助监督。辅助的逐像素监督有助于提高从空间特征提取的网格对齐证据的可靠性。使用替代的逐像素监督，这样的部分分段PyMAF[26]第二十六话基线Feat.金字塔？#回归器MPJPE PA-MPJPE全球（基线）没有184.1 55.6全球84.355.3网格网格对齐没有180.579.654.753.4网格网格对齐是的379.7 54.376.8 50.911453Aux. 上级输入类型MPJPE PA-MPJPEInitial Feat.度量M0M1M2M3密集校正密集校正77.854.7特征75.148.9表5：使用不同辅助监督设置和回归变量输入类型的消融研究。在我们的框架中，也可以是非密集对应而不是密集对应。在我们的方法中，这些辅助预测仅需要在训练期间进行监督，因为逐点特征是从特征图中提取的。对于更深入的分析，我们还尝试从辅助预测中提取逐点特征，即，回归量的输入类型是诸如部分分割或密集对应的中间表示。表5显示了回归变量的不同辅助监督设置和输入类型的实验比较表6：在反馈回路中使用不同初始特征的消融研究。在训练期间。使用部分分割比我们的密集对应解决方案稍差。与局部分割相比，稠密对应不仅保留了前景区域的干净信息，而且保留了丰富的前景区域信息。此外，使用特征图进行逐点特征提取始终比使用辅助预测更好。这可以解释为使用中间表示作为回归器的输入妨碍了整个网络的端到端学习。在辅助监督策略下，利用从辅助预测和参数校正任务两者反向传播的信号来学习空间特征图。以这种方式，背景特征还可以包含用于网格参数校正的信息，因为深度特征具有更大的感受野并且以端到端的方式被训练如表5所示，当网格对齐的特征用零件分割预测的前景区域掩蔽时，MPJPE上的性能从75.5mm降低到77.6mm。反馈回路中初始化的影响。在我们的方法中，逐点的功能最初提取网格点粗网格预测之前的提取网格对齐的功能。基于t = 0处的平均姿态网格作为初始特征来提取网格对齐特征也是可行的。表6中报告了使用不同初始特征的方法的性能，其中PyMAF可以在两种初始化设置下改善重建结果。对于使用在平均姿态网格的投影上提取的初始特征的方法，我们在图5中的每次迭代之后将其估计的网格可视化。虽然平均姿态网格远离地面实况，但PyMAF可以渐进地校正身体部位的漂移并产生更好对齐的人体模型。图像M0M1M2M3图5：反馈回路中不同迭代的重建结果的可视化。5. 局限性和未来工作在本文中，我们提出了金字塔网格对齐反馈（PyMAF）的回归为基础的人体网格恢复。PyMAF的主要动机是观察参数网格结果的重投影未对准。虽然PyMAF改进了2D图像平面上的网格图像对齐，但它仍然难以解决3D空间中的深度模糊问题此外，由于缺乏训练数据，PyMAF无法处理极端形状，如补充材料所示。在未来，PyMAF可以扩展并与最近的进展相结合，以改善3D空间中的对齐[35，30]。此外，将PyMAF与Holo-Pose [14]，SPIN [26]或EFT [21]相结合以生成更精确的伪3D地面实况标签也将是有趣的未来工作。鸣谢。国家自然科学基金（ U1836217 ， 62125107 ，62076119 ， 61921006 ），澳大利亚研究委员会（ DP200103223 ）和澳大利亚医学研究未来基金（MRFAI000085）资助了本研究。欧阳万里也得到了商汤科技的支持没有一特征76.8 50.9平均位姿MPJPE274.081.478.077.3网格PA-MPJPE131.754.151.150.3部分隔离区108.175.9部分隔离区特征特征 *部件。隔离区75.577.649.251.1网格点MPJPE274.080.376.675.1PA-MPJPE131.752.149.948.911454引用[1] RızaAlpGuüler、Nat a liaN ev er ov a和IasonasKokkinos。密度：野外密集的人体姿势估计。在IEEE计算机视觉和模式识别会议论文集，第7297-7306页，2018年。二、五[2] Mykhaylo Andriluka，Leonid Pishchulin，Peter Gehler，and Bernt Schiele. 2D人体姿态估计：新的基准和最先进的分析。在 Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition，第3686-3693页5[3] Dragomir Anguelov 、 Praveen Srinivasan 、 DaphneKoller、Se- bastian Thrun、Jim Rodgers和James Davis。景观：人的形体完成与动画。在ACM Transactions onGraphics，第24卷，第408-416页中。ACM，2005年。2[4] Anurag Arnab，Carl Doersch，and Andrew Zisserman.野外三维人体姿态估计的时间背景开发。在IEEE计算机视觉和模式识别会议论文集，第3395-3404页，2019年。6[5] Federica Bogo、Angjoo Kanazawa、Christoph Lassner、Peter Gehler、Javier Romero和Michael J Black。保持它smpl：由单一影像自动估计三维人体位姿与形状。欧洲计算机视觉，第561施普林格，2016年。一、二、五、六、七[6] 曹哲，Gines Hidalgo Martinez，Tomas Simon，Shih-EnWei和Yaser A Sheikh。Openpose：使用部分亲和字段的实时多人2D姿势估计。IEEE Transactions on PatternAnalysis and Machine Intelligence，2019。二六七[7] Joao Carreira ，Pulkit Agrawal，Katerina Fragkiadaki，and Ji- tendra Malik.迭代误差反馈人体位姿估计。在Proceedings of the IEEE Conference on Computer Visionand Pattern Recognition ，第 4733-4742 页， 2016 年。二、三[8] Hongsuk Choi，Gyeongsik Moon，and Kyoung Mu Lee.Pose2mesh：用于3D人体姿势和从2D人体姿势恢复网格的图形卷积网络在欧洲计算机视觉会议论文集，2020年。2[9] Vasileios Choutas、Georgios Pavlakos、Timo Bolkart、Dimitrios Tzionas和Michael J Black。通过身体驱动注意力的单眼表达性身体回归。欧洲计算机视觉。Springer，2020年。2[10] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。在IEEE计算机视觉和模式识别集，第248IEEE，2009年。5[11] Carl Doersch和Andrew Zisserman。用于3D人体姿势估计的Sim2real迁移学习：到休息室的动议。神经信息处理系统的进展，第12949-12961页，2019年二、六[12] Georgios Georgakis ， Ren Li ， Srikrishna Karanam ，Terrence Chen，Jana Kosecka，and Ziyan Wu.分层运动人体网格恢复。欧洲计算机视觉会议论文集。Springer，2020年。6[13] Peng Guan，Alexander Weiss，Alexandru O Balan，andMichael J Black.从单个图像估计人体形状和姿势。在IEEE International Conference on Computer Vision 的Proceedings中，第1381IEEE，2009年。2[14] Riza Alp Guler和Iasonas Kokkinos。Holopose：Holistic3D human reconstruction in the wild.在IEEE计算机视觉和模式识别会议集，第10884-10894页，2019年。三六八[15] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE Conference on Computer Vision and PatternRecognition，第770-778页，2016中。5[16] Yinghao Huang ， Federica Bogo ， Christoph Lassner ，Angjoo Kanazawa，Peter V Gehler，Javier Romero，IjazAkhter，and Michael J Black.随着时间的推移，朝向准确的无标记人体在3D视觉国际会议上，第421-430页。IEEE，2017年。2[17] Catalin Ionescu ， Dragos Papava ， Vlad Olaru ， andCristian Sminchisescu.人类3。6m：自然环境中3D人体感知的大规模数据集和预测方法。IEEE Transactions onP

下载后可阅读完整内容，剩余1页未读，立即下载