基于部分注意力回归器的3D人体估计方法PARE

184 浏览量更新于2023-10-13 收藏 3.11MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1PARE：用于3D人体估计的部分注意力回归器Muhammed Kocabas1，2Chun-Hao P. 黄1奥特马尔·希利格斯2 迈克尔·J. 黑11德国图宾根马克斯·普朗克智能系统研究所和2苏黎世联邦理工学院{mkocabas，paul.huang，black}@ tue.mpg.deotmar. inf.ethz.ch（a）输入图像（b）SPIN [1]（c）SPIN [2](e)价调汇率[1]（f）价调汇率[2](d)SPIN闭塞灵敏度热图12(g)PARE闭塞灵敏度热图25020015010050图1：闭塞敏感性分析。给定输入图像（a），小遮挡块（以灰色示出）导致SPIN [29]失败（b，c），而我们的方法（PARE）（e，f）对遮挡物是鲁棒的。右侧的子图显示了SPIN（d）和PARE（g）对图像中每个点中心的遮挡斑块（白色正方形的大小）的敏感性。较暖的颜色意味着较高的平均联合误差。摘要尽管取得了重大进展，我们表明，最先进的3D人体姿态和形状估计方法仍然敏感的部分遮挡，并可能产生显着错误的预测，虽然身体的大部分是可观察的。为了解决这个问题，我们引入了一种软注意力机制，称为部分注意力回归器（PARE），它学习预测身体部位引导的注意力掩模。我们观察到，最先进的方法依赖于全局特征表示，使得它们对甚至很小的遮挡敏感。相比之下，PARE我们定性地表明，PARE学习明智的atten- tion面具，定量评估证实，PARE实现更准确和强大的重建结果比现有的方法在特定的闭塞和标准的基准。代码和数据可在www.example.com上获得，以供研究之用https://pare.is.tue.mpg.de/1. 介绍直接从RGB图像回归3D人体姿势和形状（HPS）在机器人、计算机图形、AR/VR等领域具有许多应用。任务是将单个图像[24，29，40]或视频序列[25，27，35]作为输入，并回归人体模型（如SMPL [33]）的参数作为输出。在深度CNN的支持下，这项任务取得了快速进展[24，27，29，40]。然而，在完全处于野外的环境中，人们经常由于自重叠的身体部位、由于与其他人的近距离交互或由于遮挡对象（诸如家具或其他场景内容）而出现在遮挡下。虽然在文献[8，9，14，19，42，43，53，54，59]中已经处理了遮挡下的姿态估计，但我们强调，这个问题在直接回归方法的背景下特别重要。这样的方法使用输入中的所有像素来预测单组姿态和形状参数。因此，它们的姿态估计对身体及其部分的观测中的甚至小扰动特别敏感。在本文中，我们应用可视化技术[58]进行遮挡敏感性分析，从而了解何时1112712平均3D关节误差（mm）11128以及这些方法失败的原因这表明，对于最先进的（SOTA）方法，相对较小的遮挡，甚至只有一个关节，可以导致完全不可信的姿态预测。这示于图1，其中我们在图像上滑动遮挡器，回归身体姿势，并计算相对于地面实况的平均3D关节误差。图中的热图。图1（d，g）示出了方法对以每个像素位置（以白色示出）为中心的正方形遮挡物的灵敏度。可视化显示像SPIN这样[40]对局部闭塞高度敏感。为了解决这个问题，我们提出了一种方法，基于一种新的部分引导的注意力机制，使直接回归方法更强大的遮挡。所提出的方法被称为部分注意寄存器（PARE）。它有两个任务：主要任务是学习以端到端的方式回归3D身体参数，辅助任务是学习每个身体部位的注意力权重。每个任务都有自己的像素对齐特征提取分支。我们在训练的早期阶段用部分分割标签引导注意分支，并在后期阶段不使用它们继续，因此我们称之为身体部分驱动的注意。我们的主要观点是，为了对遮挡具有鲁棒性，网络应该利用可见部分的像素对齐图像特征来推理遮挡部分。鉴于基于注意力的方法在其他任务上的成功[11，18，34，55]，我们利用从遮挡敏感性分析中获得的见解将注意力集中在身体部位上。因此，我们用部分分割来监督注意力掩模，但然后仅用姿势监督来训练端到端，从而允许注意力机制利用来自身体和周围像素的所有有用信息。这使得网络可以自由地以无监督的方式关注它发现的信息区域。因此，PARE学习依赖于身体的可见部分，以提高对遮挡部分的鲁棒性和3D姿态估计的整体性能（图13）。1 e-f）。为了定量评估PARE的性能，我们对3DPW [52]，3DOH [59]和3DPW-OCC [52]数据集进行了实验。结果表明，PARE产生的误差始终低于国家的最先进的闭塞和非闭塞的情况下。总而言之，我们的主要贡献是：（1）我们应用可视化技术[58]来研究局部遮挡如何影响全局姿态;我们称之为遮挡敏感性分析。(2)该分析激发了用于3D HPS回归的新颖的身体部位驱动的注意力框架，其利用像素对准的局部特征来回归身体姿势和形状。(3)该网络使用部分可见性线索的原因，通过聚集来自关注区域的功能，闭塞关节，并通过这样做，实现了鲁棒性闭塞。(4)我们实现SOTA结果的3D姿态估计基准具有闭塞的机构，以及一个标准的基准。2. 相关工作我们专注于3D人体形状和姿态估计从RGB图像和讨论如何以前的方法处理各种情况下的遮挡，例如。自遮挡、相机帧遮挡和场景对象遮挡。3D姿势和形状从一个单一的图像。在估计人体形状和姿势时，许多方法输出3D人体模型的参数[3，33，39]。初始工作使用关键点和剪影[1，4，5，15，46]预测3D身体。这些方法是脆弱的，需要手动输入，使用额外的数据，例如多视图图像，或者不能很好地推广到野外图像。 SMPLify[7]是第一个将SMPL模型拟合到2D关键点检测器输出的自动化方法[41]。 Lassner等人[31]在拟合过程中使用轮廓和关键点。相比之下，深度神经网络直接从像素回归SMPL参数[16，24，38，40，50，51]。为了处理野外3D地面实况的缺乏，方法使用2D关键点重新投影损失作为弱超视[24，50，51]，使用中间2D表示，例如，身体/部位分割[38，40，57]，2D稀疏关键点[45，57]，或在循环中利用人[31]。请注意，[31，38，57]中部分分割的使用与我们的方法非常不同，其中部分分割用于促进软注意。Kolotouros等人[29]在训练循环中组合HMR [24]和SMPLify [7]。在每一步中，HMR都会初始化SMPLify，SMPLify将身体模型拟合到2D关节，从而更好地监督网络。上述方法通常对阻塞敏感。隐式遮挡处理（数据扩充）。理想地，回归的3D身体应该是相同的，具有或不具有遮挡。当前的SOTA姿势和形状估计方法[24，27，29]在全局平均池化之后直接将整个输入缺乏像素对齐的结构使得网络很难明确地推理身体部位的位置和可见性。在这些框架中实现对遮挡的鲁棒性的常见方式是通过数据增强。例如，帧遮挡通常通过裁剪来模拟[6，23，43]，而对象遮挡通过在图像上覆盖对象块来近似[13，44]。代替将增强应用于输入图像，Cheng et al.[8]将增强应用于包含更丰富语义信息的热图，因此可以以更智能的方式模拟遮挡虽然有帮助，但是这些合成遮挡没有完全捕获真实图像中遮挡的复杂性，它们也没有提供对如何改进网络架构以固有地对遮挡更鲁棒的洞察显式遮挡处理。为了更明确地推理遮挡，以前的工作利用可见性信息。例如，Cheng等人。[9]在训练期间计算损失时避免包括闭塞关节这样的访问-11129××右脚踝右膝右髋左髋左膝左脚踝右手腕最小值：43.5 -最大值：94.3最小值：35.2 -最大值：74.0最小值：5.9 -最大值：34.3最小值：5.9 -最大值：33.6最小值：26.5 -最大值：48.9最小值：142.3 -最大值：190.6最小值：17.1 -最大值：202.6右肘最小值：107.4-最大值：206.9右肩最小值：62.8-最大值：103.0左肩最小值：93.4-最大值：159.0左肘最小值：83.9-最大值：298.1左手腕最小值：102.9-最大值：348.1脖子最小值：79.4-最大值：129.0头最小值：94.2 -最大值：161.7图2：闭塞敏感性分析。热图说明了由放置在每个图像位置的封堵器引起的单个关节中的SPIN [ 29 ]误差。图像大小：224 224;遮挡补片：40 40 每个热图的标题命名了关节，并注明了热图中可视化的3D误差范围（单位：mm）。分析见第3通过将人体近似为一组圆柱体来获得能力信息，这是不现实的并且仅处理自遮挡。Wang等人。[54]学习在2D关键点序列上应用时间卷积人-人闭塞特别常见且具有挑战性。对于多人回归，Jiang et al.[21]使用穿透损失来避免碰撞，使用顺序损失来解决深度模糊。Sun等人。[56]同时估计图像中的所有人，使他们的方法能够了解人与人之间的遮挡。虽然[56]学习对人与人之间的遮挡鲁棒的特征，但PARE学习将注意力集中在单个身体部位上。Zhang等人[59]利用显著性掩模作为可见性信息以获得对场景/对象遮挡的鲁棒性。人体网格参数化的UV地图，其中每个像素存储的3D位置的顶点，和闭塞作为一个图像修复问题。精确显著图的要求限制了野外图像的性能。此外，UV坐标可导致网格伪影，如Sup.Mat.3. 闭塞敏感性分析为了从输入图像区域I提取特征，当前的直接回归方法[24，29]使用ResNet-50 [17]主干，并在全局平均池化（GAP）之后获取特征，然后是迭代地回归和细化参数的MLP。在本节中，我们将研究遮挡对这种类型的体系结构的影响。我们的分析灵感来自Zeiler等人。[58]他们用灰色方块系统地覆盖图像的不同部分，以分析特征图和分类器输出如何变化。相比之下，我们在图像上滑动灰色遮挡补丁，并使用SPIN [29]回归身体姿势。而不是像[58]中那样计算分类得分，我们测量每个15020010015050mm100毫米(a)左肘(b)右脚踝图3：SPIN的遮挡敏感度网格[29]。地面实况和预测关节之间的联合欧几里得距离我们创建了一个误差热图，其中每个像素表示当遮挡物位于该像素的中心时，模型为关节j创建了多少误差除了每个关节的热图之外，我们还计算了一个聚合遮挡敏感度图，该图显示了平均关节误差如何受到遮挡的影响;这在图1中可视化1（d）和更详细的Mat.SPIN的每关节误差热图在图1B中可视化。2对于来自3DPW数据集的样本图像[52]。每个子图像对应于特定的关节，并且热区是遮挡导致该关节中的高误差的位置。这种可视化使我们能够进行几次观察。(1)错误在背景中很低，在身体上很高。这表明SPIN已经学会了关注有意义的区域。(2)如预期的那样，原始图像中可见的关节在被正方形遮挡时具有高误差。（3）对于自然被遮挡的关节，网络依赖于其他区域来推理被遮挡的姿势。例如，在图1的顶行中。2，当我们遮挡大腿区域时，我们观察到左/右脚踝（被遮挡）的高误差。由于网络没有被遮挡部分的图像特征，因此它必须寻找其他地方-图像中的证据。(4)这种依赖性不仅发生在相邻部分之间;阻塞可具有长范围的影响（例如，闭塞骨盆导致头部错误我们进一步在热图上叠加估计的尸体11130∈∈JM∈M∈∈∈∈Σ∈∈⊙×∈∈图4：PARE模型架构。给定输入图像，PARE提取两个像素级特征P和F，它们通过部分注意力（绿框）融合，得到用于相机和SMPL身体回归的最终特征F’。以将每像素误差传递到可见顶点。我们在完整的3DPW数据集上运行该分析，汇集数据集上的每顶点误差，并在SMPL身体模型上可视化结果，每个关节给出一个遮挡敏感度网格例如图图3（a）示出左肘对面部、左肩和左上臂区域的遮挡敏感。参见Sup。Mat.更多的例子。4. 方法鉴于上述意见，价调汇率的设计考虑到以下几点。首先，如图所示2，SOTA网络[24，27，29]学习隐式地关注有意义的区域，尽管在全局平均池化之后空间信息有限。为了更好地理解身体部位是否可见，以及了解它们的位置是否被遮挡，PARE利用像素对齐结构，其中每个像素对应于图像中的区域并存储像素级表示，即特征体积。其次，由于估计注意力权重和学习3D姿态的端到端可训练特征是两个不同的任务，所以PARE配备有两个特征量：一个来自估计注意力权重的2D部分分支，一个来自执行SMPL参数回归的3D身体分支。最后，为了对上面观察到的身体部位依赖性进行建模，PARE利用部位分割作为软注意力掩模来针对每个关节不同地调整3D身体分支中的每个特征的贡献。准备工作：身体模型。SMPL [33]通过Θ表示身体姿势和形状，其由姿势θR72和形状βR10参数组成。在这里，我们使用性别中立的形状模型，如在以前的工作[24，29]。给定这些参数，SMPL模型是一个可微函数，输出一个设定的3D网格（θ，β）R6890×3。3D关节位置3D=WRJ×3，J=24是用预训练的线性回归量W计算的。4.1. 模型架构和损失PARE的总体框架如图2所示。4.第一章我们的架构工作原理如下：给定图像I，我们首先运行CNN主干以提取体积特征，例如在ResNet-50的全局平均池化层之前，接着是两个单独的特征提取分支以获得两个体积图像特征。我们将2D部件分支表示为PRH×W×（J+1），建模J部分注意力和1个背景掩模，其中H和W是高度和特征体积的宽度，并且每个像素（h，w）存储属于身体部分j的可能性。另一个分支，用FRH×W×C表示，用于3D物体参数估计它具有相同的空间维度H W与P相同，但通道数不同，C。设P jRH×W和F cRH×W分别表示P和F的第j个和第c个通道，并让F′RJ×C表示最终的特征张量。经空间softmax归一化σ后，Fc中的每个元素根据Pj中的相应元素按比例贡献于F ′。例如，F’中位置（j，c）处的元素计算为：Fj′，c=σ（Pj）⊙Fc，（1）h，w哪里是阿达玛积。换句话说我们使用σ（Pj）作为软注意力掩模来聚合特征在Fc中。该操作可以被有效地实现为类似于现有注意力实现的点积F′=σ（P~）F~，其中P~RHW×J和F~RHW×Cde注意重新整形的P（省略背景遮罩）和F分别这种注意力操作表明，如果特定像素具有较高的注意力权重，则其对应的特征对最终表示F’的贡献更大。我们用地面实况分割标签来监督2D部件分支P，这有助于可见部件的注意力图然而，对于被遮挡的部分，这鼓励所有像素的注意力权重为0CNN骨干SMPL三维实体分支部件注意事项二维零件分支convconv...11131∈FF2Σ。×LLJM联系我们J∈J∈J××××× ×××PHW×因为它们不存在于地面实况分割标签中。所有权重都为0的注意力图是不可取的，并且在实践中也是不可能的，因为空间softmax确保所有元素的总和为1。因此，我们采用一种混合方法，仅在初始阶段监督2D零件分支，并在没有任何监督的情况下继续训练。这允许网络关注其他区域以估计被遮挡关节的姿态。我们采用全特征张量F’来回归身体形状β和具有缩放和平移参数[s，t]的弱透视相机模型，而每行F j’也被发送到不同的MLP以预测每个部分的旋转θj，其被参数化为跟随翼的6D矢量[27，29]1。总的来说，我们的损失是：L=λ3DL3D+λ2DL2D+λSMPLLSMPL+λPLP，（2）其中每一项计算为：L3D=J3D−J3D2，L2D=J2D−J2D2，13011090(a)自旋70毫米(b)PARE图5：遮挡敏感度网格。网格可视化（a）SPIN和（b）PARE平均关节误差。每个关节的4003002001000脚踝膝关节髋关节腕关节肘关节肩关节头图6：三种不同方法的每关节闭塞灵敏度分析：SPIN[29]、HMR-EFT [23]（使用闭塞增强训练）和PARE。PARE始终对闭塞更稳健。LSMPL=θ−Θθ ε2，L=1交叉熵σ（Ph，wh，w），Ph，wΣ，归零允许注意力机制也考虑身体本身之外的像素。因此，最终的注意力地图不一定（通常也不）与身体部位其中x表示对应变量x的基础真值。为了计算2D关键点损失，我们需要SMPL 3D关节位置3D（θ，β）=W（θ，β），其是利用预先训练的线性回归量W从身体顶点计算的。利用推断的弱透视相机，我们计算3D关节3D的2D投影，如2DRJ×2=sΠ（R3D）+t，其中RSO（3）是相机旋转矩阵，Π是正交投影。λ是用于平衡损失项的标量系数。设Ph，w∈R1×1×（J+1）表示P在（h，w），Ph，w0，1（J+1）表示地面真值同一位置的零件标签，表示为one-hot vec托尔部分分割损失P是softmax之后的Ph，w与HW元素上平均的Ph，w，a请注意，此softmax沿光纤进行Ph，w，而Eq. 1在切片Pj上归一化。4.2. 实现细节如上所述，经由P的身体部位标签监督仅在训练的初始阶段应用于注意力张量P它随后通过将λP设置为零而被移除，将注意力机制转变为无监督的纯软注意力。由于遮挡而导致的身体部位的缺失是该训练方案的主要动机。设置λP1稍微滥用符号，θ在传递到SMPL模型时是轴角形式，但在回归和损失计算期间是6D向量形式。分割，如图稍后所示。7、Sup Mat. 如果一个身体部位是可见的，它会直接聚焦在那个部位上;如果它被遮挡，则注意力可以自由地利用图像中的其它信息区域。节中5、分析了分割精度对人体重建的影响我们评估了ResNet-50 [17]和HRNet-W32 [48]网络作为骨干。由于ResNet-50广泛用于其他SOTA方法[24，27，29]，除非另有说明，否则我们选择它作为大多数实验的默认主干。我们提取了7 7 2048个特征体积，全球平均池。对于2D和3D分支，我们使用3个2上采样，然后是3个3卷积层，应用了batch-norm和ReLU。卷积核的数量是256。对于HRNet-W32，由于它已经提供了具有更高分辨率的体积特征，因此我们仅使用两个3 ×3卷积层，并将批范数和ReLU应用为2D和3D分支。为了获得部件注意力图，我们将J +111卷积核应用于2D部件特征以降低通道维度。在获得J C最终特征F’之后，我们使用单独的线性层来预测每个SMPL关节旋转θj。我们从平坦化的F’向量中回归形状和相机参数。对于所有实验，我们使用224 224的固定图像大小Adam优化器的学习率为5 10−5，批量大小为64，用于优化我们的模型。PARE在单阶段中是端到端可训练的，不像最近的多阶段方法[10，16，37，57]。PAREFTSPINHMR-E平均关节误差（mm）111323DPWPA-MPJPE↓MPJPE3DPW-OCC3DOH方法HMMR [24]Doersch等人[12]Sun et al.[27]第二十九话：MEVA [35]Pose2Mesh [10]Zanfir等人。[37]第37话学习GD [47]HMR [24]CMR [30]PVE↓---一百一十三点四------方法Zhang等人[59个][29]第二十九话HMR-EFT [23]价调汇率（R50）90.556.6107.9 63.344.3表2：对闭塞数据集3DPW-OCC、3DOH的评价。这里，除了SPIN之外的所有方法都是用相同的数据集训练的，即COCO、Human3.6M和3DOH。[29]第二十九话HMR-EFT [23]价调汇率（R50）PARE（HRNet-W32）PARE（HRNet-W32）w.3DPW135.1-99.797.988.6方法.我们报告了具有两种不同主链的PARE结果：ResNet-50和HRNet-W32。与HMR-EFT [ 23 ]相比，PARE将PA-MPJPE性能提高了10%，HMR-EFT [23]是最近表现最好的方法之一。表1：对3DPW数据集的评价。平均关节和顶点误差的单位为mm。PARE模型优于时间、多阶段和单阶段最先进的方法。5. 实验训练我们在COCO上训练PARE[32]， MPII[2]，LSPET[22]、MPI-INF-3DHP[36]和Human3.6M[20]数据集。有关这些数据集的更多详细信息，请参见Sup.Mat. EFT [23]提供了野外数据集的伪真实SMPL注释。通过渲染分割的SMPL网格获得部分分割标签，如图1所示4.第一章我们使用24个零件对应24个SMPL接头。参见Sup。Mat.用于零件分割标签的样本。我们使用神经网格渲染器[26]的PyTorch重新实现[28]来渲染这些部分。对于没有部件分割标签的样本，我们不监督2D分支。对于消融实验，我们在COCO上训练PARE和我们的基线175 K步，并在3DPW和3DPW-OCC数据集上进行评估。然后，我们将所有的训练- ING数据比较PARE以前的SOTA方法。这种预训练策略加速了收敛并减少了总体训练时间。在Nvidia RTX2080Ti GPU上训练PARE直到收敛为了增加对遮挡的鲁棒性，我们使用常见的遮挡增强技术 ; 即合成遮挡（ SynthOcc ） [44] 和随机裁剪（RandCrop）[23，43]。所有PARE和基线HMR-EFT模型都用SynthOcc增强训练，除非另有说明，例如表4.评价使用3DPW [52]测试分割、3DPW-OCC [52，59]和3DOH [59]数据集进行评价。我们报告了以mm为单位的Procrustes对齐的平均每个关节位置误差（PA-MPJPE）和平均每个关节位置误差（MPJPE）。对于3DPW，我们还以mm为单位报告每顶点误差（PVE）。与最先进的技术相比。表1将PARE与先前的单RGB图像HPS估计进行比较76.770.259.254.2130.0-96.9-58.957.158.656.489.290.093.2-72.674.769.556.554.7116.5--93.586.952.350.946.582.982.074.5多级单级时间11133表2展示了PARE在闭塞特定数据集上的性能。这里Zhang et al.[59]、HMR-EFT [23]和PARE用COCO、Human3.6M和3DOH训练以进行公平比较。我们报告了SPIN的结果以供参考。HMR-EFT是SPIN的合理替代方案，因为SPIN使用HMR作为架构。PARE一致地提高了这些遮挡数据集的性能。虽然HMR-EFT是用与PARE完全相同的增强和数据训练的，但它的性能更差。我们还量化了我们的遮挡敏感性分析。图5显示了SPIN和PARE方法在3DPW测试分割上的平均联合误差SPIN对上半身的遮挡非常敏感，尤其是头部和背部.PARE对遮挡更鲁棒，并且总体上产生更低的误差。参见Sup。Mat.对于图1的每关节版本。五、图6显示了三种不同方法SPIN、HMR-EFT和PARE的遮挡敏感性分析的平均3D误差的每个关节细分在这里，我们使用SynthOcc重新训练HMR-EFT以进行公平比较。同样，PARE提高了所有关节的遮挡鲁棒性。定性比较。我们定性地比较了图1中的SPIN、HMR-EFT和PARE。8.即使遮挡增强提高了对遮挡的鲁棒性，如在HMR-EFT结果中所看到的，但其本身是不够的具有其注意力机制的PARE即使在挑战性闭塞场景中也表现良好。更多定性样本（包括失效案例）见附录。Mat.部分注意力有帮助吗表3总结了我们探索部分注意概念的消融实验。首先，我们将我们的结果与神经身体拟合[38 ]进行比较，这些神经身体拟合[ 38]使用与我们相同的设置进行训练。NBF [38]可以被视为部分分割和人体回归的直接组合。表3显示NBF的两阶段方法甚至优于HMR-EFT基线。随后，我们比较了2D零件分支P的不同类型的监督和采样方法，以从F获得最终特征F′。受HoloPose [16]的启发，我们首先用关键点监督2D分支，并通过bilin池3D特征11134(a) 输入图像臀部左膝右膝左踝右踝颈部左肩(b) PARE结果右肩左臂右臂左肘右肘左手右手图7：PARE注意力可视化。由2D部件分支针对图像（a）中的不同关节预测的注意力图。对于像第2行右手这样的被遮挡关节，PARE学会关注更大、更远的区域以收集信息。方法3DPW3DPW-OCCMPJPEPA-MPJPE↓MPJPEPA-MPJPE↓HMR-EFT + SynthOcc99.059.997.964.7PARE95.057.694.461.3PARE + SynthOcc94.557.394.761.2PARE + SynthOcc + RandCrop95.758.197.862.6表3：探索部分注意力。The ““所有方法都在具有ResNet-50主干的COCO-EFT上训练耳朵取样（表3-a）。尽管这给出了比HMR更低的直观地，稀疏关键点不覆盖足够的空间区域以能够推断身体部位。因为2D分支预测高斯热图，其覆盖比离散关键点更大的空间区域，所以我们探索软注意力而不是池化以具有更大的有效感受野（表3-b）。然而，在这样做的时候，我们并没有充分利用软注意力的潜力，软注意力可以从数据中隐式地学习哪些区域需要注意。因此，我们删除了对2D分支的监督，看看单独的软注意是否可以像显式监督一样工作（表3-c）。在可视化结果注意力地图时，我们发现它们并不集中在身体部位上。为了诱导更多的结构，我们用部分分割标签监督2D分支（表3-d）。这种方法的效果明显好于上述尝试。然而，还有一个警告：通过使用分割损失进行监督，我们将注意力图仅约束到部分，而纯软注意力具有关注其发现有信息的任何区域的潜力。因此，我们使用混合监督进行训练，将部分分割损失应用于大约125 K步，然后继续在没有监督的情况下进行训练（表3-e）。最终版本产生表4：不同闭塞增强策略的消融。我们演示了合成遮挡（SynthOcc）和随机裁剪（RandCrop）增强对最终性能的影响。所有方法都是在COCO-EFT上训练的，以ResNet-50为主干。3DPW3DPW-OCC方法MPJPEPA-MPJPE↓MPJPEPA-MPJPE↓HMR-EFTPAREResNet-50ResNet-5099.093.459.957.197.993.964.761.6HMR-EFTPAREHRNet-W32HRNet-W3292.689.055.954.390.287.157.857.0表5：主干架构的消融。所有方法都在COCO-EFT上训练。“两全其美”和最低的错误。我们还进行了部分分割和合并的实验，以探索软注意的效果（表3-f）。最后，为了证明统计学显著性，我们对表3中的所有实验进行了双侧t检验;特别是p0.01的行(c) 与（d）、（d）与（e）和（b）与（d）。除了关节误差，我们还测量了平均部分分割IoU（交集），以更好地理解当我们不使用部分监督时，部分分割和最终姿势和形状对于（c）unsup，3DPW测试集上的平均IoU为1%、85%、74%(d) parts和（e）parts/unsup方法。较低的分割精度不会损害身体重建。我们提供了进一步的身体部位分割结果在不同阶段的培训在Sup。Mat.图7在示例图像上显示了这些注意力地图。部分注意力学习根据需要关注身体部位或图像区域以估计身体形状和姿势。阻塞增强。我们报告了occlu的效果-方法3DPW3DPW-OCCMPJPEPA-MPJPE↓MPJPEPA-MPJPE↓NBF [38]100.463.2103.570.4HMR-EFT99.059.997.964.7P监管F采样(a)关节池化95.258.995.463.1(b)关节关注95.358.898.963.9(c)温苏普关注94.857.995.962.7(d)部分关注94.557.394.761.2(e)部件/未供应关注93.457.193.961.6(f)部分池化97.959.199.864.811135(a) SPIN（b）HMR-EFT（c）PARE（a）SPIN（b）HMR-EFT（c）PARE图8：COCO（第1-4行）和3DPW（第5-6行）数据集的定性结果。从左至右：输入图像，（a）SPIN [29]结果，（b）HMR-EFT [23]结果，（c）PARE结果。表4中的松解增强技术。与普通训练相比，SynthOcc提高了 3DPW 和 3DPW-OCC 的性能在训练开始时应用RandCrop会损害性能。因此，我们在175K训练步骤后开始应用裁剪增强。边界框的30%-50%以0.3的概率被裁剪。即使裁剪增强没有提高3DPW和3DPW-OCC的性能，我们发现它对真正的野外图像很有用，这些图像通常包含显著的帧遮挡。参见Sup。Mat. 更多的例子。CNN主干的影响。如表5所示，产生有效的高分辨率表示的HRNet-W32比ResNet-50表现更好PARE相对于具有两种主链的HMR-EFT提供了持续的改进6. 结论我们提出了一种新的部分注意力回归器，PARE，它通过利用关于个体身体部位的可见性的信息来从而获得对遮挡的鲁棒性PARE是基于从我们的遮挡敏感性分析中收集到的见解特别是，我们观察到身体部位之间的依赖关系，并认为网络应该依赖于可见的部分，以改善对遮挡部分的预测，因此，3D姿态估计的整体性能。我们的新的身体部位驱动的注意力机制捕获这样的依赖性，使用由回归的身体部位分割掩模引导的软注意力该网络学习使用零件分割作为可见性线索，以推理遮挡关节和来自关注区域的聚合特征。这提高了对不同类型闭塞的鲁棒性：场景、自身和帧遮挡。详细的消融研究显示了每种选择如何有助于我们在基准数据集上的最新性能。11136引用[1] Ankur Agarwal和Bill Triggs。从单目图像恢复3D人体IEEE Transaction on Pattern Analysis and MachineIntelligence，28（1）：44-58，2006。2[2] Mykhaylo Andriluka，Leonid Pishchulin，Peter Gehler，and Bernt Schiele. 2D人体姿态估计：新的基准和最先进的分析。在IEEE计算机视觉和模式识别会议上，2014年。6[3] Dragomir Anguelov 、 Praveen Srinivasan 、 DaphneKoller、Se- bastian Thrun、Jim Rodgers和James Davis。Scape：人物的形状完成和动画。SIGGRAPH，2005年。2[4] Alexandru Balan和Michael J Black。赤裸裸的事实：在衣服下估计自己的体形.2008年欧洲计算机视觉会议。2[5] Alexandru O Balan ， Leonid Sigal ， Michael J Black ，James E Davis，and Horst W Haussecker.从图像中获得详细的人体形状和姿势。IEEE计算机视觉与模式识别会议。IEEE，2007年。2[6] 本杰明·比格斯、大卫·诺沃特尼、塞巴斯蒂安·埃尔哈特、韩宝、本·格雷厄姆和安德烈·维达尔迪。三维多体：将合理的3d人体模型组拟合到模糊的图像数据。在神经信息处理的进展，2020年。2[7] Federica Bogo、Angjoo Kanazawa、Christoph Lassner、Peter Gehler、Javier Romero和Michael J.黑色. SMPL：从单个图像自动估计3D人体姿势和形状。2016年欧洲计算机视觉会议。2[8] Yu Cheng，Bo Yang，Bo Wang，and Robby T Tan.使用具有显式遮挡训练的时空网络进行3d人体姿态估计arXiv预印本arXiv：2004.11822，2020。一、二[9] Yu Cheng，Bo Yang，Bo Wang，Wending Yan，andRobby T Tan.用于视频中3d人体姿态估计的遮挡感知网络。在国际计算机视觉会议上，第723-732页，2019年。一、二[10] Hongsuk Choi，Gyeongsik Moon，and Kyoung Mu Lee.Pose2Mesh：用于3D人体姿势和从2D人体姿势恢复网格的图形卷积网络。在欧洲计算机视觉会议上，第769五、六[11] Vasileios Choutas、Georgios Pavlakos、Timo Bolkart、Dimitrios Tzionas和Michael J.黑色.通过身体驱动注意力的单眼表达性身体回归。在欧洲计算机视觉会议上，第20-40页2[12] Carl Doersch和Andrew Zisserman。用于3D姿态估计的Sim2real迁移学习：请求救援在神经信息处理的进展，2019。6[13] Georgios Georgakis ， Ren Li ， Srikrishna Karanam ，Terrence Chen，Jana Kosecka，and Ziyan Wu.分层运动人体网格恢复。2020年欧洲计算机视觉会议。2[14] Golnaz Ghiasi，Yi Yang，Deva Ramanan，and CharlessC Fowlkes.解析闭塞的人。IEEE计算机视觉与模式识别会议，2014年。1[15] 克里斯汀·格劳曼，格雷戈里·沙赫纳洛维奇，和特雷弗·达雷尔. 利用基于统计图像的形状模型在 International Conference on Computer Vi-sion，第641-648页，2003中。2[16] Riza Alp Guler和Iasonas Kokkinos。HoloPose：野外整体3D人体重建。在IEEE计算机视觉和模式识别会议上，第10884二、五、六[17] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.深度剩余网络中的身份映射。2016年欧洲计算机视觉会议。三、五[18] Yihui He，Rui Yan，Katerina Fragkiadaki，and Shoou-IYu.对极变压器。在IEEE计算机视觉和模式识别会议上，第7779-7788页，2020年。2[19] 黄家斌，杨明轩。从被遮挡图像估计人体姿态。2009年亚洲计算机视觉会议，第48-60页。1[20] Catalin Ionescu ， Dragos Papava ， Vlad Olaru ， andCristian Sminchisescu. Human3.6M：大规模数据集和预测方法，用于自然环境中的 3D 人体感知在 IEEETransactiononPatternAnalysisandMachineInteligence，2014中。6[21] Wen Jiang ， Nikos Kolotouros ， Georgios Pavlakos ，Xiaowei Zhou，and Kostas Daniilidis.从单个图像相干重建多个人。在IEEE计算机视觉和模式识别会议上，2020。3[22] 山姆·约翰逊和马克·埃弗林汉姆从不准确的注释中学习有效的人体姿态估计。IEEE计算机视觉与模式识别会议，2011年。6[23] Hanbyul Joo，Natalia Neverova，and Andrea Vedaldi.针对 3D 人体姿势拟合的示例性微调朝向 arXiv ：2004.03686，2020。二五六八[24] 作者：Michael J.作者：David W.雅各布斯和吉坦德拉·马利克端到端恢复人体形状和姿势。在IEEE计算机视觉和模式识别会议上，第7122-7131页，2018年。一、二、三、四、五、六[25] 作者：Jason Y.张，潘纳·费尔森，和吉滕德拉·马利克.从视频中学习3D人体动力学。在IEEE计算机视觉和模式识别会议上，第5614-5623页，2019年。1[26] Hiroharu Kato、Yoshitaka Ushiku和Tatsuya Harada。神经三维网格渲染。在IEEE计算机视觉和模式识别会议上，2018年。6[27] Muhammed Kocabas、Nikos Athanasiou和Mic

下载后可阅读完整内容，剩余1页未读，立即下载