消除姿势回归偏差的方法

123 浏览量更新于2023-10-14 收藏 13.39MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Ω1Ω2Ω3Ω4110670消除积分姿势回归的偏差0Kerui Gu 1 Linlin Yang 1 , 2 Angela Yao 101 新加坡国立大学，新加坡 2波恩大学，德国0{ keruigu, yangll, ayao } @comp.nus.edu.sg0摘要0尽管回归更直观，但基于热图的检测方法在2D人体姿势估计中占主导地位。积分回归方法的引入使得这两种方法更加接近。这引发了一个问题-检测是否真的优于回归？在本文中，我们研究了基于热图的检测和积分回归之间的监督差异，因为这是两种方法之间的关键差异。在这个过程中，我们发现了积分姿势回归中的一个潜在偏差，这是由于在softmax函数之后进行期望操作引起的。为了抵消这种偏差，我们提出了一种补偿方法，发现它可以提高所有2D姿势估计基准上的积分回归准确性。我们进一步提出了一种简单的组合检测和补偿回归方法，它在几个组件的基础上明显优于最先进的基线。01. 引言0姿势估计旨在确定关节的空间位置，如人体或手部。乍一看，这个问题似乎应该是一个直接的回归问题。然而，直接回归关节坐标的方法[4，29，25]比通过估计概率热图定位关节的方法[24，8，36，28]效果差。其原因在于使用热图可以使架构保持完全卷积，从而在编码和解码过程中保留空间结构。作为标签，热图方法使用以地面真实关节坐标为中心的高斯函数。这种形式将姿势估计转化为检测问题；网络的任务是在每个像素上预测该像素是关节像素的概率。标准方法是使用argmax函数将输出热图解码为关节坐标。0β = 10β = 50β = 80β = 10β = 50β = 80β = 10β = 50β = 80图1.积分回归偏差的示意图，将隐式热图与预测的关节位置叠加在一起，白色方框表示预测位置。偏差，即热图模式与预测位置之间的差异，随着模式远离中心和β值减小而增加。只有当热图模式居中时才没有偏差。本文提出了一种通过将热图划分为单独的区域（Ω1到Ω4，见左上热图）来补偿偏差的方法，以确保热图模式居中。0关节坐标。argmax函数有两个关键缺点：它不可微分，并且将估计的坐标分辨率固定为热图本身的分辨率。尽管存在这些缺点，基于检测的方法[1]在人体姿势估计方面非常有效，并取得了最先进的结果[24，8，36，28]。解码的另一种形式是将softmax与期望一起使用[14，29，25，21]。两种方法都使用了软-01在文献中使用的命名约定在这个讨论的背景下可能会令人困惑，因为基于检测的方法通常被称为间接回归或热图回归[2，14，40]。110680max和期望函数是可微分的。因此，可以直接从地面真实关节坐标进行端到端训练，同时保留完全卷积架构的优势。这种方法在手部姿势估计文献中被称为潜热图回归[14]，在身体姿势估计文献中被称为积分姿势估计[29]。Sun等人[29]对积分姿势回归与基于检测的热图进行了比较，得出积分回归在2D姿势估计方面要么与基于检测的热图竞争力相当，要么更好。然而，结果可能不是完全确凿的，因为[29]在与现有的基于检测的方法进行比较时使用了独特的积分回归骨干。鉴于基于检测的方法仍然主导着最先进的技术，这引发了对问题的重新思考。对于2D姿势估计来说，基于热图的检测和积分回归哪个更好？比较这两种方法时的一个关键差异是，积分回归方法的收敛速度比基于热图的检测要慢。[29，40]提出，检测中的显式热图标签提供了比积分回归的关节坐标更密集的监督形式。作为本文的主要贡献，我们展示了慢收敛可能也是积分回归中引起偏差的结果。具体而言，softmax与期望的组合使得热图与真实坐标位置的对齐发生偏移。这反过来限制了神经网络的有效学习能力。通过补偿偏差，我们改善了积分回归方法的学习和性能。在我们的性能比较中，我们受到[27]的启发，深入研究了当前基准测试中存在的变化因素。为此，我们超越了目前报告单个（平均）AP和PCK值的标准，将不同因素分开。令人惊讶的是，我们发现在姿势估计的“困难”情况下，即较小的尺寸，较少的关节或更多的遮挡，积分回归优于基于热图的检测。然而，由于困难情况构成了数据集的尾部，这些效果被掩盖了。最后，为了保留基于检测的热图和积分回归的优势，我们提出了一种组合学习框架。具体而言，我们将偏差补偿纳入积分回归的端到端学习中，同时在初始训练时利用基于检测的损失来利用密集监督。总结我们的贡献，0•我们通过推导展示了积分姿势回归中以前未观察到的偏差，该偏差是由softmax和期望操作的组合引起的。0•我们提出了一种简单的补偿方案来抵消这种偏差，可以提高积分回归方法的训练和性能。0•我们分析了基于检测和回归的人体姿势估计方法在不同变化因素下的性能差异。在关节较少、遮挡较多和分辨率较低的“困难”情况下，回归方法的性能更好。0•我们提出了一种偏差补偿的联合框架，用于检测和回归，既能快速收敛，又能在困难情况下保持高性能。我们的新框架在MSCOCO和MPII的2D人体姿势估计以及RHD的2D和3D手部姿势估计方面取得了最先进的结果。02. 相关工作0基于回归的方法。经典方法[34,4]使用CNN提取特征并直接预测关节位置，使用全连接层。不久之后，提出了积分姿势回归[29]；它可以利用完全卷积架构进行端到端的关节坐标训练。积分采用期望的软最大值形式，并且在之前的工作中也被使用[16, 39,30]。虽然有大量的基于检测的方法，但只有两个最近的工作[21,25]采用了积分回归方法。[21]将上下文信息与回归损失相结合，而[25]在顶部提出了方差或分布惩罚。基于检测的方法。自从热图表示在[33]中被引入以来，基于热图的检测方法[11, 35, 18, 6, 9, 38, 37, 20,7]主导了人体姿势估计。一个著名的例子是Hourglass网络[24]，它将编码器-解码器模块与跳跃连接堆叠在一起，逐步估计和改进关节热图。最近，Simple Baseline(SBL)[36]通过添加几个反卷积层提出了一个简单但有效的基准。HRNet[28]通过更高分辨率的框架提高了性能。其他工作[23]在HRNet之上添加了额外的模块，通过考虑神经进化来提高性能。与上述所有工作不同，我们的动机不是为了开发一种新的人体姿势估计架构。相反，我们研究了基于回归的人体姿势估计的潜在缺陷，并表明可能的原因是将softmax与期望相结合时存在偏差。我们的工作类似于DARK[40]和UDP[13]，它们是为基于检测的姿势估计设计的，并分别解决了量化误差和有偏数据处理的问题。03. 姿势估计基础知识0我们考虑自上而下的方法，其中已经裁剪好的人物图像I被提供。2D身体姿势估计的目标是预测K个身体关节的2D坐标J∈ RK×2。2D姿势的标准110690姿势估计的一种常见方法是使用编码器-解码器框架。编码器通过一系列卷积层将图像降低到低分辨率的特征图；解码器逐渐将特征图上采样到最终输出H ∈Rh×w×K，其中h和w是输入图像I的形状的缩放因子，每个K个通道表示特定关节k的输出。为了清晰起见，在下面的阐述中，我们省略了关节k的下标，简单地使用H和J表示关节k的热图和坐标。03.1. 基于检测的方法0在基于检测的方法中，H被视为一个显式的热图。在推理过程中，通过进行argmax操作来估计关节k的坐标Jd，0J d = arg max p H ( p ) , (1)0其中p表示热图中的像素坐标。如果H与关节位置的概率密度成比例，这个公式可以解释为在热图上取最大似然。然而，在实践中，最终的坐标估计实际上被移动到热图上最高和第二高响应之间，以解决热图量化的问题[24]。在训练过程中，通过在关节k的真实坐标J gt处放置一个小的高斯函数来生成关节k的真实热图H gt。对于第k个关节应用的损失是H gt和估计热图H之间的逐像素均方误差：0L de = 10| Ω|0p ∈ Ω ∥ H ( p ) − H gt ( p ) ∥ 2 ,(2)0其中Ω表示热图中所有像素位置的集合，|Ω|表示热图中像素的数量。03.2. 积分回归方法0在积分回归方法中，H不是一个明确的热图，因此与[14]中的“潜在”划分不同；它通过应用softmax归一化和期望操作将其解码为坐标。更具体地说，关节k的估计热图H通过softmax函数归一化为˜H：0˜ H ( p ) = �0p ′ ∈ Ω exp( β ∙ H ( p ′ )) , β > 0 (3)0其中β是一个平滑参数。softmax确保˜H的元素之和为1，以便在估计坐标J r 时可以直接应用˜H作为概率密度：0J r = E ˜ H [ p�0p ∈ Ω ˜ H ( p ) ∙ p . (4)0将期望值取代argmax的关键优势在于它是一个可微分的操作。对于训练，可以直接应用每个关节的联合坐标的L1距离作为损失：0L re = ∥ J r − J gt ∥ . (5)0由于其更好的性能，L1损失优于L2损失；这是在[29]中首次研究的。04. 偏差补偿的积分姿势回归04.1. 偏差的推导0为了进行期望计算，我们需要一个归一化的概率密度函数，而softmax函数正好可以用来归一化H。然而，softmax也是密集的，即使对于H2中的零元素，它也会分配非零值给所有像素的˜H k。对于H中接近零值的像素的非零分配反过来会对期望值产生影响，并使估计的坐标J r偏向热图中心。关节坐标距离中心越远，偏差越大（见图1）。通过在softmax中选择适当的β值，可以在一定程度上减轻这种偏差的影响。β越小，函数分配概率密度的能力越强，H中的零像素的影响越大。β越大，函数越集中在H的最大值周围的密度上。当β趋近无穷大时，softmax收敛到argmax函数[5]。反过来，它也变得不可微分。实际上，随着β的逐渐增大，离中心越远的像素的梯度变小，并逐渐趋近于零。因此，必须在偏差程度和学习所需的足够梯度之间进行权衡。请注意，解码器可以通过学习估计一个更远离中心的H来补偿这种偏差。我们认为这为神经网络增加了额外的学习挑战，因为它现在必须考虑关节从热图中心的位移。当观察关节位置的分布时，例如MSCOCO训练数据集（见图2），我们可以看到这增加了偏差值的显著来源。这很可能进一步加剧了数据增强的影响，而数据增强是训练的标准做法。04.2. 偏差补偿0如图1所示，只有当概率密度居中于热图时才没有偏差。一种简单的补偿偏差的方法是直接移动坐标系并将热图居中于地面真实坐标Jgt02 考虑公式（3）的分子，exp(β∙0)=10.00.20.81.0020000400006000080000100000120000140000160000,Ω4�hw2.(8)110700归一化距离0样本数量0图2.COCO训练集上关节位置的分布。距离通过与中心的最大关节距离进行归一化。对于β=10（参见公式3），距离中心的归一化关节距离{0.2，0，0.5，0.8}会导致64×48热图中分别偏差为{0.2，0.7，1.2}像素。使用较小的β会使这种偏差更加极端。0真实坐标Jgt；那么，在对˜H取期望时就不会有偏差。然而，这需要知道Jgt的位置，这在训练时是可行的，但在推理时不合适。因此，我们提出了一种偏差补偿方案，以消除H中额外支持的贡献，即额外的非零分配。假设我们希望恢复真实坐标位置（xo，yo）；暂时假设（xo，yo）位于热图的左上象限。我们可以将图像平面分为四个矩形区域，分割点为2xo和2yo，其中Ω1是包含（xo，yo）的区域，Ω2，Ω3和Ω4按顺时针方向表示其他区域（参见图1中的左上图像）。基于这个分割，我们可以将公式（4）中定义的期望拆分如下0Jr =0˜H(p)∙p+0˜H(p)∙p. (6)0我们假设（xo，yo）的支持在H中是良好定位的，即完全包含在Ω1中，并且Ω2到Ω4只包含零或接近零的元素。因此，只有公式（6）的第一项应对Jro有贡献。因此，关节位置可以估计为公式（6）的第一项的缩放版本0Jro = 10w10˜H(p)∙p，其中w1=0˜H(p)，(7)0其中我们将Jro定义为（xo，yo）的估计值，即偏差补偿的关节位置。注意上述公式0是隐含的，因为Ω1取决于（xo，yo）。通过代数重排，我们可以将Jro表示为Jr的函数0Jro = C0(C-wh)Jr-02(C-wh)h^02(C-wh)0上述的C是softmax中使用的归一化常数，即公式（3）的分母，是β的函数0C(β)=0p∈Ωexp(β∙H(p)). (9)0从公式（8）和（9）中，我们可以看出，对于较大的C，偏差的影响可以忽略不计，因为缩放因子逼近于1，而偏移量逼近于零。当使用较大的β时，即softmax逼近argmax函数的情况下，这正是这种情况。然而，当C较小时，偏差变得更加显著；因此，如果β不足够大，网络必须学习非常大且集中的H(p)的值来补偿以估计正确的Jr。我们认为正是这种相互作用使得网络学习变得非常具有挑战性，从而导致积分回归方法的收敛速度较慢（参见第5.4节）。我们将读者引用到补充材料中，以获取完整的推导以及当xo，yo位于其他象限时的其他情况。根据公式（8），我们可以恢复偏差补偿的关节位置Jro。注意，这个公式不需要知道真实值。在推理过程中，我们可以根据公式（4）中的期望直接对偏差位置Jr进行补偿。在训练过程中，我们也可以这样做，并且只需使用Jro更新公式（5）中的L1损失，即0L re = ∥J ro - J gt∥. (10)0在我们的方法中，我们选择保留softmax，并对期望进行补偿。在人体姿势估计中，已经探索了一些不太天真的激活函数，但证明它们的效果不太好[25]。一个不太天真的选择是sparsemax[22]，它被提出作为softmax的稀疏替代方法。它将预激活值投影到一个单纯形上，只保留少数非零值。然而，考虑到扁平化热图的尺寸很大，只分配一些非零值的像素使得训练变得困难。04.3. 联合框架0我们现在提出了一种新的姿势估计方法，其中包含了我们的偏差补偿。我们希望能够从积分姿势回归中获得端到端训练的优势，同时保留基于热图的检测的快速训练速度。人们认为，在检测方法中使用高斯热图作为标签可以提供密集的110710监督和空间信息，使得训练有效且高效。然而，正如[25]中研究所指出的，像素级的L2损失强制热图与真实值完全相同。这是一个我们并不真正关心的度量，因为损失不能保证关节预测的准确性总是会提高。因此，我们使用检测方法中的像素级监督(Eq. (2))作为额外的损失:0L = L re + λ(t) ∙ L de，(11)0并随时间减小λ。这样做的效果是在后续的周期中最小化Lde的影响，并允许网络学习隐式热图的任意形状。出于简单起见，我们使用一个简单的阶跃函数λ(t)，即λ(t) = 1，对于t< T o，λ(t) = 0，对于t >= To。这个联合框架的关键目的是加快训练速度，同时保持隐式热图的自由度，使网络能够学习任何分布(而不仅仅是高斯分布)，从而导致正确的坐标位置。05. 实验05.1. 数据集和实现细节0数据集和评估指标。我们在两个人体姿势数据集MS COCO[19]、MPII [1]和一个手部姿势数据集RHD[41]上评估我们的方法。COCO数据集有250k个人体实例，带有17个标注关键点。我们使用标准指标Object KeypointSimilarity(OKS)进行评估。OKS利用人体实例的面积来归一化预测位置和真实位置之间的绝对误差。我们使用主要的竞赛指标，即在10个OKS阈值上的平均精度(mean average precision,AP)来评估性能。我们还报告了归一化之前的数值，即预测和真实值之间的平方欧氏距离，我们将其表示为端点误差(End Point Error,EPE)。MPII数据集包含49k个人体实例，带有16个标注关键点。我们使用[33]的标准训练/验证划分，并使用正确关键点的百分比(PCK)和EPE来评估性能。RHD是一个合成的手部数据集，包含来自20个动画角色的41k个训练图像和2.7k个测试图像。对于每个RGB图像，提供了21个手部关键点的注释。我们遵循[14]的方法，使用AUC和EPE进行评估。0实现细节。我们使用Pytorch[26]实现我们的实验，并使用Adam[15]进行模型训练。我们使用SBL [36]和HRNet[28]作为我们的基线，使用不同的骨干网络，例如SBL-ResNet50和HRNet-W32，并遵循相同的学习配置进行基于检测、基于回归和我们的方法的实验。我们重新运行了实验，即基于检测的方法，以进行公平比较的结果。我们将β的默认值设置为10。0积分回归方法。对于我们的组合方法，我们在SBL中使用了120个周期的T o，而在HRNet中使用了190个周期。05.2. 性能比较05.2.1 架构设计0为了直接比较基于检测和回归的方法，应该排除其他影响最终性能的因素。一般来说，两种方法的框架是相同的，即一个编码步骤从输入图像中提取特征，而一个解码步骤将特征转换回显式或隐式的热图表示。唯一的区别在于损失函数。检测方法使用MSE损失来监督显式热图，而回归方法直接监督通过对隐式热图表示的期望生成的预测关节点位置。以前的研究[36, 28,25]表明，更好地提取特征的强大编码器可以提高预测准确性。同时，不同的解码器，即不同数量和参数的上采样层，也会影响结果。此外，表示分辨率，包括输入尺寸和热图尺寸，是另一个关键变量。因此，我们采用相同的编码-解码架构和表示尺寸，以在基于检测和回归的方法之间进行公平比较。在实施比较时，我们应用现成的模型，即SBL[36]或HRNet[28]，作为共享的编码-解码架构来生成所有K个关节点的热图H。对于检测，我们通过公式（2）训练模型，并通过公式（1）中的argmax进行最终预测。对于回归，我们应用最先进的回归方法[29]，即积分回归，通过公式（4）获得关节点位置，并通过公式（5）训练网络。05.2.2 影响因素0当两种方法的容量，包括提取和表示特征的能力相同时，两种方法之间的区别仅在于将热图转换为坐标和监督信号的方式。因此，可以比较两种方法在训练和推理过程中呈现的结果以研究差异。具体而言，在训练中，我们通过评估验证集或测试集上的上升速度来比较两种方法。在推理中，我们比较验证集或测试集上不同类型样本的泛化能力。我们根据图像中所描绘的人的不同布局将基准分为不同的部分。与[27]类似，考虑了三个因素：存在的关节点或关键点的数量（11-17，6-10，1-5），遮挡的百分比（<10%，10-50%，>50%），以及最大尺寸。[0, 5][6, 10][11, 17]>50%<10%[10%, 50%]02040801000.30.40.50.60.7DetectionRegression[1282, ]8.89 / 9.1613.96 / 13.8233.0 / 33.813.4 / 13.6[962, 1282]6.35 / 6.5910.9 / 11.021.1 / 17.27.26 / 7.18[642, 962]4.41 / 4.579.12 / 9.0516.0 / 14.87.26 / 7.18[322, 642]2.97 / 3.014.32 / 4.519.23 / 8.14.46 / 4.35> 50%16.6 / 15.216.0 / 14.832.0 / 28.119.0 / 17.4[10%, 50%]7.02 / 7.366.88 / 7.0023.7 / 22.88.36 / 8.53< 10%4.91 / 5.226.78 / 7.1827.1 / 24.35.59 / 5.80110720输入尺寸0#关节点0%遮挡0[ 6663 , 9963 ] [ 9963 , 11331 ] [ 11331 , ]0图3。我们根据输入（边界框）大小、场景中存在的关节点数量以及遮挡百分比（存在的关节点）将COCO数据集分割。从左到右的分割大致对应姿势估计的难度。0Epoch0验证集上的AP0检测与回归方法的训练效率0图4。尽管检测和回归方法最终收敛到类似的值，但基于检测的方法在训练中更加高效，特别是在初始epochs中。0对于边界框输入的分割（>128像素，96-128像素，64-96像素，32-64像素）。这三个因素的分割示例如图3所示。05.2.3 比较结果0SBL-ResNet50和HRNet-W32被用作基准来评估在COCO验证集上的训练效率和泛化误差。训练比较。训练效率可以通过AP随着迭代次数的增加而上升的速度来评估。从图4中我们可以观察到，在最后，检测和回归方法达到了类似的准确性。然而，在40个epochs之后，检测方法已经取得了可比较的结果，而回归方法需要90个epochs才能达到。0# 关节点0输入尺寸 [11, 17] [6, 10] [0, 5] 全部0%遮挡 [0, 5] [6, 10] [11, 17] 全部0all 6.91 / 6.96 8.04 / 8.12 28.0 / 25.4 8.21 / 8.280表1.在COCO验证集上，使用常见的SBL骨干网络进行EPE的比较，根据存在的关节点数量、输入尺寸和遮挡百分比进行分离。演示格式为检测/回归。回归在存在较少关节点、较小输入尺寸和更多遮挡的情况下优于检测，尽管由于数据集分布的缘故，当所有因素平均时，这种现象被掩盖了。0图5.我们的方法(S)与检测(D)和回归(R)在划分的子基准上EPE的比较。我们的方法在9个条件中有7个条件表现最好，即具有最低的EPE。0实现类似的性能。我们认为其中一个原因是，在基于检测的方法中，应用了对完整空间映射的密集监督；而在回归中，模型只有对预期坐标位置的监督。因此，回归方法的潜在特征图可以是任意的，只要最终值对应于正确的关节点位置即可。尽管这种任意性可以被解释为有益的，但它增加了训练过程的难度。我们通过消融研究在第5.4节中证明了这一点。推理比较。在表1中，我们报告了在划分的基准上根据存在的关节点数量、输入人体实例的尺寸和遮挡百分比的EPE。如果我们只关注不同尺寸对性能的影响，表中的最后一列显示检测在大尺寸和少遮挡的情况下表现更好，这可以被认为是容易的，而回归-110730方法类型骨干网络输入尺寸 AP(%) ↑ EPE(px) ↓0Mask-RCNN [12] D ResNet-50-FPN - 62.9 - Hourglass [24] D 8-stage Hourglass 256 × 192 66.9 -CPN [8] D ResNet-50 256 × 192 71.6 -0IPR [29] R ResNet-101 256 × 256 67.2 9.98 + 我们的 R ResNet-101 256 × 256 69.1(+1.9) 9.42(-0.56)0SBL [36] D ResNet-50 256 × 192 70.5 9.52 + IPR R ResNet-50 256 × 192 68.2 9.63 + 我们的 R ResNet-50256 × 192 71.2(+0.7) 8.93(-0.70)0SBL [36] D ResNet-152 384 × 288 73.8 8.21 + IPR R ResNet-152 384 × 288 71.3 8.28 + 我们的 RResNet-152 384 × 288 74.4(+0.6) 7.82(-0.39)0HRNet [28] D HRNet-W32 256 × 192 75.3 7.85 + IPR R HRNet-W32 256 × 192 72.9 8.03 + 我们的 RHRNet-W32 256 × 192 75.8(+0.5) 7.47(-0.38)0表2. 我们的方法与COOC验证集上最先进方法的比较。'D'和'R'分别代表基于检测和回归的方法。我们提出的方法在检测和回归的基线上表现更好。0方法类型骨干网络输入尺寸 # 参数 GFLOPS AP (%) ↑ AR (%) ↑0Mask-RCNN [12] D ResNet-50-FPN - - - 63.1 66.5 CPN [8] D ResNet-Inception 384 × 288 - - 72.1 78.5 RMPE[10] D PyraNet 320 × 256 28.1M 26.7 72.3 - SBL [36] D ResNet-152 384 × 288 68.6M 35.6 73.7 79.0 HRNet [28]D HRNet-W48 384 × 288 63.6M 32.9 75.5 80.5 MSPN [17] D 4-stg MSPN 384 × 288 - - 76.1 81.6 DARK [40] DHRNet-W48 384 × 288 63.6M 32.9 76.2 81.1 UDP [13] D HRNet-W48 384 × 288 63.8M 33.0 76.5 81.60DirectPose [31] R ResNet-101 - - - 63.3 - IPR [29] R ResNet-101 256 × 256 45.0M 11.0 67.8 -0我们的 R HRNet-W48 384 × 288 63.6M 32.9 76.1 81.00表3.我们的方法与COCO测试集上最先进方法的比较。'D'和'R'分别代表基于检测和回归的方法。我们提出的方法在与最先进的基于检测的方法竞争时具有竞争力，并且在回归方法的性能上超过了很大的差距。0在微小姿势和许多遮挡情况下，回归方法的性能更好，这些情况更难;此外，当存在关键点的数量发生变化时，两种方法的性能也不同。具体而言，对于简单的情况，检测方法的性能更好；对于中等情况，回归方法变得具有竞争力；对于困难情况，回归方法甚至超过了检测方法。我们在补充材料中报告了更多实验。当添加我们的组件时，我们提取了检测和回归方法的双重好处。从图5中可以看出，我们的方法在困难情况下优于回归方法，在简单情况下优于检测方法。05.3. 与最先进方法的比较0在MSCOCO上的评估。我们在COCO验证集和测试集上与2D人体姿态估计模型的最佳表现者进行了比较，结果见表2和表3。我们可以看到，我们的方法在与最先进的基于检测的方法竞争时具有竞争力，并且在回归方法的性能上有很大的提升。0在MPII上的评估。在表4中，我们还将我们的方法与MPII验证集上的最先进模型进行了比较，包括[32]、DSNT[25]、IPR [29]以及SimpleBaseLine [36]和HRNet[28]等基于检测的方法。在RHD上的评估。我们将我们的方法与基于回归的方法2.5D回归[14]和两种基于检测的方法[41,3]进行了比较，结果见表5。我们可以看到，我们的方法在添加偏差补偿和增强损失后显著超越了基线。我们在表6中报告了不同方法的结果。结果表明，检测损失不仅加速了训练，还提高了性能。困难样本上的EPE证明了我们的方法优于基于检测的方法。05.4. 消融研究0我们的方法由两个新颖的组件组成：偏差补偿和正则化项。在本小节中，我们进行消融研究，以展示每个组件的影响。02040801000.30.40.50.60.7110740方法类型 PCKh@0.5(%) ↑ EPE(px) ↓0Tompson et al. [32] R 80.2 - DSNT [25] R 85.7 -0IPR [29] R 86.5 - +我们的 R 87.2(+0.7) -0SBL-ResNet50 [36] D 87.6 20.9 +IPR R 86.2 21.5 +我们的 R87.9(+0.3) 20.3(-0.6)0SBL-ResNet152 [36] D 89.6 18.3 +IPR R 87.9 19.5 +我们的R 89.9(+0.3) 17.8(-0.5)0HRNet-W32 [28] D 90.4 16.6 +IPR R 88.7 18.2 +我们的 R90.6(+0.2) 16.2(-0.4)0表4.在MPII验证集上的比较。我们的方法在基线上取得了显著的改进。0方法类型 AUC(%) ↑ EPE(px/mm) ↓0Z&B [41] D 72.0/67.5 9.14/30.4 Cai [3] D -/-02.5D回归[14] R 84.4/93.0 4.76/14.3 +我们的 R85.8/93.6 4.34/13.50表5. 手部姿态估计在RHD测试集上的2D/3DAUC和EPE的比较。我们提出的方法优于基线和两种基于检测的方法。0方法 β AP EPE EPE H0SBL [36] - 70.5 9.52 32.1 +IPR 10 68.2 9.63 28.7+Lde，λ=1所有epochs 10 70.2 9.38 28.0 +Lde 10 70.49.31 27.8 +去偏差 10 71.0 9.15 27.1 +Lde +去偏差 170.7 9.02 26.1 +Lde +去偏差 20 70.3 9.32 30.70+Lde+去偏差 10 71.2 8.93 25.60表6. 在COCO验证集上评估我们方法的每个组件。EPEH表示在'困难'样本上的EPE，即具有较少关节（[0,5]）和较重遮挡（> 50%）的样本。对于Lde，当To = 120时，λ(t) =1，除非另有说明。我们提出的组件改善了与基线的性能，特别是在这些困难样本上。β = 10的组合是最佳的。0组件。我们使用SBL-ResNet50作为我们的主干进行消融实验，输入尺寸为256×192。结果在COCO验证集上进行评估。组件的有效性。我们通过比较不同方法的收敛速度和推理结果来评估组件。基线是基于检测和基于回归（+IPR）的方法，我们将它们与结合了检测损失或偏差补偿的模型进行比较。此外，我们还包括了当正则化项更强和检测损失适用时的实验。0时期0验证集上的AP0不同方法之间的训练效率比较0检测回归R+debiasR+det我们的方法0图6.每个组件对COCO验证集上收敛速度的影响。我们提出的组件将加速回归方法的训练速度，接近检测方法的速度。0应用于所有时期。我们在图6中展示了各种方法的曲线，表示特定时期训练后在验证集上的AP。我们可以看到每个组件都会加速训练。同时，在表6中，每个组件都对性能有所贡献。超参数β的选择。如上所述，小的β会导致较大的偏差，而大的β会使反向传播变得困难。我们在表6中评估了β值的不同选择，并选择β = 10作为我们的最佳值。06. 结论0我们的主要贡献是揭示了积分姿态回归方法的偏差。我们还首次系统地对检测和回归方法进行了公平比较。受到这两种方法的启发，我们提出将两种方法集成起来，以提取两者的优点并补偿积分回归中的偏差。在COCO、MPII和RHD上的实验结果表明，我们的方法可以作为一个插件组件，大幅提高基线，并证明在2D人体姿态估计和手部姿态估计中是有效的。0参考文献0[1] Mykhaylo Andriluka, Leonid Pishchulin, Peter Gehler, andBernt Schiele.2D人体姿态估计：新的基准和最新分析。在CVPR，页码3686-3693，2014年。 50[2] Adrian Bulat and Georgios Tzimiropoulos.通过卷积部分热图回归进行人体姿态估计. 在 ECCV，页码717-732。 Springer，2016年。 1110750[3] Yujun Cai, Liuhao Ge, Jianfei Cai, and Junsong Yuan.单目RGB图像的弱监督3D手部姿态估计。在ECCV，页码666-682，2018年。 7 , 80[4] Joao Carreira, Pulkit Agrawal, Katerina Fragkiadaki, andJi- tendra Malik. 迭代误差反馈的人体姿态估计. 在 CVPR，页码4733-4742，2016年。 1 , 20[5] Olivier Chapelle and Mingrui Wu.平滑信息检索度量的梯度下降优化。信息检索，13(3):216-235，2010年。 30[6] Xianjie Chen and Alan Yuille.图像相关的成对关系的图模型用于关节姿态估计. arXiv预印本arXiv:1407.3399 ，2014年。 20[7] Yu Chen, Chunhua Shen, Xiu-Shen Wei, Lingqiao Liu, andJian Yang.对抗Posenet：一种结构感知的卷积网络用于人体姿态估计。在ICCV，页码1212-1221，2017年。 20[8] Yilun Chen, Zhicheng Wang, Yuxiang Peng, ZhiqiangZhang, Gang Yu, and Jian Sun.级联金字塔网络用于多人姿态估计. 在 CVPR，页码7103-7112，2018年。 1 , 70[9] Xiao Chu, Wanli Ouyang, Hongsheng Li, and XiaogangWang. CRF-CNN：建模人体姿态估计中的结构信息。arXiv预印本 arXiv:1611.00468 ，2016年。 20[10] Hao-Shu Fang, Shuqin Xie, Yu-Wing Tai, and Cewu Lu.Rmpe: 区域多人姿态估计. 在 ICCV ，页码2334-2343，2017年。70[11] Georgia Gkioxari, Alexander Toshev, and Navdeep Jaitly.使用卷积神经网络的链式预测。在ECCV，页码728-743。Springer，2016年。 20[12] Kaiming He, Georgia Gkioxari, Piotr Doll´ar, and Ross Gir-shick. Mask r-cnn. 在 ICCV ，页码2961-2969，2017年。 70[13] Junjie Huang, Zheng Zhu, Feng Guo, and Guan Huang.魔鬼在细节中：深入研究无偏数据处理用于人体姿态估计。在CVPR，页码5700-5709，2020年。 2 , 70[14] Umar Iqbal, Pavlo Molchanov, Thomas Breuel JuergenGall, and Jan Kautz. 通过潜在的2.5D热图回归进行手部姿势估计.在ECCV中, 2018年, 页码118-134. 1, 2, 3, 5, 7, 80[15] Diederik P Kingma and Jimmy Ba. Adam:一种随机优化方法. arXiv预印本arXiv:1412.6980, 2014年. 50[16] Sergey Levine, Chelsea Finn, Trevor Darrell, and PieterAbbeel. 深度视觉运动策略的端到端训练. 机器学习研究杂志,17(1):1334-1373, 2016年. 20[17] Wenbo Li, Zhicheng Wang, Binyi Yin, Qixiang Peng,Yuming Du, Tianzi Xiao, Gang Yu, Hongtao Lu, Yichen Wei,and Jian Sun. 重新思考用于人体姿势估计的多阶段网络.arXiv预印本arXiv:1901.00148, 2019年. 70[18] Ita Lifshitz, Ethan Fetaya, and Shimon Ullman.使用深度一致性投票进行人体姿势估计. 在ECCV中, 2016年,页码246-260. 20[19] Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays,Pietro Pe

下载后可阅读完整内容，剩余1页未读，立即下载