多实例姿态网络：克服自顶向下姿态估计方法的局限性

61 浏览量更新于2023-09-28 收藏 1.97MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3122多实例姿态网络：重新思考自顶向下的姿态估计Rawal Khirodkar1 Visesh Chari2†Amit Agrawal2 Ambrish Tyagi21 CarnegieMellon University2 Amazon Lab 126https://rawalkhirodkar.github.io/mipnet摘要自上而下的人类姿态估计方法的关键假设是它们期望在输入边界框中存在单个个体/实例。这通常导致在具有遮挡的拥挤场景中失败。我们提出了一个新的解决方案，以克服这一基本假设的局限性。我们的多实例姿态网络（MIPNet）允许在给定的边界框内预测多个 2D 姿态实例。我们引入了一个多实例调制块（MIMB），可以自适应地调制信道的功能响应为每个实例，是参数有效的。我们通过对COCO、CrowdPose和OCHuman数据集的评估来具体来说，我们达到了70。0 AP在CrowdPose和42. 5 AP在OCHhuman测试集上，显著提高了2. 4 AP和6。5AP分别优于现有技术。当使用地面真值边界框进行推理时，MIP- Net实现了0的改进。7AP上COCO，0。9AP on CrowdPose，和9.1AP on OC Human validation sets com-online to HRNet.有趣的是，当使用更少的高置信度边界框时，HRNet1. 介绍人体姿态估计的目的是定位2 D人体解剖关键点（例如，肘、腕等）在给定图像中。当前的人体姿态估计方法可以被分类为自顶向下或自底向上方法。自顶向下方法[6，13，33，40，41，43，44]将边界框内的图像区域作为输入，通常是人类检测器的输出，并将问题减少到单个人类姿态估计的更简单任务。相比之下，自下而上的方法[3，22，29，32]通过独立地定位整个图像中的关键点开始，然后将它们分组为2D人类姿势实例。由自上而下的方法做出的单个人类假设将推断限制到可以最好地解释输入的人类关节的单个配置（单个实例）在亚马逊实习期间完成的工作†现在在Waymo图1：2D姿态估计网络在存在严重遮挡的情况下通常会失败。（左）对应于两个人的边界框（中）对于两个边界框，HRNet预测前面的人的姿势并错过被遮挡的人。（右）MIP-Net允许每个边界框有多个实例，并恢复被遮挡人的姿势。自上而下的姿态估计方法[6，16，30，40，44]目前在诸如COCO [25]，MPII [2]的数据集上表现最好然而，当呈现包含多个人的输入时，如拥挤或被遮挡的实例，自顶向下的方法被迫选择每个人检测的单个合理配置。在这种情况下，自上而下的方法可能错误地识别与遮挡物（前面的人）相对应的姿势界标。参见例如图。1（中间）。因此，在诸如CrowdPose [23]和OCHuman [48]之类的数据集上，其具有相对较高比例的遮挡实例（表1），自顶向下方法的性能由于单人假设而受到影响[8，23，48]。在本文中，我们重新考虑的架构，自上而下的2D姿态估计预测输入边界框的多个姿态实例。我们提出的架构的关键思想是允许模型预测每个边界框的一个以上的姿势实例。我们证明，这种概念上的变化提高了性能的顶部-3123⇠数据集IoU> 0。5∆AP0∆AP 0.9∆APgtCoco1.2K（1%）0.0+1.9+0.7人群姿势2.9K（15%）+0.8+2.3+0.9OCHuman3.2K（68%）+4.2+8.2+9.1输入图像HRNet MIPNet，λ = 0 MIPNet，λ = 1图2：HRNet与MIPNet中几个关键点的热图预测HRNet只关注前景人物。MIPNet通过在推断期间改变λ来实现来自相同输入边界框向下的方法，特别是对于拥挤和严重遮挡的图像。预测每个边界框多个实例的一种简单方法是将多个预测头添加到现有的自上而下的网络中，并共享特征提取主干。然而，这种方法无法学习对应于各种实例的不同特征。然后，蛮力方法将是复制特征提取主干，尽管对于N个实例以参数增加N倍为代价。相比之下，我们的方法能够预测任何现有的自顶向下架构的多个实例，参数的数量（3%）和推理时间略有<（9ms，16%）。<从技术上讲，我们的方法可以处理N >2个实例。然而，如图4所示，现有数据集中每个地面实况边界框具有3+注释姿态实例的示例的数量非常小。因此，类似于[35，48]，我们主要关注涉及两个人的主导遮挡场景。为了能够在给定的边界框中有效地训练和推断多个实例，我们提出了一种新的多实例调制块（MIMB）。MIMB基于标量实例选择器λ来调制特征张量，并允许网络在N个实例中的一个上索引（图2）。2）的情况。MIMB可以被合并到任何现有的特征提取主干中，只需要相对简单的（15行）代码更改（参考补充）。<在推断时，对于给定的边界框，我们改变实例选择器λ以生成多个姿态预测（图1A）。（3）第三章。由于自上而下的方法依赖于来自对象检测器的输出，因此它们通常处理大量的边界框假设。例如，HRNet [40]使用来自Faster R-CNN [37]的超过100K个边界框来预测COCOval数据集中6000人的2D姿势。这些边界框中的许多边界框重叠并且主要具有低检测分数（<0. 4）.这也不利地影响推断时间，推断时间随着输入边界框的数量线性增加。如图5，使用更少的高置信度边界框会降低HRNet的性能。8到32OCHuman上的8AP，性能降低5相比之下，MIPNet是稳健的，并且对于相同的输入（下降1个AP）保持相对稳定的性能。直观地，我们的方法可以预测与误检测到的一个对应的2D姿态实例。表1：MIPNet在AP中的相对改进与HRNet-W 48相比，使用更快的R-CNN（AP0：所有，AP 0。9：高置信度）和地面实况（APgt）边界框。对于每个数据集，具有遮挡IoU > 0的实例的数量（%）。5已报道[35]。具有更多遮挡和拥挤的数据集展示了更高的增益。边界框基于其邻居的预测。总体而言，MIPNet在各种数据集上优于自上而下的方法和特定于遮挡的方法，如表1所示。对于具有挑战性的数据集，如CrowdPose和OCHuman，包含更大比例的杂乱场景（具有多个重叠的人），MIPNet设置了一个新的最先进的实现70。0 AP和42. 5AP分别在测试集上优于自底向上方法。我们的主要贡献是我们提出了自上而下的二维姿态估计方法，解决了训练和推理过程中单人假设所造成的限制。我们的方法在CrowdPose和OCHuman数据集上实现了最先进的结果。MIPNet允许通过独立地调制每个实例的特征响应来有效地预测给定边界框的多个姿态实例预测多个实例的能力使MIPNet对边界框置信度有弹性，并允许它处理丢失的边界框，对性能的影响最小2. 相关工作有偏差的基准：大多数人类姿势估计基准[1，2，12，20，25]并不均匀地表示现实世界中可能的姿势和遮挡。流行的数据集，如COCO [25]和MPII [2]，在IoU为0.3 [35]时，注释不足3%COCO [25]中超过86%的注释具有5个或更多可见关键点[38]。这些偏见已经渗透到我们最先进的数据驱动的深度学习模型中[45]，不仅表现为对“尾部”数据的泛化能力差，最近，提出了具有挑战性的数据集，如OCHuman [48]和CrowdPose [23]，其中包含严重的遮挡，以捕获这些偏差。这些数据集证明了最新技术水平模型在严重闭塞下的失效（第4.3节）。MIPNet在这种具有挑战性的条件下表现出显着的性能改善。···31248−22⇥2{−}−−2{−}图3：（左）MIPNet被训练为通过使用λ=i，i= 0，….、N1。（中）在推断期间，我们通过改变λ获得N个姿势预测。（右）MIMB使用挤压、激励和嵌入模块，使得λ能够调制每个实例的特征响应。自上而下的方法：自上而下的方法[6，11，13，16，30、33、40、44]检测边界框内的单个人的关键点这些边界框通常由对象检测器生成[7，24，26，36，37]。由于自顶向下方法可以通过裁剪和调整边界框的大小来将所有人归一化为近似相同的比例因此，与自下而上的方法[3，8，17，18，29，34，48]相比，各种人体姿势估计基准的最新性能主要通过自上而下的方法[40]然而，这些方法固有地假设检测窗口中的单个人（实例），并且在多人情况下在遮挡下经常失败这是隐式边界框层次表示的模糊性MIPNet通过预测单个边界框中的多个实例来解决这个问题。遮挡姿态估计：许多方法[42，31，39，9]在被遮挡的人检测方面取得了良好的进展。最近的方法[23，48，35，19]也集中在遮挡姿态估计上。[23]使用自上而下的模型来进行多峰预测，然后使用图形模型将联合峰分组到人中。[48]使用实例分段进行遮挡推理。[35]使用图形神经网络从自上而下的模型中细化姿势建议[19]是一种自下而上的方法，其使用可微的层次图分组用于联合关联。相比之下，我们的方法要简单得多，不需要初始姿态估计，分组或求解联合关联。最后，在机器学习中，许多模型已经被训练为根据条件输入而表现不同[5，10，21，27，28，47]。而不是训练多个模型，我们的方法使训练单个网络预测相同输入的多个输出。而不是复制的功能骨干，我们的新的MIMB块导致参数高效的设计。我们的多实例姿势网络是完全监督的，与多个输入无关立场学习[4，46]，这是一种弱监督学习范式，其中训练实例以集合形式排列。3. 方法人体姿态估计旨在从输入图像中检测K个关键点的位置。大多数自上而下的方法将这个问题转化为估计K个热图，其中每个热图指示任何空间位置处的对应关键点的概率。类似于[6，30，44]，我们定义了用于人体关键点检测的卷积姿态估计器P在训练和推断时的边界框被缩放到 H W 并且作为输入被提供给 P 。令yRH0<$W0<$K表示对应于给定输入x的地面实况关键点的K个热图。姿态估计器将输入X变换为单个预测的X集合。热图，y2RH0W0K，使得y=P（x）。 P被训练以最小化均方损失L=MSE（y，y∈）。3.1. 训练多实例姿态网络我们提出修改自顶向下的姿态估计器P以如下预测多个实例我们的姿态估计器P预测N个实例，.... . . 你好。，y<$N−1，对于输入x。这是通过将网络P置于标量实例选择器λ，0λN1上来实现的。 P接受x和λ作为输入并预测yi=P（x，λ=i），其中i0，1， . .... . . 你好。、N 1。设B0表示用于裁剪输入x。令B1，11，.表示与Bo重叠的另外的 nl个真实边界框，使得来自Bi的至少k = 3个关键点落在Bo内。因此，B0，. ......、 B n-1表示x中存在的n个地面实况姿态实例的边界框。我们将对应于这η个实例的真实热图表示为y0， . . . yn−1。为了定义损失，我们需要分配预测的姿势实例到地面实况热图。主实例y（0=P（x，λ=0）被分配给y0，即对应于B0的姿态实例。接下来的N−1个实例被分配312580.318.87.71.20.10.10.9BB数量（%）−2−根据它们的对应边界框的距离B0P。我们训练网络P以最小化损失L=i=0时9098.792.28070601NLi=N-1Li，其中，MSE（yi，P（x，λ=i））， 80imin（n，N），MSE（y0， P（x，λ=i）），8min（n，N）i N时，仅使用N个地面实况姿态实例（最接近B0）来计算损失。根据我们的经验，采用其他启发式方法，例如不传播损失，即，不关心剩余实例导致不太稳定的训练。另外，用于残余实例的在推断期间，我们改变λ以从相同的输入X提取不同的姿态预测，如图1B所示。3 .第三章。3.2. 多实例调制块在本节中，我们描述了多实例调制块（MIMB），它可以很容易地引入任何现有的特征提取主干。MIMB允许自上而下的姿态估计器P，用于从输入图像x预测多个实例。使用MIMB，P现在可以接受X和实例选择器λ作为输入。设计[14]的挤压激励块的启发。设XRPQC是一个中间特征图，其中C个通道，使得X=[x1，x2，. ..，xC]。我们使用实例选择器λ来调制激励模块的输出的通道方式激活，如图1B所示3（右）。我们设计的关键见解是，我们可以使用同一组卷积滤波器来动态地迎合输入中与复制功能骨干或每个实例分配固定数量的通道的蛮力方法相比，我们的设计是参数有效的。令Fsq、Fex、Fem分别表示MIMB内的挤压、激发和嵌入我们将Z表示为标量λ的唯一热表示。特征图X被变换为X0=[x01，x02， . .... . . 你好。，x0（C）]如下，Sc=Fsq（xc），（二）e=Fex（s），（三）v=Fem（Z），（四）x0c =（vcec）xc，（5）S.T. s=[s1，. ..，s C]，v=[v1，. ..，v C]和e=[e1，. ..，e C]。 Fsq压缩全局空间信息1 2>=3BB人数（IoU > 0.5）图4：在各种数据集中，每个真实边界框具有1、2和3+使用全局平均池化（global average pooling）将信道描述符转换成信道描述符。Fex允许对Fsq的输出上的通道交互进行建模。Fex被实现为两层、全连接的神经网络。在激励模块的输出之后，我们使用来自另一个简单神经网络Fem的Z的嵌入来调制通道方式激活。Fem与Fex有类似的设计。在推理期间，我们将实例选择器λ从0变化到N1以获得N个预测，然后在合并所有预测后应用OKS-NMS[40详情请参考补充资料。图2可视化了来自HRNet和MIPNet的预测热图（使用N=2）。注意，HRNet仅输出与前景人相对应的热图，而MIPNet在推断时使用不同的λ4. 实验我们在三个数据集上评估MIPNet：Common- Objectsin Context-COCO [25]，CrowdPose [23] and Oc- cludedHumans-OCHuman [48].这些数据集表示不同程度的闭塞/拥挤（参见表1），并且有助于说明在自上而下方法中预测多个实例的益处。我们报告了在如[25，23]中定义的各种对象关键点相似性处的标准度量，诸如AP、AP50、 AP75、 APM、 APL、 AR、 APeasy、 APmed和APhard我们使用地面实况边界框以及通过YOLO [36]和更快的R-CNN [37]检测器获得的边界框报告结果。我们将MIPNet基于最近最先进的自顶向下架构，即SimpleBaseline [44]和HRNet [40]。当与HRNet比较时，MIPNet采用类似的特征提取主干，并在第3和第4阶段结束时在卷积块的输出处添加MIMB为了与SimpleBaseline [44]进行比较，两个MIMB添加到编码器中的最后两个ResNet块。实例数N：简单地说，N= 1相当于基线自顶向下方法。通过设计，MIPNet支持预测多个实例。从经验上看，我们平均观察到0的小幅改善。3AP、0. 在数据集上分别在N= 2之上使用N=3和N= 4的5个AP这与大多数数据集具有很少的具有三个或更多地面实况姿势实例的示例（CocoCrowdPoseOCHuman3126† ⇥⇥⇥−⇥⇥†方法拱#参数APAP50AP75APMAPLARSBL†MIPNet†转轴-50转轴-5034.0M35.0M（+2.8%）72.473.3（+0.9）91.593.380.481.269.770.676.577.675.676.7SBL†MIPNet†R-101R-10153.0M54.0M（+1.7%）73.474.1（+0.7）92.693.381.482.370.771.377.778.676.577.4SBL†MIPNet†R-152R-15268.6M6960万（+1.4%）74.374.8（+0.5）92.693.382.582.471.671.778.779.477.478.2SBL？转轴-5034.0M74.192.680.570.579.676.9MIPNet？转轴-5035.0M（+0.4%）75.3（+1.2）93.482.472.080.478.4SBL？R-10135.0M75.592.582.672.480.878.4MIPNet？R-10154.0M（+0.3%）76.0（+0.5）93.483.572.681.179.1SBL？R-15268.6M76.692.683.673.781.379.3MIPNet？R-1526960万人（+2.8%）77.0（+0.4）93.584.373.781.980.0人力资源网†MIPNet†H-32轰炸机H-32轰炸机28.5M2860万人（+1.7%）76.577.6（+1.1）93.594.483.785.373.974.780.881.979.380.6人力资源网†MIPNet†轰-48轰-4863.6M6370万人（+1.4%）77.177.6（+0.5）93.694.484.785.474.174.681.982.179.980.6人力资源网H-32轰炸机28.5M77.793.684.774.882.580.4MIPNet？ H-32轰炸机2860万人（+0.4%）78.5（+0.8）94.485.775.683.081.4人力资源网轰-4863.6M78.193.684.975.383.180.9MIPNet？轰-486370万人（+0.3%）78.8（+0.7）94.485.775.583.781.6表2：MIPNet提高了跨各种架构和输入大小的COCO值集的性能（使用地面实况边界框）。R-@和H-@分别代表ResNet-@和HRNet-W@。然后呢？表示输入分辨率分别为256 192和384 288。SBL是指SimpleBaseline [44]。#参数仅是姿态估计网络的参数，不包括边界框计算。每个边界框（图4）.然而，如我们的实验中所示，N=2提供了相对于N= 1注意，由于MIMB被添加到我们的实验中的最后几个阶段，因此由于预测N= 2个实例而导致的推理时间的增加很小（表3）。对于输入分辨率为384 288的较大HRNet-48网络，推理时间增加了8。2ms（16. 7%）。对于较小的HRNet-32网络，运行时间增加4。7ms（11. 9%）。这明显优于为这将导致对于N=2的推理时间增加2倍。更多详情请参考补充资料。4.1. COCO数据集数据集：COCO包含64K图像和270K个标记有17个关键点的每个子。对于训练，我们使用训练集（57K图像，150K人），对于评估，我们使用val（5K图像，6.3K人）和测试开发集（20K图像）。输入边界框在高度或宽度上进行扩展，以获得4：3的固定长宽比。然后从图像中裁剪检测框，并将其大小调整为256192或384 288，取决于实验。在[29]之后，我们使用随机旋转（[ 45◦，45◦]），随机缩放（[0. 65，1。35]），翻转，和半身作物。在[30，40，44]之后，我们在推断期间使用翻转和热图偏移。结果：表2使用地面实况边界框比较了MIPNet与SimpleBaseline（表示为SBL）和HRNet的性能。MIPNet在各种主干和输入大小上都优于基线使用ResNet-拱延迟APAP50 AP75APeasy AP中 AP硬HRNet-32†MIPNet†27.5毫秒30.9毫秒70.071.291.091.976.377.478.878.870.371.561.763.8HRNet-48†MIPNet†33.8毫秒39.6毫秒71.372.891.192.077.579.280.580.671.473.162.565.2HRNet-32？39.4毫秒 71.691.177.780.472.162.6MIPNet？44.1毫秒 73.091.879.380.773.365.5HRNet-48？49.1毫秒 72.892.178.781.373.364.03127⇥⇥表3：MIPNet在CrowdPose值集合上优于HRNet和* 分别表示256 192和384 288的输入分辨率。平均GPU延迟是在批大小为24时报告的。50骨干网，MIPNet将SimpleBaseline结果提高了0。9个AP用于较小的输入尺寸，1. 2个AP用于更大的输入尺寸。与HRNet相比，MIPNet显示出从0. 七比一1个AP，适用于各种架构和输入大小。请注意，与基线相比，MIPNet导致参数增加3%<当使用从人员检测器获得的边界框时，正如预期的那样，当使用相同的主干时，MIPNet的性能与SBL和HRNet相当（表5）。毫不奇怪，因为大多数COCO边界框都包含一个人。MIPNet的好处在更具挑战性的CrowdPose和OCHuman数据集上是显而易见的。4.2、4.3）。4.2. CrowdPose数据集数据集：CrowdPose包含20K图像和80K人，标记有14个关键点。与COCO相比，CrowdPose具有更多拥挤的场景，但是3128†⇥⇥⇥与OCHuman相比，拥挤程度更低[48]。对于训练，我们使用训练集（10K图像，35. 4K人），并且对于评估，我们使用值集（2K图像，8K人）和测试集（8K图像，29K人）。结果：表3比较了MIPNet42.54037.53542四十一点九37.8三十七分五41.741.741.541.341.341.241.13736.536.135.735.2三十四点八41四十七当使用地面实况边界框进行评估时，使用HRNet。MIPNet优于HRNet，AP的改进范围从0。九比一5不同的输入大小。如表5所示，当使用人员检测器边界框进行评估时，MIPNet将SBL提高了7。3AP上32.53027.525HRNet3432.827.8推理时间增加小于25 ms的测试集。为了完整性，我们还在CrowdPose上训练和评估了HR-Net。MIPNet的性能比HRNet高0。测试集上的7个AP和0. 8 AP上的值集。MIPNet实现了70. 0AP与两阶段方法OPECNet [35]相当，OPECNet [ 35]从AlphaPose+[35]改进初始姿态估计我们在补充报告中报告了03755071871631526780表4：在COCO训练集上训练后，OCHhumanval集与地面实况边界框评估的和*表示输入分辨率分别为256 192和384 288。R-@和H-@分别代表ResNet-@和HRNet-W@SBL是指SimpleBaseline [44]。4.3. OCHuman数据集数据集：OCHuman专注于严重闭塞的人类。它包含4731 张图像和 8110 人，标记有 17 个关键点。在OCHuman中，平均67%的边界框区域与其他边界框重叠[48]，而只有0。8%的COCO。此外，具有遮挡IoU的示例的数量>0。5对于OCHuman为68%，相比之下，对于COCO为1%（表1）。这使得OCHuman数据集变得复杂和具有挑战性00.10.20.30.40.50.60.70.80.91最小边界框置信度图5：与HRNet不同，MIPNet保持稳定的性能，作为选择输入边界框的检测器置信度的函数。结果显示为使用在OCHumanvalset上评价的HRNet-W 48 -384 288。用于遮挡下的人体姿态估计。由现有的自顶向下的方法所做的单个个体假设并不完全适用于该数据集中的示例。与[48]类似，我们使用COCO的火车集进行训练。请注意，我们不在OCHuman训练集上训练。为了进行评估，我们使用val集（2500张图像，4313人）和测试集（2231张图像，3819人）。结果：表4比较了MIPNet与SimpleBaseline和HRNet在OCHuman上的性能，当使用val集上的地面实况边界框进行评估时。MIPNet显著优于SimpleBaseline，AP的改进范围为7。七到十5，跨各种架构和输入大小。类似地，对于HRNet，性能增益在7. 七到九观察到4个APHGG [19]（自下而上方法，多尺度测试）报告了OCHuman的当前最新结果，如表5所示。此外，我们还使用OCHuman上的人员检测器盒评估了MIPNet，其中相同的脊椎骨作为基线以进行公平比较。具有ResNet 101主干和YOLO边界框的MIPNet比OPEC-Net高5倍。测试集上的9AP。当使用更快的R-CNN边界框时，MIPNet的性能比HRNet和HGG高5倍。3AP和6。5AP，分别在测试集上。这些改进是显著的，据我们所知，这是第一次自上而下的方法在OCHuman上使用多尺度测试超过了最先进的自下而上的方法图8显示了OCHuman的几个示例的定性结果，突出了MIPNet在挑战性条件下恢复多个姿势的有效性人体探测器输出的稳健性：自上而下方法的性能通常由人类检测输出的质量来门控。我们分析了HRNet和MIPNet的鲁棒性，在图中的OCHuman上具有不同的检测器置信度。五、正如预期的那样，HRNet性能下降，因为低置信度的边界框被过滤掉，导致对被遮挡的人的错过检测。具体而言，HRNet性能从37。8AP（30637AP方法拱APAP50 AP75 APM APL ARSBL†MIPNet†转轴-50转轴-5056.364.4（+8.1）76.1 61.2 66.4 56.3 61.86.0 70.4 66.8 64.4 72.SBL†MIPNet†R-101R-10160.568.2（+7.7）77.2 66.668.3 60.5 64.87.4 75.1 67.0 68.2 75.SBL†MIPNet†R-152R-15262.470.3（+7.9）78.3 68.168.3 62.4 66.88.6 77.9 66.9 70.2 77.SBL？MIPNet？转轴-50转轴-5055.865.3（+9.5）74.8 60.4 64.7 55.987.5 72.2 66.0 66.3 74.SBL？MIPNet？R-101R-10161.670.3（+8.7）77.2 66.6 62.1 61.6 6588.4 77.1 64.1 70.4SBL？MIPNet？R-152R-15264.272.4（+8.2）78.3 69.1 66.5 64.289.5 79.5 67.7 72.5 79人力资源网†MIPNet†H-32轰炸机63.179.4 69.0 64.2 63.1 67.3129−方法Cocovaltest人群姿势valtestOCHumanvaltest与自顶向下方法的比较，ResNet 101 + YOLO-v3MaskRCNN [13]-六十四8-五十七2-20块2[23]第二十三话-七十1-61岁0--JC-SPPE [23]-七十9-66岁。0--[35]第三十五话-七十二2-68岁5-二十七岁5OPEC-Net [35]-七十三。9-七十6-29岁1SBL [44]-七十三。7-六十岁。8-二十四岁1MIPNet（我们的）七十二774岁263岁468岁1三十二8三十五0与自顶向下方法的比较，HRNet-W 48 -384+更快的R-CNNHRNet [40]七十六。375. 5 68岁069岁。3三十七8三十七2MIPNet（我们的）七十六。375.768岁8七十0四十二0四十二5与自下而上方法的比较，多尺度[2，1，0. 五、不良事件[29]HghrHRNet [8]−67岁1六十五5七十5−-−67岁6四十0-三十二8-HghrHRNet+UDP [5]HGG [19]−68岁3七十567岁6--68岁2--41岁8-三十六0MIPNet（我们的，自上而下）七十六。375. 7 68岁8七十0四十二0四十二5表5：在各种数据集上使用来自人类检测器的边界框与现有技术方法的比较。其他数字来自相应的出版物。边界框）到32。8 AP（6644个边界框），当检测器置信度从0变化到0时。9 .第九条。由于HRNet仅能够提供每个边界框的单个输出，因此平均精度下降对应于对被遮挡人员的误检测。相比之下，MIPNet维护相对稳定的性能（下降1个AP），如图所示在图5中，对于相同的输入。由于MIPNet可以预测多个实例，因此它可以恢复被遮挡的人的姿势配置，尽管误检测其对应的边界框。这是由所提出的MIPNet提供的期望属性5. 讨论与双头基线的比较：我们在表6中比较了MIP- Net与具有主股骨头（λ=0）和次股骨头（λ=1）的双股骨头基线。为了分析头部容量在多实例预测中的影响，我们创建两个基线：两个头（轻）和两个头（重）。MIPNet在 OCHuman 数据集上的表现始终优于 Two-Heads基线。更多详情请参考补充资料。连续λ的可视化：MIPNet在使用λ的one-hot表示训练MIPNet之后，在推理期间，我们使用[λ，1λ]的软表示作为MIPNet的实例选择器。图6示出了当λ从0变化到1时，预测的关键点如何在边界框内从前景人逐渐移位到另一姿势实例。3130表6：使用HRNet-W32主干（具有256192输入分辨率和地面实况边界框）在val集上与Two-Head基线（轻，重）和HRNet进行图6：当λ在推理过程中从0变化到1时，关键点（蓝色）逐渐从前景人物转移到边界框内的其他姿势实例。图7：MIPNet在某些情况下失败，边界框中的多个人之间存在显著的比例差异。局限性：在一些情况下，MIPNet可能由于给定边界框中的各种姿势实例的尺度的大差异而失败，如图7所示。6. 结论自上而下的2D姿态估计方法在输入边界框内做出单个人的关键虽然这些方法已经显示出令人印象深刻的结果，但是单人假设限制了它们在具有遮挡的拥挤场景中良好执行的能力。我们提出的多实例姿态网络，MIPNet，使自上而下的方法来预测多个实例为一个给定的输入。MIPNet在附加网络参数的数量方面是有效的，并且在输入边界框的质量方面是稳定的MIPNet在具有显著拥挤和闭塞的挑战性数据集上取得了最先进的结果。我们认为，预测多实例的概念是一个重要的概念变化，并将启发一个新的研究方向自顶向下的方法。AP0AP75OCHumanAP AP50 AP75HRNet28.5M76.5 93.583.7 63.1 79.469.0双头（轻型）28.6M76.7 93.484.0 64.0 78.771.2双头（重型）48.9M77.1 94.185.5 69.8 84.574.9MIPNet28.6M77.6 94.485.3 72.5 89.279.43131图8：OCHuman值集的定性结果每个图像（从左到右）显示输入边界框、HRNet预测和MIPNet预测。由于遮挡，HRNet经常错过背景中的人，该人由MIPNet恢复。请参见补充中的其他结果。3132引用[1] Mykhaylo Andriluka，Umar Iqbal，Eldar Insafutdinov，Leonid Pishchulin ， Anton Milan ， Juergen Gall ， andBernt Schiele.Posetrack：人体姿态估计和跟踪的基准在IEEE计算机视觉和模式识别会议论文集，第5167-5176页，2018年。2[2] Mykhaylo Andriluka，Leonid Pishchulin，Peter Gehler，and Bernt Schiele. 2D人体姿态估计：新的基准和最先进的分析。IEEE计算机视觉与模式识别会议，2014年6月。一、二[3] Z Cao、T Simon、S Wei和Y Sheikh。利用局部仿射场进行实时多人二维位姿估计。corr abs/1611.08050。arXiv预印本arXiv：1611.08050，2016年。第1、3条[4] Marc-Andre 'Carbonneau ， Veronika Cheplygina ， EricGranger和Ghyslain Gagnon。多实例学习：问题特征和应用的调查Pattern Recognition，77：329-353，2018。3[5] 瑞奇 · 卡鲁阿纳多任务学习。 Machine learning ， 28（1）：41-75，1997. 3[6] Yilun Chen，Zhicheng Wang，Yuxiang Peng，ZhiqiangZhang，Gang Yu，and Jian Sun.用于多人姿态估计的级联金字塔网络在IEEE计算机视觉和模式识别会议论文集，第7103-7112页，2018年。第1、3条[7] Bowen Cheng ， Yunchao Wei ， Honghui Shi ， RogerioFeris，Jinjun Xiong，and Thomas Huang.重温rcnn：唤醒更快的 rcnn 的分类能力在欧洲计算机视觉会议（ECCV）的会议记录中，第453-468页3[8] Bowen Cheng ， Bin Xiao ， Jingdong Wang ， HonghuiShi，Thomas S Huang，and Lei Zhang.上级网络：用于自下而上人体姿态估计的尺度感知表示学习。arXiv预印本arXiv：1908.10357，2019。一、三、七[9] Xuangeng Chu，Anlin Zheng，Xiangyu Zhang，and JianSun.拥挤场景下的检测：一个建议，多种预测。在IEEE/CVF计算机视觉和模式识别会议论文集，第12214-12223页，2020年。3[10] Alexey Dosovitskiy和Josip Djolonga。你只训练一次：深度网络的损失条件训练在2019年国际学习代表会议上。3[11] 方浩树，谢淑琴，戴玉荣，陆策武。区域多人姿态估计。在IEEE计算机视觉国际会议论文集，第2334-2343页，2017年。3[12] RızaAlpGuüler、 NataliaN ev er ov a 和 IasonasKokkinos。密度：野外密集的人体姿势估计。在IEEE计算机视觉和模式识别会议论文集，第7297-7306页，2018年。2[13] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossBGirshick. 面具 R-CNN 。 corr abs/1703.06870（2017）。arXiv预印本 arXiv：1703.06870，2017。一、三、七[14] 杰虎，李申，孙刚。压缩-激励网络。在IEEE计算机视觉和模式识别会议论文集，第7132-7141页4[15] Junjie Huang，Zheng Zhu，Feng Guo，and Guan Huang.魔鬼就在细节中：探讨人体位姿估计的无偏数据处理。在IEEE/CVF计算机视觉和模式识别会议论文集，第5700-5709页7[16] 黄少立、龚明明、陶大成。用于关键点定位的粗-精网络在IEEE计算机视觉国际会议论文集，第3028-3037页第1、3条[17] Eldar Insafutdinov、Leonid Pishchulin、Bjoern Andres、Mykhaylo Andriluka和Bernt Schiele。Deepercut：更深、更强、更快的多人姿势估计模型。欧洲计算机视觉会议，第34-50页。施普林格，2016年。3[18] Umar Iqbal和Juergen Gall。利用局部关节-人关联的多人姿态估计。在European Conference on Comp

下载后可阅读完整内容，剩余1页未读，立即下载