魔鬼在细节中：无偏数据处理提升人体姿态估计

57 浏览量更新于2023-10-25 收藏 660KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5700魔鬼在细节中：深入研究人体姿态估计的无偏数据黄俊杰，1朱征，2郭峰，1黄冠11XForwardAI科技有限公司，清华大学，北京，中国{junjie.huang，feng.guo，guan.huang}@ xforwardai.com，zhengzhu@ieee.org摘要近年来，自顶向下的方法在人体姿态估计中占据主导地位。数据处理作为训练和推理的一个基本组成部分，据我们所知，在姿态估计界还没有系统地考虑过。本文针对这一问题进行了研究，发现自顶向下的姿态估计方法的难点在于有偏数据的处理。具体而言，通过研究现有方法中的标准数据处理（主要包括数据转换和编解码），我们发现普通的翻转策略在推理中得到的结果与原始结果此外，在训练和推理过程中，标准编码解码存在两个问题耦合在一起，显着降低姿态估计性能。在定量分析的基础上，我们制定了一个原则性的方法来解决这一困境。该方法将数据处理从离散空间转换到基于单位长度（像素间距）的连续空间，并采用分类与回归相结合的方法进行编解码。将两者结合起来，可以实现人体姿态估计的无偏数据处理（UDP）。UDP不仅大幅度提高了现有方法的性能，而且在结果再现和将来的实验中也起着重要的作用。探索作为一种与模型无关的方法， UDP 将SimpleBaseline-ResNet50-256×192提升了1.5 AP（70.2到71.7）和HRNet-W32-256×192× 1.7 AP（73.5至75.2）COCO测试开发套件。 HRNet-W48-384 ×288配备UDP实现76.5 AP并设置新状态-最先进的人体姿态估计。源代码是公开的，可供进一步研究1。1https://github.com/HuangJunJie2017/UDP-Pose757050 40 30 20 100GFLOPS图1.应用所提出的无偏数据处理（UDP）时，对COCO测试开发集的AP的改进1. 介绍人体姿态估计对于视频监控[15]和动作识别[4，37，36]等视觉理解任务近年来，研究界见证了从单人[2，10，30，29，31，21，33]到多人姿态估计的重大进步[2413，3，23，6，26，20，7]，其中后者可以是gener-盟友归类为自下而上[24，13，3，20，22，7]和自上而下的方法[23，6，11，32，26]。虽然大多数最先进的自上而下的方法[6，32，26，16]专注于网络结构的设计，但我们关注的是数据处理方面，将其视为另一个基本组件。所有的视觉识别任务都是与数据处理相伴而生的，并且通常共享数据处理方法，如数据扩充和不同坐标系之间的转换。然而，当与分类[25]、对象检测[17]和语义分割[19，8]等其他任务相比时，由于评估原理，人体姿势估计算法的性能对数据处理在HRNet-W32HRNet-W48HRNet-W32HRNet-W32简单-R50256x192384x2882HRNet-W32简单-R50+1.5+1.7W48HRNet--R50简易型-R15CPNSimple-R50简单15252Simple-R1Simple-R+UDP原始et-W48et-HRNHRNMSPNAP（COCO测试开5701在人体姿态估计的评估中，基于地面真实标签和预测结果之间的位置偏移来计算度量[17，1]，其中由数据处理引起的小的系统偏差将降低姿态估计器的性能。据我们所知，数据处理还没有系统地考虑在人体姿态估计社区。当讨论这个主题时，我们发现大多数最先进的系统[6，32，16，26]都遇到了同样的两个常见问题：i）通过使用翻转策略获得的推理结果不对齐，这是通过在离散空间中分析这个问题并利用像素来测量数据转换中图像的大小而得出的。ii）分别在训练和推断期间的标准编码-解码中的统计误差。我们以SimpleBase- line [32]和HRNet [26]中使用的有偏数据处理为例来解决这些问题。量化，我们表明，上述两个问题耦合在一起，显着降低姿态估计性能。基于分析结果，提出了一种无偏数据处理（UDP）的原则，以解决这一困境。具体来说，我们分析了连续空间中的数据变换，并使用单位长度（像素之间的间隔）代替像素来测量图像大小，从而在推理中执行翻转时得到对齐的姿态结果此外，在组合分类和回归姿态估计器[23]的激励下值得注意的是，UDP一种模型无关的方法，它可以用于大多数自顶向下的管道。在具有挑战性的COCO人体姿态估计数据集上，所提出的UDP在竞争对手中设置了新的最先进的性能。如图1所示，在COCOtest-dev set上，我们的方法促进了Simple-在ResNet50-256×192和ResNet152-256×192配置中，基线分别为1.5 AP（70.2至71.7）和1.0 AP（71.9至对于W32-256×192和W48-256×192配置内的HRNet，UDP分别获得 1.7 AP（73.5至75.2）和1.4 AP（74.3至75.7）的增益-活泼地配备UDP的HRNet-W48-384×288实现了76.5 AP（1.0改进），并为人体姿态估计设定了新的最先进水平。本文的主要贡献可以概括如下：1. 定量分析了人体姿态估计中常见的有偏数据处理方法。有趣的是，我们发现标准数据转换和编解码中的系统误差耦合在一起，显著降低了自顶向下流水线的性能据我们所知，这是第一个系统地解决姿势社区数据处理的工作。2. 在此基础上，提出了一种基于单位长度测量的无偏数据处理（Unbiased Data Processing，UDP）策略，该策略采用分类与回归相结合的编解码方法。所提出的UDP是一种模型无关的策略，可以用于大多数自顶向下的姿态估计器。我们希望UDP将结果再现和未来的研究有意义。3. 在具有挑战性的COCO人体姿态估计数据集上，UDP在可变的主干和输入大小之间大幅提升了最先进的水平具体来说，HRNet-W48-384 ×288配备UDP，76.5 COCO测试开发集上的AP并设置新的用于人体姿态估计的最新技术。值得注意的是，我们的方法在训练和推理过程中只增加了微不足道的2. 相关工作自下而上的方法通过预测不同类别关键点的热图来检测输入图像中所有人的无身份关节，然后将它们分组到人实例中。OpenPose [3]构建了一个包含两个分支的模型来预测关键点热图和它们之间的成对关系（部分亲和字段）。Newell等人[20]使用一个网络进行热图预测和分组。通过关联嵌入来完成映射，该关联嵌入为每个关键点分配一个标签，并基于标签向量之间的L2距离对关键点进行分组。MultiPoseNet [14]同时实现了人体检测和姿态估计，并提出PRN通过每个人的边界框对关键点进行分组。HigherHR-Net [7]维护高分辨率的特征图，有效地提高了预测的精度。自顶向下方法通过两个阶段的过程实现多人姿态估计，包括通过人检测器获得人的边界框和预测这些框内的关键点位置CPN [6]和MSPN[16]是COCO关键点挑战的领先方法，采用级联网络来细化关键点预测。SimpleBasline [32]添加了一些去卷积层来放大输出特征的分辨率。该方法简单，但能有效地提高性能HRNet [26]在整个过程中保持高分辨率表示，在公共数据集上实现最先进的性能。Mask R-CNN [11]构建了一个端到端的框架，并在性能和推理速度之间实现了良好的平衡。由于单人姿态估计是用固定尺度的补丁来执行的，因此大多数在多人流行基准上的最先进的性能是通过自顶向下的方法来实现的。自顶向下人体姿态估计中的数据处理主要包括数据转换、数据处理、数据压缩、数据压缩和数据压缩等。5702Sshb bb增强和编码-解码。数据转换是指在源图像、网络输入和输出等不同坐标系之间转换关键点位置。在此过程中，大多数最先进的方法[6，32，16，26]使用像素来测量图像的大小，导致在推理中使用翻转策略时结果不对齐。[32在网络输出坐标系统中，经验性地将来自翻转图像的结果移动1个像素以抑制预测误差。[6，16]通过在网络输入坐标系中将平均结果移动2个像素来实现类似的效果。这些补偿是有效的，但也是有限的。数据增广是一种常用的增加样本多样性的策略，有助于增强算法的鲁棒性。常见的增强策略包括随机旋转、随机缩放、翻转和半身[26]。所有的数据增强都是在从源图像到网络输入的数据转换最后，编码-解码指的是关节坐标和热图之间的变换，其在[29]中首次提出，并且已广泛用于最先进的方法[11，7，6，32，16，26]。在训练过程中，他们将地面实况编码成以关键点位置为中心的高斯分布热图。解码是指在推理过程中将网络预测的热图转换回关键点坐标。与直接预测关键点坐标[27]相比，该流水线显示出优越的性能，但引入了降低预测准确性的系统误差。相比之下，组合的分类和回归编码-解码范例[23]提供了一个无错误的入口，以进一步提高自顶向下方法的预测准确性。3. 人体姿态估计在网络输出图像空间中定义。在下面的部分中，我们使用上标p来表示以像素为单位测量的长度。否则，长度以与相应空间相关的单位长度测量。图像质量和对应的关键点坐标表示为我和K，尊重我。带帽子k的符号是网络工作对应的地面真值标签k的预测结果。3.1. 数据转换3.1.1标准数据转换分析数据变换意味着变换关键点位置，诸如在不同坐标系之间的裁剪、旋转、调整大小和翻转。现有的位姿估计方法都是采用像素来度量图像的大小，而图像的大小是在一个离散的空间中。然而，对于定位任务，像素是图像平面（即连续空间）中的一些样本点。例如，如果图像的大小是（pw，ph），则其在连续图像中的大小平面为（pw−1，ph−1）。以像素为尺度-的情况下，在参考[32，26]期间执行事实上的在训练过程中，自顶向下的管道首先将源图像样本转换为网络输入空间中的增强样本我们将网络输入图像矩阵表示为iI，大小为（pwi，phi），相应的将kepoint坐标作为ik。如图所示图2，当将网络输入映射到源图像时空间中，源图像中的内容的大小可以被公式化为具有中心（sxb，syb）和尺度（swb，shb）的Os-Xs-Ys坐标系中的边界框（图2中源图像空间中的绿色框）。然后，通过标准方法[32，26]获得的ik可以公式化为：nwicθ−pwisθpwi（−sxcθ+sysθ+0. 5sw）swbswbswbb b b在本节中，我们分析标准数据处理-从两个方面研究目前最先进的方法ik=phisθshbphicθshbphi（−sx sθ − sy cθ +0. 5sh )skB数据转换和编解码。在此基础上，提出了无偏数据处理策略0 0 1（一）从而有效地提高姿态估计器的性能。符号定义在本文中，采用三种坐标系：源图像坐标系（即，原始其中cθ和sθ分别表示cos（θ）和sin（θ）θ是旋转增强中的角度从细节推断-这一转变的意义可以在附录中找到。并且网络输入矩阵中的每个像素可以如下回溯到源图像：图像坐标系，表示为Os-Xs-Ys），网络Wcθsh sθsss输入坐标系（即，经裁剪/调整大小的图像坐标，坐标系，表示为O-X-Y）和网络输出Bpwix=−wbsθB菲律宾hbcθ-0。5w b cθ−0。5hb sθ+xb0的情况。5 sw sθ − 0。5shcθ+syix我我我pwiphib b b坐标系（即，热图坐标系，去记为Oo-Xo-Yo）。这三个坐标系定义了0 0 1（二）对应的三个空间：源图像空间（由上标s表示）、网络输入图像空间（由上标i表示）和网络输出图像空间（由上标o表示）。与编码-解码其中ix是图像矩阵iI中每个像素的坐标。如图2所示，标准增广样本可以等效地视为由以下两个步骤产生的结果：S57031soo标准数据转换预测翻预测翻转源图像空间移动一个像素伊什网络输入空间网络输出空间公司简介偏置提出预测翻预测翻无偏图2.标准有偏数据转换和建议无偏数据转换的过程说明。假设网络输入大小为（pwi，phi）=（8，8），并且假设步幅因子s为2。1. 从源图像中裁剪感兴趣区域，并将其裁剪成（pwi+1，phi+1）的形状（图2中网络输入空间中的绿色框2. 在右边缘和下边缘上裁剪上述结果1个像素，得到大小为（pwi，phi）的图像。通过该方法生成的训练样本在语义上与原始样本对齐（即，姿态注释仍然处于正确的位置）。当在大小为（pwo，pho）的热图中产生地面实况时，标准方法通过以下方式变换输入关键点位置：1. 将网络输出热图的大小从（pwo，pho）填充到（pwo+1，pho+1）（图2中网络输出空间中2. 将上述填充热图映射到源图像中的对应边界框。理想情况下，预测结果sk等于sk。然而，当使用翻转策略时，结果会有偏差。标准方法翻转网络输入图像，然后关键点ik位于：wi−1步幅因子s=pwi/pwo=phi/pho：ok=1ik（3）如果k=k0 10kik（5）0 0 1S其中是网络输出热图中的关键点坐标。在训练过程中，网络学习推断以okposi为中心的响应图的模式其中k是关键点ik在翻转图像中的对应位置。根据等式3，标准方法预测输出热图中的关键点为：1根据输入的图像内容，在推理阶段，标准方法映射预测-ofk=如果k（6）S通过以下操作将结果缩放到源图像空间然后，翻转图像的最终结果为可以在-Wbcθshbsθ-0。5sw cθ− 0。5sh sθ + sx通过向后翻转来保持：pwo帕霍b b bsk=−swbsθshbcθ0的情况。5sw sθ −0。5sh cθ+sy阿罗克−10pw−n1 0 −s−1pwophob b bos0 0 1（四）乌克里夫其中，skk是k个点ts在源图像空间。这种转换也可以是等价的。alently制定成两个步骤：（七）在这里，okf与okf不对，在O-X方向上有− s−1的偏移。如果我们直接平均−10p=10010ofk 10阿罗克00100157042sS我F如[32，26]中所报道的，ok和okf在热图上生成地面实况标签时，我们乌戈拉ok+ok=2（八）应该在连续空间中测量映射，并利用因子t=（pwi−1）/（pwo−1）=（phi−1）/（pho−1）：Oo-Xo 中的相应误差方向是：ok=1ik（14）不oe（x）=|x（ok）−x（okas−1）|为|−|（九）2s文中给出了翻转图像的结果正是标准方法[32，26]将翻转结果移动1在平均操作之前的像素，以缩小该间隙：与原始结果Ok对齐。最后，预测在源图像空间中的skk应该通过以下方式获得：ing逆变换：10 11 01Wbcθshbsθ-0。5sw cθ− 0。5sh sθ+sxθokf+=0 10okf=010万美元（十）pwo−1pho−1b b bsk=−swbsθshbcθ0的情况。5sw sθ −0。5sh cθ+sy阿罗克00 10 0 1pwo−1pho−1b b b在这种情况下，最终误差可以减少到oe（x）′=|1|. oe（x）′2时，这在大多数现有的方法中是有意义的。直观地说，对oe（x）′的补偿0 0 13.2. 编码和解码（十五）使结果更加准确。然而，真正的骗局--这种直接的补偿是非常有限的。我们将在3.2节中详细分析这种低效率。此外，当将oe（x）′映射回源图像坐标系（Os-XsYs）并考虑θ=0的方程4时，我们有：上述分析是根据前-关键点位置和热图之间的编码-解码过程是精确的（即，e. k=k）。然而这个前提条件首先，我们将研究系统误差（即，e. |k−k|）在标准的编解码和shows′1swbswb这种系统误差如何影响上述的控制，e（x）为|2s×pw|为|2pw|（十一）结论仅网络输出热图坐标系统我我其中swb在推理过程中是固定的。所以更大的网络在本小节中使用项Oo-Xo Yo输入大小可以帮助抑制由以下因素引起的预测误差oe（x）′。在另一些世界中，标准方法从更高的输入分辨率中受益更多，而从更低的输入分辨率中遭受更多的精度损失。3.1.2拟议的数据转换在本文中，提出了一个原则性的方法来解决不对准的问题。具体地说，我们采用单位长度作为图像尺寸的度量标准，它被定义为在特定空间中相邻两个像素之间的距离。基于这个概念，3.2.1标准编解码标准编码方法。形式上，给定热图中的真实标签点k=（m，n），[26，32]首先对标签点坐标进行插值以获得整数类型的标签坐标kq：kq=（mq，nq）=R（k）=（R（m），R（n））（16）其中R表示舍入操作。然后，以kq为中心的热图由下式生成：（x-mq）2+（y-nq）2网络输入空间应通过以下方式获得H（x，y，kq）=exp（−（17）转换：ik =其中（x，y）表示热图中每个元素的坐标，δ表示固定的空间方差。pw−1−pwi−1pwi−1（−sxcθ+sysθ+0. 5sw）swb/cθswb/sθswbb b bnhi−1phi−1phi−1（−sxsθ−sycθ+0. 5sh）sk标准解码方法。如果有一张训练有素的网-shb/sθshb/cθshbb b在理想条件下，0 0 1（十二）的H=H，[26，32]通过首先定位最高响应来解码它并且网络输入图像矩阵中的每个像素应该通过以下方式回溯到源图像空间：kq=（mq，nq）=argmax（H）（18）Wbcθshbsθ-0。5sw cθ− 0。5sh sθ+sxθ根据等式17和等式18，预测的pwi−1phi−1bb b热图的x方向上的关键点位置为：5705sx=−swbsθshbcθ0的情况。5sw sθ −0。5sh cθ+sy第十章pwi−1phi−1b b b0 01（十三）m=F（m）如果m-F（m）<0. 5C（m）其他（十九）5706Q2σ22s2sXy其中，F和C分别表示下限运算和上限运算。由于kq的理想位置是kq，假设k在图像平面中均匀分布，则每个方向上的期望误差为E（|m −mq|）=E（|n−nq|）=1/4单位长度，变化量为V（|m−mq|）=V（|n−nq|）=1/48。为了减少这个错误-3.2.2建议的编码-解码本文受文献[23]的启发，提出了一种分类与回归相结合的编解码方法，其误差期望值为零。每个地面实况标注点k=（m，n）被编码为一个热图：ror，[26，32]根据响应的梯度，在每个方向上将kq移动0.25单位长度H(x,y,k) =.1 如果（x-m）20否则+（y−n）2

下载后可阅读完整内容，剩余1页未读，立即下载