PersonLab：自下而上的人体姿势估计和实例分割模型

190 浏览量更新于2023-10-13 收藏 2.81MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

PersonLab：使用自下而上、基于部件的几何嵌入模型进行George Papandreou、Tyler Zhu、Liang-Chieh Chen、SpyrosGidaris、Jonathan Tompson和Kevin MurphyGoogle Research{gpapan，tylerzhu，lcchen，spyrosg，tompson，kpmurphy}@google.com抽象。我们提出了一种无框自下而上的方法，用于多人图像中的人的姿势估计和实例分割的任务，使用一个有效的单镜头模型。建议的PersonLab模型处理语义级推理和对象的部分关联使用基于部分的建模。我们的模型采用了一个卷积网络，该网络可以学习检测单个关键点并预测它们的相对位移，从而使我们能够将关键点分组为人物姿势实例。此外，我们提出了一个部分诱导的几何嵌入描述符，它允许我们将语义人像素与其对应的人实例相关联，从而提供实例级的人分割。我们的系统是基于一个完全卷积的架构，并允许有效的推理，与运行时间基本上独立的人数存在于场景中。仅在COCO数据上训练，我们的系统使用单尺度推理实现了0.665的COCO测试开发关键点平均精度，使用多尺度推理实现了0.687，显著优于所有以前的自下而上的姿势估计系统。我们也是第一个自下而上的方法，报告竞争力的结果，COCO实例分割任务中的人类，实现了人类的平均精度为0.417。关键词：人体检测和姿态估计，分割和分组.1介绍最近计算机视觉的快速发展使社区能够超越经典任务，例如边界框级别的面部和身体检测，转向对不受约束环境中的人进行更详细的视觉理解在这项工作中，我们以统一的方式处理多人检测，2-D姿态估计和实例分割的任务给定在所述电子图像中潜在地杂乱且连续的图像，我们的目标是同时识别每个实例，许多计算机视觉应用程序，如智能照片编辑，人和2G. Papandreou，T.朱湖，加-地C. Chen，S.放大图片作者：J. 墨菲活动识别、虚拟或增强现实和机器人技术可以从这些具有挑战性的任务中受益。有两种主要的方法来解决多人检测，姿态估计和分割。自上而下的方法通过借助于边界框对象检测器识别和粗略地定位个体人实例开始，随后是边界框内的区域中的单人姿势估计或二元前景/背景分割。相比之下，自下而上的方法开始于本地化无身份语义实体（分别是单独的关键点建议或语义人分割标签），然后将它们分组为人实例。在本文中，我们采用后一种方法。我们开发了一个无框的完全卷积系统，其计算成本基本上与场景中存在的人数无关，并且仅取决于CNN特征提取主干的成本。特别是，我们的方法首先以完全卷积的方式预测图像中每个人的所有关键点。我们还学习预测每对关键点之间的相对位移，还提出了一种新的经常性方案，大大提高了长期预测的准确性一旦我们定位了关键点，我们就使用贪婪解码过程将它们分组到实例中。我们的方法从最有信心的检测开始，而不是总是从一个独特的地标，如鼻子开始，所以它即使在混乱中也能很好地工作除了预测稀疏关键点之外，我们的系统还预测每个人的密集实例分割掩码。为此，我们训练我们的网络来预测实例不可知的语义人分割图。对于每个人像素，我们还预测到对应人实例的K个关键点中的每一个的偏移向量对应的向量场可以被认为是几何嵌入表示，并在每个人实例周围诱导吸引盆，从而产生有效的关联算法：对于每个像素xi，我们预测x i所属的对应人的所有K个关键点的位置;然后将其与所有候选检测到的人j（根据平均关键点距离）进行比较，由关键点检测概率加权。如果这个距离足够小，我们将像素i分配给人j。我们在标准COCO关键点数据集[1]上训练我们的模型，该数据集用12个身体和5个面部关键点来标记多个人。我们显著优于之前最好的自下而上的关键点定位方法[2]，将关键点AP从0.655提高到0.687。此外，我们是第一个自下而上的方法来报告竞争结果的COCO实例分割任务的人类。我们得到0.417的掩模AP，其优于[3]的强自顶向下FCIS方法，其得到0.386。此外，我们的方法是非常简单的，因此快速，因为它不需要任何第二阶段基于框的细化，或聚类算法。因此，我们相信它将对各种应用非常有用，特别是因为它适合在移动电话中部署。PersonLab：人体姿态估计和实例分割32相关工作2.1姿态估计根据最近的深度卷积网络趋势[4，5]，早期成功的人体姿势估计模型以基于部件的图形模型[6，7]的推理机制为中心，通过可配置部件的集合表示人。在这项工作之后，已经提出了许多方法来开发易于处理的推理算法，用于解决捕获身体部位之间丰富依赖性的能量最小化[8虽然这项工作的前向最近，基于现代大规模卷积网络的模型在单人姿势估计[17-26]和多人姿势估计[27-34]方面都达到了最先进的性能。一般来说，文献中存在两种主要的姿态估计方法：自上而下（人第一）和自下而上（部件第一）。前者的例子包括G-RMI [33]，CFN [35]，RMPE [36]，Mask R-CNN [34]和CPN [37]。这些方法都预测关键点位置内的人包围盒获得的人检测器（例如，Fast-RCNN [38]、Faster-RCNN [39]或R-FCN [40]）。在自底向上的方法中，我们首先检测身体部位，然后将这些部位分组到人类实例。Pishchulin等[27]，Insafutdinovet al.[28][29]和Iqbaletal.[30]通过线性规划将多人姿态估计问题表示为部件分组和标记Cao等人[32]将从[31]修改的一元联合检测器与部分亲和性字段合并，并生成人物实例建议。Newell等人[2]提出关联嵌入以识别来自同一人的关键点检测。2.2实例分割例如分割的方法也可以分为两个自上而下和自下而上的范例。自上而下的方法利用最先进的检测模型来对掩模建议进行分类[41我们的方法是自下而上的，我们将像素级预测与每个对象实例相关联。许多最近的模型提出了类似形式的实例级自底向上聚类。例如，Lianget al.使用无命题网络[52]对语义分割结果进行聚类，以获得实例分割。Uhrig等[53]首先，在实例分割结果中，按照每个实例分割的方向进行解码，并采用模板匹配来对实例分割结果进行Zhang等人[54，55]通过对补丁内的对象深度排序进行编码来预测实例ID，并使用该深度排序来对实例进行聚类。Wu等[56]使用预测网络，然后使用Hough变换类方法来执行预测实例聚类。在这项工作中，我们同样进行了霍夫投票的多个预测。在稍微不同的配方中，Liuet al.[五十七]4G. Papandreou，T.朱湖，加-地C. Chen，S.放大图片作者：J. 墨菲分割和聚合来自密集的多尺度块的分割结果，并且将局部块聚合成完整的对象实例。Levinkov等人[58]将实例分割问题公式化为由图分解和节点标记组成的组合优化问题，并提出有效的局部搜索算法以迭代地细化初始解。实例-切割[59]和[60]的工作提出预测对象边界以分离实例。[2，61，62]将学习的嵌入空间中具有相似值的像素预测分组Bai和Urtasun [63]提出了一种分水岭变换网络，该网络生成一个能量图，其中对象实例表示为盆地。Liu等[64]提出了顺序分组网络，将实例分割问题分解为若干子分组问题。3方法图1给出了我们的系统的概述，我们将在下面详细描述3.1人物检测和姿态估计我们开发了一种无框自底向上的方法，用于人检测和姿态估计。它由两个连续的步骤组成，检测K个关键点，然后将它们分组为人物实例。我们以监督的方式训练我们的网络，使用COCO数据集中K= 17个面部和身体部位的地面实况注释关键点检测此阶段的目标是以实例不可知的方式检测属于图像中任何人的所有可见关键点。为此，我们遵循[33]的混合分类和回归方法，使其适应我们的多人设置。我们生成热图（每个关键点一个通道）和偏移（每个关键点两个通道，用于水平和垂直方向上的位移设xi为图像中的2-D位置，其中i = 1，. . . N是图像中的位置的索引，N是像素的数量。设DR（y）={x：x−y≤R}是以y为中心的半径为R的圆盘。此外，k是j的k个顶点的2-D顶点，其中k = 1，. . . ，M，其中M是图像中的人实例的数量。对于每个关键点类型k = l，. . . ，K，我们将二元分类任务设置为如下。我们在pk（x）=1ifx∈DR（yj，k）处对任意的人实例j进行p k（x）的预处理，否则pk（x）= 0.因此，我们有K个独立的密集二进制分类任务，每个关键点类型一个。每个都相当于预测图像中任何人的特定关键点类型周围的半径为R的圆盘。对于本文中报道的所有实验，盘半径值被设置为R= 32像素，并且与人实例尺度无关。我们特意选择了一个不随实例大小缩放的磁盘半径，以便在分类损失中平等地权衡所有人实例。在训练期间，我们将热图损失计算为沿图像PersonLab：人体姿态估计和实例分割5姿态估计模块霍夫投票Heatmaps霍夫阵列输入图像短程偏移CNN中等偏置检测到的人体姿势实例分割模块人树结构运动图人物分割模板长程偏移实例分割实例分割解码人体姿态解码Fig. 1.我们的PersonLab系统由CNN模型组成，该模型预测：（1）关键点热图，（2）短程偏移，（3）中程成对偏移，（4）人分割图，和（5）长程偏移。前三个预测由姿势估计模块使用，以便检测人类姿势，而后两个连同人类姿势检测一起由实例分割模块使用，以便预测人实例分割掩码。位置，并且我们在整个图像上反向传播，仅排除包含尚未用关键点完全注释的人的区域（COCO数据集中的人群区域和小规模人段）。除了热图之外，我们还预测短程偏移向量Sk（x），其目的是提高关键点定位精度。在关键点盘内的每个位置x处并且对于每个关键点类型k，短程2-D偏移矢量或Sk（x）=yj，k-x_p〇n_s从图像点x到最近的人实例j的k-t_h关键点，如图1B所示。1.我们生成K个这样的向量场，在每个图像位置和关键点独立地解决2-D回归问题。在训练期间，我们用L1损失惩罚短距离偏移预测误差，在k个点中的sx∈DR（yj，k）上对ly上的误差进行平均和反向传播。我们将短程偏移（以及本文中描述的所有其他回归任务）中的rr或s划分半径R = 32个像素，以便将它们归一化并使它们的动态范围与热图分类损失相称。我们通过Hough投票将热图和短程偏移聚合成2-D Hough得分图hk（x），k= 1，. . .，K，使用独立的霍夫累加器6G. Papandreou，T.朱湖，加-地C. Chen，S.放大图片作者：J. 墨菲短程偏移x X'L目标关键点初始中距偏移M0k，精细中距炮检距M1k，K源关键点位置：x(a)(b)（c）第（1）款图二.中等偏置。(a)从RightEl- bow关键点周围开始的初始中间范围偏移，它们指向RightShoulder关键点。(b)使用短程偏移的中程偏移细化（c）改进后的中等偏置对于每个关键点类型。每个图像位置对每个关键点通道投一票k，其权重等于其激活概率，1hk（x）=πR2Σi=1：Npk（xi）B（xi+Sk（xi）−x），（1）其中B（·）表示不存在可靠性策略。在图1中示出了在高度局部化的霍夫评分图hk（x）中的结果。1.一、将关键点转换为人物检测实例中等成对偏移。分数图hk（x）中的局部最大值用作人物关键点的候选位置，但它们不携带关于实例关联的信息。当多个人实例存在于图像中时，我们可以查看节点，并收集属于每个个体实例的关键点为此，我们向我们的网络添加单独的成对中间范围2-D偏移场输出Mk ， l（x），其被设计为连接关键点对。我们计算2（K-1）个这样的偏移场，每个偏移场用于连接在人的树结构运动图中彼此相邻的关键点对（k，l）的每个1和2.具体地，从第k个到第l个人实例j的成对偏移字段的监督训练目标由yMk，l（x）=（yj，l-x）I（x∈DR（yj，k））给出，因为目标是允许我们从同一个人实例j的第k个关键点移动到第l个关键点。在训练期间，仅当两个关键点都存在于训练示例中时才定义该目标回归向量。我们计算在源节点x∈DR（yj，k）上预分配的序列的平均L1损失并通过网络反向传播。循环偏移量细化。特别是对于大的人实例，运动学图的边缘连接关键点对，诸如RightElbow和Right-Shoulder，其在图像中可能是几百像素远的，使得难以生成准确的回归。我们已经成功地解决了这个重要的问题，通过使用PersonLab：人体姿态估计和实例分割7更精确的短程偏移，具体而言：Mk，l（x）←x′+Sl（x′），其中x′=Mk，l（x），（2）如示于图二、在我们的实验中，我们重复了两次这个细化步骤我们采用双线性插值对中间位置x′处的短距离偏移场进行采样，并将误差沿着中间距离和短距离输入偏移分支反向传播。我们以CNN输出激活的分辨率执行偏移细化（在上采样到原始图像分辨率之前），使该过程非常快。偏移细化过程大大降低了中间范围回归误差，如图2所示这是我们的方法中的一个关键新颖性，与以前的论文[28，32]相比，这极大地促进了分组并显著改善了结果，以前的论文[28，32]也采用成对位移来关联关键点。快速贪婪解码。我们已经开发了一种非常快速的贪婪解码算法，将关键点分组到检测到的人实例中。我们首先创建在所有K个关键点类型之间共享的优先级队列，其中我们将所有局部最大值的位置xi和关键点类型k插入具有高于阈值（在所有报告的实验中设置为0.01）的分数的霍夫分数图hk（x）中这些点用作用于开始检测实例的候选种子。然后，我们按照分数降序从队列中弹出元素。在每次迭代时，如果类型k的当前候选检测种子的位置X1在时间j’上的多个预定检测种子的抑制半径的圆盘Dr（yj’，k）内，则我们拒绝它;为此，我们使用r= 10个像素的非最大抑制半径否则，我们开始新的检测实例j，其中第k个关键点在yj上的p〇 siti处，k=xi，如seed。我们沿着运动学人物图的边跟踪这些中间距离的平面向量，以贪婪地连接广告k个点的对（k，l），其中yj，l=yj，k+Mk，l（yj，k）。值得注意的是，我们的解码算法并不优先处理任何关键点类型，这与总是使用相同关键点类型的其他技术（例如躯干或鼻子）作为种子用于生成检测。虽然我们已经根据经验观察到，在面向正面的人实例中的大多数检测从更容易定位的面部关键点开始，但我们的方法也可以鲁棒地处理人的大部分被遮挡的情况。关键点和实例级检测评分我们已经试验了不同的方法来为贪婪解码算法生成我们的第一个关键点级评分方法遵循[33]，并为每个关键点分配置信度得分sj，k=hk（yj，k）。该应用的一个示例是，可局部定位的关键点通常接收比可局部化差的关键点（如臀部或膝盖）高得多的分数。我们的第二种方法尝试校准不同关键点类型的得分它是由COCO关键点任务[1]中使用的对象关键点相似性（OKS）评估度量激励的，该评估度量使用不同的准确度阈值κk来惩罚不同关键点类型的定位错误。8G. Papandreou，T.朱湖，加-地C. Chen，S.放大图片作者：J. 墨菲′(a)（b）（c）图三.在人物分割掩码中定义的长范围偏移。(a)估计的人分割图。（b）鼻子目的地关键点的初始长范围偏移：人分割掩模的前景中的每个像素指向其所属的实例的鼻子关键点（c）用短程偏移量加以改进后的长程偏移量具体地，考虑具有关键点坐标yj，k的检测到的人实例j。Letλj是所述边界的区域的所述平方根，其按顺序包含第j个人物实例的所有检测到的关键点我们通过下式定义第k个关键点的期望OKS得分：sj，k =E{OKS j，k}=pk（yj、k）∫x∈D（yhk （x）exp.Σ（x-yj，k）2-2λ2κ2dx，（3）Rj，k）jk其中k（x）是定义在DR（yj，k）中的Hough范数。 X期望的OK关键点级别分数是我们对关键点存在的置信度的乘积，即OK关键点的置信度，给定关键点的概率。我们使用关键点得分的平均值作为实例级得分（1/K）Σjksj，k，由ynon-maximumsu pp presion（NMS）流出来。我们有一个-使用基于硬OKS的NMS [33]以及适用于来自[65]的关键点任务的软NMS方案来实现，其中我们使用尚未被较高得分实例要求的关键点的得分之和作为最终实例级得分，通过关键点的总数进行归一化Σsj=（1/K）k=1：Ksj，k[yj，k−yj′，k>r，foreveryjj]，（4）其中r= 10是NMS半径。在我们的实验中，我们在主要文件中报告了最佳性能的预期OKS评分和软NMS的结果，但我们在补充材料中包括消融实验。3.2实例级人物分割考虑到关键点实例的集合在同步检测中，我们的方法的分割阶段的关键点是识别属于人的像素（识别）并将它们与检测到的人实例相接下来，我们描述相应的语义分割和关联模块，如图1所示。4.第一章PersonLab：人体姿态估计和实例分割9(a)（b）（c）（d）见图4。从语义到实例分段：（a）图像;（b）人分割;(c)由到鼻子关键点的长程偏移定义的吸引盆地;（d）实例分割掩模。语义人分割我们以标准的全卷积方式处理语义人分割[66，67]。我们使用由单个1x1卷积层组成的简单语义分割头，其执行密集逻辑回归并在每个图像像素xi处计算其属于至少一个人的概率pS（xi）在训练过程中，我们计算并反向传播所有图像区域的逻辑损失的平均值，这些图像区域已经用人物分割图进行了注释（在COCO的情况下，我们排除了人群区域）。该模块的任务是将由语义分割模块识别的每个人像素与由人检测和姿势估计模块产生的关键点级检测相与[2，61，62]类似，我们遵循基于嵌入的方法来完成此任务。在该框架中，计算每个像素位置处的嵌入向量G（x）在以前的作品中，通常通过计算在不同图像位置处的嵌入向量对并使用损失函数来学习表示，这通常导致难以解释的嵌入表示，并且涉及解决需要仔细选择损失函数和调谐若干超参数（诸如对采样协议）的难学习问题在这里，我们选择了一个相当简单的几何方法。在带注释的人实例j的分割掩模内的每个图像位置x处，j为2-Dk，k=1，. . . ，K，我们定义集合向量的长度，或Lk（x）=yj，k-x，其中p从图像点x到对应实例j的第k个关键点的位置。(This与短距离预测任务非常相似，除了动态范围不同，因为我们需要网络从人体内的任何像素进行预测，而不仅仅是从人体内的任何像素进行预测。这两个任务之间存在着特殊的关系。当我们为这两种任务使用相同的网络时，性能会更差。我们计算K个这样的2-D向量场，每个关键点类型一个。在训练期间，我们使用L1损失来惩罚长距离偏移回归误差，仅在属于a的图像位置x处对误差进行平均和反向传播10G. Papandreou，T.朱湖，加-地C. Chen，S.放大图片作者：J. 墨菲单人对象实例。我们忽略背景区域、人群区域和被两个或更多个人物遮罩覆盖的像素。远程预测任务是具有挑战性的，特别是对于可能覆盖整个图像的在Sec。3.1中，我们循环地细化长距离偏移量，两次细化长距离偏移量，然后两次细化短距离偏移量Lk（x）←x′+Lk（x′），x′=Lk（x）和Lk（x）←x′+Sk（x′），x′=Lk（x），（5）在训练期间通过双线性扭曲函数反向传播。类似地，与等式（1）中的中间范围偏移细化。2、周期性长偏移距精化显著提高了长偏移距预测精度。图在图3中，我们示出了对应于鼻子关键点的长程偏移，我们看到长距离矢量场有效地将图像平面划分为用于每个人实例的吸引池。这促使我们将2·K维向量G（x）=（Gk（x））k=1，…K，其中分量Gk（x）=x+ Lk（x）。我们提出的嵌入向量有一个非常简单的几何解释：在语义上被识别为人实例的每个图像位置xi处，嵌入G（xi）表示我们对其所属的人实例的每个关键点的绝对位置的局部估计，即，它表示人的预测形状。这自然表明形状度量作为候选人计算距离在我们提出的嵌入空间。特别地，为了决定人物像素xi是否属于第j个人物实例，我们计算嵌入距离度量。1ΣKDi，j=Σ1pk（yj，k）Gk（xi）−yj，kkpk（yj，k）k=1λj其中，j，k是j中检测到的k的位置，并且pk（j，k）是其出现的可能性。通过关键点的存在概率来提高该存在概率允许我们对由于缺失关键点而导致的两个形状中的差异进行折扣。通过检测到的实例尺度λj对误差进行归一化允许我们计算尺度不变度量。我们将λj设置为等于紧密包含第j个人实例的所有检测到的关键点的边界框的面积的平方根我们强调，因为我们只需要计算NS像素和M个人实例之间的距离度量，所以我们的算法在实践中非常快，具有O（NS<$M）的复杂度，而不是O（NS<$NS）的标准的基于嵌入的分割技术，至少在原则上，需要计算所有像素对的嵌入向量距离。为了产生最终的实例分割结果：（1）我们在语义分割图中找到所有标记为人的位置xi，即。具有语义分割概率pS（xi）彡0的那些像素。5. （2）我们将每个人像素xi与嵌入距离度量满足Di的每个检测到的人实例j相关联，j

下载后可阅读完整内容，剩余1页未读，立即下载