PifPaf：自下而上的多人2D人体姿态估计方法

148 浏览量更新于2023-10-19 收藏 2.53MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11977PifPaf：用于人体姿态估计的Sven Kreiss，Lorenzo Bertoni，AlexandreAlahi EPFL VITA实验室CH-1015洛桑sven. epfl.ch摘要我们提出了一种新的自下而上的方法，用于多人2D人体姿态估计，特别适合于城市移动，如自动驾驶汽车和送货机器人。新方法PifPaf使用部分强度场（PIF）来定位身体部位，并使用部分关联场（PAF）将身体部位彼此关联以形成完整的人体姿势。我们的方法优于以前的方法在低分辨率和拥挤，混乱和闭塞的场景感谢（i）我们的新的复合字段PAF编码细粒度的信息和（ii）拉普拉斯损失的回归，其中包括一个概念的不确定性的选择。我们的架构是基于一个完全卷积，单发，无框设计。我们在标准COCO关键点任务上执行与现有最先进的自下而上方法相当的性能，并在运输域的修改COCO关键点任务上产生最先进的结果。1. 介绍在通过收集活动估计人类“在所期望的”收入方面取得了巨大进展[ 1，27 ]。然而，当涉及到“自动驾驶汽车或社交机器人的自动驾驶”时，我们仍然远远没有达到可接受的准确度水平。虽然姿态估计不是最终目标，但它是有效的低维和可解释的人类表示，以足够早地检测自主导航系统的关键动作（例如，检测打算穿过街道的行人）。因此，可以检测到的人类姿势越远，自主系统将越安全。这直接关系到推动对感知人类姿势所需的最低分辨率的限制。在这项工作中，我们解决了既定的多人2D人体姿态估计问题，给出了一个sin-图1：我们希望在交通领域估计人类的2D姿势，其中自主导航系统在拥挤的场景中运行。人类占据图像的一小部分，并且可能部分地彼此遮挡。我们用彩色段显示PifPaf方法的输出。输入图像。我们特别解决了在如图1所示的自主导航设置中出现的挑战：（i）宽视角，对人的分辨率有限，即，30-90像素的高度，以及(ii)高密度人群，行人相互遮挡当然，我们的目标是高召回率和准确率。虽然姿势估计在深度学习时代之前就已经被研究过了，但一个重要的基石是OpenPose [3]的工作，其次是Mask R-CNN [18]。前者是自下而上的方法（在没有人检测器的情况下检测关节），后者是自上而下的方法（首先使用人检测器并在检测到的边界框内输出关节）。虽然这些方法的性能在足够高的分辨率图像上是惊人的，但它们在有限的分辨率范围内以及在人类部分相互遮挡的密集人群在本文中，我们建议将姿态估计[3]中的场的概念扩展到标量场和向量场之外的复合场。我们引入一个新11978具有两个头部网络的神经网络架构。对于每个身体部位或关节，一个头部网络预测该关节的置信度分数、精确位置和大小，我们称之为部位强度场（PIF），其类似于[34]中的融合部位另一个头网络预测部件之间的关联，称为部件关联场（PAF），它是一种新的复合结构。我们的编码方案有能力在低分辨率激活图上存储对关节位置的精确回归至关重要，我们使用基于拉普拉斯的 L1损失[23]而不是普通的 L1损失[18]。我们的实验表明，我们在低分辨率图像上的表现优于自下而上和自上而下的方法，而在更高的分辨率上的表现不相上下该软件是开源的，可在线1.2. 相关工作在过去的几年中，用于姿态估计的最先进的方法是基于卷积神经网络[18，3，31，34]。他们超越传统，基于图形结构[12，8，9]和可变形部件模型[11]的常规方法。深度学习海啸始于 DeepPose[39]，它使用卷积网络的级联进行全身姿势估计。然后，代替预测绝对人体关节位置，一些工作通过预测误差反馈（即，校正），或者使用人类姿势细化网络来利用输入和输出空间之间的依赖性[13]。现在有一场军备竞赛，旨在提出替代的神经网络架构：从卷积姿势机器[42]，堆叠沙漏网络[32，28]，到递归网络[2]，以及[26]等投票方案。所有这些用于人体姿态估计的方法可以分为自下而上和自上而下的方法。前者首先估计每个身体关节，然后将它们分组以形成唯一的姿势。后者首先运行人检测器，并在检测到的边界框内估计身体关节自上而下的方法。自上而下的方法的例子是PoseNet [35]，RMPE [10]，CFN [20]，MaskR-CNN [18 ， 15] 以及最近的 CPN [6] 和 MSRA[44]。这些方法得益于人员探测器的进步和大量的标记绑定盒。利用这些数据的能力将个人探测器的需求变成了一种优势。值得注意的是，Mask R-CNN将关键点检测1 h tt p s：//g ith ub. com/ vita-e pfl/ ope npif paf作为实例分割任务。在训练过程中，对于每个独立的关键点，目标被转换为包含单个前景像素的二进制掩码一般来说，自上而下的方法是有效的，但当人物边界框重叠时就很难了。自下而上的方法。自下而上的方法包括Pishchulin 与 DeepCut[37] 和 Insafutdinov 与DeeperCut [21]的开创性工作。他们解决了一个整数线性规划的结果，在处理时间为一个单一的图像的顺序小时的部分关联。后来的工作加快了预测时间[5]，并扩大了跟踪动物行为的应用[30]。其他方法通过使用贪婪解码器与部分仿射场[3]、关联嵌入[31]和Per sonLab [34]中的其他工具相结合，大大减少了预测时间。最近，MultiPoseNet [24]开发了一种多任务学习架构，将检测，分割和姿势估计结合起来。其他中间表示已经建立在图像平面中的2D姿态估计之上，包括3D姿态估计[29]，视频中的人类姿态估计[36]和密集姿态估计[16]，它们都将受益于改进的2D姿态估计。3. 方法我们的方法的目标是估计拥挤的图像中的人体姿势。我们解决与低分辨率和部分遮挡行人相关的挑战。自上而下的方法在绑定框冲突的地方，当行人被其他行人挡住时尤其困难。以前的自底向上方法是无边界框的，但仍然包含用于定位的粗糙特征我们的方法是免费的任何基于网格的关节的空间定位的约束，并有能力估计多个姿势相互遮挡。图2展示了我们的整体模型。它是一个共享的ResNet [19]基础网络，具有两个头部网络：一个头部网络预测关节的置信度，精确位置和大小，我们称之为零件强度场（PIF），另一个头部网络预测零件之间的关联，称为零件关联场（PAF）。我们将我们的方法称为PifPaf。在详细描述每个头部网络之前，我们简要定义了我们的字段符号。3.1. 字段表示法字段是在图像上推理结构的有用工具。复合字段的概念直接激发了我们提出的部件关联字段。11979××+--NCXyBσCX1y1B1X2y2B2∈IJij ij ij ij ij ijij ijc x yσ图2：模型架构。输入是具有三个颜色通道的大小（H，W）的图像，由“x3”指示。基于神经网络的编码器产生具有17 5和19 7通道的PIF和PAF场步幅为2的操作由“//2”指示。解码器是将PIF和PAF字段转换为每个包含17个关节的姿态估计的程序。每个关节由x和y坐标以及置信度分数表示。我们将使用i，j在空间上枚举神经网络的输出位置，x，y用于实值坐标。域（i，j）Z2上的域用f ij表示，并且可以具有标量、向量或复合作为余域（域的值）。例如，标量场s ij和向量场v ij的合成可以表示为s，vx，vy，这相当于用向量场“覆盖”置信度图。3.2. 零件强度场部分强度场（PIF）检测并精确定位身体部位。在[35]中介绍了置信图与关键点检测回归在这里，我们用复合字段的语言来概括这种技术，并添加一个尺度σ作为新的分量来形成我们的PIF字段。PIF具有复合结构。它们由用于置信度的标量分量、指向特定类型的最近身体部分的矢量更正式地，在每个输出位置（i，j）处，PIF预测置信度c、具有展度b的向量（x，y）（在第3.4节中详细描述）和尺度σ，并且可以被写成pij={pij，p i j，pij，p，pij}。本地化关节的空间范围σ作为场的一部分图3c中示出了示例。高度局部化的关节的所得到的图被用于种子姿态生成并对新提出的关节的位置进行评分。3.3. 零件关联字段将关节关联到多个姿势在人彼此部分遮挡的拥挤场景中是具有挑战性的。特别是两个步骤的过程-自上而下的方法-在这种情况下挣扎：首先，它们检测每个边界框，然后它们试图为每个边界框找到一个关节类型。自下而上的方法是无边界框的，因此不会受到冲突边界框问题的影响。我们提出底向上部分关联字段（PAF），用于将关节位置连接到姿势中。PAF方案的图示如图4所示。在每个输出位置，PAF预测一个置信度，两个向量到该关联连接的两个部分，以及两个宽度b（详见第3.4节），用于回归的空间精度。PAF用aij={aij ，a，a，a，a，a，a}表示。我在我在我在PIF的置信图非常粗糙。图-图3a示出了示例图像的左肩的置信度图为了改进该置信图的定位，我们将其与图3b中所示的PIF的矢量部分融合成高分辨率置信图。我们创建这个高分辨率部分置信图f（x，y），其中具有宽度pσ的未归一化高斯核在由其置信度pc加权的部分强度场的回归目标上的卷积：Σf（x，y）=pijN（x，y）|pij，pij，pij）。（一）IJ这个方程强调了左肩和左髋之间的关联如图5所示。这两个端点都是本地化的回归，不遭受离散化，因为它们发生在基于网格的方法。这有助于精确地解析附近人员的关节位置，并将其解析为不同的注释。COCO数据集中的person类有19个连接，每个连接两种类型的关节;例如，存在右膝到右踝的关联。构造PAF组件的算法特定的特征图定位包括两个步骤。首先，找到两种类型中确定其中一个矢量分量的最近关节。秒-11980(a)(b)（c）第（1）款图3：可视化左肩PIF的组成部分。这是17个综合PIF之一。置信图如（a）所示，矢量场如（b）所示。融合的置信度、向量和尺度分量在（c）中示出。[14]或拉普拉斯损失[23]。SmoothL1损失允许围绕原点平滑地调整半径r对于Ai的人实例边界框区域，可以按比例设置σk，r平滑关键尼加拉瓜k到Aiσk，我们在表3中研究。拉普拉斯损失是另一种L1型损失，(a) （b）零件关联字段图4：举例说明Person-Lab(b) 在一个特征地图网格上。蓝色圆圈代表关节，置信度用绿色标记。中等偏置（a）的原点位于特征图单元的中心。部件关联字段（b）具有其原点的浮点精度。第二，地面实况姿态确定另一个矢量分量来表示关联。第二个关节不一定是最近的关节，也可以很远。在训练过程中，字段的组成部分必须指向应该关联的部分。类似于向量场的x分量必须始终指向与y分量相同的目标，PAF场的分量必须指向相同的部件关联。通过预测的展布b衰减：L= |x − µ|/b + log（2 b）。（二）它独立于Ai和σk的任何估计，并且我们将其用于所有向量分量。3.5.贪婪解码解码是将神经网络的输出特征映射转换为17个坐标集的过程，这些我们的过程类似于[34]中使用的快速贪婪解码。通过具有在等式1中定义的高分辨率置信度图f（x，y）中的最高值的PIF向量来播种新姿态。从种子开始，在PAF字段的帮助下添加到其他关节的连接。该算法是快速和贪婪的。一旦连接到一个新的关节，这一决定是最终的。多个PAF关联可以在当前关节和下一个关节之间形成连接。给定t→x的起始j的位置，PAF作为位置a的c或es计算为：3.4. 自适应回归损失人体姿态估计算法往往与人体姿态可能具有的尺度的多样性s（a，→x）=ac.expΣ||→x−→a1||2B1f2（ax2，ay2）（3）在图像中。虽然对于大个子的关节的定位误差可以是微小的，但是相同的绝对误差对于小个子的人可能是重大的误差。我们使用L1型损失来训练回归输出。我们通过在回归损失中注入尺度依赖性来提高网络的定位能力，其考虑了在此连接上的置信度，该置信度与双尾拉普拉斯分布概率和在f2 上的第一矢量的分量上的高分辨率部分置信度进行了比较。为了固定新关节的预定位置，我们运行反向匹配-−11981×±(a)（b）第（1）款图5：左肩与左髋关节相关的阵发性房颤组成部分的可视化。这是19个PAF之一。特征图的每个位置都是两个向量的原点，这两个向量指向要关联的肩部和臀部。关联a c的置信度在（a）中的原点处示出，并且a c > 0的向量分量。五是（b）。ing.重复该过程，直到获得完整的姿势。我们在关键点级别应用非最大值抑制，如[34]所示抑制半径是动态的，并且基于PIF场的预测尺度分量。我们不会在训练或测试期间细化任何字段4. 实验自动驾驶汽车中的摄像头具有宽视场，并且必须解决该视场内的小行人实例。我们想用公开的数据集和人体姿态估计的评估协议来此外，为了证明我们的方法的广泛适用性，我们还研究了在人重新识别任务（Re-Id）的背景下的姿势估计-也就是一些先前的工作已经使用了基于部分或基于区域的模型[45，7，43]，这将从质量姿势估计中获益。数据集。我们定量评估了我们提出的方法PifPaf在低分辨率图像中的COCO关键点任务[27]中的应用从原始COCO数据集开始我们得到的人的边界框，66 65 px高。COCO度量包含APM和ARM下的中等身材的人的分解，其在原始图像中具有介于（32 px）2和（96 px）2之间的边界框区域。经过一段时间低分辨率，这对应于高度为44 ± 19 px的边界框。我们定性地研究了我们的方法在自动驾驶汽车以及随机拥挤场景捕获的图像上的性能我们使用最近发布的nuScenes数据集[33]。由于标签和评估协议尚未提供，我们定性研究的结果。在Re-Id的背景下，我们研究了流行且公开可用的Market-1501数据集[46]。它由64128像素的行人组成我们应用了在COCO数据上训练的相同模型。图8定性地比较了从Mask R-CNN [18]中提取的姿势与我们提出的方法。比较表明，与我们的PifPaf方法提取的姿势有明显的改善高分辨率图像上的性能不是本文的重点，但是其他方法针对全分辨率COCO图像进行了优化，因此我们也展示了高分辨率COCO图像的结果和比较评价COCO关键点检测任务的评估类似于对象检测任务，核心指标是以对象关键点相似性（OKS）为阈值的平均精度（AP）和平均召回率（AR）的变体[27]。COCO假设每个关键点类型的关键点大小与边界框面积的固定比率来定义OKS。对于每个图像，姿态估计器必须提供每个姿态的17个关键点位置和每个姿态的得分。只有前20个得分姿势被考虑用于评估。11982APAP 0.50AP 0.75APMAPLARAR 0。50AR 0。75ARMARL[18]第十八话41.668.142.528.259.849.076.050.035.667.5OpenPose [3]37.662.537.225.055.343.965.344.926.767.5PifPaf（我们的）50.073.552.935.969.755.076.057.939.476.4表1：对于自顶向下（顶部）和自底向上（底部）方法，将姿态估计应用于长边等于321 px的低分辨率图像。对于Mask R-CNN和OpenPose参考值，我们运行了[40，41]修改的实现，以强制执行最大图像边长。针对低分辨率重新训练了R-CNNPifPaf结果基于ResNet50主干。实作详细数据。我们所有的模型都是基于Imagenet预训练的基础网络，然后是自定义的多个头部子网络。具体来说，我们使用2017年COCO训练集中的64115张图像进行训练，这些图像具有人物注释。我们的验证是在2017年COCO验证集的5000张图像上完成的。基本网络是修改后的ResNet 50/101/152网络。头部网络是单层1x1子像素卷积[38]，使空间分辨率加倍。场的置信度分量用S形非线性进行归一化。基础网络具有各种修改选项。输入卷积和输入最大池化操作的步长可以改变。也可以在输入块和整个最后一个块中删除最大池化操作。这里使用的默认修改是从输入块中删除max-pool层。我们只应用少量和弱的数据增强。为了创建均匀的批次，我们将图像裁剪为正方形，其中正方形的边在图像短边的95%和100%之间这些都是大的作物，以保持尽可能多的训练数据。有一半的时间，整个图像是使用un-cropped和酒吧被添加到使其正方形。随后的插值使用双立方插值。训练图像和注释随机水平翻转。形成置信图的字段的分量用独立的二进制交叉熵损失进行训练。我们使用L1损失的比例分量的PIF字段和使用拉普拉斯损失的所有矢量分量。在训练过程中，我们将Batch Normalization操作的运行统计数据[22]固定为其预训练值[34]。我们使用SGD优化器，学习率为10−3，动量为0.95，批量大小为8，没有权重衰减。我们采用模型平均来提取稳定的模型进行验证。在每个优化步骤中，我们更新模型参数的指数加权我们的衰变常数是10−3。ResNet101的75个epoch的训练时间在两个GTX1080Ti约为95小时。基线。我们将我们提出的PifPaf方法与可重复的最先进的自下而上的OpenPose [3]和自上而下的Mask R-CNN [18]方法进行了比较。虽然我们的目标是超越自下而上的方法，但我们仍然报告了自上而下方法的结果，由于这是在一个大得多的图像中模拟小人，我们修改了现有的方法，以防止放大小图像。结果表1展示了我们在COCO数据集上的定量结果。我们在所有指标上都优于自下而上的OpenPose，甚至是自上而下的 Mask R-CNN方法。这些数字总体上低于其较高分辨率的对应数字。这两种概念上非常不同的基线方法显示出相似的性能，而我们的方法在AP中明显领先我们的定量结果模拟了城市街道场景中的人的分布，使用公共的，注释的数据集。图6显示了我们想要解决的街道场景的定性结果。我们不仅有更少的假阳性，我们检测行人谁部分遮挡对方。很有趣的是诸如朝向汽车“挥手”的关键手势仅用我们的方法来检测。Mask-RCNN和OpenPose都没有准确地估计图6第一行中的手臂几何形状。这种差异对于开发安全的自动驾驶汽车至关重要。我们在图7中进一步展示了更拥挤的图像的定性结果。对于像第二行这样的透视图，我们观察到附近行人的边界框遮挡了更远的行人。这是这是自顶向下方法的一个困难场景。我们也可以观察到，自我们的PifPaf方法。为了量化Market-1501数据集的性能，我们创建了一个简化的准确性指标。Mask R-CNN的准确率为43%，PifPaf为96%评估是基于图像的数量，11983图6：我们的PifPaf方法（右手边）在nuScenes数据集上针对OpenPose[3]（第一列）和Mask R-CNN[40]（第二列）的说明。我们用边界框突出显示其他方法没有检测到的所有人类，并用圆圈突出显示所有误报。请注意，我们的方法正确地估计了一个人的挥手姿势（第一行，第一个边界框），而其他方法则无法做到这一点。图7：我们的PifPaf方法（右手侧）与Mask R-CNN [40]（左手侧）的图示。我们用边界框突出显示Mask R-CNN在我们的方法中错过姿势的所有人我们的方法估计Mask R-CNN估计的所有姿势以及用边界框突出显示的姿势。11984图8：Market-1501 [46]数据集的精选图像左图是Mask R-CNN的输出为了改善Mask R-CNN的结果，我们强制它在跨越整个图像的边界框中准确预测一个姿势。右边的图像是我们的PifPaf方法的输出，该方法不限于一个人，并且可以选择不输出或输出多个姿势，这是一项更困难的任务。APAPMAPL[18]第十八话63.158.070.4OpenPose [3]61.857.168.2[34]第66.562.472.3PifPaf -66.762.472.9AP [%]t[ms]tdec[ms]ResNet5062.6222178ResNet10165.7（60.0）二百四十（三百五十五）175表2：在COCO 2017测试开发集上评估的自上而下（顶部）和自下而上（底部）方法的最佳分辨率下的回收率APAPMAPLvanillaL1香草41.726.562.5SmoothL1，r = 0。2Aiσk42.026.962.6SmoothL1，r = 0。5Aiσk41.927.062.5SmoothL1，r = 1。0Aiσk41.626.562.3拉普拉斯45.131.464.0拉普拉斯（在解码器中使用b45.531.464.9表3：L1缺失类型依赖性研究.以百分比表示。所有模型都有一个ResNet50主干，并经过20个epoch的训练从训练集中的202个随机图像中选出正确的姿势正确的姿势最多有三个关节错位。其他方法针对更高分辨率的图像进行了优化。为了进行公平比较，我们在表2中显示了高分辨率COCO 2017测试开发集的定量比较。我们的表现与现有最好的自下而上的方法不相上下。消融研究。我们研究了表3中总结的各种设计决策的影响。我们发现，我们可以通过修改rsmooth的整体尺度来调整性能，使其适应更小或更大的对象，因此我们研究了它的影响。然而，真正的改进是通过基于拉普拉斯的损失获得的。增加的尺度分量σ到表4：精度和单个图像之间的相互作用GTX 1080 Ti上的预测时间t，该GTX 1080 Ti具有用于COCO值集的不同ResNet主干。最后一列是解码时间tdec。PersonLab [34]定时数（包括解码实例掩码）在括号中给出，其中图像宽度为801px。PIF字段将我们的ResNet101模型的AP从64.5%提高到65.7%。运行时间。不同ResNet主干的计算结果见表4。对于相同的骨干网，我们在AP中的表现优于PersonLab 9.5%，同时加速32%。5. 结论我们已经开发了一种新的自下而上的方法，用于多人2D人体姿态估计，该方法解决了在交通领域特别普遍的故障模式，即，自动驾驶汽车和社交机器人。我们证明了我们的方法在低分辨率范围内优于以前的最先进方法，并且在高分辨率下表现相当。建议的PAF字段也可以应用于其他任务。在图像领域，预测结构化图像概念[25]是令人兴奋的下一步。鸣谢。我们要感谢EPFL SCITAS对计算基础设施的支持。11985引用[1] M.安德里卢卡湖Pishchulin，P. Gehler和B.席勒2D人体姿态估计：新的基准和状态艺术分析。IEEE计算机视觉与模式识别会议（CVPR），2014年6月1[2] V. Belagiannis和A. 齐瑟曼。循环人体姿态估计。在自动面部&手势识别（FG 2017）中，2017年第12届IEEE国际会议，第468- 475页。 IEEE，2017年。2[3] Z. Cao，T. Simon，S.- E. Wei和Y.酋长使用部分仿射场的实时多人2d姿态估计。在CVPR，第1卷，第7页，2017年。一二六七八[4] J. 卡雷拉山口Agrawal，K.Fragkiadaki和J.马利克迭代误差反馈人体位姿估计。在CVPR，2016年。2[5] L- C. Chen，G.帕潘德里欧岛科基诺斯角Murphy和A.L.尤尔。Deeplab：使用深度卷积网络，atrous卷积和全连接 crfs 的语义图像分割。 IEEEtransactionsonpat-ternanallysisanddmachineintelligence ， 40 （ 4 ）：8342[6] Y. Chen，Z. Wang，Y.彭，Z. Zhang，G. Yu和J. Sun.用于多人位姿估计的级联金字塔网络。在IEEE计算机视觉和模式识别会议论文集，第71 0 3-7112页，2018年。2[7] D.郑，Y.贡，S. Zhou，J. Wang，and N.郑基于改进三重丢失函数的多通道部件cnn的人员再识别。在IEEE计算机视觉和模式识别会议（CVPR）中，2016年6月。5[8] M. Dantone，J. Gall，C. Leistner和L.好极了基于人体部位相关关节回归的人体姿态估计。CVPR，2013。2[9] M. Eichner，M. Marin-Jimenez，A. 泽瑟曼，V·法拉利（几乎）无约束静止图像中的2D铰接人姿态估计和检索。InIJCV，2012. 2[10] H. Fang，S. Xie和C.陆RMPE：区域多人姿态估计。2017IEEEInternationalCon-fernceonComputerVision（ICCV），第2353- 2362页，2017年。2[11] P. F.费尔岑斯瓦尔布河B. Girshick，D. McAllester和D. Ramanan使用区分性训练的基于部分的模型进行对象检测。见PAMI，2010年。2[12] P. F. Felzenszwalb和D. P. Huttenlocher。用于物体识别的图形结构。在IJCV。Springer，2005年。2[13] M. Fieraru，A.霍雷瓦湖Pishchulin和B.席勒学习改进人体姿势估计。CoRR，abs/1804.07909，2018。2[14] R.娘娘腔。快速R-CNN。在IEEE计算机视觉国际会议论文集，第1440 - 1448页，2015年。4[15] R.吉尔希奇克岛。 RADOSAVVVIC，G.Gkioxari ， P.Dolla'r ， and K. 他外探测器https://github.com/ facebook research/detectron ，2018. 2[16] R.A.Güler ， N.我也是。 Kokkinos.Dens-pose：在野外进行密集的人体姿势估计。arXiv预印本arXiv：1802.00434，2018。2[17] A.哈克湾彭，Z. Luo，中国茶条A. Alahi，S.杨先生及L.飞飞视点不变的三维人体姿态估计。在欧洲计算机会议上，第160- 177页。 Springger，2016. 2[18] K.He ， G.Gki oxari ， P.做一个，和 R 。GIRSHI CK。 MASKR-CNN。 In Computer Vision（ICCV），2017IEEEInter-n-nationalConferenceon，第2980- 2988页。 IEEE，2017年。一、二、五、六、八[19] K. 他，X。 Zhang，S. Ren和J.太阳用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议论文集，第770- 778页，2016年。2[20] S. Huang，M. Gong和D. 涛. 关键点定位的粗-精网络。2017年IEEE国际计算机视觉会议（ICCV），第3047 - 3056页，2017年。2[21] E. 因萨富季诺夫湖皮舒林湾 Andres ， M. An-driluka和B.席勒Deepercut：更深、更强、更快的多人姿势估计模型。在欧盟，第34- 50页。施普林格，2016年。2[22] S. Ioffe和C.赛格迪批次标准化：通过减少内部协变量偏移来加速深度网络训练。arXiv预印本arXiv：1502.03167，2015。6[23] A. Kendall和Y.加贝叶斯深度学习在计算机视觉中需要哪些不确定性？神经信息处理系统的进展，第557 4- 5584页，2017年。二、四[24] M. Kocabas、S.Karagoz和E.阿克巴Multiposenet：基于姿态残差网络的快速多人姿态估计。CoRR，abs/1807.04067，2018。2[25] R. Krishna，Y. Zhu，O. Groth，J. Johnson，K.羽田J. Kravitz，S. Chen，Y.卡兰蒂迪斯湖J. Li，D. A.Shamma，M. Bernstein和L.飞飞Visual genome：Connecting language and vision using crowdsourceddense image annotations.2016. 8[26] I. Lifshitz，E. Fetaya和S.乌尔曼使用深度共识投票的人体姿势估计在欧洲会议上，第246- 260页。Springger，2016.2[27] T.- Y.林，M。迈尔，S。贝隆吉，J. Hays，P. 佩洛娜D.Ramanan，P.做一个，和C。 L.子天尼Microsoftcoco：上下文中的公共对象。在欧洲会议上，第740- 755页。2014年出版。一、五[28] Y. Luo，Z. Xu，P. Liu，Y.杜，和J. - M.小郭。基于多层分形网络和关节亲缘模式的多人姿态估计。 IEEE Transactions on Im-ageProcessing ，28：142- 155，2019. 211986[29] 马丁内斯河Hossain、J. Romero和J.小J一个简单而有效的三维人体姿态估计基线。在国际计算机视觉会议上，第1卷，第5页，2017年。2[30] A. Mathis，P.Mamidanna，K.M. Cury，T.Abe，V.N.Murthy ， M.W.Mathis 和 M. 贝丝Deeplabcut：使用深度学习对用户定义的身体部位进行无标记姿势估计技术报告，自然出版集团，2018年。2[31] A. Newell，Z. Huang和J.邓小平更关联嵌入：用于联合检测和分组的端到端学习。在Advances inNeural Information Process-ingSystems，第2277-2287页，2017年。2[32] A. Newell，K. Yang和J.邓小平更用于人体姿态估计的堆叠沙漏网络。在欧洲会议上，第483- 499页。Springger，2016.2[33] NuTonomy NuScenes data set. 网址： //www.nuscenes.org/，2018. 5[34] G. Papandreou ， T. 朱湖，加 - 地 Chen ，S.Gidaris，J.Tomp-son和K.墨菲Personlab：使用自下而上、基于部件的几何嵌入模型进行人体姿势估计和实例分割。 CoRR ，abs/1803.08225，2018。二四五六八[35] G. Papandreou，T. Zhu，N. Kanazawa、A. 托舍夫J. 汤普森角 Bregler 和 K. 墨菲在野外实现在CVPR，第3卷，第6页，2017年。二、三[36] T. Pfister，J. Charles，and A.齐瑟曼。用于视频中人体姿态估计的流约束。在Proceedingsof the IEEEInternational Conference on Com-uterVision，第1913- 1921页，2015年。2[37] L. Pishchulin、E. Insafutdinov，S.唐湾安德烈斯M.安德里卢卡山口V.Gehler和B. 席勒深度切割：联合子集划分和标记用于多个人姿态估计 . 在ProceedingsoftheIEEEConferenceonComputer Vision and Pattern Recognition，第49 29- 4937页，2016年。2[38] W. Shi，J. Caballero，F. 你好，J。 Totz，A. P.Aitken，R. Bishop，D. Rueckert和Z.王. 使用高效的亚像素卷积神经网络实现实时单图像和视频超分辨率。在IEEE计算机视觉和专利审查会议论文集，第1874-1883页，2016年。6[39] A. Toshev和C.赛格迪Deeppose：通过深度神经网络进行人体姿势估计。CVPR，2014。2[40] R.曾Detectron.pytorch. https://github.com/ roytseng-tw/Detectron.pytorch，2018年。六、七[41] H. Wang，W. P. An，X.王湖，加-地Fang和J.元用于多人2d姿态估计的放大网络。在2018年IEEE多媒体和Expo国际会议（ICME），第1- 6页，2018年7月。6[42] S.- E. Wei，V. Ramakrishna，T. Kanade和Y.酋长卷积姿势机器。在IEEE计算机视觉和模式研究会议论文集，第4724- 4732页，2016年。2[43] Z. Wu，Y. Li和R. 拉德克使用姿态先验和主体判别特征在摄像机网络中重新识别视点不变性人。IEEEtransactions on pattern analysis and machineintelligence，37（5）：1095- 1108，2015. 5[44] B. Xiao，H. Wu和Y.伟.用于人体姿态估计和跟踪的简单基线。arXiv预印本arXiv：1804.06208，2018。2[45] H. Zhao，M. Tian，S. Sun，J. Shao，J. Yan，S.阿一X. Wang和X.唐主轴网：基于人体区域引导的特征分解与融合的身份再识别. 在IEEE计算机视觉和模式识别会议论文集，第1077 - 1085页，2017年。5[46] L. 郑湖，澳 - 地申湖，澳- 地Tian ，S.Wang ，J.Wang和Q.田可扩展的人员重新识别：一个基准点。计算机视觉，IEEE国际会议，2015年。五、八

下载后可阅读完整内容，剩余1页未读，立即下载