自监督学习：基于对极几何的3D人体姿态估计方法

134 浏览量更新于2023-10-19 收藏 1.26MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

12D姿态估计服务自助餐对极几何基于多视图几何的三维人体姿态自监督学习中东技术大学计算机工程系{muhammed. kocabas，e234299，eakbas}@ metu.edu.tr摘要训练准确的3D人体姿态估计器需要大量的3D地面实况数据，这是昂贵的收集。由于缺乏3D数据，已经提出了各种弱监督或自监督的姿态估计方法。然而，除了2D地面实况姿态之外，这些方法还需要各种形式的附加监督（例如，不成对的3D地面实况数据、标签的小为了解决这些问题，我们提出了EpipolarPose，这是一种用于3D人体姿态估计的自监督学习方法，它不需要任何3D地面实况数据或相机外参数。在训练期间，Epipolar Pose从多视图图像估计2D姿态，然后利用对极几何来获得3D姿态和相机几何，其随后用于训练3D姿态估计器。我们证明了我们的方法在标准基准数据集上的有效性（即。Human3.6M和MPI-INF-3DHP），其中我们在弱/自监督方法中设置了新的最新此外，我们提出了一个新的性能指标姿态结构得分（PSS），这是一个规模不变的，结构感知的措施，以评估相对于其地面真理的姿态的结构可扩展性。代码和预训练模型可在 www.example.com EpipolarPose 上获得https://github.com/mkocabas/1. 介绍野外人体姿态估计是计算机视觉中一个具有挑战虽然有用于二维（2D）姿态估计的大规模数据集[2，20]，但3D数据集[15，23]要么限于实验室设置，要么在大小和多样性方面受到限制。由于在野外收集3D人类姿态注释是昂贵的并且3D数据集是有限的，因此研究人员已经采取弱或自监督方法，目的是通过使用最少量的附加参数来获得准确的3D姿态估计器。平等贡献图1. Epipolar Pose使用2D姿态估计和对极几何来获得3D姿态，其随后用于训练3D姿态估计器。在现有的2D姿态数据集之上进行监督。为此，已经开发了各种方法。除了地面实况2D姿态之外，这些方法还需要各种形式的额外监督（例如未配对的3D地面实况数据[41]，标签的小子集[31]）或多视图设置中的（外部）相机参数[30]。据我们所知，只有一种方法[9] 其可以通过仅使用2D地面实况来产生3D姿态估计器。在本文中，我们提出了另一种这样的方法。我们的方法“EpiloparPose”使用2D姿态估计和对极几何来获得3D姿态，其被进一步用于训练3D姿态估计器。EpipolarPose可以使用任意数量的摄像头（必须至少2个），并且不需要任何3D监督或外部摄像头参数，但是，如果提供，它可以使用它们在Human3.6M[15]和MPI-INF-3DHP [23]数据集上10773D姿势CNN1078我们为弱/自监督方法的3D姿态估计设置了新的最新技术水平。人体姿态估计允许随后的更高级别的推理，例如，自动系统（汽车、工业机器人）和活动识别。在这样的任务中，姿态中的结构误差可能比由传统评估度量（诸如MPJPE（每关节位置误差的平均值）和PCK（正确关键点的百分比））测量的这些度量独立地对待每个关节，因此，不能将整个姿势作为一个结构进行评估。图4示出了结构上非常不同的姿态相对于参考姿态产生相同的MPJPE。为了解决这个问题，我们提出了一个新的性能指标，称为姿势结构得分（PSS），这是敏感的结构错误的姿势。PSS计算尺度不变性能分数，其具有对姿势相对于其地面实况的结构可扩展性进行评分的能力注意，PSS不是损失函数，它是可以与MPJPE和PCK一起使用的性能度量，以考虑姿态估计器产生的结构误差。为了计算PSS，我们首先需要对地面真实姿态的自然分布进行为此，我们使用了一种无监督聚类方法.设p为预测的姿势对于其基础真值为q的图像。首先，我们找出聚类中心最接近p和q。如果两者都是最接近的（即，分配给）相同的聚类中心，则p的姿态结构得分（PSS）被认为是1，否则为0。贡献我们的贡献如下：• 我们提出了EpipolarPose，一种可以从单张图像预测3D人体姿势的方法为了训练，艾皮波-larPose不需要任何3D监控，也不需要摄像机的外部参数。它通过利用对极几何和2D地面实况姿势创建自己的3D监督• 我们在用于3D人体姿势估计的弱/自监督方法中设置了新的最新技术水平。• 我们提出了姿态结构评分（PSS），一个新的性能测量三维人体姿态估计，以更好地捕捉结构错误。2. 相关工作我们的方法EpipolarPose是一种推理过程中的单视图方法;以及在训练期间的多视图、自我监督方法。在文献中讨论这些方法之前，我们首先简要回顾一下完全单视图（在训练和推理过程中）和完全多视图方法的完整性。单视图方法在许多最近的工作中，卷积神经网络（CNN）用于直接从图像估计3D关节的坐标[38，39，40，35、23]。Li和Chan [19]首先证明了深度神经网络可以从单个图像中实现3D人体姿势估计他们使用了两个深度回归网络和身体部位检测。Tekin等人[38]表明，将传统的CNN用于监督学习与自动编码器用于结构学习相结合可以产生良好的结果。与常见的回归实践相反，Pavlakoset al.[29]是第一个将3D人体姿势估计视为体素空间中的3D关键点定位问题。最近，[36]将体积热图与软argmax激活相结合，并获得了最先进的结果。另外，存在将3D姿态推断任务分解成两个独立阶段的两阶段方法：估计2D姿态，并将其提升到3D空间[8，24，22，11，46，8，40，23]。最新的冰毒- 该类别中的ODS使用最先进的2D姿态估计器[7，43，25，17]来获得图像平面中的关节位置。Martinez等人[22]使用简单的深度神经网络，其可以在给定由最先进的2D姿态估计器计算的估计的2D姿态的情况下估计3D姿态。Pavlakos等人[28]提出了使用顺序深度关系的想法以绕过对完整3D监督的需要。这类方法需要完全的3D监督或额外的监督（例如，顺序深度）以及全3D监控。多视图方法这类方法在测试和训练期间都需要多视图输入。早期的工作[1，5，6，3，4]使用从校准的相机获得的2D姿态估计，通过三角测量或图像结构模型产生3D姿态。最近，许多研究人员[10] 使用深度神经网络对多视图输入进行建模，并提供完整的3D监控。弱/自监督方法由于缺乏3D注释，许多人已经探索了用于人体姿势估计的基于弱和自监督的方法[9，31，41，30]。Pavlakos等人[30]使用图像结构模型从多视图图像的关键点热图获得全局姿态配置。然而，他们的方法需要完整的相机校准和关键点检测器产生2D热图。Rhodin等人[31]利用多视图一致性约束来监督网络。他们需要少量的3D地面实况数据，以避免退化的解决方案，其中构成崩溃到一个单一的位置。因此，缺乏野外3D地面实况数据是该方法的限制因素[31]。最近引入的深度逆图形网络[18，44]已应用于人体姿势估计问题[41，9]。Tung等人[41]训练生成式对抗网络，该网络具有3D姿态生成器，该生成器用1079ęęXęę不LL图2. Epipolar Pose的整体架构，训练。上部分支中的橙色背景部分表示推理管道。在训练期间，Epipolar Pose是多视图：由两个连续照相机同时拍摄的一对图像（Ii，Ii+1）被馈送到CNN姿态估计器。它也是自我监督的：由下分支使用三角测量产生的3D姿态（V）（即，对极几何）被用作上分支中的CNN在推理过程中（橙色-背景部分），EpipolarPose是一种单眼方法：需要单个图像（Ii）作为输入，并估计相应的3D姿态（Vi）。（A：软ar gmax函数，T：三角剖分，L：平滑L1损失。预测的3D姿态和输入的2D关节的投影之间的重建损失，以及被训练为从一组地面真实3D姿态中区分预测的3D姿态的训练器。3.1. 培训在EpipolarPose的训练管道中（图2），有两个分支，每个分支都从相同的姿态估计网络开始（ResNet，然后是反卷积网络[36]）。这些网络在MPII Human Pose数据集（MPII）上进行了预训练[2]。在训练过程中，只训练上分支中的位姿估计网络;另一个被冷冻。EpipolarPose可以使用2个以上的相机进行训练，但为了简单起见，这里我们将描述n=2的训练管道。对于n=2，每个训练样本仅包含一个图像对。图像Ii和Ii+1被馈送到3D（上）分支姿态估计网络和2D（下）分支姿态估计网络两者中以获得体积热图H∈Rw×h×d，其中w，h是空间的解卷积后的大小，d是定义作为超参数。在应用软argmax激活函数后，我们得到3D姿态V∈RJ×3和2D姿态U∈RJ×2输出，其中J是身体关节的数量。从给定的体积热图，可以获得3D热图和3D热图。姿势（通过将softargmax应用于所有3个维度）和2D姿势（通过仅将softargmax应用于x，y）。作为2D姿态分支的输出，我们想要获得全局坐标系中的3D人体姿态V设第i幅图像中第j个关节的二维坐标为Ui ，j=[xi ，j，yi ，j]，其三维坐标为[Xj，Yj，Zj]，我们可以假设针孔来描述它们之间的关系图像投影模型摆姿势在这项工作之后，Droveret al.[9]消除了需要通过将3D地面实况修改为3D地面实况jf0c T识别合理的2D投影。i、jYjx xxi，j = K [R|[RT]R，K = 100 fyc ym，T = 100Tym，据我们所知，Epipolar Pose和Drover等人wi，jZj10 0 1Tz（一）监督或摄像机外部。虽然他们的方法EpipolarPose不利用图像特征，但同时利用图像特征和对极几何形状，并产生更准确的结果（比Drover等人的误差小4.3 mm）。’s3. 模型和方法我们提出的方法EpipolarPose的整体训练管道如图2所示。橙色背景部分显示推理管道。对于对极姿势的训练，假设设置如下。有n同时拍摄场景中的人的照片的相机（必须保持n≥2摄像头被赋予ID从1到n的数字，其中连续的相机彼此靠近（即，有小的基线）。摄像机产生图像I1、I2、.. . In. 然后，一组连续的图像对，{（I i，I i+1）|i = 1，2，. . . ，n-1}，形成训练示例。其中w i，j是第i个摄像机图像中第j个关节相对于摄像机参考系的深度，K对摄像机固有参数进行编码（例如，焦距fx和fy，主点cx和xy），R和T分别是旋转和平移的照相机外参数。为了简单起见，我们省略了相机失真当摄像机外部参数不可用时，这通常是在动态捕获环境中的情况，我们可以使用身体关节作为校准目标。我们假设第一个摄像机为坐标系的中心，这意味着第一个摄像机的R是单位的。对于Ui和Ui+1中的对应关节，在图像平面中，我们发现有趣的是使用RANSAC算法，对于k_j，满足Ui，jF Ui+1，j=0的元矩阵F。从F，我们计算本质-初始矩阵E乘E=KT FK。通过对E进行奇异值分解，得到了R的4种可能解。我们通过手征检查来验证可能的姿势假设，从而确定手征检查基本上意味着三角化的3D点应该具有正深度[26]。我们在训练过程中省略了尺度，因为我们的模型使用nor-1080malized冒充地面真相。最后，为了获得对应的同步2D图像的3D姿态V，我们利用三角测量（即，对极几何学）如下。对于（I i，I i+1）中未在任一图像中被遮挡的所有关节，使用多项式三角测量[12]对3D点[X j，Y j，Z j]进行三角测量。对于设置，包括ConvNet细化单元超过2个摄像机，我们计算矢量中值以找到中值3D位置。为了计算由上（3D）分支预测的摄像机帧中的3D姿态V与上（3D）分支预测的摄像机帧中的3D姿态V之间的损失，我们将V投影到对应的摄像机空间上，然后最小化平滑L1（V-L1V）训练3D分支，其中 .图3.带有细化单元的整体推理管道，这是一个可选阶段，用于细化通过自我监督训练的模型的预测。f 函数表示EpipolarPose的推理函数（图2中的橙色背景部分）。smoothL1（x）=0的情况。5x2 如果|X|<1|-0。| − 0. 5其他（二）为什么我们需要一个冻结的2D姿态估计器？在EpipolarPose的训练管道中，有两个分支，每个分支都从姿势估计器开始。虽然上分支中的估计器是可训练的，但下分支中的另一个估计器是冻结的。下分支估计器的工作是产生2D姿态。人们可能会质疑冻结估计器的必要性，因为我们也可以从可训练的上分支获得2D姿势。当我们尝试这样做时，我们的方法产生了退化的解决方案，其中所有关键点都折叠到一个位置。事实上，其他多视图方法面临同样的问题[31，37]。Rhodin等人[31]通过使用一小组地面实况示例解决了这个问题，然而，在大多数野外环境中获得这样的地面实况可能是不可行的最近提出的另一种解决方案[37]是最小化估计的相对旋转R（通过两组关键点的Procrustes对齐计算）和地面实况R之间的角距离。然而，在动态捕获设置中很难获得地面实况R。为了克服这些缺点，我们只在训练时间内使用冻结的2D姿态检测器。3.2. 推理推理涉及图二、输入仅是单个图像，并且输出是通过对3D视觉热图H_i的软最大值作用来获得的估计的3D位置V_i。3.3. 精细化，可选择的岗位培训在文献中，有几种技术[22，11，39]可以将检测到的2D关键点提升到3D关节中。这些方法能够学习广义2D→3D映射，该映射可以通过模拟随机相机投影从运动捕获（MoCap）数据获得。整合重新-细化单元（RU）到我们的自监督模型可以进一步提高姿态估计精度。通过这种方式，可以在他/她自己的数据上训练EpipolarPose，这些数据包括图4. 左：来自Human3.6M数据集的参考姿势。中间：手动修改的姿态，以获得类似的MPJPE与右侧的姿态，但结构不同于参考姿态。右：通过向每个身体关节添加随机高斯噪声获得的姿势。多个视图片段，没有任何标签，并将其与RU集成，以进一步改善结果。为了实现这一点，我们修改了RU的输入层，以接受Epipolar Pose的噪声3D(See图3）整个RU架构的灵感来自[22，11]。它有2个计算块，这些计算块具有特定的线性层，然后是BatchNormalization [14] ， Leaky ReLU [21] 激活和 Dropout层，以将3D噪声输入映射到更可靠的3D姿态预测。为了促进层之间的信息流，我们添加了剩余连接[13]，并应用中间损失来加快中间层3.4. 姿势结构评分正如我们在第1节中所讨论的，传统的基于距离的评估指标（如MPJPE，PCK）独立地处理每个关节，因此，无法将整个姿势作为一个结构进行评估。在图4中，我们展示了具有F参考构成Modified 构成 1ModifiedPose 2MPJPE：34.01 mm35.35毫米MPJPE：52.94 mm53.03毫米MPJPE：54.78 mm53.04毫米1081||我||i相同的MPJPE，但是相对于参考姿态在结构上非常我们提出了一个新的性能指标，称为姿态结构得分（PSS），这是敏感的姿态结构错误。PSS计算尺度不变性能分数，具有评估姿态相对于其地面真实的结构可扩展性的能力。注意，PSS不是损失函数，它是可以与MPJPE和PCK一起使用的性能分数，以考虑姿态估计器产生的结构误差。PSS是关于与地面实况姿态的偏差的指示器，其具有在要求语义上有意义的姿态的后续任务中引起错误推断的可能性，例如，动作识别，人机交互。如何计算PSS？PSS的计算需要地面真实姿态的参考分布。给定由n个姿态q i组成的地面实况集，i ∈{1，···，n}，我们将每个姿态向量归一化为qi=qi。然后，我们使用k -均值聚类计算k个聚类中心μj，j∈{1，· · ·，k}。然后，为了计算预测姿态p相对于其地面实况姿态q的PSS，我们使用图5. 聚类后人体姿态的t-SNE图。这里我们选择k= 10用于可视化目的。每种颜色代表一个簇。.ΣPSS（p， q）=δ C（p），C（q）其中（3）.C（p）= arg min||p − µ ||2，δ（i，j）=1I=jkk20iJ（四）一组姿势的mPSS，即平均PSS，是如等式2中计算的它们的个体分数（三）、图5显示了姿态和聚类的t-SNE [42图6描绘了表示规范姿态的聚类中心。在我们的实验中，我们选择了50和100个姿势集群的数量我们用mPSS@50和mPSS@100表达式表示相应的PSS结果。请注意，mPSS给出了结构正确姿势的百分比，因此分数越高越好。为了测试我们聚类的稳定性，我们运行了100次k均值，每次随机初始化。然后，对于每一对运行，我们在聚类之间建立了成对的对应关系。对于每个对应，我们计算交集（IOU）。所有配对和对应的平均借条出为0。78岁另外，不同姿态估计模型的mPSS变化±0.1%，当我们使用不同的k-均值输出作为参考。这些分析表明，PSS的能力我们使用Integral Pose [36]架构用于2D和3D分支，并使用ResNet-50[13] backend.输入图像和输出热图大小为分别为256×256和J×64×64×64，其中J为图6.代表Human3.6M（k= 50）中典型姿势的聚类中心关节的数量我们在MPII上训练后初始化实验中使用的所有模型[2]。在训练过程中，我们使用大小为32的小批量，每个小批量包含Ii，Ii+1个图像对。如果有两个以上的摄像机可用，我们将所有摄像机的视图包含在一个小批中。我们使用Adam优化器[16]训练网络140个epoch，学习率为10- 3乘以与0。第90和120步。训练数据通过±30μ m的随机旋转进行增强，并按以下因子进行缩放：0的情况。8和1. 二、此外，我们利用合成闭塞[34]使网络对闭塞关节具有鲁棒性。为为了简单起见，我们运行一次2D分支以产生三角化的3D目标，并使用缓存的标签来训练3D分支。我们使用PyTorch实现了整个管道[27]。1082表1. H36M的三角定位结果不同2D关键点源对三角测量性能的影响。GT 2D表示地面实况2D标签的使用。H36M 2D和MPII 2D显示了在这些数据集上训练的姿态估计模型。方法MPJPENMPJPEPMPJPEmPSS@50mPSS@100Pavlakos等人[30个]56.89----GT 2D4.382.872.1398.9397.16GT 2D（不带R）n/a22.4615.0698.8396.03H36M 2D28.3726.2825.1995.0894.2MPII 2D45.8637.7936.8390.0685.964. 实验数据集。我们首先在Hu-man 3. 6 M（H36 M）大规模3D人体姿势估计基准上进行实验[15]。它是3D人体姿势估计的最大数据集之一，拥有360万张图像，其中包括11名演员执行15项日常活动，例如从4个相机视图中吃饭，坐着，走路和拍照我们主要使用该数据集进行定量和定性评估。我们遵循H36M的标准方案，使用受试者1、5、6、7、8进行训练，受试者9、11进行评估。对测试集的每第64我们包括每种方法的平均误差。为了证明我们的方法的进一步适用性，我们使用MPI-INF-3DHP（3DHP）[23]，这是一个最近的数据集，包括室内和室外场景。我们遵循标准协议：5个胸高相机和17个关节（与H36M兼容）用于训练。为了进行评估，我们使用官方测试集，其中包括具有挑战性的户外场景。我们报告的PCK和NPCK结果与[31]一致请注意，我们不使用任何类型的背景增强来提高户外测试场景的性能。指标. 我们在MPJPE（平均每个关节位置误差），PMPJPE （ procrustes 对齐的平均每个关节位置误差），PCK（正确关键点的百分比）和PSS的尺度@50和@100方面评估姿态精度。为了将我们的模型与[31]进行比较，我们测量了归一化度量NMPJPE和NPCK，请参阅[31]以了解更多细节。请注意，默认情况下，PSS在评估期间使用标准化姿势。在所呈现的结果中例如，对于一些以前的方法与开源代码，我们指出他们各自的PSS分数。我们希望，在未来，PSS将被改编为一个额外的性能指标，从而更多的结果将成为完整的比较。4.1. 结果我们可以依赖多视图图像的标签吗？表1总结了H36M数据集上不同2D关键点源的三角测量结果。请注意，我们使用训练对象来获得这些结果，因为我们的目标是找出三角测量在训练数据上的性能。总体而言，估计的关键点的质量对于获得更好的结果至关重要。如果我们有真实的2D关键点和相机几何形状，三角测量给出4.3 mm的误差和99%的PSS，这是近乎完美的。缺少凸轮几何形状使PMPJE和mPSS@50分别减少在H36M的2D标签上训练的姿态检测器将MPII预训练的姿态检测器提高了17 mm和5%。请注意，在H36M验证集上评估MPII预训练检测器时，预计性能会稍差。H36 M中的数据是用标记捕获的，因此，在跨主题和场景的2D注释中具有高准确性和一致性;另一方面，MPII中的注释是由人完成的，并且一些关键点的定位不同。例如，在MPII数据集中，肩膀和臀部更靠近身体的边缘与Pavlakoset al. ’s [与最新技术在表2中，我们展示了我们的模型在不同监督类型下的结果，并与最新的最先进的方法进行了比较我们提出了我们的模型的完全监督（FS）版本，以提供一个基线。我们自己实现的我们的结果（52 mm）和报告的结果（49 mm）之间的差异可以归因于作者的2D-3D混合训练，我们避免这样做，我们的自监督（SS）模型与最近的全3D监督方法[29，32，33，40]表现得非常好，这些方法需要大量的标记数据来学习。在不使用任何3D地面实况示例的情况下获得与最先进方法相当的结果是这样一个重要任务的有希望的一步。精炼单元（RU）是我们SS网络的可选扩展，有助于实现更好的结果。添加RU进一步提高了我们的SS模型的性能20%。为了衡量我们的SS模型的输出的代表能力，我们将其结果与Martinez等人的结果进行比较。’s work [由于RU架构与Martinez等人的相同，我们从MPII预训练的姿势检测器中选择了用2D关键点训练的模型进行公平的比较。这一结果表明，3D深度-1083表2. H36M结果。上图：我们在不同设置下训练的方法与最先进的完全监督方法之间的结果比较。（FS：完全监督，SS：自监督）底部：添加细化单元（RU）对SS的影响。（* 使用MPII预训练模型的2D关键点作为输入，因此与我们的SS+RU模型相当。监督H36M所有科目的培训方法MPJPENMPJPEPMPJPEmPSS@50mPSS@100Nie等[45]（ICCV97.5-79.5--Sanzari等人[33]（ECCV93.1----Tome等人[40]（CVPR88.4--73.058.8Rogez等人[32]（CVPR87.7-71.6--Pavlakos等人[29]（CVPR71.9--74.0553.93Rhodin等人[31]（CVPR66.863.351.6--Martinez等人[22]（ICCV62.9-47.778.1273.26Pavlakos等人[28]（CVPR56.2--80.0369.18Sun等人[36]（ECCV49.6-40.6--我们的FS51.8351.5845.0484.4478.67我们的党卫军76.6075.2567.4573.0964.03我们的SS（不含R）n/a77.7570.6770.6762.05在H36M上集成精化单元和SS训练网络方法MPJPENMPJPEPMPJPEmPSS@50mPSS@100Martinez等人[22]（ICCV我们的SS + RU67.560.56-60.0452.547.48-80.42-75.41通过我们的SS训练方法学习的队形提供了有益的线索，以提高2D-3D提升方法的性能。在表4顶部，我们显示了3DHP数据集上的FS训练结果作为基线。我们进一步使用这些信息来分析FS和SS训练之间的差异。弱/自监督方法表3概述了文献中弱/自监督方法以及我们在H36 M数据集上的性能。顶部包括不需要配对3D监督的方法。自从Tunget al. [41]使用更容易获得的未配对的3D地面实况标签，我们将它们放在这里。我们的SS模型（有或没有R）在MPJPE度量方面优于所有以前的方法[41，30]。我们观察到使用地面真实2D三角测量和MPII预训练的训练之间存在很大差异（21 mm）。这一差距表明，2D关键点估计质量对于更好的性能至关重要。为了更好地理解我们和Rhodin等人的性能增益的来源，我们可以分析用完全监督（FS）训练的模型与H36M和仅3DHP的主题1（S1）之间的差距。在我们的方法中，FS和S1训练之间的差异是12和9mm，而Rhodin等人。H36M和3DHP的差异分别为15和18 mm（越低越好）。它告诉我们，我们的学习策略在缩小差距方面做得更好。尽管Rhodinet al.使用S1进行训练，我们的SS方法在H36M数据集上的性能优于它。在S1训练的情况下，我们的方法有明显的此外，使用我们的3DHP方法进行SS训练，结果与Rhodinet al. ’最后，表3中的底部给出了我们的模型与Drover等人的模型的公平比较。因为他们只报告了14个关节的结果。我们的方法产生的误差比他们的方法少4mm。图像地面实况Epipolar Pose Epipolar Pose（FS）（SS）图7. H36M数据集的定性结果。提供的3D姿势来自不同的相机视图，以实现更好的可视化。最后一行描述了一个失败案例。（FS：完全监督训练，SS：自我监督训练）1084表3. H36 M弱/自监督结果。上图：可以在没有3D地面真值标签的情况下训练的方法。(Tung等人[41]使用不成对的3D监督，这更容易获得。3DInterp表示由[41]实现的[44]的结果。2D GT表示利用从地面实况2D标签获得的三角测量进行训练。中间：需要一小部分地面实况数据的方法。(S1表示在训练期间使用H36M主题#1的基础事实标签。下图：与Droveret al. [9]使用14个关节进行评估（14j）没有地面实况数据的方法MPJPENMPJPEPMPJPEmPSS@50mPSS@100Pavlakos等人[30]（CVPR118.41----Tung等人- 3DInterp [41]（ICCV98.4----Tung等人[41]（ICCV97.2----我们的党卫军76.6075.2567.4573.0964.03我们的SS（不含R）n/a77.7570.6770.6762.05我们的SS（2D GT）55.0854.9047.9183.978.69仅H36M方法MPJPENMPJPEPMPJPEmPSS@50mPSS@100Rhodin等人[31] S1Rhodin等人[31] S1（w/oR）n/an/a78.280.164.665.1----我们的S1我们的S1（不含R）65.35n/a64.7666.9857.2260.1681.9177.6575.272.4使用14个关节进行方法MPJPENMPJPEPMPJPEmPSS@50mPSS@100Drover等人[9]（14j）（ECCVW我们的SS（14j）-69.94-67.9064.660.24-n/a-n/a表4. 3DHP结果。上图：全面监督的培训结果。中：仅使用主题1的自监督学习。下图：没有任何地面事实示例的自我监督训练。监督训练方法MPJPENMPJPEPCKNPCKmPSS@50mPSS@100Mehta等人[23日]--72.5---Rhodin等人[31]财政司司长n/a101.5n/a78.8--我们的FS108.99106.3877.578.187.1582.21仅接受3DHP方法MPJPENMPJPEPCKNPCKmPSS@50mPSS@100Rhodin等人[31] S1Rhodin等人[31] S1（w/oR）n/an/a119.8121.8n/an/a73.172.7----我们的S1我们的S1（不含R）n/an/a115.37119.86n/an/a74.473.575.6473.4173.1570.97没有地面实况数据的方法MPJPENMPJPEPCKNPCKmPSS@50mPSS@100我们的党卫军126.79125.6564.771.970.9467.585. 结论在这项工作中，我们已经表明，即使没有任何3D地面实况数据和知识的相机extrin- sics，多视图图像可以利用获得自我监督。在我们的方法的核心，有Epipo-larPose，它可以利用2D姿态从多视图图像使用对极几何自我监督的3D姿态估计量EpipolarPose在弱/自监督方法中的Human3.6M和MPI-INF-3D-HP基准测试中取得了最先进的结果。此外，我们还讨论了基于本地化的度量的弱点，即。MPJPE和PCK提出了一种新的人体姿态估计性能指标-姿态结构评分（PSS）。1085引用[1] Sikandar Amin、Mykhaylo Andriluka、Marcus Rohrbach和Bernt Schiele。用于三维人体姿态估计的多视图图像结构。2013年英国机器视觉会议。2[2] Mykhaylo Andriluka，Leonid Pishchulin，Peter Gehler，and Bernt Schiele. 2D人体姿态估计：新的基准和最先进的分析。在IEEE计算机视觉和模式识别会议上，2014年。一、三、五[3] Vasileios Belagiannis ， Sikandar Amin ， MykhayloAndriluka，Bernt Schiele，Nassir Navab，and SlobodanIlic.用于多个人体姿势估计的3D图像结构在IEEE计算机视觉和模式识别会议上，2014年。2[4] Vasileios Belagiannis ， Sikandar Amin ， MykhayloAndriluka，Bernt Schiele，Nassir Navab，and SlobodanIlic. 重新审视 3D 图像结构：多人姿态估计。 IEEETransactiononPatternAnalysisandMachineIntelligence，2016。2[5] Martin Bergtholdt，Jorg Kappes，Stefan Schmidt，andChristoph Schnorr.使用完全图进行基于零件的对象类检测的研究。《国际计算机视觉杂志》，2010年。2[6] Magnus Burenius，Josephine Sullivan和Stefan Carlsson。用于多视图铰接姿态估计的3D图像结构。在IEEE计算机视觉和模式识别会议上，2013年。2[7] 曹哲、托马斯·西蒙、魏世恩和亚瑟·谢赫。利用局部仿射场进行实时多人二维姿态估计。2017年在IEEE计算机视觉和模式识别。2[8] 陈景航和德瓦·拉曼南。3D人体姿态估计= 2D姿态估计+匹配。在IEEE计算机视觉和模式识别会议上，2017年。2[9] Dylan Drover ， Rohith MV ， Ching-Hang Chen ， AmitAgrawal，Ambrish Tyagi，and Cong Dauoc Huynh. 3d姿势可以从2d投影中学习吗？2018年欧洲计算机视觉研讨会。一二三八[10] Ahmed Elhayek 、 Edilson de Aguiar 、 Arjun Jain 、JonathanThompson 、 LeonidPishchulin 、 MichaAndriluka、Christoph Bregler、Bernt Schiele和ChristianTheobalt 。基于 MARCONI-ConvNet 的无标记运动捕捉，适用于室外和室内场景。 IEEE Transaction onPattern Analysis and Machine Intelligence，2017。2[11] Hao-Shu Fang，Yuanlu Xu，Wenguan Wang，XiaobaoLiu，and Song-Chun Zhu.学习姿势语法编码人体结构的三维姿态估计。在人工智能促进协会，2018年。二、四[12] 理查德岛哈特利和彼得·斯特姆。三角测量。计算机视觉和图像理解，1997年。4[13] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议上，2016年。四、五[14] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。机器学习研究杂志，2015年。4[15] Catalin Ionescu ， Dragos Papava ， Vlad Olaru ， andCristian Sminchisescu. Human3.6m：大规模数据集和预测方法，用于自然环境中的 3D 人体感知在 IEEETransactiononPatternAnalysisandMachineInteligence，2014中。1、6[16] 迪德里克山口金玛和吉米·巴。 Adam：随机最佳化的方法。在2015年国际学习代表会议上。5[17] Muhammed Kocabas、Salih Karagoz和Emre Akbas。多个标签：基于姿态残差网络的快速多人姿态估计。在2018年欧洲计算机视觉上。2[18] Tejas D Kulkarni ， William F Whitney ， PushmeetKohli，and Josh Tenenbaum.深度卷积逆图形网络。神经信息处理进展，2015年。2[19] Sijin Li和Antoni B.陈使用深度卷积神经网络从单目图像估计3D人体姿势2014年亚洲计算机视觉会议。2[20] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔和C. 劳伦斯·齐特尼克。Microsoft COCO：上下文中的公用对象。2014年欧洲计算机视觉会议。1[21] 安德鲁湖，加-地Awni Y. MaasHannun和Andrew Y.Ng.整流器的非线性改善了神经网络声学模型。在2013年国际机器学习会议上。4[22] Julieta Martinez、Rayat Hossain、Javier Romero和JamesJ.点一个简单而有效的三维人体姿态估计基线2017年计算机视觉国际会议。二四六七[23] Dushyant Mehta Helge Rhodin Dan CasasPascal Fua，Oleksandr Sotnychenko ， Weipeng Xu ， and ChristianTheobalt.使用改进的cnn监督在野外进行单目3D人体姿态估计。在2017年的3DVision国际会议上。一、二、六、八[24] F. 莫雷诺诺格尔通过距离矩阵回归从单个图像估计3D人体姿态2017年在IEEE计算机视觉和模式识别会议上发表。2[25] Alejandro Newell，Kaiyu Yang，and Jia Deng.用于人体姿态估计的堆叠沙漏网络在欧洲计算机视觉会议上，2016年。2[26] D. 尼斯特五点相对位姿问题的有效解法模式分析与机器智能学报，2004. 3[27] Adam Paszke、Sam Gross、Soumith Chintala、GregoryChanan、Edward Yang、Zachary DeV

下载后可阅读完整内容，剩余1页未读，立即下载