基于弱监督的3D人体姿态估计方法

60 浏览量更新于2023-10-19 收藏 1.64MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10895基于弱监督的几何感知表示发现算法的三维人体姿态估计陈希鹏1林冠义2，3刘文涛3陈倩3梁琳1中山大学2北京大学3商汤科技1chenxp37@mail2.sysu.edu.cn2linjunyi@pku.edu.cn3{liuwentao，qianchen} @ sensetime.com4linliang@ieee.org摘要最近的研究表明，在大规模室内3D数据集和复杂的网络架构的帮助下，从单目图像中进行3D人体姿态估计取得了显着进展。然而，对不同环境的概括性仍然是一个难以捉摸的目标。预培训2D预培训学到浅3D姿态在这项工作中，我们提出了一个几何感知的3D表示，为了解决这一限制，输入图像2D人体姿态估计骨架（c）第（1）款编码器表征网络预测在训练阶段在简单的自动编码器模型中使用多个视图，并且仅使用2D关键点信息作为监督。提出了一种视图合成框架，用于学习视点之间的共享3D表示，并将人体姿态从一个视点合成到另一个视点。我们提出了一种基于卷积的编码器-解码器机制，而不是在原始图像级执行直接传输，以在潜在空间中仅保留姿势相关的表示进一步引入基于学习的表示一致性约束，以促进潜在的3D表示的鲁棒性。由于所学习的表示对3D几何信息进行编码，因此将其映射到3D姿态将比使用图像或2D坐标作为3D姿态估计的输入的常规框架容易得多。我们展示了我们的方法上的任务，三维人体姿态估计。在三个流行的基准上进行的综合实验表明，我们的模型可以显着提高最先进方法的性能，只需将表示作为一个强大的3D先验注入。1. 介绍3D人体姿态估计是指在给定图像或视频的情况下估计身体部位的3D位置。该任务是计算机视觉社区中的一个活跃的研究主题，作为许多应用的关键步骤，例如，动作识别、人机交互和自主陈锡鹏和林宽义贡献相等，并声称共同第一作者。通讯作者为梁琳。这项工作是在Sense-Time Research实习期间完成的。图1：动机。大多数最先进的技术通常直接学习来自单目图像的3D姿态（如（a）中所示），或者首先估计2D姿态，然后将2D姿态提升为3D姿态（如图所示（b）段）。这两类都需要复杂的深度网络架构和丰富的注释训练样本。相反，我们考虑从多视图信息中学习几何表示，仅使用2D注释作为监督。学习的表示可以映射到具有浅网络和较少注释的训练样本的3D姿态，如（c）中所示。开车近年来，由于丰富的注释和复杂设计的深度神经网络，在特定数据集上取得了重大进展。然而，由于精确的3D注释需要大量的努力，并且在实践中通常受到特定条件的影响，如运动、环境和外观等，普遍性的瓶颈依然存在。弱监督学习提供了一种替代范例，用于学习鲁棒的几何表示，而不需要大量精确的3D注释。大多数方法[42，27，25，38]利用知识转换通过在野外用丰富的2D注释训练3D注释来学习鲁棒性。这些方法面临的困难是，在用于3D注释的受约束的实验室环境和用于2D注释的不受约束的野外环境之间存在大的域转移。一些方法尝试通过同步相机获取的多个视图图像来表示体型，其中使用视图一致性属性[27]、预定义的参数3D模型拟合[3，23，10]，或者通过使用时间无关特征的序列[13]。然而，拟合预定义的3D模型或利用有限的多-输入图像深度网络三维姿态预测输入图像2D关键点热图深度网络三维姿态预测（一）（G10896特定数据集中的视图信息很难捕捉人体的所有细微姿态。新的视图合成方法的出现，例如，，[8，31]，提供了一种吸引人的和简洁的解决方案，用于捕获具有多视图信息的几何表示。然而，尽管该领域在许多通用对象（如椅子、汽车和飞机）上取得了成功，但是利用现有框架来学习人体的几何表示是不平凡的，因为人体是铰接的并且比刚性对象更易变形。本文的目标是设计一个简单而有效的框架，学习三维几何感知结构表示的人体姿势，只有可访问的二维符号作为监督。特别地，我们使用编码器-解码器来从给定的视图姿态生成新颖的视图姿态。编码器-解码器的潜在代码被视为期望的几何表示。我们建议使用2D骨架图作为紧凑的媒介，而不是在图像级[13，2]上生成新的视图姿势。具体地说，我们首先将源图像和目标图像映射成2D骨架图，然后训练编码器-解码器从源骨架合成目标骨架。引入2D骨架作为编码器-解码器的源/目标空间首先，使用经过充分研究的2D人体姿态估计器[20，5，15]可以很容易地从图像中获得2D骨架，该估计器在各种姿态、外观和环境条件下都是准确和鲁棒的这一优点可以保证人体姿态和几何信息的真实性.其次，骨架表示避免了数据集之间的差异，这可以通过一起训练现有数据集并在连续视图上增加样本来尽可能多地覆盖姿势变化第三，潜在空间中的表示可以简单地提炼为仅与姿势相关的信息，而不考虑将形状与外观以及编码几何信息的其他非本质性质分离。然而，在编码器-解码器框架下获得鲁棒的几何表示的前提是目标视图的准确生成。然而，对于生成正确的视图没有理论保证，因为传统的视图合成损失（例如，重建损失和对抗损失）并不便于语义信息。为了解决这个问题，我们在潜在空间中引入表示一致性损失来约束过程，而不需要任何其他辅助信息。我们将我们的贡献总结如下：1) 我们提出了一种新的弱监督的编码器-解码器框架，以学习几何感知的3D表示为人类姿势与多视图数据和只有现有的2D注释作为监督。排除不必要的因素，同时-为了增加训练空间，提出了一种基于小波变换的视图合成方法。我们的方法允许大量的3D姿态估计，以及在不同的条件下推广2) 为了保证所需表示的鲁棒性，引入表示一致性损失来约束潜在空间的学习过程。与需要辅助信息的传统弱监督方法相比，我们的框架更灵活，更容易训练和实现。3) 在公开的3D人体姿态估计数据集上进行的综合定量和定性评估表明，该模型在应用于最先进的方法时有显著的改进，证明了学习的3D几何表示对姿态估计任务的有效性。2. 相关工作几何感知表示。为了捕捉对象的内在结构，现有研究[37，31，13，41]通常将视觉内容分解为多个预定义的因素，如相机视点，外观和运动。一些作品[36，40]利用对象内实例类别之间的对应关系来编码结构表示。[40]发现界标结构作为具有若干约束的图像自动编码的中间表示其他方法利用多个视图来直接学习具有对象重建的几何表示[30，39，9]，或者利用视图合成[24]来学习具有视图之间共享的潜在表示的结构。例如，[24]通过在不同视图下合成深度图来学习3D手部姿势表示。[13]有条件地从另一个对象中生成对象的图像，其中所生成的图像因采集时间或视点而不同这些方法主要集中在通用对象或手/脸姿态的结构表示。然而，人体是关节连接的，更容易变形。如何用较少的数据和较简单的约束来捕捉人体的几何表示仍然是一个悬而未决的问题。三维人体姿态估计。大多数现有的3D人体姿态估计研究都受益于大规模数据集和复杂的深网架构的这些方法可以大致分为全监督和弱监督的方式。文献[17，19，4，33]中存在大量通过单目图像的全监督3D姿态估计方法。尽管这些方法实现了性能，但由于受限的实验室环境、有限的10897预先训练的2D人体姿势估计（沙漏架构）编码器解码器潜在表示损失落后向前图像-骨架映射视图合成Gii→jGij吉吉vivjGJ~拉吉VJGJi~j→i表示一致性约束vi图2：以弱监督方式学习3D人体姿势的几何表示的框架。有三个主要组成部分。（a）图像-骨架映射模块用于从原始图像获得2D骨架图。（b）视图合成模块能够通过从视点i下的骨架图生成视点j下的骨架图来学习潜在空间中的几何表示。(c)由于没有明确的约束，以促进表示是语义的，表示一致性约束机制，提出了进一步完善的表示。运动和数据集间变化。1一些工作集中在弱监督学习，以增加样本的多样性，同时限制标记的3d标注数据的使用例如，通过使用已知的3D地面真实值[32]变形人类模板模型或生成各种前地面/背景[18]来合成训练数据。[42]提出了将知识从2D姿态变换到3D姿态估计网络，并对2D结果进行重新投影约束。在[38]中采用了一种逆向策略，在对抗学习框架下将3D姿势结构扩展到无约束域。[23]提出学习统计模型SMPL [16]的参数，以从具有变化，这允许更多的实际用途。此外，我们的框架是对以前的3D姿态估计工作的补充，并且可以使用当前的方法作为基线，将学习的表示注入作为3D结构先验。3. 弱监督几何表示回想一下，我们的目标是学习用于人类姿势的几何感知3D表示G，预期其对各种姿势变化是鲁棒的，并且可以比传统的弱监督方法更少的努力-为此，我们提出发现成对图像（Ii，Ij）之间的几何关系，它们是从端到端网络，并从t回归3d坐标不网格其他方法[27，43]利用与同一个人的多个观点的使用一致的观点。然而，这些方法仍然依赖于大量的3D训练样本或辅助注释，如silhouettes [6]和深度[43]来初始化或约束模型。与上述方法相比，我们的框架旨在发现一个强大的几何感知的3D表示的潜在空间中的人体姿势，只有2D注释在手。这使我们能够用更少的标记3D数据来训练后续的单目3D姿态估计网络。最近，一部同期作品在具有类似精神的社区出版。与[26]相比，由于训练过程中出现和帧间信息的依赖性，只能处理一个特定的数据集，我们的框架试图打破数据集间的差距1数据集间差异是指不同数据集之间在视点、环境、3D关键点定义等方面的偏差。同步和校准的摄像机，与唯一存在的-用于监督的2D坐标注释，其中i和j表示不同的视点，t表示采集时间。所提出的方法如图2所示。该框架包括三个组成部分：图像骨架映射组件、基于图像的视图合成组件和表示一致性约束组件。期望的表示被编码在视图合成组件上的编码器-解码器的瓶颈中。在推理阶段，将通过前两个组件转发单个图像来获得学习表示，如图1（c）所示我们将在本节的剩余部分详细介绍每个组件。3.1. 图像骨架映射习惯性地将原始图像直接前馈到网络以学习几何表示[13，31]。然而，在多视图与编码器的设置下，10898不不不 j=1t tt不t tt=1t i=1解码器框架中，我们证明了仅利用2D骨架信息是足够的，并且比原始图像更好地学习表示，如第4节所示。因此，给定一对原始图像（Ii，Ij），不不在摄像机i的不同视点下W×H的大小，相机j，预先训练的2D人体姿势es-首先应用估计器2以获得两个堆叠的K个关键点热图Ci和Cj。相应的2Dt t骨架图，被视为一个人树结构的母牛-matic graph，由8像素宽的热图构成因此，我们给出了二元骨架映射对（Si，Sj），其中S（·）∈ {0，1}（K−1）×W×H.直觉上，我们可以从前摄像机随机采样（i，j）。然而，这种抽样策略将在实践中导致两个问题。首先，有限的样本限制了训练集的多样性。其次，视点分布的不均匀性为了解决上述问题，利用基于虚拟相机的数据增强是简单的。然而，由于图像级输入，传统方法只能实现平面内旋转[13，26]。相反，我们利用[7]中应用的虚拟相机来增加环面4上的训练对。与[7]生成新的2D坐标-3D坐标对不同，我们随机采样2D骨架对。因此，我们可以获得无限的训练对，并在理论上计算它们的相对旋转矩阵。这种增强策略使我们的模型对不同的相机配置具有鲁棒性。3.2. 通过视图合成的几何表示假设我们给定一个训练集T={（Si，Sj，Ri→j）}NT包含两个前视图对在图像-骨架映射步骤之后，从摄像机i到j的坐标系投射相同的3D骨架（Si，Sj）和相对旋转矩阵Ri→j。现在我们来发现几何表示G。一个简单的方法，无监督/弱监督学习表示方式是利用自动编码机制来重构输入图像。然后，自动编码器的潜码可以被视为编码紧凑信息的特征图3：表示一致性约束的有效性说明。与仅应用“图像-骨架映射+视图合成”（SG）相比已知视点下的图像作为输入。在不失一般性的情况下，将输入图像视为源域，并且将生成的图像视为目标域。我们按照如下方式对我们的问题进行了调整。令Si={Si}V为源域，其中V表示视点的量，并且Si={Si}V为目标域，其中j=i。我们感兴趣的是学习捕获人类姿势的几何结构的编码器Φ：Si→ G。编码器将源骨架Si ∈Si映射到潜在空间Gi∈ G。为了学习G，必须满足源域和目标域之间的共享因此，在相对旋转矩阵R i→j的控制下，应当利用解码器Ri→j× G → Sj将G i解码回目标视图。此外，如果G接近于3D位姿坐标的流形，则后续的单目3D位姿估计的学习过程将被简化并且更少将需要标记的3D数据。到目前为止，很难证明学习的G i是否满足假设，因为框架不包含对G i的任何显式约束。为此，G的维空间首先应该受到约束我们将Gi表示为m个离散的实际上，3η维特征空间上的点具有3η维和M长度特征向量的形式，即，G=[g1， g2，· · ·， gM]其中 gm=（xm，ym，zm）.我们采用L2重建损失的学习过程：输入的形成[40，14]。然而，这样一个代表-L （φ·θ，θ）=1Σ 中国（R×φ（S i））−Sj<$2。（一）桩号既不包含几何结构信息，也不包含其他信息2为3D姿态估计提供了更多有用的信息NTi→jt t二维坐标，如图6所示。所提出的2我们遵循以前的工作[42，19，17]在MPII数据集上训练2D估计器。3例如，在Human3.6M数据集[11]中，四个摄像机近似位于矩形的四个角。4具体操作请参见补充资料。而重建损失的组合，adversar-语音损失和感知损失广泛用于合成任务[2，35，34]，其余两个损失将引入人工噪声到我们的框架中。由于骨架图作为图像只包含低频信息。3.3. 表示一致性约束如图3所示，仅应用SGDGGT10899不不2ttp=1源视图上的遮挡，这将导致所学习的表示G误导后续3D姿态估计任务的回归。由于G没有对潜在空间的明确约束，使得G是语义的。为此，我们提出了一个表示一致性约束，框架。在已知相对旋转矩的条件下，假设源域和目标域之间存在一对一的逆映射。然后，我们可以找到一个编码器μ：Sj→ G映射tar得到sk个元素Sj到潜在空间G<$j∈G，并且一个de-编码器ν：Rj→i×G→Si将表示Gj映射回姿势_1插值（一）姿势_2在R的条件下，j→i. 因此（b）第（1）款配对数据（Si，Sj），Gi和Gij应该是G上具有不同旋转相关系数的相同共享我们将这种关系，即代表性的CON-类似地，网络明确地具有如下公式：lrc=<$f×Gi−G<$j<$2，（2）其中f表示将Gi映射到Gj的旋转相关变换。当f已知时，该损失函数定义良好。为了释放约束，我们简单地假设f=Ri→j。在实践中，我们通过设计一个双向编码器-解码器框架来实现表示一致性约束，该框架依赖于两个具有相同架构的编码器-解码器网络，即，生成器（φ，φ）和生成器（μ，ν），以同时在两个方向上执行视图合成。具体地，设G ij是生成器（φ，φ）-分支上的旋转G i，我们强制归一化G ij为了接近具有修改的等式2的归一化的GjΣM图4：点云插值的图示。姿势1和姿势2是在同一相机视点下随机采样的两个姿势（a）和（b）分别示出了在没有/具有表示约束的情况下学习的潜在代码的插值结果有两个主要区别。首先，从（a）和（b）中的第一行开始，（b）示出了比（a）中的插值结果更平滑的插值结果（例如，从第五列到第六列的臂的第二，身体的下部应该逐渐直立，从左向右伸展，无论是2D骨骼还是3D姿势。然而，（a）中的2D骨架和3D姿态之间不一致。相反，（b）中的结果是一致的。潜码在表示约束的帮助下提取了更好的人体形状的3D我们以端到端的方式训练我们的双向模型，最大限度地减少以下总损失：L=L2（φ·ν，θ）+L2（μ·ν，θ）+Lrc（φ，μ，θ），（4）其中θ和θ分别表示两个编码器-解码器网络的参数lrc=m=1我的名字-gjm2.（三）3.4. 基于学习表示的三维人体姿态估计公式背后的一般思想是，如果映射可以完美建模，则潜码Gi和Gj将是世界下的相同几何表示坐标系映射到不同的相机坐标系。换句话说，一致性约束强制包含显式物理含义的学习的潜在代码。因此，可以提取不可信姿势的特征。通过更鲁棒的表示，后续的姿态估计结果将得到改善。此外，由于潜码被表示为3η维特征空间上的m个离散点的集合，因此它们可以被视为3D点云。在图4中，我们显示了具有/不具有建议的表示约束的点云插值从图中可以看出，具有表示约束的线性插值结果显示出更合理的流形覆盖，以及目标域上解码的2D骨架与回归的3D姿态之间更好的这种现象表明，回想一下，我们的最终目标是从单色图像I中推断出b={（x p，y p，z p）}P形式的3D人体姿势，其中P表示身体关节位置的数量，并且b ∈ B。在本节中，我们讨论如何找到函数F：I→ B来学习姿势回归。上述组件首先将原始图像提升为2D骨架表示，然后将2D骨架提升到G，这是人体的3D几何表示因此，我们可以将函数F分成三个子函数：F2D、FGF回归，其中：F（I）=F回归（FG（F2D（I）=F回归（G），（五）其中 F2D 表示第一分量， FG 表示第二分量 . 由于G∈R3×M，b ∈R3×P，所以Fre gresion（·）可以是一个线性函数，B. 在实践中，我们通过sim实现了回归部分-构建一个两层全连接神经网络，工作具体来说，我们首先前馈原始图像10900对固定分量的只有利用一小部分标记样本来训练回归部分才能获得满意的准确性，如第4节所示。2101901701501301109070MPJPE（mm）170150130110907050PMPJPE（mm）494962.5k5k25k49k129k179k312k个494962.5k5k25k49k129k179k312k个4. 实验（0.1%S1）（1%S1）（5%S1）（10%S1）（50%S1）（S1）（S1+S5）（S1+S5+（全部）S6）OursShallow基线#1（一）（0.1%S1）（1%S1）（5%S1）（10%S1）（50%S1）（S1）（S1+S5）（S1+S5+（全部）S6）OursShallow基线#1（b）第（1）款数据集。我们对我们的方法进行定量评估，并在流行的人体姿势估计平台上进行定性分析-标记：Human3.6M [11]、MPI-INF-3DHP [18]和MPII人类姿势[1]。 Human3.6M是用于3D人体姿态估计的最大数据集，由3. 600万个姿势和相应的视频帧，包括11名演员从4个摄像机视图执行15项日常活动。MPI-INF-3DHP是最近提出的3D基准测试，由受限室内和复杂室外场景组成。MPII人体姿势数据集是一个具有挑战性的基准，用于估计野外2D人体姿势。根据以前的方法[38，7，22，17]，我们采用该数据集来定性评估跨域泛化评价方案。对于Human3.6M数据集，我们遵循标准协议，即，方案#1，使用受试者1、5、6、7和8的所有4个摄像机视图进行训练，并使用受试者9和11的所有4个摄像机视图进行测试。在一些作品中，通过刚性变换[38，7]，预测进一步与地面实况对齐，这被称为Proto-col #2。为了进一步验证不同模型对新主题和视图的鲁棒性，我们遵循[7]使用主题1，5、6、7和8在3个摄像机视图中用于训练，而9和11在另一个摄像头视图中进行测试。该方案被称为方案#3。评估指标是以毫米为单位测量的平均实施详情。对于“图像骨架映射”模块，我们采用最先进的2D姿态估计器[20]来执行2D姿态检测。我们采用了U-Net上的网络结构作为我们的ggnerar（·，·）的骨干。跳过的连接被移除，以确保所有的信息都可以被编码成潜在的代码。对于模型加速，我们还将特征通道减半，并将输入和输出修改为15通道64×64。回归模块是维度1024和48的两层全连接网络，称为Regression#1。为了进一步验证我们提出的框架对其他方法的灵活性和互补性，我们也尝试使用最先进的3D姿态估计器[17，29]作为回归组件。学习的表示G表现为3D结构先验，被注入到它们的框架中。这两种配置分别称为回归#2和回归#3。注意，为了以直接的方式评估所提出的几何表示的鲁棒性和灵活性，我们仅将几何表示G转发到完全连接层以匹配基线的特征尺寸，然后图5：使用不同数量的训练数据对Human3.6M进行评估。(a)给出了MPJPE度量下的结果。(b)给出了PMPJPE度量下的结果。直接对基线进行元素求和，而不是设计复杂的特征融合机制来潜在地更好地融合表示与原始特征。所有的实验都在Titan X GPU上进行有关体系结构的详细信息，请参阅补充材料。人类3.6M的结果。我们首先验证了学习表示G在3D人体姿态估计任务中的有效性，在使用不同数量的3D标注样本（在协议#1下）来训练回归模块的情况下。我们采用Regression#1作为回归变量，仅以G作为输入。该配置被称为OursShallow。由于仅利用2D注释来学习G，因此我们还列出了利用相同的回归器从2D检测直接回归3D姿态坐标的性能，其被称为基线#1。图5显示了结果。这种现象在MPJPE和PMPJPE指标上是一致的。仅给出约500个带注释的训练样本，我们的方法实现了17。在MPJPE上比基线#1相对改善98%，和3.90%的PMPJPE。当更多的注释样本用于训练时，裕度变得更大。我们对不同设置的一般改进证明了学习表示对不同数量的3D训练样本的鲁棒性。我们还对回归#2和回归#3进行了上述实验，以进一步验证学习表示对强基线的有效性（为了节省空间，详细结果显示在补充材料中）。在训练样本量较少的情况下，我们提出的表示方法可以帮助提高基线的性能，使其与在大量样本上训练的结果相当。然后，我们评估所有三种协议下的模型，以证明学习表示G作为不同3D人体姿态估计方法之前的鲁棒3D的有效性和灵活性。表1报告了与当前最新技术水平的比较。我们得出以下两个关键观察结果：（1）仅使用学习的几何表示G作为输入和简单的2层fc架构（Ours+Regression#1）直接回归3D姿态（2）作为一种3D几何先验，G可以很容易地帮助一致地改善不同骨干的性能，实现最佳的性能。220070. 5107.9127.3122.7122121.5121.6117.6115.3114.796.294.593.391.988.5八十三点四80.2582.4八十一点六258.360.562.68668.770.176.77978.581.9382.71.. 1387135.2153.10901BLBL+I_SGBL+AEBL+SGBL+SG+AUGBL+DG+AUG5452.65249.849.95048.24847.446.3464442BL BL+I_SG BL+AE BL+ SG BL+SG+ AUCBL+DG+ AUC协议#1方向讨论吃迎接电话照片构成购买坐坐下烟雾等WalkDog走WalkT.Avg.Martinez等人(ICCV’17)51.856.258.159.069.578.455.258.174.094.662.359.165.149.552.462.9Fang等人(AAAI’18)50.154.357.057.166.673.353.455.772.888.660.357.762.747.550.660.4Sun等人(ICCV’17)52.854.854.254.361.867.253.153.671.786.761.553.461.647.153.459.1Yang等(CVPR[38]51.558.950.457.062.165.449.852.769.285.257.458.443.660.147.758.6Pavlakos等人(CVPR’18)48.554.454.452.059.465.349.952.965.871.156.652.960.944.747.856.2Sun等人(ECCV’18)46.548.149.951.147.343.245.957.077.647.954.946.937.149.841.249.8Ours + Regression#1（2 fc层）63.973.770.976.182.669.575.196.1120.675.496.878.769.183.572.280.2[17]第二季第45.953.550.153.261.572.850.749.468.482.158.653.957.641.146.056.9[29]第29话41.144.244.945.946.539.341.654.873.246.248.742.135.846.638.546.3协议#2方向讨论吃迎接电话照片构成购买坐坐下烟雾等WalkDog走WalkT.Avg.莫雷诺-诺格尔（CVPR66.161.784.573.765.267.260.967.3103.574.692.669.671.578.073.274.0Zhou等人（Arxiv47.948.852.755.056.865.549.045.560.881.153.751.654.850.455.955.3Sun等人（ICCV42.144.345.045.451.553.043.241.359.373.351.044.048.038.344.848.3Martinez等人（ICCV '17）[17]39.543.246.447.051.056.041.440.656.569.449.245.049.538.043.147.7Fang等人（AAAI38.241.743.744.948.555.340.238.254.564.447.244.347.336.741.745.7Sun等人(ECCV’18)40.941.445.045.242.137.641.152.071.442.547.441.632.042.636.944.1Yang等人（CVPR26.930.936.339.943.947.428.829.436.958.441.530.529.542.532.237.7Ours + Regression#1（2 fc层）47.051.853.355.359.748.451.772.190.656.665.455.150.259.453.958.2[17]第二季第36.541.040.943.945.653.838.537.353.065.244.640.944.332.038.444.1[29]第29话36.939.340.541.242.034.938.051.267.542.142.537.530.640.234.241.6方案#3方向讨论吃迎接电话照片构成购买坐坐下烟雾等WalkDog走WalkT.Avg.Pavlakos等人（CVPR '1 7 ）[2 2 ]79.285.278.389.986.387.975.881.8106.4137.686.292.372.982.377.588.6Martinez等人（ICCV '17）[17]65.768.892.679.984.5100.472.388.2109.5130.876.981.485.569.168.284.9Zhou等人（ICCV61.470.762.276.971.081.267.371.696.7126.168.176.763.372.168.975.6Fang等人（AAAI57.557.881.668.875.185.861.670.495.8106.968.570.473.8958.559.672.8Sun等人(ECCV’18)52.450.545.057.849.850.346.157.196.347.456.452.145.753.748.753.6Ours + Regression#1（2 fc层）70.878.384.989.289.278.085.6116.3142.787.0114.288.181.592.980.391.4[17]第二季第60.463.677.269.564.896.164.175.087.6111.166.667.770.054.857.671.8[29]第29话45.948.048.650.848.945.146.157.477.349.454.247.239.949.942.950.3表1：在协议#1、#2和#3下，估计的姿态和Hu-man 3.6M上的地面实况之间的平均每关节位置误差（mm）的定量比较。最好的分数用粗体标出。所有三种方案下的ART结果。即使在最先进的强基线[29]上，模型（我们的+回归#3）仍然可以有7%的改进，达到46。3毫米的误差。消融研究。我们在方案#1下对Human3.6M数据集进行消融实验，以验证我们方法的不同组成部分的有效性。总体结果如图6所示符号和比较如下：• BL是指没有学习表示G的3D姿态估计器。我们把这个模型作为基线我们的框架模型。我们通过公开实施来训练基线[29]。基线的平均误差为49。8毫米。• BL+I SG 是指使用原始图像来训练遗传算法（·，·）。我们观察到业绩下滑（49. 8毫米→52毫米。6mm），甚至比基线模型更差。这一结果表明，基于图像的视图合成机制由于缺少提取不必要因素的提取步骤而不能促进表示的编码（例如，外观、照明和背景）。• BL+AE是指在训练generator（·，·）时源域和目标域相同的配置。平均误差为49。9毫米，与基线几乎相同。这一结果表明-认为自动编码的潜在代码不能提供比纯2D代码更有效的信息图6：在我们的方法中对不同组件的消融研究。在Pro-tocol#1下使用MPJPE指标对Human3.6M如果没有特别的机制，请提供详细信息。• BL+SG是指将学习的表示G作为3D结构先验注入基线网络的模型，其中G是在没有表示一致性的情况下学习的。关联约束该模型不采用复杂的融合机制，而是通过级联操作将学习到的G简单地添加到基线网络中，将误差降低了3。2%（49. 8毫米→48毫米。2毫米）。这证明了我们框架的有效性和灵活性努力学习在人体中的几何表示。与BL+I SG的结果相比，BL+SG的结果表明，二维骨架图可以为几何表示的学习提供足够的信息• BL+SG+AUG指的是虚拟摄像机对数据进行增强。增加提供1。占6%10902图7：我们的方法对野生MPII人类姿势数据集的测试分割的定性结果。最好用彩色观看与“BL+ SG”相比，平均误差更低。在补充材料中显示的消融研究中，其他基线的增强显示了类似的相对改善结果。• BL+DG+AUG是指使用表示一致性约束。我们看到 2 。 3% 的错误下降（ 47. 4 毫米 →46 毫米。3mm），表明我们提出的一致性约束确实增加了鲁棒性-几何表示G的性质。在多视图方法中传统设计的约束，例如，核线发散[12]和多视图一致性[27]，需要基于迭代优化的方法，如RANSAC，来初始化该过程。相比之下，我们的表示一致性约束是直接的，纯粹的前馈，这是更容易训练和实现。我们进一步说明了对回归#1和回归#2的消融研究。观察结果与图6中所示的结果相似，而不同组件之间的相对改进更显著。请参阅补充材料。跨域泛化。在这里，我们执行三种类型的跨数据集评估，以进一步验证我们的方法的一些我们首先证明了泛化能力的学习表示域之间的定量。表2报告了配置的结果，在Human3.6M上运行，然后在INF-3DHP上测试。接下来[18，38]，我们使用AUC和PCK作为评价指标。从结果中可以看出，我们的模型与不同的回归在大多数情况下呈现出一致的改善，其基线，这表明学习的几何表示可以提高后续的姿态估计器的泛化能力显着，因为它的鲁棒性新的相机视图和不可见的姿态。[18个国家][第四十二届][38个]R#1[17]第十七话[29]第二十九话我们的+R#1我们的+R#2我们的+R#3PCK64.750.169.041.068.068.461.468.775.9AUC31.721.632.017.134.729.429.434.636.3表2：MPI-INF-3DHP数据集与最新技术水平的交叉数据集比较，包括PCK和AUC指标。R#* 表示回归#*。然后，我们证明了我们的模型的泛化能力的无约束环境定性。图7显示了MPII数据集的测试分割的采样结果，其中模型在Human3.6M数据集上训练从图中可以看出，我们的方法能够准确地预测野外图像的3D姿态。最后，我们提出的好处，消除数据集间的变化，三维人体姿态估计。由于我们的框架打破了数据集之间的差异，不同的三维人体姿势基准可以一起训练，以增加多样性。如图 8 所示，交叉数据集训练（Human3.6M + MPI-INF-3DHP）在MPII数据集的一些看不见的姿势上显示出比单数据集训练（Human3.6M）图8：MPII数据集的定性比较。第二列显示了在Human3.6M数据集上训练的预测。第三列显示了跨数据集训练的预测。5. 结论我们提出了一种弱监督的方法来学习几何感知表示的3D人体姿态估计。我们的方法是新颖的，因为我们采取了一个根本不同的方法来学习多视图设置下的几何表示。具体而言，我们利用视图合成来提取潜在空间中的共享表示，仅使用2D注释和简单的表示约束，这为以更少的注释努力和更简单的网络架构学习表示提供了一个新的方面。同时，我们通过引入一个基于卷积的编码器-解码器来桥接不同的3D人体姿态数据集。实验结果验证了该框架在三维人体姿态估计任务中的有效性和灵活性。10903引用[1] Mykhaylo Andriluka，Leonid Pishchulin，Peter Gehler，and Bernt Schiele.[2] 放大图片作者：Guha Balakrishnan，Amy Zhao，AdrianV. Dalca，Frdo Du- rand，and John Guttag.合成人类在看不见的姿势的图像。在CVPR，2018年。[3] Federica Bogo、Angjoo Kanazawa、Christoph Lassner、Peter Gehler、Javier Romero和Michael J Black。保持它smpl：由单一影像自动估计三维人体位姿与形状。在ECCV，2016年。[4] 陈景航和德瓦·拉曼南。3D人体姿态估计= 2D姿态估计+匹配。在CVPR，2017年。[5] Xiao Chu，Wei Yang，Wanli Ouyang，Cheng Ma，AlanL Yuille，and Xiaogang Wang.人体姿态估计的多上下文注意。arXiv预印本arXiv：1702.07432，2017。[6] Yu Du，Yongkang Wong，Yonghao Liu，Feilin Han，Yilin Gui ， Zhen Wang ， Mohan Kankanhalli ， andWeidong Geng.基于单目图像序列和高度图的无标记三维人体运动捕捉。在ECCV，2016年。[7] 方浩树，徐元路，王文冠，刘晓柏，朱松春。学习位姿文法编码人体构形以进行 3d位姿估测。在AAAI，2018。[8] John Flynn，Ivan Neulander，James Philbin，and NoahSnavely. Deepstereo：学习从世界图像中预测新视图。在CVPR，2016年。[9] Po-Han Huang ， Kevin Matzen ， Narendra Ahuja ， andJia-Bin Huang.Deepmvs ：学习多视图立体视觉。在CVPR，2018年。[10] 黄英豪， Federica Bogo ， Christoph Lassner ， AngjooKanazawa ， Peter V. Gehler ， Javier Romero ， IjazAkhter，and Michael J.黑色.随着时间的推移，朝向准确的无标记人体形状和姿势估计。在3DV，2017年。[11] CatalinIonescu，VladOlaru，andCristianSminchisescu.Hu-man 3. 6 m：大规模数据集和自然环境中三维人体感知的预测方法TP

下载后可阅读完整内容，剩余1页未读，立即下载