多视图神经网络：基于2D关键点的快速3D姿势估计

156 浏览量更新于2023-10-25 收藏 1.35MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6759应用学习的快速神经优化器组合三维位姿MetaPose：从多个视图快速3D姿势，无需3D监督Ben Usman1，2Andrea Tagliasacchi2，3Kate Saenko1，4Avneesh Sud21波士顿大学2谷歌研究3西蒙弗雷泽大学4麻省理工-IBM沃森人工智能实验室摘要在深度学习时代，迄今为止，来自具有未知校准的多个相机的人体姿势估计我们展示了如何训练神经模型以高精度和最小延迟开销执行此任务。该模型考虑了多视图遮挡引起的关节位置不确定性，并且只需要2D 关键点数据进行训练。我们的方法在成熟的Human3.6M数据集以及更具挑战性的野外Ski-Pose PTZ数据集上优于经典的束调整和弱监督单眼3D基线1. 介绍在多视图2D数据上训练（没有3D！）将现有的单视图模型应用于每个视图图1.我们展示了如何训练一个神经网络，它可以聚合多个单视图方法的输出，考虑预测的不确定性，具有最小的延迟开销，并且只需要2D监督进行训练。我们的方法模仿的结构，但使用人体的关节来驱动摄像机校准，并通过实现一个简单的前馈神经网络的类似的解决方案。我们解决的问题，估计三维坐标的人体关节从RGB图像捕获使用同步（可能移动）相机未知的位置，方向和内部参数。此外，我们假设可以访问仅具有在捕获的图像上标记的关节的2D位置的训练集。历史上，人类3D姿态的实时捕获仅由能够购买昂贵的专用运动捕获设备的大型企业承担[18]。原则上，如果摄像机校准可用[3]，则可以直接从摄像机空间观察值对人体关节进行三角测量[26，33]。其中不能容易地估计摄像机校准的一个场景是运动捕获，其中在低纹理背景前面利用宽基线移动摄像机捕获运动员的特写。普通背景排除了通过经典的多相机SfM [21]进行校准，因为在视图中可以检测到不足够多的特征对应性;见图1在这项工作中，我们提出了一个神经网络，同时预测三维人体和相对相机姿态从多个视图;见图1我们的方法使用人体关节作为摄像机校准的信息源。由于接缝经常被遮挡，因此必须仔细考虑不确定性，以避免校准不良和不确定性。排除错误的3D姿势预测。由于我们在测试时假设同步的多相机设置，因此我们的算法也应该能够有效地聚合来自不同视点的信息。最后，我们的方法仅由2D注释监督，因为3D数据的地面实况注释是笨拙的。如图2所示，现有的方法都不能完全满足这些基本要求。完全监督的3D姿态估计方法产生最低的估计误差，但在训练[65]或训练和推理[26]期间使用已知的3D摄像机规格。然而，野外3D联合注释和完整相机校准的成本过高，难以获取代表特定环境的足够大的标记数据集[30，53]，因此渲染监督方法不适用于此设置。单目3D方法[25，37，62]和2D到3D提升网络[10，61]放松数据约束，仅使用多视图2D数据进行3D姿态推断，而无需在训练时进行校准。不幸的是，在推理时，这些方法一次只能应用于单个视图，因此无法利用跨视图信息和不确定性。经典的SfM（运动恢复结构）方法用于3D姿态估计[33]迭代地细化相机和6760监督3DCAD需要3D数据✓ 在推理时聚合单眼3D✓ 在2D数据推理时，视图不经典SfM✓ 在2D数据✓ 在推理时聚合视图条款。Martinez等人[46]使用预先训练的2D姿态网络[49]来利用具有2D姿态注释的现有数据集。对极变换器[22]仅使用2D关键点监督，但需要相机校准以将3D信息并入2D特征提取器中。自我监督薄弱。一些方法不使用全3D GT姿势进行训练。许多垫块受限于3D✓ 使用不确定性忽视不确定性忽视不确定性注释与2D标签[32，48，66，69]。基于拟合图2. 先前工作-现有解决方案需要3D标注[26]，每次对单个视图执行推断[62]，或忽略由于遮挡引起的关节坐标的不确定性[33]。从嘈杂的2D观测中获取3D姿态。然而，这些方法通常比它们的神经对等体慢得多，因为它们必须在推理期间执行几个优化此外，他们中的大多数人不考虑不确定性估计，导致低于标准的性能。为了克服这些限制，我们提出了MetaPose;见图1。我们的3D姿态估计方法聚合了多个视图中的姿态预测和不确定性估计，在训练和推理时都不需要3D联合注释或相机参数，并且对所产生的流水线增加了很少的延迟。总的来说，我们提出了前馈神经架构，可以准确地估计3D人体姿势和多个视图的相对相机配置，考虑到关节遮挡和预测不确定性，并仅使用2D关节注释进行训练。我们采用现成的弱监督3D网络来形成关于姿态和相机设置的初始猜测，以及神经Meta优化器，其使用由现成的2D姿态估计网络生成的2D联合位置概率热图迭代地细化这种模块化方法不仅产生低估计误差，从而在Human3.6M [24]和Ski-Pose PTZ [53]上产生最先进的结果，而且具有低延迟，因为我们框架内的推理作为前馈神经网络执行。2. 相关工作在本节中，我们只回顾多视图3D人体姿态估计方法，并请读者参考补充章节。7.4对于学习的神经优化器和人体先验的扩展综述，以及Joo et al.[30]对野外3D人体姿态估计的调查。全面监督。监督方法[11，26，60]在多视图单个人[24]和多人[6，11，29]数据集上产生其他方法[65]使用具有完整3D注释和大量注释相机的数据集来训练模型，这些模型可以适应视觉相似环境中的新颖相机设置，放松相机校准要求-方法[32，38，40，66]联合拟合统计3D人体模型和3D人体姿势到单目图像。综合分析方法[27，41，52]通过估计新视图中的外观来学习预测3D人体姿势。与我们的工作最相关的是利用多视图图像捕获结构的方法。Epipolar Pose [37]使用对极几何从多视图2D预测中获得3D姿态估计，随后使用它们直接监督3D姿态回归。Iqbal等人[25]提出了一个弱监督基线来预测关节的像素坐标及其在每个视图中的深度，并在训练期间惩罚不同视图的严格对齐预测之间的差异。自我监督的Canon-Pose [62]通过在“规范”框架中解耦3D姿态估计来Drover等人[15]使用大量模拟的3D到2D投影来学习将2D姿态投影映射到相应的现实3D姿态的“字典”。RepNet [61]和Chen et al.[10]用更真实的数据约束训练类似的“2D到3D提升网络”。虽然所有上述方法使用多视图一致性进行训练，但是它们不允许从多个图像进行姿势推断迭代细化。同时估计相机和姿态是视觉中的一个长期存在的问题[54]。最近成功的尝试之一是Bridge-man等人的工作.[8]提出了一个端到端网络，使用该领域中多个参与者的中心点来细化初始校准猜测。在没有这种外部校准信号的情况下，Takahashi et al.[57]执行具有骨长度约束的束调整，但不报告公共基准的结果。AniPose [33]使用Zhou等人的稳健3D配准算法的修改版本执行联合3D姿势和相机微调。[68]第二章。这些方法忽略预测的不确定性以实现更快的推断，但稳健地迭代估计离群2D观测值并在精化期间忽略它们。在第5节中，我们展示了这些经典方法在定义不明确的环境中的挣扎，例如当我们有少量相机时。最近，SPIN[40]，HUND [67]和Holopose [19]结合了用于单目输入的迭代姿态精化，然而，精化被紧密集成到姿态估计网络中。MetaPose使用有限容量的神经网络有效地正则化了多视图姿势估计问题，从而比经典的改进方法更快地进行推理，精度更高。6761···j=1--�J、C{I}p（k）图3. 方法-我们用一个简单的二维例子来说明我们的方法，回归一个等边三角形的三维顶点给定多视图观察。（左）AniPose[33]执行经典的束调整，以识别摄像机位置和3D顶点，最大限度地减少输入图像上2D地标的重投影误差。相反，我们的技术通过元优化器以“神经”方式模拟经典的束调整：首先（中），EpipolarPose [ 37 ]神经网络获得关节的每帧3D估计，我们通过procrustes共同对齐以获得相机参数和关节位置的初始猜测;然后（右），神经网络元优化器执行捆绑调整，并使用每个视图的关键点定位热图作为输入来优化关节和相机。额外的先验信息，例如三角形是等边的事实，可以优雅地集成到元优化器训练中。3. 方法如图3所示，给定一组c图像，我们寻求优化，直到全局旋转，缩放和移位：运算符定义为π（j，（R，t，s））=sI[0：1]Rj+t其中I[0：1]是丢弃相乘向量的第三维度的截断单位矩阵。这个选择的相机模型简化了相机参数的初始化•J={jj∈R3}J•C={cc∈RP}C 3D身体关节的3D坐标：每个摄像机的参数。从单视图3D姿态估计（第3.2节）和消除重投影奇点（补充第3.2节）。7.6）。c=1还注意到：•H={hc∈RJ×H ×W}C：一组2D热图，在第5节中，我们通过实验证明了最终的错误来自于相机型号的选择。推理任务。我们的推理任务是估计图像上的位置c=1{Ic}用这些摄像机拍摄的，来自观察到的热图H的J和C。我们首先介绍-将概率光束法平差公式化，假设在训练时，我们得到：•K= kj，c：关节jj在摄像机cc中的投影的地面实况2D位置。贝叶斯模型形式上，假设热图仅通过2D关键点位置（即，p（H|K，J，C）=dle关节位置不确定性，然后提出一个回归模型，该模型对关节位置和观察到的热图之间的复杂相互作用进行整体推理任务可以被定义为在给定观察到的热图的情况下找到姿势和相机参数的后验概率的最大值，在可能的关键点位置上被边缘化：maxp（J，C|H）=�p（k）|H）p（k|J，C）p（J）p（C）dk（3）p（J，C，K，H）=p（H|K）p（K|J，C）p（J）p（C）（1）假设关节和关键点通过以下方式相关：p（K|J，C）=δ（kj，c−π（jj，cc））（2）j，c其中δ是狄拉克分布，π（j，c）将关节j投影到摄像机c中的2D坐标。我们使用弱投影相机模型，因此，每个相机由旋转矩阵R、像素移位向量t和单尺度参数s的元组定义，即c= [R，t，s]，投影p（H|K）），联合分布可以分解为：6762�其中假设没有给出关于相机参数、关键点位置和姿态的先验信息（即，常数p（C），p（K）和p（J）），并使用（2），我们得到：p（J，C|H）π p（kj，c=π（jj，cc）|H）（4）c，j此外，假设每个关键点kc，j仅受相应热图hc，j的影响，更具体地说，条件概率密度与热图的相应值成比例p（kj，c|H）=p（kj，c|hj，c）hj，c[kj，c]（5）6763�我Nθ2|我{}我【0：1】2CC0 0 00【0：1】Σǁ −···ǁ我们得到一个概率性的bundle adjustment问题：maxhj，c[π（jj，cc）]（6）J、 Cc，j如我们将在第5节中所示，如果假设每个关键点可以通过以下函数关系受到任何热图的影响，直到正态分布残差，则可以实现更好的估计准确性和更快的推断时间：p（K|H，θ）=N（K|π（Jθ（H），C θ（H）），I）（7）其中Jθ、Cθ是关节和相机回归模型（例如，神经网络）由未知参数θ参数化，并且是多元正态密度。该模型的参数可以通过使用训练期间可用的p（K，H）的观测值的最大似然估计来找到3) 神经优化器提供比经典迭代精化快几个数量级的推理，并且允许在相同的相干计算框架内编写整个框架（即，神经网络与神经网络加经典优化）。3.1. 预处理我们假设我们可以访问2D姿态估计模型（例如，PoseNet [50]），其从RGB图像c产生每个关节j的2D定位热图hj，c。我们用球形高斯g j，c的M分量混合来近似每个热图hj，c。这种压缩的格式降低了神经优化器输入的维度（第3.3节）。为了将球形高斯混合的参数gj，c拟合到局部化2D直方图hj，c，我们将热图视为由相应概率加权的2D像素坐标的规则网格，并应用θMLE=arg maxθ= arg minθp（H，K|θ）= arg max p（K|H，θ）（8）EK，H<$K−π（Jθ（H），Cθ（H））<$2（9）加权EM算法[17]对这些加权坐标进行加权，如补充章节7.5所述。单视图姿态估计。初始化摄像机参数-然后，测试时间推断简化为在给定热图处对回归模型的评估arg maxp（J，CH，θ）=Jθ（H），Cθ（H）（10）J、 C直观地说，参数目标实现了所有观察到的热图和所有预测的关节位置之间的复杂相互作用。由此产生的模型在速度和精度方面都优于概率光束法平差，如第5节所示。求解器。为了有效地解决（9）中的高度非凸问题，我们采用了模块化两阶段方法;参见图3：阶段1（S1）：第3.2节：我们首先使用相机配置的单视图3D姿态估计和3D姿态，通过将刚性对准应用于使用预训练的弱监督单视图3D网络获得的每视图3D姿态估计来获取初始猜测（Jinit，Cinit），例如。[37，62]阶段2（S2）：细化-第3.3节：然后我们训练一个神经网络f θ来预测相机和姿势的一系列细化步骤，从初始猜测开始进行优化（9）。优势这种方法有几个主要优点：1) 它用“足够好”的猜测来启动细化阶段，以在给定多视图热图的情况下从高度非凸姿态似然目标的正确盆地开始;2) 它为我们提供了一个模块化的框架，让我们交换预先训练的模块为单视图2D和3D，而无需重新训练整个管道，只要有更好的应用程序，接近变得可用;通过刚性对齐（第3.2节），我们需要一个未经3D监督训练的单图像3D姿态估计模型（例如，EpipolarPose [37]），其在给定来自该相机的图像c的情况下产生每个相机的粗略3D姿态估计Q=qc，j这些单个图像估计qc，j被假设为在相机帧中，这意味着qc，j的前两个空间坐标对应于图像c上的关节j的像素坐标，并且第三个坐标对应于其单个图像相对零均值深度估计。3.2. Initialization – Figure该阶段的目标是使用由未经3D监督训练的模型进行的单视图粗略相机帧3D姿态估计Q来获取3D姿态和相机（Jinit，Cinit）的初始猜测[37，62]。我们假设第一个摄像头的初始参数是固定的，cinit=（Rinit，tinit，sinit）=（I，<$0，1）（11）并将剩余摄像机的旋转、缩放和平移的初始估计定义为以下正交刚性对准问题的解：arg minqc，j （scRcq0，j+ITtc）（12）Rc，t c，s c J这可以使用均值中心3D姿态的外积的SVD来解决[55]。3D姿态Jinit的初始猜测则是通过对应的估计的最佳旋转、缩放和移位刚性地对准回到第一相机帧中的单视图3D姿态预测Q的平均值：Jinit=1<$RT·（qc−IT·tc））/sc6764（13）C6765FθθF--L|σσj，cjc获取每个视图的3D姿态估计找到旋转，计算初始猜GT 2D减少分歧平均姿势重投影损失初始猜测的包括相机Fθ初始猜测对于3D姿势图4. -我们图5. 细化-在推理过程中，我们不需要地面实况2D投影。3.3. 重新定义我们训练一个神经网络fθ来预测一系列3D姿态和相机估计的最新数据，这导致从第3.2节的初始化开始的精确估计：J（i+1）=J（i）+ dJ（i），J（0）=Jinit（14）C（i+1）=C（i）+dC（i），C（0）=C init.（十五）建筑设计。θ的架构需要非常仔细地设计，以尊重手头问题的对称性。对J（i+1）的推断更新应该是不变的相机的顺序，而更新到C（i+1）应该是置换等变的。C（i）的当前估计、K（i）的行和高斯混合G。形式上，对于相机的任何输入和排列σ：为了确保推断的相机参数C保持有效，dJ，dC=Fθ（J（i），C（i），G，K（i），L）（17）根据网络预测的任何更新dC，摄像机比例（始终为正）以对数比例表示，摄像机旋转使用连续6D表示[70]，参见第2节。七点九dJ′，dC′=Fθ（J（i），C（i），Gσ，K（i），L）（18）我们需要保证dJ=dJ DC= DC��到在每个精制步骤dJ（一），dC（i）=F（i）（. -是的-是的）的归档这个，我们连接视图不变输入J（i）和L到每r个依赖于视频的输入C（i）、G、K（i），通过整个网络fθ的子网络（i）被提供有尽可能多的信息以执行朝向最优解的有意义的更新：•（J（i），C（i））---•G=gj，c•K（i）={k（i）=π（j（i），c（i））}• （J（i），C（i）G）给定热图混合参数的关节。这些学习的更新寻求最小化每个帧中关键点的预测和地面真实2D坐标之间的L2距离，反映了我们之前定义的最大似然目标（9）：它们通过具有聚合层的置换等变MLP [13，31]将特征向量的一阶矩和二阶矩连接回这些特征向量，并应用平均聚合和非置换等变MLP来获得最终姿态更新，如图6所示。局限性。我们假设弱相机模型，使得我们的方法在使用广角（短焦距）镜头拍摄的捕获上不太准确。为了实现最佳性能，我们的方法需要准确的2D关键点地面实况进行训练，但我们也报告了训练期间不使用GT关键点的性能（表2）。我们隐含地假设对象完全在帧中，并且在所有视图中具有可比较的大小（以像素为单位），并且期望重新投影损失（16）的不同分量的手动重新加权可能是必要的。arg minLk（θ）=k（i+1）−kgt2（十六）θ（一）j，cj，cj，c23.3.1Pose prior（即，“骨长”实验）我们毫不费力地神经精化2D关节位置的概率投影到凸轮上6766F其中，在实践中，我们一个接一个地逐步训练细化步骤θ（i），如附录中所讨论的。秒七点七在我们的Meta优化器中注入特定于主题的骨骼长度先验。给定两个关节jn和jm，6767Σ|E|BB|ǁ −ǁNE�P于我��图6. 架构-为了使预测的更新尊重手头问题的对称性，我们将视图不变输入（当前姿态估计，平均热图可能性-虚线）复制并连接到每行视图特定输入（当前相机和联合投影，热图），将它们传递通过上面所示的置换等变MLP块。为了获得置换不变的最终姿态更新，我们还将MLP应用于平均输出姿态嵌入。通过边e=（n，m），我们定义骨骼长度be（J）= jnjm2。然而，由于我们的束调整是按比例进行的，我们应该通过表示每个骨骼相对于平均长度的长度来定义比例不变的骨骼长度bN（J）=b（J）/µ（b（J））。其他骨骼µ（b）=（ebe）/。如果我们假设在训练和推断期间，我们观察到有噪声的归一化骨长向量B=bN（J）+ε，其中ε（0，σ2I）。然后，联合概率（1）变为：p（J，C，K，H，B）= p（B|J）p（H|K）p（K|J，C）p（J）p（C）我们的参数似然（7）变为：p（K|H，B，θ）p（K|H，θ）· N（bN（Jθ（H，B））|B，σ2I）并且其参数θ可以使用来自训练期间可用的p（K，H，B）的观测值经由p（K，H，Bθ）上的最大值等效地估计为（9），有效地导致额外的损失项，该损失项惩罚从所提供的骨骼长度导出预测姿势的骨骼长度：L（θ）= N（J（i+1））−B�2。（十九）（一）4. 实验在本节中，我们指定了用于验证所提出的方法的性能的数据集和指标，以及我们进行的一组基线和消融实验，以评估每个阶段和每个监督信号提供的误差改善。数据我们在具有四个固定相机的Human3.6M [24]数据集和具有六个移动平移-倾斜-变焦相机的更具挑战性的SkiPose-PTZ [53]数据集上评估了我们的方法。我们使用H36 M的标准训练测试评价方案[26，37]，受试者1、5、6、7和8用于训练，9和11用于测试。我们还通过从H36M数据集中提取每个第16帧来修剪H36M数据集，从而产生24443个训练和8516个测试示例，每个示例包含来自四个相机的信息。我们评估了我们的方法的子集（1035列车/230测试），SkiPose [53]用于CanonPose [62]，排除了280个能见度被雪遮挡的例子。在每个数据集中，我们使用来自训练分割的前64个示例作为验证集。在补充的第7.13节中，我们表明，在现有的多视图数据集中，SkiPose是唯一公开可用的注释多视图数据集，其具有在最近的先前工作中积极使用的移动相机。指标. 我们报告了Procrustes对齐的每关节平均位置误差（ PMPJPE ）和归一化的每关节平均位置误差（NMPJPE），其测量在将最佳刚性对齐（包括缩放）应用于预测的3D姿态和地面真实3D姿态（对于NMPJPE ）或仅应用于最佳移位和缩放（对于PMPJPE）之后的3D关节估计的L2误差。我们还报告了从多视图RGB执行3D姿态推断所需的总时间（Δt）。基线。在H36M上，我们使用Iskakov等人最先进的全监督基线来[26]它使用地面实况相机参数来在推理期间聚合多视图预测。我们还将我们的方法的性能与在训练期间使用多视图2D监督但一次仅对单个视图执行干扰的方法进行了比较：自我监督的Epipo-larPose（EP）[37]和CanonPose（CP）[62]，以及Iqbal等人的弱监督基线。[25] Rhodin et al. [53]。在SkiPose上，我们将我们的模型与文献中仅有的两个基线进行了比较：Canon-Pose[62]和Rhodin等人。[53]。我们没有在SkiPose上评估Epipo-larPose，因为它需要固定的摄像头来执行初始的自监督伪标签。我们没有评估Iqbal等人。[25]在SkiPose上，因为到目前为止还没有代码发布，作者也没有回应分享代码的请求。我们还将我们的方法与用所有相机的地面真实外部相机参数初始化的“经典”光束法平差进行了比较我们在AniPose [ 33 ]中使用了经过充分测试的光束法平差实现，该实现使用了Zhou等人的3D配准算法的改编版本。[68]第二章。该方法将关键点位置的点估计值作为输入，ψ2（DC2MLPψ1（DC1μ（μ*ψ0（直流0d J（i）MLPMLPMLPJ（i）J（i了c0（C1的g0G1G2K（ ℒ （MLP（K1 （ ℒ （MLPC2 （K2 （ ℒ （MLP等变区组φ2φ1φ0等变区组等变区组连续时刻φ0μ（φ*）σ（φ*）φ1μ（φ*）σ（φ*）φ2μ（φ*）σ（φ*）6768图7. 定性结果底部两行显示了评估方法在H36M上使用四个摄像头（左）和SkiPose上使用两个摄像头（右）进行的预测。我们包括对MetaPose（第1阶段），MetaPose（第1+2阶段），MetaPose与迭代修正（S1+IR）的预测，以及使用GT初始化的AniPose。我们还提供格式中的错误：PMPJPE/NMPJPE。两个数据集的定性结果的视频演示可以在补充材料或项目网站https://metapose.github.io/上找到。放置（即无不确定性）并迭代检测离群值，方法PMPJPE↓NMPJPE↓Δt使用4 2 4 2[s]二阶信赖域递归算法[7，9]。架构对于单目2D姿态估计，我们使用堆叠的沙漏网络[49]在COCO姿势数据集[20]上进行预训练。对于阶段 1 中的单眼 3D 估计，我们在Human3.6M上应用EpipolarPose [37]，在SkiPosePTZ上应用Canon-Pose [62]。我们注意到，这些单目3D方法和我们的评估集使用的联合标记方案的差异不会影响我们通过刚性对准获得的相机AniPose [33] w/GT 75 167 103 230 7.0Rhodin等人[53] I 'm sorry.[62] 2016 - 05 - 22EpipolarPose（EP）[37] 71 - 78--Iqbal等人[25] 55 - 66--MetaPose（S1）74 87 83 950.2MetaPose（S1+S2）32 44 49 550.3所有视图的单眼3D估计都遵循一致的标签方案。每个神经优化器步骤都是单独训练的，最后，停止梯度应用于所有输入。我们指方法PMPJPE↓NMPJPE↓Δt我们的读者在第7.7节中补充了更多的细节-6 2 6 2[s]我们用来训练我们的所有组件的尾描述神经优化器及其参考性能。5. 结果所提出的方法（MetaPose S1+S2）在H36 M上使用四个摄像头比使用地面实况摄像头（AniPose [ 33 ] w/GT）初始化的经典调整基线高出+40 mm，在SkiPose上使用六个摄像头比使用地面实况摄像头（AniPose[ 33] w/ GT）高出+8 mm。随着摄像头的减少，性能差距进一步扩大。MetaPose还优于先前工作中报告的半，弱和自我监督基线[25，37，53，62]超过10 mm。我们想重申所提出的方法的核心优势，AniPose [33] w/GT 50 62 221 273 7.0Rhodin等人[53]--85--加拿大（CP）[62]90-一百二十八MetaPose（S1）8186140 1440.3MetaPose（S1+S2）42 50 53 590.4表1. 与先前工作的定量比较-有关运行时性能的详细信息，请参见补充表4，有关所有基线、其监督类型和更多小数位的扩展比较，请参见表6performance, namely: �1 第一阶段启动了优化器具有足够好的初始化，使其成为一个好的解决方案;2我们的解决方案是模块化的，能够交换现有的启动和姿态估计网络，以及额外的损失，并只重新训练神经网络优化器;3我们的方法实现了更低的延迟，然后经典和（GPU加速）概率捆绑调整。我们将在下一小节中对这些和其他相关发现进行扩展。输入帧滑雪式云台来自两个未校准的同步相机的输入帧Human3.6MRGB来自四个未校准的同步相机Isakov等人[26]第二十六话6769方法PMPJPE↓NMPJPE↓Δt具有接收多视图的MLP的等变块4 2 4 2MetaPose（S1+S2）32 4449 55 0.3MetaPose（S1+S2/BL）30 375054 0.3[s]形成一个单一的级联向量。由此产生的模型（S2/MLP）在H36 M上的性能略好，在SkiPose上的性能略差（表5），这可能是由于H36 M中的固定摄像机位置和SkiPose中的移动摄像机。骨头长度。训练具有额外骨长度先验（S1+S2/BL;参见第二节。3.3.1）改进的PMPJPE，带有两个7 mm的摄像头。双相机设置是病态的，因此可以更好地利用该附加先验。神经优化器的输入。不出所料，在神经优化器的所有输入中，热图H对最终性能的贡献最大，但所有输入都是实现最佳性能所必需的;参见补充表3进一步消融（补充）。Ma等人提出的师生损失。[45]将预测的解决方案引入正确解决方案的盆中会损害性能，表2. H36M上的消融。符号与表1一致。5.1. 消融Iterative refiner. 我们测量了使用神经优化器fθ获得的速度增益，方法是将阶段2替换为测试时GPU加速梯度下降（Adam [35]）在具有GMM参数化热图的概率束调整目标（6）上。表2中的第1节显示，所提出的方法（S1+S2）比迭代精化（S1+IR）快7倍，并且至少更精确10 mm。我们还测量了关键点监督对迭代精化S2组件预测准确性的贡献。为此，我们训练阶段2以最小化相同的GMM参数化概率捆绑调整目标（6）而不是重新投影损失（16）。由此产生的自监督模型（S1+S2/SS）优于迭代优化，表明所提出的架构规范了姿态估计问题。请注意，我们的自我监督结果也优于使用弱监督和自我监督的先前工作[25，37，62]。随机初始化。我们测量了用随机高斯噪声替换用于在阶段1中初始化姿态和相机的单视图姿态估计qc，j的效果表 2 中的第 2 节显示，虽然神经优化器（RND+S2）比经典优化器（RND+IR）更能适应不良初始化，但良好的初始化对于实现最先进的性能（S1+S2）是必要的。此外，GT初始化（GT+IR）的结果略好，表明所提出的初始化已经将优化器带到正确解的附近，并且进一步提高初始猜测的质量不会在准确性方面提供显着的增益。非等变网络我们测量了让模型所有实验（表8），表明阶段1已经提供了足够好的初始化，以在目标的正确盆中开始。我们还使用不同的相机模型从地面实况初始化运行了具有重投影损失的迭代精化器：结果表明，弱模型在H36M上产生10- 15 mm的误差，而在SkiPose上没有误差;参见表10。Meta-Pose在H36 M上的性能在训练数据的5%左右开始严重恶化;参见表11。用单高斯代替GMM仅在双摄像机H36M设置中降低了4 mm的性能，并且在其他情况下对性能没有显著影响;参见表12。我们讨论了来源的泛化误差补充SEC。七点十四分6. 结论在本文中，我们提出了一种新的模块化方法来进行3D姿态估计，该方法只需要2D监督进行训练，并通过将单视图模块的每视图输出与简单的视图等变神经网络融合来显着改进现有我们的模块化方法不仅使从业者能够分析和改进每个组件的性能，并将各自子任务的未来改进“免费”引入改进的3D姿态估计，而且还提供了一个通用的“桥梁”，使3D姿态估计中的不同思想流派能够轻松互操作-用更好的模型丰富“端到端神经世界”，基于先验和改进的可解释性，以及具有更好条件优化问题、迁移学习和更快推理时间的“迭代精化世界”。我们提供了一个详细的消融研究解剖剩余误差的不同来源，这表明这项任务的未来进展可能来自于采用完整的相机模型，进一步改进2D姿态定位，更好的姿态先验，并将时间信号从视频数据。MetaPose（S1+S2）324449550.3MetaPose（S1+IR）43 53 66752.0MetaPose（S1+S2/SS）39 50 56630.3MetaPose（S1+S2）324449550.3MetaPose（RND+S2）36 51 52640.3MetaPose（S1+IR）43 53 66752.0MetaPose（RND+IR）200 385 2654442.06770引用[1] JonasAdler和OzanOktem使用迭代深度神经网络解决不适定的逆问题逆问题，33（12）：124007，2017. 13[2] JonasAdler和OzanOktem学会了原始对偶重构。IEEEtransactions on medical imaging，37（6）：1322-1332，2018。13[3] 作者：陈文辉，陈文辉.Seitz和Richard Szeliski。一天建成罗马。Commun. ACM，54（10）：105-112，2011. 1[4] Marcin Andrychowicz，Misha Denil，Sergio Gomez，Matthew W Hoffman，David Pfau，Tom Schaul，Brendan Shillingford，and Nando De Freitas.通过梯度下降来学习。神经信息处理系统的进展，29，2016。13[5] Anurag Arnab，Carl Doersch，and Andrew Zisserman.野外三维人体姿态估计的时间背景开发在IEEE/CVF计算机视觉和模式识别会议论文集，第3395- 3404页，2019年。13[6] Vasileios Belagiannis，Sikandar Amin，MykhayloAndriluka，Bernt Schiele，Nassir Navab，and SlobodanIlic.用于多个人体姿势估计的3D图像结构。在Proceedings of the IEEE Conference on Computer Visionand Pattern Recognition，第1669-1676页，2014中。2、16[7] 玛丽·布兰奇，托马斯·科尔曼，李玉英。大规模有界约束极小化问题的子空间、内部和共轭梯度法SIAMJournal on Scienti fic Computing，21，12 1999.doi：10 .1137 / S1064827595289108. 七、十四[8] Lewis Bridgeman、Marco Volino、Jean-Yves Guillemaut和Adrian Hilton。运动中多人三维位姿估计与追踪。在IEEE/CVF计算机视觉和模式识别研讨会论文集，第0-0页，2019年。2、16[9] Richard H Byrd，Robert B Schnabel，and Gerald AShultz.二维子空间上极小化信赖域问题的近似解。Mathematical Programming，40（1）：247-263，1988.七、十四[10] Ching-Hang Chen ， Ambrish Tyagi ， Amit Agrawal ，Dylan Drover，Stefan Stojanov，and James M Rehg.具有几何自监督的无监督3d姿态估计。在IEEE/CVF计算机视觉和模式识别会议上，第5714-5724页，2019年。一、二[11] 陈龙，艾海洲，陈睿，庄子杰，刘爽。以超过100 fps的速度进行多人3d姿态估计的跨视图跟踪。IEEE/CVF计算机视觉和模式识别会议（CVPR），2020年6月。2[12] Ronald Clark，Michael Bloesch，Jan Czarnowski，StefanLeutenegger，and Andrew J Davison. Ls-net：学习解决单目立体的非线性最小二乘。arXiv预印本arXiv：1809.02966，2018。13[13] Congyue Deng，Or Litany，Yueqi Duan，AdrienPoulenard，Andrea Tagliasacchi，and Leonidas Guibas.向量神经元：SO（3）-等变网络的一般框架。arXiv预印本arXiv：2104.12229，2021。5[14] 董俊廷，帅青，张元庆，刘贤，周晓伟，鲍虎军.来自互联网视频的动作捕捉。欧洲计算机视觉会议，第210-227页。Springer，2020年。13[15] Dylan Drover 、 Ching-Hang Chen 、 Amit Agrawal 、Ambrish Tyagi和Cong Dauchoc Huynh。3d姿势可以从2d投影中学习在欧洲计算机视觉会议（ECCV）研讨会集，第02[16] 约翰·弗林，迈克尔·布罗克斯顿，保罗·德贝维克，马修·杜瓦尔，格雷厄姆·费弗，瑞安·奥弗贝克，诺亚·斯内弗利和理查德·塔克。Deepview：查看合成与学习梯度下降。在IEEE/CVF计算机视觉和模式识别会议论文集，第2367- 2376页，2019年。14[17] Daniel Frisch和Uwe D.哈内贝克高斯混合估计加权样本，2021年。四、十四[18] 迈克尔·格雷彻。动画从观察：运动捕捉和运动编辑。SIGGRAPH，33（4）：51-54，November 1999. 1[19] Riza Alp Guler和Iasonas Kokkinos。Holopose：Holis- tic3D human reconstruction in the wild.在IEEE/CVF计算机视觉和模式识别会议（CVPR）上，2019年6月。2[20] RızaAlpGuüler、 NataliaN ev er ov a 和 IasonasKokkinos 。密度：野外密集的人体姿势估计。在IEEE计算机视觉和模式识别会议论文集，第7297-7306页，2018年。七、十四[21] Nils Hasler，Bodo Rosenhahn，Thorsten Thormahlen，MichaelWand，JürgenGall，andHans-PeterSeidel. 无标记运动捕捉与非同步运动摄像机。2009年IEEE计算机视觉和模式识别会议，第224-231页。IEEE，2009年。1[22] Yihui He，Rui Yan，Katerina Fragkiadaki，and Shoou-IYu.对极变压器。在IE

下载后可阅读完整内容，剩余1页未读，立即下载