MetaMap：一种解决人体姿态估计遮挡问题的跨视角特征融合模型

58 浏览量更新于2023-10-20 收藏 1.26MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

13686MetaMap：一种用于人体姿态估计谢荣昌1、6，王春雨5，王宜州2、3、41北京大学数据科学中心2Adv.Inst. 的信息。技术人员：北京大学3北京大学计算机前沿研究中心4计算机科学系北京大学5微软亚洲研究院6Deepwise AI Lab{rongchangxie，yizhou.wang}@ pku.edu.cn，chnuwa@microsoft.com摘要跨视角特征融合是解决人体姿态估计中遮挡问题的关键目前的融合方法需要为每对相机训练一个单独的模型，这使得它们难以缩放。在这项工作中，我们介绍了MetaMap，这是一种从Panoptic数据集中的大量相机中学习的预训练融合模型。该模型可以有效地适应或微调一对新Metastrics的强大适应能力在很大程度上是由于所提出的将原始融合模型分解为两个部分-（1）由所有相机共享的通用融合模型，以及（2）轻量级相机相关变换。此外，通过元学习风格算法从许多相机学习通用模型，以最大化其对各种相机姿态的适应能力。我们在实验中观察到，MetaQuotes在公共数据集上的微调性能大大优于最先进的技术，这验证了它在实践中的价值。1. 介绍从多视角图像中估计三维人体姿态一直是计算机视觉领域的一个长期目标。大多数作品遵循首先在每个相机视图中估计2D姿态然后将其提升到3D空间的流水线然而，后一步骤通常取决于2D姿态的质量，不幸的是，这在实践中可能具有较大的误差，特别是当发生遮挡时。多视图特征融合[39，25]具有解决遮挡问题的巨大潜力，因为在一个视图中被遮挡的关节多视点融合中最具挑战性的问题是找到不同摄像机之间的对应位置。在最近的一项工作中[25]，这是通过为每对摄像机学习融合网络（本文中称为NaiveObserver）成功解决的。然而，学习的对应关系是依赖于(a) 从多个摄像机视图对MetaQuotes进行大规模预训练(b) MetaQuotes Software Corp.是一家软件开发公司，不提供任何形式的投资或经纪服务。图1. Metabolism的概念。我们从大量的摄像机中学习一个预先训练好的特征融合模型，（a）中的绿点。然后，对于一个新的环境，我们微调每个相机对的预训练模型，只使用少量的训练数据，以获得定制的2D姿态估计器。特征融合允许我们定位2D关节，即使如（b）中那样发生遮挡。所以当相机姿势改变时，他们需要重新训练模型，这是不灵活的。针对多视点融合中的灵活性问题进行了研究.为此，我们引入了一个预训练的交叉视图融合模型MetaView，它是从CMU Panoptic数据集中的大量相机对中学习的融合策略和学习方法使其能够快速适应未知的相机姿态，只有少数标记的训练数据。有关该概念的说明，请参见图1。MetaQuotesSoftware Corp.是一家软件开发公司，不提供任何形式的投资。通用融合模型13687conv变平身份由所有摄像机共享，并有许多轻量级的仿射变换。我们学习的通用融合模型，以最大限度地提高其适应性能，以各种相机的姿态，通过元学习风格的算法。在测试阶段，对于每对新的摄像机，仅利用来自目标域的少量训练图像对轻量级仿射视图#1视图#2初始热图融合热图GT热图⊕L2损失⊕融合模块我们在三个公共数据集上评估MetaQuotes，包括H36M [14]，Total Capture [34]和CMU Panoptic [17]。预训练仅在由数千个相机对组成的Panoptic数据集上执行。然后，我们对三个目标数据集中的每一个进行MetaQuotes微调，获得定制的2D姿态估计器和报告结果。例如，在H36M数据集上，当分别使用50、100、200和500张图像来训练融合网络时，MetaQuotes的表现明显优于NaiveQuotes这验证了MetaQuotes强大的适应能力。此外，我们发现，MetaQuotes微调的50幅图像1已经超过了基线没有融合了很大的利润。例如，肘部的关节检测率从83. 7%至86。百分之三。我们也对下游的3D位姿估计任务进行了实验.在H36M数据集上，MetaQuotes得到比现有技术的3D姿态误差明显更小。它也得到了32的最小误差。Total Capture数据集上的4mm值得注意的是，在这些实验中，与大多数最先进的方法相比，我们的方法实际上使用了更少的目标域训练图像。实验结果验证了MetaQuotes的强大自适应能力。1.1. MetaData概述朴素学习以监督的方式学习一对相机之间的空间对应关系，如图2所示它使用全连接层（FCL）来密集连接两个视图中不同位置的要素。FCL中的权重连接两个视图中的两个特征（空间位置），表示它们对应于同一3D点的概率。权重与姿态估计网络一起端到端学习。更多详情请参见第3节朴素的一个主要缺点是它有许多参数，需要为每对相机标记大量这严重限制了它在实践中的应用。为了解决这个问题，我们研究了不同视图中的特征如何在几何上相关，如图3所示。我们发现，天真可以分解为两部分：一个通用的融合模型共享的所有相机，以及一些相机特定的仿射变换，只有少数可学习的参数（见第4节）。此外，受元学习成功的启发，1为50幅图像标记人体姿势通常需要几分钟，这在许多情况下是实用的。图2. 天真的模型。它将两个视图的图像作为输入，同时输出两个视图的2D姿态，一个CNN融合模块由多个FCL组成，每个FCL连接一对有序视图。编码相机姿势的权重是从数据中端到端学习的。在少数镜头学习文献[10，19，28]中，我们提出了一种元学习算法，用于在大量相机上学习通用模型，以最大化其自适应性能（见第4.2节）。该方法具有一定的实用价值，在全新的多摄像机环境和少量标记图像的情况下，可以显著提高姿态估计精度。2. 相关工作多视点姿态估计我们将多视点3D姿态估计器分为两类。第一类是基于模型的方法，如[21，5，11，27]。它们将身体模型定义为简单的基元（如圆柱体），并优化其参数，使模型投影与图像特征匹配。最大的挑战是复杂的非线性非凸优化问题，这在一定程度上限制了它们的性能。随着2D位姿估计技术的发展，一些方法如[1，7，6，24，4，8，25]采用了简单的两步框架。他们首先从多视图图像中估计2D姿态然后借助于相机参数（假设已知），通过三角测量或图像结构模型恢复相应的3D姿态。例如，在文献[1]中，作者通过直接三角剖分来获得三维位姿.后来，作者在[6]和[24]中提出应用多视图图像结构模型来恢复3D姿态。近年来，这种类型的方法已经实现了最先进的性能。一些以前的工作，如[1，39，25]已经探索了用于改善2D人体姿态估计的多视图几何。例如，Aminet al. [1]提出了通过探索多视点一致性来联合估计多视点图像的2D姿态。它与我们的工作不同之处在于，它实际上并不融合来自其他视图的特征以获得更好的2D热图。相反，他们使用多视图3D几何关系从“不完美”热图中选择关节位置。在[39]中，使用多视图一致性作为监督源来训练姿势估计网络，该网络不探索多视图特征融合。重塑13688PPP我PPP我J1| Z1|朴素[25]是针对我们有足够的目标环境标记图像的情况提出的然而，它在更实际的情况下不起作用，在这种情况下，我们只能为每个目标相机标记一些图像。据我们所知，没有以前的工作试图解决的多视图融合问题的背景下，少数拍摄学习，ING具有实用价值。Meta Learning元学习是指使用一个学习系统来优化另一个学习系统的框架[35]。它从任务分布而不是单个任务中学习它已被广泛用于少数镜头分类[19，28，30]和强化学习[9，23]任务。Meta学习可以用作优化器。例如，Andrychowiczet al.[3]使用LSTM元学习器来学习更新的基本学习器，它在训练任务上的表现优于手工设计的优化器。对于分类，Finn等人[10]提出模型不可知元学习（MAML）来学习好的参数初始化，可以快速微调新的分类任务。Sun等人[31]提出元迁移学习，学习缩放和移位DNN权重的功能，以防止灾难性的遗忘-C3图3.多视图特征融合的几何图解。像点Y1反向投影到由第一相机中心C1和Y1限定的3D中的光线。这条线在第二个视图中被成像为I。投影到Y1的三维点P必须位于这条射线上，因此P的图像必须位于I上。如果摄像机姿态改变，例如，我们将摄像机2移动到3，那么我们可以通过对I应用适当的仿射变换来近似地获得对应的线。参见第4节。为了找到精确的像素对应关系，我们将x1与第I行上的所有特征融合。由于融合发生在热图层中，理想情况下，x2在Y2附近具有较大的值，JP婷建议使用元学习来解决adap-交叉视图融合中的定位问题是以前没有研究过的，具有实用价值。3. 多视图融合的初步研究我们首先介绍了多视图特征融合的基础知识[12，39，25]，为MetaQuotes奠定基础。设P是三维空间中的一个点，如图3所示. 2D投影观点1和观点2中的点分别是Y1∈Z1和Y2∈Z2，在对极线I上的其他位置处的零。这意味着线上的非对应位置将不会有助于融合。因此，融合核线上的所有像素是一种合适的解决方案。执行的上述融合战略是简单的-由FCL（其被附加到姿态估计）进行P活泼地Z1和Z2表示像素坐标分别在两个视图在不同位置处的视图1和2的特征被表示为F1={x1，· · ·，x1}且F2={x2，···，x2}. 用于融合特征网络），如图2所示。整个网络以及FCL参数可以通过对融合热图进行监督来进行但是，FCL简单地将一个视图中的每个像素与1| Z 2|x1观点一与观点二是建立我两种观点之间的对应关系：Σ|Z 2|其他视图中的所有像素，其参数是位置敏感的，并且即使当相机姿势稍微改变时也可能经历剧烈的变化因此，几乎不可能学习一个可以适应各种环境的预训练模型。x1←x1+ωj，i·x2，<$i∈Z1，（1）i i jj=1其中，ωj，i是表示它们的对应关系的标量-ωj，i在x1和x2对应于相机使用小数据作为我们的元数据。此外，本发明还提供了一种方法，较大的FCL参数增加了对小数据集过拟合的风险，并损害其泛化能力。请注意，我们并不要求这个朴素的概念的新颖相同的3D点。当它们对应于dif时，它是零。三维点。最具挑战性的任务是确定每对相机的所有ωj，i的值（即，找到对应的点）。讨论对于视图1中的每个点Y1，我们知道对应的点Y2必须位于对极线I上。但是我们不能确定Y2在I上的确切位置. 相反类似的想法以前已经探索过，如[39，25]。我们的贡献是双重的。首先，它通过将其分解为两个较小的模型来重新模拟朴素模型，这显著减少了部署中每对摄像机的可学习参数的数量其次，我们提出了一种元学习风格的算法来学习的重组融合模型，使它可以快速适应未知的相机姿态与小数据。1213689CNN()P4. 后叶藓属设ωbase∈RH×W为基本融合模型，即第3节中讨论的融合权重矩阵，它将第一个视图中的一个像素与第二个视图中的所有H×W像素连接起来。图示见图3。对于其他像素在第一种观点中，我们将通过对基本权矩阵ω基进行适当的仿射变换来构造相应的融合权矩阵。此外，我们还对ωbase进行了类似的变换，以获得定制的融合变换参数Z基重仿射变换定制重量1Z不同相机对的矩阵。总之，该基本融合权重矩阵（即，我们先前提到的通用模型）由所有相机共享我们将在下面的部分详细解释这一点图4. 将不同的精细变换Tθi（·）应用于通用基础权重ωbase以获得定制的融合权重对于视图一中的每个像素4.1. 几何解释从图3中，我们知道Y1对应于线I图像1初始热图融合目标在相机2中，其特征在于ωbase。如果摄像机2变为3，我们可以通过对I应用适当的仿射变换来获得核线。这相当于将变换应用于ω基。类似地，我们还可以针对视图一中的不同像素调整ωbase。设ωi∈RH×W是连接视图1中的第i个像素与视图2中的所有像素我们可以计算出相应的融合模型，通过应用专用的trans-transmitting，图像2初始热图CNNFCL融合模块热图2−监督ω基形成ωi←Tθi（ωbase），ωi，（2）其中T是仿射变换，θi是第i个像素的六维仿射变换参数，其可以从数据中学习图示见图4 我们可以验证参数在这个模型中，只有Z2+6×Z1。相比之下，原始朴素模型中的参数个数为Z1×Z2，要大得多（Z1和Z2通常为642）。可学习参数的显着减少对于改进Metatron的适应能力。请参考空间Transformer网络[16]以获得关于T的实现的更多细节。使用来自一对的足够的图像和姿势注释，对于相机，我们可以通过最小化以下损失函数来直接学习每个像素的通用模型ωbase和仿射变换参数θi图5.用于训练MetaQuotes的管道。在第一步中，我们在融合所有训练图像之前通过常规梯度下降对骨干网络进行预训练。在第二步中，我们固定骨干参数并元训练ωbase和θ。在测试阶段，对于一个新的摄像机配置，我们固定ω基，只根据来自目标摄像机的少量训练数据微调变换参数θ。和地面实况热图对于不同的像素和相机对，我们学习不同的θ。值得注意的是θ和ωbase都是不依赖于图像的全局变量。损失函数可以简单地通过随机梯度下降来最小化。然而，当只有少量标记数据可用时，以这种方式训练的模型不能以足够的精度推广到新相机。4.2. 学习元数据我们现在描述我们如何学习MetaQuotes，包括通用模型（即。ω基和θ）的LDTr（ω基地，θ）=1|DTr|ΣF，Fgt∈DTrMSE（f[ωbase;θ]（F），Fgt），（三）大量的相机，使得学习的融合模型可以使用小数据快速适应新的相机。该算法的灵感来自于提出的元学习算法其中，F是初始估计的热图（融合之前），并且f[ωbase;θ]表示具有参数ωbase和θ的融合函数。参见等式(1)和等式(2)我们如何构造融合函数。表示地面实况姿态热图。直观地说，我们优化了ω基和θ，为了最小化融合热图之间的差异[10]。我们描述了学习元数据在下面的小节中。热身在第一步，我们训练骨干网（即.融合模型之前的层）以加速随后的元训练过程。所有图片来自21213690Dω=ω−αLD（ω ，θ）。（五）我D训练数据集用于训练骨干。通过最小化初始热图和地面实况热图之间的MSE损失来直接优化主干参数。注意，骨干网络仅在此步骤中训练，并且将在后续Meta训练步骤中固定，以显著减少训练时间。元训练在这一步中，如图5所示，我们通过元学习风格的算法学习通用融合模型ωbase和θ的初始化。一般来说，这两个参数通过计算被称为任务的成对相机（从数据集采样）上的梯度来顺序更新。任务是元训练中的一个重要概念特别地，每个任务T1与小数据集D1相关联，该小数据集D1由从相同相机对采样的几个图像和地面实况2D姿态热图组成。例如，在任务 T1中使用摄像机对（摄像机1，摄像机2），而在任务T2中使用摄像机对（摄像机3，摄像机4）。我们从许多这样的不同任务中学习融合模型，以便它可以得到当仅通过几个梯度更新来适应新任务时，结果良好。设{T1，T2，···，TN}为多个任务。每个Ti与由来自特定相机对的数据组成的数据集Di具体地，每个Di由两个子集：D训练和D测试。如稍后将澄清的优化是在参数ωbase和θ上执行的，而目标是使用更新的模型参数ωbas e′和θ′ 来计算的。在效果上，我们的方法旨在优化模型参数，使得新任务上的一个或少量梯度步骤将在该任务上产生最大有效的行为。我们重复上面的话迭代地在每个任务Di∈{D1， D2，···，DN}上执行步骤。再次调用，每个Di对应于不同的摄像机分辨率。所以它实际上学习了一个通用的ω基和θ，可以适用于许多具有根据小数据计算的梯度的照相机配置。在这个元训练阶段之后，ω基4.3. 微调元数据对于一个全新的相机配置，我们通过微调θ来调整元训练模型。这是通过在少量标记的训练数据上直接计算θ的梯度来实现的。由于缺乏训练数据，将不更新由所有相机配置共享的通用模型ω库。可学习页面的数量-这一步的参数是6×H×W，实际上只有几千。5. 实验i i5.1. 数据集、指标和详细信息两个子集都用于训练。我们遵循与模型无关的元学习框架[10]学习ωbase和θ的最佳初始化。在元训练过程中，当适应新任务Ti时，模型参数ωbase和θ将分别变为ωbase′和θ′ 元训练的核心是我们学习最优ω基和θ，如果基于任务的小数据集更新，则在该任务上会得到小的损失。具体地，y、ωbase′和θ′可以通过对任务Ti执行梯度下降来计算CMU Panoptic数据集该数据集[17]提供了由大量同步相机捕获的图像。我们遵循[37]中的约定来分割训练和测试数据。我们选择了20个摄像机（即380个有序的摄像机对）来预训练MetaQuotes。请注意，我们只在这个大数据集上进行预训练，并直接在每个目标数据集上微调学习的模型，以获得定制的基于多视图融合的2D姿态估计。为了评估此数据集，我们选择θ′=θ−α<$θL列（ω我基地，θ）（4）剩下的六个摄像头我们进行了多次试验，报告平均结果，以减少相机选择造成的随机性。在每次试验中，基地ω基基地火车我用于多视图融合。学习率α是一个超参数。值得注意的是，我们实际上并没有根据上述方程更新模型参数。ωbase′和θ′是中间变量，这将在后面说明。Meta学习的核心思想是学习ωbase和θ，使得在应用上述梯度更新后，任务（在D测试中评估）被最小化。模型参数通过优化性能进行训练，H36M数据集该数据集[14]提供同步的四视图图像。我们使用受试者1，5，6，7，8来微调预训练模型，并使用受试者9，11进行测试。值得注意的是，七个主题中的每个主题的相机放置略有不同。总捕获数据集在这个数据集[34]中，有五个L检验（ω我基地’ ，θ′）分别关于ωbase和θ受试者执行四个动作，包括漫游（R），在所有任务中。注意，由于等式（1），ωbasee′和θ′与初始参数ωbase和θ有关(4)和等式（五）、更正式地说，元目标如下：走步（W）、表演（A）和自由式（FS），每种动作重复3次.我们使用主题1，2，3的漫游1，2，3，步行1，3，自由式1，2和表演1，2来进行微调。最小LD检验（ωωbase，θi基地’ ，θ′）（6）预训练模型。我们测试了所有科目的步行2，自由式3和表演3。13691GT热图初始热图融合热图扭曲#1扭曲#2扭曲#3图6.由MetaData估计的热图。第一个图显示了左膝的地面实况热图。第二个显示最初检测到的热图。最高的反应是在错误的位置。第三张图显示了融合的热图，它正确地定位了左膝。其余的图像显示了从其他三个视图扭曲的热图。表1.基线说明名称No-Fusion这是一个简单的基线，不执行多视图融合。这相当于独立地估计每个相机视图中的姿势。这种方法具有最大的灵活性，因为它可以直接应用于新的环境而无需调整。朴素模型这个基线直接使用来自目标相机配置的所有图像训练朴素模型。当有足够的训练图像时，这可以被认为是MetaQuotes的上限。这种方法具有最小的灵活性，因为它需要标记来自每个目标相机配置的大量图像。该基线通过常规随机梯度下降在Panoptic数据集（使用四个选定的相机）上预训练朴素模型。然后，它对来自目标相机配置的K个图像上的预训练模型进行微调。当K较小时，该方法是灵活的。AffineWaveletK该基线首先根据第4.1节中的描述通过常规随机梯度下降在Panoptic数据集上（使用四个选定的相机）预训练我们的因子分解融合模型。然后，根据目标摄像机配置对模型进行微调。亚甲基双胍它在目标相机的K个图像上微调元学习模型。它不同于AffinephraseK因为它使用元学习风格算法来预训练模型。二维位姿精度用联合检测率（JDR）来衡量.如果估计的关节位置和地面实况关节位置之间的距离小于阈值，则我们认为该关节被成功检测到。如[2]中所示，阈值被设置为头部大小的一半。 JDR计算为成功检测到的关节的百分比。3D姿态估计精度由地面真实3D姿态和估计之间的平均每关节位置误差（MPJPE）来测量。我们不像[22，32]中那样将估计的3D姿态与地面实况对齐。在单个2080Ti GPU上，预热步骤大约需要30小时元训练阶段大约需要5个小时。这个阶段很快，因为我们使用预先计算的热图。元测试（微调）阶段大约需要7分钟。请注意，在实际部署中，只需要为新环境执行元测试，这非常快。在测试中，它需要大约0。0.015秒从单个图像估计2D姿态。实现细节我们使用最近的2D姿态估计器[38]作为基本网络来估计初始热图。ResNet50 [13]被用作其骨干。输入图像大小为256×256，热图为64× 64。一般来说，使用更强的2D姿势估计器可以进一步改善最终的2D和3D估计，但这超出了本书的范围。我们在温度T = 0时应用softmax。2到融合热图的每个通道，以突出显示最大响应。Adam [18]优化器用于所有阶段。在预热阶段，我们在目标数据集上训练骨干网络30个epoch。请注意，我们在这一步中不训练融合模型。学习率最初设置为1e−3，在15个epoch时下降到1e−4，在25个epoch时下降到1e−5在元训练和元测试中，学习率分别设置为1e−3和5e−3。我们通过将其与五个相关基线进行比较来评估我们的方法，这些基线在表1中详细列出。13692无融合完全天真仿射Meta无融合完全天真仿射Meta无融合完全天真仿射Meta无融合完全天真仿射Meta88.085.082.079.076.073.070.050 100 200 50091.088.085.082.079.076.073.070.05010020050091.090.089.088.087.086.085.050 100 200 50094.092.090.088.086.084.050 100 200 500K（样本数量）(a) 手腕K（样本数量）(b) 肘K（样本数量）(c) 肩膀K（样本数量）(d) 平均图7.不同方法在H36M数据集上的二维联合检测率X轴表示用于微调融合模型的样本数量y轴表示JDR。我们显示了所有关节的平均JDR，以及几个典型关节的JDR“完全”方法5.2. H36M数据集2D结果基线和我们的方法的联合检测率（JDR）如图7所示。我们给出了所有关节的平均JDR，以及几个典型关节的JDR。我们可以看到，无论用于微调融合模型的图像数量如何，No-Fusion的JDR（灰色虚线）都低于我们的MetaQuotes模型。这验证了多视点融合的重要性。这种改进对于腕关节和肘关节最为显著，因为它们在该数据集中经常被人体遮挡。NaiveFull（灰色实线）获得最高的JDR，因为它使用了来自H36M数据集的所有训练数据。然而，当我们使用较少的数据时，性能会显著下降（绿线）。特别是，NaiveSurge50甚至比No-Fusion得到更差的结果。这是因为小的训练数据通常会导致大型模型的过度拟合。我们尝试使用几种正则化方法，包括ω上的l2，l1和L2，1（群稀疏性），以减轻朴素的过拟合问题。但没有一个比香草天真更好的性能。这意味着几何先验的使用在MetaQuotes中比正则化技术更有效。我们提出的仿射K比朴素K的参数少，当训练数据的数量很小时（蓝线）也能得到更好的结果。但是，它仍然比MetaQuotes更糟糕。这是因为该模型没有在许多相机上进行预训练，以通过我们的元学习风格算法来提高其适应性，这限制了其在H36M数据集上的性能。我们的方法MetaQuotesK优于所有基线。特别是，当只使用来自H36 M数据集的50个训练样本时，它的性能优于No-Fusion。不断增加此数量可提高性能。MetaQuotes500的结果已经类似于在超过80K图像上训练的NaiveQuotesfull我们还评估了通过元学习算法学习的朴素的变体平均JDR为87。7%，89。当使用50和100个样本时为3%，这比Metastasis差得多。结果验证了几何启发分解的重要性。表2.在H36M数据集上通过最先进的方法获得的3DMPJPE误差。Metatron使用图像模型来估计3D姿态。“Full H36MTraining” means whether we use the full H36M dataset foradaptation or方法完整的H36M培训MPJPEPVH-TSP [34]✓87岁3毫米帕夫拉科斯[24]✓五十六9毫米[32]第三十二话✓52岁8毫米梁国雄[20]✓四十五1毫米[25]第二十五话✓二十六岁2毫米[15]第十五话✓20块8毫米[25]第二十五话✗四十三0mm的[15]第十五话✗三十四0mm的Meta50✗32.7mmMetaQuotesSoftware Corp.✗31.3mmMetaTrader500✗29.3毫米示例图6解释了MetaMap如何提高2D姿态估计精度.在此示例中，目标关节是左膝。但估计的热图（融合前）在不正确的位置（右膝附近）具有最高的响应。通过利用来自其他三个视图的热图，它准确地定位了左膝关节。最后三张图像显示了其他三个视图的扭曲热图。我们可以看到高响应像素在每个视图中近似地形成一条线（核线）。我们在图8中可视化了一些由基线和我们的方法估计的典型姿势。首先，我们可以看到，当发生遮挡时，No-Fusion通常会为被遮挡的关节获得不准确的2D位置。例如，在第一示例中，左腕关节被定位在错误的位置处。在本例中，NaiveMap和MetaMap都有助于定位腕关节，而MetaMap更准确。然而，在某些情况下，如第三个例子所示，天真可能会得到令人惊讶的糟糕结果。左踝关节定位在一个奇怪的位置，尽管它是可见的。这种异常现象的主要原因是从少量数据中JDRJDRJDRJDR13693学习的朴素模型缺乏泛化能力。MetaQuotes的方法得到了一致的更好的结果比两个基线方法。13694表3.Total Capture数据集上不同方法的3D姿态估计误差MPJPE（mm）入组科目（S1，2，3）科目（S4，5）平均值步行2演员3自由风格3步行2演员3自由风格3三-CPM [36]79.0106.5112.179.073.7149.399.8PVH [34]48.394.3122.384.3154.5168.5107.3IMUPVH [34]30.049.090.636.0109.2112.170.0LSTM-AE [33]13.023.047.021.840.968.534.1非融合28.130.542.945.646.374.341.2MetaTrader50021.723.332.135.234.957.432.4GT NoNaiveMeta超级GT不幼稚Meta搜索#1 #2#3 #4图8.用不同方法估计了四组样本的二维位姿每组有1x4个子图，分别对应于粉色和青色关节分别属于右侧和左侧身体部位。红色箭头突出显示三种方法的估计值不同的关节。3D结果我们通过图像结构模型从多视图2D姿态估计3D姿态[25]。H36M数据集的结果我们的MetaQuotes仅在50个示例上训练，将错误减少到32。7毫米添加更多的训练数据会不断降低错误。请注意，表中使用完整H36M数据集进行训练的一些方法与我们的方法不具有可比性。5.3. 关于Total Capture结果示于表3中。我们可以看到，Meta-Fusion算法在所有分类上的性能都大大优于No-Fusion算法此外，我们的方法也优于最先进的方法，包括最近利用时间信息的工作 [33] 。我们注意到 LSTM-AE [33] 在“Walking 2”动作上优于我们的方法。这主要是因为LSTM-AE使用时间信息，这对于该“Walking 2”动作非常有效。我们进行了一个简单的概念验证实验，其中我们应用Savitzky-Golay滤波器[29]来平滑通过我们的方法获得的3D姿态。我们发现，我们的方法的“行走”动作的平均3D误差相比之下，最先进的方法在整个数据集上训练他们的模型。5.4. Panoptic数据集上的结果我们还在Panoptic数据集上进行了实验。请注意，选择用于测试的摄像机不同从那些被选中进行预培训的人中挑选出来。无融合基线的3D误差为40。47 mm。我们的MetaQuotes方法得到37 mm的较小误差。当仅使用50个样本进行元测试时，为27mm。这一数字进一步下降到31。78毫米，当我们使用200个例子。相反。朴素方法的误差为43。39毫米和35毫米。60mm时，训练数据数为50和200，重新排序。实验结果表明，该融合模型在三个大规模数据集上均能取得较好的融合效果。6. 结论我们提出了一种多视图特征融合方法，它可以在一个新的测试环境中训练多达100张图像。它非常灵活，因为它可以与任何现有的2D姿态估计网络集成，并且它可以适用于具有任何相机配置的任何环境。该方法在三个基准数据集上实现了最先进的结果。在我们未来的工作中，我们将探索将融合模型应用于其他任务（如语义分割）的可能性。此外，我们可以利用大量相机的合成数据，以进一步提高模型的泛化能力。致谢这项工作是支持在部分通过MOST-2018AAA 0102004，NSFC-61625201，61527804DFG TRR 169/国家自然科学基金重大国际合作项目13695引用[1] Sikandar Amin、Mykhaylo Andriluka、Marcus Rohrbach和Bernt Schiele。用于3D人体姿态估计的多视图图像结构。InBMVC，2013.[2] Mykhaylo Andriluka，Leonid Pishchulin，Peter Gehler，and Bernt Schiele. 2D人体姿态估计：新的基准和最先进的分析。CVPR，第3686-3693页，2014。[3] Marcin Andrychowicz ， Misha Denil ， Sergio Gomez ，Matthew W Hoffman ， David Pfau ， Tom Schaul ，Brendan Shillingford，and Nando De Freitas.通过梯度下降来学习。在NIPS，第3981- 3989页[4] Vasileios Belagiannis ， Sikandar Amin ， MykhayloAndriluka，Bernt Schiele，Nassir Navab，and SlobodanIlic.用于多个人体姿势估计的3D图像结构。在CVPR中，第1669-1676页[5] Bo Liefeng和Cristian Sminchisescu结构预测的孪生高斯过程。IJCV，87（1-2）：28，2010.[6] Magnus Burenius，Josephine Sullivan和Stefan Carlsson。用于多视图铰接姿态估计的3D图像结构。在CVPR，第3618-3625页[7] Xipeng Chen ， Kwan-Yee Lin ， Wentao Liu ， ChenQian，and Liang Lin.用于3d人体姿态估计的几何感知表示的弱监督发现在IEEE计算机视觉和模式识别会议（CVPR）上，2019年6月。[8] Junting Dong，Wen Jiang，Qixing Huang，Hujun Bao，and Xiaowei Zhou.快速和强大的多人三维姿态估计从多个视图。在CVPR中，第7792-7801页，2019年。[9] Yan Duan，John Schulman，Xi Chen，Peter L Bartlett，Ilya Sutskever，and Pieter Abbeel. R12：通过慢速强化学习的快速强化学习。arXiv预印本arXiv：1611.02779，2016。[10] Chelsea Finn，Pieter Abbeel，Sergey Levine.用于深度网络快速适应的模型不可知元学习。ICML，第1126-1135页。JMLR。org，2017.[11] 于尔根·加尔，博多·罗森哈恩，托马斯·布罗克斯，汉斯·彼得·赛德尔.人体运动捕捉的优化与滤波。IJCV，87（1-2）：75，2010年。[12] Richard Hartley和Andrew Zisserman。计算机视觉中的多视几何学。剑桥大学出版社，2003年。[13] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。CVPR，第770-778页，2016年[14] Catalin Ionescu ， Dragos Papava ， Vlad Olaru ， andCristian Sminchisescu.人类3。6m：自然环境中3D人体感知的大规模数据集和预测方法。T-PAMI，第1325-1339页[15] Karim Iskakov ，Egor Burkov， Victor Lempitsky ，andYury Malkov.人体姿势的可学习三角测量。在ICCV，2019年。[16] Max Jaderberg，Karen Simonyan，Andrew Zisserman，等.空间Transformer网络。参见NIPS，第2017-2025页，2015年。[17] Hanbyul Joo 、 Hao Liu 、 Lei Tan 、 Lin Gui 、 BartNabbe 、 Iain Matthews 、 Takeo Kanade 、 ShoheiNobuhara和Yaser Sheikh。Panoptic Studio：用于社交运动捕捉的大规模多视图系统。在ICCV，第3334-3342页[18] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。2015年，国际会议[19] Yoonho Lee和Seungjin Choi。基于梯度的Meta学习，学习分层度量和子空间。在ICML，第2933-2942页[20] 梁俊邦和林明C。使用多视图图像的形状感知人体姿势和形状重建。在 IEEE 计算机视觉国际会议的Proceedings中，第4352-4362页[21] Yebin Liu ， Carsten Stoll ， Juergen Gall ， Hans-PeterSeidel，and Christian Theobalt.使用多视图图像分割的交互角色的无标记运动捕获。在CVPR，第1249-1256页中。IEEE，2011年。[22] Julieta Martinez、Rayat Hossain、Javier Romero和JamesJ Little。一个简单而有效的三维人体姿态估计基线。InICCV，page 5，2017.[23] Nikhil Mishra ， Mostafa Rohaninejad ， Xi Chen ， andPieter Abbeel.一个简单的神经专注元学习者。在ICLR，2018年。[24] Georgios Pavlakos，Xiaowei Zhou，Konstantinos G.德尔帕尼斯和科斯塔斯·丹尼利迪斯。为无标记的3D人体姿势注释获取多个视图。在CVPR中，第1253-1262页[25] Haibo Qiu ， Chunyu Wang ， Jingdong Wang ， NaiyanWang，and Wenjun Zeng.三维人体姿态估计的跨视图融合。在ICCV，第4342-4351页[26] 萨钦·拉维和雨果·拉罗谢尔。优化作为一个模型的少镜头学习。在ICLR，2017。[27] HelgeRhodin ， Jo？ rgSp ？rri ， IsinsuKatircioglu ，VictorConstantin，Fre？ de？ ricMe yer，ErichMu？ ller，Ma thieuSalzmann，and Pascal Fua.从多视角图像学习单目3d人体姿态在CVPR中，第8437-8446页，2018年。[28] A

下载后可阅读完整内容，剩余1页未读，立即下载