基于优化元学习的摄像机失真感知视频中三维人体姿态估计

153 浏览量更新于2023-10-14 收藏 1.3MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11169基于优化元学习的摄像机失真感知视频中三维人体姿态估计Hanbyel Cho Yooshin Cho Jaemyung Yu Junmo Kim电气工程学院，韩国KAIST{tlrl4658，choys95，jaemyung，junmo.kim} @ kaist.ac.kr摘要现有的3D人体姿态估计算法在无失真数据集上训练，当应用于具有特定相机失真的新场景时，性能下降。在本文中，我们提出了一个简单而有效的模型，三维人体姿态估计在视频中，可以快速适应任何失真环境，利用MAML，一个代表性的基于优化的元学习算法。我们认为一个序列的二维关键点在一个特定的扭曲作为一个单一的任务MAML。然而，由于缺乏一个大规模的数据集在失真的环境中，我们提出了一种有效的方法来生成合成失真的数据从未失真的2D关键点。对于评估，我们假设两个实际的测试情况，这取决于运动捕捉传感器是否可用。特别是，我们提出了推理阶段优化使用骨长度的对称性和一致性。广泛的评估表明，我们所提出的方法成功地适应各种程度的失真在测试阶段和执行现有的国家的最先进的方法。所提出的方法在实践中是有用的，因为它不需要相机校准和测试设置中的额外计算。代码可在https：//github上获得。com/hanbyel0105/CamDistHumanPose3D.1. 介绍3D人体姿态估计是从RGB输入定位3D人体关节的任务。作为计算机视觉中的一项基本任务，它被应用于许多下游应用，动作识别[35，15，3]、人体重建[33，9]和人机交互[6]。特别地，预测来自单个相机的输入中的3D关节的用于单眼视频的3D姿态估计最近已经吸引了很多学术兴趣[17，36，21，2，4，16]，因为使用中的硬件设置的简单性及其能够利用时间信息来解决固有深度模糊的优点。最近，许多最先进的研究采用了两个-(a) 不失真（b）失真1（c）失真2图1：使用无失真数据集训练的网络对具有不同程度失真的视频进行3D重建顶部：具有2D姿态覆盖的输入视频帧。底部：3D重建。（a）的3D重构是根据未失真视频预测的，并且（b）和（c）分别是根据具有不同失真程度的视频预测的条件MPJPE（↓）P-MPJPE（↓）PCKh@0.5（↑）未失真48.537.187.1失真194.4（+45.9）65.6（+28.5）57.7（-29.4）变形2133.8（+85.3）79.2（+42.1）38.2（-48.9）表1：使用无失真数据集训练的网络在失真环境中的失真1和失真2分别是桶形失真和枕形失真的情况，具有切向失真分级体系结构以实现更高性能。在该架构中，首先从现成的2D关键点检测器[5，8，20，28]中提取2D关键点这些方法简化了3D姿态估计问题，以解决来自2D联合序列的深度模糊这允许研究[32，4，36]明确使用诸如人体骨骼运动学和运动等信息的算法，这些信息显示出合理的结果。11170尽管在基于2D关键点的3D姿态估计中有显著的进步，但仍然存在某些限制。也就是说，在无失真数据集上训练的现有3D人体姿势估计算法在应用于具有特定相机失真的新场景时显示出严重的性能下降，如图1和表1所示。以前，当从失真输入推断3D关节时，使用预处理的图像。然而，重要的是制作能够使其自身适应测试阶段中的任意失真的模型，因为在预处理中所需的算法（诸如摄像机校准）有时难以应用，并且它们还引入其自身的某些误差。这在算法的广泛使用中是非常重要的问题;然而，由于缺乏具有各种程度的相机失真的数据集，关于相机失真的跨场景研究已经超出范围。为了克服这一限制，在这项工作中，我们提出了一个简单而有效的模型，用于视频中的3D人体姿势估计，可以通过利用模型不可知元学习（MAML）[7]快速适应任何失真环境，这是一种代表性的基于优化的元学习算法。我们专注于训练失真的2D关键点调节的3D姿态估计器，以能够快速适应相机失真，因为我们发现2D关键点检测器擅长于找到与失真图像一致的失真2D关键点。因此，我们认为一个序列的二维关键点在一个特定的失真作为一个单一的任务MAML。然而，由于缺乏具有失真环境的大规模数据集，我们提出了一种有效的方法来从未失真的2D关键点生成合成失真数据。请注意，训练阶段的目标不仅仅是提高特定失真下的性能，而是训练对失真敏感的网络，允许网络在测试阶段快速适应任意失真。对于测试阶段，经过训练的网络首先通过微调或推理阶段优化来适应特定的相机失真环境，这在最近的工作[34]中提出了以下两种情况。为了评估，我们假设两个实际情况中，所提出的方法将被使用，并确认我们的算法是有用的每种情况下。首先，场景1是用户可以在测试环境前面使用运动捕获传感器收集数据的情况，如图3（b）所示。在这种情况下，可以获得与测试环境具有相同失真的数据，但是与大规模数据集（例如，人3.6M [10]）。因此，重要的是尽可能多地传递用大规模数据集训练的知识。为了验证所提出的方法的有用性，我们构建了一个小规模的数据集与测试环境相同的失真，并评估网络是否可以通过天真的微调很好地适应。其次，场景2是当用户无法在测试环境中获得数据时，如图3（c）所示在这种情况下，网络应适应特定的扭曲只使用测试视频。在最近的一项研究[34]中，作者提出了名为推理阶段优化（ISO）的概念，以在测试前仅使用测试数据来适应网络在这种情况下，我们也使用ISO。为此，我们提出了一种新的ISO方法的基础上骨架的对称性和一致性。这可能是一个弱约束，但我们确认，即使有这些约束，我们的网络也是完全适应的，因为它已经对失真进行了敏感的训练总而言之，我们的总体贡献有四个方面：• 据我们所知，我们的方法，其中utilized基于优化的元学习，是第一个算法，m，可以适应任意相机失真在测试阶段。• 我们提出了一种有效的方法来生成合成失真的数据从未失真的2D关键点，使跨场景的研究相机失真，这已经超出了范围，由于没有数据集失真。• 我们验证了所提出的方法的有效性，为每种情况下，假设两个实际的测试环境。特别是，我们提出了ISO方法使用骨长度的对称性和一致性。• 我们提出的方法是有用的，在实际应用中，因为它不需要校准的测试，ING相机和额外的计算复杂性。2. 相关工作2.1. 3D人体姿势估计自二维人体姿态估计成功以来，三维人体姿态估计得到了广泛的研究。Martinez等人[17]使用简单和轻量级的网络成功地从2D关节位置预测了3D姿势它显示了比以前的研究更好的结果，涉及原始图像像素的训练。为了更好地利用2D关键点，应用GCN和注意力机制来学习关节之间的全局关系[36，16]。相比之下，Pavlloet al. [21]使用视频预测3D姿态以克服多个3D姿态可以被映射到相同2D姿态的固有模糊性。此外，关于人体结构的先验知识被明确地用于给出约束[2，4]。尽管在这一领域取得了实质性的进展，但当由于测试环境中相机参数的变化而发生相机失真时，性能严重下降2.2. 跨场景姿态估计近年来，深度学习模型已经有了很大的改进然而，由于监督学习在缺乏多样性的数据集上的局限性，即使是最先进的11171L不∈t=1j=1算法在野外显示出较差的结果。为了在训练和推理之间的域间隙上保持稳健，已经进行了许多研究[25，27，34]。最近的一项研究[34]提出了域（例如，改变姿态、相机视点、身体尺寸和外观）的鲁棒3D姿态估计算法，该算法使用称为推理阶段优化（ISO）的自监督学习方案来适应目标域，该自监督学习方案使用2D和3D空间之间的循环一致性。本文着重研究了在不同的摄像机设置下，由于摄像机的不同位置而引起的摄像机畸变的畴隙。(a) 未失真(b) 桶(c) 枕形测试阶段，已超出范围。2.3. 基于优化的元学习元学习中有三个常见的类别。第一类是基于度量的方法[12，30，26，29]，其学习表达任务空间中输入之间的关系的良好度量，并将其很好地应用于新样本。第二类是基于模型的方法[24，19，18]，它通过另一个称为元学习者的模型控制目标模型的结构。最后一类是基于优化的方法[1，23，7，22]，它为任务寻找敏感的初始参数，并快速适应新任务，只需几个样本。在这项工作中，我们利用MAML [7]，它属于基于优化的方法，因此网络可以在测试阶段快速适应任意相机失真。3. 初步在本节中，我们介绍了相机失真的背景知识和MAML算法的框架。摄像机失真。有两种摄像机畸变。第一种是径向畸变，这是由凸透镜的折射率引起的径向畸变由距图像中心的距离确定，并且通常用参数k1、k2和k3表示。k1的值决定了畸变的主要形式负k1和正k1分别导致桶形失真和枕形失真，如图2（b）和（c）所示第二种是切向畸变，它是由照相机镜头和图像传感器的未对准引起的（例如，CCD和CMOS）。这可以通过参数p1和p2来近似。 p1和p2分别导致主要在x轴和y轴上的梯形变形，如图2（d）和（e）所示。这两种失真在商用相机中很常见，并且径向失真在广角相机中特别严重模型不可知的元学习。Meta学习阶段包括元训练和元测试。我们考虑一个模型，它由一个参数为θ的函数gθ表示，输出为y，输入为x。元训练的目标是找到初始可转移权重(d) 切向x（e）切向y图2：相机失真的类型。(b)和（c）表示径向畸变，（d）和（e）表示切向畸变。径向变形和切向变形可以同时发生。任务Ti是从任务分布p（T）中采样的。该模型首先使用任务内的训练样本通过任务特定损失Ti进行优化（任务级训练），并且使用测试样本（任务级训练）进行水平测试）。在元测试中，模型仅使用少量样本就能适应新的任务。在这项研究中，我们使用MAML [7]，其中输入x和输出y分别是扭曲的各种失真参数构造任务分布，并且每个任务对应于来自具有特定失真参数的失真的2D关键点轨迹的3D姿态估计。4. 方法我们的方法的总体框架如图3所示。在本节中，我们首先提出一种用于生成合成扭曲任务的方法。然后，我们描述构成我们的方法的两个阶段：测试前的训练阶段和适应阶段。4.1. 合成失真任务生成我们发现，2D关键点检测器善于发现与失真图像一致的失真2D关键点，如图1的顶行所示，因为它基于图像的纹理。因此，在训练阶段，我们的目标是训练一个3D姿态估计器，条件是失真的2D检测，能够快速适应各种失真，通过应用元学习。在我们的案例中，元学习需要在不同程度的失真下完成任务。在本节中，我们将介绍如何从未失真的视频中有效地生成失真的任务给定帧长度为T的视频剪辑，通过预先训练的2D关键点检测器（例如， MaskR-CNN[8]）。设p~tRJ×2表示预测值帧中的人的J个关键点的2D坐标和P~={p~t}T表示视频剪辑的关节集。具体地，y，p~t={[a~t，j，~bt，j]}J其中a~t，j和~bt，jde-可以适应新任务。对于元训练，分别在帧t处的第j个关节的一批音符X和y坐标11172i=1不--F(a)：训练阶段（元训练）采样畸变参数合成畸变2D轨迹（1，2，3，1，2）12D关键点检测器2基于优化元学习3D姿态估计器现成的（冷冻）...预测未失真2D轨迹输入视频（未失真）(b)测试前的适应（元测试）(c)测试前的适应（元测试）2D关键点检测器3D姿态估计器2D关键点检测器3D姿态估计器预测的变形现成的（冻结）2D轨迹（冻结）测试视频（扭曲）全监督损失预测失真2D轨迹测试视频（扭曲）自监督损失•使用与测试环境失真相同的小规模数据集进行微调·对测试视频进行自我监督训练（推理阶段优化）•尽可能多地转移使用大规模数据集训练的知识·骨长度对称性骨长度一致性损失图3：我们的方法的总体框架。(a)我们训练了一个2D关键点调节的3D姿态估计器，它可以快速适应任何失真，只使用未失真的大规模数据集。在训练好的网络可以用于实践之前，它必须适应一定的失真。（b）和（c）分别代表情景1和情景2的适应方法为了生成合成失真任务，我们将相机失真模型[31]直接应用于预测的2D关键点。为了简单起见，我们省略下标t和j。如图4（a）所示，生成具有特定失真参数（即，k1，k2，k3，p1，p2）的定义分成三个步骤第一个是获得归一化的2D关键点（表示为[a~n，~b~ n]）和该点与图像中心之间的距离（表示为r）。作为相机失真模式-els应应用于归一化图像平面，我们首先使用以下等式利用焦距（表示为f=[fx，fy]）和光学中心（表示为c=[cx，cy]）归一化2D关键点：该方法是高效的，因为它不应用图像域中的失真，并且因此，我们可以在训练阶段中生成许多失真，如图3（a）所示此外，它可以反映由固有模糊性（例如，遮挡），因为它从预测的2D关键点生成扭曲的关节。合成任务也可以从地面实况3D关节生成，如图4（b）所示。在这种情况下，通过投影从地面实况3D关节获得归一化的2D关键点然而，如表4所示，该方法不太有效，因为它不能反映2D关键点检测器的噪声输出，导致在训练和测试期间的域间隙。nna~=a~−cx，~b=~b−cy，r=√a~2+~b2。（一）公司简介然后，我们使用以下等式将失真应用于归一化的2D关键点：a~n，d=a~n（dr+dt）+p1r2，~bn，d=~bn（dr+dt）+p2r2，（2）其中中间变量 dr 和 dt 通过 dr= 1+k1r2+k2r4+k3r6 和dt=2p1a~n+2p2~bn分别获得。最后，使用以下等式通过非归一化获得失真的2Dk个y点（表示为[a〜d，〜b_d]）a~d=a~n，dfx+cx，~bd=~bn，dfy+cy。（三）4.2. 训练阶段在训练阶段，我们将使用来自未失真视频的合成失真任务进行元学习。我们在训练阶段的目标是通过利用基于优化的元学习来找到对相机失真敏感的初始可转移权重我们的算法主要遵循MAML的框架，但为了获得更好的性能，有两个修改：分层采样和随机失真预训练。如图3（a）所示，给定预测的未失真2D我们将该过程应用于所有关节J和帧T到ob-轨迹，我们生成一批扭曲的2D轨迹得到反映以下情况的失真的2D轨迹（表示为P~ dis一种特殊的扭曲。然后，我们考虑一对扭曲的2D轨迹和地面真实3D关节（表示为s=[x，y，z]∈RJ×3）作为MAML的单个任务T。（表示为P~ dist，iN，其中N表示元批次中的任务的数量）。然后，我们构造每个任务i通过配对扭曲的2D轨迹P~ dist，i和地面实况3D关节s。11173ΣU −U −不不不我月111NN我我最后，我们使用Eq. 六、对于随机梯度下降，模型参数θ更新如下：预测的2D关键点归一化像平面扭曲的2D关键点联系我们Tip（T）LTi（gθi′），（7）(a) 从预测的关键点生成扭曲的2D关键点。其中β是元优化的学习率。我们使用损失函数MPJPE，其是地面实况3D关节与作为元优化的整个过程中的任务级目标的预测关节之间的L2距离。此外，我们在通过随机失真预训练训练元学习器之前对网络进行预训练，该预训练从随机失真的2D关键点轨迹回归3D关节。地面实况3D关键点归一化图像平面扭曲2D关键点喷射物这允许网络学习表示的特征。(b) 从3D地面实况生成扭曲的2D关键点。图4：生成扭曲的2D关键点的方法。具体地，与径向失真相关的参数通过 k1， k2，k3[λ1，λ1]进行采样，并且切向失真参数通过 p1 ， p2其中λ1和λ2表示每个分布的最大值。我们基本上使用抽样方法进行任务级训练和任务级测试。而在任务级训练中，我们采用分层抽样的方法来确定抽样参数k1，它决定了失真的主要形式。在这种情况下，如下对元批次中的第i个样本的k1进行采样k−λ +2·λ·UΣ i −1，iΣ.（四）在各种失真下进行静态训练，因此能够实现稳定的MAML训练。然而，虽然随机失真预训练有助于MAML的稳定性，但当网络适应特定失真时，没有元学习的预训练显示出较差的结果，如图7所示，因为它不是可转移的初始权重。4.3. 测试前的适应当使用可以快速适应任意失真的训练模型时，它必须首先适应测试环境的特定失真。这类似于MAML框架中的元测试。我们假设两个实际情况，场景1和场景2，并提出了适应方法，为每种情况。场景1用户可以收集数据在测试环境前使用动作捕捉传感器通过从均匀间隔的箱中采样失真参数k1这增强了我们的网络的适应性，如表3所示。我们将使用分层采样生成的任务的分布表示为pstrat（），并且将仅使用均匀分布表示为prand（）。最后，我们考虑了一个三维姿态估计模型表示的参数化函数gθ与参数θ。当参数θ适应于新任务i时，我们仅执行一次梯度下降更新。因此，通过下式获得新调整的参数θi’：θ′=θ−αθLT（gθ），（5）是的。在这种情况下，可以获得与测试环境具有相同失真的数据。因此，我们采用使用MPJPE损失函数的朴素微调来使网络适应特定失真，如图3（b）所示所收集的数据将比大规模数据集（例如，人3.6M）。因此，我们将检查网络是否能够很好地适应少量收集的数据。详细设置见第5.1节。场景2是用户无法在测试环境中获得数据的情况。在这种情况下，网络应适应特定的失真只使用测试视频.如图3（c）所示，我们采用了推理阶段其中α是任务级训练的学习率。通过在任务级测试中采样的任务之间最大化gθ′相对于θ的性能来优化模型的参数θ具体而言，元目标表达如下：优化（ISO）[34]，它在测试之前使用测试数据进行自我监督训练。通常，将推断的3D关节正交投影到2D平面，并与预测的2D关键点进行比较以执行ISO。但是，如果视频中存在失真，这种方法可以-不要使用。因此，我们提出了新的ISO方法arg minθ角= arg minθ角TiΣp（T）TiΣp（ T）LTi（gθi′）LTi（gθ−αθLTi（gθ））。（，）正常化非正常化应用失真（1，2，3，1，2）（/，/）投影非正常化应用失真（1，2，3，1，2）11174（六）其利用骨长度对称性和骨长度一致性，允许在推断的3D关节本身内进行自我监督（详见附录A.2）。前者将人的左右骨骼长度11175ΣDLL而后者将每个骨骼约束为在视频内的连续帧之间长度相等基于骨骼长度的约束已用于全监督训练中的正则化，但从未用于ISO。此外，这些方法可能是弱约束，但我们的网络即使在这些约束下也是完全适应的，因为它已经通过MAML对失真进行了敏感的训练。4.4. 算法算法1示出了第4.2节的整个过程。如第2-8行所示，在元学习之前执行随机失真预训练。随后，执行元学习，如第9-17行所示。第11-14行和第15-16行分别呈现了任务级训练和带有任务级测试的元优化。5. 实验5.1. 数据集和评估Human3.6M [10]是一个大规模数据集，包含360万个视频帧和相应的2D和3D人体关键点标签。我们构建了一个跨场景的失真，以验证所提出的方法的有效性。对于训练，我们使用具有未失真视频的五个受试者（S1、S5、S6、S7、S8），如在先前的作品[21、4]中，因为我们的方法可以从未失真的2D关键点生成合成失真任务。对于测试，仅使用一个受试者（S11）。由于没有失真的测试视频，我们使用Blender1软件从S11的未失真视频中生成四种不同类型的失真视频（表示为d1、d2、d3和d4，详见附录A.1），如图5所示。我们评估所提出的方法在每一种失真。对于测试阶段前的适配场景1，需要采集与测试数据失真度相同的小规模数据集因此，我们仅采用S9的1%，并对其应用与S11相同的失真。评估指标。我们使用三个评估协议之前的作品[17，36，21，4，16，34]。第一个是以毫米为单位的平均每关节位置误差（MPJPE），预测的3D关节与地面真实关节之间的L2距离。第二个是P-MPJPE。这类似于MPJPE，但使用Procrustes Analysis计算对齐后运动类型之间的误差。最后一个是正确3D关节的百分比，阈值为头部段长度的50%（PCKh@0.5）。5.2. 实现细节对于3D姿态估计器，所提出的方法不是关于网络结构而是训练方法。因此，我们采用在先前的工作[21]中提出的用于视频中的3D人体姿势估计的最新模型作为我们的基础模型。它是完全卷积的，并且基于扩张的1https://www.blender.org/算法一：训练阶段输入：：大规模3D人体姿势数据集输入：α，β：学习率超参数输出：模型参数θ1 随机初始化θ2 不做就做3任务的样本批次Trand，iprand（T）4为所有T兰特，我做的5通过MPJPE计算损失：Trand，i（gθ）6计算更新的参数：θ=θ−βθLTrand，i（gθ）7端端89 不做就做10任务的样本批次Tstrat，ipstrat（T）11点我愿意12通过MPJPE计算损失：Tstrat，i（gθ）13计算更新的参数：θi′=θ−αθ LTstrat，i（gθ）14的端15根据平均测试损耗更新θ16θ←θ−βθTrand，iprandd（T）LTrand，i（gθi′）17端部(a)B+T（d1）(b)P+T（d2）(c)B+T（d3）(d)P+T（d4）图5：使用不同类型失真渲染的视频B、P和T分别表示桶形畸变、枕形畸变和切向对于（a）和（b）施加重失真，并且对（c）和（d）施加中等失真。与残差块的时间卷积。对于2D关键点检测器，我们使用具有ResNet-101- FPN [13]主干的Mask R-CNN[8]我们在Human3.6M的2D关键点上微调COCO [14]预训练模型。与之前的工作[21]类似，COCO的2D关键点格式与Human3.6M不同，因此，我们重新初始化检测器的关键点网络的最后一层并进行微调，之后2D关键点检测器在3D姿态估计器的整个训练过程中被冻结，因为它对相机失真具有鲁棒性。我们使用Adam [11]优化器，批量大小为1024。在训练阶段，我们将所需的λ1和λ2分别设置为5和0.5，以对失真参数进行任务级训练的学习率α设置为0。1，并且元优化的β被设置为0。001。我们使用5作为元批次中的样本数量。学习率衰减设置为0。95，网络用60个时期训练。11176场景1场景2方法MPJPE（↓）P-MPJPE（↓）PCKh@0.5（↑）MPJPE（↓）P-MPJPE（↓）PCKh@0.5（↑）Martinez等人[17] ICCV78.3/63.158.1/48.766.6/76.5128.0 /68.386.8/49.147.3/74.1Zhao等人[36]第36届中国国际汽车工业展览会86.3/64.064.2/47.463.2/76.9119.7 /71.485.5/51.945.0/72.2Pavllo等人[21]2019年中国国际汽车工业展览会79.9/65.059.4/48.367.3/76.7114.1 /64.572.4/45.747.9/76.6Chen等人[4] TCSVT89.4/62.761.9/46.359.2/77.8107.3/65.171.0/46.349.0/77.3Liu等[16] CVPR81.5/68.860.9/51.066.4/74.7110.7 /64.077.5/46.549.5/76.8我们62.0/53.646.4/40.678.4/83.366.1/51.647.8/39.276.3/85.7表2：（重）/（中等）与其他现有技术模型的平均性能的比较。顶部两行[17，36]基于单帧，其他行[21，4，16]，包括我们的方法，基于帧长度为27的视频。最好用粗体，其次是下划线。更多结果见补充材料（附录A.3）。无失真视频GT畸变的视频Pavllo等人我们无失真视频GT畸变的视频Pavllo等人我们图6：Human3.6M严重失真视频的定性结果。从最左边起的五列是Scenario1设置下的结果，其余列是Scenario2设置下的结果。顶行：d 1上的3D重建结果。下图：d2上的3D重建结果。更多结果见附录A.4。在测试前自适应的场景1和场景2中，学习率被设置为0。6，并且用于自适应的时期被设置为100。请注意，在自适应过程中，我们对模型进行了100个epoch的训练，但是由于它是在小规模数据集上完成的，因此自适应所需的总训练时间在几分钟内。5.3. 实验结果在本节中，我们验证了所提出的方法的有效性我们在所有实验中评估了四种不同失真的性能，并报告了应用高度失真的d1和d2的平均性能以及应用中度失真的d3和d4的平均性能所有报告的值都是适应特定失真后的性能。对于场景1，通过对S9的1%进行微调来调整训练的网络，S9经历了与S11相同的失真对于场景2，网络由ISO在0.1%的测试视频上适配（S11）。与最新技术水平的比较。表2示出了现有3D姿态估计算法和我们的方法的性能。基线模型没有考虑跨场景的失真。然而，为了公平评估，我们在小规模数据集上进行微调后评估场景1中的性能对于SceNario 2，我们没有将ISO应用于基线模型，因为它们在应用ISO时表现不佳。所提出的方法优于其他方法重新-不受各种扭曲和情节的影响。具体而言，与我们的基本模型[21]相比，所提出的方法在场景1中针对每个度量显示了-14.64mm、-10.35mm和+17.7%的平均性能改进（即， MPJPE 、 P-MPJPE 和 PCKh@0.5 ）和 -30.45mm，-15.55mm，场景2中平均性能提升+18.75%。特别是在场景2中，我们的方法，而不是表现出更好的性能比场景1下适度的失真。这表明我们的基于骨长度的ISO方法是有效的，并且训练的模型具有可转移的初始权重。图6示出了从失真视频估计的3D姿态的定性结果。与其他方法不同的是，我们的方法成功地适应了测试视频的失真，因此，我们可以看到，通过使用所提出的方法从失真的视频中估计的3D关节从具有更多样化姿势和失真的视频预测的结果可以在补充材料中看到（附录A.4）。消融研究。我们首先看一下所提出的方法的贡献。我们评估的性能变化，添加每个建议的方法与Pavllo等人。[21]作为我们的基本模型。如表3所示，我们可以注意到，每种方法在所有指标下都提供了积极的贡献。特别是，显著的改进来自于使用合成失真任务的MAML，并通过学习丰富的失真特征表示。11177方法MPJPE（↓）P-MPJPE（↓）PCKh@0.5（↑）基本模型[21]84.2/ 79.6 62.8/59.7+ MAML（带有合成任务）73.5/ 67.5 55.6 /51.7+ 分层抽样71.7/ 66.2 54.3 /50.4+ 随机失真预训练67.2/ 61.9 51.0 /47.0Pavllo等人[21] 27f8.56M17.11M72.453.872.0我们的3F0.16M0.32M75.056.169.6我们的9F4.36M8.71M59.845.479.5我们的27f8.56M17.11M57.643.480.9表3：在场景1设置下基于输入帧长度9的每个所提出的方法的有效性。每个值表示关于（失真dl）/（失真d2）的性能。表5：场景1下各种模型的性能和计算复杂度。所报告的性能是各种失真的平均值。预测的2D关键点地面实况3D关节62.0/53.664.7/56.146.4/40.648.2/42.078.4/83.377.0/82.0预测的2D关键点66.1/51.647.8/39.276.3/85.7地面实况3D关节71.3/55.651.9/42.672.8/83.5表4：（重）的平均性能的比较/（中等）。顶行：场景1。底部行：设想2.随机失真预训练表4示出了当应用生成合成失真2D密钥的两种方法13012011010090807060500110100时代80706050400110100时代80706050400110100时代基于帧长度27的点预测的2D关键点表示使用从2D关键点检测器推断的噪声结果生成合成失真2D关键点的情况，如图4（a）所示，并且地面实况3D关键点表示使用地面实况3D关键点生成合成关键点的情况，如图4（b）所示我们可以注意到，前一种方法在所有指标和场景下都表现出更好的性能，因为训练和测试之间的域差距较小。表 5 报告了模型的性能和复杂性（即，参数和FLOP）。我们的方法使用相同的模型结构，作为Pavllo等人。[21]因为我们的工作是关于学习方法而不是模型的结构当输入帧长度为3时，即使容量是基本模型的五十分之一，所提出的方法也显示出与基本模型相当的性能。此外，我们的方法与输入帧长度为27优于相同大小的基本模型显着。此外，我们的方法具有与基础模型 [21] 相同的用于推理的浮点运算（FLOPs），因此与基础模型相比，在适应测试环境后进行测试时不需要额外的适应过程中的性能变化。我们还验证了在训练阶段训练的模型的能力，以适应特定的相机失真。在该实验中，我们观察了基于帧长度27的自适应过程期间具有和不具有MAML的模型的性能变化。如图7所示，在使用MAML的模型中，我们可以注意到，无论失真程度和场景如何，它都能很好地适应。图7：在适应特定失真期间的性能变化。S1和S2分别表示场景1和场景2。实线w/ MAML表示使用第4.2节中提出的所有元素训练的最终模型，虚线w/o MAML表示仅使用随机失真预训练训练的模型。此外，MPJPE的平均值和标准差分别比w/o MAML（在时期0）的平均值和标准差低6.5mm（10%）和2.3mm（25%）。相反，在不使用MAML的模型的情况下，该模型不能稳定地适应，并且其性能相当显著地降低。具体地，它在时期0处表现良好，具有所提出的随机失真预训练的效果，然而，由于它不是可转移的初始权重，因此当自适应过程开始时，它被高度降级。这证明了MAML适应各种失真环境的优越潜力。请注意，如5.2节所述，适应过程所需的训练时间在几分钟内。6. 结论我们已经介绍了一个模型，三维人体姿态估计，可以快速适应任意相机失真。我们的模型通过元学习找到对失真敏感的初始可转移权重。为此，我们克服了缺乏公开可用的扭曲数据的限制，通过从未扭曲的数据生成合成的扭曲任务。此外，我们提出了一种新的ISO方法的基础上骨长度，可以适应模型的测试环境，没有3D关节标签。我们的方法预计将在实践中非常有用，因为一旦训练，它可以适应任何失真，而无需相机校准。MPJPE（↓）P-MPJPE（↓）PCKh@0.5（↑）模型参数≈浮点数MPJPEP-MPJPEPCKh@0.5S1重度，含MAML S1中度，含MAML S2重度，含MAML S2中度，含MAML S1重度，不含MAML S1中度，不含MAML S2重度，不含MAML S2中度，不含MAMLMPJPE（mm）P-MPJPE（mm）PCKh@0.5（%）11178引用[1] 作者： MarcinAndrycho wicz ， MishaDenil ， SergioGo´mezCol-menarejo ， Matthew W.Hoffman ， DavidPfau，Tom Schaul，Brendan Shillingford，and Nando deFreitas.通过梯度下降来学习。在Proceedings of the 30thInternationalConferenceonNeuralInformationProcessing Systems，NIPSCurran Associates Inc. 三个[2] Yujun Cai，Liuhao Ge，Jun Liu，Jianfei Cai，Tat-JenCham，Junsong Yuan，and Nadia Magnenat Thalmann.利用空间-时间关系通过图形卷积网络进行3d姿态估计。在IEEE/CVF计算机视觉国际会议论文集，第2272-2281页，2019年。一、二[3] Joao Carreira和Andrew Zisserman。你好，动作识别？新模型和动力学数据集。在IEEE计算机视觉和模式识别会议（CVPR）上，2017年7月。一个[4] Tianlang Chen ， Chen Fang ， Xiaohui Shen ， YihengZhu，Zhili Chen，and Jiebo Luo.基于骨骼的姿势分解的解剖学感知 3d 人体姿势估计 IEEE Transactions onCircuits and Systems for Video Technology，PP：1一、二、六、七、十二[5] Yilun Chen，Zhicheng Wang，Yuxiang Peng，ZhiqiangZhang，Gang Yu，and Jian Sun.用于多人姿态估计的级联金字塔网络在IEEE计算机视觉和模式识别会议（CVPR）上，2018年6月。一个[6] 艾琳·康诺利，马里恩·帕尔默，汉娜·巴顿，和格林·柯万。网络心理学导论。劳特利奇USA，2016. 一个[7] Chelsea Finn，Pieter Abbeel，Sergey Levine.用于深度网络快速适应的模型不可知元学习。在Doina Precup和Yee Whye Teh 编辑的 Proceedings of the 34 thInternationalConferenceonMachineLearning ，Proceedings of Machine Learning Research 第 70 卷，第1126澳大利亚，2017年8月6日至11日。PMLR。二、三[8] 何凯明、乔治亚·吉克萨里、彼得·多勒和罗斯·吉尔希克。面具 R-CNN 。在 IEEE 计算机视觉国际会议（ICCV）的会议记录中，2017年10月。一、三、六[9] Zhongyue Huang，Jingwei Xu，and Bingbing Ni.通过交叉空间约束采样的人体运动生成。第27届国际人工智能联合会议论文集，IJCAI-18，第757-763页。人工智能组织国际联合会议，2018年7月一个[10] C.约内斯库D. Papava、V.Olaru和C.斯明奇塞斯库Hu-man 3. 6 m：大规模数据集和自然环境中三维人体感知的预测方法 IEEE Transactions on Pattern Analysis andMachine Intelligence，36（7）：1325- 1339，2014. 二、六[11] Diederik P. Kingma和Jimmy Ba。Adam：随机最佳化的方法。在Yoshua Bengio和Yann LeCun，编辑，第三届学习表征国际会议，ICLR 2015，美国加利福尼亚州圣地亚哥，2015年5月7日至9日，会议跟踪会议，2015年。六个[12] Gregory Koch，Richard Zemel，Ruslan Salakhutdinov，等.用于一次性图像识别的连体神经网络。ICML深度学习研讨会，第2卷。里尔，2015年。三个[13] Tsung-Yi Lin ， Piotr Dollar ， Ross Girshick ， KaimingHe，Bharath Hariharan，and Serge Belongie.用于对象检测的特征金字塔网络。在IEEE计算机视觉和模式识别会议（CVPR）上，2017年7月。六个[14] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔和C. 劳伦斯·齐特尼克。微软coco：上下文中的公用对象。在David Fleet、Tomas Pajdla、Bernt Schiele和Tinne Tuyte-laars编辑的Computer Vision-ECCV施普林格国际出版社.六个[15] Jun Liu，Gang Wang，Ping Hu，Ling-Yu Duan，andAlex C.科特用于3d动作识别的全局上下文感知注意lstm网络。在IEEE计算机视觉和模式识别会议（CVPR）上，2017年7月。一个[16] Ruixu Liu，Ju Shen，He Wang，Chen Chen，Sen-chingChe-ung，and Vijayan Asari.

下载后可阅读完整内容，剩余1页未读，立即下载