弱监督3D姿态学习中的NRSfM知识提取方法

12 浏览量更新于2023-10-12 收藏 987KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1从NRSfM中提取知识用于弱监督3D姿态学习王晨孔朝阳Simon Lucey卡内基梅隆大学{chaoyanw，chenk，slucey}@ cs.cmu.edu摘要我们建议通过从运动非刚性结构（NRSfM）中我们的方法仅使用2D地标注释。不需要3D数据、多视图/时间镜头或特定于对象的先验。这就增加了数据瓶颈，这是监督方法的主要问题之一使用NRSfM作为教师的挑战是，当2D投影具有很强的模糊性时，它们通常会进行很差的深度重建。直接使用这些错误的深度作为硬目标会对学生产生负面影响。相反，我们提出了一种新的损失，将深度预测与NRSfM中使用的成本函数这给予学生姿态估计器通过与图像特征相关联来减少深度误差在H3.6M数据集上验证，与NRSfM方法相比，我们学习的3D姿态估计网络实现了更准确的重建。它也优于其他弱监督方法，尽管使用的监督明显较少。1. 介绍学习从图像中估计3D姿态受到大量3D注释数据的可用性的瓶颈。弱监督方法减少了标注的需求量，具有很高的实用价值.先前的工作通过补充他们的训练集来解决这个问题：（i）额外的2D注释数据[47];（ii）将3D模型与2D注释对齐[35，43，37];（iii）利用来自多视图镜头的几何线索[33，32，38];或（iv）利用对抗框架对3D结构施加先验[12]。然而，这些方法要么局限于实验室设置，要么仍然需要3D训练集-这限制了本文讨论了一个更一般的设置-我们利用图像数据集与唯一的2D地标注释（即，无3D监控）。这使得我们的方法可以应用于更广泛的对象，而不受3D模型，运动学先验或顺序/多视图镜头的限制我们的工作是由于最近的一些进展，深NRSfM我们的GT。图1. NRSfM方法往往实现较差的重建时，2D投影有很强的模糊性。我们提出的知识提取方法让学生姿势估计网络（第三列）纠正其NRSfM教师（第二列）所犯的一些错误。运动非刚性结构（NRSfM）NRSfM方法从铰接的3D点的多个2D投影重建3D形状和相机位置这些点不必属于同一对象，但可以来自同一对象类别的多个实例，这自然适用于我们的问题。现有的NRSfM方法受到帧的数量和它们可以处理的形状可变性的类型的限制，这限制了它们对许多现实世界问题的使用。Kong和Lucey [21] 最近提出了一种神经网络架构（ Deep-NRSfM），被解释为解决多层块稀疏字典学习问题，并且可以处理前所未有的规模和形状复杂性问题。我们修改后的Deep-NRSfM版本在H3.6M [18]数据集上实现了最先进的准确性，显著优于其他NRSfM方法。尽管取得了这一进展，但NRSfM仍然难以预测2D投影方面具有强模糊性的形状的正确深度，例如。识别腿是否伸展743744朝向/远离照相机，即使这些是可以用纹理特征区分的。因此，直接使用NRSfM的深度输出作为标签来训练姿态估计网络会受到这些误差的影响。我们提出了一种更柔和的方法，而不是这种训练标签的硬分配-当2D投影中存在高模糊度时，①的人。为了设计我们的学习目标，我们回顾了用于解决NRSfM的字典学习问题假设相机矩阵固定，深度假设定义了代码的子空间表征深度假设的质量的一种自然方式是通过其子空间中的代码的最小代价然而，直接使用此作为学习目标导致在每次SGD迭代中数值地解决约束优化问题，这在计算上是难以处理的。相反，我们推导出一个凸的上界，通过评估成本的NRSfM解决方案的子空间上的投影。实验表明，与我们已经很强的NRSfM基线相比，通过这种损失训练的姿势网络明显减少了训练集上的错误，从而导致作为弱监督学习任务的验证错误更低。所提出的知识提取损失的另一个好处是，它对学生姿态估计网络的架构没有限制，只要它输出地标的深度值即可。对于一些先前的作品[43，13]，情况并非如此，其中姿态估计网络必须输出与一些外部形状字典相关联的系数。总之，本文的贡献是：• 我们提出了一个弱监督姿态估计方法，仅使用2D地标注释。我们不使用任何3D标签，多视图镜头，或目标特定形状之前。尽管使用较弱的监督，我们取得了最好的结果相比，其他弱监督的方法。• 我们从 Deep-NRSfM [21] 中修改了一个强大的NRSfM基线，其性能优于H3.6M数据集。• 提出了一种新的适用于基于字典学习的NRSfM方法的ing. 我们证明，与NRSfM老师相比，我们的学习网络在训练集上的2. 相关作品非刚性结构运动NRSfM是一个经典的不适定问题，因为3D形状可以在图像之间变化，导致变量比方程更多。为了消除不适定性，利用了各种约束，包括1）时间平滑度[2，15，24，23]，2）固定关节[31]和更常用的3）形状先验。第一种统计形状先验--非刚性物体可以用低秩局部子空间建模--是由Bregler等人首先提出的。[5]后来由戴等人开发。[9]的文件。按照这个方向，越来越多的工作报告，以模拟更复杂的对象，同时仍然保持一个良好的条件下的系统。其中，代表是union-of-subspaces [48，1]和block-sparsity [20，22]。本文特别感兴趣的是最近的工作[21]，该工作引入了深度神经网络来精确解决大规模NRSfM问题。尽管取得了巨大的成功，但大多数NRSfM算法严重依赖于基于2D注释的先验。然而，正如引言中所指出的，更广泛的信息嵌入在图像本身下，在像素值下。在本文中，我们施加了一个新的图像先验，使NRSfM不再被困在地标的2D坐标，但也从原始图像学习。弱监督3D姿势学习大多数3D姿势估计方法[36，30，29，47，45，44，28，8，26，6]都是完全监督的。监督方法的一个瓶颈是来自多视图运动捕捉系统[19，18]的数据这将影响训练模型的泛化能力。弱监督方法旨在通过限制对标记数据的需求来缓解这个问题。它们可以大致分为：使用合成数据集[7，40]来增加训练集的大小。这些方法面临的问题是推广到新的运动和环境，是从模拟数据不同;另一方面，考虑到现有的具有2D注释的大规模图像数据集，Zhou等. [47]用2D标记图像和运动捕获数据训练他们的模型为了进一步减少对配对3D注释的依赖性，3D解释器网络[43]，多模态模型[37]和生成对抗网络[13，41]在外部3D数据上进行训练;多视图镜头也用于强制几何约束[38，33];然而，这些方法仍然需要足够大的3D训练集来正确初始化和约束它们的学习过程最近，Rhodinet al. [32]提出了一种基于几何感知表示学习的方法，它只需要少量的注释。但由于其性能有限，限制了它的实际应用. Drover等人的一项同时进行的工作。[12]建议使用adversar- ial框架对3D结构施加先验知识，7451全国无线电广播公司仅从2D投影。然而，他们仍然利用地面真实的3D姿势来生成大量的合成2D姿势用于训练，这将Human3.6M中原始的1.5M 2D姿势增加了近10倍。3. 运动产生的非刚性结构在弱透视照相机假设下，二维投影W∈RP×2是三维形状S∈RP×3和摄像机矩阵M ∈R3×2：与单层稀疏编码相比，多层稀疏编码中的编码不仅使其各个层的重构误差最小化，而且还被其他层的编码正则化这有助于对代码恢复施加更多约束，同时保持与具有相同字典大小的单级稀疏编码相似的形状可表达性。对于稀疏码的恢复，经典的方法之一是迭代收缩保偏算法。.。.。..。..（ISTA）[10，4，34]。 Papyan等人 [27] I don't know.前向神经网络可以被解释为近似的，W = SM， W=upvp， S=xpypzp，通过ISTA进行一次迭代的稀疏码推理，以及。...。.....（一）字典D1，D2，. . .，Dn作为神经网络权值.基于这一认识，Chenet al.推导出一种新的神经网络结构，它近似于其中（up，vp）和（xp，yp，zp）是图像和世界坐标。第p个点的纵坐标，并且M必须是正交的。NRSfM的目标是在给定观察到的2D投影W的情况下恢复3D形状S和相机矩阵M。这是一个固有的不适定问题。找到唯一的解需要足够的正则化和先验知识。一种类型的NRSfM方法通过字典学习来解决这个记s∈R3P为S的向量化，它满足：s=D，其中D∈R3P×K是一个具有K个基的字典，∈RK是一个码向量.给定来自一个点的2D投影W（i）的多个观察结果铰接对象随时间变形，或者相同类别的不同对象，这些方法可以被松散地解释为最小化以下目标：稀疏码的求解和摄像机矩阵M。在本文中，我们对它们的原始结构进行了重大的修改，我们发现这对于在实验中获得良好的结果是重要的。由于篇幅所限，本文对我们的摄像机矩阵估计网络qM（W）：RP×2<$$> →R3×2，稀疏码估计网qM（W，M）：RP×2×R3×2<$$> →RK1.利用由字典参数化的前馈代码/相机估计网络，我们现在可以通过最小化数据集中所有样本的重投影误差来学习字典。记（i），M（i）为在第i个2D投影W（i）上的净工作量q，qMgi，损失功能是：拉斯敏Σ（i） [DM（i）−W（i）+λ。minD，{M（i）}，{ M（i）}我<$[D <$（i）]P×3M（i）−W（i）<$+h（<$（i））（二）D1 D2... Dn我11P×3211（四）其中算子[ ]P×3被定义为将矢量化的3D形状重塑为具有维度P×3的矩阵形式;h（n）是为了提高解的唯一性而引入的正则化子，例如低秩[9]、稀疏性[20]等。我们的知识提取方法（见第4节）是为这种一般类型的NRSfM方法设计的，在prin-unr中，只要字典是过完备的，它就不知道他们使用的正则化器的类型。Deep NRSfMKong和Lucey[21]提出了一个先验假设，即3D形状可通过多层稀疏编码压缩：s = D 11，λ1≤λ1，λ1≥0，1=D2λ1≤λ2，λ2≥0，在这个损失函数中，除了重投影误差，我们使用小权重添加稀疏惩罚，我们发现这有助于改善结果。4. 从NRSfM中问题设置：给定与目标对象上的地标的注释2D位置配对的图像数据集：{（I（i），W（i））}，我们想要训练能够从图像中预测3D地标位置放。这项任务的主要困难是如何学习预测深度的地标没有任何深度监督。我们的线索来自基于字典学习的NRSfM方法（在我们的实验中为Deep-NRSfM），该方法为我们提供了3D形状字典D，并恢复了相机矩阵M（i）和代码（i）.... ，的。n−1=Dnλ n≤λ n，n≥0，（三）全国无线电广播公司有了字典，相机矩阵和代码，NRSfM，图像坐标中的深度可以通过简单地旋转3D746形状重建D θ（i）来计算。给定其中Di是分层字典，并且码向量证明了RKi∈RKi是稀疏非负的.这个任务的一个简单的基线是：我们使用深度重建作为标签来训练3D姿态估计，747（��中文（简体）��德国国家广1（bX1 2 12x yzx yz地面实况2（一）NRSfM2NRSfM2（c）第（1）款1图2.对提出的知识提取算法进行了说明（a）为了说明的目的，我们假设代码是二维的。我们绘制成本函数（等式2）。9）作为2D热图。NRSfM的解NRSfm近似于此热图的最小值（用红点表示）。给定深度假设z，所有满足z的代码形成子空间S（z），其显示为橙色线。深度假设的质量由其子空间上的最佳点来评估，表示为xmax（z）（红十字）。给定不同深度的假设相当于平行平移直线。假设z是自由的，可以有任何值，那么最小化我们的损失函数（等式2）。10）将推动线交叉nrsfm（见橙色虚线）。这给出了与NRSfM方法相同的错误深度重建。（b）假设我们得到另一幅具有相似姿态但具有较少2D投影模糊性的图像。在这种情况下，NRSfM给出正确的形状恢复。由于两个图像的纹理特征相似，因此姿势估计网络被隐式地约束以进行相似的深度预测。然后，最小化两幅图像的损失将导致图像1（如橙色实线所示）的更好解决方案，因为第二幅图像的梯度更大，因为它具有更少的模糊性。（c）我们通过在子空间（黄色正方形）上的投影上进行评估来近似损失。这种近似是原始损失的凸上界。它仍然反映了投影模糊的程度，并将子空间（线）推向前向。电信网然而，如图1，我们发现NRSfM由于在二维投影中的强模糊性而容易做出错误的估计。将其作为回归的硬目标会对学习后的位姿估计网络的精度造成瓶颈。我们提出了一种更好的方法-我们希望在深度预测和成本函数之间建立直接关系（等式10）。2）我们在NRSfM中使用，这是并固定在我们的学习算法中。这样，我们可以通过旋转将相机矩阵吸收到字典中来简化我们的符号旋转矩阵R（i）∈R3×3由摄像机矩阵形成：R（i）=[m（i），m（i），m（i）× m（i）]，（5）其中m（i），m（i）是相机矩阵M（i）的列。然后更好的度量来评估预测的3D形状的质量12这样，我们就可以避免混淆我们的学生网络字典通过乘以每个3D坐标来旋转在D中与R（i）匹配：错误的标签，并允许他们隐含地关联图像特征来消除NRSfM的困难姿势的歧义。这种直觉与其他几何自监督B（一）Σ=[d1，d1，d1]R（一）. . .[dP，dP，dP]R（一）技术合作（六）学习，例如自监督深度估计[46，14，42]，其中光度损失用于训练深度估计网络。我们进一步将B（i）分成两个矩阵B（i）的所有x，y坐标元素，而另一个取所有其余的z坐标元素。概述：核心问题是如何设计一个损失函数，它可以正确评估姿态估计器产生的深度假设的质量。为了得到损失函数，B（一）XYΣb1（i）XΣb1（i）y. . .bP（i）ΣTΣTbP（i）y（七）B（i）= b1（i）. . .bP（i），我们首先表明，深度假设与子zz z相关联代码空间（见第4.1节）。然后，我们主张损失应该是子空间中代码的最小成本值（见4.2节）。最后，我们推导出损失的凸上界，这对于SGD训练来说是计算可跟踪的（参见第4.3节）。图中给出了2D图示。2、帮助解读文本。4.1. 深度假设定义了代码从NRSfM，我们得到字典D，并且每个示例相机矩阵（（我们德国国家广播公司��ℒ��∗(��)（1��˜（��ℒ��∗(��)全国=、748zXYzM（i）。我们发现，我们修改后的Deep-NRSfM的相机矩阵是准确的，因此我们将它们由此，B（i）（i）计算由代码（i）重构的形状的2D投影;并且B（i）（i）是图像坐标中的重构深度。对于深度假设z′=fz（I（i）;θ），姿态估计网络，给出等于z′的深度重构的代码形成子空间：S（i）（z′）={λ：B（i）λ = z′}。（八）假设字典是过完备的，那么子空间就不是空的在图2中，子空间在2D中被可视化为橙色线。749XYzXYXY4.2. 损失=子空间约束问题的解可以是投影深度假设z′的质量可以表示为（一）全国无线电广播公司在子空间S（i）（z′）上：最好的代码所控制在NRSfM中，质量-ϕ˜ (i)(z′)=argmin1ǁϕ−ϕ(i)2代码的完整性由成本函数=重投影来衡量error +一些正则化器，即：C（i）（）=B（i）−w（i）+h（），（9）n∈S（i）（z′）2方程的封闭形式解。12是：nrsfm12ϕ˜ (i)(z′)=ϕ(i)+（B（i））<$（z′−B（i）<$（i）），（十三）其中w（i）是W（i）的向量化。为了保持-nrsfmzznrsfm一般情况下，我们其中（B（i））†=B（i）T（B（i）B（i）T）−1是右逆z z z z这里的Ularizer 因此，我们有以下定义：z′的质量函数，我们将其用作知识提取的损失函数B（i）。当量由于现代深度学习库，13将精确解q（i）（z′）代入方程：11的L（i）（z′）=minn∈S（i）（z′）C（i）（）。（十）近似解εi（i）（z′）gi给出了方程的一个常数x上界。十一：这计算由深度假设z'定义的子空间内的代码的最小成本值。为了评估这个损失函数，我们需要首先求解等式中的约束凸优化问题的最小值10（图中的红十字2）的情况。假设我们可以将m表示为z′的可微函数，即m=q（i）（z′），等式10变成：L（i）（z′）=<$B（i）q（i）（z′）−w（i）<$+h（q（i）（z′））。（十一）该损失明确地是z'的函数，并且因此允许梯度被传播到姿态估计网络。作为旁注，假设姿态网络具有无限的容量，换句话说，能够过拟合任何深度值，则最小化该损失函数的最终结果将是预测与NRSfM al相同深度的网络L<$（ i）（z′ ）=<$B（ i ）<$< $ （ i ）（z′ ）−w（ i ）<$+h（<$< $（i）（z′））（十四）在我们的实验中，我们发现使用这个凸上限作为训练损失，与我们已经很强的NRSfM基线相比，足以在训练集上给出更低的误差4.4. 学习3D姿态估计器我们使用最先进的积分回归网络[36]作为我们的学生姿势估计器。该网络直接预测图像坐标中地标的3D坐标。在训练过程中，（x，y）坐标直接由2D地标注释监督;而z坐标由我们的知识提取损失监督（等式2）。第14段）。拟议的学习目标是：Σ租m（如图所示）第2（a）段）。我们认为，这在实践中不会是这样的，因为卷积网络的卷积-minθ<$fxy（I（i）;θ）−w（i）<$1+L<$（i）（fz（I（i）;θ）），（15）我受其结构的限制，相当于对其输出施加了一个深度图像先验[39]。该图像先验提供了额外的约束来消除令人困惑的2D投影，因此是我们改进NRSfM教师的关键来源4.3. Eq.的凸上界11使用等式11需要形成（次）可微函数q（i）（z′），其产生等式11中的约束优化问题的解。10个。然而，由于正则化子的存在，求解这个约束优化问题需要迭代数值方法。因此，在训练期间，在每次SGD迭代中精确求解它在计算上是困难的。因此，我们推导出近似解如下：关于750全国无线电广播公司其中fxy，fz表示网络在（x，y）和z坐标处的输出;θ表示网络权重。对于kn阶的提取损失L∞，我们对重投影误差使用L2范数，对正则化子使用L1范数，实验正则化器由经验发现的系数加权，在我们的实验中为0.3。5. 实验5.1. 实现细节数据预处理：我们假设在训练和测试中没有3D标签的知识。我们根据2D人体边界框裁剪图像，然后调整大小并填充，使其分辨率为256x256。然后，2D点由面片坐标表示。在评估中，我们假设n（i）是我们从NRSfM得到的解，遵循与[36]中相同的程序，该程序将刻度对齐它近似于等式中的优化问题的最小值。如果没有子空间约束，则近似在计算度量之前通过平均骨长度进行预测。751共识深度NRSfM Weaksup-bs Ours GT。图3. NRSfM方法与包括图像作为额外约束的方法（即我们的弱监督基线和我们的知识提取方法）。我们的方法显示出显着的改进，其教师，即。深- NRSfM。从侧视图绘制轮廓，以便更好地可视化深度重建中的差异。我们使用红色和洋红色来为左腿和手臂上色，而蓝色和道奇蓝用于为右腿和手臂上色。2D3DMVP-MPJPEMPJPESun等人[36个]----86.4Rhodin等人[32个]Tung等人[38个]CCCCC98.298.4131.7-3Dinterp. [四十三]CC98.4-AIGN [13]CC97.2-Tome等人[37]第三十七届CC-88.4Drover等人[12个]CC64.6-Weaksup-bsC67.395.0我们C62.886.4+ MPIIC57.583.0表1.在H3.6M ECCV18挑战数据集的训练集上与NRSfM方法进行比较。在5k个图像的子集上评估KSTA、RIKS，在2k个图像上评估SPM我们的Deep-NRSfM实现与原始论文相比有显著3D姿态估计网络：我们选择积分回归网络[36]，因为它在人体姿态估计方面具有最先进的性能。在整个实验中，我们使用ResNet50作为回归网络的骨干，输入图像分辨率为表2.与H3.6M上的弱监督方法相比，设定每种方法使用的监督源标记为：“2D”是指2D标志注释;“3D”表示具有3D注释的任何训练源，包括合成3D数据集、外部人体3D模型等; 'MV'是多视图的缩写。设置为256×256。使用更深层次的骨干网络（例如，ResNet152）和更高的图像分辨率将改善结果，如[ 36 ]所示。我们选这个便宜点与其他使用ResNet50的弱监督方法进行更公平的比较。P-MPJPEMPJPE深度误差[第11话]281.1--稀疏[20]217.4--SPM（2k）[9]209.5--[第22话]167.1218.0135.6KSTA（5k）[16]123.6--[17]第十七话103.9--协商一致意见[25]79.6120.1111.5[21]第二十一话73.2101.676.5Weaksup-bs61.286.275.3我们56.480.971.2752直接.Disc.吃迎接电话照片构成采购坐SitD烟雾等走WalkDWalkP3Dinterp. [四十三]78.690.892.589.4108.9112.477.1106.7127.4139.0103.491.479.1--AIGN [13]77.691.489.988.0107.3110.175.9107.5124.2137.8102.290.378.6--Drover等人[12个]60.260.759.265.165.563.859.459.469.188.064.860.864.963.965.2Weaksup-bs58.862.456.759.868.660.859.781.093.468.575.865.961.567.665.0我们54.757.754.855.861.656.352.773.795.562.368.560.855.564.058.0+MPII50.348.952.753.959.950.748.370.982.658.065.354.750.857.755.6表3.根据H3.6M确认集报告的行动PA-MPJPE。与其他弱监督的方法.在训练中，我们遵循[36]中的大多数设置即，基本学习速率是1 E-3，并且当验证集上的损失饱和时，它下降到1 E-5。由于我们的计算资源有限Deep-NRSfM：我们使用6个级别的字典。大小从低到高的字典是：256，128，六十四三十二十六八当学习字典时，稀疏性权重（等式2中的λ）可以是：2）通过交叉验证选择，并设为0.01。关于我们的Deep-NRSfM修改版本的更多细节，我们请读者参考我们的补充材料。5.2. 实验装置数据集：我们在Human3.6M数据集（H3.6M）[18]上验证了我们的方法，这是当前3D人体姿势估计研究中使用的主要数据集尽管我们的实验是集中在人体姿态估计，我们想强调的是，所提出的方法是一个通用的算法。与其他与外部三维人体模型深度耦合的弱监督方法不同，该方法不需要任何目标特定的先验知识，因此应该不受限制地H3.6M包括从4个摄像机位置捕获的11个演员执行15种类型动作的序列。11名演员中有7名演员的镜头被发布用于培训/验证。我们遵循先前论文进行的实验惯例：5个受试者（S1、S5、S6、S7、S8）用作训练集，2个受试者（S9、S11）用于测试。虽然H3.6M数据集带有3D标注，但我们在训练过程中仅使用2D标注，并保留3D标签用于验证。从训练镜头中采样帧的策略可能会直接影响验证的准确性。对于再生产，我们使用H3.6M ECCV18挑战选择的子集（35k+图像）进行训练。我们通过随机图像扭曲和扰动来增加训练集，如[36]所示。评价指标：我们遵循文献中使用的两种常见的评估协议，并报告它们。• MPJPE：每个关节的平均定位误差测量在将它们移位以具有同一根关节坐标。• PA-MPJPE：在评估之前通过刚性变换将重建的关节与地面实况对齐。评估MPJPE。该度量在NRSfM中更常用于测量重构形状的正确性。此外，我们还报告了这是验证我们方法的最重要的指标，因为弱监督学习的核心问题是如何在没有注释的情况下恢复深度弱监督学习基线：如前所述，一个简单的弱监督学习基线是使用我们的Deep-NRSfM方法的深度输出作为训练标签。我们使用这个基线（参考“bs”）来验证我们的新知识提取损失的贡献。为了训练姿态估计网络，我们采用了L1回归损失，这在[36]中已被证明是有效的L1正则化器的加权值：我们研究了L1正则化子的不同权值的影响在知识的积累中，第14段）。如表4所示，在合理的权重范围（0.1-0.5）下，我们的方法始终优于基线。L1权重0.010.10.30.5Weaksup-bs深度误差（mm）PA-MPJPE（mm）79.073.074.673.673.170.576.771.078.075.8表4. 比较等式中的L1正则化器的不同加权值。十四岁H3.6MECCV 18挑战验证集报告的数字。使用MPII的额外数据：先前的工作[47]表明，包括外部2D数据，如MPII [3]作为训练源可以提高学习的3D姿态估计器的泛化能力。因此，我们也报告了我们的方法与H3.6M+MPII训练的结果。由于我们当前的方法不处理丢失的关节，我们仅将我们提出的知识提取损失应用于具有完整2D骨架注释的MPII图像;对于具有遮挡/视野外关节的图像，我们仅使用2D回归损失[36]。5.3. 与NRSfM方法比较我们在我们的训练集（来自H3.6M ECCV 18 Chal的35k+图像）上与7种最先进的NRSfM方法进行比较。753我们的GT图4. H3.6M验证集上的定性结果。右边的部分展示了我们的一些失败案例。我们的方法在严重的咬合和罕见的身体姿势下可能会失败。lenge）。我们发现该数据集对比较方法具有挑战性，原因是：1）摄像机位置变化大; 2）诸如坐着和俯卧的困难姿势占据数据集的显著部分; 3）尺度变化很大，这是因为在没有3D知识的情况下，我们不能通过距离或计算骨长度来规范化2D投影。我们所能做的最好的就是通过2D边界框的大小来规范化2D点这会导致某些姿势，例如。正常化后的坐姿比其他人大4）某些方法不能处理大量的样本（例如，> 5k）。对于这些方法，我们报告它们可以处理的最大子集的结果。我们还尝试与最近提出的MUS [1]进行比较，但它们的实现无法处理具有大量帧的H3.6M数据集。尽管有这些困难，我们的Deep-NRSfM的实现优于所有这些。如表所示。1，与第二好的相比，它将深度误差减少了33%以上这意味着切换到其他NRSfM方法必然会导致训练3D姿态的较差结果。估计器更有趣的是，尽管我们的弱监督学习基线（Weaksup-bs）被训练来重建深度NRSfM产生的相同深度值，但与其回归目标相比，它实际上得到的深度误差略低这表明深度图像先验正在发挥作用，但仍然受到来自Deep-NRSfM的噪声标签的限制。最后，通过我们的知识提取损失学习的位姿估计网络将深度误差从 Deep-NRSfM 的 76.5mm 降低到71.2mm。如图如图3和图1所示，该5.3mm的平均差异包括在诸如识别腿是朝向还是远离相机伸展的情况下的巨大改进。5.4. 与弱监督方法比较我们在H3.6M验证集上与其他弱监督3D姿势学习方法进行了比较。在表中。二、本文首先列举了Sun等人提出的积分回归网络的性能。[36]作为监督学习基线。我们从他们的论文中复制了它的MPJPE（对应于256×256输入大小和I1损失的ResNet 50）。因为在我们的实验中，我们在网络架构中，这作为弱监督学习方法可以实现的准确度的上限。接下来，我们列出了7种弱监督方法的结果，并标记了它们的训练源类型。‘2D’ refers to MV是Multi-View Footage的缩写我们发现，我们的方法优于所有比较的方法，而使用最少的监督。我们还尝试将MPII作为额外的训练源，这会导致更多的错误减少。图4显示了我们的方法在验证集上的一些定性结果。对于每个动作的错误分解，我们在表3中列出了13个不同动作的PA-MPJPE。6. 结论本文提出了一种零标注的弱监督3D姿态学习算法。我们提出了一种新的损失提取知识的一般类型的NRSfM方法的基础上字典学习。我们还建立了一个强大的NRSfM基线的数据集，击败了所有的国家的最先进的。尽管其目前的成功，我们的方法的局限性是：1）我们需要弱透视投影，因此具有强透视变化的物体对于所提出的方法不是理想的;2) 我们还没有对丢失的标签进行建模，因此需要另一次迭代来将该方法扩展到具有大量被遮挡/视野外对象的数据集。我们把这些留给未来的工作。754引用[1] 安东尼奥·阿古多，梅尔西奥·皮琼和弗朗切斯科·莫雷诺-诺格尔.图像集合弹出窗口：刚性和非刚性类别的3d重建和聚类。在IEEE计算机视觉和模式识别会议论文集，第2607-2615页，2018年。二、八[2] Ijaz Akhter 、 Yaser Sheikh 、 Sohaib Khan 和 TakeoKanade。轨迹空间：非刚性结构运动的对偶表示。PatternAnalysisandMachineIntelligence ， IEEETransactions on，33（7）：1442-1456，2011。2[3] Mykhaylo Andriluka，Leonid Pishchulin，Peter Gehler，and Bernt Schiele. 2D人体姿态估计：新的基准和最先进的分析。在IEEE计算机视觉和模式识别会议（CVPR）中，2014年6月。7[4] Amir Beck和Marc Teboulle。一种快速迭代收缩阈值算法及其在小波图像去模糊中的应用2009. 3[5] Christoph Bregler，Aaron Hertzmann，and Henning Bier-mann.从图像流中恢复非刚性三维形状。计算机视觉和模式识别，2000年。程序。IEEE会议，第2卷，第690-696页。IEEE，2000年。2[6] 陈景航和德瓦·拉曼南。3D人体姿态估计= 2D姿态估计+ 匹配。在 IEEE 计算机视觉和模式识别会议（CVPR），2017年7月。2[7] 陈文正、王欢、李阳燕、苏浩、王振华、涂长河、丹尼·利辛斯基、丹尼尔·科恩-奥尔和陈宝泉.合成训练影像以提升人体三维位姿估计。2016年第四届3D视觉国际会议（3DV），第479IEEE，2016. 2[8] Rishabh Dabral、 Anurag Mundhada 、 Uday Kusupati、Safeer Afaque、Abhishek Sharma和Arjun Jain。从结构和运动学习三维人体姿势。在欧洲计算机视觉会议（ECCV）上，2018年9月。2[9] 戴玉超，李红东，何明义。非刚性结构运动分解的一种简单的无先验方法。International Journal of ComputerVision，107（2）：101二、三、六[10] Ingrid Daubechies ， Michel Defrise ， and Christine DeMol.稀疏约束下线性逆问题的一种迭代阈值算法。纯数学与应用数学通讯：A Journal Issued by the CourantInstitute of Mathematical Sciences ， 57 （ 11 ）： 1413-1457，2004. 3[11] Alessio Del Bue、Fabrizio Smeraldi和Lourdes Agapito。使用基于ranklet的跟踪和非线性优化的来自运动的非刚性结构。图像与视觉计算，25（3）：297-310，2007. 6[12] Dylan Drover ， Rohith MV ， Ching-Hang Chen ， AmitAgrawal，Ambrish Tyagi，and Cong Dauoc Huynh. 3d姿势可以从2d投影中学习吗？在欧洲计算机视觉会议（ECCV）的会议记录中，第0-0页，2018年。一、二、六、七[13] Hsiao-Yu Fish Tung，Adam W.哈利，威廉·濑户和卡特琳娜·弗拉基亚达基。对抗逆图形网-作品：从未配对的监督学习2D到3D提升和图像到图像的翻译。2017 年 10 月在IEEE 计算机视觉国际会议（ICCV）上发表。二六七[14] Cle' mentGodard，OisinMacAodha，andGabri elJBros-tow.具有左右一致性的无监督单目深度估计。在IEEE计算机视觉和模式识别会议论文集，第270-279页4[15] Paulo FU Gotardo和Aleix M Martinez.计算相机的平滑时间轨迹和从具有遮挡的运动中的结构中的可变形形状PatternAnalysisandMachineIntelligence ， IEEETransactions on，33（10）：2051- 2065，2011。2[16] Paulo FU Gotardo和Aleix M Martinez.内核非刚性结构来自运动。在计算机视觉（ICCV），2011 IEEE国际会议上，第802-809页。IEEE，2011年。6[17] Onur C Hamsici ， Paulo FU Gotardo ， and Aleix MMartinez.从运动学习非刚性结构中的空间光滑映射。欧洲计算机视觉会议，第260-273页。Springer，2012. 6[18] Catalin Ionescu ， Dragos Papava ， Vlad Olaru ， andCristian Sminchisescu. Human3.6m：大规模数据集和预测方法，用于自然环境中的 3D 人体感知。 IEEETransactionsonPatternAnalysisandMachineIntelligence，36（7）：1325-1339，2014年7月。一、二、七[19] Hanbyul Joo 、 Hao Liu 、 Lei Tan 、 Lin Gui 、 BartNabbe 、 Iain Matthews 、 Takeo Kanade 、 ShoheiNobuhara和Yaser Sheikh。Panoptic Studio：用于社交运动捕捉的大规模多视图系统。在Proceedings of the IEEEInternational Conference on Computer Vision，第33342[20] 陈空和西蒙·露西。运动产生的先前较少的可压缩在IEEE计算机视觉和模式识别会议论文集，第4123- 4131页，2016年。二、三、六[21] 陈空和西蒙·露西。从运动中获得的深层可解释的非刚性结构。arXiv预印本arXiv：1902.10840，2019。一、二、三、六[22] Chen Kong，Rui Zhu，Hamed Kiani，and Simon Lucey.类别结构：一种通用的、无先验的方法。2016年国际3D视觉会议（3DV）二、六[23] 苏扬什·库马尔，阿努普·切里安，戴玉超，李洪东.可扩展的密集非刚性运动恢复结构：格拉斯曼式的观点。arXiv预印本arXiv：1803.00233，2018。2[24] Suryansh Kumar，Yuchao Dai，and Hongdong Li.多体非刚体运动合成结构。在3D视觉（3DV），2016年第四届国际会议上，第148IEEE，2016. 2[25] Minsik Lee，Jungchan Cho，和Songhwai Oh.非刚性重建的共识在 Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition，第4670-4678页6[26] Julieta Martinez、Rayat Hossain、Javier Romero和JamesJ Little。一个简单而有效的三维人体姿态估计基线在IEE

下载后可阅读完整内容，剩余1页未读，立即下载