C3DPO：无标记单眼图像中的2D关键点学习可变形物体的3D模型

104 浏览量更新于2023-10-12 收藏 15.79MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

76880C3DPO：非刚性结构运动的规范3D姿势网络0David Novotny � Nikhila Ravi � Benjamin Graham Natalia Neverova Andrea Vedaldi0{ dnovotny,nikhilar,benjamingraham,nneverova,vedaldi } @fb.com0Facebook AI Research0分解网络0测试训练0ϕ03D形状和视点0( α , θ )02D关键点和可见性0密集关键点0非刚性物体0刚性物体的单眼重建：0ϕ0图1：我们的方法通过无约束图像中的2D关键点学习可变形物体类别的3D模型。它包括一个深度网络，学习将形状和视点分解，并在测试时进行单眼重建。0摘要0我们提出了C3DPO，一种从无约束图像的2D关键点注释中提取可变形物体的3D模型的方法。我们通过学习一个深度网络，从每个单独的视图中重建3D对象，考虑到部分遮挡，并明确分解视点变化和物体变形的影响来实现这一目标。为了实现这种分解，我们引入了一种新的正则化技术。我们首先证明，如果且仅如果存在一种特定的重建形状的规范化函数，那么分解是成功的。然后，我们与重建网络一起学习规范化函数，这使得结果保持一致。我们在Up3D和PASCAL3D+等多个基准测试上展示了不使用真实3D监督的方法的最先进的重建结果。01. 引言0通过捕捉物体的多个同时图像，可以避免变形。然而，这需要昂贵的硬件，包括多个成像传感器，并且只能提供物体的瞬时3D重建，而无法对其进行变形建模。提取变形模型需要建立瞬时3D重建之间的对应关系，通常通过物理标记来实现。现代系统（如Panoptic Studio[14]）可以在没有标记的情况下对齐3D重建，但需要复杂的专用硬件，使其不适用于专门实验室之外的使用。因此，在本文中，我们考虑了仅给出无约束单眼视图和关键点注释的情况下重建和建模3D可变形物体的问题。传统上，这个问题被认为是静态场景重建的推广，并通过扩展结构运动（SFM）技术来解决。由于它们的传统，这些非刚性SFM（NR-SFM）方法通常侧重于问题的几何方面，但重建的质量也取决于对物体形状和变形的统计建模能力。0� 作者贡献相等。76890我们认为现代深度学习技术可以在非刚性结构运动（NR-SFM）中使用，以捕捉比传统方法中简单的低秩约束更好的数据统计模型。因此，我们提出了一种在学习模型的同时重建3D对象的方法。这个网络受到最近的方法[21, 16, 30, 10,18]的启发，这些方法可以根据物体的单个视图准确地将2D关键点提升到3D。不同之处在于，我们的网络不需要3D信息进行监督，而是与从2D关键点进行的3D重建联合训练。我们的模型名为C3DPO，有两个重要的创新。首先，它通过分解视点变化和物体变形的影响来进行3D重建。因此，它在一个规范帧中重建3D对象，该帧注册了整体的3D刚体运动，并将仅剩下的变化归因于物体内部的运动。然而，正确实现这种分解是非常困难的，正如NR-SFM文献[40]中广泛指出的那样。我们的第二个创新是解决这个问题的方法。我们观察到，如果两个3D重建在刚体运动下重叠，它们必须重合（因为重建网络应该消除刚体运动的影响）。因此，任何等效于刚体运动的3D形状类别最多只能包含一个规范重建。如果是这样，那么存在一个“规范化”函数，将每个等效类别中的元素映射到这个规范重建。我们利用这个事实，通过与重建网络一起学习一个执行这种规范化的第二个网络，从而对解决方案进行规范化。实验证明，这些创新使得我们能够非常有效和稳健地对非刚性物体进行重建和建模，从无约束的2D关键点数据中获得3D可变形物体。我们将C3DPO与几种传统的NR-SFM基线方法以及其他使用深度学习的方法[16,21]进行比较。我们在包括Human3.6M、PASCAL3D+和SyntheticUp3D在内的多个基准测试上进行了测试，结果表明我们的方法在不使用真实3D信息的情况下取得了优越的结果。02. 相关工作0有几个研究方向致力于解决从2D观测中恢复变形物体的3D形状和视点的问题。本节介绍了NR-SFM和最近基于深度学习的方法的相关工作。0NR-SFM。有几种解决NR-SFM问题的方法可以从多个帧的2D关键点恢复变形物体的视点和3D形状[4, 6, 5,9]，其中大部分基于Bregler的分解框架[6]。然而，NR-SFM问题严重不受约束，因为相机和3D物体都随着物体的变形而移动。0这在正确分解视点和形状[40]以及观测值中的缺失值方面提出了挑战。关于形状和相机运动的先验被用来改善问题的条件，包括在空间域中使用低秩子空间[3, 11, 9,43]，例如，将2D关键点轨迹拟合到一组预定义的DCT基函数[4, 5]，时空域[1, 12, 22,23]，多个低秩子空间的并集[43,2]，从3D动作捕捉数据中学习一个过完备的基础形状字典，并对基础系数施加L1惩罚[41,42]，以及对形状系数施加高斯先验[33]。0然而，我们经验证明，这些方法中的许多方法不具有可扩展性，只能可靠地重建数千张图像和数百个关键点的数据集。此外，其中许多方法要求从单目视图或多视图相机中的多个图像中获得相同实例的关键点对应。最后，与我们的方法相比，使用上述方法在固定的训练形状集合上训练后，重建新的测试样本是困难或计算上昂贵的。0类别特定的3D形状。还有一些与视觉对象类别（如汽车或鸟类）的形状重建方法相关的方法。[8]是一项早期的工作，它从2D关键点和分割掩模中学习了海豚的可变形模型。Vicente等人[37, 7]使用类似的监督方法重建了PASCALVOC的类别。管道的一个重要部分是一个初始的SFM算法，它返回每个对象类别的平均形状和相机矩阵。类似地，Kar等人[18]利用NR-SFM方法重建了来自PASCAL3D+的类别。[27]提出了第一个纯粹基于图像的单视图刚性对象类别重建方法。最近，Kanazawa等人[16]训练了一个能够学习可变形对象的形状和纹理的深度网络。上述方法的共同之处在于它们依赖于初始的SFM/NR-SFM步骤，而这些步骤通常会失败。我们的方法通过在单步中学习单目形状预测器来克服这个问题，而无需任何额外的、可能不可靠的预处理步骤。0弱监督的3D人体姿势估计。我们的方法与将2D人体骨骼关键点提升到3D的弱监督方法相关。除了完全监督的方法[25,26]，还有几种方法探索了多视图监督[20, 29,31]，序数深度监督[28]，不成对的2D-3D数据[30, 36, 41,15]或视频[17]来减轻对完整2D-3D注释的需求。虽然这些辅助的监督来源可以产生令人信服的3D预测，但在这项工作中，我们只使用了廉价的2D关键点标签。̂x1y1v1x2y2v2⋮⋮⋮xNyNvN ̂̂̂̂̂̂76900分解网络0视点参数0� RX n ℓ 2 ( ψ )0ℓ 1 ( ϕ ) R ( θ n ) X n0ϕ0ψ0θ n0规范化网络随机旋转02D关键点和可见性0重投影损失重投影的关键点相机坐标中的重建0规范化损失形状系数旋转后的3D形状具有规范视点的3D形状形状基0形状0系数0（Y_n，v）0α_nX_n = (α_n � I3)S0�α_n0�X = (�α_n � I3)S0X_n�X_n0vY_n v�Y_n0�Y_n = ΠR(θ_n)X_n0图2：C3DPO的概述。下部分通过最小化重投影误差ℓ1来学习单目3D重建。上部分通过规范化损失学习视点和内部变形的分解。0与我们的监督方案更接近的是，[21,10]最近提出了一种方法，将3D提升的关键点旋转到新视角，并使用对抗网络验证生成的投影与可行的2D姿势分布。然而，这两种方法都要求每一帧中的所有关键点都可见。这限制了它们在“多视图”数据集（如Human3.6M）中的使用。除了2D关键点，[10]还使用内在相机参数和3D真值数据生成新的合成2D视图，这导致在更大的监督程度下获得更好的定量结果。总之，我们的贡献与先前的工作不同，因为它：1）仅使用单幅图像中的2D关键点在测试时恢复3D规范形状和视点，2）使用新颖的自监督约束正确分解3D形状和视点，3）可以处理遮挡和观测值缺失，4）在多个物体类别上有效工作。03. 方法0我们首先总结一些关于SFM和NR-SFM的背景知识，然后介绍我们的方法。03.1. 结构运动0结构运动（SFM）的输入是表示刚性物体的N个视图yn =(yn1,...,ynK)∈R2×K的2D关键点元组，表示结构X =(X1,...,XK)∈R3×K和N个刚性运动(Rn,Tn)∈SO(3)×T(3)之间的关系。视图、结构和运动之间的关系由方程ynk =Π(RnXk + Tn)表示，其中Π：R3→R2是相机投影函数。0投影函数。为了简化阐述，我们考虑正交相机。在这种情况下，投影函数是线性的，由矩阵Π = [I20]给出，其中I2∈R2×2是2D单位矩阵，投影方程y_nk =ΠR_nX_k +ΠT_n也是线性的。如果所有关键点都可见，它们可以与结构一起居中，从这个方程中消除平移（详见补充材料）。这导致简化的方程系统y_nk = M_nX_k，其中M_n =ΠR_n是相机视角矩阵或视点。方程可以以矩阵形式写为0Y =0�0�0y11...y1K......yN1...yNK0�0��，M 0�0�0M1...MN0�0��，Y∈R2N×K =M∈R2N×3X∈R3×K。0（1）因此，SFM可以被表述为将视角Y分解为视点M和结构X。这种分解不是唯一的，导致轻微的重建模糊性，如补充材料中所讨论的。03.2. 非刚性结构运动0非刚性结构运动（NR-SFM）问题与结构运动（SFM）问题类似，只是结构Xn允许从一个视角到下一个视角发生变形。只有在某种程度上对这些变形进行约束才可能获得非平凡的解。最简单的约束是线性模型Xn = X(αn;S)，其中结构Xn表示为视角特定姿态参数αn∈RD和视角不变的形状基S∈R3D×K：0X(αn;S)=(αn�I3)S(2)�76910其中αn是一行向量，�是Kronecker积。我们可以将方程扩展到单个点上，如Xnk=�Dd=1αndSdk，其中Sdk∈R3是子向量S3d−2:3d,k的简写。我们还可以将其扩展到所有点和姿态，如X=(α�I3)S∈3N×K，其中α∈RN×D0给定点的多个视图，NR-SFM的目标是从观测中恢复视图、姿态和形状基础，即y nk = Π(R n � D d =1 α nd S dk + Tn)。与SFM一样，对于正交投影，可以通过居中来从方程中去除平移，并且NR-SFM可以表示为多线性矩阵分解问题：0Y∈2N×K=¯M∈2N×3N(稀疏)(α∈ND�I3)S∈3D×K，(3)0其中N个相机视图矩阵包含在块对角矩阵¯M=diag(M1,...,MN)中。与SFM一样，这种分解存在一些模糊性，见补充材料。03.3. 单目运动和结构估计0一旦学习到形状基础S，模型(3)可以用于根据物体的单个视图Y重建视点和姿态，从而实现单目重建。然而，这仍然需要解决矩阵分解问题。对于C3DPO，我们提出学习一个映射Φ，以前馈方式进行这种分解，从关键点Y中恢复视图矩阵M和姿态参数α：0Φ: R2K×{0,1}K→RD×R3，(Y,v)→(α,θ)。0这里，v是一个布尔标志（行向量），表示该特定视图中关键点是否可见（如果关键点不可见，则标志以及该点的空间坐标都设置为零）。该函数输出D个姿态参数α和三个参数θ∈R30相机视图矩阵M(θ)的定义为M(θ)=ΠR(θ)，其中旋转由R(θ)=expm[θ]×给出，expm是矩阵指数，[∙]×是帽子算子。使用学习到的映射的好处是除了速度外，它还可以体现关于对象结构的先验信息，这在线性模型中是不明显的。映射本身通过对可见关键点的损失进行平均来学习，从而最小化重新投影损失：0ℓ1(Y,v;Φ,S)=10K0k=1 vk ∙ ∥Yk−M(θ)(α�I3)Sk,k∥�，01 +(∥z∥/�)2−1)，�是带有软阈值�1的伪Huber损失。给定一个01在所有实验中，我们将�设置为0.01。0输入的2D关键点位置Y：0使用Ψ训练的预测规范形状X=Φ(Y)：0没有Ψ训练的预测规范形状X=Φ(Y)：0图3：规范化网络Ψ的效果。每列显示输入到姿态预测网络Φ的2D姿态Y（顶部）以及在使用Ψ进行训练时的预测的3D规范形状X=Φ(Y)（中间）和不使用Ψ进行训练时的预测（底部）。观察到使用Ψ进行训练提供了更稳定的规范形状预测X，当输入姿态围绕相机y轴旋转时。0通过最小化该损失的经验平均值来训练神经网络Φ，其中数据集(Y,v)∈D是物体类别的视图。该设置在图2的下半部分中说明。03.4. 通过规范化实现一致的分解0NR-SFM中的一个挑战是将物体的3D形状的变化分解为视点变化（刚性运动）和内部物体变形的模糊性[40]。在本节中，我们提出了一种新的方法，直接鼓励重建网络Φ在进行重建时保持一致。这意味着网络不能产生仅通过刚性运动而不同的两个不同的3D重建，因为这样的差异应该被解释为视点变化。形式上，设X0是网络获得的所有重建X(α;S)的集合，其中参数(α,θ)=Φ(Y,v)通过考虑物体的所有可能视图(Y,v)获得。如果网络一致地分解视点和姿态，那么就不可能存在两个不同的重建X，X'∈X0，它们仅通过视点变化相关，即X'=RX。这通过以下定义形式化：0定义1. 如果对于集合 X 0 中的任意一对结构 X, X ′，它们通过一个旋转相关联，即 X ′ = RX ，那么 X = X ′。0横截性还可以解释为：旋转将结构空间 R 3 × K划分为等价类。我们希望重建是唯一的，即在每个等价类中只有一个唯一或规范的元素。对于重建集合 X 0，具有每个等价类的唯一或规范元素的集合也称为横截集合。引理1通过以下特性来捕捉这一思想（证明见补充材料）：ℓ2(X, R; Ψ) = 1∥X:,k − Ψ(RX):,k∥ǫ,(5)ℓ3(Y, v; Φ, S)= 1vk·∥rzYk−M(θ′)(α⊗I3)S:,k∥ǫ(6)We consider three diverse benchmarks containing im-ages of objects with 2D keypoints annotations. The datasetsdiffer by keypoint density, object type, deformations, andintra-class variations.Synthetic Up3D (S-Up3D) We ﬁrst validate C3DPO ina noiseless setting using a large synthetic 2D/3D dataset ofdense human keypoints based on the Unite the People 3D(Up3D) dataset [24].For each Up3D image, the SMPLbody shape and pose parameters are provided and are usedto produce a mesh with 6890 vertices. Each of the 8515meshes is randomly rotated into 30 different views and theorthographic projection of each vertex is recorded alongwith its visibility (computed using a ray tracer). The goalis then to recover the 3D shapes given the set of 2D key-point renders. We maintain the same train/test split as in theUp3D dataset.Similar to [24], performance is evaluated on the 79representative vertices of the SMPL model.AlthoughC3DPO can reconstruct the original set of 6890 SMPLmodel keypoints effortlessly, we evaluate on a subset ofpoints due to a limited scalability of some of the base-lines [33, 11]. For the same reason, we further randomlysampled the generated test poses to 15k images. Perfor-mance is measured by averaging a 3D reconstruction errormetric (see below) over all frames in the test set.PASCAL3D+ [39] Similar to [16, 35], we evaluate ourmethod on the the PASCAL3D+ dataset which consists ofPASCAL VOC and ImageNet images for 12 rigid objectcategories with a set of sparse keypoints annotated on eachimage (deformations still arise due to intra-class shape vari-ations). There are up to 10 CAD models available for eachcategory, from which one is manually selected and alignedfor each image, providing an estimate of the ground truth3D keypoint locations. To maintain consistency betweenthe 2D and 3D keypoints, we use the 2D orthographic pro-jections of the aligned CAD model keypoints as opposedto the per-image 2D keypoint annotations, and update thevisibility indicators based on the CAD model annotations.Human3.6M [13] is perhaps the largest dataset of hu-man poses annotated with 3D ground truth extracted using76920在每个等价类中都有一个唯一或规范元素的集合也称为横截集合。定义1通过以下特性来捕捉这一思想（证明见补充材料）：如果集合 X 0具有横截性质，则可以构造一个具有重建集合 X 0作为值域的规范化函数，当且仅当该集合只包含规范元素，即具有横截性质（定义1）。对于C3DPO，该引理用于通过以下损失来强制执行一致的视点和姿态分解：0引理1. 如果集合 X 0 � R 3 × K具有横截性质，则存在一个规范化函数 Ψ : R 3 × K → R 3× K ，使得对于所有旋转 R ∈ SO (3) 和结构 X ∈ X 0，有 X = Ψ( RX ) 。0直观地说，该引理表明，如果 X 0具有横截性质，则其元素的任何旋转都可以明确地撤销。换句话说，如果集合只包含规范元素，即具有横截性质（定义1），则可以构造一个值域为重建集合 X 0的规范化函数。对于C3DPO，该引理用于通过以下损失来强制执行一致的视点和姿态分解：0K0K �0其中 R ∈ SO (3) 是一个随机采样的旋转，Ψ是与分解网络 Φ 并行训练的回归规范化网络。正则化器 ℓ 2(eq. (5)) 与重投影损失 ℓ 1 (eq. (4))结合如下（图2）：给定一个输入样本 Y n ，我们首先通过Φ( Y n , v ) 将其传递，以生成视点和姿态参数 θ n 和 α n，它们进入重投影损失 ℓ 2 。此外，对生成的结构 X n = X( α n ; S ) 应用一个随机旋转 ˆ R ，并将 ˆ RX n传递给辅助规范化神经网络 Ψ 。然后，Ψ通过预测形状系数 ˆ α n 来撤销 ˆ R ，从而产生一个形状 ˆX n = X (ˆ α n ; S )，该形状应尽可能精确地重建未旋转的输入形状 X n。这通过将 ˆ X n 和 X n 传递给损失 ℓ 2 来实施。两个网络Φ 和 Ψ 通过最小化 ℓ 1 + ℓ 2并行训练，这鼓励学习一致的视点-姿态分解。损失的效果如图3所示。03.5. 平面旋转不变性0旋转等变性是分解网络的另一个可以用来约束学习的属性。设 Y = Π RX 是3D结构 X的一个视图。围绕光轴旋转相机会将旋转 r z ∈ SO (2)应用到关键点上。因此，两个重建 Φ( Y, v ) = ( α, θ ) 和 Φ(r z Y, v ) = ( α ′ , θ ′ ) 必须产生相同的3D结构 α = α ′。这通过一个修改的重投影损失来捕捉，该损失将 α 替换为α ′ ：0K0K �0这导致了联合损失 ℓ 2 + ℓ 3（损失范围可比，且权重相等）。04. 实验0在本节中，我们将我们的方法与几个强基线进行比较。首先，介绍所使用的基准数据集，然后进行定量和定性评估。04.1. 数据集EM-SfM [33]0.1070.061GbNrSfM [11]0.0930.062C3DPO-base0.1600.105C3DPO-equiv0.1540.102C3DPO0.0680.040GbNrSfM [11]184.6111.3EM-SfM [33]131.0116.8C3DPO-base53.546.8C3DPO-equiv50.144.5C3DPO38.032.676930CMR0CMR0CMR0CMR0CMR0图4：在PASCAL3D+上比较我们的方法C3DPO-HRNet（红色）和CMR[16]（紫色）的定性结果。每列包含输入的单目2D关键点（顶部）和CMR将2D关键点提升到3D的结果（中间）以及我们的方法（底部）从两个不同角度观察的结果。0方法 MPJPE 压力0表1：在合成的Up-3D（S-Up3D）上比较我们的方法（C3DPO），NRSfM基线[33,11]和我们方法的两个变体（C3DPO-equiv，C3DPO-base），消除C3DPO各个组成部分的影响。0方法 MPJPE 压力0CMR [16] † 74.4 53.7 C3DPO + HRNet† 57.5 41.40表2：在Pascal3D的12个类别上比较我们的方法C3DPO与我们方法的两个消融（C3DPO-equiv，C3DPO-base）以及[11, 16,33]的方法。带†标记的方法在测试时预测3D形状时不需要知道地面真实的2D关键点。0MoCap系统。与[21]类似，使用数据集的两个变体：第一个包含训练和测试时的地面真实2D关键点，第二个使用[34]的堆叠沙漏网络获取2D关键点位置。我们紧密遵循[21]的评估协议，报告在没有任何Procrustes对齐的情况下测量的17个关节的绝对误差。我们保持与[21]相同的训练和测试分割，并报告每个动作类型的MoCap序列中每帧的平均误差。CUB-200-2011 [38]包含11,788张200个鸟类物种的图像0鸟类物种。每个图像都标注有15个语义关键点的2D位置和相应的可见性指示器。该数据集没有地面真实的3D关键点，因此我们只进行定性评估。我们使用[16]的2D注释。04.2. 评估指标0按照常规做法，报告绝对平均每个关节位置误差：MPJPE（X�，X）=� K k =1 ∥ X k − X � k ∥ /K，其中X k ∈ R3是第k个关键点的预测3D位置，X�k是其对应的地面真实3D位置（都在相机的3D坐标系中）。为了正确评估MPJPE，必须处理两种投影模糊。为了处理绝对深度模糊，对于Human3.6M，我们遵循[21]，通过应用将骨架根放置在坐标系原点的平移来归一化每个姿势。对于PASCAL3D+和S-Up3D，在评估之前，预测和地面真实点云的平均深度被归零。第二个深度翻转模糊如[33]所述解决，通过对原始和深度翻转的点云分别评估MPJPE两次，保留两者中较好的结果。我们还报告ℓ1应力（X，X�）=� i

下载后可阅读完整内容，剩余1页未读，立即下载