单目3D重建的弱监督方法：DensePose3D

68 浏览量更新于2023-10-13 收藏 1.98MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1带有2D DensePose注释的测试时单目3D网格重建DP3DDP3DDensePose 3D：铰接物体的正则曲面映射到三维的提升Roman Shapovalov David Novotny Benjamin Graham Patrick Labatut Andrea VedaldiFacebook AI Research图1：我们提出了DensePose 3D（DP3D），这是一种用于单眼网格恢复的方法，它利用了一种新的参数化网格连接模型。至关重要的是，该模型以弱监督的方式在不同姿势的人类或动物的单个视图的数据集上进行训练，并且由现成的预训练检测器生成其DensePose标签摘要我们解决的问题，单眼三维重建的铰接对象，如人类和动物。我们贡献的DensePose 3D，一种方法，可以学习这样的重建弱监督的方式从2D图像的年龄注释只。这与使用诸如在3D对象扫描的大数据集上预训练的SMPL的参数模型的先前可变形重建方法形成鲜明对比。因为它不需要3D扫描，所以DensePose 3D可用于学习广泛的人工分类，例如不同的动物物种。该方法以端到端的方式学习给定类别特定的3D模板网格到刚性部分的软分区以及预测部分运动的单目重建网络，使得它们正确地重新投影到对象的2D DensePose-like表面注释上。将对象分解成部分通过将部分分配表示为拉普拉斯-贝尔特拉米算子的平滑本征函数的组合来正则化。与最先进的非刚性结构运动基线相比，我们在人类和动物类别的合成和真实数据上都显示出显着的改进1. 介绍深度学习的最新进展已经在关节和可变形物体的单目3D重建中产生了令人不幸的是，虽然这些技术原则上是通用的，但它们的成功很难在其他类别中复制。在学习从图像重建3D对象之前，必须首先学习对象的可能3D形状的模型。对于人类，此类模型的示例包括SMPL [37]和GHUM [62]。构建这些需要随着时间的推移而变形和连接的物体的3D扫描的大型数据集，这些数据集必须用诸如圆顶的专用设备来获取。这种硬件不仅不常见、复杂和昂贵，而且即使不是不可能，也难以应用于许多感兴趣的物体，例如野生动物或甚至某些类型的可变形的无生命物体。然后，在建立合适的3D形状模型之后，仍然必须训练深度神经网络回归器，其可以在给定对象的2D图像作为输入的情况下预测形状参数[29，63，26]。监督这样一个网络又需要一个图像数据集与相应的地面实况3D形状参数配对。具有成对重建的图像在实践中也非常难以获得1172911730一些图像可以从已经用于首先构建3D模型的相同扫描仪获得，但是这些图像根据定义被限制为因此，虽然存在可以从互联网获得的各种对象类别的大量在本文中，我们感兴趣的是引导3D模型和单眼3D预测，而不使用图像与相应的3D注释，甚至不成对的3D扫描。幸运的是，其他的方式可以为重建提供强有力的线索例如，先前的工作[26，43，30，15]利用2D注释用于语义关键点以准确地重建各种对象类别。虽然这些关键点在稀疏图像位置提供监督信号，但DensePose [21，40，50]在人类或其他动物的图像与这些类别的3D模板之间提供密集的对应关系这些注释的示例在图1的左侧示出，其中颜色编码模板网格上的对应点的索引。可以将DensePose注释视为泛化稀疏关节位置，具有两个重要差异：密度高得多，并且在对象的表面上而不是在其骨架关节中定义对应。这样的密集注释可以手动地或利用在那些手动2D注释上预先训练的检测器来获得，具有与稀疏2D地标相同程度的灵活性和通用性，同时为学习对象的详细3D模型提供强得多的线索然而，这样的注释似乎没有被用于引导3D对象模型之前。因此，这项工作的主要目标是利用密集表面注释，例如由密集姿态提供的注释，以便在不使用任何3D监督的情况下学习3D对象类别的参数模型。如在[26，43，30，15]中所做的，我们进一步旨在学习深度神经网络预测器，该预测器将模型与包含感兴趣对象的单个2D我们的方法假设只有一个初始的刚性规范的3D模板的对象类别所产生的3D艺术家。这里没有损失一般性，因为首先需要模板的知识1因此，从实用的角度来看，我们在模型中包含了这个模板我们的主要贡献是一个新的参数化网格模型的关节对象类别，我们称之为密集姿态3D（DP3D）。在纯数据驱动的方式中，DP3D学习将初始刚性模板的顶点柔和地分配给多个潜在部分中的一个，每个潜在部分以刚性方式移动。然后通过一组每部分刚性变换13D模板被人类注释者用作标记对应关系的参考，并定义对象类别的规范表面映射。在SE（3）的对数空间中表示。为了对网格进行姿态调整，模板形状的每个顶点利用被定义为部件特定变换的凸组合的顶点特定变换为了防止不切实际的形状变形，我们强制执行的部分segmentation的平滑度，因此，顶点特定的偏移，通过表示部分分配作为一个截断的特征基的拉普拉斯-贝尔特拉米算子计算的模板网格，它沿着网格表面平滑地变化的函数。我们进一步正则化的网格变形与尽可能刚性（ARAP）软约束。DP3D以弱监督的方式进行训练，从某种意义上说，我们的管道（包括DensePose训练）不需要输入图像的3D注释。以端到端的方式，我们训练深度姿态回归器，给定从图像提取的DensePose图，该深度姿态回归器预测形状变形参数，相应地对网格进行姿态调整，并且最小化所设定的网格到图像平面的投影与输入2D DensePose标注之间的距离。我们表明，我们的方法不需要手动密集姿态注释的训练图像;它甚至可以从在不同数据集上训练的DensePose模型的预测中学习。通过这种方式，DP3D可以学习从包含不同姿势的无约束数据集推断人类和动物由于DP3D不直接使用图像，而仅使用DensePose注释或预测，因此它对对象外观统计数据的变化具有鲁棒性，这使得它适合于迁移学习。我们在人类姿势的合成数据集和流行的人类3.6M基准上进行实验，表明在阶段性人类3.6M上训练的模型可以推广到更自然的3DPW数据集。我们还将模型拟合到LVIS数据集中的动物类别。请注意，LVIS动物的学习重建将不可能使用任何需要3D监督的方法，因为没有可用于熊或斑马等物种的扫描或参数模型DP 3D比最先进的非刚性结构运动恢复（NR-SfM）基线产生更准确的重建，并与完全监督方法相媲美。2. 相关工作在本节中，我们回顾相关的现有技术：monocular人体网格重建、规范表面映射和非刚性SfM。基于图像的人体重建。用于从2D图像重建3D人体的流行方法是测试时间优化，其中通过最小化各种类型的能量将诸如SMPL [37]或SCAPE [611731k=1！！2k=1k=12[详细]222D关键点和掩模重投影损失[20，52，12，36，23、64、24、44、61]。或者，可以学习深度回归器，给定单个图像作为输入，该深度回归器直接预测3D形状模型的参数。大多数方法[7，39，48，54，29，38]仅重建稀疏的3D点集，通常对应于2D身体关节检测。HMR [25]和GraphCMR [29]回归，而不是完整的3D网格。Kolotouros等人[28]结合测试时优化和深度回归范例。Biggs等人[9]回归多个网格假设以处理单眼3D重建的固有模糊性。虽然这样的方法实现了最先进的单眼人类网格记录，但它们需要具有3D注释的大数据集来训练3D形状模型和回归量。相比之下，我们的方法仅使用2D图像注释进行训练。自我监督的3D人体姿势估计。其他方法旨在重建没有3D注释的3D身体骨架。一些作品利用多视图约束[27，46，47]，而Pavlakos等人。[45]假设常规深度监督。或者，对抗网络也可以用于在单目设置中从2D注释学习3D模型[31，17，14]。该想法是训练鉴别器，该鉴别器告知来自多个随机视图的重建的3D点的2D重投影是否合理。虽然这些方法工作得很好，但它们无法处理被遮挡的关键点，这使得它们不适合密集重建。正则曲面映射DensePose [21]可能是第一种预测从图像到人体参考3D模板（也称为典型表面图（CSM））的密集分配的方法它引入了一个具有手动标记对应关系的数据集以及一个新的深度网络架构，以从图像中回归密集后续工作引入了半监督学习[41]，并将人类对应转移到四足动物[50]。最近，Neverova等人[40]通过预测图像像素的规范点嵌入，将DensePose重新表述为非参数问题，这便于其应用于更广泛的可变形对象类别。其他旨在在有限或无监督的情况下学习CSM的作品：[56，55，51]通过使用诸如变换等方差的原理来这样做，而[33]强制与对象的初始3D模型保持一致。与我们的工作相关的是，它的发音感知变体[32]为四足动物等类别产生了规范的表面映射。该方法需要一个具有预定义骨架结构的分割模板网格;相反，我们学习到Bregler [13]提出将3D形状的可能变形表示为少量基本形状的线性组合，此后激发了许多后续工作[3，18，16，67，4，5，1，19，34，35，67，2，65，66，57]。传统上，这种方法提出了矩阵分解的问题，但最近出现了一些杠杆深度学习的替代方案DeepNRSfM [30，59]以及与我们的工作更相关的C3DPO [43]训练MLP，该MLP将2D关键点的矢量化列表映射到相机和形状参数，并最小化输入2D关键点和3D点复制之间的距离。虽然C3DPO可以很好地处理稀疏关键点，如人体关节，但正如我们在实验中所示，它无法处理重建网格所需的密集点集合。我们通过利用已知的类别级模板网格来学习与潜在骨架结构的接合相适应的变形来3. 方法我们的目标是学习从2D图像重建可变形对象（如人或动物）的3D形状，并且在没有3D监督的情况下这样做相反，我们只使用密集的2D对象点，这些对象点可以手动注释或通过诸如DensePose的方法进行预测，也称为规范表面图（CSM）。我们在第3.1节中总结了必要的CSM背景，然后讨论我们的方法。3.1. 标准曲面映射CSM [56，21，41，40，33，50，32]是相对于参考3D模板定义的，通常给出为具有顶点V=（Vk） KRK3. 对人类来说例如，公共参考网格是SMPL静止姿态（其由3D艺术家创建）。诸如DensePose的CSM将图像I：R的对象，并分配给每个像素y 在网格V中创建一个点，生成一个地图 V. 2虽然这是有用的信息，但它还不是图像中对象的3D重建，因为V是固定的参考模板。为了获得3D重建，我们需要通过找到其顶点的合适变形X=（Xk）KRK3来对模板进行姿态调整作为摆姿势过程中的第一步，我们RK2.由于在遮挡的情况下，顶点在图像中可能是不可见的，这阻止从CSM提取其2D位置y，k。因此，我们还定义可见性指示符Z=（zk）K2 {0，1}K。铰接结构自动关闭而无需监督。注意Yk=1也可以从已设定的网格中获得非刚性运动结构。NR-SfM与我们的工作相关，因为它的目标是从2D关键点注释重建可变形的3D对象。的开创性工作X和摄像机投影函数I为yk= I（Xk）。2在实践中，映射以V_bkg为单位取值，以允许将不属于对象的像素标记为背景。11732输入2D稠密正则映射多层感知器每零件刚性变换相机姿态不R3R所WeRMx Nu线性映射模板形状LBO特征基UeRNuxK不好零件分割逐顶点变形姿态模型规范化损失阿拉普损失h2elogSE（3）h3elogSE（3）SE（3）h1elogSE（3）熵损失剥皮重投影损失投影m=1X-X=P·g（g（V））。（2）kkmmk222i=1PM22图2：我们的方法概述。输入2D关键点Y被传递到预测全局和每部分刚性变换的网络Ø。LBO谐波用于回归软部分分割P。变换、零件分割以及模板网格V用于线性混合蒙皮以获得形状X。在训练期间，该形状进入重新投影、规范化和ARAP损失，而熵损失在部分分割上定义该计算完全不涉及CSM，并且如我们稍后所示，可以用于约束重建。3.2. 形状模型为了从2D注释重建对象的3D形状，我们必须定义一个形状模型，该模型约束可能的重建空间X。为此，我们假设潜在的对象，可以是人或其他动物，具有骨骼结构。在此假设下，物体的位姿由M个部件的刚性变换表示gm=（Rm，Tm）2SE（3），m= 1，. ......、M.（一）我们假设模板中的每个顶点Vk属于M个部分中的一个，其隶属强度为Pkm2 [0，1]，使得Pkm=1 。设定的顶点X由部件变换的线性组合给出，如线性混合蒙皮（LBS）中那样：M10m的m=1这里g〇mSE（3）代表第m部分的静止姿态。虽然我们不强迫这些部分具有特定的语义，但我们期望学习将刚性地一起移动的表面点（例如前臂上的所有点）接下来，我们解释我们如何鼓励这样一个解决方案的出现。部件分割。在定义了每顶点变形之后，我们现在将描述部件分割模型P = [Pkm] RKM。如前所述，与其他参数模型[37，6]不同，我们不需要预先分割的模板形状。相反，我们将部分分段P视为潜在变量，并与其余的模型参数。请注意，部分分割独立于特定的输入实例-这意味着一旦训练完成，部分分配保持不变。直观地说，限制零件的数量并将零件内的变形约束为刚性变形，应该会迫使模型将根据相同刚性变换移动的顶点分组到同一零件中。使用LBO平滑分割。虽然我们已经将模板的变形减少到少量部分（M= 10）的刚性运动，但是模板顶点到不同部分的分配仍然可以是不规则的，这可能导致不现实的身体变形。我们通过强制零件分配P平滑来解决这个问题。结合EQ。（2），这也鼓励模板的变形是平滑的。我们形式化这种直觉，要求部分分配- mentP是一个光滑的功能，在网格表面上。这可以通过确保P仅包含“低频”分量来实施。形式上，这是通过将P表示为拉普拉斯-贝尔特拉米算子（LBO [49]）的选定本征函数的线性组合来实现的，如图3所示。更详细地，考虑参考模板网格V的LBO的离散近似Δ。令uiRK是按递增特征值幅度排序的∆的（正交）特征向量，并且令U =（ui）NuRKNu是包含Nu个第一特征向量的矩阵。我们将部件分割定义为P=softmax（UW），（3）其中WRNuM是一个参数矩阵，softmax是相对于零件索引k取的。平滑度可以通过减小Nu或通过以减小的幅度初始化W=[W_im]来进一步增加P=softmax（WU）11733Xhi2·米1/2N0！ ⇥0m的--XXP（七）m0K网格顶点Vk与相应的barycells的面积ak，以使损失重采样不变。失典。C3DPO [43]的作者提出了规范化损失，以消除恢复相机姿势和3D重建中的模糊性，这也有助于过拟合。这个想法是学习一个辅助网络工作X（XR〜），任务是撤消随机旋转应用于点云X（在对象中定义图3：我们将每顶点变形表示为模板形状的拉普拉斯-贝尔特拉米本征基的线性映射该图示出了人类模板网格的LB算子的12个最重要的这些顶部本征函数沿表面平滑地变化坐标）。Novotny等人[43]证明，只有当预测的形状X确实是正则w.r.t.时，这种损失才能最小方向，这意味着模型无法预测两个不同的重构（X（1，X（2）），它们仅相差a刚性变换具体而言，损失表述为：KLcanon=-X-upgraph（XR）（6）k=1K网格，其强制相邻每个的相似性顶点变换，导致自然的网格变形。其中R〜R3〜3是随机旋转矩阵，并且[]kex-tracts其自变量的第k具体来说，我们使用Xavier初始化的变体并设置Wims（0，e xp（-i/σ′））。这在训练开始时将模型集中在低频谐波上。变换预测器。给定输入的2D关键点位置Y和顶点Z，我们训练多层神经网络（MLP）来预测（M+ 1）个刚性部件变换：ARAP损失。为了进一步增加重建的鲁棒性，我们鼓励模板形状的变形尽可能刚性（ARAP）[53]。这在输入DensePose注释有噪声且有偏差时特别有用，这是常见的情况。ARAP测量将模板网格V变形为所设定的网格X的成本：X X¨m=0我们在对数空间中表示变换，这意味着k=1R2SO（3）q2N（k）{hm}=Ø（Y，Z）。（四）Larap（X;V）=min wkqV~-X~R¨，kqkq（Rm，Tm）= gm= exp（hm）其中exp：R6R3303 R3是SE（3）的指数映射;详见[11]。注意，我们估计额外的全局变换h0;这是用于将在对象参考系中表达的姿势形状重新投影回图像的相机姿势（参见等式10）。（5））。还应注意，eq.（2）求在静止g-1处的逆部变换，它们是作为规范姿态角wr2RM6的对数学习因此8m：g0-1=exp（wrm）。3.3. 培训其中N（k）表示相邻模板顶点的索引，Vk~q=VqVk，Xk~q=XqXk，权重wkq为与入射到边缘kq的面的面积成比例地定义;细节参见[53]。我们通过估计的坐标Xk和Xq反向传播误差，但在拟合旋转R之后停止梯度。熵正则化有时，模型倾向于将多个零件索引指定给单个顶点，这使得变形过于刚性。因此，我们通过使用以下损失惩罚每个顶点的部分分布的熵来正则化我们训练MLP（4），将2D点映射到姿势K M参数，以及部件分割模型（3），通过com-承受着一系列的损失1L熵=-KPkmk=1m=1log Pkm.（八）重投影损失。第一个损失可确保设定姿势的网格正确地重新投影到2D点上：学习公式化。为了训练该方法，我们优化了网络的参数Ø、和矩阵W（等式1）。（3）最小化损失的加权组合Lrep=Kk=1 zkakkyk-∠（XkR0+ T0）k、（五）以上：MPKk=1 zkak11734其中Xk和（R0，T0）是通过将姿态回归器（4）与蒙皮函数（2）组合而获得的。我们称损失权重w被视为超参数，有关用于实验的值，请参见L= L rep +w熵L熵+w canon L canon +w arap L arap。（九）11735PKk=1NJi=1Pk-kk-k4. 实验我们评估我们的重建质量的人类和动物的数据，合成和真实的，然后消融各种组件。我们将我们的结果与C3DPO [43]进行比较，因为它是在与我们兼容的假设下工作的性能最佳的非刚性SFM网络和培训的实施细节在 sup. mat. 我们将分享Pytorch代码。4.1. 数据集和指标UP-3D和斯坦福狗首先，我们在两个干净的合成数据集上评估该方法：UP-3D（人类）和Stan- ford Dogs。UP-3D [36]包含SMPL适合在30个随机视点下渲染的8515个人的照片。我们正交投影网格顶点，并将其地面真实可见性和顶点标识直接输入到DP3D（而不是使用DensePose进行UV提取）。对于Stan-ford Dogs，我们遵循UP-3D，并使用SMALify [10]在StanfordExtra数据集[8]中提供的掩码和2D关键点注释我们以这种方式获得了6511个训练和4673个测试实例。请参阅sup。mat.以获取更多详细信息。我们报告的平均每关节位置误差（MPJPE）的重建。由于我们对于每个测试实例具有使用所有k个点（不仅是可见点）的XR0+T0：MPJPE（X¯，X）=1KX¯kXk. 因为通过正-图形投影深度只有一个常数，在计算损失之前，我们通过从X和X¯中减去其平均值来归一化深度我们使用原始的train/test拆分。Human 3.6M由7个人的真实图像组成，这些人配备了运动捕捉传感器，在实验室环境中执行各种任务。数据集提供3D关节的位置，而不是整个身体表面。因此，出于评估目的，我们计算NJ=14个关节（RE14）的平均重建误差。为了从设定的网格X中获得关节的位置J，我们从SMPL模型[ 37 ]中运行预先训练的线性关节回归器：如果得到的关节是正确的我们严格地对齐点集，并在计算度量：RE（J，J）=mins，R，T1NJ（sJiR+T）Ji.为了训练，我们以每秒10帧的速度对视频进行为了评估，我们使用称为“方案#1”的方案。测试集视频以25 FPS采样，得到109，792张图像。我们在所有图像上独立地运行Detectron 2 [60]的预训练的DensePose检测器以获得输入UV注释，然后将其转换为SMPL顶点的2D投影，如第3.1节所述。我们使用标准的训练/测试分割，列出受试者9和11的所有图像进行测试。方法UP-3DH3.6M3DPW狗HMR [25]-56.881.3-[29]第二十九话-50.170.2-[28]第二十八话-41.859.3-多机构[9]-46.159.9-C3DPO [43]107.0216.6199.9345.1没有佳能。损失（6）183.6135.4120.3241.4无ARAP丢失（7）242.6154.8126.1371.8无熵损失（8）113.8119.499.1505.2无零件模型205.9125.0102.3684.3DP3D（我们的）91.2113.695.2247.1表1：报告UP-3D和犬数据集上的平均每个关节位置误差（MPJPE）以及人体3.6 M和3DPW上的重建误差（RE）的网格重建评价该表的前半部分示出了使用3D监督的方法的结果然后将DP3D与应用于密集关键点并消融的C3DPO [433DPW 。我们在迁移学习环境中评估了 DensePose3D，在Human 3.6M上进行了训练，并在3DPW上进行了评估[58]。DP3D采用关键点作为输入，因此不受外观变化的影响并且概括性很好，如表1和图6中所示。我们遵循与人类3.6M相同的评价方案，比较14个关节的RE。LVIS。最后，我们将我们的模型拟合到包含“在野外”拍摄的动物图像的LVIS数据集[22]这项任务更具挑战性，因为每个类别仅包括大约2000个训练实例，其中许多具有遮挡部分。为了获得输入关键点和可见性（Y，Z），我们以与DensePose类似的方式使用CSE[40]预处理图像。CSE的输出比DensePose的输出噪声更大，因此我们预测重投影损失的异方差（5），并最大化拉普拉斯分布的对数似然，如Novotny等人所做的那样。[42]; see up. mat.有关预处理和损失的详细信息。由于没有3D地面实况，我们在图7中仅提供定性结果。4.2. 与基线的我们将我们的方法与 C3DPO [43]进行比较，在C3DPO中，我们使用10维基并在区间[0.1，1]中找到规范化损失的最佳强度。结果见表1和补充图。注意，我们在密集关键点（即，6890个输入点），而[43]在17个稀疏关节上训练，这使得表1的结果与[ 43 ]中的结果不可比较。UP-3D和Dogs是挑战性较小的数据集，具有干净的2D关键点和很少的极端姿势，因此C3DPO的简单线性姿势模型仅略逊于DP 3D。相比之下，人类3.6M和3DPW的差距较大：C3DPO输出的平11736均位姿无法适应数据。11737⌦⌦2图4：UP-3D的定性比较。该图显示了输入关键点（颜色编码关键点索引），C3DPO [43]和我们的方法（DP3D）的重建，其中颜色对应于学习的部分分割。图5：斯坦福犬的结果。第一行示出了通过投影来自最后一行的SMAL拟合而获得的输入关键点，中间行示出了无部件基线的结果以及我们从相机的和从替代视点的重建的结果4.3. 消融研究删除损失函数。我们在表1中报告了移除各种正则化器的效果。每一个都很重要：规范化损失防止预测退化的平坦形状; ARAP损失使得预测平滑，并且通过鼓励局部刚性来帮助学习平滑部分分割;熵损失使得部分分割更清晰，从而允许形状更多地弯曲。删除基于零件的模型。C3DPO在密集点云上工作不佳的两个原因是：（1）学习数千个点的非常大的线性预测器可能导致过拟合，或者（2）线性模型可能无法捕获表面变形。我们通过将我们方法中的发音模型替换为类C3DPO线性基。为了减少基中的参数数量，我们将其表示为LBO基U的函数（第3节），并将构成的网格定义为X=（I3）WbU，其中WbRDNu 是可训练是形状系数的D是克罗内克积，并且I3是三维单位矩阵。我们使用EQ进行训练。（9）但须移除该引擎─熵损失（8）（因为该模型没有部件）。我们设置混合变形的数量D =10，并在[0.1，1]范围内找到规范化损失的最佳权重。表1中的倒数第二行揭示了正确的假设。没有零件的模型表现明显优于C3DPO，证明过拟合在很大程度上解释了C3DPO的性能差。然而，无零件模型仍然不能达到DP3D在GT SMAL配合DP3D（我方）不含部件DP3D（我方）C3DPO [43]GT SMAL配合不含部件DP3D（我方）DP3D（我方）C3DPO [43]GT SMAL配合DP3D（我方）不含部件DP3D（我方）C3DPO [43]GT SMAL配合不含部件DP3D（我方）DP3D（我方）C3DPO [43]11738图6：人体3.6M（左侧两张图像）和3DPW（右侧两张图像）的定性评价。从上到下：输入图像和关键点，重建与线性模型，而不是部分分割，和所提出的方法。图7：LVIS的定性评价。从上到下：输入图像和关键点，用线性模型代替部分分割的重建，以及所提出的方法，其中颜色对应于学习的部分分割。真实世界数据（第2列和第3列），这意味着后者比使用普通线性混合变形更有效。值得注意的是，无部件模型在合成数据集上表现良好，其中通过投影从参数模型获得的3D位置来模拟DensePose注释，这可能是因为，尽管具有高维度，但数据的在图5至图7中的视觉结果中，差异更加明显。在大多数情况下，线性模型会产生对称的形状，无论输入如何，这些形状往往都是相似的，而带有零件的DP3D可以更准确地重建手臂的运动。潜在部件的数量。图8测量作为人类数据集上的潜在部分M的数量的函数的重构误差如从人体解剖学所预期的，该方法需要至少5个部分来对身体的关节进行10个部件后指标稳定。局限性和稳健性。DensePose 3D只能与DensePose或CSE提供的训练注释一样好。晚餐垫，我们研究训练对注释噪声、随机稀疏性（对于手动注释是典型的）和丢失的身体部位（由遮挡引起）的敏感5. 结论我们提出了一种方法，学习3D可变形形状重建给定只有一个单一的艺术家生成的刚性模板网格和密集的2D关键点注释，而不需要3D监督与可变形形状模型或3D姿态回归，这是很难获得的大多数对象类别。因此，我们将DP3D应用于缺乏这种3D注释的重建动物。图8：重建质量w.r.t.零件的数量DP3D（我方）DP3D（我方）不含部件不含部件DP3D（我方）不含部件DP3D（我方）DP3D（我方）不含部件不含部件DP3D（我方）不含部件DP3D（我方）DP3D（我方）不含部件不含部件11739引用[1] Antonio Agudo和Francesc Moreno-Noguer。尘埃：用于单目多目标3d重建的时空子空间的双重联合。在IEEE会议Comput. 目视模式识别，第6262-6270页，2017年。3[2] Antonio Agudo和Francesc Moreno-Noguer。可变形通过正则化子空间的并集进行运动3D重建在IEEE国际Conf. 图像处理。，第2930IEEE，2018年。3[3] 安东尼奥·阿古多梅尔西奥·皮琼弗朗切斯科·莫雷诺没有图像集合弹出窗口：刚性和非刚性类别的3D重建和聚类。在IEEE会议Comput. 目视模式识别，第26073[4] Ijaz Akhter 、 Yaser Sheikh 、 Sohaib Khan 和 TakeoKanade。轨迹空间中运动的非刚性结构。在高级神经信息。过程系统，2009年。3[5] Ijaz Akhter 、 Yaser Sheikh 、 Sohaib Khan 和 TakeoKanade。轨迹空间：非刚性结构运动的对偶表示。IEEE传输模式分析马赫内特尔，33（7）：1442-1456，2011. 3[6] DragomirAnguelov ， PraveenSrinivasan ， DaphneKoller，Se-巴斯蒂安·特伦吉姆·罗杰斯和詹姆斯·戴维斯SCAPE：人的形状完成和动画。 ACM Trans. on Graphics（TOG），2005. 二、四[7] D. Anguelov，P.斯里尼瓦桑D.Koller，S.Thrun，J.罗杰斯和J·戴维斯。SCAPE：人的形状完成和动画。ACMTrans. on Graphics，2005. 3[8] 本杰明·比格斯奥利弗·博因詹姆斯·查尔斯安德鲁Fitzgibbon和Roberto Cipolla。谁把狗放外面了？：循环中期望最大化的3D动物重建。在ECCV，2020年。6[9] 本杰明·比格斯，大卫·诺沃特尼，塞巴斯蒂安·埃尔哈特，汉-byul Joo，Ben Graham，and Andrea Vedaldi. 三维多体：将合理的3d人体模型组拟合到模糊的图像数据。神经信息处理系统的进展，33，2020。三、六[10] 本杰明·比格斯，托马斯·罗迪克，安德鲁·W. 菲茨吉本和罗伯托·西波拉伟大的和微小的生物：从视频中恢复动物的形状和运动在proc ECCV，2018年。6[11] 何塞·路易斯·布兰科SE（3）转换参数教程-和流形上优化。技术报告，2010年。5[12] Federica Bogo，Angjoo Kanazawa，Christoph Lassner，Pe-ter V. Gehler，Javier Romero，and Michael J.黑色.保持SMPL：从单个图像自动估计3D人体姿势和在Proc.ECCV，2016中。3[13] Christoph Bregler，Aaron Hertzmann，Henning Bier伙计。从图像流中恢复非刚性3D形状。在Proc.CVPR，2000中。3[14] Ching-Hang Chen ， Ambrish Tyagi ， Amit Agrawal ，Dylan Drover，Stefan Stojanov，and James M Rehg.具有几何自监督的无监督3d姿态估计。在IEEE计算机视觉和模式识别会议的论文集，第5714-5724页，2019年。3[15] 陈文正桓灵，高俊：爱德华·史密斯Jaakko Lehtinen、Alec Jacobson和Sanja Fidler。学习使用基于插值的可区分渲染器预测3d对象。神经信息进展切割系统，第9609-9619页，2019年。2[16] 戴玉超，李红东，何明义。非刚性结构运动分解的一种简单的无先验方法。International Journal of ComputerVision，107（2）：1013[17] 迪伦牛仔罗伊斯 MV，清铿 Chen，AmitAgrawal，Ambrish Tyagi，and Cong J.Huynh. 3D姿势可以单独从2D投影中学习以Eur. Conf.Comput.目视，2018年。3[18] 卡特琳娜·弗拉基亚达基，玛尔塔·萨拉斯，巴勃罗·阿贝莱斯，和吉坦德拉·马利克.基于分组的低秩轨迹完成和3D重建。在高级神经信息。过程系统，第55-63页，2014。3[19] Paulo FU Gotardo和Aleix M Martinez.非刚性结构与互补秩3空间的运动。在IEEE Conf. Comput.目视模式识别，第3065IEEE，2011年。3[20] P. Guan，广枣A.Weiss，A.O. Balan和M.J. 黑色. 从单个图像估计人体形状和姿势在Int. Conf.Comput.目视，2009年。3[21] Ri z aAlpGuüler，N a taliaN ev er ov a，andIasonasKokkinos.DensePose：在野外进行密集的人体姿势估计。在Proc.CVPR，2018中。二、三[22] 阿格里姆·古普塔，皮奥特·多勒，罗斯·格希克。 LVIS：A大词汇实例分割的数据集。在IEEE计算机视觉和模式识别会议上，2019年。6[23] 黄英豪走向精确的无标记人体形状以及随时间的姿态估计。InProc. 3DV，2017. 3[24] Hanbyul Joo Tomas Simon和Yaser Sheikh Total capture：用于跟踪面部、手部和身体的3D变形模型在Proc.CVPR，2018中。3[25] 作者：Michael J.作者：David W.雅各布斯，还有吉坦德拉·马利克端到端恢复人体形状和姿势。在IEEE会议Comput. 目视模式识别，2018年。三、六[26]放大图片作者：Angjoo Kanazawa，Shubham Tulsiani，Alexei A.埃夫罗斯，还有吉坦德拉·马利克从图像集合学习特定类别的网格欧洲计算机视觉会议，第386-402页，2018年。一、二[27] Muhammed Kocabas、Salih Karagoz和Emre Akbas。自我-使用多视图几何学的3D人体姿势的监督学习。在IEEEConf. Comput.目视模式识别，2019年。3[28] Nikos Kolotouros、Georgios Pavlakos、Michael J Black和科斯塔斯·丹尼利迪斯学习通过循环中的模型拟合重建3D人体姿势和形状。在ICCV，2019年。三、六[29]Nikos Kolotouros Georgios Pavlakos和Kostas Daniilidis。卷积网格回归用于单幅图像的人体形状重建。在Proc. CVPR，2019中。一、三、六[30] 陈空和西蒙·露西。深层非刚性结构从议案在IEEE国际计算机视觉会议论文集，第1558-1567页，2019年。二、三[31] 工藤康纪、大垣圭介、松井雄介、尤里小田切从2D关节位置进行3D人体姿势的无监督对抗学习EUR. Conf. Comput. 目视，2018年。3[32] 放大图片作者：David F. 福伊，还有Shubham Tulsiani感知关节的规范曲面映射。在IEEE会议Comput. 目视模式识别，2020年。117403[33] Nilesh Kulkarni Abhinav Gupta和Shubham Tulsiani。基于几何圈一致性的正则曲面映射在国际会议计算中目视，2019年。3[34] 苏扬什·库马尔，阿努普·切里安，戴玉超，李洪东.可伸缩的密集非刚性运动结构：格拉斯曼式的观点。在IEEE Conf. Comput.目视患者记录IEEE，2018年。3[35] Suryansh Kumar，Yuchao Dai，and Hongdong Li. 空间-多体非刚性结构运动恢复子空间时间联合 PatternRecognition Journal，2017. 3[36] Christoph Lassner ， Javier Romero ， Martin Kiefel ，Federica迈克尔·博戈布莱克和彼得五世盖勒团结人民：关闭3D和2D人类表示之间的循环。在IEEE Conf. Comput.目视模式识别，第4704-4713页，2017。三、六[37] Matthew Loper ， Naureen Mahmood ， Javier Romero ，GerardPons-Moll和Michael J.黑色. SMPL：一个有皮肤的多人线性模型。 ACM Trans. 图形（TOG），2015年。一、二、四、六[38] Julieta 马丁内斯拉亚特侯赛因哈维尔 Romero和小詹姆斯一个简单而有效的三维人体姿态估计基线。InProc. ICCV，2017. 3[39] Dushyant Mehta，Srinath Sridhar，OleksandrSotnychenko，Helge Rhodin，Mohammad Shafiei，Hans-Peter Seidel，Weipeng Xu ， Dan Casas ， and Christian Theobalt.VNect：使用单个RGB相机的实时3D人体姿势估计在Proc. SIGGRAPH，2017年。

下载后可阅读完整内容，剩余1页未读，立即下载