野外3D人体恢复的混合注释方法及其在野外图像中的应用

107 浏览量更新于2023-10-12 收藏 1016KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5340深入研究用于野外3D人体恢复的混合注释于荣1刘子伟1李成2曹凯迪4陈昌来31香港中文大学-商汤科技联合实验室2商汤科技3南洋理工大学4斯坦福大学{ry017，zwliu}@ie.cuhk.edu.hkchengli@sensetime.comkaidicao@cs.stanford.educcloy@ntu.edu.sg摘要虽然单图像三维人体复原已经取得了很大的进展，估计三维模型在野外图像仍然是一个艰巨的挑战。原因在于，为野外图像获得高质量的3D注释是一项非常困难的任务，需要消耗大量的资源和人力。为了解决这个问题，以前的方法采用混合训练策略，该策略利用包括3D和2D的多种异构类型的注释，同时不彻底研究每个注释的在这项工作中，我们的目标是执行一个全面的研究成本和效益之间的权衡不同的注释。具体来说，我们专注于具有挑战性的任务，在野生的3D人体恢复从单个图像时，配对的3D注释不完全可用。通过广泛的实验，我们得到了几个观察结果：1）3D注释是有效的，而传统的2D注释（诸如2D关键点和身体部位分割）在引导3D人体恢复方面不太有分量。2)Dense Correspondence （如 DensePose ） [1] 是有效的。当没有配对的野外3D注释可用时，与用配对3D数据训练的模型相比，利用密集对应的模型可以实现92%的性能我们表明，将密集对应到野外3D人体恢复是有前途的和有竞争力的，由于其高效率和相对较低的注释成本。我们用密集对应训练的模型可以为未来的研究提供强有力的参考。1. 介绍恢复3D人体模型[22，13]在许多应用中是必不可少的，例如增强现实。最近的研究[23，13，20，21]通常使用已知的参数模型1 代码和模型可在项目页面获得：电子邮件地址：penincillin.github.io/dct_iccv2019图1. 3D人体恢复的注释概述。我们研究了通常用于训练深度网络进行3D人体恢复的五种注释。' $ '的数量“$”的数字越大，作为 Skinned Multi-Person Linear Model （ SMPL ）[17]，用于表示3D人体模型并使用深度卷积神经网络（DCNN）估计SMPL的参数训练这样一个深度网络来处理野外3D人体恢复是具有挑战性的，因为在不受约束的环境中获得高质量的3D注释来进行训练既费力又昂贵。为了绕过这个障碍，人们通常不得不采用混合注释进行训练，以便利用来自多个数据集的有限注释来避免过拟合。例如， Kanazawaet al. [13] 使用Human3.6M数据集的3D关节[10]和COCO数据集的2D关键点[15]训练他们的模型。或者，除了使用RGB图像作为网络的输入之外，还可以引入辅助输入作为改进性能的优先级，Omran等人[20]使用身体部分分割作为中间表示。如图1所示1、常见的注释类型有五种：（a）稀疏2D注释，诸如2D关键点，（b）密集标记，诸如身体部位分割，(c)密集对应，例如由DensePose [1，18]产生的IUV图，（d）约束3D注释，即，用于在受限环境中捕获的图像的3D注释，例如Human3.6M [10]，以及（e）野外3D注释，即，用于野外图像的3D注释，例如UP-3D [14]。这些注释不仅在它们的表达能力上不同，而且在它们的标注成本上也不同。例如，像SMPL这样的3D注释比注释稀疏密集2D标签稠密对应约束3D野外3D示例注释成本$美元美元$$$$$$$$$$$$5341密集对应，因为前者封装3D可变形表面模型，而后者仅保留UV场。然而，建立3D注释需要比注释密集对应所需的更复杂的注释系统。注释密集对应（如DensePose [1]）可以仅由人类注释员完成，而获得3D注释通常需要辅助设施，如稀疏标记器[16]和IMU[25]。在这项研究中，我们的目标是进行一项系统的研究，以调查在学习深度网络进行3D人体恢复时使用不同注释之间的成本和有效性权衡我们的研究重点是从野外图像中恢复3D人体模型的挑战性任务，特别是在野外3D注释不足的情况下，以及其他注释类型如何补充和弥合差距。我们的研究是使用一个统一而简单的网络进行的，这可以作为未来研究的坚实基线。研究了使用不同注释的两个方面，即，不同符号在用作（a）监控信号，（b）网络输入时的效果。我们的实验揭示了几个观察结果：(1) 3D注释对于野外场景是有效的。对于野外图像，使用成对的3D注释训练的模型可以实现最佳性能。此外，排除80%配对的野外3D注释仅使重建误差增加5%。当不存在配对的野生3D注释时，在训练阶段中对受约束的3D注释进行分类可以提高性能并防止模型生成不自然的3D人体模型。(2) 仅使用稀疏的2D注释和密集的标记是不够的。当没有配对的野外3D注释时，使用稀疏的2D关键点作为唯一的监督将使模型的性能降低60%。此外，使用密集标记作为输入只能带来边际性能增益。(3) 密集对应，如IUV地图是一个有效的替代3D注释。在去除噪声预测的简单细化步骤之后，从IUV地图采样的密集关键点可以作为强有力的监督。IUV地图本身也可以作为补充输入。结合密集对应可以进一步将模型的性能提高特别是，当没有配对的3D注释可用于野外图像时，使用密集对应作为监督的模型可以实现用全套配对的3D野外注释训练的上限模型的92%的性能。我们的工作有两方面的贡献：1）我们系统-实验性地研究了不同注释在野外3D人体恢复中的有效性。我们观察到，虽然使用成对的3D注释会导致最佳结果，但对于3D人体恢复来说，这是不必要的，特别是考虑到其高注释成本时。2）我们揭示了将密集对应纳入野外3D人体恢复的有效性。我们的实验表明，当没有可用的野外注释时，使用密集对应训练的模型仍然可以实现与使用60%配对的野外3D注释训练的模型相同的性能。由此产生的模型可以作为一个强大的和坚实的基线为未来的研究。2. 相关工作最近关于3D人体复原的研究主要使用参数模型-SMPL [17]来在3D空间中表示人体这些研究可以分为两类：基于优化的方法和基于学习的方法。早期的工作主要是基于优化的方法。Bogo等人[3]提出通过将预测模型与2D关键点对齐来估计SMPL的参数。Lassner等人[14]通过添加轮廓匹配损失和91个地标来扩展算法。Tan等人[23]提出了一种编码器-解码器架构，其中编码器从图像预测SMPL参数，解码器从SMPL预测轮廓。该模型使用Silhouettes的热图进行训练。BodyNet[24]建议首先预测体积3D人体，然后从预测的体积结果回归SMPL参数。其他最近的作品[13，20，21]共享类似的管道。他们都设计了一个基于CNN的模型来预测SMPL的参数。模型使用带有2D注释（2D关键点）和3D注释（3D关节或地面实况SMPL参数）的图像进行训练。Kanazawa等人[13]增加对抗损失[7]来判断生成的3D人体模型是否真实。Pavlakos等人[21]建议首先预测轮廓和2D关键点热图，然后将它们用作SMPL参数估计器的输入。Omran等人[20]认为使用身体部位分割来代替2D图像作为输入将增强模型的性能。大多数现有的研究没有全面调查他们使用的每个注释的效率。其他工作，如NBF [20]和HMR [13]，尚未完全评估生成的3D模型的质量。他们的评价标准是片面的。具体来说，NBF [20]仅评估预测的3D姿态的质量，忽略了预测的形状。HMR [13]使用身体部位分割的准确性来评估野外图像，这只是一个2D指标。为了深入评估不同因素对模型性能的影响，本文在统一的框架和训练策略下进行了一系列实验。此外，我们使用欧几里得分布-5342Em0m0米/0单分支编码器0/双支路编码器(a)（b）第（1）款图2. 整体框架的可视化。图（a）说明了总体框架。它由三个部分组成。 1)输入编码部分输入和输出编码的特征。2）参数估计器估计物体的姿态和形状参数，SMPL模型给出了编码器的输出。3)给定估计的参数，SMPL模型生成预测的3D关节、2D关键点和密集关键点以计算损失。图（b）显示了输入编码器的两种可能架构。输入编码器可以由仅接受一种输入的单个分支组成，也可以由接受原始图像和其他辅助输入的两个分支组成预测和地面真实3D网格之间的比较作为评估度量，它可以忠实地反映姿态和形状的质量3. 使用混合注释进行3D恢复为了评估不同注释在野外3D人体恢复中的效率，我们基于统一的框架和训练验证设置进行了一系列实验。在本节中，我们首先介绍实验中使用的框架。然后，我们描述了五个注释在这项工作中的调查。最后，我们讨论了如何利用稠密对应。3D人体模型皮肤多人线性模型（SMPL）[17]是一种由姿势和形状参数参数化的3D人体模型。形状参数β∈R10是形状空间PCA分量的前10个系数。位姿参数θ∈R3×K表示K= 23个关节的三维旋转。通常，为了指定完整的SMPL模型，（23 + 1）×3 = 72个姿态参数（另外三个参数用于全局旋转）和10个形状参数需要参数框架. 如图2所示，整个框架由三个组件组成：1）输入编码器2）参数估计器3）损耗计算器。输入编码器E有两种不同的结构：单分支和双分支。双分支编码器由主编码器Em和辅助编码器Ea组成。主编码器将图像作为输入，而辅助编码器将一个辅助输入（可以是身体部位分割或IUV图）作为输入。然后将生成的主特征fm和fa连接起来以产生最终的特征向量f=fmfa.单分支编码器只有一个主分支Em，其输入是一类原始数据，表1. 每个注释的作用。.不同注释在我们实验中的作用。注释稀疏2D密集标签密集对应约束3DIn-the-wild3D输入✓✓监督✓✓✓✓图像、身体部位分割和IUV图。它接受输入并输出编码特征。对于单分支编码器，f=fm。给定编码的特征向量，由两个全连接层组成的参数估计器预测SMPL的姿态和形状参数。然后SMPL模型生成最终的3D网格。按照以前工作中的实践[19，5，13]，参数估计器输出参数的残差θ。然后通过将残差与平均参数Θ ′相加来获得最终参数。这种策略有助于模型关注不同图像的方差，从而导致更快的收敛。参数估计过程用公式表示如下：Θ=Θ<$+θ（E（I）），其中I表示输入。在训练阶段，损失计算器进一步回归预测的3D关节、2D关键点和从SMPL顶点获得的密集关键点。然后使用地面实况注释计算相应的损失。3.1. 混合注释在本节中，我们将讨论这项工作中注释包括约束和野外3D注释、稀疏2D注释、密集标记和密集对应。根据每个注释的性质，它们可以作为输入或监督或两者兼而有之。表1列出了我们实验中每个注释的作用。3D注释。 3D注释可分为两种选择性组件深度神经网络稀疏2D损失L$%2D关键点摆姿势，Eƒ形状+密集关键点损失L&e（）e密集关键点SMPL模型编码器参数估计器3D损失L*%输入3D运动类型和SMPL参数丢失计算器输入编码器参数估计器EE/5343123我i ii1我Xi=Pi[vij]×bij，根据图像是在受限环境中还是在野外捕获来分类。由于本文主要关注野外场景，因此约束注释主要用于预训练。当没有配对的野外3D标注可用时，它也将参与训练在损失计算阶段，对于具有地面实况SMPL参数的图像，我们最小化预测参数和地面实况参数之间的距离。为了数值稳定性，将每个姿态参数θi转换为使用罗德里格斯公式的3×3旋转矩阵[17]。对于具有3D关节注释的图像，我们进一步最小化预测的和地面实况3D关节之间的距离。3D LossL3D的定义如下：ΣM由I指定的身体部分展开表面上的精确位置的坐标。SMPL和IUV之间有密切的联系，因为SMPL模型的每个顶点都可以分配一个（I，U，V）坐标。通过这种方式，对于每个用（I，U，V）注释的点，我们计算该点属于SMPL的哪个三角形面以及从该点到三角形面的每个顶点的距离。这些距离形成了该三角形面特有的重心坐标。因此，我们有一个映射函数φ，它可以将用（I，U，V）标注的点映射到SMPL模型的顶点。在以下等式中提供映射：[v1，v2，v3]，[b1，b2，b3]=φ（I，U，V），（3）L三维关节=||二、||2,i=1ΣO（一）其中vi表示所选顶点的索引，代表LSMPL=i=1 ||2个以上||βi − βi||二、||2,重新发送重心坐标。我们展示一些例子在图3中，展示了致密-L3D=L3D节理+LSMPL，其中[θi，βi]和[θi，βi]分别是预测的SMPL参数和真实M和O表示具有3D关节注释和地面实况SMPL参数的图像的数量。R：R3→R3×3表示Rodrigues公式。稀疏2D注释。为了估计2D关键点，参数估计器预测三个附加参数以对相机C∈R3建模，两个参数用于相机平移，一个参数用于焦距。C然后用于将预测的3D关节J从3D投影到2D关键点姿势模型和SMPL。在训练阶段，由DensePose生成的IUV地图当用作监督时，密集关键点从IUV图中采样并用于计算密集关键点丢失。每个密集关键点由两部分组成：RGB图像上的坐标（x，y）和坐标（I，U，V）。为了简化符号，我们表示（I，U，V）坐标为D。给定D，等式（3）用于计算该点最接近哪些顶点f=[v，v，v]以及对应的重心坐标b=[b1，b2，b3]。Af-在获得f和b之后，我们投影预测的SMPL顶点，J-2D.稀疏2D损失L2D可以定义为：利用类似的方法，将P∈R3×N映射到二维空间P∈2D∈R2×N，L2D= ΣS||（J2D−J2D）×µ||、i=1（二）将3D关节投影到2D关键点的方法最后，我们可以通过使用重心坐标对所选择的2D顶点进行加权平均来获得预测的密集关键点。其中S是具有2D关键点注释的训练数据的数量。J2D和J2D表示预测和地面-标定并计算预测的和地面实况的密集关键点的像素坐标之间的密集关键点损失。第i个数据样本的真值2D关键点。 µi表示可见度向量，其中μij= 1表示第i个样本的第j个关节可见，否则µij= 0。密集标记。在这项工作中研究的密集标记是身体部位分割。在这项工作中，密集标记是点整个过程公式化为：[vi1，vi2，vi3]，[bi1，bi2，bi3]=φ（Di），2013年3 月2日j=1(4)仅用作输入。它可以是唯一的输入，也可以服务于ΣTL=||（X-X）||、作为辅助输入。在我们的实验中，身体部位-心理状态不被用作监督，因为密集i=11从SMPL预测获得身体部位分割是不可区分的。密集的通信。我们的工作与Holo-Pose [8]平行，将密集对应纳入3D人体重建。我们利用了DensePose [1，18]，它在RGB图像和人体给定图像上的每个像素可以被分配有（I，U，V）坐标，其指示基于表面的人体上的特定位置。I∈Z表示这一点属于身体的哪个部位，并且（U，V）∈R2是其中，T是具有密集关键点的图像的数量，符号，φ：Z×R2→Z3×R3是等式（3）中定义的映射函数。3.2. 学习密集采样策略书信往来。从IUV图中提取的密集点不能直接使用例如，左脚可能被错误地预测为右脚。为了避免错误点破坏我们的模型，5344密集关键点SMPL模型的可视化密集关键点SMPL模型的可视化数据集：Human3.6M [10]，COCO-DensePose [1]，UP-3D [14]和3DPW [25]。实验主要在UP-3D数据集上进行，因为它是唯一具有SMPL注释的野外数据集。我们将我们的方法与UP-3D，3DPW和COCO-DensePose数据集上的先前最先进的方法进行比较。Human3.6M. Human3.6M [10]是一个室内数据集。在HMR [21]之后，我们使用Mosh [16]从原始3D Mocap标记收集在我们的实验中，Human3.6M的数据被用于预训练。当没有配对的野外3D注释可用时，它也用于训练COCO-DensePoseCOCO密集姿势数据集[1]第一章是一图3. DensePose和SMPL之间的关系。修正-响应关键点用相同的颜色注释表2. 不同架构的浮点数和模型大小。编码器浮点数×109型号大小（MB）ResNet-1017.803174.97ResNet-504.090102.27ResNet-50 ResNet-185.905150.97ResNet-18 ResNet-183.63097.783我们通过使用精确的稀疏关键点作为参考来执行细化。对于每个可见的2D关键点，我们检查以其为中心的3×3网格中的IUV图的值，并选择与其对应的“I”（指示身体部位）的值梨作为围绕该关键点的IUV图的身体部位预测。然后我们检查身体部位预测是否与2D关键点匹配。在找到错误区域之后，我们的采样方案以递归方式将该子区域的IUV图设置为背景：我们首先将关键点的IUV值设置为背景，然后检查其周围的3×3网格，并确定其值'I'等于表面的像素。四舍五入IUV并将其IUV值设置为背景。此外，我们检查以这些像素为中心的3×3网格，并使用相同的条件确定更多的像素。这个过程是递归进行的，直到没有更多的pix。找到了在我们使用IUV图作为输入并对密集关键点进行采样之前，对每个关键点进行上述过程以细化整个IUV图更详细的描述以及说明图可以在补充材料中找到。整体损失函数。总损耗L定义为：L=λ1L3D+λ2L2D+ λ3L稠密.（五）补充材料中列出了实验中使用的λ4. 实验我们首先介绍在这项工作中使用的数据集和评估指标。在我们的实验中，我们使用了四个新发布的数据集，建立了密集的对应between图像和身体部位表面。该数据集中的图像均选自关键点MS-COCO数据集[15]。[1]中的研究人员用大约100到150个密集的关键点重新注释每个选定的图像。我们在训练集上训练我们的模型，并在评估集上测试模型。UP-3D 该数据集由Lassneret al. [14 ]第10段。他们从四个姿态估计数据集中挑选图像，包括：[11] LSP-extened [12]，MPII [2]和FashionPose [6]。研究人员扩展了SMPLify [3]并将模型拟合到这些图像上。然后，他们要求人类注释者选择具有良好适应性的样本。3DPW。这个数据集是由Vonet al. [25 ]第20段。他们使用单个手持相机和一组连接在身体四肢上的IMU来估计3D姿势。通过3D扫描获得3D身体形状。这个数据集不能算作一个完全在野外的数据集，因为数据是由几个执行不同操作的参与者我们将我们的方法与以前的最先进的方法进行了比较，HMR [13].评估指标。对于COCO-DensePose数据集，评估度量是等式（4）中引入的密集关键点距离在以下章节中缩写为DKD。对于其他带有SMPL注释的数据集，我们使用Pavlakos等人提出的平均逐顶点误差（PVE）。[21]作为度量，其计算地面真实SMPL顶点与预测SMPL顶点之间的欧几里得距离。我们还报告了SMPL关节上的平均每关节位置误差（MPJPE），以揭示其形状参数来自地面实况和预测的SMPL顶点之间的姿态恢复和PVE的质量，同时姿态参数被设置为相同（在实验中，姿态参数都被设置为零）。我们使用该度量来揭示形状恢复的质量，并将其表示为PVE-T，其中实施详情。所有图像都根据人类的边界框进行裁剪。这些图像被进一步填充并缩放到224×224。在训练过程中，图像被随机翻转和缩放以用于数据增强。如图2所示，输入编码器有两个architec- tures。在大多数实验中，单分支编码器是5345表3. 不同注释的影响。评估指标分别为PVE、MPJPE和PVE-T。对于所有指标，越低越好。“3D”是指配对的野生3D注释。“20% 3D”是指20%随机选择的3D注释。“稀疏2D”是指稀疏2D关键点。“Dense” refers to dense correspondence, namely, IUV mapsgenerated by DensePose [监督→输入↓3D密集&稀疏二维20% 3D密集&稀疏二维三维稀疏二维密集稀疏2D仅稀疏2D仅IUV120.0/103.1/31.8125.0 / 107.2 /32.6125.2 / 106.4 /32.1121.2 /54.7204.3 / 177.0 /92.1仅细分市场123.0 / 105.1 /32.7126.7 / 110.0 /33.2107.8 /31.7130.1 /55.9203.8 / 176.7 /93.3图像仅123.7 / 105.9 /30.9127.5 / 110.6 /32.2127.4 / 108.5 /30.7120.3 /51.7203.2 / 178.5 /106.2图像IUV122.4 / 105.1 /30125.0 / 107.6 /32.1107.3 /30.7117.2 /52.5197.3 / 172.8 /107.9图像段121.5 / 104.3 /31.0126.4 / 107.0 /31.6106.8 /31.5142.2 /124.2201.2 / 177.5 /101.7基于ResNet-101 [9]，而两个分支架构的主编码器和辅助编码器分别基于ResNet-50和ResNet-18。通过这种方式，具有不同架构的模型具有可比的FLOP和模型大小。表2列出了采用不同输入编码器的模型的总体FLOP和大小。我们在输入编码器的顶部分配额外的全连接层，以将特征向量映射到85维。最终输出向量包含姿态参数θ（72维）、形状参数β（10维）和相机模型C（3维）。4.1. 混合注释在本小节中，我们将研究不同注释作为输入或监督时的效率。在所有的实验中，稀疏的2D关键点总是被假设为可用的，因为注释2D关键点是相当便宜的。或者，可以使用最先进的2D姿态估计算法[26，4]获得精确的结果对于每种输入类型，我们采用五种不同的监督组合，包括3D注释，3D注释加密集对应，随机选择20%的3D注释加密集对应，仅密集对应和仅稀疏2D关键点。结果列于表3中。监督的影响。在这个子系统中的详细数字-通过比较模型，图像作为唯一输入（表3的第四行）。从使用不同输入的其他模型中可以得出相同的结论。3D注释可以为野外3D人体恢复提供最佳指导，而稀疏的2D关键点效率不高，这并不奇怪。密集对应，即由密集姿态生成的IUV图[1，18]，是用于野外3D人体恢复的有效注释。使用采样的密集关键点和稀疏2D关键点训练的模型可以达到使用全集合3D注释训练的模型的92%此外，使用仅20% 3D注释和密集对应的混合训练的模型此外，通过将密集对应关系纳入训练，使用全3D注释训练的模型的性能可以提高2.9%。输入的影响。利用五种输入组合表4. 姿态和形状参数的影响。评估指标分别为：PVE、MPJPE和PVE-T3D损失→其他监督↓仅3D姿势仅形状参数DC稀疏2D131.3 / 116.6 /59.0127.3 /30.6仅稀疏2D164.0 / 148.2 /117.0220.0 / 180.6 /31.4在我们的实验中，包括1）仅图像，2）仅IUV图，3）仅身体部位分割，4）图像加IUV图，5）图像加身体部位分割。前三类采用单分支架构，后两类采用双分支架构。为了公平比较，IUV图和身体部位分割都是由DensePose [1]模型生成的。表3中的实验结果表明，当稀疏2D关键点用作唯一监督时，结合包括身体部位分割或IUV图的辅助输入平均只能将模型性能提高1.5%。与将IUV地图中的采样密集关键点纳入监督同时仍然使用图像作为唯一输入所带来的32%的改进相比，这是微不足道的4.2. 利用3D注释单独参数的影响。我们分别评估SMPL姿态和形状参数的影响，在训练过程中只使用其中之一。表4中所示的结果表明：（1）3D姿态和SMPL参数分别明确地影响MPJPE和PVE-T。(2)3D姿态对模型的整体性能有更大的影响。此外，表3中的结果表明，当在训练中使用姿势和形状参数时，MPJPE和PVE-T与PVE几乎一致。因此，我们仅在以下实验中报告PVE。3D注释的效率。然后，我们评估的有效性，在野生3D注释。本节中的模型都是用3D注释和稀疏2D注释训练的。在这些实验中，配对的3D注释的数量从100%逐渐减少到0%（0%意味着在训练中仅使用稀疏的2D注释）。结果如图4所示.我们只显示了将图像作为唯一输入的模型的详细结果。所有模型的详细实验结果可以在补充材料中找到。从图4中，我们发现3D注释是有效的。例如，reflecc-5346密集关键点密度158.0147.3142.6139.5135.8133.1200180160140120100 80 60 40 20 10 5 1 03D注释百分比图4. 3D注释的影响。我们在UP-3D [14]的测试集上使用每顶点误差（缩写为PVE，单位为mm）测试不同的模型。作为度量。该图显示3D注释非常有效。1551501451401351305 1015202530 35 40如第3.2节所述的地图。如果我们直接使用原始IUV图，性能下降了20.1%。我们进一步研究了U和V中的噪声如何影响模型我们将高斯噪声添加到U和V，其值位于[0，255]中。高斯噪声的平均值（μ）固定为0，标准差（σ）在5到40之间变化。结果如图5所示。结果表明噪声标准差图5. 噪声密集对应的影响。在这个实验中，我们加入高斯噪声IUV地图。平均值（µ）固定为0，标准差在5到40之间变化。160155150145140135130100 80 60 40 20 10保持密集的关键点百分比（%）图6. 密集关键点密度的影响在该实验中，随机丢弃采样的密集关键点。当超过60%的键-点被保留。即使只保留了10-15个密集关键点，它们仍然比稀疏2D关键点效率高得多当从训练中排除80%的3D注释时，训练误差仅增加6%。相反，稀疏2D注释在指导3D人体恢复方面是不称职的。当没有配对的3D数据可用时，性能急剧下降。重建误差比仅使用1%配对3D数据训练的模型大34%。4.3. 利用密集通信受表3中观察到的密集对应的惊人效率的启发，我们在本小节中进一步研究其有效性。本小节中的模型都将图像和IUV图作为输入。噪声密集对应的影响。如前所述，用作监督的密集关键点是从IUV图中采样的，其可能包含错误。我们完善IUV我们的方法对噪声是鲁棒的。当噪声方差小于10时，模型的性能下降幅度较小。即使噪声的方差增加到40，使用噪声密集的关键点仍然可以大大提高模型的性能。密集关键点密度的影响。COCO-DensePose数据集中的每张图像都用100到150个密集关键点进行注释。我们抽取相同数量的密钥-在UP-3D上在本小节中，我们通过随机丢弃部分密集关键点并使用剩余关键点训练模型来研究密集关键点密度的密集关键点的数量从100%逐渐减少到0%（0表示仅使用2D关键点）。结果示于图6中。当超过60%的密集关键点被重新配置时，性能会适度下降保持。此外，仅使用10到15个密集关键点训练的模型仍然具有比仅使用稀疏2D关键点训练的模型。本小节中的实验结果对于实际应用是有用的，因为可以节省注释密集关键点的大量工作，而最终性能的牺牲很小。4.4. 与最新技术水平的比较定量结果。对于UP-3D，我们将我们的模型与基于优化的方法[14]和基于学习的方法[13，21，20]进行了比较。对于COCO-DensePose，我们主要将我们的方法与HMR [13]进行比较，因为HMR是唯一在COCO [15]数据集上训练的方法，它覆盖了CODP数据集中的所有图像。对于3DPW，我们在训练集上训练HMR，并在测试集上将我们的方法与它进行比较。结果示于表5中。3D标注203.2IUV地图身体片段图像图像IUVImage & Body Segment149.9152.2143.3132.2134.6136.0127.4128.4噪声密集关键点154.8152.1148.5145.3143.7141.5142.2136.2PVE（mm）PVE（mm）PVE（mm）5347图像HMR Ours图像HMROurs图像HMR Ours(a)（b）（c）图7. 我们的模型和HMR之间的比较[13]。 “Our model” refers to the model that adopts the framework in Figure 它使用图像和IUV地图作为输入，并使用密集的对应关系和稀疏的2D关键点进行训练（1）我们的模型可以产生更一致的结果。(b)表明我们的模型在一些坚硬的样品上仍然有效。(c)表明，我们的模型是能够产生自然的结果时，HMR失败。所有图像都来自COCO-DensePose数据集[1]。表5. 与最先进方法的比较。该表显示了COCO-DensePose数据集[1]的评估结果（CODP用于简化符号）。使用DKD（密集关键点距离），单位为mm。它还提供了使用PVE（逐顶点误差）对UP-3D数据集[14]和3DPW数据集[25]的评价结果，单位为mm。对于所有的指标来说，越低越好。“Ours-3D”是指使用成对的3D注释训练的拟议模型。“Ours-DC”referstotheproposedmodeltrainedusingonlydensecorrespondence and sparse 2D数据集→公制→方法↓CODP [1]DKD（毫米）UP-3D [14]PvE（毫米）3DPW [25]PvE（毫米）Lassner等人[14个]–169.8–NBF [20]–134.6–HMR [13]102.7149.2161.0Pavlakos等人[21日]–117.7–我们的-3D–122.2152.9我们的DC51.8137.5165.3是指使用成对的3D标注训练的所提出的模型。“Ours-DC” refers to the proposed model trained with这两个模型都采用了以图像和IUV图作为输入的双分支编码器。我们使用ResNet-18作为“Ours-3D”和“Ours-DC”的主干，当3D数据可用时，我们的方法超越或表现出与以前的最先进的，证明我们的模型是简单而有效的。在UP-3D数据集上，值得注意的是，我们使用密集对应训练的模型与大多数以前的方法相当，尽管在训练中没有使用配对的野外3D注释。定性结果。我们在图7中展示了我们的模型和HMR [13]的一些定性结果。“Our model” refers to the model thatadopts the framework in Figure密集对应和稀疏2D关键点。每个子图的观察结果如下所示：（a）表明我们的模型比HMR生成更好的对齐和更精确的3D人体模型。(b)表明，当HMR在具有极端姿势或比例的图像上失败时，我们的模型仍然可以生成合理的结果。 (c)表明在某些情况下，HMR生成错误的3D模型，而我们的方法生成更自然的结果。5. 结论我们已经进行了一个系统的研究的成本和效率权衡的混合注释中使用的野生3D人体恢复。通过大量的实验，我们发现配对的野生3D注释并不像通常认为的那样不可替代。有趣的是，在没有配对3D数据的情况下，与使用配对3D数据训练的模型相比，利用密集对应的模型可以实现92%的性能我们进一步对UP-3D [14]和3DPW [25]数据集上的先前最先进的方法进行基准测试。在没有配对的野外3D注释的情况下，该模型实现了与大多数先前使用配对3D注释训练的最先进方法相当的性能我们证明了密集对应是一种新的监督形式，对于野外3D人体恢复来说是有前途和有竞争力的。考虑到它的高效率和相对较低的注释成本，我们的模型可以作为一个强有力的参考，为未来的研究。鸣谢。这项工作得到商汤科技集团的合作研究资助（香港中文大学协议编号： TS1610626& 编号TS1712093），香港大学通用研究基金（CUHK 14209217）、新加坡MoE AcRF Tier 1 （ M4012082.020 ）、 NTU SUG 和NTU NAP。5348引用[1] Rza Alp Gler，Natalia Neverova，and Iasonas Kokkinos.密度：野外密集的人体姿势估计。在CVPR，2018年。一二四五六八[2] Mykhaylo Andriluka，Leonid Pishchulin，Peter Gehler，and Bernt Schiele. 2D人体姿态估计：新的基准和最先进的分析。CVPR，2014。5[3] Federica Bogo、Angjoo Kanazawa、Christoph Lassner、Peter Gehler、Javier Romero和Michael J Black。保持它smpl：由单一影像自动估计三维人体位姿与形状。在ECCV，2016年。二、五[4] 曹哲、托马斯·西蒙、魏世恩和亚瑟·谢赫。利用局部仿射场进行实时多人二维姿态估计。在CVPR，2017年。6[5] Joao Carreira 、Pulkit Agrawal、Katerina Fragkiadaki和Jitendra Malik。具有迭代误差反馈的人体姿态估计。在IEEE计算机视觉和模式识别会议论文集，第4733-4742页，2016年。3[6] Matthias Dantone、Juergen Gall、Christian Leistner和LucVan Gool。基于人体部位的关节回归器在静态图像中的姿态估计。TPAMI，36（11）：2131-2143，2014。5[7] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在NIPS，第2672-2680页2[8] Riza Alp Guler和Iasonas Kokkinos。Holopose：Holistic3D human reconstruction in the wild. 在 CVPR 中，第10884- 10894页，2019年。4[9] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。六、八[10] Catalin Ionescu ， Dragos Papava ， Vlad Olaru ， andCristian Sminchisescu.人类3。6m：自然环境中3D人体感知的大规模数据集和预测方法。TPAMI，36（7）：1325-1339，2014. 一、五[11] 山姆·约翰逊和马克·埃弗林汉姆用于人体姿态估计的聚类姿态和非线性外观模型。在BMVC，2010年。5[12] 山姆·约翰逊和马克·埃弗林汉姆从不准确的注释中学习有效的人体姿态估计。CVPR，2011。5[13] Angjoo Kanazawa、Michael J Black、David W Jacobs和Jitendra Malik 。端到端恢复人体形状和姿势。在CVPR，2018年。一二三五七八[14] Christoph Lassner 、 Javier Romero 、 Martin Kiefel 、Federica Bogo、Michael J Black和Peter V Gehler。团结人民：关闭3D和2D人类表现之间的循环。在CVPR，2017年。一、二、五、七、八[15] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。2014年，在ECCV。一、五、七[16] Matthew Loper ， Naureen Mahmood ， and Michael JBlack. Mosh：从稀疏标记捕获运动和形状TOG，33（6）：220，2014. 二、五[17] Matthew Loper、 Naureen Mahmood 、Javier Romero 、Gerard Pons-Moll和Michael J Black。Smpl：一个有皮肤的多人线性模型。

下载后可阅读完整内容，剩余1页未读，立即下载