DAD-3DHeads：一个大规模的密集、准确和多样化的3D头部对齐数据集

131 浏览量更新于2023-10-25 收藏 15.23MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

209420DAD-3DHeads:一个大规模的密集、准确和多样化的用于从单个图像进行3D头部对齐的数据集0Tetiana Martyniuk 1,2 * Orest Kupyn 1,2 * Yana Kurlyak 1,2 Igor Krashenyi 1,20Jiˇri Matas 3 Viktoriia Sharmanska 4, 501 乌克兰天主教大学 2 Pi˜nata Farms, 洛杉矶, 美国 3 Center for MachinePerception, FEE, CTU in Prague的视觉识别小组 4 英国苏塞克斯大学 5伦敦帝国理工学院0图1.DAD-3DHeads，一个密集、准确和多样化的3D头部数据集，标有超过3.5K个经过验证的准确地标。在DAD-3DHeads上训练的模型在各种3D头部任务上表现出优越的性能。它对野外常见的领域转移具有鲁棒性，包括头部姿势变化、遮挡、面部表情、年龄组、光照条件和图像质量。最佳以彩色查看。0摘要0我们提出了DAD-3DHeads，一个密集且多样化的大规模数据集，以及一个用于野外3D密集头部对齐的强大模型。它包含超过3.5K个地标的注释，与地面真实扫描相比准确地表示3D头部形状。基于我们的数据集训练的数据驱动模型DAD-3DNet学习了形状、表情和姿态参数，并对FLAME网格进行了3D重建。该模型还包含一个地标预测分支，以利用丰富的监督和多个相关任务的联合训练。实验结果表明，DAD-3DNet在AFLW2000-3D和BIWI上的3D头部姿态估计、NoW和Feng上的3D面部形状重建以及DAD-3DHeads数据集上的3D密集头部对齐和3D地标估计方面优于或与最先进的模型相当。最后，DAD-3DHeads在摄像机角度、面部表情和遮挡方面的多样性为研究野外泛化和对分布转移的鲁棒性提供了一个基准。数据集网页为https://p.farm/research/dad-3dheads。0* 这些作者对本文的贡献相同。01. 引言0自从第一个从图像中提出的3D可塑模型(3DMM)[4]以来，3D面部分析取得了巨大的进展。精确的3D面部模型的应用案例很多：准确的人脸识别和人脸检测[16]、用于虚拟现实和游戏的逼真的3D头像和动画[37]、用于配音的面部再现和合成[59]、虚拟镜子和试穿、用于医学任务的统计形状模型，如解剖结构变异的分割和分析[73]。这些应用不仅需要准确的3D面部几何，还需要(1)处理多样性，例如种族、年龄、性别子群体，以及(2)推广到野外部署条件，即超出受控捕获和超出训练数据的范围。迄今为止最大的面部模型[8,45]已经集中在(1)方面，通过收集多样化的3D面部和头部扫描，并构建适用于不同年龄、性别和种族的3DMM模型。野外泛化已被确定为下一代3D面部模型的紧迫挑战[22]。我们的研究重点是(2)野外泛化的这个方面。我们目睹了深度学习的进步。This section provides an overview of the available 3Dface datasets, followed by a survey of the methods targeting3D head-related tasks.3D Face Datasets.Existing 3D face datasets differbased on registration of a 3D face model. Model fittingdatasets [5,7,30] fit the 3DMM to the images, which makesit suitable for large-scale datasets. The main limitation ofsuch approach is shape detalization. To get a precise 3D fa-cial shape, multi-view camera systems are applied [19, 72]or depth camera [18,52,54,67,68,71], however, these sen-sors suffer from limited spatial resolution. The FaceScapedataset [65] contains textured 3D faces recorded using adense camera array under controlled lighting, which re-trieves the 3D facial model preserving low-level details suchas small wrinkles and pores. The 3DFAW-Video dataset[34] lacks subjects diversity, and is not really ”in-the-wild”;300W-LP [50, 76] is synthetic and focuses only on faces.In contrast to our dataset, none of the datasets is diverse,accurate, dense, and in-the-wild at the same time.3D Head Pose Estimation. Classical methods for headpose estimation are based on traditional techniques suchas cascade detectors [60] or template matching [9]. Cas-cade detectors localize the head for each pose [35], while209430人工智能已经对与面部分析任务密切相关的任务产生了影响，例如Landmark Localisation [14, 20, 46, 51,57]、2D和3D面部对齐[2, 10-12, 17, 31, 32, 48, 63,70]以及人脸检测[2, 17, 20, 25, 46,70]。这是由于社区努力收集和注释在非受限条件下捕获的大型图像数据集，构建可以利用这些大型数据集的增强模型，以及最重要的是开放性，即将模型和数据集公开提供给研究使用。然而，在野外从单个图像中进行3D面部或头部对齐仍然是一个开放的挑战。困难来自于(1)缺乏2D-3D的真实数据，因此(2)任务的模糊性和对3D形状先验的依赖。已经开发了许多方法来填补缺失的2D-3D注释(1)，主要使用2D地标数据集进行拟合，或者探索额外的知识，如身份不变性[53]，或者与相关的人脸检测[20]、[16]任务进行联合训练，以推动3D面部几何的恢复。到目前为止，由于缺乏真实数据，这些方法的效率评估一直存在问题。关于(2)，目前的3D面部重建方法，如非线性3DMM和深度学习模型[5, 6, 8,38,45]，基于学习统计3D面部模型并将其拟合到图像中作为形状(或形状和纹理)先验。这个方向的历史可以追溯到Blanz和Vetter的开创性工作[4]。它依赖于一个大而多样的3D/4D扫描数据集，用于构建可以分解为面部形状(身份和表情)和相机参数的统计3D面部模型。这样做的代价是费时费力的数据收集，需要昂贵的3D采集设备，并且3D采集设备不能在任意条件下操作。因此，当前的3D面部数据库样本量有限，并且捕获的数据并不完全是在野外[53]。在这项工作中，我们展示了在没有昂贵的、难以在野外部署的扫描仪等设备的情况下，我们可以直接从图像中收集准确的3D地标注释，这对于推动从图像中恢复3D头部的最新结果是高效且有效的。我们的贡献如下:0• 一种新的用于野外3D密集头部对齐的Dense, AccurateandDiverse数据集，即DAD-3DHeads。它具有超过3.5K个经过验证的准确地标记点，是目前可用的野外3D密集头部对齐中最密集的注释。DAD-3DHeads包含各种极端姿态、面部表情、具有挑战性的照明和严重遮挡情况。注释的准确性和一致性与真实的4D扫描和头部姿态标签进行了比较。0• 一种同时解决形状重建和姿态估计问题的新方法0通过优化两个损失组件来进行训练：（i）形状+表情损失和（ii）重投影损失。（i）基于归一化的3D顶点，可以将形状和表情信息与姿态分离开来；（ii）基于完整头部密集的2D标记点，评估姿态的准确性。这使得丰富的注释得到了充分利用，这在以前由于缺乏GT注释而无法实现。广泛的消融研究显示了两个损失组件的重要性。0•DAD-3DNet模型将输入图像映射到与FLAME拓扑一致的3D网格表示。该模型通过回归3DMM参数并使用差分FLAME解码器恢复3D头部几何形状来进行端到端训练。所提出的方法同时学习头部形状、姿态和表情。DAD-3DNet在一系列任务上表现优于现有技术，表明我们数据集中提供的密集监督为从图像进行的3D头部分析提供了一个整体框架。0•一种新的基准测试，用于定量评估3D密集头部拟合，即从密集注释中进行的3D头部估计。我们的评估协议引入了两个新指标：重投影NME计算将重投影的3D顶点在图像平面上的NME，以及Zn准确性评估Z坐标的序数距离和3D拟合的准确性。02. 相关工作209440一种模板匹配方法将查询图像与一组预标记的模板进行比较，并找到相应的姿态[41,55]。几何方法使用从输入图像中检索到的面部标记点，并通过经验估计头部姿态[13,29]。回归和分类方法包括广泛的方法，通过拟合数学模型来预测来自标记训练数据或离散姿态集的头部姿态[3, 40,49, 56, 64,79]。多任务方法将头部姿态估计学习与其他面部分析任务相结合，例如面部检测[46, 47,78]，面部识别[47]，标记定位[46, 47, 78]，对齐[17, 47,70]。我们的方法与后者相关，其中对3D头部重建的研究与学习3D头部模型和标记定位的参数相结合。3D面部对齐。早期的3D可塑面部模型（3DMM）[4,44]是从少量注册的3D扫描中导出的，例如巴塞尔面部模型（BFM）[44]有200个人脸。最近的模型，如FLAME[38]，是从大量的扫描中学习的，即FLAME使用3800个人头的3D扫描。然而，扫描的多样性有限。RingNet[53]经过训练，可以在没有直接3D监督的情况下从单个图像中估计3D面部形状，以克服这个限制。相比之下，我们的模型通过我们数据集中提供的2D-3D监督直接从图像中执行3D头部重建。3DDFA[77]是一种级联CNN模型，可以直接从面部图像预测密集的3DMM。这种方法在[28]中进一步扩展和优化，通过元关节优化来促进参数回归。另一种称为DECA[24]的方法被训练以回归参数化的面部模型。最近的FAN模型[12]通过堆叠四个Hourglass模型[42,66]构建，其中所有瓶颈块都被分层、多尺度和并行的二进制残差块[11]替换。在[16]中，作者提出了一种直接使用6自由度（6DoF3D）-绕X、Y、Z轴的旋转和平移直接从图像中对齐人脸的方法，而不是使用标记定位。[31]引入了一种具有轻量级注意机制的面部对齐模型。相比之下，我们收集了一个大规模、多样化的数据集，其中包含直接在3D中进行的注释，并与FLAME拓扑相对应。这使得DAD-3DNet在一系列3D头部任务中的训练变得高效。03. DAD-3DHeads数据集0为了创建一个大规模的野外图像数据集，我们重新利用了现代的3D建模工具，并引入了一种新颖的注释方案，解决了现有标注工具存在的问题，例如“猜测”头部不可见部分的正确地标位置，从而实现了对任何头部图像的准确注释。0在本节中，我们验证所获得的标注与GT3D扫描相比的准确性，并且具有高质量，即将注释员的错误减少了一半。03.1. 数据采集0图2.标注工具示例。标注员通过固定关键点将3D头部模型拟合到图像上。为了确保头部形状的视觉合理性，提供了相应的3D纹理渲染。0我们使用一个简单的界面将3D可塑模型拟合到给定的照片上。标注员不会显式控制或标记3DMM参数或blendshapes。拟合是基于头部的可见部分和先验的FLAME模型[38]。标注员将3D网格表面上的点（见图2，左侧）固定到图像的特定像素上。然后，网格经过3DMM参数的优化，以使“固定”的投影误差最小化。在标注过程中，标注员可以看到与其拟合相对应的纹理渲染到3D网格上，以验证结果是否在视觉上合理（图2，右侧）。我们使用3D网格在图像上的2D投影来确保面部特征和头骨的边界是正确的，并使用相对深度信息来确认图像提供了对人头模型的逼真纹理映射。标注过程的详细信息以及中间步骤的图像和完整视频示例，请参见补充材料。总共我们收到了5,023个与FLAME拓扑结构一致的密集地标，即FLAME网格顶点。03.2. 数据集统计0DAD-3DHeads数据集由来自各种来源的44,898张图像组成（训练集37,840张，验证集4,312张，测试集2,746张）。对于每个图像，我们提供FLAME网格的5,023个顶点，其中3,669个被准确标记（我们在第3.3节中进行了演示），排除了颈部和眼球。我们将这个子集中的3,669个地标称为“头部”（见补充材料中的图5）。我们还提供了将3D网格从模型空间映射到模型视图和截锥投影矩阵。FQ = 1NN�n=11dn·2m(m − 1)m�i=1�j>i��−→xin −−→xjn��2, (1)209450图3.数据集属性：DAD-3DHeads在各种姿势、面部表情和遮挡方面都很平衡。属性标签对于子组分析和在野外部署条件下的泛化是有价值的信号。0为了不同的训练场景和评估目的，我们将头部3D模型投射到图像上。此外，我们还提供丰富的属性信息，展示数据的变化性和无偏性。DAD-3DHeads属性包括头部姿势、情绪的存在、遮挡（见图3），以及性别、年龄组、图像质量和照明标签。详细的数据集卡片可以在补充材料中找到。03.3. 注释准确性0为了检查我们标注的准确性，我们计算了头部形状重建和头部姿态估计与地面真实3D扫描的准确性。3D头部形状重建。为了验证DAD-3DHeads标注与头部形状的正确匹配，我们将3D网格与NoW [53]和Stirling[1]数据集中提供的地面真实扫描进行比较，遵循相应的评估协议（见第5.3节）。由于这两个基准仅提供面部前部的扫描，无法通过这些方法验证整个头骨的重建-这就是我们通过我们的标注员的视觉验证的地方，如图2（右）所示。我们仅在中性图像上明确验证准确性，因为3D扫描不能捕捉情绪，请参见Tab. 1a，Tab.1b中的定量结果。有关视觉比较，请参见图4。请注意，表示是粗糙的（与FLAME拓扑结构[38]相同），我们不打算建模皱纹和扫描仪可以捕捉到的其他细节。3D头部姿态估计。为了验证头部姿态的拟合效果，我们将我们的标注的旋转矩阵与BIWI数据集[23]中的地面真实矩阵进行比较。它们是由Kinect v2传感器捕获的，测量误差为20mm [43]。0(a) NoW [53]数据集，“多视图中性”子集。0模型中位数（mm）平均值（mm）标准差（mm）03DDFA-V2 [27, 28] 1.360 1.762 1.621 RingNet [53] 1.3161.659 1.392 DAD-3DHeads 1.109 1.386 1.1660(b) Stirling [1]数据库，“中性表情，四个视角”子集。0模型 3DRMSE（mm）中位数（mm）平均值（mm）标准差（mm）0RingNet [53] 2.793 1.633 2.112 1.828 3DDFA-V2 [27, 28] 2.550 1.508 1.9271.670 DAD-3DHeads 2.488 1.447 1.873 1.6380表1. 在NoW和StirlingDB上进行的3D面部形状重建的DAD-3DHeads准确性；参考SOTA方法。0方法 || I − R 1 R T 2 || F 角度误差（度）0Img2Pose [2] 0.228 9.336 DAD-3DHeads 0.1496.0370表2. 在BIWI[23]上进行的3D头部姿势估计的DAD-3DHeads准确性；参考SOTA方法。R1RT2偏差与单位矩阵的测量范围在(0, 02 ) 范围[30]。0方法 F Q (平均NME) 最佳样本NME02D 68个关键点 3.210 2.326 DAD-3DHeads 68个关键点1.737（↓45.8%）1.3020表3.质量评分。3D注释将全局平均NME降低了45.8％，例如见图5。0为了比较矩阵R1和R2，我们计算差异旋转R1RT2，并测量矩阵I−R1RT2的Frobenius范数，如[30]所示，以及R1RT2的轴角表示中的角度，请参见表2。03.4. 注释质量0为了验证我们注释的质量，我们从数据集中选择了N =30个不同类别的图像子集。每个图像由10个不同的注释者按照传统配置[26]手动标记了68个面部标记点。相同的图片在我们的3D标注工具中按照我们的注释方案（第3.1节）进行了标记。从3D注释中计算出68个重投影的标记点，以便与手动的2D点标签进行比较。我们计算每种方法的质量评分FQ（见表3），在图像之间进行平均，作为每对标签之间的标准化平均误差：0其中d n是头部边界框的大小，如[32, 69]所使用，−→x是68个标记的标志数组。由于我们的数据主要是非正面的，我们不使用眼睛标记距离作为归一化因子。209460图4. DAD-3DHeads在NoW数据集的选定样本上的准确性。(a) GT扫描；(b) 输入图像；(c) 我们注释的结果；(d)网格对齐（线框）和GT扫描（叠加颜色编码的错误）。错误的尺度与扫描的实际尺寸相关。请注意，生成的网格准确地捕捉到头部前部的粗略形状，高误差区域与细微的面部结构严重重叠。我们在补充材料中提供了更多高分辨率的示例，以展示这一现象。最好放大并以彩色查看。0图5.注释一致性。使用我们的3D注释方案（左）和68个2D点（右）标记的图像。不同的颜色对应不同的标注者。由于3D头部模型的先验条件，标注者是一致的，这确保了DAD-3DHeads数据集即使在极端多样的条件下也具有高质量。传统方法对不可见的标记点的标注高度不一致，而使用3D网格拟合可以确保即使在遮挡部位也具有高一致性。0限制。这种标注方案只能部分控制深度。为了缓解这个问题，我们（i）为注释者提供了在3D中将纹理渲染到网格上的能力，这样他们可以直观地检查缺乏深度信息是否破坏了头骨形状，并且图像是否提供了真实的纹理；（ii）提出了一个评估深度质量的Zn度量（见第5.1节）。04. 方法0我们的目标是从单张图像中估计一个紧凑的3D头部表示。给定一张图像，我们假设头部被检测到，松散地裁剪，并且大致居中。我们引入了一种新颖的架构DAD-3DNet，它预测一个解耦的3DMM参数向量。0将形状、表情和姿势以及一组密集的2D关键点分离出来。关键点作为额外的监督和正则化，扩展了可以从DAD-3DNet模型中受益的应用范围。DAD-3DNet架构如图6所示。04.1. DAD-3DNet架构0我们的架构包括（i）一个CNN编码器，用于从图像中提取特征，（ii）基于BiFPN的关键点热图估计器，用于预测2D关键点的粗略位置，（iii）融合模块，将热图预测与编码器特征融合，（iv）回归模块，预测更精细的面部关键点位置和3DMM参数。我们还使用（v）一个差分FLAME层，将3DMM向量映射到3D网格顶点。预训练的CNN编码器从骨干网络的前四个阶段提取特征。关键点热图估计器以第二到第四阶段的特征图作为输入，使用BiFPN预测粗糙的高斯热图，实现了简单快速的多尺度特征融合。将1/4原始空间分辨率的高斯热图插值到第四阶段特征图的大小。融合层将插值的高斯热图、原始特征图和BiFPN特征图结合起来，使用Inception模块编码多尺度表示。线性层在编码器表示之后提取2D关键点位置。04.2. 目标函数0我们引入了一个多组件损失函数，用于DAD-3DNet的端到端训练，为网络的不同分支提供监督。损失函数由四个不同的部分组成：形状+表情损失（L3D），209470图6.DAD-3DNet架构设计和模型训练从多分支设置中受益于丰富的注释。高斯热图估计器预测头部关键点的粗略位置。融合块将粗热图、BiFPN特征图和CNN编码器输出组合起来，回归一组3D头部模型参数和更精细的头部关键点位置。0投影损失（Lproj）结合姿势信息，关键点回归（L1）和高斯热图损失（LAWing[61]）为2D面部关键点预测分支提供监督。详细的消融研究（第5.4节）显示了每个组件的重要性。形状+表情损失：按照[53]中使用的符号，我们将3DMM系数表示为：形状系数→β∈R|→β|，表情系数→ψ∈R|→ψ|。全局旋转姿势由→θr∈R6建模，以保持表示的连续性[74]，并与下颌旋转姿势向量→θj∈R3分离。在我们的方法中，我们假设颈部→θn∈R3和眼球→θe∈R6的旋转系数均为零。全局旋转预测设置为零，以评估我们的预测与3D中的真实情况之间的差异。通过可微分的FLAME层，从3DMM参数计算出3D顶点。由于FLAME模型[38]包含头部和颈部，但我们的任务仅限于头部网格估计，我们对顶点向量→v=→v�→β,→ψ,→θj�进行了子采样，仅保留“头部”顶点索引集合I：→v|I。地面实况和预测网格在尺度和位置上可能不同，因此我们将其归一化以适应单位立方体。最终的损失项衡量了归一化子采样顶点之间的差异：0L3D � −→β, −→ψ, −→θj� = ��φ� −−−−→vpred|I� − −−−→vGT|I��2. (2)0重投影损失是通过将姿态网格的3D顶点投影到图像上计算的。姿态网格是上述的“零姿态”网格，我们对其应用相似变换（旋转R(−→θr)，均匀缩放s和平移−→t）。然后，重投影是一个简单的正交投影到图像平面上。同样，只有“头部”顶点包括在损失计算中。使用L1准则作为差异度量。0重投影损失是通过将姿态网格的3D顶点投影到图像上计算的。姿态网格是上述的“零姿态”网格，我们对其应用相似变换（旋转R(−→θr)，均匀缩放s和平移−→t）。然后，重投影是一个简单的正交投影到图像平面上。同样，只有“头部”顶点包括在损失计算中。使用L1准则作为差异度量。04.3. 实现细节0我们使用PyTorch实现了所有模型。骨干网络使用在ImageNet上预训练的权重进行初始化。可微分的FLAME层在训练过程中保持固定。可学习的头部形状和表情参数的数量分别设置为300和100。所有模型使用1个RTX A6000GPU进行训练，批量大小为256。我们使用ADAM优化器，学习率为1e-4，并使用学习率衰减因子为0.5的学习率调整器，在验证损失不再减小时，每六个周期减小一次学习率。训练需要一天收敛。为了保持头部的比例和形状，图像被填充为正方形大小，然后调整为256x256。我们在训练所有模型时没有进行任何图像增强。05. 实验评估0我们提出了DAD-3DHeads基准来评估（i）从图像中进行3D密集头部对齐的任务，（ii）在我们的数据上训练的模型对一系列3D头部学习任务的泛化能力，以及（iii）对极端姿势的鲁棒性。为了解决（i），我们对DAD-3DNet和几种现有方法在我们的基准上进行了全面分析，并在表4中报告了结果。为了测试泛化能力（ii），我们分析了DAD-3DNet在已建立的3D面部形状重建和3D头部姿势估计基准上的性能，详见第5.2节、第5.3节。为了测试鲁棒性（iii），我们在相机姿势的训练/测试分布转移下评估了DAD-3DNet，并在补充资料中报告了我们的发现。.We evaluate DAD-3DNet on AFLW2000-3D and BIWIdatasets for the task of 3D Head Pose Estimation.BIWI Dataset [23] is gathered in a laboratory setting byrecording RGB-D video of different subjects across varioushead poses using a Kinect v2 device. It contains frames withthe rotations ±75◦ for yaw, ±60◦ for pitch, and ±50◦ for roll.A 3D model was fit to each individual’s point cloud, and thehead rotations were tracked to produce the pose annotations.AFLW2000-3D Dataset [76] consists of the first 2,000subjects of the in-the-wild AFLW dataset, which has beenre-annotated with image-level 68 3D landmarks and conse-quently, contain fine-grained pose annotations.Results: We report the results in Tab. 5a, Tab. 5b. Theproposed model outperforms all other 3DMM estimationmethods by a large margin, and shows comparable perfor-mance to other state-of-the-art methods for head pose esti-mation.209480表4.DAD-3DHeads基准上与最先进的3D密集头部对齐模型的比较：我们在完整的测试数据集以及具有挑战性的非典型姿势（Pose）、复合表情（Expr.）和严重遮挡（Occl.）子集上计算指标。DAD-3DNet在所有子集上都表现出优越的性能。注意：Zn仅适用于使用FLAME网格拓扑的方法。0姿势NME ↓ Z 5 准确度 ↑ Chamfer距离 ↓ 姿势误差 ↓0总体姿势表情遮挡总体姿势表情遮挡总体姿势表情遮挡总体姿势表情遮挡03DDFA-V2 [27, 28] 3.580 7.630 3.168 3.195 - - - - 6.17 8.878 6.410 6.400 0.527 0.790 0.455 0.542 RingNet [53] 8.757 26.732 5.010 12.660 0.880 0.743 0.913 0.860 5.166 5.7045.792 5.993 0.438 1.076 0.294 0.551 DAD-3DNet 2.302 6.049 1.748 2.036 0.954 0.916 0.958 0.943 3.178 4.094 3.375 3.774 0.138 0.343 0.112 0.20305.1. 指标0给定一个特定帧上的真实网格M和经过后处理的模型输出-预测的3D顶点V，我们计算V与M的拟合程度。拟合度量了姿势拟合以及脸部和头部形状匹配。我们提出了两个新的评估协议指标：重投影NME和Zn准确度，除了之前报告的用于3D头部学习任务的Chamfer距离和姿势误差。重投影NME：我们计算将3D顶点在图像平面上的投影归一化后的平均误差，考虑X和Y坐标。与公式（1）类似，我们使用头部边界框大小进行归一化。该指标在68个地标上计算[26]。Zn准确度：由于我们的注释方案仅依赖于模型先验和在图像上的投影，我们不能保证绝对深度值与传感器数据一样准确。我们通过测量相对深度作为Z坐标的序数值来解决这个问题。对于GT网格的每个顶点vi，我们选择K个最近的顶点{v1i，...，vKi}，并计算哪些顶点更靠近（或更远离）相机。然后，我们比较每个预测顶点wi是否具有相同的配置：Zn = 1 K 1 n � Ki=1 � nj=1 � (vi � z vji) == (wi � zwji)�。我们只在“头部”顶点的子集上进行计算。Chamfer距离：由于Zn指标仅适用于遵循FLAME网格拓扑的预测，我们添加了Chamfer距离来衡量拟合的准确性。为了确保适应任意数量的预测顶点，我们从我们的真实网格到预测网格计算单侧Chamfer距离。我们通过七个关键点对应[53]对齐它们，并仅计算“脸部”顶点的距离（参见补充资料中的图5），遵循传统方法[39,53]。姿势误差：为了衡量姿势预测的准确性，我们希望克服在AFLW2000-3D[36]数据集中观察到的问题。AFLW2000-3D的创建者使用欧拉角来测量头部姿势。这种表示高度依赖于旋转应用的顺序。每当第二个旋转超过π时，就会出现问题。0在任何方向上旋转2度，即极端头部姿势，其他旋转轴变得线性相关，从而为相同的变换产生无限多个表示[15]。可以在AFLW2000-3D[36]基准测试中观察到由此引起的不一致性，如图7所示。为了避免这种情况，我们基于旋转矩阵[30]衡量姿态预测的准确性（见第3.3节）：误差姿态 = || I - R1RT2 || F0图7.AFLW2000-3D标签不一致。由于欧拉角表示法的不确定性，一些侧面或极端非典型姿势的标签不一致。0我们在AFLW2000-3D和BIWI数据集上评估DAD-3DNet的3D头部姿态估计任务。BIWI数据集[23]是通过使用Kinectv2设备在实验室环境中记录不同主体在各种头部姿势下的RGB-D视频来收集的。它包含具有偏航角±75°、俯仰角±60°和横滚角±50°的旋转的帧。对每个个体的点云拟合了一个3D模型，并跟踪头部旋转以产生姿态注释。AFLW2000-3D数据集[76]包含AFLW数据集中的前2000个主体，该数据集已经重新注释为图像级别的68个3D关键点，并因此包含细粒度的姿态注释。结果：我们在表5a和表5b中报告结果。该模型在所有其他3DMM估计方法中表现出色，并在头部姿态估计方面显示出与其他最先进方法相当的性能。05.2. 3D头部姿态估计05.3. 3D人脸形状重建0对于3D人脸形状重建任务，我们将DAD-3DNet的性能与两种最先进的公开方法进行比较：3DDFA-V2 [27,28]和RingNet[53]，在两个3D人脸形状重建基准测试中进行比较：NoW[53]和Feng等人[39]。NoW人脸挑战：NoW基准测试旨在从单目图像中进行3D人脸重建209490表5. 3D头部姿态估计结果。0模型 MAE（↓）俯仰角MAE（↓）横滚角MAE（↓）偏航角MAE（↓）03DDFA [27, 77] 19.07 12.25 8.78 36.18 Fan（12个点）[16] 7.88 7.48 7.638.53 Dlib（68个点）[33] 12.25 13.80 6.19 16.76 HopeNet [21] 4.90 6.613.27 4.81 Img2Pose [2] 3.79 3.55 3.24 4.57 3DDFA-V2 [27, 28] 8.81 12.087.54 6.80 RingNet [53] 7.34 5.37 7.82 8.82 WHENet [75] 3.81 4.39 3.06 3.99DAD-3DNet 3.98 5.24 2.92 3.790(a) BIWI [23]0模型 MAE（↓）俯仰角MAE（↓）横滚角MAE（↓）偏航角MAE（↓）03DDFA [27, 77] 7.39 8.53 7.39 5.40 Fan（12个点）[16] 9.12 12.28 8.716.36 Dlib（68个点）[33] 13.29 12.60 9.00 18.27 HopeNet [21] 6.16 6.565.44 6.47 RetinaNet [20] 6.22 9.64 3.92 5.10 Img2Pose [2] 3.91 5.03 3.283.43 SynergyNet [62] 3.35 4.09 2.55 3.42 3DDFA-V2 [27, 28] 7.56 8.489.89 4.30 RingNet [53] 8.27 4.39 13.51 6.92 DAD-3DNet 3.66 4.76 3.153.080(b) AFLW2000-3D [76]0表6. 3D人脸形状重建结果。0模型中位数（mm）↓ 平均值（mm）↓ 标准差（mm）↓03DDFA-V2 [27, 28] 1.234 1.566 1.391 RingNet [53] 1.207 1.5351.306 DAD-3DNet 1.236 1.541 1.2850(a) NoW [53]0模型 3DRMSE（↓）中位数（mm）（↓）平均值（mm）（↓）标准差（mm）（↓） HQ LQ HQ LQ HQ LQ03DDFA-V2 [27, 28] 2.998 1.500 1.779 1.942 2.350 1.704 2.149 RingNet [53]2.809 1.698 1.634 2.161 2.113 1.832 1.831 DAD-3DNet 2.749 1.558 1.624 1.9402.082 1.581 1.7950(b) Feng等人[39]0图像。数据集包含100个主体的2054个2D图像。根据评估协议，我们预测网格，然后根据七个地标点将其与相应的地面真实扫描进行刚性对齐。计算它们之间的扫描到网格距离。在表6a中报告了计算得到的平均值、中位数和标准差误差。Feng等人的基准：[39]提供了Stirling/ESRC3D人脸数据库的一个子集作为他们的挑战测试数据集。测试数据集包括2000个2D各种表情的面部图像，包括在受控场景中拍摄的656个高质量（HQ）图像和从视频帧中提取的1344个低质量（LQ）图像[1]。按照[39]的协议，我们执行上述步骤，并计算预测网格与地面真实扫描之间的扫描到网格距离。这些距离用于计算3DRMSE。我们还分别计算HQ和LQ图像的平均值、中位数和标准差误差，以进行深入分析。0评估结果在表6b中提供。结果：DAD-3DNet在不使用明确的形状和表情解缠损失的情况下，对粗糙的3D密集头部对齐显示出优越的性能。05.4. 消融研究0在本节中，我们验证了单独损失组件的效率，并展示了训练数据的影响。我们在表7中报告了消融研究的结果。0组件NME ↓ Z 5 准确率 ↑ 姿势 ↓01 基准 2.576 0.880 0.267 2 +全脸重投影损失 2.395 0.873 0.263 3+全头重投影损失 2.500 0.943 0.172 4 +形状+表情损失 2.4710.951 0.139 5 +地标预测头部 2.302 0.954 0.1380表7.DAD-3DNet对DAD-3DHeads的消融研究：损失项对拟合精度有重要影响，多头架构改善了模型的泛化能力。0重投影损失：基于重投影地标的监督是训练算法的核心部分。与使用68个关键点的监督模型相比，我们只添加了基于所有可用面部和头部点的重投影损失。加入其他面部地标的信息提高了重投影的68个地标的准确性，但不影响其他指标，也不改善3D拟合；添加整个头部的点大幅改善了所有指标。形状+表情损失：对归一化的3D顶点位置进行丰富的监督，使模型能够编码更细微的关于3D头部姿态的信息。如表7所示，该组件改善了所有指标，并显著减小了3D头部姿态误差。地标头部：多任务训练改善了模型的稳定性，并强制模型更倾向于更一般的表示。通过地标回归和粗糙热图估计模块，模型在所有指标上都取得了显著的性能提升。06.

下载后可阅读完整内容，剩余1页未读，立即下载