RetinaFace：一种野外多层次人脸定位方法

53 浏览量更新于2023-10-25 收藏 2.55MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1RetinaFace：野外单次多层次人脸定位邓建康*1，2，3郭佳*2Evangelos Ververas1，3Irene Kotsia4Stefanos Zafeiriou1，31帝国理工学院2InsightFace3 FaceSoft4伦敦米德尔塞克斯大学{j.deng16，e.ververas16，s.zafeiriou}@imperial.ac.ukguojia@gmail.com，i. mdx.ac.uk摘要尽管在非控制人脸检测方面取得了巨大的进步，但在野外环境中准确高效的二维人脸在本文中，我们提出了一种新的单镜头，多层次的人脸定位方法，命名为Reti- naFace，它统一了人脸框预测，2D人脸地标定位和3D顶点回归下一个共同的目标：在图像平面上的点回归。为了填补数据缺口，我们在WIDER FACE数据集上手动注释了五个面部标志，并采用半自动注释管道来从WIDER FACE、AFLW和FDDB数据集生成面部图像的3D顶点。基于额外的注释，我们提出了一个互惠的回归目标的3D人脸重建，即预测3D顶点投影在一个共同的3D拓扑结构约束的所提出的3D人脸重建分支可以容易地合并，没有任何优化困难，在联合训练期间与现有的框和2D地标回归分支并行大量的实验结果表明，Reti- naFace可以同时实现稳定的人脸检测、准确的二维人脸对齐和鲁棒的三维人脸重建，同时通过单次推理是高效的。1. 介绍人脸自动定位是人脸图像分析的前提条件，在许多应用中，如人脸属性分析（例如，表情[64]和年龄[41，39]）和面部身份识别[18，12，56]。面部定位的狭义定义可以指传统的面部检测[54，62]，其目的是在不拥有任何比例和位置先验的情况下估计面部边界框。然而，在本文中，我们指的是一个更广泛的定义面本地-*平等捐款。InsightFace是一个用于2D和3D人脸分析的非营利Github项目图1.面对定位任务从粗到细。人脸检测只能预测一个中心点和尺度。人脸姿态估计计算缩放、3D旋转和平移参数。稀疏面部对齐定位更多语义点。人脸分割计算不同语义成分（例如，嘴、眼睛）。3D人脸重建可以为人脸的每个像素建立密集的3D对应关系，这是信息量最大且要求最高的人脸定位技术。该系统包括面部检测[43]、面部姿态估计[48，60，31，5]、面部对准[14，57，17，16，15，58，23]，人脸分割[50，34]和3D人脸重建。[72，1，19，70]。在图1中，我们显示了具有多个细节级别的面部定位任务，从粗到细。通常，面部姿态估计、面部对准、面部分割和3D面部重建是面部检测之后的步骤。这些精细研磨面定位任务在各个面作物上执行，并且计算复杂性随着输入图像中的面的数量线性增加。由于从人脸检测到3D人脸重建的所有人脸定位任务都旨在建立不同人脸图像之间的语义对应关系，它们的主要区别仅在于信息水平，因此出现的问题是，我们是否可以通过联合训练将它们组合到一个统一的框架中，并使52035204不同的任务相互受益人脸检测的训练过程通常包含分类和盒回归损失[21]。Chen等人[8]提出在联合级联框架中结合人脸检测和对齐，基于对齐的人脸形状可以为人脸分类提供更好的特征的受[8]的启发，MTCNN [66]和TMN [7]同时检测了人脸和五个面部标志。由于训练数据的限制，JDA [8]，MTCNN [66]和STN [7]尚未验证微小面部的检测是否可以从五个面部标志的额外监督中受益。在Mask R-CNN [25]中，通过添加用于预测对象掩码的分支与用于边界框分类和回归的现有分支并行，检测性能得到了显著提高。这证实了密集的逐像素注释对于改进检测也是有益的在FAN [55]中，提出了一种锚级注意力图来改进遮挡人脸检测。然而，所提出的注意力地图是相当粗糙的，不包含语义信息。在MFN [6]中，提出了一个单端到端网络来联合预测多个面的边界框位置和3DMM参数这有助于通过利用来自边界框的2D信息然而，与语义点预测相比，3DMM参数预测构成间接回归目标（例如，框中心）。在本文中，我们基于单镜头[40，69，51]框架探索了不同人脸定位任务（人脸检测，2D人脸对齐和3D人脸重建）的联合学习。为了克服训练数据的限制[6]，我们人工注释了84个面部标志。来自WIDER FACE训练数据集的6k张面孔[59]。此外，我们建立了一个半自动注释管道，用于从WIDER FACE数据集[59]，27中为22 k个面生成1k个3D顶点。来自AFLW数据集的1k张面孔[30]和39。来自FDDB完整图像集的3k个面[28]。基于这些训练数据，我们提出了一种创新的，直接的和有效的三维网格回归方法。更具体地说，我们直接回归图像空间中的x，y和z坐标，并添加正则化项来控制网格中三角形的边缘距离，以更准确地预测z坐标。面部边界框位置、5个面部地标和1k个3D顶点的联合学习迫使网络学习表征面部姿势、形状和表情的独有面部特征，以及区分面部区域和背景。由于五个面部标志定位和3D顶点回归都以预测图像平面上的语义点为目标，因此面部框预测受益于联合学习并且变得更准确和稳定，产生更少的误报。此外，作为一个在人脸检测和其余精细研磨人脸定位任务的联合训练中采用了经过设定但具有挑战性的人脸检测数据[59]（对于这些任务，通常采用挑战性较小的数据集，例如，[30]），它们直接有助于稳健的3D网格回归。概括而言，我们的主要贡献包括：我们将人脸边界框预测、2D人脸地标定位和3D顶点回归集成在统一的多层次人脸定位任务下，具有共同的目标：在图像平面上的点回归。基于单次推理，我们提出了一个互利的学习策略来训练一个统一的多层次人脸定位方法，该方法同时预测人脸边界框、5个2D人脸地标和1k个3D顶点。我们的方法在人脸检测和2D人脸对齐以及具有单次推理的鲁棒3D人脸重建方面实现了最先进的性能。2. 相关工作人脸检测。受通用对象检测方法的启发[21，46，38，44，45，35，36]，人脸检测最近取得了显著的进步[27，40，69，10，51]。与一般的目标检测不同，人脸检测具有较小的比例变化（从1：1到1：1.5），但更大的尺度变化（从几个像素到数千个像素）。最新的最先进的方法[40，69，51]专注于单次设计[38，36]，其在特征金字塔[35]上密集采样面部位置和尺度，与两阶段方法[46，63，10]相比，展示了有前途的性能并产生更快的推断。遵循这条路线，我们提高了单镜头人脸检测的性能，利用额外的监督，从多层次的人脸定位任务。三维人脸重建。建立密集的像素到像素的对应关系是从2D图像重建3D人脸的最基本的问题之一。最近很多的作品遵循使用CNN从2D图像回归3DMM参数的方法[29，72，53，47，24，52]。Jourabloo等人[29]采用级联CNN来交替回归形状和姿势参数。3DDFA [72]利用单个CNN上的级联迭代来联合回归形状和姿态参数。然而，由于姿态和3DMM参数是2D人脸图像的间接信息，因此网络预测的变化可能会产生巨大的视觉误差。最近，模型参数回归方法已变为密集对应回归方法[1，19]。通过使用中间UV表示，DenseReg [1]预测UV坐标，PRN [19]预测UV空间中重新排列的3D坐标。然而，UV变换仍然是2D图像的间接表示。在本文中，我们采用最简单的3D表示：3D顶点投影···5205L中心∗LN∗L LLJ中心J+λ2pL3鼻尖···（y −y−投射到图像平面上。这种表示与面部检测和2D面部地标定位的回归目标一致，并且易于在单次拍摄，多级面部定位框架中进行优化由于并联3.2.多层次人脸定位对于任何训练锚i，我们最小化以下多任务损失：通过人脸检测和2D人脸对齐进行训练，我们的3DL=L∗ ∗ ∗Lcls（pi，pi）+λ1pibox（ti，ti）（三）人脸重建分支在野外环境场景3. 该方法∗ ∗ ∗ ∗ipts（l i，li）+ λ pi Lmesh（v i，vi）。其中ti，li，vi是盒子，五个地标和1k个顶点，dictions，t，l，v是相应的地面真值，pi是我我我3.1. 3D人脸重建在图3中，我们示出了预定义拓扑三角形上下文上的固定数量的 N个顶点（ V=[x1 ，y1 ，z1;x2 ， y2，z2;;xN，yN，zN]）。这些对应的顶点在不同的面上共享相同的语义含义。使用固定三角形拓扑，锚点i是面部的预测概率，并且pi是1表示正锚点，0表示负锚点。的分类损失CLS是二元类（脸/非脸）的softmax损失。对于中心坐标为xa的正锚点，ya和scalesa，我们有盒子大小回归tar-中央公园获取：log（w /s）和log（h /s）[21]，其中w和h面可以通过重心坐标索引，三角形索引，因此存在与3D面部的逐像素比较图中的Mesh68和Mesh1k3，很明显，更多的顶点使网格更多是地面实况面框的宽度和高度。此外，我们有以下统一的点回归目标，用于多级人脸定位任务：信息丰富，流畅。由于最后一层的参数随着回归输出的大小线性增加，我们选择回归1k +68个顶点，这是（xxa）aj中心）/sa，）/sa，（z−z））/sa，（4）保留三维面结构。在本文中，我们直接回归三维顶点的二维图像平面。As each densely aligned 3D face is repre- sented byconcatenating its N vertex coordinates, we em- ploy thefollowing vertex loss to constrain the location of vertices:其中，xj和yj是图像空间中的两个框角、五个面部界标和1k个 3D顶点的地面实况坐标，并且zj是1k个3D顶点的地面实况z坐标当我们使用正投影生成地面实况3D网格时，我们平移所有顶点，使鼻尖的z坐标为0。在-1ΣNvert=i=1||1、（1）||1,(1)因此，我们通过锚标度将z我们遵循[21]并对所有上述回归目标使用平滑L1损失由于这三项本地化任务是何-其中N=1103是顶点的数量，V是预测值。我们的模型和V是地面真理。图像中可见顶点的x和y坐标年龄空间可以直接从输入的人脸图像中学习。然而，预测z坐标以及不可见顶点的x和y坐标是具有挑战性的，这是由于将面从3D投影到2D时发生的信息丢失通过利用3D三角剖分拓扑，我们考虑边长损失[37]：在异构的情况下，损耗平衡参数λ1-λ3都被设置为1。如示于图4、人脸检测、5个2D人脸标志定位和3D人脸重建是针对不同层次的定位细节的三个人脸定位任务，然而，这三个任务具有相同的目标：图像平面上的精确点回归。在单镜头人脸检测设计中集成3D顶点的直接回归，不会引起优化困难，因为它是compatible的。1L边缘=3MΣMi=1||第一条、第二条||1,(2)与盒中心回归和五个面部标志回归。每个任务都可以从其他任务中受益，例如：(1) 更多语义点的本地化有助于更多其中M=2110是三角形的数量，E是根据预测计算的边长，E是根据地面实况计算的边长。边缘图是一个固定的拓扑结构，如图所示。3 .第三章。通过结合顶点损失和边缘损失，我们将网格回归损失定义为：mesh=vert+λ0edge，其中λ0根据我们的实验经验设置为1。准确的框预测，以及（2）面部检测数据集中更具挑战性的训练场景导致更鲁棒的点预测。3.3. 单次拍摄多级人脸定位在图2中，我们提出了所提出的单镜头，多级人脸定位方法的框架。可以看出，我们的模型由三个主要组件组成：53，215个顶点[42]，仔细采样，以充分重新-5206××××× × ∈{×(a) 网络结构（b）多任务丢失图2. (a)概述了所提出的单镜头多级人脸定位方法。(b)我们损失设计的详细说明。RetinaFace基于具有五个尺度的特征金字塔设计。对于特征图的每个尺度，存在可变形上下文模块。在上下文模块之后，我们计算每个正锚的联合损失（面部分类、面部框回归、五个面部标志回归和1k个3D顶点回归）为了最小化本地化的残差，我们采用级联回归。图3.网格由顶点和三角形组成。 Mesh68是用于定量评估的粗略版本，Mesh1k是包括面部细节的更精细版本在本文中，我们同时回归Mesh68和Mesh1k。图4.三个面部定位任务具有不同的细节水平，但具有相同的目标：图像平面上的精确点预测。每个任务都可以从其他任务中受益。特征金字塔网络、上下文头模块和级联多任务丢失。首先，特征金字塔网络得到输入的人脸图像，并输出五个不同尺度的特征图。然后，上下文头部模块获得特定尺度的特征图，并计算多任务损失（Eq.（3）第三章。更详细地，第一上下文标头模块从常规锚点预测边界框，而随后，第二上下文标头模块使用由第一上下文标头模块生成的回归锚点来预测更准确的边界框。提出的RetinaFace采用完全卷积神经网络-工作，因此它可以很容易地以端到端的方式进行培训特征金字塔RetinaFace采用从P2到P6 的特征金字塔级别，其中P2到P5是使用自上而下和横向连接从相应ResNet残差阶段（C2到C5）的输出计算的，如[35，36]所示。P6是通过在C5上的步幅=2的3 3卷积来计算的。C1到C5是ImageNet-11 k数据集上的预训练分类网络，而P6是使用“Xavier”方法随机初始化的上下文模块受SSH [40]和Pyramid-Box [51]的启发，我们还在五个特征金字塔级别上应用独立的上下文模块，以增加感受野并增强刚性上下文建模能力。我们用可变形卷积网络（DCN）[11，71]替换了横向连接和上下文模块中的所有3个卷积层，这进一步增强了非刚性上下文建模能力。级联多任务损失为了进一步提高面部定位的性能，我们采用级联回归[4，65]与多任务损失（第二节）。3.2）。损失压头是尺寸的不同特征图之间的1×1卷积申H nWn256，n 2，. . .，6。第一个上下文头模块从常规锚点预测边界框。随后，第二上下文标头模块从回归的锚点预测更准确的边界框。锚点设置和匹配策略我们在从P2到P6的特征金字塔级别上使用特定于尺度的锚点，类似于[55]。在这里，P2旨在通过平铺小锚点来捕获微小的面部，但代价是更多的计算时间和更多的误报风险我们将缩放步长设置为21/3，纵横比设置为1：1。当输入图像尺寸为640640，锚可以覆盖鳞片，16 16到406 406的特征金字塔层级。总的来说，有102，300个主播，其中75%来自P2。对于第一个头部模块，当交集大于并集（IoU）大于0时，锚点与地面实况框匹配。7，并且当IoU小于0时到背景。3 .第三章。对于第二头部模块，匹配5207××L方法容易介质硬平均AP基线95.83295.24389.87552.65+DCN96.14995.56890.28653.36+级联96.23395.67990.64254.20L患者96.57095.91391.16154.73LVert96.51295.80590.98354.55L型网96.52895.82990.99154.62L5患者 +补片96.71396.08291.44755.02(a) 五大地标诠释(b)1k 3D顶点注释图5.我们注释了（a）5个面部标志和（b）1k个3D顶点，这些顶点可以从WIDER FACE数据集注释。当IoU大于0时，将其转换为地面实况框。5，当IoU小于0时返回到背景。4.第一章在训练期间，不匹配的锚点被忽略。我们使用OHEM [49，69]来平衡正面和负面的训练示例。4. 实验4.1. 数据集The WIDER FACE dataset [59] consists of 32, 203 im-ages and 393, 703 face bounding boxes with a high degreeof variability in scale, pose, expression, occlusion and il-lumination.如示于图5，我们根据面部标记的难度定义了面部图像质量的五个级别[13]。我们已经手动标注了五个面部标志（即，眼中心、鼻尖和嘴角）。训练集上有6 k张脸，验证集上的5k个面。为了从2D面获得精确的地面真实3D顶点，我们采用半自动的标注流水线。也就是说，对于每个面部，我们自动恢复68个3D地标[15]，并使用它们来驱动3DMM拟合算法[3]，以便重建投影在图像平面上的具有53K顶点的密集3D面部为了确保3DMM拟合结果的高质量，我们从拟合的面恢复UV纹理图，并要求注释器检查它们的伪影。如果拟合不准确，则注释器手动更新68个标志并获得另一个自动3DMM拟合。如果拟合仍然不准确，则会丢弃该面最后，我们从训练集中得到22k个在[6]之后，我们也完成了27。1k和39。使用我们的半自动注释方法，从AFLW数据集[30]和完整FDDB图像集[28]中获得3k3D面部注释。对于面部检测任务，仅使用WIDER FACE数据集的训练数据。对于其余的任务，来自AFLW和FDDB的面注释表1. RetinaFace（ResNet-50）在WIDER FACE确认子集和Hard测试子集上的消融实验。4.2. 实现细节数据增强由于WIDER FACE训练集中大约有20%的小脸，我们遵循[69，51]从原始图像中随机裁剪正方形补丁，并在训练期间将其调整为640 640分辨率。除了随机作物之外，我们还通过应用随机水平翻转和摄影色彩失真来增强训练数据集[69]。训练和测试详情我们使用SGD优化器训练我们的方法（动量为0。9，重量衰减为0。0005，批量大小为84），在四个NVIDIA Tesla P40（24 GB）GPU上运行。学习率从10−3开始，在5个epoch后上升到10−2，然后在55和68个epoch时除以10训练过程在80个时期终止。我们的实现在MXNet上[9]。关于发展经济学世界网面对，我们遵循[40，69]和employ翻转以及多尺度（[500，800，1100，1400，1700]的较短图像大小）策略的标准实践框投票[20]使用0.4的IoU阈值应用于预测的面部框的并集对于其他任务的评估，Reti- naFace使用ResNet-50主干（模型大小：155 MB，速度：P40GPU上为22.3ms）。4.3. 人脸检测除了平均精度（AP）的标准评估指标外，我们还采用了IoU= 0的平均AP的更严格评估指标。五比零05：0。95，奖励更准确的人脸检测器。如Tab中所示1，我们评估了WIDER FACE验证集上几种不同设置的性能，并报告了Hard测试子集上的平均AP在这里，我们使用Resnet-50 [26]作为主干，并专注于平均AP的度量通过应用可变形上下文模块（DCM）和级联回归，我们将基线的平均AP提高到54。百分之二十5个面部标志回归（Lpts）和1k 3D顶点回归（vert）使平均AP提高0。53%和0。分别为35%。改善百分比的差异是由于五个面部标志比注释3D顶点容易得多，因此可以使用5个面部点注释的更多训练数据。数据集被采用，除了面部的子集，与AFLW 2000 -3D数据集的面重叠[72]。https://competitions.codalab.org/competitions/201465208L√×(a) 假阳性抑制（b）假阳性示例图6.联合5个面部标志点回归和1k个3D顶点回归可以（a）显著降低假阳性分数，并且（b）有效抑制高分假阳性。包括在其中，有助于实现更高的性能。将拓扑约束添加到1k 3D顶点回归中仅略微改善了面部检测。然而，它们对于预测z坐标和姿态是有益的（第12节）。4.5）。因此，我们采用网格损失（网格）。结合五个面部标志回归和网格回归显着提高性能0。百分之八十二除了提高面部方框的准确性，面部标志回归和1k个3D顶点回归可以有效地抑制假阳性的分数，如图1所示。第6（a）段。在图6（b）中，我们显示了一些高分假阳性（>0. 9）从基线开始制作。Reti- naFace的得分要低得多（<0。（3）这些作物。此外，对于基线，面部的类别信息仅是二进制标签，并且不存在关于图像质量的信息。相比之下，我们注释1k个3D顶点的容易到中等水平的脸，和五个面部地标的脸，可以被注释。这些注释隐含地指示了人脸的信息水平，这可以通过我们的模型来因此，RetinaFace仅对信息量很大的面部给出高置信度分数，而对信息量较少的面部给出低分数为了获得WIDER FACE排行榜的评估结果如图7，我们将RetinaFace与其他29种最先进的人脸检测算法（例如，[69]第69话，我的天啊！Box [51] 、 DSFD [33] 、 SFDet [68] 、 RefineFace [67]等）。我们的方法在AP方面创造了一个令人印象深刻的新记录（91。7%），并且在包含大量微小面的硬子集上优于这些最先进的方法。4.4. 五个面部地标定位人脸检测数据集比人脸对齐数据集更具挑战性[59]，人脸对齐数据集通常由具有高阈值的预训练人脸检测器收集。在下面的实验中，我们探索了同时进行点回归和人脸检测训练的好处。为了评估五个面部标志局部化的准确性，我们将RetinaFace与MTCNN [66]和图7. RetinaFace（ResNet-152）在WIDER FACE测试Hard子集上的精确-召回曲线。方法AUC（%）失效率（%）MTCNN [66]36.6326.31[7]42.6324.23RetinaFace-MobileNet0.547.1219.72RetinaFace-R5058.549.82RetinaFace（w/o 3D）-R5055.6610.25AFLW-R50-gtbox44.9125.40Wider-R50-gtbox61.558.78表2. WIDER FACE数据集上五个面部标志定位结果的总结准确度报告为曲线下面积 “- gtbox” refers to crop-based facealignment based on ground-truth facial[7]在WIDER FACE上验证设置（18.5k面）。在这里，我们采用面框大小（W H）作为归一化距离。在图8（a）中，我们显示了WIDER FACE验证集上的累积误差分布（ CED ）曲线如 Tab. 所示。 2 、 RetinaFace-MobileNet 0.5性能优于基准，故障率降低到19。百分之七十二通过采用更深的主干（ ResNet-50 ），RetinaFace-R50进一步将故障率降低到9。百分之八十二在从Reti- naFace中移除3D网格回归分支之后，AUC从58. 54%到55。百分之六十六这是因为3D网格回归是姿态不变的，并且联合训练框架可以提高2D五个面部标志的准确性。在图8（b）中，我们在AFLW 2000 -3D轮廓子集（232张脸）[72]上测试了RetinaFace，我们确认3D网格回归可以显著改善大姿势场景下的五个面部标志定位。我们进一步分别在AFLW数据集（24，386张面孔）[30]和WIDER FACE数据集上训练了两个基于作物的五个面部标志回归网络（ResNet-50）。即使有真实的面部表情，在AFLW训练仍然有很高的失败率（25。40%），这表明面部对齐数据集（AFLW）和面部检测之间的难度水平差异数据集（WIDER FACE）。即使在WIDER FACE上训练的模型达到最高性能，计算复杂度也随着输入图像中的人脸数量线性增加然而，RetinaFace实现5209方法眉眼睛鼻子唇DenseReg [1]47.6274.2987.7172.35L5患者 +垂直71.376.8590.9075.43L5患者 +补片72.2378.5192.2177.55表4.Helen测试集上的语义分割准确性[32]使用IoU比率测量。(a) （b）AFLW剖面图8.基线和Reti- naFace在五个面部标志定位上的定性比较。(a)WIDER FACE确认集（18 k面）上的CED（b）AFLW2000 -3D轮廓子集上的NME [72]。方法【0分，30分】[301，60日元][601，90日元]是说[第72话]3.674.949.676.123DDFA [72]3.434.247.174.94Yu等人[第六十一届]3.626.069.566.413D动画[2]3.154.335.984.49PRN [19]2.753.514.613.62FAMILY [5]3.113.846.604.52SS-SFN [6]3.094.275.594.31MS-SFN [6]2.913.834.943.89LVert2.773.704.953.81L型网2.723.654.813.72L5患者 +补片2.573.324.563.48表3.AFLW 2000 - 3D数据集上68个点的NME（%）比较仅略微降低性能，而其计算复杂度独立于每个图像中的面部数量而保持固定。4.5. 3D顶点回归在[19]之后，我们评估了AFLW 2000 -3D数据集[72]上3D顶点回归的准确性，考虑了68个点的2D投影坐标。通过边界框大小对平均误差进行归一化[72]。此外，我们的3D顶点预测可用于（1）姿态不变的面部组件分割[1]，以及（2）通过利用最小二乘解[19]而不是解决Pestrian问题的3D姿态估计。在选项卡中。 3 ，我们将所提出的 RetinaFace（ResNet- 50）与其他最先进的稠密回归算法（例如，PRN [19]和MS-SFN [6]等）在偏航角变化下的68个地标定位。所提出的直接3D顶点回归是超过能够处理68个面部标志定位下的姿态变化，实现了令人印象深刻的NME为3。百分之八十一 3D拓扑约束有助于将NME略微降低到3。百分之七十二在与人脸检测器联合训练2D地标回归和3D网格回归之后，我们实现了比最先进的方法更好的性能PRN [19]采用UV位置图回归，MS-SFN [6]采用3DMM参数回归，两者均为间接回归方法。与此相反，我们的方法直接回归投影的3D ver-表5.AFLW 2000 -3D数据集上的偏航角估计图像平面上的纹理，这可以受益于人脸检测和大规模五个人脸标志注释的训练场景。除了对面部标志定位的评估外，我们还可以将我们的3D顶点预测转换为不同语义成分的像素分割图[1]。在从1 k个顶点到53 k个顶点的额外线性回归之后，我们直接采用[1]中定义的分割掩模（右/左眉毛、右/左眼、鼻子和选项卡. 4报告了使用IoU比率对Helen测试集[32]的评估结果。请注意，这里的地面实况是由无变形坐标生成的[1]。结果表明，所提出的Reti- naFace（ResNet-50）优于基于间接UV坐标回归的DenseReg（ResNet-101）。相比之下，RetinaFace在图像平面上采用直接顶点回归，这有利于在图像上更准确地定位，例如，眉毛的实质性改善。考虑到RetinaFace没有针对分割任务进行优化，我们认为姿态不变的面部成分分割结果如图所示。9令人印象深刻由于我们可以直接预测3D顶点，因此姿态估计仅是作为回归地标和正面姿态中的模板面部的地标之间的最小二乘解获得的旋转矩阵的估计。在选项卡中。5，我们比较了RetinaFace（ResNet-50）与DenseReg [1]和PRN [19]的偏航角估计。DenseReg [1]和PRN [19]都使用中间UV表示，而RetinaFace在图像平面上采用直接顶点回归。从Tab中可以看到。5、RetinaFace能够以低方差预测更准确的偏航角，而拓扑约束可以进一步改善姿态估计。z坐标回归和姿态估计都试图从2D图像预测间接的3D信息，因此包含拓扑约束可以通过建立直接图像线索和间接信息估计之间的联系来促进这两个任务。在图9中，我们呈现了鼻尖处的姿态估计结果。Reti- naFace在表情变化、光照变化和遮挡下的姿态估计是鲁棒的方法【0分，30分】[301，60日元][601，90日元]DenseReg [1]4.第一章14±3。93五、96±4。74六、38±4。90PRN [19]3 .第三章。96±3。43五、75±4。42六、08±4。415210图9. AFLW 2000 -3D数据集上的RetinaFace结果示例。第一行：RetinaFace预测的1 k个3D顶点（ResNet-50，L5pts+mesh）。第二行：Vulkan工具包的3D姿态估计和网格渲染。第三行：姿态不变的面部组件分割。图10. RetinaFace（ResNet-50，L5pts+补片）与MFN [6]（第一行）的测试结果比较。我们展示了预测的1k 3D顶点（第二行）和Vulkan工具包渲染的3D网格（第三行）。请放大以检查缺失的面（第2-4列）和明显的错位（第5-6列）。4.6. 多人脸重建在图10中，我们在多面图像上比较了RetinaFace与MFN [6]。MFN采用单个端到端网络来联合预测多个面的边界框位置和3DMM参数。然而，3DMM参数回归不像我们在图像平面上的顶点回归那样简单。在第5栏和第6栏中，可以观察到最惠国待遇中的错位问题即使预测的3DMM参数中的微小变化也会显著影响重建结果。然而，RetinaFace可以精确地拟合面部边界。在第2、3和4列中，可以看出MFN遗漏了几个面。相比之下，我们的RetinaFace在WIDER FACE上实现了最先进的性能，即使在低光照条件下也可以轻松检测微小的面部。在图的最后一行10，我们渲染由RetinaFace预测的3D 1k顶点。5. 结论在本文中，我们创新性地将多层次人脸定位任务统一到一个共同目标下：在图像平面上的点回归。我们直接回归3D顶点在图像空间，同时受到所采用的3D面部模板的3D拓扑的约束。此外，所提出的3D网格回归分支可以容易地与现有的框和2D地标回归分支并行合并，而在联合训练期间没有任何优化困难最后，大量的实验结果表明，所提出的互惠设计可以同时实现准确的人脸检测、二维人脸对齐和三维人脸重建，并具有高效的单次推理能力。鸣谢。我们感激到Nvidia GPU捐赠和亚马逊的云信用。邓建康感谢帝国总统博士奖学金的财政支持。Stefanos Zafeiriou感谢来自EPSRC Fellowship DE-FORM （ EP/S 010203/1 ）、 FACER 2 VM （ EP/N007743/1）和谷歌教职员工奖学金Reti- naFace的早期版本可以在[13]中找到，其中Yuxiang Zhou通过图形卷积对彩色网格解码器做出了贡献，Jinke Yu对移动设备上的人脸检测实验做出了贡献。5211引用[1] Riza Alp Guler ， George Trigeorgis ， EpameinondasAnton- akos ， Patrick Snape ， Stefanos Zafeiriou ， andIasonas Kokki- nos.Densereg：完全卷积的密集形状回归。在CVPR，2017年。一、二、七[2] Chandrasekhar Bhagavatula ， Chenchen Zhu ， KhoaLuu，and Marios Savvides.比实时面部对齐更快：无约束姿态下的三维空间Transformer网络方法。InICCV，2017. 7[3] JamesBooth ， AnastasiosRupesos ， EvangelosVerveras，EpameinondasAntonakos，StylianosPloumpis，Yannis Panagakis，and Stefanos Zafeiriou.图像和视频中“野外”人脸的3D重建。TPAMI，2018年。5[4] 赵伟蔡和努诺·瓦斯康塞洛斯。Cascade r-cnn：深入研究高质量的对象检测。在CVPR，2018年。4[5] Feng-Ju Chang，Anh Tuan Tran，Tal Hassner，IacopoMasi，RamN ev atia和G e'rardMedioni。深度、无标志性的名声：面部对齐、建模和表情估计。IJCV，2019年。 1、7[6] Bindita Chaudhuri ， Noranart Vesdapunt ， and BaoyuanWang.多个人脸的联合人脸检测和人脸运动重定向在CVPR，2019年。二、五、七、八[7] 陈冬，刚华，方文，孙建用于高效人脸检测的监督Transformer网络。在ECCV，2016年。二、六[8] 陈冬，任少卿，魏亦琛，曹旭东，孙坚。联合级联人脸检测和对齐。2014年，在ECCV。2[9] Tianqi Chen ， Mu Li ， Yutian Li ， Min Lin ， NaiyanWang，Minjie Wang，Tianjun Xiao，Bing Xu，ChiyuanZhang，and Zheng Zhang. Mxnet：一个面向异构分布式系统的灵活高效的机器学习库arXiv：1512.01274，2015年。5[10] Cheng Chi，Shifeng Zhang，Junliang Xing，Zhen Lei，Stan Z Li，and Xudong Zou.用于高性能人脸检测的选择性细化网络。AAAI，2019年。2[11] Jifeng Dai，Haozhi Qi，Yuwen Xiong，Yi Li，GuodongZhang，Han Hu，and Yichen Wei.可变形卷积网络。InICCV，2017. 4[12] 邓健康，贾国，薛念南，Stefanos Zafeiriou。Arcface：用于深度人脸识别的附加角度余量损失。在CVPR，2019年。1[13] 邓建康，郭佳，周宇翔，俞金科，艾琳Kot-sia，和Stefanos Zafeiriou.Retinaface：野生环境中的单阶段密集面部定位。在arXiv：1905.00641，2019。五、八[14] 邓建康，刘青山，杨靖，陶大成。M3 CSR：多视图、多尺度和多分量级联形状回归。IVC，2016年。1[15] JiankangDeng ， AnastasiosRupensos ， GrigoriosChrysos，Evangelos Ververas，Irene Kotsia，Jie Shen，and Stefanos Zafeiriou.多姿态2d和3d面部标志定位和跟踪的menpo基准。IJCV，2019年。一、五[16] 邓建康、乔治·特里乔治斯、周宇翔和斯特法诺斯·扎菲里乌。在野外联合多视图面对齐TIP，2019年。1[17] Jiankang Deng ， Yuxiang Zhou ， Shiyang Cheng ， andStefanos Zaferiou.级联多视图沙漏模型用于鲁棒的3d人脸对齐。在FG，2018年。1[18] Jiankang Deng，Yuxiang Zhou，and Stefanos Zafeiriou.深度人脸识别的边际损失。在CVPR工作-商店，2017。1[19] Yao Feng，Fan Wu，Xiaohu Shao，Yafeng Wang，andXi Zhou. 结合位置映射回归网络的三维人脸重建与密集对齐在ECCV，2018。一、二、七[20] 斯派罗·吉达里斯和尼科斯·科莫达基斯基于多区域和语义分割感知cnn模型的目标检测。在ICCV，2015年。5[21] 罗斯·格希克。快速R-CNN。在ICCV，2015年。二、三[22] 泽维尔·格洛特和约舒亚·本吉奥了解训练深度前馈神经网络的困难。在AIS中-TATS，2010年。4[23] Jia Guo ， Jikang Deng ， Niannan Xue ， and StefanosZafeiriou.具有双变压器的堆叠密集u型网络，用于稳健的面部对齐。在BMVC，2018年。1[24] 郭玉东

下载后可阅读完整内容，剩余1页未读，立即下载