DeCaFA：用于野外人脸对齐的深度卷积级联

152 浏览量更新于2023-10-12 收藏 1023KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1DeCaFA：用于野外人脸对齐的深度卷积级联Arnaud Dapogny1，2，Kevin Bailly2，3和Matthieu Cord11LIP6，Sorbonne Université，CNRS，4 place Jussieu，75005 Paris2Datakalab，114 boulevard Malesherbes，75017 Paris3ISIR，Sorbonne Université，CNRS，4 place Jussieu，75005 Paris摘要人脸对齐是一个活跃的计算机视觉领域，它包括定位许多在数据集上变化的面部标志现有技术的面部对准方法包括端到端回归，或者从初始猜测开始以级联方式细化形状。在本文中，我们介绍了DeCaFA，一个端到端的深度卷积级联架构的人脸对齐。DeCaFA使用全卷积级来保持整个级联的完整空间分辨率。在每个级联阶段之间，DeCaFA使用具有空间softmax的多个链式传输层来为多个地标对齐任务中的每一个生成地标式注意力图。加权中间监督以及阶段之间的有效特征融合允许学习以端到端的方式逐步细化注意力图。我们的实验表明， DeCaFA 显着优于现有的方法在300W，CelebA和WFLW数据库。此外，我们表明，DeCaFA可以学习精细对齐合理的准确性，从非常少的图像使用粗略注释的数据。1. 介绍面部对准包括定位地标（例如，嘴唇和眼角、瞳孔、鼻尖）。它是一个重要的计算机视觉领域，因为它对于表情分析[28]，人脸识别[19]，跟踪[2]和合成[20]至关重要。最近的人脸对齐方法属于cas-caded回归或深度端到端回归方法。一方面这允许在第一级联级中鲁棒地学习刚性变换，诸如平移和旋转，然后学习非刚性变形（例如，由于面部表情）。图1. DeCaFA在其架构的几个阶段（水平方向：阶段1至4）。通过链接传输层，它可以集成异构数据（垂直：注意力地图和预测98，68和5-地标。另一方面，许多深度方法旨在直接从图像中对齐地标然而，因为标注地标是乏味的，数据是稀缺的，并且标注的性质变化很大。因此，端到端方法通常依赖于学习中间表示（例如，边缘）以驱动对准过程。然而，这些表示对于定位地标是特别的在本文中，我们介绍了一种用于人脸对齐的深度卷积相对于异构地标注释标记，它包含产生注意力地图的几个阶段。图1显示了后续阶段（水平）和三个标记（垂直）提取的注意力地图。这些注意力地图是通过这些标记中的每一个的连续阶段来因此，本文的贡献有三个方面：• 我们引入了一个完全卷积的深度级联人脸对齐（DeCaFA），它将级联的重新对齐和深度对齐结合在一起。渐进和端到端的深度方法，通过使用融合的地标式注意力图来提取当前地标估计周围的局部信息。68936894我我• 我们表明，中间监督与增加权重有助于DeCaFA学习粗糙的注意力地图在其早期阶段，这是细化以后。通过通过链接多个传输层，DeCaFA集成了异构数据并对任务间关系进行建模。• 我们的实验表明，DeCaFA显着优于现有的方法在多个数据集，包括最近的WFLW数据库。另外我们突出显示粗注释数据如何帮助学习精细地标对齐，即使使用很少的注释图像。2. 相关工作级联回归方法的流行示例包括SDM [25]。在他们的开创性工作中，Xiong等人表明，以cascad方式对SIFT特征使用简单的线性回归器提供了精确的比对。LBF[16]是一种改进，它采用随机决策树来显著加速特征提取。DAN [8]使用深度网络来学习每个级联阶段。然而，这些方法的一个缺点是更新回归量不是以端到端的方式联合学习的，因此不能保证学习的特征点比对序列是最佳的。MDM [21]通过在通过递归神经网络执行的级联的所有步骤之间共享卷积层来改进特征提取这导致存储器占用减少以及整个级联的更优化的界标轨迹。TCDCN [29]可能是第一个可以与级联回归方法竞争的端到端它依赖于对广泛的面部属性数据库进行监督预训练。最近，PCD-CNN [9]使用头部姿势来驾驶训练。CPM+SBR [5]采用界标配准来正则化训练。SAN[4]使用对抗网络将不同风格的图像转换为聚合风格，并在此基础上执行回归在[22]作者建议使用边缘图估计作为中间表示来驱动界标预测任务。最后，DSRN [15]依赖于傅立叶嵌入和低秩学习来产生这样的表示。然而，这种表示的使用通常是特别的，并且很难知道哪一个对于面部对齐来说是全面更好最近，AAN [26]提出使用中间特征图作为注意力掩模来选择相关区域。它还使用中间监督来约束这些地图，以对应于地标式注意力地图。然而，不能保证网络将学习以级联的、从粗到细的方式对齐地标。此外，根据几个面部标志来注释图像是一项耗时的任务。因此，数据训练，而WFLW数据库[22]包含7500张图像和98个地标。因此，人们可能会想，我们是否可以在同一个框架内使用所有这些图像来学习更鲁棒的地标预测，以及是否可以使用粗略注释的数据（例如，就5个地标而言[11]）将有助于解决更精细的任务。在[23]中，作者通过使用经典的多任务公式来解决这个问题。然而，这基本上忽略了不同地标对准任务的结构之间的内在关系同样，如果我们可以预测68个标志的位置，我们也可以很容易地推断出较粗糙标记的标志的位置，例如眼角/嘴角和鼻尖[11]。作者[27]建议预测所有地标的并集，其中稀疏形状回归流水线用于推断一个标记的缺失地标。然而，该方法要求地标的数量大致相等，因为细粒度（例如，98个地标）几乎不能被转换成非常粗糙的标记（例如，5分）。DeFA [10]提出将所有稀疏地标对齐任务统一到密集模型拟合中，然而，此类模型通常难以处理大的面部变形，例如。因为面部表情。3. DeCaFA概述在本节中，我们将介绍我们的深度卷积人脸对齐（DeCaFA），如图所示二、DeCaFA由S个阶段组成，每个阶段都包含一个保留完整空间分辨率的全卷积U网主干，以及一个注意力地图生成子网络。第3.1节展示了我们如何为一个地标预测任务导出地标式注意力图部分图3.2解释了相对于K个地标预测任务，几个转移层如何可以链接以产生这样的注意力图。下一阶段的输入是通过应用涉及注意力图的融合算法获得的，如3.3节所述。在第3.4节中，我们描述了如何通过加权中间监督以端到端的方式训练DeCaFA。最后，在第3.5节中，我们提供了实现细节，以促进再现性。3.1. 地标式注意力地图在阶段i的U-网接受一个输入Ii，并产生一个嵌入Hi和参数θi。为了从H1产生用于预测L个界标的合适嵌入我们应用具有参数θ′的L个滤波器的1×1卷积层。我们将由该传输层输出的嵌入表示为T_L。以突出其主导模式我们应用空间softmax算子。形式上，对于具有坐标（x，y）和界标l的像素：exp（TL（x，y，l））相当稀少，并以不同数量的ΦL（x，y，l）=i（一）地标例如，300 W数据库[17]包含ap-iXY exp（TL（x，y，l））提供3000张标记有68个标志的图像，我x=1y =1Σ6895我我x为oh不H不不i，xi，y我我我我我i，yi级联级1级联级SUblock1HU型网座S1HSfusion1融合蛋白S101Face crop不L1L111不L1SLS1地标式注意力地图zL11地标式注意力地图斯堪的纳维亚L1不LK0L1K01TSLk 0公司简介Lk 0拉斯L1K0拉斯LSk0不LKL1L1K不KSLSKzL1KLSK图2.DeCaFA架构概述。堆叠具有全卷积U网的几个阶段，链接多个传输层，并应用具有增加权重的中间监督来为异构对齐任务产生地标估计将地标式注意力图与输入图像和前一级U网的嵌入融合，以实现端到端级联对齐。可以通过计算ΦL的一阶矩来获得地标坐标的估计zL：.z<$L（l）=E [xΦL（x，y，l）]L1L1我我LkiLkL1我我L1Lk 0Lk我我我i，x i（二）L LLLzL（l）=Ex，y[yΦL（x，y，l）]2011年1月0日L1伊什博克其中zLi，y i和z∈L是两个大小为L的向量，包含我我我融合我我我融合x和y地标坐标zL。soft-ar gmax算子受到[13]中在人类姿态估计框架中的工作的启发，并且提供来自注意力图ΦL的可微分地标坐标估计。3.2. 链接地标定位任务如将在第4.1节中解释的，用于面部对准的现有数据集通常具有异构注释和不同数量的注释地标。为了处理这些异构的注释，我们整合了K个任务，包括预测不同数量的地标L1，. LK，其中k1，k2，k1≤k2=kLk1>Lk2（即，我们将地标式注意力地图以递减的方式要预测的界标的数量的顺序）。为了这样做，我们应用K个转移层TL1，.，带参数的T LK图3.链接（左）与独立（右）任务顺序。要本地化是双重的：首先，从语义的角度来看，谁能做得更多，谁就能做得更少，这意味着网络应该更容易按照该顺序学习传输层的序列（即，如果我们能够精确地定位68点标记，则也将容易定位鼻尖以及嘴角/眼角）。第二，用大量地标标记图像使用这样的架构可以确保前一个（较难）任务从后一个（较容易）任务注释的所有图像中受益。这可以看作是我我θ（1），.， θ（K），如图3（a）所示。我们有：.zLk（l）=Ex，y[xΦLk（x，y，l）]1≤k≤K弱监督学习，其中图像用术语标记可以帮助学习更精细的对齐任务。还要注意，由于这些1×1卷积层具有非常参数少，因此可以反向传播大量梯度i，x i（三）z<$Lk（l）=Ex，y[yΦLk（x，y，l）]1≤k≤K下至U-net主干网，并有利于K预测任务最后，如图3所示，我们使用注意力堆叠地标预测从标记k映射ΦLk0以提供更丰富的嵌入通过应用特征融合，以用于后续阶段的地标（a）连锁任务（b）独立任务H不不不06896S我我1 1SS我3.3. 特征融合在具有S个堆叠级的标准前馈深度网络中，第i+1级采用输入Ii=F1，其对应于由前一级输出的嵌入Hi。3.4. 学习DeCaFA模型DeCaFA模型可以通过优化以下损失函数进行端到端训练 U网参数θi和θ（1），.，对于转移层TL1，.，TLKre-我我我stage（约定I0=I原始图像）。通过相反，在基于级联的方法中，每个阶段都应学习通过使用围绕当前特征点定位采样的信息，更新以使特征点更接近地面实况定位。在端到端分别为1≤k≤K：L（θ1，θ（1），.， θ（K），.， θS，θ（1），.，θ（K））=K1（九）对于全卷积深度网络，类似的陈述将是第i+1阶段将使用局部嵌入k=1|zˆLk−zLk∗|LkF2，其使用来自由地标式注意力图ΦLk。突出显示的原始图像I的信息来计算。在我们的方法中，我们通过对所有映射求和来聚合这些映射。其中zLk表示Lk-地标标记的地面实况地标位置。在实践中，等式中的求和（9）具有较少的术语，因为通常每个示例都被注释地标式注意力图MiLLl=1 ΦLk0. 因此，在本发明中，只有一个标记。然而，在这种配置下，如果我们可以将用于基本深度方法的特征融合模型写为：F1（I，Hi，Mi）=Hi（4）和级联式方法：F2（I，Hi，Mi）=I⊙Mi（5）整个网络足够深，很少有梯度会通过第一个注意力地图。更糟糕的是，无法保证这些特征图在早期阶段与地标式注意力图相对应，这是确保DeCaFA级联式行为的关键。为了确保这一点，我们在每个空间softmax和阶段i的监督成本之后添加可微分soft-argmax层：L（θ1，θ（1），.， θ（K），.， θS，θ（1），.，θ（K））=其中⊙表示Hadamard乘积。输入图像和掩模之间的这种融合方案仅保留局部信息，对于该局部信息，Mi的值为高或者，我们可以重新注入原始图像I1 1ΣSi=1SΣKλik=1S1|zLk−zLk*|Lk（十）- 在每个级内部，使得它可以在掩码Mi不够精确或包含定位误差的情况下使用全局信息（如在级联早期的情况）：F3（I，Hi，Mi）= I||（I ⊙ Mi）（6）与||信道级级联操作。此外，我们还可以融合前一阶段的嵌入 Hi的相关部分（如由掩模 Mi突出显示的）。U-net为后续阶段提供更丰富、更抽象的信息来估计地标坐标：F4（I，Hi，Mi）= I||（I Mi）||（Hi Mi）（7）最后，我们不仅可以使用来自图像I的全局信息，还可以使用来自嵌入Hi的全局信息：F5（I，Hi，Mi）= I||（I Mi）||Hi||（Hi Mi）（8）这种融合模型更有效，并用于De-CaFA（图2），因为它允许使用估计地标周围的全局和局部信息，以便以端到端的方式学习级联式对齐。=6897在实践中，我们使用L1损失函数，在非常糟糕的例子上显示出过拟合较少，并导致更多精确的面部对齐结果。然而，我们需要确保（相对）浅的子网络不会在这些损耗上过拟合，这将导致在级联早期具有非常局部化的主导模式的非常窄的热图，从而导致整体较低的准确度。这通过在（10）中应用增加的λi3.5. 实现细节下面将研究的DeCaFA模型使用1到4个阶段，每个阶段包含12个3×3卷积层64→64→128→128→256→256通道下采样部分，上采样部分反之亦然。输入图像在被网络处理之前被调整为128×128灰度图像。每个卷积之后是一个批处理归一化层ReLU激活为了生成平滑的特征图，我们不使用转置卷积，而是使用双线性图像上采样，然后使用3×3卷积层。整个架构使用ADAM优化器进行训练，学习率为5e−4，动量为0。9、学习功率为0的速率退火。9 .第九条。我们应用400000更新每个数据库的批量大小为8，在数据库之间交替6898图4.在300W上比较了S=1，2，3，4级模型的累积误差分布（CED）曲线当我们堆叠级联级时，精度增加并且在第三/第四级之后饱和。图5. K=1、2和3地标预测任务模型的CED曲线。使用多个对齐任务训练的模型明显更好。表1. NME（%，（越低越好）在300 W-全，300 W-全，WFLW-All，WFLW-Pose和CelebA数据集之间取平均值。融合任务订单权重λiavg. NME（%）F1链式↑4.83F2链式↑5.04F3链式↑4.81F4链式↑4.80F5独立的↓5.11F5独立的=5.01F5独立的↑4.75F5链式↓5.05F5链式=4.91F5链式↑4.694. 实验在本节中，我们将介绍人脸对齐数据集（第4.1节）。然后，在第4.2节中，我们通过消融研究验证超参数。在第 4.3 节和第 4.4 节中，我们分别比较了DeCaFA与最先进的静态图像和视频对齐方法。最后，在第4.5节中，我们证明了DeCaFA适用于具有少量精细注释示例的弱监督学习。4.1. 数据集300 W数据库[17]包含头部姿势、面部表情和照明的适度变化。它由四个数据库组成：LFPW（811张列车图像/ 224张测试图像）、HELEN（2000张列车图像/330张测试图像）、AFW（337张训练图像）和IBUG（135个测试图像），总共3148个图像，其中标注了68个地标用于训练模型。为了与最先进的方法进行比较，我们将LFPW和HELEN测试集作为常见子集，将I-BUG作为300 W的挑战性CelebA[11]是一个大规模的人脸属性数据库，包含来自10k个身份的202k个图像，每个图像都注释了5个标志（鼻子、左右瞳孔、嘴角）。在我们的实验中，我们使用包含来自8kid的16k测试集包含来自1kid的20k实例。Wild 或 WFLW 数据库中的 WiderFacialLandmarks[22] 包含 10000 张人脸（ 7500 张用于训练，2500张用于测试），其中有98个带注释的地标。该数据库还具有丰富的属性注释，包括遮挡、头部姿势、化妆、照明、模糊和表情。300VW数据库[18]是一个视频对齐数据库，包含114个视频，总共218，595帧，分为三个不同难度的子集（A，B和C类，C是最具挑战性的）。在下文中，除非另有说明，否则我们使用300W，WFLW和CelebA的训练分区的级联来训练我们的模型，并在这些数据集的测试分区上进行评估如在[25，16，30，29，15，14，24，7]中，我们测量特征点之间的平均点对点欧几里德距离（NME），通过眼间距离（外眼角之间的距离）归一化我们还报告AUC和失败率的最大误差为0。1，以及累积误差分布（CED）曲线。68994.2. 消融研究在本节中，我们将验证模型的架构和超级参数：阶段的数量S、地标预测任务的数量K、融合和任务排序方案以及中间监督权重。图4显示了S=1、2、3和4级联级模型的CED曲线随着我们添加更多阶段，准确性稳步增加，并且在LFPW和HE-LEN上的第三个阶段之后饱和，这是级联模型的众所周知的行为[25，16]，表明具有加权中间监督的DeCaFA确实作为级联工作，首先提供粗略估计并在后期阶段进行细化。在IBUG上，这种差异更加明显，因此存在通过堆叠更多级联级来改进的空间。图5示出了链接多个任务的兴趣，最明显的是在包含低分辨率图像的LFPW粗注释数据（5个地标）显著有助于细粒度地标定位，它是一种弱监督方案。这将在第4.5节中更详细地讨论。表1示出了多重融合、任务排序和中间监督加权方案之间的比较。我们测试我们的模型在300 W（全和具有挑战性），WFLW（全和具有挑战性，即。姿势子集）以及CelebA，并报告这5个子集的平均准确度。首先，重新注入整个输入图像（ F3- Eq.（6）与F2-当量（5）显著提高了准确性，最显著的是在挑战性数据上，例如300 W 挑战性或WFLW 姿势，其中第一级联级可能会出错。F4-方程式（7）和使用局部+全局信息的F3融合（级联模型）与基本深度方法F1- Eq.（四）、此外，F5- Eq.（8）使用局部和全局线索的融合是最好的。此外，链接传输层（图3-a）比使用独立的传输层（图3- b）更好：同样，在这种情况下，第一个传输层在训练时受益于来自连续层的梯度最后但并非最不重要的是，在等式（10）中使用增加的中间监督权重（即，λ1=1/8，λ2=1/4，λ3= 1/2，λ4= 1）比使用恒定权重（λ1=λ2=λ3=λ4=1）和减少权重（λ1=1，λ2=1/2，λ3=1/4，λ4=1/8）两者更好，因为它允许适当的级联式训练，网络的第一级输出稍后被细化的粗略注意力图。4.3. 与最先进方法的比较表3示出了DeCaFA与300W数据库上的最新技术水平方法之间的比较我们的方法比大多数现有的方法在常见的子集上表现得更好，并且在具有挑战性的子集上表现得非常接近其最佳竞争者。请注意，仅在300 W列车上训练的DeCaFA的NME为3。69%，已经非常与最近的方法[9，5，4，8]竞争，这要归功于其端到端级联架构。DeCaFA与最好的方法LAB [22]和DAN-MENPO [8]以及JMFA-MENPO [3]竞争，这些方法也使用外部数据。表2显示了我们的方法和LAB [22]在WFLW数据库上的比较。如在[22]中，我们报告了WFLW测试分区上的平均点对点误差，通过外眼角进行归一化。我们还报告了多个测试子集的错误，其中包含头部姿势，面部表情，照明，化妆以及部分遮挡和偶尔模糊的变化。DeCaFA比LAB [22]和Wing [6]在每个子集上都有显著的优势此外，请注意，仅在WFLW上训练的DeCaFA已经具有5的NME。01在整个测试集上，哪个更好这两种方法。最后，还有改进在这个基准上，因为我们没有过度处理任何变化因素，如姿势或遮挡。最后，表5显示了我们的方法和CelebA上最先进方法如[25，30，15，26]所示，我们报告了测试分区上的平均点对点误差，通过两个眼睛中心之间的距离进行我们的方法在很大程度上是最好的。值得注意的是，即使我们使用来自300W和WFLW的辅助数据，我们也没有使用来自CelebA的val分区的数据，与[15，26]相反，因此有很大的改进空间总的来说，DeCaFA在三个数据库上设置了一个新的最先进的评估指标。图7还提供了对线质量的定性评估as visualizations可视化of the attention注意maps地图.此外，与最先进的方法相比，DeCaFA包含很少的参数（≈10M），并且可以在GTX1060上以324.4. 视频人脸对齐表6.NME用于300 VW数据库上的视频对齐方法目录一目录B目录CDSRN [15]美国[12]5.333.854.923.468.857.51DeCaFA3.823.636.67在本节中，我们在 300VW 视频数据库上评估DeCaFA。类似于[6]中描述的两步过程，我们训练前10层CNN来校正WFLW上的边界框坐标然后，对于每个视频，我们使用地面实况地标初始化第一帧的边界框。对于每个后续帧，我们使用最后一帧的地标生成一个新的边界框，并使用边界框校正CNN对其进行校正。然后，我们使用DeCaFA对齐该帧的标志如表6所示，DeCaFA能够在该基准上胜过最近的它还获得了AUC/FR@0.10.633/1.35 ，优于最新技术水平（0.594/4.57 [1]）。6900表2.WFLW的NME（越低越好）、AUC（越高越好）以及失败率（越低越好）比较度量方法所有头部姿势表达照明化妆闭塞模糊NME（%）CFSS [30]9.0721.3610.098.308.7411.769.96[23]第二十三话10.8446.9311.157.3111.6516.3013.71实验室[22]5.2710.245.515.235.156.796.32机场班车[6]5.118.755.364.935.416.375.81DeCaFA4.628.114.654.414.635.745.38AUC@0.1CFSS [30]0.3660.0630.3160.3850.3690.2690.303[23]第二十三话0.4560.1470.3890.4740.4490.3790.397实验室[22]0.5320.2350.4950.5430.5390.4490.463机场班车[6] 0.5540.3100.4960.5410.5580.4890.492DeCaFA0.5630.2920.5460.5790.5750.4850.494FR@0.1（%）CFSS [30]20.5666.2623.2517.3421.8432.8823.67[23]第二十三话10.8446.9311.157.3111.6516.3013.71实验室[22]7.5628.836.376.737.7713.7210,74机场班车[6]6.0022.704.784.307.7712.507.76DeCaFA4.8421.43.733.226.159.266.61表3.300W时的NME（%）比较表4.AUC和FR（%）@0.1，300 w。表5. CelebA的NME（%）方法NME（%）[25]第二十五话4.35CFSS [30]3,95DSRN [15]3.08AAN [26]2.99DeCaFA2.104.5. 弱监督学习我们还研究了 DeCaFA 如何使用示例在弱监督（WSL）上下文中学习，仅使用300 W的一小部分（ 100/500 图像，训练集的 3% 和 15% ）和 WFLW（100/500图像，训练集的1%和6%）以及整个CelebA训练集，在图6中报告了300 W和WFLW测试集的结果。使用CelebA可以提高这两种情况下的准确性，特别是当训练图像的数量非常低时。例如，使用3%的300W和1%的WFLW训练的DeCaFA已经输出了相当精细的地标估计，因为它比CFSS更好[30]和DVLN（[23]，见表2）。使用15%的300W和6%的WFLW训练的DeCaFA与300W的SAN相当（[4]，见表3），并且优于WFLW的DVLN。这表明涉及CelebA的WSL显著提高了预测68和98的准确性。地标因此，由于多个传输层的链接，DeCaFA非常适合WSL，并且可以用粗略注释的示例以较低的成本进行训练5. 结论在本文中，我们介绍了DeCaFA人脸对齐。DeCaFA通过使用地标式注意力地图，将级联回归和端到端的可训练深度方法统一起来方法Com.查尔充分美国有线电视新闻网[9]3.677.624.44CPM+SBR [5]3.287.584.10[4]3.346.603.98DAN [8]3.195.243.59实验室[22]2.985.193.49DAN-MENPO [8]3.094.883.44DeCaFA2.935.263.39方法AUCFRCFSS [30]49.875.08Densereg+MDM [1]52.193.67JMFA [3]54.91.00JMFA-MENPO [3]60.70.33实验室[22]58.90.83DeCaFA66.10.156901选择最相关的区域和具有增加的权重的中间监督，以确保适当的级联对准。通过链接多个传输层以产生对应于不同对齐任务的注意力图，DeCaFA受益于异构数据。我们的经验表明，DeCaFA在300W，CelebA和WFLW数据库上的表现明显此外，DeCaFA是非常模块化的，适用于使用粗注释数据的弱监督学习。未来的工作将包括在DeCaFA框架内集成其他数据源或可能的其他表示和任务，例如头部姿势估计、部分遮挡处理以及面部表情、动作单元和/或属性（例如年龄或性别估计）识别此外，我们将研究DeCaFA在密切相关领域的应用，如人体姿态估计。致谢这项工作得到了法国国家机构（ANR）在其技术研究（DS 0705）2016计划（深入法国，项目编号ANR-13-CORD-0004）和技术研究JCJC计划（FacIL，项目ANR-17-CE 33 -0002）框架内的部分支持6902图像Att. map1属性映射4估计地面实况图像Att. map1属性映射4估计地面实况图6.当使用小部分训练集和来自CelebA的粗略注释的示例进行训练时，%平均误差比较WFLWdatabaseIbugdatabase图7.从左到右：图像、阶段1和阶段4输出的注意力地图、对齐结果以及来自300 W（I-bug，68个地标）和WFLW（98个地标）的图像的地面实况请注意，汇总的注意力地图是如何迭代优化的，以及预测的地标通常与地面实况的匹配程度，即使在困难的照明，非正面头部姿势，化妆或遮挡下。6903引用[1] Riza Alp Guler ， George Trigeorgis ， EpameinondasAnton- akos ， Patrick Snape ， Stefanos Zafeiriou ， andIasonas Kokki- nos. Densereg：完全卷积的密集形状回归。在CVPR，2017年。六、七[2] Grigorios G Chrysos，Epameinondas Antonakos，PatrickSnape，Akshay Asthana，and Stefanos Zafeiriou.一个综合性能评估的变形人脸跟踪“在野外”。IJCV，2018年。1[3] 邓建康、乔治·特里乔治斯、周宇翔和斯特法诺斯·扎菲里乌。在野外联合多视图面对齐。arXiv预印本arXiv：1708.06023，2017。六、七[4] 董宣仪、严妍、欧阳万里、杨毅。用于人脸标志点检测的风格聚合网络。在CVPR，2018年。二六七[5] Xuanyi Dong，Shouou-I Yu，Xinshuo Weng，Shih-EnWei，Yi Yang，and Yaser Sheikh.注册监管：一种提高面部标志点检测器精度的无监督方法。在CVPR，2018年。二六七[6] Zhen-Hua Feng ， Josef Kittler ， Muhammad Awais ，Patrik Hu- ber，and Xiao-Jun Wu.用卷积神经网络进行鲁棒面部标志定位的翼损失。在CVPR，2018年。六、七[7] Sina Honari、Pavlo Molchanov、Stephen Tyree、PascalVin- cent、Christopher Pal和Jan Kautz。用半监督学习改进地标定位CVPR，2018年。5[8] 马雷克·科瓦尔斯基，雅克·纳鲁涅茨，和托马斯·特兹钦斯基。深度对准网络：用于鲁棒人脸对齐的卷积神经网络。在CVPR研讨会，2017。二六七[9] 阿米特·库马尔和拉玛·切拉帕在树状cnn中解开3d姿态用于无约束的2d面部对准。在CVPR，2018年。二六七[10] Yaojie Liu ， Amin Jourabloo ， William Ren ， andXiaoming Liu.密集面对齐。 InICCV，2017. 2[11] Ziwei Liu，Ping Luo，Xiaogang Wang，and Xiaoou Tang.在野外深度学习人脸属性在ICCV，2015年。二、五[12] Zhiwei Liu，Xiangyu Zhu，Guosheng Hu，Haiyun Guo，Ming Tang，Zhen Lei，Neil M Robertson，and JinqiaoWang.语义对齐：寻找语义上一致的地面实况面部标志检测。在CVPR，2019年。6[13] Diogo C Luvizon，David Picard，and Hedi Tabia.使用多任务深度学习的 2D/3D 姿态估计和动作识别。在CVPR，2018年。3[14] 吕江静，邵晓虎，邢俊良，程程，周曦，等。具有两阶段重新初始化的深度回归架构，用于高性能面部标志检测。在CVPR，2017年。5[15] Xin Miao ， Xiantong Zhen ， Xianglong Liu ， ChengDeng，Vas-silis Athitsos，and Heng Huang.用于端到端面对齐的直接形状回归网络。在CVPR，2018年。二五六七[16] 任少卿，曹旭东，魏一晨，孙健。通过回归局部二进制特征以3000 FPS进行面部对齐CVPR，2014年。二、五、六[17] Christos Sagonas 、 Epameinondas Antonakos 、 GeorgiosTz-imiropoulos、Stefanos Zafeiriou和Maja Pantic。300张面孔野外挑战：数据库和结果。IVC，2015年。二、五6904[18] Jie Shen，Stefanos Zafeiriou，Grigoris G Chrysos，JeanKossaifi，Georgios Tzimiropoulos，and Maja Pantic.第一个面部标志跟踪在野外的挑战：基准和结果。在ICCV研讨会，2015年。5[19] Yaniv Taigman、Ming Yang、MarcDeepface：缩小与人脸验证中人类水平性能的差距CVPR，2014。1[20] Justus Thies ， Michael Zollhofer ， Marc Stamminger ，Christian Theobalt，and Matthias Nießner.Face2face：实时人脸捕捉和rgb视频重现。在CVPR，2016年。1[21] 放大图片作者： George Trigeorgis ， Patrick Snape ，Mihalis A. 尼科·劳，埃帕梅农达斯·安东纳科斯，斯特凡诺斯·扎费里乌.记忆下降法：一种应用于端到端面对齐的递归过程。CVPR，2016年。2[22] Wayne Wu ，Chen Qian ， Shuo Yang ，Quan Wang ，Yici Cai，and Qiang Zhou.看边界：一种边界感知的人脸对齐算法。在CVPR，2018年。二五六七[23] Wenyan Wu和Shuo Yang。利用数据集内和数据集间的变化进行鲁棒的人脸对齐。2017年在CVPR车间。二、七[24] Shengtao Xiao ， Jiashi Feng ， Junliang Xing ， andHanjiang Lai.基于递归注意力的完善网络。ECCV，2016。5[25] 熊雪涵和费尔南多·德拉托雷。监督下降法及其在人脸配准中的应用。CVPR，2013年。二五六七[26] Lei Yue，Xin Miao，Pengbo Wang，Baochang Zhang，Xian-antong Zhen，and Xianbin Cao.注意力对齐网络。BMVC，2018年。二六七[27] 张杰，阚美娜，Shiguang Shan，陈西林通过深度回归网络对具有不同注释的杠杆老化数据集进行人脸对齐。在ICCV，2015年。2[28] Yong Zhang ， Rui Zhao ， Weiming Dong ， Bao-GangHu，and Qiang Ji.基于双边序相关多实例回归的面部动作单元强度估计。在CVPR，2018年。1[29] Zhanpeng Zhang ，Ping Luo ，Chen Change Loy ， andXiaoou Tang.使用辅助属性学习人脸对齐的深度表示。PAMI，2016. 二、五[30] Shizhan Zhu，Cheng Li，Chen Change Loy，and XiaoouTang.通过由粗到细的形状搜索进行人脸对齐。CVPR，2015。五、六、七

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

DeCaFA：用于野外人脸对齐的深度卷积级联

基于深度卷积神经网络的人脸识别

人脸识别系统有哪些模块和所使用技术

OpenCV自带的人脸识别库：Haar级联分类器各个模型的性能对比 和适用场景

现有人脸识别模型有哪些

Dlib人脸识别原理

深度学习级联是啥意思

院系代码Dno字段添加FOREIGN KEY约 ，并设置当用户操作违反外键约束时的处理方式 (如：置空、置默认值、级联、拒绝）

matlab人脸识别

为什么opencv中自带的人脸识别级联分类器的识别效果不好

介绍opencv的人脸识别

opencv人脸对齐

基于cnn的人脸识别_人脸识别技术：从传统方法到深度学习

基于opencv人脸识别相关知识

怎么用Python对人体分类器和人脸分类器进行级联代码示例

Haar级联分类器算法相较于其他人脸识别算法的优点

若参照完整性受到破坏，DBMS采取的违约处理措施包括： A、 拒绝执行 B、 级联执行 C、 当外码是非主属性时，将外码值置为空 D、 不管外码是否为非主属性，均可将外码值置为空

matlab多人人脸识别代码

基于opencv下人脸识别

OpenCV人脸识别

opencv的级联分类器如何检测人脸

最新资源

OpenCV自带的人脸识别库：Haar级联分类器各个模型的性能对比和适用场景

院系代码Dno字段添加FOREIGN KEY约，并设置当用户操作违反外键约束时的处理方式 (如：置空、置默认值、级联、拒绝）

若参照完整性受到破坏，DBMS采取的违约处理措施包括： A、拒绝执行 B、级联执行 C、当外码是非主属性时，将外码值置为空 D、不管外码是否为非主属性，均可将外码值置为空