深度学习技术提高人脸对齐算法性能：以点转曲线学结构信息

102 浏览量更新于2023-10-23 收藏 1.21MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7265Quantification Net：将点转换为曲线以学习结构信息黄协和1、2邓军1沈海峰2张秀宝2叶杰平21北京邮电大学信息与通信工程学院模式识别{xiehe.huang，whdeng}@ bupt.edu.cn2人工智能实验室，滴滴出行{黄协和，沈海峰，张秀宝，叶杰平}@ didiglobal.com摘要深度学习技术极大地提高了人脸对齐算法的性能。然而，由于大的可变性和缺乏样本，对齐问题在无约束的情况下，例如。大头造型、表情扭曲、照明不均等问题，至今仍有许多未解决的问题。在本文中，我们探讨了我们两个建议背后的本能和原因，即。传播模块和Fo- cal翼损失，以解决这个问题.具体地说，我们提出了一种新的结构注入的人脸对齐算法的基础上热图回归通过传播地标热图边界热图，提供进一步的注意力地图生成的结构此外，我们提出了一个焦点翼损失的挖掘和强调困难的样品在野外条件下。此外，我们还采用了其他领域的 CoordConv 和 Anti-aliasedCNN等方法，解决了CNN用于人脸对齐的偏移方差问题。当在不同的基准上进行广泛的实验时，WFLW，300W，和COFW，我们的方法优于国家的最先进的一个显着的Margin。我们提出的方法实现了4.05%的平均误差WFLW，2.93%的平均误差300 W的全套，和3.71%的平均误差COFW。1. 介绍人脸对齐是定位人脸特征点的关键技术，在人脸分析中起着重要的作用，e.G.人脸验证和识别[23]、人脸变形[10]、表情识别[13]和3D人脸重建[7]。近年来，各种新颖的人脸对齐算法不断涌现，并在不同的数据集上取得了良好的性能。然而，在无约束的情况下，脸对齐，例如.大头造型、夸张的表情和不均匀的光照一直困扰着研究人员图1.我们传播模块的基础。地标热图被输入到多个卷积运算，然后与最后一个沙漏模块的输出特征图连接，一起由两阶段沙漏模块处理，最后由S形层归一化以形成施加在特征图上的注意力图。多年来在许多其他因素中，我们将上述挑战归因于CNN无法学习面部结构信息：如果CNN能够提取图像中的面部结构，那么它可以更准确地预测面部标志，因为即使是面部的遮挡部分，例如，也可以通过面部的形状来推断。这也是ASM [4]什么是结构信息？在我们的工作中，我们认为它是地标坐标的统计平均值。也许在高方差（诸如不同的头部姿势）的情况下，由于面部形状的相对不可变换性，界标坐标仍然受到某种分布的影响。为了让CNN学习信息，我们在本文中将其表示为面部边界（见图1）。2）遵循Wu et al. [25 ]第20段。面部边界可以是下颌线或面部的外部轮廓。也可能是嘴周围的边缘。这些边界通常由可用的数据集用一系列点注释，因为它们难以对线进行建模。卷积级联沙漏模块SigmoidHadamard积7266在本文中，我们提出并实现了三个创新性的思想来学习结构信息，即：传播模式，焦点翼损失和多视图沙漏。图2.地标连接起来，形成几个边界。Wu等从一个单独的GAN（生成对抗网络）生成器中生成面部边界。特别地，Wu等人将地标连接起来，形成一条模糊的线，并将其指定为未来训练的地面实况。不像他们使用独立的CNN来生成面部边界的方式，我们设计了一个传播模块来完成这项工作，并将其纳入我们的网络架构中，试图用一个计算效率高的传播模块来代替更深更大的CNN。除了模块出于这个原因，我们可以直观地使用一系列卷积运算来对连接进行建模，并将一定数量的地标（点）传播到边界（曲线）。因此，我们把这个模块称为Prop- agationModule.图3.不同集合在极端条件下的象的分数。极端条件包括大的头部姿势、扭曲的表情、不均匀的照明、无法识别的化妆、对象遮挡和模糊的拍摄。数据不平衡是人工智能许多领域的常见问题，人脸对齐社区也是如此。在野外条件下，脸部的结构会发生变化。例如，当面部处于侧面位置时，下颌线比当面部正面显示时张开得更小。怎么-然而，在这两种情况下的数据比率实际上并不接近1：1，其中正面图像的数量与侧面图像的数量相同。如示于图3.极端条件下的图像分数相当低，在训练集和测试集上都低于30%。另一方面，训练集上的分数与测试集上的分数相差很大，这意味着适应训练集的学习特征可能会误导神经网络做出错误的预测。因此，这种潜在的非普适特性需要更好地设计损失函数。基于原始的 AWing [24] ，我们提出了一个焦点 WingLoss，它动态调整预测不正确的惩罚，并在训练过程中调整每个批次中每个样本的损失权重（从而调整学习率）。这表明我们的训练过程对难学结构和易学结构的关注程度是均匀的，因此我们将损失函数称为焦点翼损失。现代卷积神经网络通常被认为是平移不变的，我们工作中使用的堆叠沙漏也是如此尽管如此，研究者们已经意识到池层的引入所带来的潜在变化，例如：最大池和平均池。为了解决这种失真方差，Zhang [31]提供了抗混叠CNN的解决方案，它模拟了传统的抗混叠信号处理方法，并在每次下采样操作之前应用它，例如池化和跨步卷积。在我们的任务中，我们在应用池化层时不能丢失结构信息，因此我们将抗锯齿CNN合并到一个特殊的沙漏中，并将其命名为多视图沙漏。最后，我们的主要贡献包括：• 创建了一个新颖的传播模块，将地标热图与边界热图无缝连接起来，这个模块可以自然地构建到堆叠的沙漏模型中。• 设计一个损失函数，称为焦点翼损失，以动态分配损失重量到一个特定的样本和解决数据不平衡。• 从其他领域引入抗锯齿CNN，并将其整合到我们的多视图沙漏模块中，以向我们的网络添加移位等方差和坐标信息。• 在各种数据集上实施广泛的实验以及关于上述方法的消融研究。2. 相关工作近年来，人脸对齐领域的研究主要集中在两种主流方法上：坐标回归和热图回归，7267头部姿势表情照明化妆遮挡模糊图4. WFLW测试集上的示例结果。每一列都来自WFLW的一个子集，包括大头姿势、表情、照明、化妆、遮挡和模糊。模型设计基于全卷积网络（FCN）的热图回归模型为每个地标输出热图，并试图在整个网络中保持结构信息，因此，在某种程度上，在其最先进的性能方面使坐标回归模型MHM [5]是其中一种热图回归模型，连续实现人脸检测和人脸对齐，并利用堆叠沙漏模型来预测地标热图。AWing [24]是另一种热图回归模型，它修改了L1损失以导出所谓的自适应翼损失，并证明了其在基于CNN的面部地标定位中的优越性。这两个模型的共同点是采用了堆叠的沙漏网络。堆叠沙漏模型自[17]首次用于人体姿态估计以来，在地标检测领域的所有FCN中脱颖而出。它的流行可以归因于其重复的自下而上，自上而下的处理，允许在输入图像的所有尺度上捕获信息。首先提出的吴等。[25]后来由王等人的研究人员推广。[24]，面部边界识别人脸的几何结构，因此可以向网络注入先验知识，无论是用于注意机制（如LAB[25]的情况）还是用于生成边界坐标图（如AWing [24]的情况）。在前一种情况下，实验室首先利用堆叠沙漏模型来生成面部边界图，然后通过特征图融合将边界图并入回归网络。在后一种情况下，AWing将边界预测编码为x-y坐标上的掩码，并且随后产生两个附加特征图用于后续卷积。与这两种方法不同的是，我们只使用几个卷积运算来生成边界热图，而不是使用复杂的CNN。注意力机制在计算机视觉中非常受欢迎，因为它带来的额外“注意力”可以引导CNN学习可识别的特征并专注于它们。在我们的工作中，我们希望我们的模型更多地关注边界区域，以便它可以更多地推断地标图5. 300 W和COFW测试装置的样本结果。每一行都展示了来自每个数据集的样本。准确地基于边界的位置。与LAB [25]具体来说，我们结合了分层并行多尺度块[1]来添加更多大小的感受野和抗锯齿CNN [31]来改善移位不变性。更大的感受野意味着我们的模型可以“看到”人脸的整个结构，而移位不变性意味着我们的模型即使对应的人脸图像移位了一点，也仍然可以正确地预测边界热图。此外，我们不必像LAB那样每次将边界热图送入下一个沙漏时都对其进行下采样这是因为我们不想通过下采样丢失边界信息。基于CNN的定位模型长期以来一直使用带走损失函数进行训练，例如。L1、L2和平滑L1。这些损失函数在常见的场景中确实很有用。Feng等人然而，[8]认为L2对离群值敏感，因此与L1相比相形见绌。为了使他们的模型更加关注中小范围的误差，他们修改了L1损失，以创建在地标坐标回归模型中更有效的WingLoss。基于Wing Loss，Wanget al. [24]进一步引入对损失函数的自适应性，因为他们相信他们创建的自适应Wing Loss在热图回归模型中被证明更有效。3. 方法基于Bulat等人的堆叠HG设计。 [1]，我们的模型进一步将其与Propagation Module，anti-aliased block和CoordConv集成。每一个沙漏输出的特征图都是由地面实况标签监督的沙漏和地标热图。接下来是传播模块，它生成边界热图并输出后续沙漏的特征图。这一整个过程在图中可视化。六、COFW300W7268|图6.我们的PropogationNet架构概述。RGB图像首先通过一系列基本特征提取器进行处理，然后送入几个沙漏模块，然后是一个输出边界热图的关系块。表1.在COFW测试集上评估ExpansionNet和其他最新技术。方法NMEFR10%人类[2]5.60-RCPR [2]8.5020.00TCDCN [32]8.05-DAC-CSR [9]6.034.73机场班车[8]5.443.75[第24话]4.940.99实验室[25]3.920.39PropNet（我们的）3.710.203.1. 地标边界传播模块受注意力机制的启发，地标-边界传播模块旨在迫使网络对边界区域给予更多的到注意力地图和运输这些功能地图，以其后方沙漏。该过程在图1中可视化。1.一、在训练期间，边界热图的生成由地面实况热图监督至于如何产生地面实况热图，我们简单地用直线将地标连接在一起，并应用高斯模糊滤波器。每个边界都有其语义意义。如图2所示，位于下颌线上的界标被连接以形成轮廓边界，表示下唇的界标被连接以形成另一边界，等等。我们总共获得了M= 15个边界热图。3.2. 聚焦翼损失自适应机翼损失[24]是从机翼损失[8]中推导出来的，基本上是光滑L1损失的一个变体，只是光滑二次曲线被对数曲线所取代曲线湾这是明智的-。定义为Eq。（1），其中A=ω（α−y）（θ/θ）α−y−1/1 +（θ/θ）α−y/θ和θ =θA−为了实现这一目标，它首先采用一系列卷积运算将地标热图转换为边界热图。ωln.1+（θ/θ）α−y是为了使损失函数热图这些操作基本上尝试学习如何转换地标热图并组合边界热图。每个边界热图都是通过一组7×7卷积运算生成的连续而平滑.|y−y|=θ和ω、θ、α和ω是影响非L1范围及其之间梯度的超参数。国家。然后，它将边界热图和来自其前沙漏模块的特征图连接起来，AWing（ x）=.ωln.1个以上|Σy−y<$α−yǫ、|y−y|<θ将它们放入一个两级沙漏模块中，注意地图最后，它增强了特征图，一|y−y|-，|y−y|≥θ（一）7269nnnnNΣ表2.在300 W测试装置上评估PakerationNet和其他先进技术。图7. WFLW测试集的CED。在图例中报告了NME和FR 10%，以进行比较。我们将我们的方法与其他最先进的源代码进行了比较，包括LAB [25]和AWing [24]。因此，我们有地标的损失：Llm= 1ΣNCσ（c）AWing .Σy（k），y（k）（三）Nn=1 c=1n n nk=1其中N、C、K分别表示批量大小、类（子集）的数量和坐标的数量在我们的例子中，对于6个属性，C= 6：头部姿势、表情、照明、化妆、遮挡和模糊;K= 196，98个土地-在WF L W数据集中考虑的标记。y（k）和y∈（k）为了解决数据不平衡的问题，我们引入了一个名为焦点因子的因子。对于类别c和样本n，其在数学上定义为：n n分别代表样本n、界标k的真实热图和对应的预测热图。同样地，我们定义了边界.ΣN（c）第（1）款热图预测为：σ（c）=1、如果n= 0（二）N（c），否则Sn1ΣN ΣCΣM（c）第（1）款.（m）Σ（m）（c）第（1）款n=1（c）第（1）款Lbd=σnN n=1 c=1m=1 AWingzn，zhn（四）其中，s n 二进制数：当s n= 0，样本n不属于类c;当s（c）= 1时，样本n属于类c。在本文中，属于某类的样本是指样本具有第c个属性，如大头姿势，夸张表情等。对于WFLW数据集，这些属性在注释文件中标记，而对于COFW和300W，我们自己手工标记这些属性并在训练时使用它们。还要注意的是，焦点因子是分批定义的，这意味着它在训练过程中是波动的，并且它再次动态调整批次中每个样本的损失重量此外，体重减轻是来自不同类别的所有焦点因素的总和，如在以下定义（3）中可见这表明我们打算平衡所有类别的数据，因为面部图像可能会受到多种极端条件的影响，例如，一个模糊的面部图像与大的头部姿势。其中M表示边界的总数 z（m）和z（m）分别是样本n、边界m和对应的预测边界热图的真实边界热图。最后，我们得到整体损失函数为：损失=Llm+β·Lbd（5）其中β是用于平衡两个任务的超参数3.3. 多视图沙漏模块与传统的以瓶颈块为构建块的沙漏网络不同，本文采用了Bulat等人提出的并行、多尺度的残差结构。[1]方法共同子集挑战性子集全套瞳孔间归一化[30]第三十话5.5016.787.69[29]第二十九话5.5715.407.50LBF [18]4.9511.986.32CFSS [34]4.739.985.76TCDCN [33]4.808.605.54[21]第二十一话4.8310.145.88[第28话]4.128.354.94[27]第二十七话3.947.624.66[第15话]4.367.564.99DSRN [16]4.129.685.21实验室[25]4.207.414.92RCN+（L+ELT）[11]4.207.784.90DCFE [22]3.837.544.55机场班车[8]3.277.184.04AWing [24]3.776.524.31PropNet（我们的）3.705.754.10眼间归一化[12]第十二话3.677.624.44CPM+SBR [6]3.287.584.10SAN [6]3.346.603.98实验室[25]2.985.193.49DU-Net [20]2.905.153.35AWing [24]2.724.523.077270的文件。我们认为这个建筑7271表3.评估WFLW测试集及其子集上的ExpressionNet和其他最新技术度量方法测试集构成子集表达子集照明子集化妆子集闭塞子集模糊子集电子自旋共振[3]11.1325.8811.4710.4911.0513.7512.20[29]第二十九话10.2924.1011.459.329.3813.0311.28CFSS [34]9.0721.3610.098.308.7411.769.96NME（%）[26]第二十六话6.0811.546.785.735.987.336.88实验室[25]5.2710.245.515.235.156.796.12机场班车[8]5.118.755.364.935.416.375.81PropNet（我们的）4.056.923.874.073.764.584.36电子自旋共振[3]35.2490.1842.0430.8038.8447.2841.40[29]第二十九话29.4084.3633.4426.2227.6741.8535.32CFSS [34]20.5666.2623.2517.3421.8432.8823.67FR10%（%）[26]第二十六话10.8446.9311.157.3111.6516.3013.71实验室[25]7.5628.836.376.737.7713.7210.74机场班车[8]6.0022.704.784.307.7712.507.76PropNet（我们的）2.9612.582.552.441.465.163.75电子自旋共振[3]0.27740.01770.19810.29530.24850.19460.2204[29]第二十九话0.30020.02260.22930.32370.31250.20600.2398CFSS [34]0.36590.06320.31570.38540.36910.26880.3037AUC10%[26]第二十六话0.45510.14740.38890.47430.44940.37940.3973实验室[25]0.53230.23450.49510.54330.53940.44900.4630机场班车[8]0.55040.31000.49590.54080.55820.48850.4918PropNet（我们的）0.61580.38230.62810.61640.63890.57210.5836由于其多个接收场和这些场可以带来的各种尺度的图像，因此有益于界标定位。这意味着我们有描述人脸更大结构的特征以及每个细节在一个考虑到面部大小的距离上进行了调整。该方法计算每个关键点的误差，然后平均得到最终结果.参见等式（6）。 .1000毫升 p−p边界因此我们将沙漏模块命名为Multi-view沙漏模块和建筑本身作为多视图块，如图所示。六、NMEP，P= Ll=1l l2D（六）另一方面，我们实现了抗锯齿CNN，以代替传统沙漏网络中使用的池化层。这样做的一个原因是为了保持我们网络中的移位平等，而另一个原因是我们不希望由于池化层或跨越卷积而丢失了一些细节信息。3.4. 反锯齿CNN和CoordConvCoordConv [14]在我们的工作中被应用于学习完全的平移不变性或平移依赖度的范围。抗锯齿CNN [31]也用于在我们的工作中取代池化层或跨步卷积，以保持移位相等。我们称之为抗锯齿块，如图所示。六、4. 实验4.1. 评估指标归一化平均误差（NME）是一种广泛使用的评价人脸特征点定位算法性能的像素级绝对距离正常-7272其中，P、P′分别是面部图像的所有点和预测点的真实坐标，是关键点的总数，并且pl、pl都是表示第i个关键点的x-y坐标的二维向量特别地，d是所提到的归一化因子，无论是瞳孔间距离还是眼间距离。后者可以是内眼角（不常用）或外眼角之间的距离，我们在评估中使用。对于300 W数据集，两个因子都适用，对于 COFW 数据集，我们只使用瞳孔间距 ; 对于WFLW数据集，采用眼间距离。失败率（FR）提供了对面部对齐算法设计的另一种见解。在每个图像上计算的NME被阈值化为例如8%或10%。如果图像的NME大于阈值，则样本被被认为是失败的。我们从测试集中的失败率中得出FR。曲线下面积（AUC）是面部标志点检测算法设计者中流行的另一个度量标准。基本上，我们从CED曲线推导出它：通过绘制从零到FR阈值的曲线，我们得到7273大型姿势表达式照明化妆闭塞模糊图8.来自WFLW测试集的图像样本采用生成的边界热图。每一列来自不同的子集.非负曲线，根据该曲线计算面积为AUC。AUC增量意味着测试集中更多的样本被很好地预测。4.2. 数据集我们在3个数据集上对模型进行训练和测试：具有挑战性的数据集WFLW [25]由10，000张人脸（7，500张用于训练，2，500张用于测试）组成，具有98个完全手动注释的标志，可能是迄今为止最大的开放数据集，用于人脸对齐，具有大量关键点注释; COFW数据集[2]包含1852张人脸图像（1，345张用于训练，507张用于测试），具有29个注释标志，具有严重的遮挡和较大的形状变化; 300 W [19]是第一个面部标志定位基准，其测试集包括554个常见子集样本和135个挑战子集图像。在WFLW数据集上，我们实现了最先进的性能。参见表3。与第二代算法，即。Wing，我们将NME的3个指标提高了约20%，FR10%提高了约51%，AUC10%提高了约12%。更重要的是，我们在所有子集上的性能都优于其他算法，这意味着我们的模型在不同的野外条件下仍然具有鲁棒性。特别注意姿势和化妆子集，我们在这方面取得了显著的进步。测试集的一些样本可以在图中查看。4.第一章此外，我们还绘制了累积误差分布（CED）曲线（见图1）。7）对于具有可用发布代码的算法，包括LAB[25][24][从图中可以明显看出，我们的PropNet曲线比其他两个曲线高，在0.02和0.08，这意味着我们能够预测WFLW测试集中更大比例图像的面部标志。在COFW数据集上，我们的算法优于其他模型。参见表1。众所周知，COFW以严重的遮挡和大范围的头部姿势变化而闻名，我们领先的NME和FR10%证明了我们的算法在极端情况下仍然保持稳健。这也意味着传播模块能够将人脸的几何结构注入网络，因为在那些最坏的情况下，只有这个结构仍然存在。我们可以在图中看到这一点。五、在300W数据集上，与使用眼间归一化因子的其他算法相比，我们的模型在两个子集和全集上都表现出色，如表2的上半部分所示。在度量方面相对于瞳孔间归一化，我们在公共集和全集上具有与其他领先算法相似的度量，但在挑战集上击败了这表明我们的算法即使在糟糕的情况下也能做出合理的预测。这一点在图中得到了明显的证明。五、瞳孔间归一化的相对较高NME的潜在原因是300W注释一些边界框外面部部分，例如，下巴，沿着边界框有一条平坦的线因此，这种注释风格使得我们的模型很难学习面部结构。4.3. 实现细节每个输入图像被裁剪和调整大小为256×256，每个沙漏模块的输出特征图为64×64。在我们的网络架构中，我们采用了四个堆叠的沙漏模块。在训练过程中，我们使用Adam来优化我们的神经网络，初始学习率设置为1×10−4。此外，在训练时实施数据增强：随机旋转（±30°）、随机缩放（±15%）、随机裁剪（±25px）和随机水平翻转（50%）。在测试时，我们采用与[ 17 ]相同的策略，稍微修改预测结果，即最高热图响应的坐标移动四分之一像素到旁边第二高响应的坐标。此外，我们根据经验将损失函数中的超参数设置为：α= 2。1，β= 0。5，ω= 14，ω= 1。0，θ=0。五、4.4. 消融研究我们的算法是由几个关键的设计，I.E.传播模块（PM）、沙漏模块（HM）和聚焦翼损失。我们将在下面的段落中深入研究这些组件的有效性。对于计算，我们使用以ResNet块为基线的堆叠沙漏模型，并使用自适应翼损失进行训练。传播模块在增强模型它带来了最大的改善-7274表4.传播模块（PM）对我们模型性能的潜在方法无PM与PMNME4.814.48FR10%3.363.12AUC10%0.51320.5421我们的模型。我们将基线设置为一个没有这个模块的堆叠沙漏网络。参见表4并将关系块增强模型与基线模型进行比较。我们可以观察到-6。86%，-7。百分之十四，五。NME（越低越好）、FR（越低越好）和AUC（越大越好）分别增加63%从图8、我们可以看到生成的边界热图的实际结果。它们与我们的预期一致，并证实了我们的假设，即地标热图可以通过几个连续的卷积运算传播到边界热图。此外，请注意，我们的算法在极端条件下仍然鲁棒，特别是当人脸被遮挡时，这意味着结构信息已经通过我们的传播模块捕获。表5.多视图沙漏模块（MHM）的潜力，我们的方法BB恩NME4.814.67FR10%3.363.16AUC10%0.51320.5300表6.具有不同大小高斯核的抗锯齿CNN（AC）之间的比较方法BLBL+AC-2BL+AC-3BL+AC-5NME4.814.794.674.75FR10%3.363.803.163.76AUC10%0.51320.51780.53000.5200沙漏模块是一个有效的模块，以提高我们的网络在WFLW数据集的性能。看看表5。与具有瓶颈块的基线模型相比，它将所有三个指标提高了约-2。91%-595%，3. 百分之二十七当遇到为抗锯齿CNN选择高斯核大小时，我们将不同的大小与基线模型进行比较。参见表6。我们使用AC-n来表示大小n.例如，AC-3脱颖而出，我们在其余实验中使用3聚焦翼损失也有助于我们模型性能的提高。如表7所示，与使用AWing训练的基线模型相比，它增加了三个度量增量，约为-3。53%，-1。19%，1. 分别为23%。此外，我们还可以从表3中看到，我们的模型比其他最先进的模型性能更好表7.焦点翼损失对整体性能的潜在贡献方法AWing焦点翼NME4.814.64FR10%3.363.32AUC10%0.51320.5195在每个子集上，这意味着数据不平衡已经被有效地解决，并且它再次帮助我们的网络保持其对极端条件的鲁棒性（参见图11）。4）.表8.PropNet和其他一些先进技术的复杂性方法实验室[25]AWing[24]PropNet#params（M）12.2924.1536.30FLOPS（G）18.8526.7942.83参见表8。我们将计算复杂度与一些开源的最先进的技术进行比较。从表中可以看出，我们的参数和FLOPS数量比其他两个都多，这可以解释为什么我们的性能比它们更好。5. 结论在我们的论文中，我们指出了长期被忽视的地标热图和边界热图之间的关系。为此，我们提出了一个传播模块来捕获人脸的结构信息，并弥合界标热图和边界热图之间的差距在广泛认可的数据集上进行的大量实验证明，该模块是有效的，有利于提高算法然后，我们创造性地制定我们的方法来解决数据不平衡，通过引入焦点因子，一个因子，试图动态地适应损失的重量对每个样本在一个批次。正如我们的消融研究所示，它使我们的算法在极端条件下更加稳健。最后，通过引入多视图块和抗锯齿网络，对沙漏网络进行了重新设计。多视图块使我们的网络具有宏观和微观感受野，而抗锯齿架构使我们的网络再次保持平移不变我们的消融研究证实了它在增强我们的性能方面的有用性6. 确认这项工作由DiDi GAIA研究中心发起。引用[1] Adrian Bulat和Georgios Tzimiropoulos用于人体姿态估计和7275面临资源有限的结盟。在IEEE计算机视觉国际会议论文集，第3706-3714页，2017年。三、五[2] X a vierPBu r gos-Artizzu，PietroPerona，andPiotrDolla'r.遮挡情况下鲁棒的人脸特征点估计。在IEEE计算机视觉国际会议的Proceedings，第1513-1520页，2013年。四、七[3] 曹旭东，魏一晨，方文，孙健。通过显式形状回归进行面部对齐。International Jour-nal of Computer Vision，107（2）：177-190，2014. 6[4] Timothy F Cootes ， Christopher J Taylor ， David HCooper，and Jim Graham.主动形状模型的训练与应用。计算机视觉与图像理解，61（1）：38-59，1995. 1[5] 邓建康、乔治·特里乔治斯、周宇翔和斯特法诺斯·扎菲里乌。在野外联合多视图面对齐IEEE Transactions onImage Processing，28（7）：3636-3648，2019。3[6] 董宣仪、严妍、欧阳万里、杨毅。用于人脸标志点检测的风格聚合网络。在IEEE计算机视觉和模式识别会议的论文集，第379-388页，2018年。5[7] Pengfei Dou，Shishir K Shah，and Ioannis A Kakadiaris.基于深度神经网络的端到端三维人脸重建。在IEEE计算机视觉和模式识别会议论文集，第5908-5917页1[8] Zhen-Hua Feng ， Josef Kittler ， Muhammad Awais ，Patrik Hu- ber，and Xiao-Jun Wu.用卷积神经网络进行鲁棒面部标志定位的翼损失在IEEE计算机视觉和模式识别会议论文集，第2235-2245页，2018年三、四、五、六[9] Zhen-Hua Feng ， Josef Kittler ， William Christmas ，Patrik Hu- ber，and Xiao-Jun Wu.动态注意力控制铸造形状回归利用训练数据扩充和模糊集样本加权。在IEEE计算机视觉和模式识别会议集，第2481-2490页，2017年。4[10] Tal Hassner、Shai Harel、Eran Paz和Roee Enbar。无约束图像中有效的人脸正面化在Proceedings of the IEEEConference on Computer Vision and Pattern Recognition中，第4295-4304页1[11] Sina Honari、Pavlo Molchanov、Stephen Tyree、PascalVin- cent、Christopher Pal和Jan Kautz。用半监督学习改进地标定位。在IEEE计算机视觉和模式识别会议论文集，第1546-1555页，2018年。5[12] 阿米特·库马尔和拉玛·切拉帕在树状cnn中解开3d姿态在IEEE计算机视觉和模式识别会议的论文集，第430-439页5[13] Shan Li和WeiongDeng。深度面部表情识别：一个调查。CoRR，abs/1804.08348，2018。1[14] Rosanne Liu 、 Joel Lehman 、 Piero Molino 、 FelipePetroski Such 、 Eric Frank 、 Alex Sergeev 和 JasonYosinski。卷积神经网络和coordconv解决方案的有趣失败，2018年。6[15] Jiangjing Lv ， Xiaohu Shao ， Junliang Xing ， ChengCheng，and Xi Zhou.具有两个阶段用于高性能面部标志检测的重新初始化。在IEEE计算机视觉和模式识别会议论文集，第3317-3326页，2017年。5[16] Xin Miao ， Xiantong Zhen ， Xianglong Liu ， ChengDeng，Vas-silis Athitsos，and Heng Huang.用于端到端面对齐的直接形状回归在IEEE计算机视觉和模式识别会议集，第5040-5049页，2018年。5[17] Alejandro Newell，Kaiyu Yang，and Jia Deng.用于人体姿态估计的堆叠沙漏网络在欧洲计算机视觉会议上，第483-499页施普林格，2016年。三、七[18] 任少卿，曹旭东，魏一晨，孙健。通过回归局部二进制特征以3000fps进行面部对齐。IEEE计算机视觉和模式识别会议论文集，第1685-1692页，2014年5[19] Christos Sagonas 、 Georgios Tzimiropoulos 、 StefanosZafeiriou和Maja Pantic。300面临野外挑战：第一个面部地标定位挑战。在Proceedings of the IEEE InternationalConference on Computer Vision Workshops，第397-403页7[20] Zhiqiang Tang，Xi Peng，Shijie Geng，Lingfei Wu ，Shaoting Zhang，and Dimitris Metaxas.用于有效地标定位的量化密集连接 u 网。在欧洲计算机视觉会议（ECCV）的会议记录中，第339-354页，2018年。5[21] George Trigeorgis ， Patrick Snape ， Mihalis A Nico-laou，Epameinondas Antonakos，and Stefanos Zafeiriou.记忆下降法：应用于端到端面对齐的循环过程。在Proceedings of the IEEE Conference on Computer Visionand Pattern Recognition，pages 41775[22] Roberto oValle，JoseMaposada，AntonioValde's，andLuisBaumela.一个深度初始化的从粗到细的回归树集合，用于人脸对齐。在欧洲计算机视觉会议（ECCV）的会议记录中，第585-601页，2018年。5[23] 王梅和邓伟红。深度人脸识别：一个调查。CoRR，abs/1804.06655，2018。1[24] Xinyao Wang，Liefeng Bo，and Li Fuxin.通过热图回归进行鲁棒面部对准的自适应翼损失。arXiv预印本arXiv：1904.07399，2019。二三四五七八[25] Wayne Wu，Chen Qian，Shuo Yang，Quan Wang，YiciCai，and Qiang Zhou.看边界：一种边界感知的人脸对齐算法。在IEEE计算机视觉和模式识别会议论文集，第2129- 2138页一、三、四、五、六、七、八[26] Wenyan Wu和Shuo Yang。利用数据集内和数据集间的变化进行鲁棒的人脸对齐。在IEEE计算机视觉和模式识别研讨会会议上，第150-159页，2017年。6[27] 岳武和羌姬。鲁棒的面部标志检测under显着的头部姿势和遮挡。在IEEE计算机视觉国际会议论文集，第3658-3666页，2015年。5[28] Shengtao Xiao ，Jiashi Feng，Junliang Xing，HanjiangLai，Shuicheng Yan，and Ashraf Kassim.鲁棒的面部地标检测通过经常性的注意力细化网络。7276欧洲计算机视觉会议，第57施普林格，2016年。5[29] 熊雪涵和费尔南多·德拉托雷。监督下降法及其在人脸配准中的应用。在Proceedings of the IEEE conference oncomputer vision and pattern recognition，第532-539页，2013中。五、六[30] 张杰，Shiguang Shan，Meina Kan，和Xilin Chen。由粗到精的自动编码器网络（cfan），用于实时人脸对齐。欧洲计算机视觉会议，第1-16页Springer，2014. 5[31] 理查德·张。使卷积网络再次平移不变，2019年。二、三、六[32] Zhanpeng Zhang ， Ping Luo ， Chen Change Loy ， andXiaoou Tang. 基于深度多任务学习的人脸标志点检测欧洲计算机视觉会议，第94Springer，2014. 4[33] Zhanpeng Zhang ， Ping Luo ， Chen Change Loy ， andXiaoou Tang.使用辅助属性学习人脸对齐的深度表示。IEEE Transactions on Pattern Analysis and MachineIntelligence，38（5）：918-930，2015。5[34] Shizhan Zhu，Cheng Li，Chen Change Loy，and XiaoouTang.通过由粗到细的形状搜索进行人脸对齐。IEEE计算机视觉和模式识别会议论文集，第4998-5006页，2015年。五、六

下载后可阅读完整内容，剩余1页未读，立即下载