基于深度初始化的粗到细回归树集成人脸对齐算法的研究

120 浏览量更新于2023-10-13 收藏 1.39MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

基于深度初始化的粗到细回归树集成人脸对齐算法Ro bertoValle1[0000−0003−1423−1478]，Jo s'eM.Buenaposada2[0000−0002−4308−9653]，AntonioVald'es3，andd LuisBaumela11Univ. 我是一个很好的朋友，我是一个很好的朋友。{rvalle，lbaumela}@fi.upm.es2大学西班牙胡安·卡洛斯国王josemiguel. urjc.es3大学西班牙马德里的孔普鲁腾塞avaldes@ucm.es抽象。在本文中，我们提出了DCFE，一个实时的面部标志回归方法的基础上，从粗到细的集成回归树（ERT）。我们使用一个简单的卷积神经网络（CNN）来生成地标位置的概率图这些进一步细化与ERT回归，这是通过拟合3D人脸模型的地标地图初始化ERT的粗到细结构使我们能够解决零件变形的组合爆炸与3D模型，我们还解决了其他关键问题，如鲁棒的回归初始化，自遮挡，并同时正面和侧面人脸分析。在实验中，DCFE在AFLW，COFW和300W私人和公共数据集上取得了最好的报告结果关键词：人脸对齐，级联形状回归，卷积神经网络，粗到细，遮挡，实时1介绍面部标志点检测是许多面部图像分析问题的初步步骤，例如验证和识别[25]，属性估计[2]等。最近，大型注释数据集的可用性鼓励了该领域的研究，并取得了重要的性能改进。然而，这仍然是一个具有挑战性的任务，特别是当面临着大的姿态变化和部分遮挡。最近的300W基准测试中表现最好的都是基于深度回归模型[20，23，30，33]（见表1）。这些方法最突出的特点然而，在这些模型中，不容易实施面部形状一致性或估计自遮挡。另一方面，基于ERT的模型[6，7，18，24]易于并行化，并在其估计中隐含地施加形状一致性。它们比深度模型更有效，正如我们在实验中所证明的那样（见图4），在良好的初始化下，它们也非常准确。在本文中，我们提出了一种混合方法，称为深度初始化的粗到精集成（DCFE）。它使用一个简单的CNN来生成2R. 好的，杰。M. Bue naposada，A.ValdesandL.巴乌美拉地标位置因此，在没有全局施加的形状的情况下获得关于个体界标的位置的信息。然后，我们拟合3D人脸模型，从而强制执行全局人脸形状先验。这是粗到细ERT回归器的起点。拟合的3D面部模型向回归器提供有效的初始形状和关于地标可见性的信息从粗到细的方法使ERT能够轻松解决非刚性零件所有可能变形的组合爆炸所提出的方法运行在实时（ 32 FPS ），并提供了最好的报告结果在 AFLW ，COFW，和300W的私人和公共数据集。2相关工作人脸对齐已经是二十多年来激烈研究的主题最初的成功结果是基于2D和3D生成方法，例如主动外观模型（AAM）[8]或3D变形模型[4]。最近的判别方法基于两个关键思想：相对于当前形状估计的索引图像描述[12]和使用回归器，其预测位于由训练面部形状跨越的子空间上[7]，这就是所谓的级联形状回归器（CSR）框架。Kazemi等人[18]通过提出回归树的实时集成改进了原始级联框架。Ren等人[24]使用本地二进制特性将性能提升至3000 FPS。Burgos-Artizzu等人[6]包括遮挡信息。Xiong等[31，32]使用SIFT特征并学习将搜索空间划分成具有相似梯度方向的各个区域总体而言，CSR方法对回归过程的起点非常敏感。最近工作的一个重要部分围绕着如何找到好的初始化[38，37]。在本文中，我们使用CNN产生的地标概率图来找到CSR的鲁棒起点。目前最先进的人脸对齐方法是基于CNN的。Sun等人[26]是应用三级CNN来获得准确的地标估计的先驱。Zhang等人[36]提出了一种多任务的解决方案来处理Facealignmentt和attibutesclasficion。 Lv等. ’Yu等人[34]变换界标而不是用于细化级联的输入图像Trigeorgis等人[27]和Xiaoet al. [30]是第一种将CSR的特征提取和回归步骤融合到端到端训练Kowalski等人[20]和Yanget al.[33]在Menpo比赛中表现最好[35]。两者都使用全局相似性变换来归一化地标位置，然后分别使用基于VGG的和堆叠沙漏网络来回归最终形状。深度神经网络的大接收域传达了这些方法对面部旋转、缩放和变形具有高度鲁棒性然而，尚不清楚如何将面部形状一致性强加于所估计的地标集合此外，为了实现准确性，他们诉诸于一系列深度模型，这些模型逐渐细化估计，从而增加了计算需求。一种用于人脸对齐的3基于3D人脸模型的作品也越来越多。在最简单的情况下，它们将平均模型拟合到估计的图像界标位置[19]或联合回归面部的姿势和形状[17，29]。这些方法提供3D姿态信息，其可用于估计界标自遮挡或训练专用于给定头部取向的更简单的回归器然而，构建和拟合3D人脸模型是一项艰巨的任务，并且当前基准中的全3D方法的结果不如上述那些好我们的建议试图利用以前的方法的最佳功能。使用基于CCN的初始化，我们继承了深度模型的鲁棒性像简单的3D方法一样，我们拟合刚性3D人脸模型来初始化ERT并估计全局人脸方向以解决自遮挡。最后，我们使用一个ERT在一个由粗到细的框架，以实现准确性和效率。3深度初始化的由粗到细系综在本节中，我们介绍了深度初始化的粗到精集成方法（DCFE）。它包括两个主要步骤：基于CNN的刚性面部姿态计算和基于ERT的非刚性面部变形估计，两者都在图2中示出。1.一、图1：DCFE框架图。GS、Max和POSIT分别表示高斯平滑滤波器、每个概率图的最大值和3D姿态估计。3.1刚体位姿计算基于ERT的回归需要一个可接受的初始化收敛到一个好的解决方案。我们建议使用像[3，4R. 好的，杰。M. Bue naposada，A.ValdesandL.巴乌美拉我我我我9，30]以生成似然形状初始化候选。我们已经修改了Honar等人。’我们训练该CNN以获得一组概率图P（I），指示输入图像中每个地标的位置（见图1）。①的人。每个平滑概率图的最大值确定我们的初始地标位置。注意图1这些预测是敏感的遮挡，可能不是有效的面部形状。与典型的基于CNN的方法相比，e. 例如，在一个实施例中，[33]，我们的CNN更简单，因为我们只需要对地标位置进行粗略估计。为了用一个合理的脸开始ERT，我们通过将刚性3D头部模型拟合到估计的2D地标位置来计算初始形状。为此，我们使用大卫等人提出的softPOSIT算法。[10]第10段。因此，我们使用估计的刚性变换将3D模型投影到图像上。这为ERT提供了目标面部的尺度、平移和3D姿态的粗略估计（参见图1B）。①的人。设x0=g0（P（I））为初始形状，即处理输入图像I后初始化函数g0的输出。在这种情况下，x0是具有L个2D地标坐标的L×通过初始化，我们确保x0是一个有效的人脸形状。这保证了算法下一步中的预测也将是有效的面部形状[7]。3.2基于ERT的非刚性形状估计令S={si}N是列车面部形状的集合，其中si=（i，xg， vg， wg，x0）。i=1I I I IG每个训练形状si具有其自己的：训练图像，Ii;地面实况形状，xi;地面实况可见性标注，vg;带注释的地标标注，wg（1带注释我我和0缺失）和用于回归训练的初始形状x0。地面实况Gi(or目标）形状xi是具有L个地标坐标的L×2向量的L×1向量v g保存每个地标的可见性二进制标签。如果vg的第k个分量，vg（k）= 1，则第k个界标可见。在我们的实践中--我们使用形状索引特征[21]，φ（P（Ii），xt， wg），其取决于我我图像Ii中的界标的当前形状Xt以及它们是否被注释或不，wt。我们在K的T存储器和磁盘阵列中划分了优先级regressiontresforthe t et-thstage，Ct（fi）=xt−1+Kgk（fi），其中fi=φ（P（I），xt−1，w，g）和x，jk=1是估计的地标的坐标第j级（或第一级中的初始化坐标x0）。培养在整个ERT中，我们使用S中的N个训练样本来生成增强的训练集SA，其中基数NA=|是一个|.从每个训练形状si，我们通过改变它们的初始形状来生成额外的训练样本。为此，我们从平滑的概率图中随机采样新的候选地标位置，以生成新的初始形状（参见第3.1节）。我们将可见性标签v与形状结合起来，以更好地处理遮挡（见图1）。5c）以类似于Burgos-Artizzu等人的方式。[6]以及自然地处理部分标记的训练数据，如Kazemi等人。[18]使用地面实况注释标签w∈ { 0， 1}。每个初始形状通过以下步骤逐步细化一种用于人脸对齐的5我估计形状和可见度增量Cv（φ（P（Ii），xt−1， wg）），其中xt−1ti ivi表示第i个样本的当前形状（参见算法1）。Ct 被训练为了仅最小化每个树叶上的界标位置误差，除了平均形状之外，我们还输出所有训练形状的平均值，vg，其属于该节点。我们定义Ut−1={（xt−1， vt−1）}NA随着该组i i i i=1所有训练数据的所有当前形状和对应的可见性向量。算法1训练回归树输入：训练数据S、T生成增强训练样本集对于t=1到T，做提取所有样本的特征，F={f}NA={φ（P（I），xt−1， wg）}NAA ii=1我我我i=1从SA，FA和Ut−1={（xt−1， vt−1）}NA学习由粗到精的回归量Cvti i i=1更新当前形状和可见度，{（xt， vt）=（xt−1， vt−1）+Cv（f）}NA结束输出：{Cv}T我我我我不是i=1tt=1与传统的ERT方法相比，我们的合奏是简单的。它将需要更少的树，因为我们只需要估计非刚性面部形状变形，因为在前一步骤中已经估计了3D刚性分量。下文中，我们描述ERT的详情。回归的初始形状。 ERT中起始点的选择i sfundamentaltorea chagood sol uΣt i on. 简单的选择就是groundtruthtrainigshapes，x¯0=Ni=1 xg/N。然而，这样的初始化--这导致在具有大姿态变化的测试图像中的错误对准结果。替代策略是使用不同的初始化多次运行ERT，并取中值[6]，使用其他地面实况形状进行初始化其中i =j[18]或随机变形初始形状[20]。I j在我们的方法中，我们使用第二节中描述的算法来初始化ERT。3.1，它提供了一个强大的和近似的形状初始化（见图1）。2）的情况。因此，ERT仅需要估计面部姿态的非刚性分量图2：300W训练子集的最差初始形状。6R. 好的，杰。M. Bue naposada，A.ValdesandL.巴乌美拉不我我特征提取。ERT效率取决于特征提取步骤。一般来说，[31，38]使用的SIFT等描述符特征改善了面部对齐结果，但与简单的特征（如普通像素值差异）相比，计算成本更高[7，6，18，24]。在我们的例子中，一个简单的特征就足够了，因为形状地标接近它们的地面真实位置。在DCFE中，我们使用概率图P（I）来提取级联的特征。为此，我们选择地标l及其相关联的概率图Pl（I）。该特征被计算为来自1周围的FREAK描述符模式[1]的Pl（I）中的两个像素值之间的差。我们的特征与Lee等人的特征相似。的[ 21]。然而，我们的图像是在预可行映射P（I）而不是图像I上找到的。我们让训练算法在每次迭代中选择信息量最大的地标和像素对学习从粗到细的回归量。为了训练第t阶段的回归量Cv，我们拟合了一个ERT.因此，目标是顺序地学习一系列弱学习器，以贪婪地最小化回归损失函数：Lt（SA，FA，Ut−1）=ΣNAΣK||w g⊙ (x g− x t−1−gk（fi））||第二条第一款我i=1我我k=1其中⊙是Hadamard乘积。存在使等式1最小化的不同方式Kazemi等人[18]提出了一个基于梯度提升的通用框架，用于学习回归树的集合Lee等[21]建立基于高斯过程的优化方法，也学习回归树的集合，但通过减少过拟合而优于以前的文献。在训练全局人脸地标回归器时的一个关键问题是缺乏显示人脸部分变形的所有可能组合的示例。因此，这些回归量快速过拟合并且很难推广到训练集中不存在的零件变形的组合为了解决这个问题，我们介绍了粗到细ERT架构。目标是能够应对在训练期间未看到的面部部分变形的组合单个整体回归器不能估计这些局部变形（参见图1和图2之间的差异）3b和图第3c段）。我们的算法是不可知的部分或水平的数量的粗到细的估计。算法2详细描述了P个面部部分回归量（每个回归量具有界标的子集）的训练，以构建从粗到细的回归量。请注意，在此上下文中，x0和v0是来自最后一个回归器输出的形状和可见性向量（例如，例如，在一个实施例中，前一部分回归器或前一全阶段回归器）。在我们的实施方式中，我们使用P= 1（所有界标）与第一个K1回归器，并且在最后的K2回归器中，部分的数量增加到P= 10（左/右眉毛、左/右眼、鼻子、上/下嘴、左/右耳和下巴），参见图1B中由线连接的所有部分。3c.拟合回归树。第k个回归树的训练目标是最小化残差平方和，同时考虑注释的一种用于人脸对齐的7我S算法2训练P部分回归量输入：SA，FA，{（x0， v0）}NA，v，K，P我我i =1对于k=1至K，对于p=1到P，//⊙是Hadamard积，（p）选择向量在该部分中的元素计算形状残差{rk（p）= wg（p）⊙（xg（p）−xk−1（p）}NAii i i i i=1使用残差{rk（p）}和FA（p）拟合回归树gpKi是缩放每棵树的贡献的收缩因子更新样本{（xk（p），vk（p））=（xk−1（p），vk−1（p））+v·gp（f（p））}NA首尾相接我我我Kii=1输出：P部分回归量{Cp}P，对于K个弱学习者，每个Cp={gp}Kp=1kk=1地标标签：Ek= ΣNA||2=||2=ΣNA||二、||2.（二）我i=1我我我i=1我们通过递归地将训练集分成左（l）和右（r）子节点来学习每个回归二叉树设计了树节点拆分函数以最小化所选地标中的等式2的Ek为了训练回归树节点，我们随机生成一组候选分裂函数，每个分裂函数都涉及四个参数θ =（τ，p 1，p 2，l），其中p 1和p 2是固定FREAK结构上围绕x k −1中第l个地标坐标的像素坐标。对应于第i个训练样本的θ的特征值是fi（θ）= Pl（Ii）[p1]-Pl（Ii）[p2]，即给定地标的地图中的概率值的差。最后，我们计算对特征值进行阈值化的分裂函数，fi（θ）>τ。给定N SA，节点处的训练样本集，拟合第k棵树的树节点，包括找到使Ek（N，θ）最小化的参数θΣarg minEk（N，θ）= arg minΣ||第二章（三）||2(3)θ θsb∈{l，r}s∈Nθ，b其中Nθ，l和Nθ，r分别是由于θ引起的决策而发送到左子节点和右子节点的样本。候选分裂函数和训练数据子集的平均残差μθ，b由下式给出：1µθ，b=θ，b|Σs∈Nθ，b（4）一旦我们知道最佳分裂，每个叶节点存储平均残差μθ，b，作为到达该叶的任何示例的回归的输出。|N8R. 好的，杰。M. Bue naposada，A.ValdesandL.巴乌美拉我.4实验为了训练和评估我们的建议，我们使用300W，COFW和AFLW进行实验，这些数据被认为是最具挑战性的公共数据集。此外，我们还展示了定性的人脸对齐结果与Menpo竞争的图像。– 300W。它提供了边界框和68个手动注释的地标。我们遵循最成熟的方法，并将300W注释分为3148个训练图像和689个测试图像（公开竞赛）。还对新更新的300W私人竞赛进行了评估。– 门坡包括8979个训练和16259个测试人脸，包含12006个半正面和4253个侧面图像。这些图像用先前的68个地标的集合进行注释，但没有面部边界框。– COFW。它侧重于闭塞。通常，总共有1345个训练面。测试集由507个图像组成。注释包括29个点的界标位置和二进制遮挡标签。– 劳联。提供了一个广泛的收集25993在野外的脸，与21个面部地标注释取决于他们的可见性。我们发现了几个注释错误，因此，从我们的实验中删除了这些面孔。从剩下的人脸中，我们随机选择19312张图像进行训练/验证，并选择4828个实例进行测试。4.1评价我们使用归一化平均误差（NME）作为度量来衡量形状估计误差.ΣNΣLgg100NME=Ni=11||1||1l=1wi（l）·xi（l）−xi（l）Di.（五）它计算由di归一化的地面实况和估计的地标位置之间的欧几里得距离。我们使用不同的di值来报告我们的结果：眼睛中心（瞳孔）之间的距离、外眼角（眼角）之间的距离和边界框大小（高度）。此外，我们还使用累积误差分布（CED）曲线比较我们的结果。我们将AUCε计算为NME小于ε的图像的CED曲线下面积，并将FRε计算为表示NME大于ε的测试面的百分比的失败率。我们使用精确率/召回率来比较遮挡预测。为了训练我们的算法，我们对训练集进行洗牌，并将其分为90%的训练集和10%的验证集。4.2执行所有实验均采用本节所述的设置进行。我们从头开始训练CNN，选择具有最低一种用于人脸对齐的9验证错误。我们使用原始边界框注释放大30%来裁剪面部我们通过在±30◦之间应用随机的平面旋转、±15%的尺度变化和±5%的边界框大小的平移、随机水平镜像图像和生成随机矩形遮挡来生成每个时期的不同训练样本我们使用β 1 = 0的Adam随机优化。9，β2 = 0。999和 =1e−8参数。我们在400个epoch中进行训练，初始学习率α = 0。001，没有衰减，批量大小为35个图像。在CNN中，裁剪的输入面从160×160减少到1×1像素，逐渐除以其大小的一半，跨越B = 8个分支，应用2×2池化4。所有层包含64个通道，用于描述所需的地标特征。我们使用梯度提升算法[15]训练粗到细ERT。它需要T= 20个阶段，每个阶段K= 50个回归树。树的深度设置为5。选择最佳分割参数θ的测试次数设置为200。我们调整每个图像的大小，将面部大小设置为160像素。对于特征提取，FREAK图案直径在每个阶段中逐渐减小（即，例如，在最后阶段，每个特征的像素对更接近）。我们为每个人脸训练图像生成几个初始化，以创建一组至少NA= 60000个样本来训练级联。为了避免过拟合，我们使用收缩因子ν = 0。1在ERT我们的回归器触发粗到细的策略，一旦级联已经通过40%的阶段（见图1）。（见第3a段）。(a) NME演变（b）整体（c）从粗到细图图3：整体ERT回归器与我们的粗到细方法的示例(a) 通过级联中的不同阶段的误差的演变（虚线表示没有粗到细改进的算法）;（b）用整体回归器预测形状;（c）用我们的粗到细方法预测的形状。对于CNOMO数据集训练，CNN和树的粗到细集合需要48小时，使用 NVidia GeForce GTX 1080（ 8 GB） GPU和 3.50GHz的 IntelXeon E5-1650（6核/12线程，32 GB RAM）。在运行时，我们的方法平均以32FPS的速率处理测试图像，其中CNN使用C++，Tensorflow和OpenCV库处理每张人脸图像需要25 ms和ERT 6.25 ms。4除了当5×5图像减少到2×2时，我们应用3×3合并10R. 好的，杰。M. Bue naposada，A.ValdesandL.巴乌美拉DCFE（45.71）（7.26）cGPRT（39.08）（14.08）丹麦（39.00）（8.27）（38.56）（11.61）ERT（31.20）（22.21）（21.48）DCFE（35.86）（7.30）RCN（28.89）（13.61）（21.42）（29.19）图像比例图像比例4.3结果在这里，我们比较我们的算法，DCFE，与每个数据集的最佳报告结果。为此，我们使用作者提供的代码和相同的设置（包括相同的训练，验证和边界框）训练了我们的模型和DAN [20]，RCN [16]，cGPRT [21]，RCPR [6]和ERT [18]中的模型在图4中，我们绘制了CED曲线，并且我们提供了每种算法的AUC8和FR8值。此外，为了与表1、2、3、4中的其他方法进行比较，我们显示了文献中发表的原始结果。1.0 1.00.8 0.80.6 0.60.4 0.40.2 0.20.00 1 2 3 4 5 6 78NME（%）(a) 300W公共0.00 1 2 3 4 5 6 7 8NME（%）(b) 300W专用1.0 1.00.8 0.80.6 0.60.4 0.40.2 0.20.00 1 2 3 4 5 6 78NME（%）(c) COFW0.0电话：+86-0512 - 88888888传真：+86-0512 - 88888888NME（%）(d) AFLW图4：按AUC排序的累积误差分布。在表1和表2中，我们提供了300W公共和私人数据集中最先进方法的结果我们的方法在私人（见表2）和300 W竞争公共测试集（见表1）的公共和完整子集中获得了最佳性能。这是由于由粗到细的ERT方案实现的优异的精度，强制执行有效的面部形状。在300W竞争公共测试集的挑战性子集中，SHN [33]取得了更好的结果。这是由在具有非常大的尺度和姿态变化的少数图像中初始化ERT的错误引起的，这些图像不存在于训练集中。我们的方法表现出优越的能力，在处理低误差的情况下，因为我们实现了最好的NME结果在300W的共同子集的最大利润率。CED曲线见图1A和图1B。图4a和图4b示出DCFE优于所有DCFE（52.43）（1.83）丹麦（46.96）（2.67）RCN（43.71）（2.50）cGPRT（41.32）（12.83）风扇（38.31）（16.33）邓（35.79）（12.17）ERT（32.35）（19.33）DCFE（47.17）（3.38）RCN（44.70）（4.04）ERT（27.96）（17.85）图像比例图像比例一种用于人脸对齐的11它的竞争对手在这两个数据集中提供所有类型的图像代码。在300W的私人挑战赛中，我们获得了最好的成绩，优于邓等人。[11]和Fanetal. [13]这是学术界和工业界的竞争获胜者（见图）。第4b段）。方法CompupilsNMEmoncornersNMEChall瞳孔NME发动机转角NME学生NME充分角落NME AUC 8 FR8RCPR [6]6.18-17.26-8.35---ESR [7]5.28-17.00-7.58-43.12 10.45SDM [31]5.60-15.40-7.52-42.94 10.89[18]----6.40---LBF [24]4.95-11.98-6.32---cGPRT [21]----5.71---CFSS [38]4.73-9.98-5.76-49.87 5.08DDN [34]----5.65---TCDCN [36]4.80-8.60-5.54---主数据管理[27]------52.12 4.21RCN [16]4.67-8.44-5.41---DAN [20]4.423.197.575.245.033.5955.33 1.16TSR [23]4.36-7.56-4.99---RAR [30]4.12-8.35-4.94---SHN [33]4.12-7.004.90----DCFE3.832.767.545.224.553.2460.13 1.59表1：300W公共测试集上的面部对准方法的误差。我们可以通过比较300W、4. 55，withitthHonarisbaselineRCN[16]，5.41.这意味着16%的改善。在我们的ERT中，由粗到细的策略只影响困难的病例，具有罕见的面部部位组合。放大图。3b和3c你可能会欣赏它如何改善脸颊和嘴的调整。尽管适当地对齐局部部件是关键步骤，但是全局NME仅受到轻微影响。表3和图4c使用COFW数据集比较我们的模型和基线的性能。我们得到了最好的结果（i. 例如，NME 5.27）建立了一种新的最先进的而不需要复杂的网络，这证明了保留面部形状的重要性和我们的框架对严重遮挡的鲁棒性。在地标的可见性方面，我们已经获得了与以前的方法相当的性能。在表4和Fig.4d我们展示了AFLW的结果这是一个具有挑战性的数据集，不仅因为它的大小，而且因为没有注释的自遮挡地标的样本的数量。这就是竞争对手数量较少的原因。4d，很少有方法允许训练12R. 好的，杰。M. Bue naposada，A.ValdesandL.巴乌美拉方法室内角落户外角落充分角落NME AUC8 FR8 NME AUC8 FR8 NME AUC8FR 8ESR [7]cGPRT [21]CFSS [38]主数据管理[27]DAN [20]SHN [33]DCFE----- 四点十分3.96----------------- 四点3.81--------------- 五点零五分4.304.053.8832.35 17.0041.32 12.8339.81十二点半52.28 2.3352.56 1.3345.3247.00-52.426.802.67-1.83表2：300W专用测试集上的面部对准方法的误差。缺失数据。虽然表4中的结果并不严格可比，因为每篇论文都使用自己的训练和测试子集，但考虑到[37，14，23]不使用两个最困难的标志，即耳朵中的标志，我们得到的NME为2.17，再次建立了新的最先进水平方法学生NME AUC 8 FR 8方法查准率/查全率高度NMEESR [7]11.20---ESR [7]4.35RCPR [6]8.50--80/40CFSS [38]3.92TCDCN [36]8.05---RCPR [6]3.73RAR [30]6.03---Bulat等人[五]《中国日报》2.85DAC-CSR [14]6.03---CCL [37]2.72Wu等[28日]5.93--80/49.11DAC-CSR [14]2.27SHN [33]5.6---TSR [23]2.17DCFE5.2735.86 7.2981.59/49.57DCFE2.17表3：COFW结果。表4：AFLW结果。Menpo测试注释尚未发布，但我们已经处理了他们的测试图像，以直观地执行错误分析。与许多其他方法相比，我们的算法在两个子集中进行评估，通过68个（半正面）和39个（侧面）地标注释一起训练一个我们使用OpenCV的公共Single Shot Detector [22]检测测试人脸。我们手动过滤检测到的人脸边界框，以减少误报，提高准确性。在图5中，我们呈现了所有数据集（包括Menpo）的一些定性结果。一种用于人脸对齐的13(a) 300W公共(b) 300W专用(c) COFW(d) AFLW(e) 门坡图5：在300W、COFW、AFLW和Menpo测试子集中使用DCFE的代表性结果蓝色表示地面实况，绿色和红色分别指出可见和不可见的形状预测14R. 好的，杰。M. Bue naposada，A.ValdesandL.巴乌美拉5结论在本文中，我们介绍了DCFE，这是一种强大的人脸对齐方法，它利用了文献中三种主要方法的最佳特征：3D人脸模型、CNN和ERT。CNN提供了鲁棒的地标估计，而没有面部形状强制。ERT能够强制面部形状并在地标检测中实现更好的准确性，但它仅在正确初始化时收敛。最后，3D模型利用面部方向信息来改进自遮挡估计。DCFE通过将3D模型拟合到初始CNN预测并将其用作ERT的初始形状来组合CNN和ERT。此外，3D推理能力使DCFE能够轻松处理自遮挡，并处理正面和侧面人脸。一旦我们解决了ERT初始化的问题，我们就可以利用它的好处。也就是说，我们能够在错过地标的情况下以半监督的方式训练它。我们还可以估计由于遮挡导致的地标可见性，并且我们可以在每个阶段中并行执行回归树。我们还引入了一种由粗到细的ERT，能够处理局部零件变形的组合爆炸。在这种情况下，当用训练集中不存在的面部部分变形的组合来拟合面部时，通常的单片ERT将表现不佳。在实验中，我们已经表明，DCFE运行在实时改善，据我们所知，国家的最先进的性能在300W，COFW和AFLW数据集。我们的方法能够处理缺失和遮挡的地标，使我们能够在Ablo和AFLW数据集中为全轮廓和半正面图像训练单个回归因子A cknoled g m ents：Te eehorsthankPedroL´o p ezMarotoffeshelpim men ent the CNN.他们还感谢马德里超级计算和可视化中心（CeSViMa）提供的计算资源以及西班牙经济和竞争力部根据projectTIN2016-75982-C2-2-R提供的资金。是我。 Buena posada cknoledgeshess s portof ComputerVision and Image Processing research group（CVIP）from Universidad ReyJuan Carlos.一种用于人脸对齐的15引用1. Alahi，A.，奥尔蒂斯河Vandergheynst，P.：FREAK：快速视网膜关键点。IEEE计算机视觉与模式识别会议（CVPR）（2012）2. Bekios-Calfa，J.，Buenaposada，J.M.，Baumela，L.：通过利用面部属性依赖性的鲁棒性别识别模式识别字母（PRL）36，2283. Belhumeur，P.N.，Jacobs，D.W. Kriegman，D.J.，Kumar，N.：使用样本的共识定位面部的部分。 IEEE计算机视觉与模式识别会议（CVPR ）（2011）4. Blanz，V.，Vetter，T.：基于三维形变模型拟合的人脸识别。IEEE Trans.模式分析与机器智能（TPAMI）（2003）5. Bulat，A.，Tzimiropoulos，G.：二进制卷积地标定位器，用于人类姿态估计和有限资源的面部对准。In：Proc. International Conference on ComputerVision（ICCV）（2017）6. Burgos-Artizzu，X.P.，Perona，P.，Dollar，P.：遮挡情况下鲁棒的人脸特征点估计。在：Proc.国际计算机视觉会议（ICCV）（2013）7. 曹，X.，魏，Y.，温，F.，孙杰：通过显式形状回归进行面部对齐。IEEE计算机视觉与模式识别会议（CVPR）（2012）8. 库茨TF爱德华兹，G.J.，泰勒，C.J.：活动外观模型。在：Proc.欧洲计算机视觉会议（ECCV）（1998）9. Dantone，M.，Gall，J.，Fanelli，G.古尔，L.V.：使用条件回归森林的实时面部特征检测。In：Proc.IEEE计算机视觉和模式识别会议（CVPR）（2012年）10. David，P.，DeMenthon，D.，Duraiswami河Samet，H.：Softposi：同时确定姿势和对应关系。 International Journal of Computer Vision （ IJCV ） 59（3），25911. Deng，J.，刘昆，杨杰，Tao，D.：CSR：多视图、多尺度和多分量的图像捕获。ImageandVisionComputing（IVC）47，1912. Dollar，P.，Welinder，P. Perona，P.：级联姿态回归。IEEE计算机视觉和模式识别会议（CVPR）（2010年）13. Fan ， H. ， Zhou ， E. ：基于深度学习的人脸标志点定位方法。ImageandVisionComputing（IVC）47，2714. 冯志，Kittler，J.，圣诞节，W.J. Huber，P.，吴X：利用训练数据增强和模糊集样本加权的动态注意力控制级联形状回归。在：Proc. IEEE计算机视觉和模式识别会议（CVPR）（2017）15. Hastie，T.，Tibshirani河弗里德曼，J.H.：统计学习的要素。03 The Dog（2009）16. Honari，S.，Yosinski，J.，Vincent，P.C.J.：学习从粗到细的特征聚合。In：Proc.IEEE计算机视觉与模式识别会议（CVPR）（2016）17. Jourabloo，A.，是的MLiu，X.，中国科学院院士，Ren，L.：使用单个CNN进行姿势不变的人脸对齐In：Proc.国际计算机视觉会议（ICCV）（2017）18. Kazemi，V.，Sullivan，J.：使用回归树集合的一毫秒人脸对齐IEEE计算机视觉与模式识别会议（CVPR）（2014）16R. 好的，杰。M. Bue naposada，A.ValdesandL.巴乌美拉19. Kowalski，M.，Naruniec，J.：使用k-聚类回归森林的人脸对齐，具有weightdsplting。IEEESignalProcessingLetters23（11），156720. Kowalski，M.，Naruniec，J.，Trzcinski，T.：深度对齐网络：一种用于鲁棒面部对齐的卷积神经网络。在：Proc. IEEE计算机视觉和模式识别研讨会会议（CVPRW）（2017）21. Lee，D.，帕克，H.Yoo，C.D.：使用级联高斯过程回归树的人脸对齐IEEE计算机视觉与模式识别会议（CVPR）（2015）22. 刘伟，Anguelov，D.，Erhan，D.，塞格迪角Reed，S.E.，Fu，C.，Berg，A.C.：SSD：单次触发多盒探测器。In：Proc.欧洲计算机视觉会议（ECCV）（2016）23. Lv，J.，Shao，X.，邢杰，郑，C.周X：用于高性能面部标志检测的具有两阶段重新初始化的深度回归架构在：Proc. IEEE计算机视觉和模式识别会议（CVPR）（2017）24. Ren，S.，曹，X.，魏，Y.，孙杰：通过回归以3000 fps进行面部对齐局部二进制特征IEEE计算机视觉与模式识别会议（CVPR）（2014）25. Soltanpour，S.，Boufama，B.，Wu，Q.M.J.：三维面形重建局部特征方法综述。PatternReco gnition（PR）72，39126. Sun，Y.，王，X.，唐X：用于面部点检测的深度卷积网络级联。IEEE计算机视觉与模式识别会议（CVPR）（2013）27. Trigeorgis ， G. ，斯内普， P. ， Nicolaou ，文学硕士， Antonakos ， E. ，Zafeiriou，S.：记忆下降法：应用于端到端面对齐的循环过程。在：Proc.IEEE计算机视觉和模式识别会议（CVPR）（2016）28. 吴，Y.，Ji，Q.：在显著头部姿势和遮挡下的鲁棒面部标志检测In：Proc.国际计算机视觉会议（ICCV）（2015）29. Xiao，S.，冯杰，刘，L.，聂，X.，王伟，Yan，S.，Kassim，A.A.：用于大姿态人脸标志点检测的递归在：Proc. 国际计算机视觉会议（ICCV）（2017）30. Xiao，S.，冯杰，邢杰，Lai，H.，Yan，S.，Kassim，A.A.：鲁棒的面部地标检测通过经常性的注意力细化网络。在：Proc.欧洲计算机视觉会议（ECCV）（2016）31. Xiong，X.，中国农业科学院，la Torre，F.D.：监督下降法及其在人脸配准中的应用In：Proc.IEEE计算机视觉与模式识别会议（CVPR）（2013年）32. Xiong，X.，中国农业科学院，la Torre，F.D.：全局监督下降方法在：Proc.IEEE计算机视觉和模式识别会议（CVPR）（2015）33. 杨杰，刘昆，Zh

下载后可阅读完整内容，剩余1页未读，立即下载