高性能人脸特征点检测的两阶段重新初始化深度回归结构

54 浏览量更新于2023-10-16 收藏 2.99MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1一种用于高性能人脸特征点检测的两阶段重新初始化深度回归结构吕江静1、2张，邵小虎1、2张，邢俊良3、程程1、西周11中国科学院重庆绿色智能技术研究院2中国科学3中国科学{lvjiangjing，shaoxiaohu，chengcheng，zhouxi}@ cigit.ac.cnjlxing@nlpr.ia.ac.cn摘要基于回归的人脸特征点检测方法通常学习一系列回归函数，以从初始估计更新特征点位置。大多数的实验方法集中在学习有效的映射函数与鲁棒的图像特征，以提高性能。然而，处理初始化问题的方法受到的关注相对较少.在本文中，我们提出了一个深度回归架构与两个阶段的重新初始化显式地处理初始化问题。在全局阶段，给定具有粗略人脸检测结果的图像，首先通过监督空间Transformer网络将整个人脸区域重新初始化为规范形状状态，然后训练回归粗略的地标估计。在局部阶段，不同的人脸部分被分别重新初始化到它们自己的标准形状状态，然后通过另一个回归子网络得到最终的估计。我们提出的深度架构从端到端进行训练，并使用不同类型的不稳定初始化获得了有希望的结果。它还实现了优于许多竞争算法的性能。1. 介绍人脸特征点检测或人脸对齐是根据人脸检测结果在人脸上定位一些预定义的特征点，从而提供人脸形状的表示。它是计算机视觉领域中最重要的任务之一，也是许多其他计算机视觉任务的关键组成部分，3D人脸重建[1，11]，人脸动画[4]和人脸识别[12，3，40]。在过去的几十年里，计算机视觉研究人员为解决这一问题付出了巨大的努力，并取得了重大进展[7，8，9，41，30，33，5，21，16，29，2，35，38，39]。在这些年的研究中，这些作者对这项研究做出了同样的基于回归的算法[30，9，33，5，21，16，29，2，35，38，39]目前占主导地位的方法来解决这个任务。与使用参数化模型来描述面部外观和形状的方法[7，8，41]相比，基于回归的方法直接学习一系列映射函数，即，回归器，以朝向真实位置渐进地更新地标位置的估计。总结来自先前研究的结果，姿势索引的鲁棒特征[9]、级联回归结构[5]和回归模型[30，21，16]是设计高性能地标检测算法的三个最重要的方面。通过将这些研究结果从传统方法部署到强大的深度学习框架中，已经开发了许多有前途的基于深度学习的人脸对齐算法[35，24，23，36，27，20]。虽然在过去的十年中取得了很大的进展，但人脸标志点检测仍然是一个非常棘手的问题。当人脸图像出现较大的视角变化、不同的表情以及部分遮挡时，即使是最先进的算法也可能无法正确定位特征点，这限制了许多人脸特征点检测算法在实际系统中的应用。为了解决这些问题，许多以前的工作[41，33，27]投入了大量精力来学习鲁棒的图像特征和有效的回归函数。然而，初始化基于回归的方法的方法相对较少关注，我们相信这对解决这个问题也是至关重要的。目前大多数的人脸标志点检测算法都依赖于人脸检测提供一个良好的直角人脸区域作为初始化。根据最近的研究[31，32，21]，如果测试期间的初始检测矩形与训练阶段使用的矩形不同，许多地标检测器的性能会下降很多。在许多情况下，用户可能不得不选择与训练中使用的人脸检测器不同的其他人脸由于不同的人脸检测器通常返回各种人脸边界框，33173318FFG^F′^^F1^1F21G^1F3G^2F4G^3G^4G^5图1. 所提出的深度回归架构的流水线，具有用于从粗到细的面部标志检测的两阶段重新初始化。在全局阶段（I），首先将面部区域重新初始化为规范形状状态（a），然后回归到粗略形状（b）。在局部阶段（II），不同的面部部分被进一步单独地重新初始化为它们自己的规范形状状态（c），随后是另一个回归子网络以得到最终检测（d）。图2. 不同类型的面边界框：由Viola-Jones检测器检测到的框，由Dlib检测器检测到的框（绿色），由300-W数据集提供的官方框（蓝色），由地面实况的地标限定的框（黑色）。不同的尺度和中心偏移（c.f. 图2），如果面部标志检测算法可以产生鲁棒的结果而不太依赖于面部检测结果，则将非常有用为了明确地处理基于回归的地标检测方法中的初始化问题，我们提出了一种深度回归架构，该架构具有从端到端学习的两阶段图1绘制了所提出的深度架构的框架我们的两阶段重新初始化模型从粗到细，从全局到局部，连续地重新初始化深度回归模型，以大幅提高地标检测性能。在全球阶段，有两个子网：全局重新初始化子网络和全局回归子网络。在重新初始化子网络处，提供具有粗略边界框的面部图像，面部图像被重新初始化为spa。最终转化为规范状态，即，，使面具有相同的参考中心、比例和角度。该子网络能够较好地解决初始值变化的问题.利用全局归一化的人脸状态，训练全局回归子网络以估计粗略的地标位置。在局部阶段也有两个子网络，在局部重新初始化子网络中，人脸形状的不同部分被进一步单独地重新初始化到它们自己的规范状态该算法对处理表情变化和局部遮挡等问题有很大的帮助。我们的整个架构是有效地训练从端到端，表现出更强大的鲁棒性，各种初始化，并取得了非常有前途的地标检测结果。在最近的两个人脸对齐基准测试中，300-W[22]和AFLW[17]，它获得了优于许多竞争性人脸标志检测算法的结果。总之，在本文中，我们做出了以下主要贡献：• 我们提出了一个两阶段重新初始化的深度回归架构，以显式地处理人脸标志点检测的初始化多样性问题。• 我们将全局和局部重新初始化模块都表示为监督空间Transformer学习3319问题，同时训练与整个架构从端到端。• 我们进行了大量的实验，以证明我们的模型取得了良好的鲁棒性，以不同的种类在两个大型基准数据集上的初始化和最先进的性能。2. 相关工作最近的面部标志检测通常被公式化为回归问题，并且许多最近的发展展示了非常有希望的结果[9，5，30，21，16，29，2]。随着深度学习模型在计算机视觉中的快速发展和部署，基于深度学习的算法大大提高了地标检测性能。在下文中，我们主要关注基于回归和基于深度学习的方法，并讨论与我们的方法相关的方法。将深度学习用于面部标志检测的最直接方法是让深度模型以级联方式端到端地学习特征和回归量[24，37]。为了提高性能，这些深度模型的架构通常被设计为从粗到细的结构[37，35，23，18，38，25]，以逐步更新结果。一些方法与面部属性的其他任务一起共同优化面部地标检测[36，20]。这些方法主要致力于学习特征和回归网络，然而，初始化问题，这也是重要的地标检测被这些方法忽略。最近的一项实验研究[31]评估并分析了不同因素对面部标志检测的影响。这项工作表明，大多数方法对不同的面部尺度，平移和初始形状敏感。[21]中的研究发现，然而，这些工作没有提到如何避免不知道地标的地面真相的不良初始化。我们在这项工作中的动机是找到一种方法，自动学习初始化参数。最近，提出了空间 Transformer 网络（ Space-Transformer Network，简称SPNN）[14]来学习训练样本到底层参考样本状态的特定实例变换，这提供了一种学习不同类型图像变换的不变性的方法。受其在图像分类任务上的良好性能的启发，我们提出了一个归一化网络，以产生更好的状态，用于全局和局部面部标志点检测。同样受到Wavelet模型的启发，DDN模型[34]变换了地标而不是用于细化级联的输入图像。它的点变换器网络旨在学习将初始地标映射到其最终位置的最佳局部与他们的工作不同，我们的Transformer网络通过使用与整个回归网络同时学习的粗地标和细地标来归一化输入图像。我们提出的深度架构不仅学习如何为人脸图像的全局和不同部分提供良好的初始化，而且在基准数据集上获得了比[34]3. 我们的两阶段重新初始化深度回归模型在图1中，我们绘制了用于面部界标检测的两阶段重新初始化深度回归架构的框架。它包括两个阶段，全球阶段和本地阶段。接下来，我们首先阐述了全局级和局部级的设计，然后介绍了整个模型的实现细节。给定初始图像I，面部界标检测的目的是定位预定义界标S=[x1，y1，...，xn，yn]T∈<$2n×1，作为面形的表征与以前的工作不同，我们的架构中的地面真实形状S在训练过程中并不固定ing，G和L分别表示全局和局部阶段的目标形状。为了便于随后的公式化，我们还表示以下公式：到不同的姿势，还有各种各样的初始化由不同的面部检测器带来。S= M（S）=（x1，...，Xn;y1，.，yn）∈n ~2×n，头部姿势辅助模型[32]应用具有与真实形状相似的姿势的形状从粗到精的人脸对齐模型[13]采用归一化的全脸图像，然后采用多尺度局部图像块来执行级联回归。[28]中的竞争获胜者模型提出了一种渐进的初始化检测策略，该策略在不同的回归阶段手动选择不同的地标子集。Work[38]在粗到细框架的所有阶段探索了整个形状空间上述工作的归一化和回归步骤使用一系列模块相互独立，而我们的网络是端到端训练的作为S的矩阵形式。以类似的方式，G和L的矩阵表示是G，L。3.1. 全球舞台以前的工作[21，31]研究了面部区域的不同预处理步骤，用于面部地标检测，并发现由地面真实形状界定的面部框为地标回归提供了最佳初始化。虽然在实际应用中使用这些框作为初始化是不切实际的，但是我们的全局阶段可以利用它们来学习这样好的甚至更好的人脸区域初始化。3320XGGGSGG我我我Ggg2′′我Ig对于初始图像I，全局阶段仅需要面部检测器提供粗略的边界框R以提取面部区域IR。与许多先前的直接从面部图像中回归特征点位置的深度回归方法不同，全局阶段首先学习从粗略检测到的面部区域中裁剪最佳图像区域，然后学习将裁剪的面部区域归一化为具有相同面部大小和旋转角度1的指定规范状态。然后将裁剪和归一化的人脸图像输入到后续的回归子网络中，以获得全局检测结果。3.1.1全局重新初始化子网受网络的启发，我们建立了一个全球重新初始化子网-图3. 全局重新初始化子网的结果。顶行：输入的初始人脸图像和初始人脸框。机器人行：由全局重新初始化子网络输出的变换后的人脸图像。F上的点（xs，ys）如下：.Σtxs i工作裁剪最佳面部区域并将整体标准化通过直接学习变换参数θg来进行后续回归学习。在介绍这个之前，i=Tθ我t.（一）1子网络，我们首先简要回顾了它是一种动态机制，通过为每个输入样本产生适当的变换来对图像进行空间变换。它可以分为三个部分：1）定位网络，其通过获取多个隐藏层来预测变换参数，2）采样网格，其是输入图像应当被采样以产生变换图像的点的集合，以及3）采样器，其获取输入图像和网格以产生变换图像。为了对输入面F∈H×W×3（由面图像IR调整大小为固定分辨率图像，W和H分别表示F的宽度和高度）上的裁剪和归一化操作进行建模，我们采用仿射变换，mation（其他Transformer功能也是可行的，例如、相似变换、射影变换）。作为定位网络的学习目标。该变换将人脸移动到图像中心，将人脸旋转到带有一定倾斜变形的正视点我们采用 CNN 结构，例如，TCDCN[36]作为局部化模型来预测变换参数θg。变换矩阵T θg 可以采用双线性采样器A（F′，Tθ）从F′∈H′×W′×3周围的像素中插值F g的每个像素值，F ′ ∈H ′ × W ′ × 3是F的较高分辨率图像：Fg=A（F′，T θ）.（二）网格生成器和采样器都是可微的，它允许梯度从采样器A（F′，T θ）反向传播到θ g[14]。在用于手写数字识别的原始SVM模型中[14]，变换参数是从最终分类损失反向传播的梯度中学习的。对于特征点检测任务，由于各种人脸的复杂性，仅使用后续的特征点回归损失很因此，我们将变换参数θ的损失函数公式化为监督的损失函数，以加速早期训练迭代中的收敛：Lθ=||θg−θ||其中，θ是能够将F变换为通过6维仿射变换构造参数θg，即，G以G为（G）代表了.T θg =Σθ11θ 12θ 13θ 21 θ 22 θ 23.地面实况S的正面形状）。用θθ变换后的象并不总是能为初始化提供最佳的正则态经过几次迭代训练后，当θg接近目标θg时，损失函数变换后的高分辨率人脸图像表示为图像Fg∈H×W×3，其中H′，W′为Fg的宽和高，大于F的宽和高。那么Fg上的点（xt，yt）可以用Tθ和1本质上，任何旋转角度都可以用来训练模型。在实验中，我们采用了其他方法中常用的直立面孔。该算法使网络继续学习仅由后续层传播的θrg典型状态的例子如图3所示。与初始人脸图像F相比，我们观察到Fg具有正面的平面内视点，较少不必要的背景，并且它类似于由地面真实的地标限定的正面人脸，但不完全相同。yy3321JLLLGLn3.1.2全局回归子网通过裁剪和归一化的面部区域，训练样本被重新初始化为更一致的状态，使得以下回归学习更可行。在获得Fg和Gg之后，引入全局深度回归子网来学习粗略形状G在Fg中的位置。该子网可以基于比前一个子网更深的结构来构建，例如，VGG-S网络[6]，包括八个可学习层，其中五个是卷积层，最后三个是全连接层。我们将最后一层的输出从1000修改为2n，用于预测n个地标位置。在工作[27]之后，我们使用L2，通过眼间距离而不是标准欧几里得距离归一化，作为地标检测的全局损失，以加快收敛：||2||2(a)（b）第（1）款图4.局部重新初始化子网络中的四个部分的界标，（a）300-W的68个界标，（b）AFLW的19个界标Lg=第二条、第四条D其中G是全局阶段中的预测形状，d表示G的眼间距离，其通过S投影到图像F ′的坐标中以用于形状回归学习。变换后的目标形状Gθ可以通过使用地面真值Sθ和T θ的逆矩阵来获得：图5. 本地重新初始化子网的结果。在该重新初始化子网络中分别重新初始化为它们自己的规范状态它只包含一个完整的-. S*G=T−1Σ .（五）连接层r，其输入是jth形部分Glj3.2. 局域级θg1由全球舞台产生这个子网的输出工作，这也产生了一个6维变换参数θlj 和局部变换矩阵Tθl ，是由于人脸的非刚性属性，全局重新初始化的人脸形状和回归的界标位置可能仍然不能捕获人脸形状的所有变化，特别是对于像眼睛、嘴巴和鼻子这样的局部人脸部分，因为它们具有来自不同身份、视图和表情的不同形状。为了处理局部人脸部分的变形，我们设计了局部阶段来重新初始化局部人脸部分到它们自己的规范状态，以进行更精细的界标回归，这对于进一步的能够将面部图像Fg变换为局部归一化的状态Flj，用于第j个形状部分的进一步回归。作为图5所示的每个部分的规范状态，面部部分的大多数样本与正面视图的贴片中心对齐，并保留一些上下文。3.2.2局部回归子网在得到变换后的图像改善结果。Fln 而粗糙形状Gln. 这个子网可以是无限的。局部阶段在获得反式后对形状进行细化，形成图像Fg和粗糙形状Gg。我们将内表面的标记分为四个部分，左形由全局级中的第一子网络进行初始化，以最小化形状增量的损失函数：眼睛Gl、右眼形状Gl、鼻子形状Gl、L1=||L-l||第二条第六款1 2 3n n2口Gl4（如图4所示），而忽略部分轮廓标志的准确性更难，其中，n表示形状之间的形状增量在局部回归中比内部标志的回归更好两个形状：局部形状Ln 转化基于第j个形状部分Glj，有两个子网，关于Gn和Tθln，Gn 由Gln变换和Tθln. 的重新初始化子网和回归子网-用于更精细的地标检测。更精细的预测地标Lln关于Fln可以计算：3.2.1本地重新初始化子网林林ˆt 公司简介.（七）类似地，在全局阶段中使用重新初始化子网络，面部形状的不同部分被进一步因为地标的地面真值当初始人脸图像被变换时，我们添加一个新的层称为形状逆Transformer层，其中=Gn3322局部级Lln的预测形状至S关于Fln可以投影表1.在300-W数据集上，基于不同的人脸检测器，比较了使用我们提出的方法和不使用NME的Ln 在初始图像I的坐标空间中，Tθg，Tθln和初始面盒R的矩形几何变换TR：B1、B2、P-、P表示使用基线1的结果，基线2，分别为Propose−、Propose方法。Sl=TR Tθ Tθ . L nΣ.（八）ngln1当省略变量Tθln时，轮廓部分可以从全局投影到初始图像I上变换后的图像F g也可以使用等式8。3.3. 实现细节在用任意一种人脸检测器检测出人脸通过平移和缩放来干扰人脸框，为每个训练图像生成多个样本，其分布由初始框和地面真实地标之间的差异计算。由于重新初始化网络中的采样网格的点通过人脸图像的大小被归一化到范围[-1，1]，因此架构中的预测形状和地面真实形状也被变换到相同的坐标空间。我们的模型训练采用随机梯度下降（SGD）。我们使用的最小批量大小为128，权重衰减为0.0002，动量为0.9，迭代次数为20k。整个体系结构训练有四个步骤。前三步和最后一步的学习率分别从0.01和0.001开始，采用多项式分解法动态调整学习率。培训过程详情如下：1. 在第一步中训练全局重新初始化子网络采用PReLU[10]作为激活函数。我们通过在开始1000次迭代时使用0.0001的小学习率来子对象的输入大小网络是一个60×60分辨率的图像。2. 然后，我们确定全局重新初始化子网络的权值，并训练全局回归子网络。这个网络是用ImageNet初始化的预训练好的人脸模型，变换后的人脸大小为224×224。3. 在第三步，我们固定全局阶段的权重每个重新初始化子网络的全连接层通过使用从预定义的规范面部分计算的变换参数来初始化。每个局部回归子网络用全局重新初始化的模型子网络具有相同的输入图像大小为60×60。4. 最后，所有的转换参数损失层被删除，整个网络是微调端到端的形状回归。4. 实验在下面的部分中，我们首先评估我们的方法对各种初始化的鲁棒性，然后在基准数据集上与其他最先进的方法进行为了验证所提出的方法的优点，我们训练了四个不同的模型进行比较：使用TCDCN网络进行训练的模型（记为Baseline1或B1），使用VGG- S网络（见 3.1.1 节）进行训练的模型（记为 Baseline2 或B2 ），使用全局子网络进行训练的模型（记为Proposed-或P-），以及使用全局和局部子网络进行训练的模型（记为Proposed或P）。以上四个模块都是在Caffe平台上实现的[15]。4.1. 实验设置为了证明我们的方法的有效性，我们在以下两个基准数据集上评估了其性能：300-W[22]：该数据集由重新注释的五个实验数据集组成，具有68个标志：iBug、LFPW、AFW、HE-LEN和XM 2 VTS。我们遵循工作[38]，使用3，148张图像进行训练，689张图像进行测试。测试数据集分为三个部分：常见子集（554幅图像）、挑战子集（135幅图像）和全集（689幅图像检测器共同子集挑战性子集全套VJB18.9014.399.98DlibB16.8812.407.96ODB15.438.976.12GTB15.247.655.71VJB26.1910.156.96DlibB25.309.136.05ODB25.038.435.69GTB25.047.645.55VJP−4.958.365.62DlibP−4.878.305.55ODP−4.568.165.27GTP−4.437.085.05VJP4.507.895.16德利布山口4.427.805.09ODP4.367.564.99GTP4.367.424.96L3323表2.基于不同的人脸扩展尺度（a）、平移（b）、旋转（c），在300-W数据集上比较了没有和使用我们提出的方法的NME(a) 不同尺度规模0.10.20.30.40.5基线16.127.119.9815.6724.43基线25.696.277.059.5913.54建议-5.275.175.305.656.13提出4.995.035.115.395.93(b) 不同的翻译翻译0.050.100.150.200.25基线16.296.968.5111.8618.67基线25.756.016.918.4812.84建议-5.285.465.615.966.46提出5.015.155.265.365.77(c) 不同旋转旋转（◦）510152025基线16.356.987.919.3511.71基线26.116.577.368.409.90建议-5.485.605.756.036.43提出5.135.245.425.776.20图像）。AFLW[17]：它总共包含24，386张外观变化很大的脸（例如，姿势、表情、种族和年龄）和环境条件。该数据集为每个人脸提供了最多21个地标，我们忽略了耳朵的两个地标，并使用其他19个地标来评估我们的方法根据工作的实验设置[39]，我们使用相同的20，000个图像训练集和4，386个测试集进行评估。我们使用归一化平均误差（NME）来评估不同方法的性能。在工作[21]之后，采用眼间距离对300-W的平均误差进行归一化。由于有许多侧面人脸的眼间距离接近于零，我们使用人脸大小作为AFLW数据集上的归一化参考。4.2. 对各种初始化的稳健性我们首先评估了不同的人脸检测器对300-W数据集上人脸标志点检测的影响。有四种类型的面部边界框进行比较：1）Viola-Jones（表示为VJ）检测器[26]，基于Haar特征的级联面部2)Dlib检测器[19]，HOG特征的SVM检测器。除此之外，300-W数据集本身提供了两种类型的面边界框，3）地面实况（表示为GT），这是形状的紧密边界框。4)官方检测器（表示为OD），其非常接近GT。VJ和Dlib的检测器不能删除-表3.在300-W数据集上，与其他方法进行了性能比较方法共同子集挑战性子集全套RCPR[2]6.1817.268.35[30]第三十话5.5715.407.52电子自旋共振[5]5.2817.007.58[35]第三十五话5.5016.787.69[23]第二十三话4.5113.806.31LBF[21]4.9511.986.32CFSS[38]4.739.985.76TCDCN[36]4.808.605.54DDN[34]--5.59[25]第二十五话4.8310.145.88基线15.438.976.12基线25.038.435.69建议-4.568.165.27提出4.367.564.99由于某些面孔的难度，请检查所有面孔（例如，大的姿势，夸张的表情，或严重的遮挡），我们使用相应的官方框作为补充。300-W数据集上的NME比较如表1所示。结果表明，GT提供了最好的初始化地标检测，而其他人或多或少有下降的准确性。可以很容易地解释，地面真值盒紧密地约束所有地标，从初始图像到目标形状的回归难度最小。我们的方法显着提高性能的基线下相同的人脸检测器，即使在GT。为了进一步评估我们的架构的鲁棒性，我们通过用不同的尺度、平移来干扰官方检测器来产生人工人脸盒我们通过一组范围从0.1至0.5，结果示于表2（a）中。然后，我们设置一组随机比率，从0.05到0.25的面框大小到平移面框的中心，表2（b）显示了不同比率的比较。我们还将面部图像在平面内从0°旋转到25°，以评估在各种平面内旋转下的两种方法（参见表2（c））。值得注意的是，我们的方法对具有不同空间变换的各种输入是最鲁棒的4.3. 与最新技术本节显示了不同面部标志检测方法在 300-W 和AFLW数据集上的性能。我们将我们的方法与最近提出的方法[30，33，5，16，21，2，38，34，25]进行比较，见表3和表4。实验结果表明，Proposed-和Proposed在这两种方法3324图6.300-W数据集（左）和AFLW数据集（右）上面部标志点检测结果的比较：图像是基线1方法、基线2方法、建议方法和建议方法的结果，从单线的顶部到底部。表4.与其他最先进的方法相比，在AFLW数据集上通过人脸大小归一化的平均误差。方法清洁发展机制[33]RCPR SDM [第16话] LBF CFSS CCL[39]基线1基线2建议-提出NME5.433.734.054.354.25三点九二2.722.992.682.332.17数据集，并进一步证明我们的方法是能够提供一个更好的初始化，并导致一个更好的地标检测在野外环境。具体而言，Proposed得到最佳结果的事实表明，我们的方法的局部阶段能够通过重新初始化和对每个形状部分进行更精细的回归来进一步提高地标检测的准确性。我们提出的方法和基线方法的检测示例的比较如图6所示。Proposed和Proposed的方法分别能够以 111 FPS和 83 FPS 运行，这是基于 Nvidia Titan XGPU的Caffe代码的未优化Matlab接口进行评估的代码和模型将在网上公开。5. 结论和未来工作本文主要针对地标检测中的初始化部分进行改进，这一部分在以往的工作中被忽略了。我们提出了一种具有两阶段重新初始化架构的深度回归，该架构对各种初始化具有更强的鲁棒性，并在地标检测的基准测试中实现了最先进的性能。从全局阶段到局部阶段，初始人脸图像被转换到归一化状态，归一化状态对来自不同人脸检测器的各种输入更不敏感，更适合于更精细的特征点定位。在未来，我们将继续通过引入更灵活的转换来提高我们的检测性能，例如，3D转换，并探索一种端到端的架构，即使没有面部检测模块，也可以直接从输入图像中检测地标确认本工作得到了国家自然科学基金项目（批准号：）的部分资助。 61672519 、 61502444 、 61602433 、61472386），战略优先级中国科学院重点研究项目（批准号：XDA06040103）和重庆市基础研究与前沿技术研究计划（ No.cstc2016jcyjA0011）。两个由NVIDIA公司捐赠的TitanX GPU用于本研究。引用[1] A. Asthana，T.K. 马克，M。J. 琼斯，K.H. Tieu和M.罗希斯。基于3d姿态归一化的全自动姿态不变人脸识别。IEEEInternational Conference on Computer Vision ，2011。[2] A. Asthana，S. Zafeiriou，S. Cheng和M.惊慌失措具有约束局部模型的鲁棒判别响应图拟合。 IEEEInternational Conference on Computer Vision，2013。[3] T. Berg和P.N.贝尔胡默尔用于人脸验证的Tom-vs-pete分类器和身份保持对齐。2012年英国机器视觉会议的开幕式上3325[4] C. 曹湾，加-地Hou和K.舟用于实时面部跟踪和动画的位移动态ACM Transactions on Graphics，33（4）：43，2014.[5] X. Cao，Y. Wei，F. Wen和J. Sun.用外显形状回归法进行人脸对齐. International Journal of Computer Vision，107（2）：177[6] K. Chatfield，K. Simonyan、A. Vedaldi和A.齐瑟曼。魔鬼在细节中的回归：深入研究卷积网。arXiv预印本arXiv：1405.3531，abs/1405.3531，2014。[7] T. 库茨角泰勒，D.Cooper和J.格雷姆主动形状模型的训练与应用。计算机视觉与图像理解，61（1）：38[8] T. F. Cootes，G.J. Edwards和C.J. Taylor. 活跃的模特。IEEE Transactions on Pattern Analysis and MachineIntelligence，23（6）：681[9] P. Dollar，P. Welinder，和P.佩洛娜级联姿态回归。ProceedingsofIEEEInternationalConferenceonComputer Vision，238（6）：1078[10] K.他，X。Zhang，S. Ren和J. Sun.深入研究整流器：在imagenet分类上超越人类水平的性能IEEE InternationalConference on Computer Vision，2015。[11] Y. Hu，D. Jiang，S.延湖，澳-地Zhang和H.张某人脸识别中的自动三维重建。2004年IEEE自动人脸和手势识别国际会议正在进行中[12] G. B. Huang和E.学习米勒。在野外贴上标签的脸：更新和新的报告程序。技术报告UM-CS-2014-003，部门Comput.科学，美国马萨诸塞州阿默斯特大学，2014年。[13] Z. Huang，E. Zhou和Z.曹使用多尺度局部补丁回归的粗到细面部对齐。arXiv预印本arXiv：1511.04901，2015年。[14] M. Jaderberg ， K. Simonyan 、 A. Zisserman 等人空间Transformer网络。神经信息处理系统进展，2015。[15] Y. Jia、E.Shelhamer，J.多纳休S.Karayev，J.隆河，西-地Gir- shick，S. Guadarrama和T.达雷尔。Caffe：用于快速特征嵌入的卷积架构 arXiv 预印本 arXiv ：1408.5093，2014。[16] V. Kazemi和J.苏利文用回归树的集合进行IEEE计算机视觉与模式识别会议论文集，2014年。[17] M. Koestinger，P. Wohlhart，P. M. Roth和H.比肖夫野生动物的面部标志：一个大规模的，真实世界的数据库，用于面部标志定位。正在参加2011年IEEE标准化图像分析技术国际研讨会[18] H.赖氏S.肖，Z. Cui，Y.潘角，澳-地Xu和S.燕.用于面部对齐的深度级联回归ArXiv电子印刷品，2015年。[19] A. K. 麦卡勒姆 Mallet ：一个机器学习语言工具包。”http://www.cs.umass.edu/[20] R. Ranjan，V.M. 帕特尔和R。切拉帕Hyperface：一个深度多任务学习框架，用于人脸检测、地标定位、姿势估计和性别识别。arXiv预印本arXiv：1603.01249，2016。[21] S. Ren，X. Cao，Y. Wei和J. Sun.通过回归局部二进制特征进行人脸对齐。 IEEE Transactions on ImageProcessing，25（3）：1233[22] C.萨戈纳斯湾Tzimiropoulos，S. Zafeiriou和M.惊慌失措300人面临野外挑战：第一个面部标志定位挑战。IEEEInternationalConferenceonComputerVisionWorkshops，2013。[23] B. Shi，X.Bai，W.Liu和J.王. 面部对齐的深度回归arXiv预印本arXiv：1409.5230，2014年。[24] Y.太阳，X. Wang和X.唐用于面部点检测的深度卷积网络级联。在IEEE计算机视觉和模式识别会议集，2013年。[25] G. Trigeorgis，P.斯内普M. A. Nicolaou，E.安东纳科斯，S. Zafeiriou.记忆下降法：用于端到端面对齐的循环过程。在IEEE计算机视觉和模式识别会议论文集，第4177-4187页[26] P.Viola和M. J·琼斯鲁棒的实时人脸检测。InternationalJournal of Computer Vision，57（2）：137[27] Y. Wu和T.哈斯纳使用调整的卷积神经网络进行面部地标检测。arXiv预印本arXiv：1511.04031，2015年。[28] S. Xiao，S.Yan，和A.A. 卡西姆通过渐进式初始化的面部标志IEEE International Conference on Computer VisionWorkshops，2015。[29] J. 兴，Z.Niu，J.黄，W.Hu和S.燕. 面向多视图和部分遮挡的人脸对齐。 IEEE International Conference onComputer Vision，2014。[30] X. Xiong和F.托瑞监督下降法及其在人脸配准中的应用。在IEEE计算机视觉和模式识别会议论文集，2013年。[31] H. Yang，X.贾角，澳-地C. Loy，and P. Robinson.最新人脸对齐方法的实证研究。 arXiv 预印本 arXiv ：1511.05049，2015年。[32] H. 杨，W. 牟，Y. 张岛 Patras，H. 枪，以及P.罗宾逊。头部姿态估计辅助的面部对齐。英国机器视觉会议论文集，2015年。[33] X. Yu，J. Huang，S. Zhang，W. Yan和D. Metaxas基于优化的部分混合和级联可变形形状模型的无姿态人脸特征点拟合 . IEEE International Conference on ComputerVision，2013。[34] X. Yu，F. Zhou和M. Chandraker用于目标界标定位的深度变形网络。arXiv预印本arXiv：1605.01014，2016。[35] J. Zhang，S.山，M. Kan和X.尘由粗到精的自动编码器网络（cfan），用于实时人脸对齐。2014年欧洲计算机视觉会议论文集[36] Z. Zhang，P. Luo，C. C. Loy和X.唐基于深度多任务学习的人脸标志点检测在欧洲计算机视觉和模式识别会议论文集。2014年[37] E. Zhou，H.范，Z。Cao，Y.Jiang和Q.尹通过粗到细卷积进行广泛的3326网络级联 IEEE International Conference on ComputerVision Workships，2013。[38] S. Zhu，C. Li，C. C. Loy和X.唐通过由粗到细的形状搜索进行人脸对齐。在IEEE国际计算机视觉会议论文集，2015年。[39] S. Zhu，C. Li，C. C. Loy和X.唐通过级联组合学习实现无约束的人脸对齐。在IEEE计算机视觉和模式识别会议上，2016年。[40] X. Zhu，Z. Lei，J. Yan，D. Yi和S. Z.李用于野外人脸识别的高保真姿势和表情归一化IEEE计算机视觉与模式识别会议论文集，2015年。[41] X. Zhu和D. Ramanan野外人脸检测、姿态估计和地标定位。在IEEE计算机视觉和模式识别会议论文集，2012年。

下载后可阅读完整内容，剩余1页未读，立即下载