超高分辨率人脸特征点检测的基于注意力驱动裁剪的方法

52 浏览量更新于2023-10-25 收藏 1.39MB PDF 举报

计算机视觉

机器学习

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5861基于注意力驱动裁剪的超高分辨率人脸特征点检测Prashanth Schirran1，2，Derek Bradley2，Markus Gross1，2，和ThaboBeeler21苏黎世联邦理工学院计算机科学系2迪士尼研究|一室公寓chandrap@inf.ethz.ch，derek. disneyresearch.com，grossm@inf.ethz.ch，thabo. gmail.com摘要面部标志点检测是许多消费者和高端应用的基本任务，目前几乎完全由机器学习方法解决。用于训练此类算法的前向数据集主要由仅低分辨率图像组成，并且当前算法限于与训练数据集具有可比质量和分辨率的输入。另一方面，高分辨率图像正变得越来越普遍，因为消费者相机的质量每年都在提高因此，需要能够利用高分辨率图像中可用的丰富信息的算法由于GPU上的内存瓶颈，天真地尝试在高分辨率图像上重用现有网络架构是不可行的目前唯一的解决方案是对图像进行下采样，牺牲分辨率和质量。基于基于注意力网络的最新进展，我们提出了一种新颖的全卷积区域架构，该架构专门用于预测非常高分辨率的面部图像上的地标，而无需下采样。我们通过使用分辨率范围从256 x 256到4K的图像训练所提出的模型来证明我们的架构的灵活性。除了是第一种在高分辨率图像上进行正面地标检测的方法外，我们的方法在所有分辨率上都实现了优于传统（整体）最先进架构的性能，从而成为一种通用的、非常灵活的高质量地标检测器。1. 介绍地标检测是计算机视觉中的经典机器学习任务之一，现在几乎完全通过深度神经网络来解决。虽然这些基于网络的检测器提供了鲁棒的检测，但它们的准确性直接取决于它们所操作的图像分辨率。即使是低端相机也能捕捉到高分辨率的图像，目前，由于内存有限，并发GPU仅限于在低分辨率图像上操作。因此，深度学习算法被迫预测图像上的地标，这些地标的分辨率可能比可用的分辨率低几个数量级，这自然会放大预测的不准确性。当观察人类注释者如何标记图像时，人们可能会意识到他们在多个尺度上这样做。在面部标志的上下文，它们通常以低分辨率注释粗糙特征，例如下颌线，其中它们具有面部的完整上下文，但是然后放大到特定区域，例如眼睛区域，以更精确地注释。受这种行为的启发，我们提出了一种端到端的注意力驱动架构，该架构允许通过自动定义和关注感兴趣区域而不是整体考虑面部来在更高分辨率的图像上训练深度网络。这些区域在低分辨率图像代理上被识别并且从原始高分辨率图像中被提取。然后将它们缩放到网络的适当大小，这有利于将区域与规范裁剪对齐然后，第二阶段在该正面化放大中定位界标，这进一步减少了可变性并增加了鲁棒性和准确性。使用我们新颖的注意力驱动架构，我们可以在单个GPU上以高达4K的分辨率预测地标，与被迫在下采样图像上操作的现有方法相比，预测准确性显着我们进一步证明，所提出的概念适用于各种最新的网络体系结构，提高所有这些的性能。尽管我们的方法针对高分辨率图像，但在大多数情况下，当应用于传统的较低分辨率面部图像时，我们的方法也优于当前最先进的架构。因此，我们提出的方法是一种通用的面部标志检测器，从低分辨率到高质量的图像尺度5862解决方案4K2. 相关工作在深度学习出现之前，提出了几种基于级联回归的方法[5，44，41，23]这些方法从对地标的初始猜测开始，并使用级联机器学习模型对其进行优化。然而，近年来，深度学习方法已经显著地推进了面部标志检测的技术水平。对于一个简洁的总结，我们区分和描述这些方法的基础上，他们的架构和他们的方法的问题的concept。在网络架构方面，现有的工作大致可分为三类，即：i）包含卷积层和全连接层或“密集”层的组合的网络，ii）全卷积网络，以及iii）递归网络。前者包括将图像作为输入并学习卷积滤波器的架构，卷积滤波器提取低级和语义特征，然后将其展平并传递到一个或多个全连接层[53，8，25，56，20，3，21，27，51，50，45，32，37，12，28，13，52、55、29]。另一方面，完全卷积架构[39，26，30，4，46，47，42，35，38，9，54，36，10]预测将面部标志的位置作为热图，热图对标志存在于特定像素处的概率进行编码。这些架构有几个优点，即(i)平移不变性，（ii）在训练和测试时可以使用不同大小的图像，（iii）它们提供了预测的界标总是位于图像的区域内的保证，以及（iv）将界标表示最后一类是递归网络方法[40，1]，其设计用于通过添加递归层对图像的时间序列进行操作基于它们解决面部标志检测的方法，上述方法还可以被广泛地分类为i）基于模型的拟合方法，ii）多任务学习，以及iii）级联或区域模型。基于模型的方法[56，20，3，21，27]假设一个底层的低分辨率3D人脸模型，该模型使用学习的特征参数化地拟合到面部图像。多任务方法[51，50，45，32，52]遵循“辅助学习”的原则基于区域的方法[37，12，28，55]由一系列独立分析面部不同区域的架构组成。现有的面部标志检测器在低分辨率图像上工作良好然而，当高分辨率图像在测试时间可用时，现有的算法不能利用由于几个原因而存在的额外细节。首先，具有全连接层的架构（包括所有现有的基于区域的方法[37，12，28]）只能用于与它们已经被训练的相同大小的图像。这将需要将高分辨率图像下采样到与架构兼容的大小。此外，在其前向传递过程中，网络在预测输出之前构建大型中间特征表示，这对于高分辨率的训练来说极具挑战性。在实践中，即使是512 x 512的分辨率也很难适应单个GPU。2.1. 贡献在这项工作中，基于深度学习的最新进展[17，4，19]，我们提出了一种基于区域的面部标志检测器的有机进化，并提出了一种端到端可区分的，完全卷积的，基于区域的面部标志检测器。• 我们结合了注意力驱动的裁剪，[17]一个可微的soft-argmax运算，启用所述第一基于完全卷积区域的面部标志检测器。• 据我们所知，我们的方法是第一个证明能够在分辨率高达4096的图像上训练和推断面部标志的方法。x 4096在单个Nvidia 1080Ti GPU上。我们展示了我们的方法在从256x256到4096x4096的多个分辨率范围内的优越性，超过了用以前最先进的方法检测到的低分辨率地标的天真上采样• 虽然是专门为高分辨率图像设计的，但我们的方法可以很好地推广到不受约束的野外环境，并且通常优于低分辨率最先进的方法（第4节）。2.2. 可用数据集300-W [33]、300-VW[34]、300-W-LP [56]都很受欢迎用于训练面部标志检测器的数据集。类似的，但更近，更大的数据集包括[48，49，4]。这些数据集包含68个面部标志的注释。虽然[33，48]是仅具有2D注释的数据集，但[56，34，4]包含2D和3D注释。第2节中描述的所有方法都使用一个或多个这些数据集来训练和微调它们的模型。现有的数据集包括在不受约束的设置中捕获的低相比之下，我们的目标是训练一个地标检测器，它可以利用高分辨率面部图像中的细节来精确定位地标。因此，我们不能使用任何现有的数据集进行训练。我们创建了一个新的高质量面部标志数据集，用于训练和测试我们的高分辨率性能（见第3.3节）。然而，为了展示我们的方法在野外图像中的额外好处，我们还展示了300-W [33]和300-VW [34]数据集上的实验。5863注意力驱动裁剪ROI Align噪声放大坐标通过平均池化进行下采样区域潜在热图全球沙漏低分辨率地标L2损失低分辨率地面实况低分辨率代理全局潜在热图低分辨率边界框坐标噪声高分辨率边界框坐标高分辨率输入区域沙漏优质地标图1.我们的注意力驱动的面部标志检测架构的示意图概述。高分辨率输入图像被下采样为低分辨率代理，全局沙漏网络在该低分辨率代理上检测低分辨率地标。裁剪区域被自动确定，ROI被重新缩放到原始分辨率，其中区域沙漏网络检测高分辨率地标。3. 方法在本节中，我们提出了我们的高分辨率面部标志检测的新架构，如图所示。1.一、受人类如何在高分辨率图像上手动注释地标的启发，我们的模型通过注意力驱动的裁剪机制孤立地分析了面部的不同区域。给定初始高分辨率图像作为输入，全局沙漏网络[30]分析输入图像的相应低分辨率代理并产生面部标志的粗略热图。在这些热图上，我们执行可微softargmax操作来提取地标坐标的初始估计。这些低分辨率界标坐标用于识别与面部的不同解剖区域相对应的感兴趣区域（ROI）对于每个区域，从原始高分辨率输入图像中提取高分辨率裁剪，并通过预测裁剪上的地标的区域特定沙漏网络进一步分析使用来自全局沙漏的ROI信息将在区域作物上预测的地标恢复由全球和多个区域模型预测的地标分别用低分辨率和高分辨率地面实况数据进行监督。所提出的架构是完全可微的和完全卷积的，因此可以端到端地训练。3.1. 网络架构输入的高分辨率图像最初通过平均池化降采样到256x256像素的固定分辨率。下采样的图像通过沙漏网络[30]--一种分析了在第4.5节中-以与低分辨率图像相同的比例输出界标位置的热图由于第一个沙漏预测面部所有区域的标志，我们将其称为全局沙漏。全球沙漏为每个地标输出一个热图。[42，30，6，4]等工作从训练数据中生成地面实况热图，在测试时使用argmax操作从中提取地标通过在地标的位置上应用空间高斯滤波器来生成用于这种方法的地面实况热图。该高斯滤波器的标准偏差σ是手动指定的，并且使用相同的σ来模糊面部的所有界标。然而，由于潜在特征，训练集中的某些地标被定位为具有较高的各向异性不确定性。在面部标志的情况下，例如，像眼角和嘴唇这样的标志比眼睑更容易明确地识别并因此注释，其中标志将具有跨边缘的更好的定位和沿着边缘的更高的不确定性。使用从各向同性高斯内核创建的热图训练网络是在强制执行所有地标的定位都是同等（不）确定的假设。与以前的面部标志检测方法不同，我们选择将卷积网络的输出表示为潜在热图，而无需地面实况监督。这为沙漏网络提供了灵活性，使其对某些地标比其他地标更有信心，并使用各向异性非高斯分布来表示它们。此外，我们还观察到与Iqbal et.al [19]报告的准确性类似的改进，当使用soft-argmax而不是朴素热图回归时。全球沙漏输出的潜在热图通过一个通道-高分辨率地标L2损失高分辨率地面实况软argmax软argmax软argmax软argmax软argmax鼻标志口部标志左眼标志右眼标志重新缩放取消裁5864明智的空间softmax，以确保每个通道是图像中界标位置上的概率分布然后，我们对地标热图执行soft-argmax[19]操作，以提取地标位置作为批量大小x地标数量x 2向量。由于soft-argmax运算归结为加权平均，因此与argmax不同，它是完全可以这种方式提取地标位置使我们能够仅使用地面实况地标位置来训练全局沙漏，而不必创建地面实况热图，同时确保地标位置在网络内部表示为热图，并因此保持网络完全卷积。3.2. 注意力驱动裁剪在我们架构的第二阶段中，我们使用来自全局沙漏的地标估计从原始高分辨率图像中提取感兴趣区域（ROI）。然后，这些感兴趣的区域由一组区域特定的沙漏模型并行地单独处理，以细化这些标志的位置我们将这些在面部的预定义区域上操作的沙漏模型称为区域沙漏。在这项工作中，我们训练了四个区域沙漏模型，它们预测左眼，右眼，鼻子和嘴巴区域的地标（请参考图10）。2）。这种方法可以扩展到尽可能多的ROI，但我们将自己限制在这四个区域，原因如下在这些区域之外，我们感兴趣的标志属于下巴，脸颊和前额。这些区域通常缺乏显著特征，并且由于模糊性，局部地分析这些区域实际上可能适得其反。这样的区域因此更好地留在全球分析，在更高的尺度上通过全球沙漏。对于面部的每个区域，使用softargmax的结果计算一个边界框。与[15，14，17]等方法不同，在“野外”设置中为每个RoI提案生成多个边界框候选每个边界框由对应于其左上角和右下角的4个坐标表示。由于这些边界框坐标是从潜在热图中提取的，因此它们保证位于下采样图像的域内。将来自正态分布的噪声独立地添加到每个边界框的宽度和高度，以使区域模型对边界框内的区域的位置足够然后将噪声边界框放大以将它们映射到原始高分辨率图像的域。使用由[17]引入的RoIAlign运算，我们以可微分的方式从高分辨率图像中提取作物高分辨率裁剪的大小调整为固定的表1.用于不同图像分辨率的裁剪大小在分辨率达到2K之前，我们可以继续使用基本的沙漏构建块。这意味着作物的分辨率会随着到256对于一个1K的输入，然而，这不再适合GPU时，我们达到2K的输入。因此，作物的大小减少到192x192。对于4K的分辨率，我们使用了因此，我们可以在4K下使用256x256的裁剪。图2.（左）我们的高分辨率训练数据由89个手动注释的面部标志组成，其中78个属于我们定义的四个注意力区域。（右）在300-W数据集上定义的4个注意力区域，对应于两只眼睛、鼻子和嘴巴。大小取决于图像的原始分辨率。我们用于不同分辨率的区域作物的尺寸如表1所示。基于图像的原始分辨率确定裁剪大小，并在训练期间保持健康的批量大小。也可以容易地使用其他作物尺寸计算并存储有噪声的高分辨率边界框和调整大小的裁剪之间的相对比例调整大小的作物然后被传递到相应的区域沙漏。每个区域沙漏预测与全球沙漏类似的地标位置的潜在热图。如前所述，使用softargmax操作从这些区域热图中提取在调整大小的作物的域中定义的地标。这些区域界标使用之前计算的相应比例因子恢复到图像的原始分辨率。然后，使用噪声边界框坐标对重新缩放的界标进行非裁剪，以获得在高分辨率图像上定义的界标。我们的整个架构如图所示。1.一、由于在我们的架构中定义的所有操作都是可区分的，因此可以以端到端的方式一起训练全局沙漏和多个区域沙漏。我们的网络的最终输出是高分辨率图像的一组完整的面部标志位置，分辨率（像素）裁剪大小（像素）批量256 x 256128 x 1288512 x 512128 x 12881024 x 1024256 x 25642048 x 2048192 x 192mm44096 x 4096256 x 256双头45865nnnn由于我们的区域细化模块，地标（眼睛、鼻子和嘴巴）包含高精度位置。3.3. 训练数据我们的方法的主要贡献之一是，它能够通过高分辨率图像训练网络，并通过注意力驱动的裁剪来避开GPU内存瓶颈。为了验证我们的架构的好处，我们需要一个高分辨率的人脸数据集与地面真相地标。现有数据集（第2.2节所述）包含大量具有2D注释的"野外“设置中的图像据我们所知，不存在公开可用的高分辨率面部图像和地标数据集。因此，我们采用[2]的方法我们从8台摄像机中以4K分辨率捕获了47名受试者，进行了24种不同的面部表情，并在这些图像上手动标注了89个面部标志。这89个地标的完整集合如图所示。二、在47名受试者中，我们随机抽取24名受试者进行培训，并使用其余23名受试者进行评估。总的来说，我们的训练集由4608张图像组成为了在256 x256、512 x 512、1024 x 1024、2048 x 2048和4096 x4096的分辨率下进行实验，训练和测试集被适当地缩放。参见图2、作物只考虑眼睛、鼻子和嘴巴的区域。在我们的高分辨率数据集中，在89个带注释的地标中，只有78个落在区域作物内。因此，全球沙漏预测所有89个地标，区域沙漏预测总共78个地标。对于300W和300VW，68个地标中有51个因此，在使用300 W和300 VW进行训练时，我们的全局沙漏将预测68个地标，而区域沙漏将预测总共51个地标。3.4. 实现细节我们训练图中所示的网络1通过监督低分辨率和高分辨率地标预测。网络被训练以最小化在两个分辨率处的L2损失的总和。该附加损失在等式中示出。其中Pg和Pr分别对应于由全局和区域模型预测的第n个gtlr和gthr对应如《易经》云：“君子之道，焉可诬也？”然而，由于我们感兴趣的是分析通过使用我们的架构获得的改进，而不是通过使用不同的损失函数获得的改进，因此我们求助于使用等式中的1.一、我们首先以256 x 256的分辨率训练我们的架构。全局和区域沙漏的权重都按照[16]初始化。一旦以256 x256的分辨率进行训练收敛，我们就开始以下一个更高的分辨率512 x 512进行训练由于我们架构的完全卷积性质，这种初始化得以实现。同样，权重被逐步初始化，直到4096 x 4096，原理类似于[22]。需要注意的一个重要实现细节是，即使使用区域模型对高分辨率图像的裁剪部分进行操作，我们也无法在训练期间将4K因此，在最近关于依赖可分卷积的工作[18，7]之后，我们用依赖可分卷积替换了传统沙漏网络[30]中的所有卷积。这导致网络中的权重数量降低了2倍，并支持使用4K图像进行训练。我们参考图中所示的架构版本。1与dependently可分离的卷积作为我们的网络的轻变体。对于高达2048 x 2048的分辨率，此更改在第4节中详细分析了引入可分离卷积而不是标准卷积到我们的架构中的效果。对于本文中报告的所有实验，我们使用1e-4的学习率，并在30个epoch后将其降低到1e-5使用表1中提到的批量训练模型。所有模型都在单个NVIDIA 1080TiGPU上使用ADAM优化器进行训练，直到收敛我们使用pytorch [31]来实现我们的架构。4. 结果和讨论4.1. 学习潜在热图我们的方法与面部标志检测中的现有方法不同的方式之一是用学习的潜在热图表示标志。图3、我们展示了产生的热图的差异分别到第n个低分辨率和第n个高分辨率地面实况Ntotal和Natt对应于总的，并且注意力被细化的地标。全球和不同区域的模型。出于可视化的目的，全球模型预测的热图使用最近邻插值进行放大，并与区域模型预测的热图一起显示。损失=1Ntotal pg−gtlrNatt 2002年1月22日网络.正如预期的那样，全局热图的质量较低，但捕捉到了人脸的整体结构N个总nnn=1Nattnn=1n（一）从而获得预期的收成。图的最后一列。图3显示了生成的精确高分辨率热图虽然我们的网络是完全卷积的，但我们使用soft-argmax可以实现更多手动调整损失的训练区域模型。在全球和区域热图中具有强激活的位置表明，5866面部的显著特征图4.区域改进的效果：显示了区域模型对全局模型（灰色）预测的地标进行的局部校正（绿色）。如果有足够的背景，区域模型可以产生小的和大的修正。图3.手动裁剪的全球热图、相应的关注度驱动作物和区域高质量热图。请注意高质量热图的精度，例如可以容易地区分外唇和内唇界标。4.2. 注意力驱动种植培训当地作物的区域网络有几个好处。首先，它鼓励每个区域网络只关注面部的特定区域，因此学习有助于以更高准确度预测地标的区域特定特征图3还显示了区域网络如何细化每个区域的粗略全球热图。正如人们直观地预期的那样，在较低分辨率下难以区分的面部特征开始在区域热图中分离出来，从而实现精确的定位（图1）。4）.这在高分辨率区域热图中外唇和内唇清楚分离的嘴的情况下尤其明显。表2. 300W数据集上的性能。尽管被设计为高分辨率图像，我们的方法也表现得很好，低分辨率的野生图像。300W时，我们将Helen、LFPW、AFW和Ibug数据集分成与之前方法相同的训练集和测试集[9、29、38]。我们以256x256像素的分辨率和128x128像素的裁剪大小训练我们的模型，并定义4个感兴趣区域（2），从中检测到总共51个高我们报告了归一化平均误差（NME）[4]度量，第二个好处是，由于每个区域模型如果只看面部的特定部分，则区域地标的质量与其他区域的外观无关。我们希望我们的架构的这个属性使得整体地标预测的质量对外观的全局变化更加鲁棒。第三，我们的全局-局部架构被设计为仅处理高分辨率输入图像的有意义区域。有目的地丢弃高分辨率图像的不相关部分，避免了网络非常深入或构建不适合当前GPU的巨大特征表示仅集中于ROI使得区域沙漏能够通过仅预测有意义的ROI内的地标来利用所捕获的图像中存在我们的方法允许我们在高分辨率图像上执行深度地标检测，而不会牺牲批量大小，同时避免不必要的计算。4.3. 300W和300VW的评价虽然我们的方法主要是为高分辨率图像设计的，但我们在低分辨率300 W和300-VW数据集上评估了我们的注意力驱动裁剪。为表2中的300-W测试装置。即使在256x256像素，我们的方法建立了一个新的基线上的共同子集，并保持竞争力的国家的最先进300 W测试集上的定性地标预测如图所示5此外，正如我们将从4.4节的实验中看到的那样，随着分辨率的提高，我们的注意力驱动裁剪方法的好处会明显增加。为了在300-VW数据集上验证我们的方法，我们使用来自300-VW的50个训练视频重新训练了另一个与300-VW相同的网络表3比较了我们的方法与现有的最先进的NME metric在三个不同的测试类别。我们的方法再次producs最好的结果2出3的类别。4.4. 更高分辨率的评价我们将我们的注意力驱动裁剪架构与随机森林算法[23]，两阶段沙漏网络[30]和4阶段沙漏网络（即称为FAN的2D地标检测器）进行比较[4]。我们使用3.3节中描述的低分辨率256数据集来训练随机森林，2阶段和4阶段沙漏网络。由于我们的架构支持通过分辨率进行培训，全球模型预测区域模型改进高分辨率注意力驱动低分辨率优化的热图裁剪粗略热图方法共同挑战性全套MDM [40]4.8310.145.88双级GT[28]4.367.424.96RDR [43]5.038.955.80FHR [38]N/AN/A3.8SAN [9]3.346.63.98[29]第二十九话4.129.685.21TS [10]2.915.913.49ODN [54]3.566.674.17我们2.837.044.23我们的（仅限51个高分辨率地标）2.415.683.505867256x256512x512方法25651220484096[第23话]3.723.433.323.35落地签证收50美元[30]2.342.342.342.38沙漏（4个阶段）[4]2.392.392.392.44我们的（光）2.342.081.971.95我们2.261.951.94-表3. 300-VW数据集上的性能。与表2类似，我们的方法在300-VW的视频上也表现得非常好。预测地面实况图5.定性结果显示，注意细化区域地标的几个样本从300-W的测试集。2048x2048 4096x4096图6.对于256到4K的不同分辨率，我们的方法与DLIB [23]，沙漏[30]和FAN [4]相比，正确的关键点百分比作为像素误差的函数我们表明，我们的常规和在4K下，只有“轻”版本是可能的标准化平均误差参见表4对于多达4096个，我们用适当分辨率的数据训练它。我们使用第3.3节中描述的由4416张图像组成的高质量测试集进行评估。为了便于比较，随机森林、2阶段沙漏和4阶段沙漏所做的预测被放大了表4.我们方法的归一化平均误差与DLIB [23]，沙漏[30]和FAN [4]，适用于256到4K的不同分辨率。参照图6表示关键点正确百分比可视化。手动从256到评估分辨率。为了定量比较地标预测，我们使用了关键点正确百分比（PCK）指标，[15]和以前的标准化平均误差（NME）。图6和表4显示了我们的算法与不同方法在256至4096分辨率范围内的定量比较。在4096的分辨率下，我们仅报告了我们的体系结构的轻型变体的PCK和NME度量，原因在第3.4节中解释。1024的分辨率在第4.5节的消融研究中单独考虑。我们的方法，包括光线变量，在所有分辨率上都优于其他方法，表明注意力驱动的裁剪不仅是一种使用更高分辨率图像进行训练的方法，而且原则上是一种有效的面部地标检测方法我们的方法的好处随着输入分辨率的增加而增加。这可以从我们的方法和4阶段沙漏之间的曲线下面积度量随着分辨率增加的差异中推断出来。4.5. 消融研究我们在1024的分辨率上评估了我们的一些架构选择。这些结果如图所示。7 .第一次会议。附加阶段的影响在另一个之上堆叠模型是标志定位中的常见方法[30，4，42]。这种堆叠也可以通过将多个区域精炼模块堆叠在另一个模块之上当我们把一个广告区域沙漏叠加到我们的基础架构上时，如图所示。1，我们看到AUC的改善（见图1）。7，左）。架构的选择我们架构的模块化性质使得我们可以将沙漏与不同的全卷积架构交换。为了验证所提出的概念对不同架构选择的鲁棒性，我们考虑了两种最近提出的完全卷积架构i）6级卷积姿态机器（CPM）[42，6]和ii）来自[13]的CNN 6/7架构。当使用CNN 6/7时，我们丢弃最后一个完全连接的层以保持网络完全卷积，并增加额外的CNN 6/7阶段，其中每个阶段接收图像和前一阶段的热图，方法第1第2第3[44]第四十四话7.416.1813.04TSCN [35]12.547.251.13CFSS [55]7.686.4213.67TCDCN [52]7.666.7714.98阿罗[1]5.364.5112.84[29]第二十九话5.334.928.85FHR+STA [38]4.404.165.96我们4.173.897.28我们的（仅限51个高分辨率地标）3.663.356.65关键点正确百分比5868额外的沙漏交换沙漏误差阈值（像素）图7. 1K时的消融研究。左图：堆叠额外的区域沙漏可以提高AUC。右：将沙漏与CPM [42，6]或CNN 6/7架构[13]交换表明，我们的注意力驱动裁剪方案也可以改善其他架构，但沙漏仍然获得最佳结果。输入.我们重新训练6阶段CPM和6阶段CNN 6/7架构，并将它们与我们的注意力驱动裁剪概念进行比较，其中每个沙漏模块分别被单阶段CPM或CNN 6/7替换。在图的右半部分。7、我们看到了这个实验的结果。虽然我们的注意力驱动的CPM和注意力驱动的CNN 6/7分别由比6阶段CPM和6阶段CNN 6/7架构更少的参数组成，但我们看到与整体多阶段方法相比，使用我们的注意力驱动的裁剪概念切换到地标检测方面有很大的改进这种优越的性能证明了所提出的方法的鲁棒性和其适用性更一般的问题，在本地化。图8.比较在4K下测试但在不同分辨率下训练的结果证实，在可能的情况下，转向更高分辨率的训练确实有好处。4.5.1高分辨率检测我们捕获的4K图像（第3.3节）由人类专家注释。考虑到人类注释地标的精度有限[11]，因此存在一个问题，即是否有必要使用极高分辨率的图像训练模型。在图8中，我们将我们的轻变体与沙漏构建块的结果进行了比较，在4096处训练，以提高在较低分辨率下训练的其他注意力驱动模型的预测。注意力驱动裁剪框架的性能随着分辨率的增加而增加图9.质量，我们的方法产生最准确的地标测试图像集。在这里，我们比较了DLIB [23]和4阶段沙漏（FAN）[4]的一小部分测试数据。像素错误由颜色表示。预测地面实况图10.我们的区域细化可能失败的情况在这里显示在300w数据集上，当面部的部分被完全遮挡时，裁剪会导致无意义的图像。在这种情况下，更可取的做法是采取全球办法。输入数据的分辨率增加，最终使直接以4K分辨率训练的模型成为性能最佳的模型。由此，我们看到，尽可能提高分辨率确实有好处。在图9中，我们显示了几个不同测试图像的定性结果4.6. 限制所提出的方法被设计为通过利用以更高分辨率存在的信息来如果没有额外的信息，或者额外的信息是欺骗性的，就像部分闭塞的情况一样（图1）。10），性能下降。这与经典的孔径问题有关，未来的工作可以研究确定自动定位特征的最佳分辨率的方法。5. 结论我们提出了一种新颖的，完全卷积的区域架构，旨在预测非常高分辨率图像上的地标。我们的建议是一种端到端的注意力驱动架构，允许通过自动定义和关注感兴趣区域而不是整体考虑图像来在更高分辨率的图像上训练深度网络。我们表明，我们的架构在256到4K的所有分辨率上实现了优于整体最先进卷积架构的性能。我们相信我们的方法满足了对算法的需求，这些算法可以利用高分辨率图像中的丰富信息，这变得越来越普遍。4096x4096评估误差阈值（像素）关键点正确百分比关键点正确百分比5869引用[1] 用于基于视频的人脸对齐的双流Transformer网络。IEEE Transactions on Pattern Analysis and MachineIntelligence，40：2546-2554，2018。二、七[2] 放大图片作者：Paul A.Beardsley，Bob Sumner，andMarkus H.恶心高质量的面部几何形状的单镜头捕捉。ACM Trans. Graph. ，29（4）：40：15[3] Chandrasekhar Bhagavatula ， Chenchen Zhu ， KhoaLuu，and Marios Savvides.比实时面部对齐更快：无约束姿态下的三维空间Transformer网络方法。CoRR，abs/1707.05653，2017。2[4] Adrian Bulat和Georgios Tzimiropoulos我们离解决二维和三维人脸对齐问题还有多远？(and 230，000个3D面部界标的数据集IEEE计算机视觉国际会议，ICCV 2017，意大利威尼斯，2017年10月22日至29日，第1021-1030页，2017年。二三六七八[5] 曹旭东，魏一晨，方文，孙健。通过显式形状回归进行面部对齐。国际计算机Vi- sion，107（2）：177-190，Apr. 2014. 2[6] 曹哲、托马斯·西蒙、魏世恩和亚瑟·谢赫。利用局部仿射场进行实时多人二维姿态估计。 CoRR ，abs/1611.08050，2016。三、七、八[7] 弗朗索瓦·肖莱。Xception：使用深度可分离卷积的深度学习CoRR，abs/1610.02357，2016。5[8] 邓建康、乔治·特里乔治斯、周宇翔和斯特法诺斯·扎菲里乌。在野外联合多视图面对齐CoRR，abs/1708.06023，2017。2[9] 董宣仪、严妍、欧阳万里、杨毅。用于人脸标志点检测的风格聚合网络。CoRR，abs/1803.04108，2018。二、六[10] 董轩逸，杨业洲教师指导学生如何从部分标记的图像中学习面部地标检测。ArXiv，abs/1908.02116，2019。二、六[11] Xuanyi Dong，Shouou-I Yu，Xinshuo Weng，Shih-EnWei，Yi Yang，and Yaser Sheikh.配准监督：一种提高面部标志检测器精度的无监督方法。 CoRR ，abs/1807.00966，2018。8[12] 袁东、岳武。用于人脸对齐的自适应级联深度卷积神经网络。 Computer Standards and Interfaces ， 42 ： 105-112，2015. 2[13] Zhen-Hua Feng ， Josef Kittler ， Muhammad Awais ，Patrik Hu- ber，and Xiaojun Wu.用卷积神经网络进行鲁棒面部标志定位的 CoRR, abs/1711.06753, 2017. 二、五、七、八[14] 罗斯湾娘娘腔。快速R-CNN。CoRR，abs/1504.08083，2015。4[15] 罗斯湾 Girshick ， Jeff Donahue ， Trevor Darrell ， andJitendra Malik.丰富的特征层次结构，用于精确的对象检测和语义分割。2014年IEEE计算机视觉和模式识别会议，CVPR 2014，美国俄亥俄州哥伦布市，2014年6月日，第580-587页，2014年。四、七[16] 泽维尔·格洛特和约舒亚·本吉奥了解训练深度前馈神经网络的困难。Proceedings of the Thirteenth InternationalConference on Artificial Intelligence and Statistics ， 9 ：249-256，13-15 May 2010. 55870[17] Kai m ingHe ， Geo r giaGkioxari ， PiotrDoll a'r ，andRossB. 娘娘腔。面罩R-CNN。IEEE计算机视觉国际会议，ICCV 2017，意大利威尼斯，2017年10月22日至29日，第2980-2988页，2017年。二、四[18] Andrew G. Howard，Menglong Zhu，Bo Chen，DmitryKalenichenko，Weijun Wang，Tobias Weyand，MarcoAn- dreetto，and Hartwig Adam. Mobilenets：用于移动视觉应用的高效卷积神经网络 CoRR ，abs/1704.04861，2017。5[19] Umar Iqbal ， Pavlo Molchanov ， Thomas Breuel ，Juergen Gall，and Jan Kautz.基于潜在2.5d热图回归的手部姿势估计计算机视觉- ECCV 2018 -第15届欧洲会议，德国慕尼黑， 2018 年 9 月 8 日至 14 日， Pro-cephaly，第XI部分，第125-143页，2018年。二、三、四[20] Amin Jourabloo和Xiaoming Liu。基于cnn的密集3d模型拟合的大姿态人脸对齐。2016年IEEE计算机视觉和模式识别会议（CVPR），第4188-4196页，2016年。2[21] Amin Jourabloo，Mao Ye，Xiaoming Liu，and Liu Ren.使用单个CNN进行姿势不变的人脸对齐。CoRR，abs/1707.06286，2017。2[22] Tero Karras ， Timo Aila ， Samuli Laine ， and JaakkoLehtinen.为提高质量、稳定性和变异性而进行的干细胞生长。CoRR，abs/1710.10196，2017。5[23] 瓦希德·卡齐米和约瑟芬·沙利文用回归树的集合进行一毫秒 Proceedings of the 2014 IEEE Conference onComputer Vision and Pattern Recognition，第1867-1874页，2014年。二、六、七、八[24] Diederik P. Kingma和Jimmy Ba。Adam：随机最佳化的方法。CoRR，abs/1412.6980，2014。5[25] 马雷克·科瓦尔斯基，雅克·纳鲁涅茨，和托马斯·特兹钦斯基。深度对准网络：用于鲁棒人脸对齐的卷积神经网络。CoRR，abs/1706.01789，2017。2[26] 梁珠锦，丁胜勇，林亮。基于主干-分支的无约束面部标志点定位全卷积网络 .CoRR，abs/1507.03409，2015年。2[27] Yaojie Liu ， Amin Jourabloo ， William Ren ， andXiaoming Liu.密集面对齐。CoRR，abs/1709.01442，2017。2[28] Jiangjing Lv ， Xiaohu Shao ， Junliang Xing ， ChengCheng，and Xi Zhou.一种深度回归架构，具有两阶段重新初始化，用于高性能面部标志检测。在IEEE计算机视觉和模式识别会议论文集，2017年。二、六[29] Xin Miao ， Xiantong Zhen ， Xianglong Liu ， ChengDeng，Vas-silis Athitsos，and Heng Huang.用于端到端面对齐的直接形状回归在CVPR，2018年。二六七[30] Alejandro Newell，Kaiyu Yang，and Jia Deng

下载后可阅读完整内容，剩余1页未读，立即下载