视角不变的分层网络架构用于鲁棒的面部对齐

106 浏览量更新于2023-10-25 收藏 14.78MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

111120使用视角不变的分层网络架构进行遮挡鲁棒的面部对齐0朱聪聪1，万欣彤1，谢少荣1，李晓强1*，顾银政201 上海大学计算机工程与科学学院，2上海HYCloud网络技术有限公司0{congcongzhu, wanxintong, srxie, xqli}@shu.edu.cn, guyinzheng@gpushare.com0摘要0遮挡问题严重降低了面部对齐的定位性能。目前针对这个问题的大多数解决方案都集中在标注新的遮挡数据，引入边界估计和堆叠更深的模型以提高神经网络的鲁棒性。然而，在极端遮挡（即平均遮挡超过50%）下，由于缺少大量的面部上下文信息，模型的性能仍然下降。我们认为，探索神经网络来建模面部层次结构是处理极端遮挡的更有前景的方法。令人惊讶的是，在最近的研究中，很少有人致力于使用神经网络来表示面部层次结构。本文提出了一种名为GlomFace的新型网络架构，用于对抗各种遮挡并建模面部层次结构，其灵感来自于视角不变的面部结构层次。具体而言，GlomFace在功能上分为两个模块：部分-整体层次模块和整体-部分层次模块。前者捕捉面部部分的部分-整体层次依赖关系，以抑制多尺度遮挡信息，而后者通过在面部部分之间建立整体-部分层次关系，将结构推理注入神经网络。因此，GlomFace由于与面部层次结构的对应关系具有明确的拓扑解释。广泛的实验结果表明，所提出的GlomFace在极端遮挡的情况下表现与现有的最先进方法相当。模型可在https://github.com/zhuccly/GlomFace-Face-Alignment获得。01. 引言0尽管已经付出了很大的努力[4，9，16，21，46，47，51，54]来进行面部对齐，但定位精度仍然不理想。0*通讯作者。0图1. 提出的GlomFace的洞察。0在各种遮挡情况下，人们由于COVID-19大流行不得不戴医用口罩，这使得面部对齐的情况不尽如人意。以下原因导致了这个问题。首先，一些地标不可避免地不可见，部分面部信息不可用。其次，大规模遮挡数据集（平均遮挡超过50%）很少，因为在遮挡下标注地标是一个巨大的挑战。第三，通用的神经网络架构不能建模面部组件之间的空间关系[35]。一些研究[30，53]通过增强面部上下文特征的耦合来处理遮挡问题。然而，过度的耦合可能会引入整个面部的遮挡信息，导致非遮挡区域的定位精度下降。[22，23，40，41]等方法整合了相关任务（例如可见性估计和不确定性预测）以提高遮挡鲁棒性。然而，相关任务不能直接对所有地标施加形状约束，甚至可能引入额外的注释和计算成本。最近，边界估计已经成为研究的焦点。tween adjacent facial parts at the same level and the con-strained relations (whole-part relationship) of a high-levelfacial part over its internal low-level facial parts. When rep-resentation disentangling is completed level by level, part-part and whole-part relations are simultaneously built. Withhierarchical relations, WHM can achieve structure reason-ing against the shape damage of facial landmarks. Finally,the predicted landmarks are used to update the position ofall shape-indexed patches that will be fed into GlomFaceagain to refine all spatial dependencies and relations. Withthe viewpoint-invariant hierarchical architecture, the pro-posed GlomFace can handle various occlusions (e.g. self-occlusion and external occlusion) and achieve promisingperformance even for extreme occlusion cases. Figure 2shows an example compared with the mainstream Hour-glass [32] backbone equipped with boundary estimation.Experiments demonstrated that GlomFace is more robust toocclusion and has a smaller number of FLOPS comparedwith hourglass-based methods [32,42,46].111130集成到基于热图的模型[18，19，42，46]中，并已成为解决遮挡的主流方法，它预测面部边界以提供形状约束。然而，由于在极端遮挡下边界信息的丢失，边界估计容易失败，导致所有地标的漂移，如图2的第二幅图所示。此外，边界估计计算复杂。因此，由遮挡引起的性能下降仍然是一个尚未解决的问题。0事实上，面部标记描述了人脸的生理结构，其固有地具有视角不变的层次结构。这些层次结构不受任何外部环境的干扰，因此可以被视为结构推理的有力线索。有一些研究[25,26,55]专注于面部层次结构，但它们只是对骨干网络的预测结果进行微调，而没有真正地对层次结构进行建模。GeoffreyHinton指出，一般的神经网络几乎无法表示视角不变的层次结构，并提出了GLOM[15]来解决这个问题。不幸的是，GLOM[15]只是提出了一种关于表示的想法，而没有描述任何工作网络。受到GLOM的启发，我们思考了一个具有固定架构的神经网络如何模拟视角不变的层次结构以处理遮挡。为了实现这一目标，我们提出了一种新的神经网络架构，称为GlomFace，它在功能上分为两个模块：部分-整体层次模块（PHM）和整体-部分层次模块（WHM）。0我们首先将面部层次结构定义为不同的层次，并在每个层次将面部进一步划分为不同的面部部分。部分-整体层次模块（PHM）层次地捕捉每个面部部分的部分-整体空间依赖关系，如图1左侧所示。形状索引的补丁被作为最低级面部部分输入到PHM中，然后，该模块捕捉每个补丁内的短程空间依赖关系。随后，相邻的补丁被组合成邻近部分。PHM然后扩大了到邻近层次的空间依赖范围。上述操作重复进行，直到所有补丁被组合成一个整体。通过层次空间依赖关系，PHM可以抑制多尺度遮挡信息。将形状索引的补丁作为输入而不是原始图像有两个原因：1）提供清晰的部分-整体层次结构；2）在捕捉每个部分的空间依赖关系时，计算复杂度较低。当PHM输出一个整体表示时，整体-部分层次模块（WHM）开始建立面部部分之间的层次关系以进行结构推理，如图1右侧所示。为了实现这一目标，WHM将整体表示层次地解开为低级部分表示。在每个表示解开中，WHM考虑了相邻面部部分之间的耦合关系（部分-部分关系）和高级面部部分与其内部低级面部部分之间的约束关系（整体-部分关系）。当层次解开完成后，同时建立部分-部分和整体-部分关系。通过层次关系，WHM可以对面部标记的形状损坏进行结构推理。最后，预测的标记被用于更新所有形状索引的补丁的位置，这些补丁将再次被输入到GlomFace中以细化所有空间依赖关系和关系。通过视角不变的层次结构，所提出的GlomFace可以处理各种遮挡（例如自遮挡和外部遮挡），并在极端遮挡情况下取得良好的性能。图2显示了与主流的Hourglass[32]骨干网络配备边界估计的示例进行比较。实验证明，与基于Hourglass的方法[32, 42,46]相比，GlomFace对遮挡更具鲁棒性，并且具有更少的FLOPS。0图2.Hourglass与GlomFace在遮挡人脸上的对比。BE表示边界估计，它施加了形状约束[42,46]。我们可以看到，当真实的面部边界丢失时，边界估计会导致全局形状漂移。请注意，这三个模型都是在300W[34]上进行训练的，而不是在遮挡的面部上。02. 相关工作0面部对齐旨在定位给定人脸图像的关键点。在[6, 39, 49,54]中，面部地标定位是通过粗到精的方式实现的，它迭代地将初始地标细化为最终结果。通过在这个任务中应用CNN，如[17, 31,38]所研究的，通过从像素中提取有区分性的特征来实现了有竞争力的性能。考虑到大姿态问题，3D人脸姿态已被引入以解决大姿态问题，它将3D可塑模型（3DMM）拟合到2D图像中[1, 4, 16, 20,27]。然而，应用3DMM的方法无法处理遮挡，因为在遮挡下重建3D人脸极其困难。为了解决遮挡问题，RCPR[5]通过显式检测遮挡来减少对异常值的暴露，以提取具有鲁棒形状索引特征。PCD-CNN[22]使用树突状CNN开发级联局部预测模型，忽略了不同面部组件之间的相互约束。一些方法堆叠了沙漏网络并结合相关任务来处理遮挡面部。LU-VLi[23]共同预测地标位置、这些预测位置之间的相关不确定性以及地标可见性。它将多任务建模为混合随机变量，并使用四阶段堆叠沙漏网络（HG）来估计它们。Look at boundary (LAB)[46]通过引入边界估计对所有地标施加全局形状约束，其中使用堆叠沙漏来估计计算复杂的边界热图。PropNet [18]、AWing [42]和ADNet[19]遵循LAB来堆叠大量参数以估计边界热图。与LAB[46]相比，它们的FLOPS数量更大。所有这些基于边界估计的方法都需要高计算成本。尽管LU-VLi[23]提出了一个新的遮挡数据集MERL-RAV，但该数据集无法提供完整的面部结构，因为自遮挡的地标没有标签。此外，增加训练数据并不能真正为神经网络提供结构推理。因此，遮挡问题仍然是一个巨大的挑战。landmarks in specified index order. These patches are fedinto GlomFace, which iteratively refine these landmarks bymodeling the viewpoint-invariant hierarchies. Here, the ini-tial landmarks of each iteration step are the prediction of theprevious iteration. The initial landmarks are coordinate val-ues of a mean shape from the current training set for the firstiteration. Let Lt denote the predicted landmarks at iterationstep t, which is refined incrementally based on the resultsof the previous iteration:Lt = Lt−1 + △lt,(1)△lt = GlomFace(ρ(F|Lt−1)),(2)T�t=1�¯L −�Lt−1 + △lt��22 ,(3)111140图3展示了用于68个地标预测的GlomFace的示意图。输入是围绕前一次迭代预测的地标的形状索引的补丁集合。根据图4中显示的部分-整体层次结构，PHM将补丁特征组合成更高级的面部部分，基于它们的索引捕捉每个部分内补丁之间的空间依赖关系。它输出具有层次依赖关系的整体表示。然后，WHM通过表示解缠结将整体表示逐层解析为局部地标的偏移向量。这个操作根据图4中显示的整体-部分层次结构建立面部部分之间的层次关系。这里，“�”和“�”分别表示残差连接和跳跃连接操作。实际上，在每个i级表示和其内部i-1级表示之间执行跳跃连接。由于空间有限，我们只显示了每个表示解缠结中的一个跳跃连接。更多细节可以在下面的章节和补充材料中找到。03.1. 总体架构03. 方法0图3展示了提出的Glom-Face的概述。给定一个人脸图像F和初始的地标L0，我们裁剪N个围绕这些地标的形状索引的补丁。0其中 △ l t 是第 t次迭代中所有地标的偏移向量，使用GlomFace进行预测：0其中 ρ ( ∙ ) 表示一个裁剪操作，它裁剪围绕 L t − 1的形状索引补丁。执行所有迭代步骤后，我们最小化以下损失函数来更新GlomFace的参数：0损失 =0其中 T 和 ¯ L 分别表示最大迭代步数和地面真值地标。根据MDM[38]，这个 L2 损失1 × 1 × 11 × 1 × 11 × 1 × 1𝑌 × 𝐻 × 𝑊 × 𝐶𝑌 × 𝐻 × 𝑊 × 𝐶𝐶 × 𝑌𝐻𝑊𝑌𝐻𝑊 × 𝐶𝑌𝐻𝑊 × 𝑌𝐻𝑊𝑠𝑜𝑓𝑡𝑚𝑎𝑥𝑌 × 𝐻 × 𝑊 × 𝐶𝑌 × 𝐻 × 𝑊 × 𝐶𝑌 × 𝐻 × 𝑊 × 𝐶𝑌𝐻𝑊 × 𝐶1 × 1 × 111115068个补丁012个邻域 6个区域 3个组整体 68个地标0低级高级0低级高级0图4.具有五个层次的视角不变层次。补丁和地标共享固定的索引顺序。每个块表示一个面部部分。根据部分-整体层次和整体-部分层次进行部分组合和表示解缠。0函数简单地计算点对点的欧几里得误差。可以用最近的工作（如Wing loss[10]）替换它，以进一步提高GlomFace的性能。具体而言，GlomFace在功能上分为两个模块：部分-整体分层模块（PHM）和整体-部分分层模块（WHM）。所有的补丁首先被送入PHM，然后它捕捉每个补丁内的短程空间依赖关系。这些补丁级别的依赖关系可以抑制小尺度的遮挡信息。随着层次的提高，PHM逐渐通过部分组合扩大了空间依赖性的范围，从而处理更大尺度的遮挡。部分组合通过遵循部分-整体层次将低级面部部分合并到高级部分，直到所有的补丁合并成一个整体。当PHM输出具有部分-整体分层依赖关系的整体表示时，整体-部分分层模块（WHM）开始根据整体-部分层次进行表示解缠，从而建立整体-部分分层关系。为了实现这一点，WHM将高级面部部分的表示逐层解缠为其内部低级面部部分的表示。在这个操作中，整体-部分分层关系建立在同一层面部部分和高低级面部部分之间。WHM最终将每个邻域级别的表示解缠为指定局部形状的偏移量。预测的偏移量更新了地标和形状索引补丁的位置。部分组合和表示解缠遵循五个层次的视角不变层次，从低到高，包括补丁/地标、邻域、区域、组和整体，如图4所示。03.2. 部分-整体分层模块（PHM）0部分-整体分层模块（PHM）从三个卷积层开始，每个层后面都有一个最大池化操作。一般来说，自注意机制是捕捉特征图的空间依赖性的常见方法。我们发现，在这三个卷积层中，适当的感受野（7 * 7，5 * 5和3 *3）几乎可以达到与自注意力相同的性能，这是因为自注意力机制0�0�0�� × �0� × � × � × �0图5. 非局部块。“X”是一个形状为Y × H × W ×C的特征图集，其中Y表示具有“H × W ×C”（高度、宽度和通道）大小的特征图的数量。“�”表示矩阵乘法。蓝色框表示1×1×1卷积。0每个补丁的尺寸较小（40 * 40 *3）。由于CNN会减小补丁的尺寸，因此后续层次依赖的计算复杂度大大降低。使用CNN提取补丁级别的部件特征后，PHM通过遵循图4中显示的整体-部分层次结构，进行部件组合，生成更高级面部部件的特征图。然后，PHM将空间依赖范围扩大到当前面部部件的范围。由于每个面部部件包含多个补丁特征，常规的自注意机制无法捕捉跨补丁的依赖关系。因此，我们使用非局部操作[3]来捕捉跨补丁的空间依赖关系。它将一个位置的响应计算为所有位置的特征的加权和。根据[44]，我们构建了一个非局部块来实现这一点，如图5所示。与[44]不同，它关注的是跨帧的时间依赖关系，我们利用这个块来捕捉跨补丁的空间依赖关系。最后，得到了一个整体表示，表示了整体-部分的层次依赖关系。03.3. 整体-部分分层模块（WHM）0有强大的心理学证据表明，人们可以将对象解析为不同层次的部分，并将部分与整体之间的视角不变的空间关系建模为坐标变换[14]。这一证据似乎可以解释为什么人们在结构推理方面表现出色（例如玩拼图游戏）。受现有研究[14,15]的启发，整体-部分分层模块（WHM）学习如何理解面部部分的整体-部分层次关系。通过自顶向下的分层架构，WHM通过表示解缠逐级解析每个高级面部部件的表示，到其内部低级部分的表示，遵循图4中显示的整体-部分层次结构。表示解缠类似于在人们玩拼图时从所有碎片中挑选出最佳拟合的每个部分。在这个操作中，所有都从属于同一个更高级部分的相邻部分的表示被配对成一个关系对或三元组，用于构建耦合关系。同时，这个更高级部分的表示对这个关系对或三元组施加约束关系。以第i级面部部件m为例，假设它有一个相邻部分表示y i r。其中(m, r)是一个从属于i + 1级部分o的i级对，具有特征表示y i+1 o。如果m包含两个i - 1级部分，则表示解缠如图6所示，可以表示为：cal relations of facial parts. With the top-down hierarchi-cal architecture, WHM hierarchically parses the representa-tion of each high-level facial part to the representations ofits internal low-level parts by representation disentangling,level by level, following the whole-part hierarchies shownin Figure 4. The representation disentangling is similar topicking out the best fit for each part from all pieces whenpeople are playing a puzzle. In this operation, the represen-tations of adjacent parts that are all subordinate to the samehigher-level part are paired into a relation pair or triple forbuilding the coupling relationship. Meanwhile, this higher-level part representation imposes the constrained relationover this pair or triple. Taking i level facial part m as anexample, let yim denote its representation. We suppose ithas a adjacent part representation yir. Where (m, r) is a ilevel pair that is subordinate to i+1 level part o with featurerepresentation yi+1o. If m contains two i-1 level parts, therepresentation disentangling is shown in Figure 6 and canbe expressed as follows:111160图6. 连续的解缠操作。这里，y i +1 o表示第i +1级的面部部件o的表示，它被解缠成y i m和y i r。随后，y im被解缠成y i − 1 q和y i − 1 k。为简单起见，我们省略了解缠y i− 1 k、y i r和y i +1 o的操作。0y i − 1 q = MLPs π � (y i m, y i r) | y i +1 o �，(4)0y i − 1 k = MLPs φ � (y i m, y i r) | y i +1 o �，(5)0其中，面部部件q和k是从部件m派生出来的，y i − 1 q和y i− 1 k表示部件q和k的表示。0MLPs π和MLPs φ将y i m解缠成y i − 1 q和y i − 1k。通过构建层次关系，WHM将结构推理引入神经网络。注意，我们使用其历史信息来构建自关系，通过利用递归神经网络（RNN）。尽管从局部补丁中提取面部特征可以降低数据维度，但可能会丢失一些面部信息。记忆先前的信息可以有意义地补充后续迭代的面部信息。此外，在级联回归框架中，每次迭代都应该相互作用而不是独立执行。使用RNN来记忆所有迭代中的面部信息，可以在端到端训练期间联合优化所有迭代组件。这有助于我们的模型在训练过程中实现平滑的偏移预测和稳定性，如MDM[38]所示。这种自关系显著降低了整体表示的数据维度，而不会丢失重要信息，从而节省了计算成本。最后，WHM将每个邻域级别的表示解缠成当前邻域中索引的指定局部形状的偏移向量。我们将所有向量连接到具有N个标记点的全局形状的偏移量，并将其用于更新下一次迭代的标记点和补丁。04. 实验04.1. 数据集和评估指标0常规数据集。这个设置的评估数据集通常是300W[34]和WFLW [46]：300W[34]。按照广泛使用的评估设置[38, 46,51]，训练集包含3148张图像。测试集包括LFPW和HELEN测试集作为常规集，IBUG测试集作为挑战集，以及它们的并集作为完整集。WFLW [46]。这个数据集是基于WIDERFace [48]提出的新的人脸数据集，由LAB[46]提出。它包含10,000张图像（7500张用于训练，2500张用于测试），有98个关键点。遮挡数据集。这个评估设置包括三个遮挡数据集：COFW29 [5]。Caltech OccludedFace in theWild（COFW29）数据集[5]包含1345张训练人脸图像和507张从互联网收集的测试人脸图像，所有图像都标注了29个关键点。COFW68[12]。为了评估跨数据的鲁棒性，我们在300W数据集（68个关键点）上训练Glomface，并在COFW68上重新标注的68个关键点上进行测试[12]。因此，这个数据集仅用于测试，而不是训练。Masked 300W[51]。这个数据集包含遮挡的人脸（平均遮挡超过50%），是通过合成得到的。00.10.20.30.40.50.60.70.80.91MDMHGsFHRRDNLABSAATGlomFace00.10.20.30.40.50.60.70.80.91MDMHGsFHRRDNLABSAATGlomFace00.10.20.30.40.50.60.70.80.91MDMHGsFHRRDNLABSAATGlomFaceTable 1. NMEocular comparison to state-of-the-art methods on300W. ”Designed’‘ means that the method is designed with a newbackbone network. [Key: Top-1, Top-2]1111700 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1标准化点对点误差 Challenging集的CED曲线0测试图像（%）00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1标准化点对点误差 Common集的CED曲线0测试图像（%）00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1标准化点对点误差 Full集的CED曲线0测试图像（%）0图7. 我们提出的方法与最先进方法在300W的三个子集上的CED曲线比较。0基于300W [34]的SAAT[51]。请注意，此数据集仅用于测试，而不是训练。评估指标。我们使用标准化误差（NME）、累积误差分布（CED）曲线和失败率（FR）作为评估指标。一些最先进的方法[10,23, 38,41]使用不同的标准化项来计算NME，我们遵循它们的标准化项进行实验，以便与这些方法进行比较。在这里，NMEocular、NME pupil和NMEbbx将标准化项分别设置为眼间距离、瞳孔间距离和边界框的几何平均值。04.2. 实现细节0我们使用真实边界框将人脸图像裁剪为224*224的大小，将每个patch裁剪为40*40的大小。按照现有方法[10, 38, 42,46]，我们通过手工转换（旋转、翻转、缩放、随机遮挡等）增加训练数据。我们的模型在四张NVIDIA GTX 1080Ti卡上以端到端的方式进行了约50,000步的训练。我们设置了初始学习率为0.0002，衰减因子为0.97，批量大小为64，迭代步数为4。更多实现细节和网络架构的参数可以在我们的代码和补充材料中找到。04.3. 常规数据集上的评估0在300W数据集上的评估结果。为了公平比较现有的方法，我们根据它们的预测方式将所有方法分为两类：基于热图的模型和基于回归器的模型。前者始终使用堆叠网络（如hourglass[32]或类似Unet的网络）输出关键点的热图。后者直接预测关键点的坐标值。此外，我们按照Awing[42]的方法，使用CoordConv层[29]和Wing损失[10]替换了CNN和L2损失，以改进我们的模型GlomFace�。我们在表1中展示了GlomFace与最先进方法的比较结果。实验证明，与所有回归器方法相比，我们的GlomFace取得了最佳性能。0方法挑战性常见完整骨干0基于热图的0HGs [32]（2016） 7.23 3.72 4.41 设计 FAN [4]（2017） 5.52 3.08 3.56 HGs[32] SAN [7]（2018） 6.60 3.34 3.98 CMP [45] LAB [46]（2018） 5.19 2.983.49 HGs [32] FHR [37]（2018） 6.28 3.02 3.66 HGs [32] AWing[42]（2019） 4.52 2.72 3.07 HGs [32] AS+SAN [33]（2019） 6.49 3.21 3.86CMP [45] LUVLi [23]（2020） 5.16 2.76 3.23 HGs [32] 3FabRec [2]（2020）5.74 3.36 3.82 ResNet [13] SRT [8]（2020） 5.61 2.80 3.39 HGs [32] SDL[25]（2020） 4.77 2.62 3.04 HRnet [36] HIH [24]（2021） 5.00 2.93 3.33HGs [32] HGs+SAAT [51]（2021） 5.03 2.82 3.25 HGs [32] ADnet[19]（2021） 4.58 2.53 2.93 HGs [32]0基于回归器的0MDM [38]（2016） 7.56 4.36 4.99 设计 TSR [31]（2017） 7.56 4.36 4.99设计 RDN [28]（2018） 7.04 3.31 4.23 MDM [38] Wing [10]（2018）5.23 2.93 3.38 设计 ODN [53]（2019） 6.67 3.56 4.17 ResNet [13] SDFL[26]（2021） 4.93 2.88 3.28 ResNet [13] GlomFace（我们的方法） 4.872.79 3.20 设计 GlomFce �（我们的方法） 4.79 2.72 3.13 设计0基于热图的模型中，有两种方法（Awing [43]和ADnet[19]）在挑战集上明显强于所提出的GlomFace。然而，GlomFace在遮挡数据集COFW29上远远超过它们（见表3）。我们进一步观察到，几乎所有取得良好性能的方法都是基于现有骨干网络[13,32]的增量工作。然而，这种骨干网络并没有实现结构推理来应对遮挡。在后续的遮挡数据比较中，GlomFace显示出更大的优势。我们可以看到，GlomFace�在与最佳基于热图的模型[43]的比较中表现相当。这表明GlomFace具有可扩展性，并且可以作为一个强大的基准。0为了进一步评估GlomFace在NMEbbx111180数据集完整姿态遮挡0指标 NME FR NME FR NME FR0LAB [46] 5.27 7.56 10.24 28.83 6.79 13.72 SRT [8] 5.13 7.07 - -- - 3FabRec [2] 5.62 8.28 10.23 34.35 6.92 15.08 SAAT [51]5.11 5.63 - - - - LUVLi [23] 4.37 3.12 - - - - Awing [42] 4.362.84 7.38 13.50 5.19 5.980SDL [25] 4.21 3.04 7.36 15.95 4.98 5.290GlomFace（我们的方法） 4.81 3.77 8.17 17.48 5.14 6.730PropNet* [18] 4.05 2.96 6.92 12.58 4.58 5.16 ADNet* [19] 3.982.00 6.56 9.20 4.36 4.480表2.与WFLW上最先进方法的比较。请注意，PropNet*和ADNet*使用WFLW[46]提供的属性标签来使用焦点翼损失[10]。[关键词：Top-1，Top-2]0300W，图7显示了与开源最先进方法的CED曲线，其平均误差值在表1中呈现。如图7所示，GlomFace明显优于其他方法。对WFLW的评估结果。我们遵循LAB[46]并使用瞳孔间距来归一化误差。我们没有与一些最先进的方法进行比较，如PropNet [18]和ADNet[19]，因为它们使用WFLW[46]提供的属性标签来使用焦点翼损失[10]。此外，我们选择了姿态子集和遮挡子集进行进一步比较，因为这两个子集都包含自遮挡和外部遮挡。表2报告了NME和失败率（阈值为0.1）。尽管Awing [42]和SDL[25]在完整和大姿态集上的表现优于我们的方法，但在遮挡集上，GlomFace具有竞争力。04.4. 遮挡数据的评估0在这个评估中，由于没有训练数据，我们使用COFW68和Masked300W进行了跨数据实验。对于COFW29数据集，我们使用瞳孔间距来通过[5]进行点对点误差的归一化。表3表明，所提出的方法在NME方面远远优于所有最先进的方法。它甚至超过了在300W上表现最好的Awing[42]。这也证明了GlomFace在遮挡面部上比大多数最先进的方法更具鲁棒性。对于COFW68的评估结果，在表4中，我们报告了与现有最先进方法在COFW68上的比较结果[12]。结果表明，所提出的GlomFace在NME方面远远优于所有最先进的方法。与最先进的SAAT[51]相比，我们的方法在NME上减少了8.68%。我们的模型的失败率仅为0.79%，远远低于所有现有方法。这个最低的失败率清楚地表明GlomFace在性能上表现出色。0方法 NME pupil FR 8% FR 10%0PCD-CNN [22]（2018年）5.77 - 3.73 Wing[10]（2018年）5.44 - 3.75 3DDE[41]（2019年）5.11 6.50 - AWing[0MNN [40]（2020年）5.04 - - ADNet[19]（2021年）4.68 - 0.590GlomFac（我们的方法）4.37 4.53 1.560表3.COFW29数据集上平均误差和失败率的比较。[关键词：Top-1，Top-2]。0方法 NME ocular FR 10%0TCDCN [50]（2016年）8.05 6.31 MDM[38]（2016年）6.12 5.13 FAN[4]（2017年）5.85 3.94 LAB[46]（2018年）4.62 2.17 ODN[53]（2019年）5.87 2.84 SDL[0SRN [52]（2021年）4.67 1.97 ODN[53]（2019年）5.87 2.84 SAAT[51]（2021年）4.61 1.580GlomFac（我们的方法）4.21 0.790LUVLi [23] 2.75 -GlomFac（我们的方法）2.09 0.390表4.COFW68数据集上平均误差和失败率的比较。GlomFace在这个遮挡数据集上取得了最佳性能。[关键词：Top-1，Top-2]。0方法挑战常见完整0CFSS [54] 19.98 11.73 13.35 SBR [37] 13.28 8.729.6 MDM [38] 11.67 7.66 8.44 HGs [32] 13.52 8.179.22 MDM [38] 11.67 7.66 8.44 FHR [37] 11.287.02 7.85 FAN [4] 10.81 7.36 8.02 LAB [46] 9.596.07 6.76 SRN [52] 9.28 5.78 6.460SAAT [51] 11.36 5.42 6.580GlomFace（我们的方法）8.81 5.29 5.980表5. Masked 300W上的NME比较。请注意，Masked300W仅用于跨数据集评估，而不用于训练。[关键词：Top-1，Top-2]。0遮挡。这种跨数据集的评估表明，GlomFace在遮挡和遮挡环境中具有出色的鲁棒性和泛化能力。在Masked300W上的评估结果。表5显示了与现有方法在Masked300W上（超过50％的平均遮挡）的比较结果。根据[51]的方法，这个Masked300W仅用于测试阶段的跨数据集评估，而不用于训练LAB [46]18.85G✓AWing [42]26.79G✓PropNet [18]42.83G✓GlomFace (t = 4, i = 5)13.48G×GlomFace (t = 1, i = 5)3.37G×111190图8. 提出的GlomFace与Hourglass [32]骨干网络和LAB[46]边界估计在Masked300W（平均遮挡超过50％）上的定性结果比较。所有方法仅在通用300W [34]上进行训练。0阶段。与最先进的SAAT [51]相比，我们的方法在Masked300WChallenging、Common和Full数据集上的错误率分别降低了22.44％、6.08％和11.55％。这些结果清楚地表明我们的方法在极端遮挡人脸上取得了最佳性能。我们进一步研究了所提出的GlomFace在极端遮挡下的遮挡鲁棒性。图80显示了提出的GlomFace与主流Hourglass[32]骨干网络和边界估计模型LAB[46]在严重遮挡的人脸[51]上（平均遮挡超过50％）的定性结果比较。所有模型仅在300W[34]上进行训练，没有任何额外的训练数据。这些结果表明GlomFace具有强大的结构推理能力，可以有效应对极端遮挡。分析。大多数最先进的方法通过将额外的预测任务集成到现有的骨干网络中来提高遮挡鲁棒性。LUVLI[23]将可见性和不确定性估计引入到堆叠的hourglass[32]中。LAB [46]、AWing [42]、ADNet [19

下载后可阅读完整内容，剩余1页未读，立即下载