没有合适的资源?快使用搜索试试~ 我知道了~
1611003FabRec:通过重构实现快速少样本人脸对齐0Bj¨orn Browatzki和ChristianWallraven*,韩国高丽大学人工智能系,首尔0browatbn@korea.ac.kr,wallraven@korea.ac.kr0图1:3FabRec框架的组成部分:(最左边的框)第一阶段的无监督训练,通过对大量未标记的面部数据集进行对抗(生成式)自编码器训练,训练一个低维潜在空间,(中间的框)随后的有监督训练,通过插入传输层将解码器重新定位为颜色图像的生成,以预测地标热图。最右边的框显示了仅使用中间框的10张图像进行训练的框架的测试结果,包括原始面部图像(顶部行)、通过自编码器重构的面部图像(中间行)和置信度热图(底部行)。0摘要:当前面部标记检测的监督方法需要大量的训练数据,并且由于参数数量庞大,可能会在特定数据集上过拟合。我们引入了一种半监督方法,其关键思想是首先从当今大量未标记的面部图像中生成隐式的面部知识。在第一阶段完全无监督的情况下,我们训练一个对抗自编码器通过低维面部嵌入来重构面部。在第二阶段有监督训练中,我们通过插入传输层将解码器与颜色图像的生成重新定位为地标热图的预测。我们的框架(3FabRec)在几个常见的基准测试上实现了最先进的性能,并且最重要的是,能够在极小的训练集(仅10张图像)上保持令人印象深刻的准确性。由于插入层只向解码器添加了少量参数,因此推理在GPU上运行速度达到数百FPS。01.引言准确和鲁棒的面部地标定位是许多现有面部处理应用的关键步骤,包括跟踪、表情分析和面部识别。这些地标的唯一定位受到遮挡、部分面部可见性、大姿态变化、不均匀照明或更极端的面部表情中的大型非刚性变形的严重影响[41,44]。为了实现低地标定位误差,即在面部外观变化的同时保证每个地标的高定位精度,近年来深度学习技术[3]的进步结合大量注释数据库的可用性,使得典型基准上的定位精度提高了100%(从[51]到[49] -更多相关工作请参见下文)。大多数方法使用高度调整的监督学习方案的组合来实现这种性能,几乎总是61110在特定测试数据集上进行了专门优化,增加了对该数据集的过拟合风险[7]。类似地,已经表明数据集中的注释可能不准确和不一致(例如[14])。鉴于除了现有的注释面部标记数据集外,还有更多可用于其他任务(面部检测、面部识别、面部表情分析等)的数据集,因此应该可以利用这个数据池中包含的关于面部形状的隐式知识,以确保跨数据集更好的泛化能力,并且更容易、更快速地进行少样本训练的标记定位。在这里,我们提出了一个基于两阶段架构的框架(3FabRec,参见图1、2):该方法的关键在于第一阶段的无监督训练,其中一个(生成式)对抗自编码器[30]在大量面部数据集上进行训练,生成一个低维嵌入,捕捉到各种外观的面部知识[46],并能够在各种外观下重构面部图像。利用这个嵌入,第二阶段的有监督训练通过生成概率热图[5]来训练标记定位任务。这个两阶段的方法是半监督学习的一种特殊情况[24,59],在其他领域也取得了成功,包括通用网络训练[20]、文本分类[22]、翻译[13]和视觉图像分类[54]。在当前研究中,我们展示了我们的方法能够在标准基准数据集上以>300FPS的速度实现最先进的结果。最重要的是,它在只有很少的训练数据(10张图像)的情况下就能够获得令人印象深刻的定位性能,超过了所有情况下的最高分数,并为从少至10张图像的标记定位设定了新的标准。后一结果表明,标记知识确实被无监督预训练隐式捕获。此外,重构的自编码器图像能够“解释掉”外部因素(如遮挡或化妆),为准确的定位提供最佳拟合的面部形状,并增加了框架的可解释性。源代码可在https://github.com/ browatbn2/3FabRec上获得。02. 相关工作0在深度学习方法出现之前,明确参数化的地标模型,如主动形状[9],主动外观[8]或级联回归模型[17,51],提供了面部地标检测的最先进技术。然而,使用深度卷积神经网络的当前模型很快成为表现最佳的方法,从深度对齐网络[42],完全卷积网络[27],坐标回归模型开始0els [28,45],或多任务学习器[36],深度网络能够捕捉面部外观变化中像素到地标的相关性。在我们方法的背景下,最近的相关工作可以分为监督和半监督方法(有关最近的有趣无监督方法的低性能水平,请参见[43])。02.1. 监督方法0最近几年,表现良好的监督方法基于热图回归,其中深度网络将为每个面部地标推断出一个概率热图,其对应的最大值编码了该地标最可能的位置[5, 12, 27] -这也是我们在这里采用的方法。为了提供额外的几何约束,扩展使用基于主动外观的模型拟合步骤,基于PCA的显式编码几何信息[31],从面部边界中明确编码几何信息[49],或从遮挡概率中添加额外的加权[56]。目前在许多基准测试中表现最佳的方法使用基于热图的框架,以及通过优化损失函数对前景与背景像素进行优化[47]。这样的监督方法通常需要大量的标记训练数据,以便在面部外观的变异性中进行泛化(有关使用高分辨率深级联来解决此问题的架构,请参见[10])。02.2. 半监督方法0除了对网络架构的更改,半监督模型[24,59]还解决了缺乏训练数据和标签不一致性的问题,这些模型通过增加训练过程来利用部分或弱标注的数据。基于地标扰动[29]的数据增强或从3D面部模型生成其他视图[60]的数据增强可以应用于生成更强大的伪地标标签。[14]使用基于光流的地标时间一致性约束来增强地标检测器的训练 -参见[53]。在[36,55]中,提出了多任务框架,其中与地标网络一起训练用于预测其他面部属性(包括姿态和情绪)的属性网络,允许从一个网络到另一个网络的梯度传递。与此类似,[35]在训练过程中使用样式转换示例进行数据增强。在[15]中,提出了一种教师监督学生(TS3)框架,其中教师被训练为将学生生成的地标伪标签分为“合格”和“不合格”的样本,以便学生检测器可以用更好的质量数据进行重新训练。类似地,在[39]中,GAN框架生成“假”热图,主网络需要对其进行判别,从而提高性能。c(a, b) = 2σaσa + cσ2a + σ2b + c, s(a, b) = σab + c/2σaσb + c/2(1)61120未标记的图像0ResNet块0倒置ResNet块0交错传输层0阶段1:通过E和G进行反向传播阶段2:通过ITLs进行反向传播 阶段2FT:通过E和ITLs进行反向传播0标记的图像0重建0预测的热图0E G0z0真实热图0图2:3FabRec流程概述,包括自动编码器的架构以及无监督、监督和微调阶段的训练路径(详见文本)。03. 方法03.1. 我们的方法0上述大多数半监督方法在测试时使用与数据增强相同的数据集。我们的方法(参见图1、2)从一个无监督方法开始,我们利用大量的人脸数据集中包含的关于人脸形状的隐式知识(例如用于人脸识别的数据集[6])。这些知识被捕获在自动编码器框架的低维潜在空间中。重要的是,自动编码器还具有生成能力,即在训练过程中,它的任务是从相应的潜在向量中重建人脸。这一步是因为下面的监督阶段实现了一个混合重建流水线,它使用生成器和交错的转移层来重建人脸以及概率性地生成地标热图。因此,潜在向量空间的变化将映射到在标记数据集上训练的地标位置。鉴于第一阶段的无监督阶段已经捕捉到了关于面部外貌和面部形状的知识,这些信息将在第二阶段迅速显性化,从而实现跨多个数据集的泛化,并实现低样本和少样本训练。03.2. 无监督人脸表示0无监督训练步骤遵循[4]的框架,其中通过四个损失函数平衡忠实的图像重建与嵌入的普适性和平滑性来训练对抗自动编码器。0生成新面孔所需的空间。重建损失 L rec 通过基于像素的 L1 误差惩罚重建错误。编码特征损失 L enc[19]确保创建一个平滑连续的潜在空间。对抗特征损失 Ladv 推动编码器 E 和生成器 G产生高保真度的重建,因为仅使用图像重建损失训练生成模型通常会导致模糊图像。由于我们方法中预测的地标位置直接来自重建的面部元素的位置,我们在训练自动编码器时主要关注准确重建这些特征。因此,我们通过用新的结构图像损失 L cs 替换[4]中使用的生成图像损失 L gen,在一定程度上牺牲了生成能力以换取重建准确性。0结构图像损失:为了惩罚与输入图像不良对齐的重建,我们添加了基于SSIM[48]图像相似度度量的结构图像损失,该度量衡量两个图像窗口a和b之间的对比度c(a, b)和相关性s(a, b):0值 σ a 和 σ b 表示窗口 a 和 b 的强度方差,σ ab表示它们的协方差。常数 c增加了对小分母的稳定性。对于8位通道的图像,将其设置为 c = 255 0.01。计算在图像上的每个 k × k 窗口上运行:cs(x, y) = 1|w|�wc(xw, yw)s(xw, yw))(2)Lcs(E, G) = Ex∼p(x)[cs(x, G(E(x))](3)minE,G maxDz,DxLAE(E, G, Dz, Dx) =61130我们通过使用原始图像及其重建来获得结构图像损失:0该损失改善了高频图像元素的对齐,并对由对抗图像损失引入的高频噪声进行惩罚。因此,L cs也作为正则化器,稳定对抗训练。0完全自动编码器目标:最终的训练目标是所有损失项的加权组合:0λ rec L rec ( E, G ) + λ cs L cs ( E, G ) + λenc L enc ( E, D z ) + λ adv L adv ( E, G, D x) (4)0我们将λenc和λadv设置为1.0。λrec和λcs被选择为相互之间产生类似大值的损失项,同时确保与λenc和λadv相比大约有10倍的权重(给定损失项的范围,我们设置λrec≈1.0,λcs≈60.0)。03.3. 监督式地标发现0对于地标检测,我们主要关注的不是生成RGB图像,而是包含地标概率图的L通道图像。这可以看作是一种风格转移,将生成的人脸的外观转换为允许我们读取地标位置的表示。因此,之前在生成彩色图像时隐含存在的关于面部形状的信息现在变得明确。我们的目标是在不丢失从非常大的(未标记的)图像集中提取的面部知识的情况下进行这种转移,因为用于地标预测的可用注释数据集只是该大小的一小部分,并且存在不精确和不一致的人工注释[14]。为此,我们在生成器G中引入了额外的交错传输层。03.3.1 交错传输层0地标生成的训练始于冻结自编码器的所有参数。然后,我们将生成器的反向ResNet层与3×3卷积层交错。每个交错传输层(ITL)产生与原始ResNet层相同数量的输出通道。由ResNet层产生的激活通过这些层进行转换,并输入到下一个更高的块中。最后一个卷积层映射到RGB。0图像被替换为将映射到L通道热图图像(L=要预测的地标数)的卷积层。这种方法为生成器添加了足够的灵活性,通过重用预训练的自编码器权重来生成新的热图输出。给定一个带注释的人脸图像x,每个地标li∈R2的地面真值热图Hi由以li为中心的2D正态分布和标准差σ组成。在地标训练和推断期间,由编码图像z=E(x)产生的激活a1被传递到第一个ITL层。这将传递激活并将其馈送到下一个冻结的反向ResNet层,以便ResNet和ITL的完整级联可以重建地标热图˜H。热图预测损失LH定义为预测热图(˜H)与地面真值热图(H)之间的L2距离。0LH(ITL) = Ex�p(x)[∥H−ITL(a1)∥2] (5)0地标的位置是˜ l i = argmax u,v ˜ H i ( u, v )。03.3.2 编码器微调0一旦ITL层的训练达到收敛,我们可以进行可选的微调步骤。为此,解码器E被解冻,以便ITL层和编码器同时进行优化(见图2)。0LH(ITL) → LH(E, ITL) (6)0由于更新仅基于地标误差,这将推动编码输入人脸,使得面部特征在重建的人脸中更精确地放置。同时,其他属性如性别、肤色或照明可能会被移除,因为这些对于地标预测任务来说不相关。通过保持生成器不变,避免了过拟合,生成器充当了正则化器,限制了编码器的灵活性。04. 实验104.1. 数据集0VGGFace2和AffectNet用于生成式自编码器的无监督训练的数据集结合了两个数据集:VGGFace2数据集[6],该数据集包含了330万张面孔,考虑了姿势、年龄、照明和种族的大变异性。从完整数据集中,我们删除了高度小于100像素的面孔,结果得到了180万张面孔(来自8631个唯一身份)。此外,我们添加了AffectNet数据集[34],该数据集旨在捕捉各种面部表情(因此提供了面部形状的额外变异性),其中包含228k张图像,总共为210万张图像用于自编码器训练。01 关于参数调优、跨数据库结果和进一步的消融研究,请参见补充材料。61140300-W 数据集由[40]从多个来源(包括LFPW [2]、AFW[26]、HELEN [61]、XM2VTS[32]和自有数据)中组合而成,并使用68个人脸关键点进行半自动注释。根据[38]中报告的已建立的划分,我们的实验中使用了3,148张训练图像和689张测试图像。后者进一步划分为554张构成常规子集和135张构成挑战子集。此外,300-W还包含300张室内和300张室外图像,构成原始300-W挑战赛的私有测试集。0AFLW数据集[25]包含24,386张野外人脸图像,具有特别广泛的人脸姿势范围(偏航角从-120°到120°,横滚角和俯仰角从-90°到90°)。按照常规做法,我们使用20,000张图像进行训练,4,386张图像进行测试,并且仅使用了21个注释关键点中的19个进行训练[28]。0WFLW我们评估协议中的最新数据集来自[49],总共包含10,000张人脸图像,其中7,500张用于训练,2,500张用于测试。图像来自WIDERFACE数据集[52],并手动注释了更多的98个关键点。该数据集包含不同(部分重叠)的测试子集,用于评估,每个子集在姿势、表情、光照、化妆、遮挡或模糊等方面有所不同。04.2. 实验设置04.2.1 无监督自编码器训练0网络架构我们的实现基于[4],它将标准的ResNet-18作为编码器,将反转的ResNet-18(每个块的第一个卷积层替换为4×4的反卷积层)作为解码器。编码器和解码器都包含约1000万个参数。编码后的特征长度为99维。0训练过程我们使用128×128的输入/输出大小和100张图像的批量大小对自编码器进行50个epoch的训练。收敛后,我们在编码器和解码器中各添加了一个额外的ResNet层,并使用256×256的图像大小进行另外50个epoch的训练,以提高重构质量,批量大小为50。我们使用Adam优化器[23](β1=0.0,β2=0.999),学习率恒定为2×10^(-5),这对于对抗学习来说是稳健的设置。我们应用随机水平翻转(p=0.5)、平移(±4%)、调整大小(94%到103%)、旋转(±45°)的数据增强。04.2.2 监督式关键点训练0图像使用提供的边界框进行裁剪,并调整大小为256×256。为了创建地面真值热图,我们设置σ=7。在所有实验中,我们训练了四个ITL层,并通过跳过最后一个生成器层(如4.6中所述,更高的生成器层主要包含不相关的局部外观信息)生成了大小为128×128的关键点热图。0图3:随机生成的人脸,上面叠加了生成的关键点概率图。0对于从关键点数据集图像进行训练,我们应用随机水平翻转(p=0.5)、平移(±4%)、调整大小(±5%)、旋转(±30°)和遮挡(推理时不进行增强)。ITL-only训练期间的学习率设为0.001。在可选的微调阶段,我们将ITL的学习率降低到0.0001,同时保持编码器的学习率与训练期间相同(=2×10^(-5)),并将Adam的β1重置为默认值0.9。0评估指标 本文使用标准化均方误差(NME)、10%NME的失败率(FR)和累积误差分布(CED)曲线下的面积(AUC)来报告面部关键点检测的性能。对于300-W和WFLW数据集,我们使用外眼角之间的距离作为“眼间距”归一化。由于AFLW数据集中有大量的侧脸,我们使用边界框的宽度(正方形)来进行归一化,参考文献[57]。04.3. 定性结果0训练好的生成器能够从低维(99D)潜在特征向量z生成各种逼真的人脸,如图3所示,其中显示了随机生成的人脸,并叠加了预测的地标点热图。为了实现这一点,模型必须学习到关于人脸底层结构的内在信息。我们可以通过在人脸嵌入之间进行插值并观察生成图像中的面部结构(例如嘴角)以高度一致的方式构建(见图4进行可视化)。这带来了两个见解:首先,面部结构实际上被编码在低维表示z中。其次,这些信息可以转化为2D像素强度的地图(即彩色图像),同时与原始编码保持高相关性。图5展示了在具有挑战性的图像上的重建质量的更多示例。可以看出,该流水线会尽可能地重建完整的人脸,消除遮挡和化妆,并且在这个过程中甚至会“放大”人脸(图5的第一列)。这是因为用于训练自动编码器的数据库主要包含未遮挡和非伪装的人脸,分辨率大致相似。此外,我们注意到重建的人脸不一定会保留身份,因为完全训练的流水线的目标是重建最佳拟合的人脸形状。尽管我们的方法能够处理分辨率的巨大变化(图5的第一列),化妆(图5的第二列),光照(图5的第三列)和姿势(图5的第四列),但在这些因素变得过于极端时,它会产生失败的预测,如图5的第五列所示。然而,地标点预测通常在这些情况下会逐渐降低,因为热图中编码的置信度也会降低。61150图4:通过嵌入特征向量之间的插值生成的人脸的预测地标点。0图5:WFLW中具有挑战性的测试示例上的3FabRec结果。行显示原始图像,重建图像本身,带有预测的地标点,带有真实地标点,以及带有预测地标点热图。第五列展示了一个失败案例。更多示例请参见补充材料。0甚至“放大”人脸(图5的第一列)。这是因为用于训练自动编码器的数据库主要包含未遮挡和非伪装的人脸,分辨率大致相似。此外,我们注意到重建的人脸不一定会保留身份,因为完全训练的流水线的目标是重建最佳拟合的人脸形状。尽管我们的方法能够处理分辨率的巨大变化(图5的第一列),化妆(图5的第二列),光照(图5的第三列)和姿势(图5的第四列),但在这些因素变得过于极端时,它会产生失败的预测,如图5的第五列所示。然而,地标点预测通常在这些情况下会逐渐降低,因为热图中编码的置信度也会降低。04.4. 与最先进技术的比较0表1显示了我们的半监督流水线与300-W和AFLW数据集上最先进方法的比较,使用了全部训练数据。我们取得了最佳的结果。0AFLW 300-W 方法 全部 正面 挑战 全部0SDM [51] 4.05 2.94 5.57 15.40 7.52 LBF [37] 4.25 2.74 4.95 11.986.32 CFSS [58] 3.92 2.68 4.73 9.98 5.76 Two-Stage [28] 2.17 - 4.367.56 4.99 DSRN [33] 1.86 - 4.12 9.68 5.21 SBR [16] 2.14 2.07 3.287.58 4.10 SAN [14] 1.91 1.85 3.34 6.60 3.98 LAB [49] 1.85 1.62 2.985.19 3.49 ODN [56] 1.63 1.38 3.56 6.67 4.17 LaplaceKL (70K) [39]1.97 - 3.19 6.87 3.9103FabRec 1.84 1.59 3.36 5.74 3.820表1:300-W数据集上的标准化平均误差(%)。最佳结果以粗体显示,次佳结果以下划线显示。0方法 AUC FR0M 3 CSR [11] 47.52 5.5 CFSS [57]49.87 5.05 DenseReg+MDM [1]52.19 3.67 JMFA [12] 54.85 1.00 LAB[49] 58.85 0.8303FabRec 54.61 0.170表2:300-W测试集上的曲线下面积(AUC)和失败率(FR in (%)@0.1)。0在几乎所有测试集上,我们的准确率达到了2,除了300-W的常见集。这表明我们的框架能够在训练阶段仅使用几个交错的传输层在生成器管道之上进行轻量级的监督训练,并达到当前性能水平。表2中的AUC和FR结果显示,我们的框架在常见的300-W数据集中实现了所有方法中最低的失败率(我们的FR=0.17只对应于完整集中有1个图像的错误足够大以计为失败)。同时,AUC处于较高范围,但不如[49]那样好,这意味着所有地标点的总体错误较低,但与表现最好的方法相比更加均匀分布。表3中的NME结果显示,在最新的WFLW数据集上,我们的方法在大多数子集上的表现与LAB方法[49]相当,尽管我们的表现始终低于当前的StyleAlign方法(SA,[35] -但请注意,这种方法也可以很容易地实现到我们的框架中,这将允许我们将99D特征向量分解为风格属性[4])NME(%)SDM [51]10.29 24.10 11.45 9.329.3813.03 11.28CFSS [58]9.0721.36 10.09 8.308.7411.76 9.96DVLN [50]6.0811.54 6.785.735.987.336.88LAB [49]5.2710.24 5.515.235.156.796.32SAN [14]5.2210.39 5.715.195.496.835.80Wing [49]5.118.755.364.935.416.375.81SA [35]4.398.244.684.244.375.604.863FabRec5.6210.23 6.095.555.686.926.38FR@0.1(%)SDM [51]29.40 84.36 33.44 26.22 27.67 41.85 35.32CFSS [58]20.56 66.26 23.25 17.34 21.84 32.88 23.67DVLN [50]10.84 46.93 11.15 7.3111.65 16.30 13.71LAB [49]7.5628.83 6.376.737.7713.72 10.74SAN [14]6.3227.91 7.014.876.3111.28 6.60Wing [49]6.0022.70 4.784.307.7712.50 7.76SA [35]4.0818.10 4.462.724.377.744.403FabRec8.2834.35 8.286.7310.19 15.08 9.44AUC@0.1SDM [51]0.300 0.023 0.229 0.324 0.312 0.206 0.239CFSS [58]0.366 0.063 0.316 0.385 0.369 0.269 0.304DVLN [50]0.455 0.147 0.389 0.474 0.449 0.379 0.397LAB [49]0.532 0.235 0.495 0.543 0.539 0.449 0.463SAN [15]0.536 0.236 0.462 0.555 0.522 0.456 0.493Wing [49]0.534 0.310 0.496 0.541 0.558 0.489 0.492SA [35]0.591 0.311 0.549 0.609 0.581 0.516 0.5513FabRec0.484 0.192 0.448 0.496 0.473 0.398 0.43461160方法 完整姿势 表情 光照 遮挡 模糊0表3:WFLW数据集的评估结果。0生成增强训练数据)。这主要是因为WFLW相比我们的训练集包含更多的重度遮挡和极端外观变化,导致更多的失败案例(参见图5的第五列)。04.5.有限的训练数据和少样本学习0表4、表5、表6展示了我们框架的核心结果:当仅在训练集的部分上进行训练时,3FabRec能够超过已发布的基准性能值。0300-W表4显示,性能与在完整数据集上训练的2年前方法相当(参见表1),尽管3FabRec仅使用了数据集的10%进行训练。此外,当训练集大小降至5%和1.5%时,性能几乎没有明显下降。即使只使用10张图像或1张图像进行训练,我们的方法也能够提供相当稳健的结果(参见图1,使用10张图像进行训练的地标重建结果)。0AFLW对于这个数据集(表5),我们的方法在训练集大小的20%处就开始领先,并且在1%以下几乎没有降级。即使只有很少的图像,3FabRec也可以进行地标预测。0WFLW对于这个更具挑战性的数据集(表6),我们的方法在使用少于10%进行训练时就轻松超过StyleAlign[21]方法,并且能够在训练集中仅有10张图像时保持地标预测能力。0图6:3FabRec的层分析。灰色曲线:网络参数的累积数量;蓝色曲线:每个层的空间维度。四个红色块表示ITL层,箭头显示从该层开始时地标热图的预测效果。0仅使用10张图像进行训练,我们的方法仍能够保持地标预测能力。04.6.消融研究04.6.1 ITL的影响0为了看到地标信息在交错传输层中学习的位置,图6展示了使用所有四个层与减少的上层子集时地标热图的重建情况。可以看到,最高层只有非常局部的信息(主要集中在眼睛和嘴巴上),而较低的层能够添加关于轮廓的信息 -尤其是在第2层以下。表7报告了在300-W数据集上的定位准确性(51个内部地标和轮廓的NME,以及FR)。正如可从可视化中预期的那样,仅对于上层,性能很差,但是在第2层以下(特别是包括轮廓时)很快恢复。原因是生成器的上层主要包含像素级别的局部去相关信息,而较低的层更接近于覆盖高度可变轮廓所需的更全局和上下文信息(参见图6中的蓝色曲线,注意所有ITL都有3×3卷积)。正如图6中的灰色曲线和表7所示,ITL只需很少的额外参数就能实现这一点。04.6.2 微调的效果0表8报告了在三个评估数据集的完整测试集上运行模型时进行微调和不进行微调的效果。对自编码器进行额外的重新训练可以更好地重构面部图像,并且平均获得10.9%的收益(分别为300-W的8.9%,AFLW的15.2%和WFLW的8.5%)。100%20%10%5%50 (1.5%)10 (0.3%)1 (0.003%)100%20%10%5%1%50 (0.0025%)10 (0.0005%)1 (<0.0001%)100%20%10%5%501011+2+3+42+3+43+4461170300-W数据集0方法 训练集大小0RCN + [21] 4.20 7.78 4.90 - 9.56 5.88 - 10.35 6.32 - 15.54 7.22 - - - - - - - - - RCN + [21] † 3.00 4.98 3.46 - 6.12 4.15 - 6.63 4.47 - 9.95 5.11 - - -- - - - - - SA [35] 3.21 6.49 3.86 3.85 - - 4.27 - - 6.32 - -0TS 3 [15] 2.91 5.9 3.49 4.31 7.97 5.03 4.67 9.26 5.64 - - - - - - - - - - - -03FabRec 3.36 5.74 3.82 3.76 6.53 4.31 3.88 6.88 4.47 4.22 6.95 4.75 4.55 7.39 5.10 4.96 8.29 5.61 8.45 15.84 9.920表4:在300-W上使用减少的训练集的NME(%)。† RCN +报告的错误经过了眼中心距离的归一化处理,为了更好的比较,值被已知的眼间距与瞳孔间距之比重新缩放,“-”表示未报告的值。0AFLW数据集0方法 训练集大小0RCN + [21] 1.61 - - - - - 2.17 - 2.88 - - - - - - - TS 3 [15] - - 1.99 1.86 2.14 1.94 2.19 2.03 - - - - - - - -03FabRec 1.87 1.59 1.96 1.74 2.03 1.74 2.13 1.86 2.38 2.03 2.74 2.23 3.05 2.56 4.93 4.040表5:在AFLW上使用减少的训练集的NME(%)。每个单元格中的第一列是完整测试集,第二列是正面测试集,“-”表示未报告的值。0WFLW数据集0方法 训练集大小0SA [21] 4.39 6.00 7.20 - - -03FabRec 5.62 6.51 6.73 7.68 8.39 9.66 15.790表6:在WFLW上使用减少的训练集的NME(%)。0训练的ITLs0输入尺寸 256x8x8 128x16x16 64x32x32 64x64x64 可训练参数 881k291k 143k 106k 300-W NME ¬ O 3.54 3.63 5.34 16.34 300-W NMEO 6.58 7.32 18.17 40.24 300-W FR@0.1 1.45 2.03 22.93 91.440表7:ITLs的参数和训练结果(¬ O =不使用轮廓,O=仅使用轮廓)0300-W AFLW WFLW0微调前的NME 4.16 2.12 6.11 微调后的NME3.82 1.84 5.620表8:在完整测试集上微调前后的NME(%)。04.7. 运行时性能0由于推理复杂度相当于通过ResNet-18进行两次前向传递,我们的方法能够在TitanXGPU上以接近300fps的帧率运行,比具有相似高准确性的最先进方法快一个数量级(LAB [49]=16fps,Wing[18]=30fps,Deep Regression [28]=83fps,Laplace[39]=20fps)。05. 结论0通过3FabRec,我们证明了在大量面部数据上进行无监督的生成式训练可以捕捉到关于面部形状的隐含信息,从而只需进行少量的有监督后续训练就能解决地标定位问题。这种方法使得我们的方法对于过拟合到特定训练数据集以及人工标注变异性具有更强的鲁棒性[14]。3FabRec的关键要素是使用对抗自编码器从低维潜在空间重构高质量的面部图像,以及在生成器阶段添加的低开销、交错的传输层,将面部重构转移到地标热图重构上。结果显示,自编码器能够轻松地从未标记的训练集泛化到来自未见过的数据集。这意味着我们只需使用训练集的几个百分比进行训练,仍然能够从只有少量标注图像中产生可靠的结果,远低于目前文献中报道的任何结果。同时,由于推理只需要通过ResNet18进行两次前向传递,我们的方法在运行时性能方面比其他高精度方法要高得多。0致谢这项工作得到了韩国政府(MSIT)(编号2019-0-00079,韩国大学人工智能系)资助的信息与通信技术规划与评估研究所(IITP)的支持。61180参考文献0[1] Riza Alp Guler,George Trigeorgis,EpameinondasAntonakos,Patrick Snape,Stefanos Zafeiriou和IasonasKokkinos. Densereg: 在野外进行全卷积密集形状回归.在《计算机视觉和模式识别国际会议》中,页码6799–6808,2017年。60[2] Peter N Belhumeur,David W Jacobs,David JKriegman和Neeraj Kumar. 使用示例的一致性定位面部的部分.《IEEE模式分析与机器智能交易》, 35(12):2930–2940,2013年。50[3] Matteo Bodini.使用深度学习从2D图像和视频中提取面部关键点的综述.《大数据与认知计算》, 3(1):14, 2019年。10[4] Bj¨orn Browatzki和Christian Wallraven.使用紧凑、解耦嵌入进行鲁棒的面部区分和生成.在《计算机视觉国际会议工作坊》中,页码0–0,2019年。3, 5, 60[5] Adrian Bulat和Georgios Tzimiropoulos.用于野外第一次3D面部对齐(3DFAW)挑战的两阶段卷积部分热图回归.在《计算机科学讲义(包括子系列计算机科学讲义和生物信息学讲义)》中,卷9914 LNCS,页码616–624,2016年。20[6] Qiong Cao,Li Shen,Weidi Xie,Omkar M Parkhi和AndrewZisserman. Vggface2: 一个用于跨姿态和年龄识别人脸的数据集.在《面部和手势识别(FG 2018)》中,页码67–74,2018年。3, 40[7] Gavin C Cawley和Nicola LC Talbot.关于模型选择中的过拟合和性能评估中的选择偏差.《机器学习研究杂志》, 11(Jul):2079–2107, 2010年。20[8] Timothy F Cootes,Gareth J Edwards和Christopher JTaylor. 主动外观模型.在《欧洲计算机视觉会议》中,页码484–498,1998年。20[9] Timothy F Cootes和Christopher J Taylor.主动形状模型智能蛇.在《BMVC92》中,页码266–275,1992年。20[10] Arnaud Dapogny,K´evin Bailly和Matthieu Cord.野外面部对齐的深度卷积级联. 页码6893–6901, 2019年。20[11] 邓建康,刘青山,杨静和陶大成. M3 csr:多视角、多尺度和多组件级联形状回归. 《图像与视觉计算》,47:19–26, 2016年。60[12] 邓建康,George Trigeorgis,周宇翔和Stefanos Zafeiriou.野外多视角面部对齐. 《IEEE图像处理交易》, 28(7):3636–3648,2019年。2, 60[13] Jacob Devlin,Ming-Wei Chang,Kenton Lee和KristinaToutanova. Bert: 用于语言理解的深度双向变压器的预训练.arXiv预印本arXiv:1810.04805, 2018年。20[14] 董璇怡,颜燕,欧阳万里和杨毅. 面部关键点检测的风格聚合网络.在《IEEE计算机学会会议》中,页码379-388,2018年。2, 4, 6, 7, 80《计算机视觉和模式识别国际会议》, 页码379–388,2018年。2, 4, 6, 7, 80[15] 董璇怡和杨毅.教师监督学生如何从部分标记的图像中学习面部关键点检测.在《计算机视觉国际会议》论文集中,页码783-792,2019年。2,7, 80[16] 董璇怡,Shoou-I Yu,Xinshuo Weng,Shih-EnWei,杨毅和Yaser Sheikh. 通过注册进行监督:提高面部关键点检测器精度的无监督方法.在《计算机视觉和模式识别国际会议》中,页码360–368,2018年。60[17] Zhen-Hua Feng, Guosheng Hu, Josef Kittler, WilliamChristmas, and Xiao-Jun Wu.通过混合合成和真实图像的动态加权级联协作回归实现鲁棒人脸关键点检测。《IEEE图像处理期刊》24(11):3425-3440,2015年。 20[18] Zhen-Hua Feng, Josef Kittler, Muhammad Awais, PatrikHuber, and Xiao-Jun Wu. 使用卷积神经网络的WingLoss实现鲁棒人脸关键点定位。2017年。 80[19] Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, BingXu, David Warde-Farley, Sherjil Ozair, Aaron Courville, andY
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM Java项目:StudentInfo 数据管理与可视化分析
- pyedgar:Python库简化EDGAR数据交互与文档下载
- Node.js环境下wfdb文件解码与实时数据处理
- phpcms v2.2企业级网站管理系统发布
- 美团饿了么优惠券推广工具-uniapp源码
- 基于红外传感器的会议室实时占用率测量系统
- DenseNet-201预训练模型:图像分类的深度学习工具箱
- Java实现和弦移调工具:Transposer-java
- phpMyFAQ 2.5.1 Beta多国语言版:技术项目源码共享平台
- Python自动化源码实现便捷自动下单功能
- Android天气预报应用:查看多城市详细天气信息
- PHPTML类:简化HTML页面创建的PHP开源工具
- Biovec在蛋白质分析中的应用:预测、结构和可视化
- EfficientNet-b0深度学习工具箱模型在MATLAB中的应用
- 2024年河北省技能大赛数字化设计开发样题解析
- 笔记本USB加湿器:便携式设计解决方案
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功