没有合适的资源?快使用搜索试试~ 我知道了~
18697基于视觉语言学的一般人脸表征学习郑英林1* 杨浩2*张婷2鲍健民2陈冬冬3黄杨宇2陆媛3陈冬2曾鸣1²方文21厦门大学2微软亚洲研究院3微软云+AI{zhengyinglin@stu.,zengming@} xmu.edu.cn,cddlyf@gmail.com,{haya,tinzhan,jianbao,yangyu.huang,luyuan,doch,fangwen}@ microsoft.comhttps://github.com/faceperceiver/farl摘要如何学习一个通用的面部表示,以提高所有的面部分析任务?本文朝着这一目标迈出了一步。本文研究了预训练模型在人脸分析任务中的迁移性能,并提出了一个用于一般人脸表征学习的框架FaRL一方面,该框架涉及从图像-文本对中学习高级语义的对比损失。另一方面,我们建议探索低层次的信息,同时通过添加一个掩蔽的图像建模,以进一步提高我们在包含大量人脸图像-文本对的数据集LAION-FACE上进行预训练,并评估多个下游任务的表示能力。我们表明,与以前的预训练模型相比,我们还验证了其优越性,在低数据制度。更重要的是,我们的模型超越了国家的最先进的人脸分析任务,包括人脸解析和人脸对齐的方法。1. 介绍人脸分析任务对社会交往至关重要,在过去的几十年里受到了广泛的关注。许多现有的最先进的结果[7,50,92]来自具有监督学习的深度神经网络然而,这样的监督模型,为了学习适当的特征表示为每个给定的任务,分别研究与大规模的手动注释的数据,这是昂贵的,难以获得,特别是对于一些人脸任务,如人脸解析和人脸对齐。最近,计算机视觉中的视觉表征学习-*同等贡献。²通讯作者由于自然语言处理中的突破性模型(如BERT [24]和GPT系列[5,74,75])的显着成功,以及随后广泛的多种多样的技术[25,45,52,71,76]。此后,在视觉方面,沿着这条道路提出了许多尝试[13,33,36],使用与对比损失相关的方法显示出有希望的结果[2,10,29,35,69]。与此同时,在涉及多模态的视觉语言任务领域,有研究[44,53,54,62,73,87]探索直接从高达数亿的大型免费图像-文本对中学习他们的研究结果表明,自然语言监督有利于视觉表征学习,在一般图像上的大多数任务中表现出色。这种预训练有几个优点:1)显示出有希望的少激发传输性能,缓解了难以获取的标记数据问题; 2)通过一次提取通用特征表示,然后应用于不同的下游任务,使得能够方便地部署。然而,当涉及到计算机视觉中最重要的领域之一的面部领域时,预训练的有效性相对未被探索。本文研究了预训练模型在人脸分析任务中的迁移行为,并提出了一个以视觉语言学方式学习一般人脸表征的框架FaRL。我们不是通过手动设计的面部相关查询从Web上抓取图像和文本,而是通过从大型公开可用的图像-文本对数据集[82]中过滤来创建数据集,从而产生包含2000万张面部图像的子数据集,称为LAION-FACE。我们采用了广泛使用的对比丢失来将匹配的图文对的嵌入拉到一起,而将不匹配的图文对的嵌入推开,从而提供了更高层次的语义。我们建议同时探索补充的低级信息,通过添加掩蔽的18698图像建模灵感来自BEiT [3]。我们在LAION-FACE上进行预训练,并使用冻结的骨干评估表征能力,因为我们的最终目标是提供一个可以快速适应下游任务的通用面部表征。我们测量了几个重要的下游人脸任务的性能我们表明,与其他预训练模型相比,可以实现更好的传输性能。我们还证明了它在低数据制度的优越性。此外,我们的模型在人脸任务(包括人脸解析和人脸对齐)上的性能优于最先进的方法。概括而言,我们的主要贡献如下:1. 我们提出了一个广泛的研究,可转移的视觉模型学习的视觉语言的方式在多功能的人脸分析任务,这是相对较少的文献中探索。2. 我们引入了一个新的框架,探索低层次和高层次的信息,同时更好的表示。我们实现了比以前的预训练方法更好的传输性能,更重要的是,在人脸解析和人脸对齐方面,我们的模型已经超越了最先进的方法。2. 相关作品2.1. 视觉表示学习自从ImageNet识别的开创性工作[49]以及随后的许多改进[38,40,85,102]以来,ImageNet分类[19]一直是视觉表示学习的事实上的预训练任务。包括图像分类、对象检测、语义分割和人体姿态估计在内的各种视觉任务的骨干监督预训练然后成为视觉表示学习中的主要配方,随着网络的大小和复杂性以及训练数据集的大小的扩大趋势,例如,JFT-300M[88]和Instagram-1B [64]。随着在大型语料库上使用大型基于transformer的网络进行预训练[5,24,25,52,74,75]推动了自然语言处理的发展,视觉表示学习出现了许多鼓舞人心的进步视觉Transformer [28,95]通过将图像分割成补丁,将标准的Transformer直接应用于图像分类,类似于NLP中的标记iGPT [12]通过预测颜色索引k-means聚类另一方面,BEiT [3]基于离散变分自动编码器获得的视觉离散令牌设计了BERT风格的损失随后,自然语言处理的显著成功也使视觉语言预训练蓬勃发展,其中可以在互联网上获得大量免费的图像文本对 不像以前的工作那样依赖于预训练的对象检测器来提取图像区域特征[17,43,56,90,104,105],CLIP [73]和ALIGN [44]采用对比损失,这是自监督表示学习中的一种有效损失,将匹配的图像-文本对的嵌入拉在一起,同时将非匹配对的嵌入分开,其次是ALBEF [54],进一步改善了视觉语言预训练。另一系列作品[13±16,33,36]专注于在没有任何监督的情况下学习视觉表征。在最近最成功的努力中,关键核心也涉及对比度损失,测量表示空间中增强图像对的相似性。2.2. 人脸表征学习在人脸分析领域,大多数任务[7,42,50,57,92,93]都是通过人工标记数据的监督训练来解决的。这种监督方法需要大量的训练样本,并且由于大量的模型参数而可能遭受过拟合。虽然预训练在少量学习方面表现出令人印象深刻的性能,并且还有助于减少过拟合[39],但人脸域预训练的有效性很少被探索。预训练的另一个主要优点是,将存在可以很好地转移到各种下游任务的通用面部表示,这对于资源有限的移动设备是特别期望的。有几项工作解决了特定面部任务的少数镜头学习[4,84]和迁移学习[1,110],而不是检查不同面部任务的预训练。与我们的工作密切相关的是[6],它探索了面部表征学习的无监督预训练。相比之下,我们在人脸域上清晰地介绍了一种未探索的机制,即弱监督预训练,因为[73]中已经表明,利用大量的网络图像-文本对,为图像提供弱监督,有助于在少数场景中学习视觉表示3. 法尔3.1. 视觉语言人脸数据我们的目标是以视觉语言的方式学习可转移的面部表征。为此,我们首先收集一个足够大的数据集,该数据集包含图像-文本对,其中图像包括人脸区域,文本标签是自然语言。现有的人脸数据集[34,41,51,58,60,79]主要是为特殊的人设计的。18699L+L李ℎ ��� 1…NCLS1…NCLS1…图文对比学习���ሚ掩模图像建模营销活动病毒图表:詹妮弗·安妮斯顿的阿联酋航空广告排名第一···联系 我们EOSCLSCLS1NEOS1MI I I TT小男孩在和服冥想合气道比赛之前在体育馆微笑的女孩与党假发-库存图片Emma Bunton-You'reAll I Need to GetByJade Jones)美丽的阳光照耀着她的新娘。凯特·阿普顿正式直翘发型- 暗金色(金色)- 侧视图1真正的非洲之美美丽的非洲妇女戴头巾和构成对黑色背景图1.从LAION-FACE中随机抽取的图像-文本对网络文本并不总是准确的,但往往更容易获得。1008073.8160402015.5412…MEOSCLS12…4.962.421.212.0601 2 3 45每个图像图2. LAION-FACE中每张图像中的#面分布cific face任务。例如,相应数据集的关联标签分别是身份、语义掩码、地标位置、用于人脸识别的属性标签、人脸解析、人脸对齐和属性预测。图3.说明我们的预培训框架。我们将掩蔽图像建模与图像-文本对比学习相结合。图中的两个EI代表相同的图像编码器。在预训练之后,我们使用EI来提升下游面任务。给出支持从自然语言监督中学习,这得益于大量可用数据LI=−1ΣBexp(eIeT/σ)洛格雷岛,在互联网上,我们构建了一个新的数据集,BBexp(eIeT/σ)i=1j =1i j百万个图像-文本对。具体来说,我们利用公开可用的图像-文本对数据集LAION [82],LT=−1ΣBexp(eTeI/σ)洛格里岛、(1)包含4亿个样本 为了过滤掉那些非面孔BBexp(eTeI/σ)图像,我们采用人脸检测器,RetinaFace [23],以识别-i=1j=1ij确认图像中人脸的存在。从人脸检测分数大于0.9的人中随机抽取2000万对。所得到的数据集表示为LAION-FACE。图1显示了数据集中的一些图像-文本对样本。每个图像中的面数分布如图2所示。3.2. 图像文本对比学习在[44,73]之后,我们采用了图像-文本对比损失,这已被证明比生成模型[12]更具计算效率,并且比预测模型[94]学习更好的表示。对比学习是根据相似性的概念通过比较来学习的。确切地说,考虑给定的图像-文本对{T,I},所提取的特征表示是{f,f,· · ·,f}=EI(I),{f,f,· · ·,f}=ET(T),其中EI表示基于图像变换器的编码器,ET表示基于文本变换器的编码器。cls是class token的缩写 , eos 是 end of sequence token的 缩写 , 1, ,N(M )表示视觉(语言)token的索引。来自cls( eos ) 令 牌 的 特 征 然 后 被 馈 送 到 投 影 头 ( 小MLP)中以获得其中B是小批量中的图像-文本对的数量,σ是标度logits的温度,它与所有其他参数一起学习。3.3. 掩模图像建模直观地说,图像-文本对比学习有助于从文本中学习关于具体或可可视化概念的语义特征表征。为了进一步增强人脸表示,我们添加了一个掩码图像建模任务,该任务对输入中的一些图像块进行掩码,并预测与掩码块相对应的视觉令牌。该目标类似于旨在填充图像的孔的图像修补,其是代表性的低级视觉任务。我们假设,这种掩蔽的图像建模将有助于功能,以捕捉低层次的信息,提供补充信息,以高层次的语义。首先,让我成为被遮蔽的图像,补丁被随机屏蔽。也就是说,如果给定的输入图像I被分割成N个图像块I1,...,IN,则掩蔽图像I2 也被表示为N个图像块{I1,···,IN},.度量嵌入,即,eI=PI(fI),eT=PT(fT).Ik=Ik,k∈/M,(2)m,k∈M图像%在图像-文本对的情况下,对比损失是12…MEOSCLS12…18700M{···}K{∈M}K|V|V{···|V|}φ|φ×××cls,k氮钾CLS1N其中,1,N表示图像块被掩蔽的位置,并且m是被掩蔽的k,k是与未被掩蔽的块具有相同维度的可学习向量。当我们从图像中得到特征后-为0。07. 将输入面部图像与作为输入的平均面部对准对于包含多个人脸的图像,我们将随机选择一个。在预训练过程中,每个输入图像将被送入图像编码器两次:一次用于图像-文本编码器,{fI,fI,···,fI}=EI(I),我们将它们送入对比学习,一个随机掩蔽(最多75一个小的Transformer,它输出最终的隐藏矢量,补丁)图像补丁,用于遮罩图像建模。{hI ,hI,···,hI}= EMIM(fI,fI,···,fI)。目标-cls1NCLS1N3.5.下游面任务目的是从对应的隐藏矢量h∈I,k预测掩蔽区域 。这里利用离散变分自动编码器[70]首先编码,而不是直接预测每个图像修补为可能值之一,作为自动编码器的词汇表。此后,将分类层附着在隐藏向量h上,以预测对应的掩码块的索引在1,、.损失函数被给出为,Σ。ΣK我们将我们的模型适应于跨越各种类别(分割,回归和分类)的多个下游人脸任务,以评估其传输性能:面部解析预测面部组件的像素区域。两个流行的数据集用于此任务:LaPa [58]和CelebAMask-HQ [51]。LaPa包含超过22K的图像,18,176用于训练,2K用于测试,每个图像都用11类像素级标签图进行注释。 CelebAMask-HQ由大约30 K的面部图像组成,24,183用于训练-LMIM=−k∈MlogPqφ(I)|我~、(3)和2,824个用于测试,每个都用19个类别的标签地图进行了注释,不仅包括面部组件,其中p(qk(I)Iφ)表示对属于视觉令牌qk(I)的第k个隐藏向量进行分类的分类得分,其中qφ是分类分布。身体部位和配件,如眼镜,耳环和项链。在[58,92,93]之后,面部组件的F1分数用于测量性能。整个框架如图3所示。在实验中,我们直接使用[77]中描述的公开可用的离散变分自编码器。3.4. 预培训详情模型架构。我们的模型包括一个图像编码器EI,一个文本编码器ET和一个掩蔽图像建模模块EMIM。我们实现的图像编码器EI遵循之前的作品[3,28,73]进行公平的比较。具体来说,它是一个12层768宽的可视化Transformer ViT-B/16 [28],具有87 M参数和224 224输入。首先将输入图像分割成14 × 14图像块,然后进行线性投影以获得14 × 14块嵌入。一个可学习的cls标记被预先添加到这196个嵌入中,然后添加197个位置嵌入。我们按照[73]设计文本编码器ET12层,512宽,8头Transformer,63 M参数。我们将输入文本标记的数量固定为77,如果输入长度不匹配,则执行截断或填充。最后,我们将图像cls和文本eos的特征映射到512维,计算对比损失。屏蔽图像建模模块EMIM被实现为一个单层的Transformer的简单性和性能的考虑。预训练设置。我们用随机初始化的权重从头开始训练模型。我们为16人面部对齐旨在回归2D面部标志颜色-在面部图像上标记。我们使用三个流行的数据集:AFLW-19 [109],20 K张图像用于训练,4,386张用于测试,每张图像标注有19个地标; 300 W [79 ±81],3,837张图像用于训练,600张图像用于测试,每张图像标注有68个界标; WFLW [99],7,500张训练数据和2,500张测试数据,每张图像标注有98个界标。按照惯例,我们使用归一化平均误差(NME),失败率(FR)和AUC作为度量。人脸属性识别预测多个属性(例如,性别、年龄和种族),这可以被视为多标签分类。采用两个数据集:[60]第60章:你是谁?CelebA包含超过202K张面部图像,而LFWA包含13,143张图像,每张图像都有40个属性注释。接下来[60,84],在CelebA上,我们使用162,770用于训练,19,962用于测试;在LFWA上,我们使用6,263用于训练,其余用于测试。所有属性的平均准确度用作度量。4. 实验4.1. 设置不同的机头设计用于不同的下游任务。所有的头不仅利用了视觉TransformerEI的最后一层的特征,而且还利用了一些在32个Nvidia V100 GPU上批量大小为5120的epoch的中间层。 令{f,我1,k我2,k,···,fI}采用AdamW [61]优化器,权重衰减设置为0.05。学习率初始化为1 e-6,在一个epoch中预热到1 e-3,然后在15个epoch中余弦衰减到9 e-4。初始化softmax温度σ是来自第k层的特征表示,1≤k≤ 12,因为EI总共由12层组成。我们设计了一个简单的人脸属性识别头。令K为下游的选定层的集合我们来-,f,f18701cls,k×|K|×K{}∈ K×∈√√××培训前设置下游业绩数据集规模监督源方法LapaF1-平均值↑AFLW-19NME诊断↓CelebAmAcc ↑ImageNet-1K1.3M图像[16]第十六话91.861.00790.23ImageNet-22K14M图像BEiT [3]91.291.07689.71ImageNet-22K14M图像+人类标签[第28话]91.611.00490.77ImageNet-1K1.3M图像+人类标签DeiT [95]92.001.00389.79机智400米图片+网页文本剪辑[73]92.210.99590.86MS1MV35.1M人脸图像+人类标签面Transformer [107]91.091.03190.77LAION-FACE20M人脸图片+网页文本FaRL(我们的)92.320.99191.39表1.比较预训练的视觉转换器在多个下游人脸任务上的通用能力,包括人脸解析(LaPa)、人脸对齐(AFLW-19)和人脸属性识别(CelebA)。所有预先训练的骨干都被冻结了,只有头部根据下游数据进行了微调。预训练模型百分之十百分百预训练模型百分之一百分之十百分百[16]第十六话86.47 90.1891.86[16]第十六话1.411.191.007BEiT [3]85.01 89.2191.29BEiT [3]1.941.371.076[第28话]86.64 89.9791.61[第28话]1.371.161.004DeiT [95]87.24 90.4592.00DeiT [95]1.411.171.003剪辑[73]88.1390.9192.21剪辑[73]1.301.110.995[第107话]86.42 89.5491.09[第107话]1.411.211.031法尔88.21 90.9192.32法尔1.351.150.991预训练模型百分之一百分之十百分百[16]第十六话87.8589.7690.23BEiT [3]85.6488.7489.71[第28话]89.2090.2190.77DeiT [95]86.7389.0089.79剪辑[73]89.0990.4790.86[第107话]87.4290.3290.77法尔89.6690.9991.39(a) LaPa(F1-平均值↑)。(b) AFLW-19(非ME诊断↓)(c) CelebA(mAcc↑)。表2.比较预训练的视觉变换器与少数镜头设置的通用性我们随机抽取下游训练集的子集所有预训练的主干都被冻结,而不对下游数据进行微调。最好的成绩用粗体表示,第二名用下划线表示。从每一层k输入三个特征向量:cls标记特征f1、所有非cls标记特征的平均值和所有非cls标记特征的全局最大池化。然后,这3个头部使用二进制交叉熵损失和AdamW [61]优化器训练。我们采用0的学习率。3,并在100个历元内余弦衰减到零。人脸解析需要每层上N个非cls标记注意,这些非cls标记对应于图像块,因此它们可以被重塑为大小为N N的2D特征图(在我们的情况下为14 14)。继[3,59]之后,UperNet [101]用于整合多层特征图以生成最终特征图。附加11 conv以计算解析逻辑。头部使用交叉熵损失进行训练,使用AdamW,学习率为1 e-3,权重衰减为1 e-5。 Tanh-warping [57]用于平衡内部面部组件和头发区域之间的分割性能。面部对准头预测2D标志点的热图,如[42,50,97]所实践的。我们将地面实况标志点渲染为大小为128128,具有一个像素σ和值[0, 1]。我们没有使用[30,42,97]设计的复杂损失函数,而是简单地用软标签交叉熵损失来训练头部UperNet [101]也用于输出热图logits 我们使用AdamW训练头部,学习率0的情况。01和重量衰减1 e-5。对于所有下游任务,我们遵循[3]并设置选定的层=4,6,8,12。上述设置也适用于其他预训练模型,以进行公平比较。详情请参阅附录。4.2. 与预训练的变压器我们好奇一个问题:给定一张人脸图像作为输入,是否有可能从我们预先训练的模型中输出的特征可以快速地适应于所有的下游任务?为了回答这个问题,我们冻结我们的预训练模型,使用相同的冻结编码器EI从输入面部图像中提取特征,并直接利用输出特征来促进下游训练。我们将FaRL与其他公开的预先训练的变形金刚进行比较。为了公平起见,所有型号共享相同的骨干结构(ViT-B/16)1。我们确保它们只在骨干权重上有所不同,所有其他设置(头部结构,训练超参数等)。一模一样。我们比较了六种预训练:1)MoCo v3 [16],一个使用图像对比学习在ImageNet-1 K上预训练的模型;2)BEiT [16],仅在ImageNet-22 K上进行预训练,仅使用掩码图像建模; 3)ViT [28],使用大规模人类和1面Transformer除外,它具有较小的面片大小8,但具有较大的Transformer层数20。我们为Face Transformer设置K={6,9,13,20}18702××ftft培训前设置LaPaAFLW-19CelebAF1-平均值↑NME诊断↓mAcc↑国贸中心91.751.00991.31ITC+MIM191.821.00491.22ITC+MIM1+ALIGN(FaRL)92.320.99191.39ITC+MIM6+校准92.191.00291.38ITC+MIM691.990.99291.20ITC+ALIGN91.881.01291.40ITC(LAION-RANDOM)91.681.01090.76表3. 阐明FaRL预培训w.r.t下游任务性能。ITC+MIM1+ALIGN是FaRL的默认设置。来自ImageNet-22 K的标记标签,以完全监督的方式;4)DeiT [95],ViT的改进版本,它在ImageNet-1 K上进行了预训练,并进行了蒸馏,也是以完全监督的方式; 5)CLIP [73],它是在4亿视觉语言数据上预训练的,只有图像-文本对比损失; 6)Face Transformer[107],一个在大型人脸识别数据集MS 1 MV 3 [21,22,34]上预训练的Transformer,带有人类注释的人脸身份标签。我们在表1中展示了他们在三个下游任务上的结果:LaPa用于面部解析,AFLW-19用于面部对齐,CelebA用于面部属性识别。FaRL在所有任务上都表现出比其他预训练一致的优势。弱监督FaRL不仅优于自监督预训练(MoCo v3,BEiT),而且优于完全 监 督 预 训 练 ( DeiT , ViT ) 。 FaRL 还 超 过 了CLIP,CLIP是一种弱监督模型,用更大的数据规模(4亿图像-文本对)进行了预训练。两者都是在人脸数据上进行预训练的,FaRL也大大优于完全监督的Face Transformer。我们还在下游训练数据有限的情况下进行了几次测 试 表 2 中 报 告 的 结 果 显 示 , FaRL 在 人 脸 解 析(LaPa)和人脸属性识别(CelebA)上都实现了最佳的少数镜头性能。然而,在1%和10%的下游训练数据下,FaRL在面部对齐方面优于CLIP(AFLW-19)。我们推测CLIP良好的泛化能力可能来自他们私有的4亿预训练数据:由于数据规模非常大(是LAION-FACE的20倍),他们的数据集应该包含不少于LAION-FACE的大量人脸。4.3. 培训前培训内容我们通过表1中报告的消融实验来评估不同训练成分的有效性其中ITC代表图像文本对比学习,MIM代表掩模图像建模。MIM1意味着附加一个额外的1层Transformer到EI用于遮罩图像建模,而MIM6意味着附加6层。ALIGN意味着我们将遵循第3.4节,从原始图像中随机选择一个面,在输入视觉编码器之前将其对齐如果没有ALIGN,我们将遵循CLIP [73]并进行随机裁剪以获得224× 224输入。表4.在LaPa测试集上与现有的人脸分析方法进行比较。结果以F1评分(%)报告。与 仅 ITC 相 比 , 添 加 MIM1 提 高 了 人 脸 解 析(LaPa)和人脸对齐(AFLW- 19)的性能,但对人脸属性识别(CelebA)没有这支持了我们的假设,即MIM有助于捕获更多的低级信息,因此它对依赖于相对低级特征的下游任务更有利尽管ALIGN 是 CelebA 最 关 键 的 组 件 , 但 将 MIM1 和ALIGN 添 加 在 一 起 在 大 多 数 下 游 基 准 测 试(LaPa,AFLW-10)中获得了更好的分数 此外,较重的MIM6头部不如MIM1,这表明更深的头部可能 会 削 弱MIM 损 失 的 效 果 。 因 此 , 我 们 选 择ITC+MIM1 +ALIGN作为FaRL的默认设置我们还在表3中附加了在称为LAION-RANDOM的数 据 集 上 预 训 练 的 仅 ITC 模 型 的 结 果 。 LAION-RANDOM与LAION-FACE大小相同,但其数据是从LAION中随机采样的,因此包含大量的非人脸图像。在LAION-FACE上预训练的模型始终优于在LAION-RANDOM上预训练的模型,表明人脸数据在预训练中的重要性。人脸图像的比例对于人脸属性识 别 ( CelebA ) 更 为 重 要 , 但 对 于 人 脸 解 析(LaPa)和人脸对齐(AFLW-19)相对不那么重要这可能是因为人脸属性识别需要更高层次的语义推理。为了快速获得与人脸属性和身份相关的高级知识,模型需要在预训练中看到更多的人脸图像。4.4. 与现有技术面方法的比较在本节中,我们将FaRL与多个下游人脸任务中的最先进方法进行比较。还比较了FaRL的不同变体。我们使用名称FaRL来表示我们的vanilla FaRL模型,其预训练的骨干总是冻结的。FaRLft表示从用于特定下游任务的vanilla FaRL完全微调的模型。虽然FaRL和FaRLft,接受224 224输入,我们也微调模型,接受两倍更大的输入分辨率,即FaRL448。FaRL448与FaRLft共享相同的初始参数,但是其位置嵌入通过来自FaRLft的位置嵌入的双三次上采样来初始化。为了研究这些收益是否是由我们的前-方法皮肤头发L-ER-EU-LI-ML-L鼻子L-BR-B 是说BASS[58]97.296.3 88.1 88.0 84.4 87.6 85.7 95.5 87.7 87.689.8EHANet[63]95.894.3 87.0 89.1 85.3 85.6 88.8 94.3 85.9 86.189.2Wei等[98个国家]96.195.1 88.9 87.5 83.1 89.2 83.8 96.1 86.0 87.889.4EAGR[93]97.396.2 89.5 90.0 88.1 90.0 89.0 97.1 86.5 87.091.1AGRNet[92]97.796.5 91.6 91.1 88.590.790.1 97.3 89.9 90.092.3划痕97.18 93.06 91.61 91.50 87.22 89.44 89.13 97.26 90.12 89.6991.62法尔97.38 94.53 91.88 91.69 88.20 90.59 89.85 97.42 90.84 90.8592.32FaRL英尺97.52 95.1192.3392.0988.6990.70 90.0597.5591.5791.3492.70FaRL448ft98.00 96.52 93.97 93.91 90.15 91.7493.8818703ftftft方法NME诊断↓Full FrontalNME盒充分↓AUC7框充分↑CFSS [108]3.92 2.68--CCL [109]2.72 2.17--DAC-CSR [31]2.27 1.81--LLL [78]1.97--SAN [26]一点九一一点八五4.0454.0DSRN [66]1.86--[99]第99话:我的世界1.85 1.62--[99]第99话:我的世界1.25 1.14--[第89话]1.57 1.46--机场班车[30]- -3.5653.5KDN [11]- -2.8060.3LUVLi [50]一点三九一点一九2.2868.0Bulat等人[6]美国1.54---划痕1.0470.8841.48179.3法尔0.9910.8511.40280.4FaRL英尺0.9690.8361.37180.8FaRL448ft0.9430.8211.33481.3表5.在CelebAMask-HQ测试集上与现有的人脸分析方法进行比较。结果以F1评分(%)报告。训练方法或者只是来自于基于Transformer的网络结构,我们还附加了一个名为Scratch的模型。它代表一种与FaRL共享相同网络结构的模型,但专门从头开始对相应的下游任务进行全面训练。面部分析如表4和表5所示,我们的方法在LaPa和CelebAMask-HQ上实现了显著的性能。香草FaRL在两个基准上都超过了现有技术。精致的FaRLft带来更高的F1成绩。 最终性能由FaRL448实现,其性能优于最先进的方法[92] 1.58和4.06在LaPa和CelebAMAsk-HQ,重新启动。我们注意到,输入分辨率在人脸解析性能中起着关键作用,它对小组件(例如,CelebAMask- HQ中的项链)。尽管如此,FaRL448所需的分辨率低于最先进的方法[92]所需的分辨率,即473。同样值得注意的是,在两个基准测试中,骨干冻结的FaRL实现了比Scratch模型更好的性能,表明从FaRL学习的表示不仅适用广泛,而且足够有效。面部对齐。我们在三个基准上与以前的人脸对齐方法进行比较:AFLW-19、300 W和WFLW,并分别在表6、表8和表7中报告结果。如表6所示,基于转换器的方法在AFLW-19上实现了优于所有现有技术的性能。在这些基于变形金刚的方法中,香草FaRL始终优于Scratch,表6.在两个AFLW-19测试集上与最先进的面部对齐方法进行比较:完整集合和正面子集。方法眼内NME↓FR10 ↓AUC10充分↑充分 姿势表达伊拉姆化妆发生率模糊电子自旋共振[8]11.13 25.88 11.47 10.4911.0513.75 12.2035.2427.74[103]第10.29 24.10 11.45 9.329.3813.03 11.2829.4030.02CFSS [108]9.07 21.36 10.09 8.308.7411.76 9.9620.5636.59DVDLN [100] 6.08 11.54 6.785.735.987.33六点八八10.8445.51实验室[99]5.27 10.24 5.515.235.156.796.127.5653.23机场班车[30] 5.118.755.364.935.416.375.816.0055.04DeCaFA [18]4.628.114.654.414.635.74五点三八4.8456.30AWing [97]4.367.384.584.324.275.19四点九六2.8457.19LUVLi [50]4.37- ---- -3.1257.70ADNet [42]4.14 6.96四点三八4.094.055.06四点七九2.7260.22Bulat等人[6]美国4.57- ---- ---划痕4.80 8.78五点零九分4.744.996.01五点三十五5.7254.54法尔4.38 7.60四点六六4.194.305.44四点九八3.3257.54FaRL英尺4.036.814.323.923.874.704.541.7660.23FaRL448ft3.966.914.213.973.804.714.571.7661.16表7.在WFLW测试集上与现有的人脸对齐方法进行比较。方法眼内NME共同挑战↓充分SAN [26]3.346.603.98AVS [72]3.216.493.86丹麦[48]3.195.243.59[99]第99话:我的世界2.985.193.49[96]第96话我的世界2.765.223.24教师[27]2.915.913.49DU-Net [91]2.975.533.47[18]第十八话2.935.263.39[第89话]2.875.153.32HG-HSLE [111]2.855.033.28AWing [97]2.724.523.07LUVLi [50]2.765.163.23ADNet [42]2.534.582.93Bulat等人[6]美国--3.85划痕2.905.193.35法尔2.694.853.12FaRL英尺2.704.643.08FaRL448ft2.564.452.93表8.在三个300W测试集上与最先进的人脸对齐方法进行比较:Common子集,Challenge子集和Full集。我们的FaRL448实现新的最先进的性能人脸属性识别。与以往相比,在AFLW-19和WFLW上,而在300 W上与[42]相当。但与[42]不同,我们的方法不假设界标点之间的任何共边界关系。此外,我们的方法优于以前的工作[6],该工作也利用了统一的人脸表示预训练。在两个基准测试中,在全拍摄和少拍摄设置下使用方法:CelebA和LFWA。如表9所示,我们的方法优于其他报告在所有少数拍摄设置,而排名第二的全拍摄。一个可能的原因是,最先进的方法[7]明确利方法脸鼻子眼镜L-Eye R-EyeL-B R-B L-耳R-耳I-MU-L L-L Hair Hat耳环项链颈布是说Lee等95.585.6 92.9 84.385.2 81.4 81.2八十三点一80.3[第一百零六章]63.488.9 90.1 86.691.363.2 26.1六十八点三EHANet96.093.7 90.6 86.286.5 83.2 83.1八十四点一84.0[63个]93.888.6 90.3 93.985.9 67.8 30.1八十三点五Wei等96.491.9 89.5 87.185.0 80.8 82.5 84.1八十三点三82.1[98个国家]90.687.9 91.0 91.183.9 65.4 17.880.6EAGR96.294.092.3 88.688.785.7 85.2八十五点七85.1[九三]95.088.991.2 94.987.6 68.3 27.6 89.485.3AGRNet96.593.9 91.8 88.789.185.585.6八十八点七85.5[92个]92.089.191.1 95.287.2 69.6 32.8八十四点九划痕96.17 93.7792.2889.0488.9785.32 85.3686.88 87.3291.66 88.1090.0494.9482.7363.05 33.5290.76 85.9284.74法尔96.29 93.7293.9188.7588.6485.24 85.4287.06 87.3690.96 87.5389.8195.6090.0768.19 50.9491.54 89.8886.72FaRL英尺96.32 93.6294.0888.8188.6785.25 85.4687.53 87.8791.10 87.7789.8195.7690.8069.87 60.9191.7990.4087.5518704用了来自下游数据的额外信息,包括:18705模型白色非白人平均差异[46]第四十六话60.0560.6360.52+0.58年龄剪辑[73]62.2561.9562.00-0.30法尔61.4961.8461.78+0.35[46]第四十六话94.1594.4194.36+0.26性别剪辑[73]94.8795.7895.61+0.91法尔95.1695.7795.65+0.61表10. FairFace上的年龄和性别分类准确性。结果报告w.r.t两个种族组。表9.在CelebA和LFWA两种协议下,与其他人脸属性识别方法
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功