没有合适的资源?快使用搜索试试~ 我知道了~
4052基于稀疏局部块Transformer的鲁棒人脸对齐和特征点内在关系学习夏佳豪1,曲伟伟2,黄文健2,张建国*,2,王喜3,徐敏*,11悉尼科技大学工程与信息技术学院2部的Comp. Sci.和Eng.,南方科技大学,3CalmCar夏佳豪@ student.uts.edu.au,11930667@mail.sustech.edu.cn,{huangwj,zhangjg} @sustech.edu.cn,王曦@ calmcar.com,徐敏@ uts.edu.au摘要近年来,热图回归方法在人脸配准领域占据主导地位,但它们忽略了不同标志点之间的内在在本文中,我们提出了一个稀疏局部补丁Transformer(SLPT)的内在关系学习。SLPT从一个局部块中生成每个单个地标的表示,并根据注意机制通过自适应的内在关系聚合它们。每个地标的子像素坐标是基于聚集的特征独立预测的。此外,一个由粗到细的框架被进一步引入到SLPT中,这使得初始特征点能够使用来自动态调整大小的局部块的细粒度特征逐渐收敛到目标面部特征点。在三个流行的基准测试,包括WFLW,300W和COFW,进行了广泛的实验,表明所提出的方法工作在最先进的水平,通过学习面部标志之间的内在关系,具有更低的计算复杂度。代码可在项目网站1上获得。1. 介绍人脸对齐的目的是从图像中定位一组预定义的人脸标志点。近年来,基于深度学习技术的鲁棒人脸对齐引起了越来越多的关注,它是许多人脸相关应用的基础算法,如人脸重现[40],人脸交换[21]和驾驶员疲劳检测[1]。尽管最近取得了一些进展,但它仍然是一个挑战性的问题,特别是对于具有严重遮挡、侧面视图和照明变化的图像。由于人脸具有规则的结构,人脸标志点之间的内在关系在人脸对齐中起着重要的作用。虽然热图回归方法*通讯作者1https://github.com/Jiahao-UTS/SLPT-master输入图像Stage1NATURAL地标Stage2CNN阶段3地标酒店NME:4.60% NME:4.76%NME:54.55% NME:7.12%结果稀疏局部面片Transformer图1.所提出的粗到细的框架利用稀疏的局部补丁鲁棒的人脸对齐。 稀疏的局部块根据面部特征点在识别阶段被裁剪,并被送入同一SLPT以预测面部特征点。此外,斑块大小随着阶段的增加而变窄近年来,尽管CNN取得了令人印象深刻的性能[7,18,33-特别地,它们将输出热图的具有最高强度的像素坐标视为最佳地标,这不可避免地引入量化误差,特别是对于常见的下采样热图。坐标回归方法[9,10,12,24,36,37,42]具有学习关系的固有潜力,因为它通过全连接层(FC)直接从全局特征回归坐标然而,相干关系应该与局部外观一起学习,而坐标回归方法通过投影4053全局特征到FC层。为了解决上述问题,我们提出了一个稀疏局部补丁Transformer(SLPT)。SLPT不是像DETR [5]那样从完整的特征图中预测坐标,而是然后,一系列可学习的查询,这被称为地标查询,被用来聚集的表示。基于Transformer的交叉注意机制,SPLT在每一层学习自适应最后,子像素坐标的每个地标在其相应的补丁是预测独立的MLP。由于使用了稀疏的局部补丁,与其他视觉Transformer [5,11]相比,为了进一步提高性能,引入了一个由粗到细的框架来与SLPT结合,如图1所示。类似于级联形状回归方法[13,17,44],所提出的框架通过几个阶段将一组初始地标优化为目标地标。每个阶段中的局部块基于初始地标或在前一阶段中预测的地标被裁剪,并且特定阶段的块大小是其前一阶段的1/2结果,局部块以金字塔形式演化,并且更接近细粒度局部特征的目标地标。To verify the effectiveness of the SLPT and the pro-posed framework, we carry out experiments on threepopu-lar benchmarks, WFLW [36], 300W [28] and COFW [4].结果表明,所提出的方法显着优于其他国家的最先进的方法,在不同的指标,具有低得多的计算复杂度。此外,我们还可视化了SLPT的注意力图和特征点查询的内积矩阵,以证明SLPT可以学习面部特征点的内在关系。本文的主要贡献可以概括如下如:• 我们引入了一种新的Transformer,稀疏局部补丁Transformer,探索基于注意机制的面部标志之间的内在联系。SLPT学习的自适应内在关系使模型能够以更少的计算复杂度实现SOTA性能。• 我们引入了一个由粗到细的框架来与SLPT结合,这使得局部补丁能够以金字塔的形式进化,并且更接近细粒度特征的目标地标。• 在WFLW、300W和COFW三种流行的基准实验结果表明,该方法通过注意机制学习人脸特征点之间的内在关系,并在SOTA层次上工作。2. 相关工作在人脸对齐的早期阶段,主流方法[4,6,13,24,27,31,39,44]使用经典机器学习算法(如随机森林)直接从局部特征随着CNN的发展,基于CNN的人脸对齐方法取得了令人瞩目的成绩。它们可以大致分为两类:热图回归法和坐标回归法。2.1. 坐标回归法坐标回归方法[12,37,41,42]通过FC层直接从特征图回归为了进一步提高鲁棒性,提出了不同的级联网络[17,30]和递归网络[38]尽管坐标回归方法具有学习内在关系的内在潜力,但它通常需要大量样本进行训练。为了解决这个问题,Qian et al.[26]和Dong etal.[9]通过风格转移扩大训练样本的数量; Browatzki等人[3]和Dong et al.[10]利用未标记的数据集来训练模型。近年来,为了提高人脸识别的性能,一些研究工作将人脸的结构信息作为人脸识别的先验知识Lin等人[24]和Li等人[22]通过图卷积网络(GCN)对地标之间的相互作用进行建模。然而,GCN的邻接矩阵在推理过程中是固定学习自适应的内在关系是鲁棒人脸对齐的关键。不幸的是,还没有关于这个主题的工作,我们提出了一种方法来填补这一空白。2.2. 热图回归方法热图回归方法[7,25,29,34]输出每个地标的中间热图,并将具有最高强度的像素视为最佳输出。因此,它导致量化误差,因为热图通常比输入图像小得多 为了消除误差,Kumar et al.[18]估计预测地标位置的不确定性; Lan等人[19]采用额外的十进制热图进行子像素估计; Huang等人[15]进一步从由热图生成的各向异性注意力掩模回归坐标。此外,热图回归方法也忽略了地标之间的关系。为了构建相邻点之间的关系,Wu et al.[36]和Wang et al.[35]利用面部边界作为先验知识; Zou等人[47]使用图模型对地标进行聚类,以提供结构约束。然而,它们仍然不能明确地对具有长距离的地标之间的内在关系进行建模。最近提出的视觉Transformer [11]使模型能够长距离关注该区域。此外,Transformer中的注意力机制可以产生4054−×H ∈∈HPhPW文勤不HH11HH∈√图2.SLPT概述SLPT根据前一阶段中的面部标志从特征图中裁剪局部块然后将每个补丁嵌入到可以被视为对应地标的表示的向量中。随后,它们被补充以结构编码,以获得在规则面部中的相对位置然后将固定数量的地标查询输入到解码器中,关注向量以学习地标之间的固有关系最后,将输出馈送到共享MLP中以独立地估计每个面部标志的位置。最右边的图像展示了不同样本的自适应内在关系。我们将每个点连接到第一固有关系层中具有最高交叉注意权重的点用于不同任务(例如对象检测[5,46]和人体姿态估计[23])的自适应全局注意力,并且原则上,我们设想它还可以学习用于面部对准的自适应内在关系在本文中,我们演示了SLPT学习关系的能力。3. 方法3.1. 稀疏局部贴片Transformer如图2所示,稀疏局部补丁Transformer(SLPT)由补丁嵌入结构编码、固有关系层和预测头三部分组成。补丁嵌入结构编码:ViT [11]将图像或特征图I∈RHI×WI×C划分为网格ings。每个编码与相邻地标的编码具有高相似性(例如,左眼和右眼)。固有关系层:受Transformer [32]的启发,我们提出了固有关系层来建模地标之间的关系。每一层由三个块组成,即多头自注意(MSA)块、多头交叉注意(MCA)块和多层感知器(MLP)块,并且在每个块之前应用附加的层范数(LN)。基于MSA块中的自注意机制,查询信息自适应地相互作用,学习查询查询的内在关系。假设第l个MSA块有H个头,则输入的T1和具有C1维的界标查询Q被等分为H个序列(T1是第1层的零矩阵).第h个头部的自我注意力权重Ah计算如下:的HI×WI,每个补丁的大小为Ph×PW,并将其映射到. .Σ..ΣΣ Σ一个d维向量作为输入。 与ViT不同,每个地标,SLPT作物与固定size(Ph,Pw)作为其支持补丁,Ah=softmax哈哈哈哈哈哈Ch、(一)其中心位于地标处。 然后,调整为KK通过线性插值和映射通过CNN层转化成一系列向量。因此,每个向量可以被视为对应地标的表示。此外,为了保留规则人脸形状中界标的相对位置(结构信息),我们用一系列可学习的其中Wq和WkRCh×Ch是可学习的参数。两个线性层。TlRN×Ch和QhRN×Ch分别是第h个头的输入和界标查询,维数Ch=CI/H。然后,MSA块可以被公式化为:MSA.Tl=A1TlWv;. ;AHTIWvWP,(2)SLPT学习对地标之间的距离进行编码,其中Wv∈RCh×Ch和WP∈RCI×CI也是在规则的面部结构中,线性层的可编码学习参数的相似性骨干贴片嵌入预测头CNNRNTl+1前馈添加层范数多头交叉关注添加图层规范T多头自关注添加内 在 关系层图层规范TlLandmarks伊斯坦布尔稀疏局部补丁特征图眼睛闭塞口闭塞未遮挡交叉注意预测的面部标志Si当地位置3当地位置2当地位置1MLP当地位置N上一个地标Si-1数目的地标结构编码P贴片嵌入Tl+QTl+Q焕光参数称为结构编码。如图3所示4055.Σ×.Σ···P×−.Σ.ΣLtXH∈∈∈HH×3:初始化局部补丁大小(Pw,Ph)←W,HPhPWXyHH111HHHPPwPhHPwPhHP∈∈∈算法1从粗到精框架的训练流水线要求:训练图像I,初始标志S0,骨干网络B,SLPTT,损失函数L,地面实况Sgt,阶段数N阶段一曰: 当训练时期小于特定数目时做2:通过F=B(I),对特征图进行前向B;4 44:对于i←1到N阶段,图3.从具有98个地标注释的数据集学习的SLPT的结构编码的余弦相似性。高余弦相似性观察到的相应点,5:根据先前的方法,从F中裁剪局部pacteP地标Si−1;6:将块的大小从(Pw,Ph)调整到K K;7:通过Si=T(P)将界标的T向前;8 :将块的大小(Pw,Ph)减小一半;9:结束10:最小化LSgt、S1、S2、、SN级十一: end while与使用完整特征图相比,在规则的面部结构中是紧密的。表示从HIHWI至N(与W同样的输入尺寸,HI×WI在相关帧中为16×16MCA块基于用于学习自适应表示查询关系的交叉注意机制来聚合面部标志的表示。如图2的最右边的图像所示,通过利用交叉注意,每个地标可以采用邻近地标进行相干预测,并且可以根据可见地标的表示来预测被遮挡的地标。类似于MSA,MCA也具有H个头部,并且第h个头部中的注意力权重A′h可以是计算公式:工作[5]),这大大降低了计算对于29个界标数据集[4],(S)仅为(F)的1/5(实验中H= 8,Ch= 32预测头:预测头由用于规范化输入的层范数和用于预测结果的MLP层组成。固有关系层的输出是地标相对于其支持补丁的局部位置基于第i个片ti、ti上的局部位置,第i个界标xi、yi的全局坐标可以通过下式计算:. .T′l+Qh W'q。H(Rh+Ph)W′kHΣTΣxi=xi +iti,(七)A′=softmaxh√。我我我hChy = ylt + h ty ,(三)其中W ′q和W ′kRCh×Ch是第h个头部中两个线性层的可学习参数。 T ′lRN ×Ch是输入的第l个MCA块,PhRN ×Ch是结构编码,RhRN ×Ch是界标表示.MCA阻滞可表述为:MCA。T′l=A′T′lW′v;. ;A′T′lW′vW′,(4)其中(wi,hi)是支持片的大小3.2. 由粗到精定位为了进一步提高SLPT的性能和鲁棒性,我们引入了一个由粗到细的框架,该框架在端到端的方法中进行训练,以与SLPT结合。算法1中的伪代码示出了框架。它能使一组初始面部标志其中W′vRCh×Ch和WP′RCI×CI也是MCA块中线性层的可学习参数。假设预测N个预定义地标,则采用稀疏局部贴片Ω(S)和完整特征图Ω(F)的MCA的计算复杂度为:δ(S)= 4HNC2+ 2HN2Ch,(5)( F)=.2N +2 WI HIHC2+ 2NH WI HIC 。( 六)S0由训练集中的平均人脸计算得到,分几个阶段逐渐收敛到目标人脸标志点。每一阶段都以前面的地标为中心裁剪一系列的补丁。然后,补丁被重新调整为一个固定的大小K K,并送入SLPT预测的支持补丁上在初始阶段,较大的斑块尺寸使SLPT获得较大的接收场,从而防止斑块偏离目标陆地。mark.然后,在随后的阶段中的贴片大小是1/2结构编码相似性余弦相似度4056SDGTGT2,.Σ.ΣΣ1GT2¨¨−GTΣΣΣGT¨。Σ。Σ¨方法NME(%)↓FR 0. 1(%)↓AUC 0.1↑实验室[36]5.277.560.532SAN [9]5.226.320.535免费WiFi[34]4.765.040.549DETR† [5]4.715.000.552热门搜索[34]4.604.640.524AVS+SAN [26]4.394.080.591罗马尼亚[18]4.373.120.557AWing [35]4.362.840.572[24]第二十四话4.35二、720.576[22]第二十二话4.213.040.589[19]第十九话4.182.840的情况。597ADNet [15]4.第一章14二、720的情况。602SLPT系列4.第一章203.040.588SLPT†4.第一章14二、760.595表1. SLPT和最先进的方法在WFLW上的性能比较。标准化因子是眼间的,并且FR的阈值被设置为0.1。关键字:[最佳,次佳,= HRNetW 18 C,†= HRNetW 18 C-lite,= ResNet34]其前一阶段,使局部补丁提取细粒度的功能,并演变成金字塔的形式。通过利用锥体形式,我们可以观察到SLPT的显著改善。(see第4.5节)。3.3. 损失函数我们采用归一化的L2损失来提供对粗到细框架的阶段的监督。此外,类似于其他作品[25,29],在培训期间为中间输出提供额外的监督也是有帮助的。因此,我们将每个固有关系层的中间输出馈送到共享预测头中。损失函数写为:表2. SLPT和最先进方法在300 W常见子集、挑战性子集和全集 上 的 性 能 比 较 。 关 键 字 : [ 最 佳 , 次 佳 ,最 佳=HRNetW18C,†=HRNetW18C-lite, =ResNet34]属性标签,如轮廓面、重遮挡、化妆和照明。300W是最常用的数据集,包括3,148张用于训练的图像和689张用于测试的图像。训练集由AFW [45]的全集、HELEN [20]的训练子集和LFPW [2]组成测试集进一步分为一个挑战性子集,包括135张图像(IBUG全 集 [28] ) 和 一 个 由 554 张 图 像 组 成 的 公 共 子 集(HELEN和LFPW的测试子集300W中的每个图像用68个面部标志进行注释。COFW主要由重包封和剖面样品组成。训练集包括1,345个图像,每个图像提供了29个注释的土地,L=1Sdni=1 j=1 k=1xk,yk−xijk,yijkD(八)标记.测试集有两个变体。一个变体呈现每个面部图像29个界标注释(COFW),另一个变体提供每个面部图像68个注释界标其中,S和D分别指示由粗到细的阶段和固有关系层的数量。 xk,yk是la-(COFW 68 [14])。共507张图片。我们采用COFW68集进行跨数据集验证。第k个点的beled坐标。xijk,yijk是在第i阶段由第j个内在关系层预测的第k个点的坐标。d是用作归一化因子的外眼角之间的距离。4. 实验4.2.评估指标参考其他相关工作[18,24,35],我们用标准度量标准,归一化平均误差(NME),失效率(FR)和曲线下面积NME定义为:4.1. 数据集实验在三种流行的基准上进行,包括WFLW [36]、300W [28]和COFW [4]。NME(S,Sgt)=NNi=1皮皮d×100%,(9)WFLW数据集是一个非常具有挑战性的数据集,其中S和Sgt表示预测和注释的坐标,10,000张图像,7,500张用于训练,2,500张用于测试-地标的位置。N方法眼间NME共同的使命(%)↓全套SAN [9]3.346.603.98免费WiFi[34]3.055.393.51实验室[36]2.985.193.49DeCaFA [7]2.935.263.39[19]第十九话2.935.003.33热门搜索[34]2.875.153.32[24]第二十四话2.884.933.28HG-HSLE [47]2.855.033.28罗马尼亚[18]2.765.163.23AWing [35]2.724.533.07[22]第二十二话2.624.773.04ADNet [15]2.534.582.93SLPT系列2.784.933.20SLPT†2.754.903.174057GTpi和pi表明共同-ing. 它提供了98个手动标注的地标和丰富的坐标的第i个地标在S和Sgt。N是数量4058××××± ±±××Ground Truth我们的热图回归坐标回归图 4. SLPT 、 热 图 回 归 ( HRNetW18C ) 和 坐 标 回 归(HRNetW18C)方法在具有模糊、严重遮挡和轮廓脸的人脸上的地面实况和人脸对齐结果的可视化d是用于归一化误差的参考距离d可以是外眼角之间的距离(眼间)或瞳孔中心之间的距离(瞳孔间)。FR表示测试集中NME高于某个阈值的图像的百分比。基于累积误差分布(CED)曲线计算AUC它指示NME(%)小于或等于水平轴上的值的测试图像的分数AUC是从零到FR阈值的CED曲线下面积。4.3. 实现细节每个输入图像被裁剪并调整大小为256 256。 我们使用Adam [8]训练所提出的框架,将初始学习率设置为1 10−3。在没有规范的情况下,调整大小的补丁的大小设置为7 7,框架有6个固有的关系层和3个由粗到细的阶段。此外,我们增加了随机水平翻转(50%),灰色(20%),遮挡(33%),缩放(5%),旋转(30°),平移(10px)的训练集。我们用两种不同的主干实现我们的方法:轻HRNetW18C [34](每级中的模 块化 块编 号 被设 置为 1 ) 和Resnet34 [16]。 对于HRNetW 18 C-lite,特征图的分辨率为64 - 64,对于Resnet 34,我们从阶段C2到C5的输出特征图中提取表示。(see附录A.1)。表3. NME和FR0。1眼间归一化和瞳孔间归一化下数据集内验证的比较。故障率(FR)的阈值设置为0.1。关键字:[最佳,次佳,= HRNetW 18 C,†= HRNetW 18 C-lite,= ResNet34]方法瞳孔间NME(%)↓FR 0. 1(%)↓TCDCN [42]7.66 16.17CFSS [44]6.28 9.07ODN [43]五时三十分至AVS+SAN [26]4.43 2.82实验室[36]4.62 2.17[22]第二十二话四点二二39[24]第二十四话四点一八分00SLPT系列4.第一章110.59SLPT†4.第一章100.59表4.眼间NME和FR0。300 W-COFW 68交叉数据集评价的1个比较。 关键字: [最佳,第二佳,=HRNetW18C,4.4. 与最新方法的WFLW:如表1所示(WFLW子集的更详细结果见附录A.2),SLPT表现出令人印象深刻的性能。随着固有层数的增加,SLPT的性能可以进一步提高,并优于ADNet(见附录A.5)。参考DETR,我们还实现了一个基于Transformer的方法,采用完整的特征图的人脸对齐。输入令牌的数量为16 16。使用相同的主干(HRNetW 18 C-lite),我们观察到NME的12.10%的改进,并且训练时期的数量比DETR少8个(见附录A.3)。此外,SLPT也明显优于坐标回归和热图回归方法。一些定性结果如图所示。4.很明显,我们的方法可以准确地定位标志,特别是-方法眼间NME(%)↓FR(%)↓瞳孔间NME(%)↓FR(%)↓DAC-CSR [13]6.034.73- -实验室[36]3.920.39- -免费WiFi[34]3.730.39- -[24]第二十四话3.630的情况。00- -热门搜索[34]3.450的情况。20- -人类[4]--5.60-TCDCN [42]--8.05-4059↓ ↓↑↓ ↓↑模型中间阶段1级第二阶段3段4段NMEFRAUCNMEFRAUCNMEFRAUCNMEFRAUC带1级的型号†4.79% 5.08% 0.583---------带2个阶段的模型†4.52% 4.24% 0.5634.27% 3.40% 0.585------Model† with 3 stages4.38% 3.60% 0.5744.16% 2.80% 0.5944.第一章14% 2. 百分之七十六。595---带4个阶段的模型4.47% 4.00% 0.5674.26% 3.40% 0.5864.24% 3.36% 0.5884.24% 3.32% 0.587表5.不同粗细级数SLPT在WFLW上的性能比较。NME的标准化因子是眼间的,FR和AUC的阈值设定为0.1。关键字:[最佳,†=HRNetW 18 C-lite]方法MSAMCANMEFRAUC型号†1W/OW/O4.48%4.32%0.566型号†2w/W/O4.20%3.08%0.590型号†3W/Ow/百分之四点一七2.84%0.593型号†4w/w/4.第一章百分之十四二、76%0的情况。595表6. NME(),FR0. 1()和AUC0。1()带/不带编码器和解码器。关键字:[最佳,†= HRNetW 18 C-lite]方法NMEFRAUCw/o结构编码†4.16%2.84%0.593w结构编码4.第一章百分之十四二、76%0的情况。595表7. NME(),FR0. 1()和AUC0。1()有/没有结构编码。关键字:[最佳,,†= HRNetW 18 C-lite]对于具有模糊(图4中的第2行)、侧面视图(图4中的第1行)和严重遮挡(图4中的第3行和第4300W:比较结果见表2。与坐标和热图回归方法(HRNetW18C [34])相比,SLPT在NME中的全集合仍分别实现了9.69%和4.52%的显著改善然而,300W的改进不如WFLW显著,因为学习自适应固有关系需要大量的注释样本。在训练样本有限的情况下,具有先验知识的方法,例如面部边界(Awing和ADNet)和仿射平均形状(SDL),总是能够获得更好的性能。COFW:为了比较,我们对COFW进行了两个实验,数据集内验证和跨数据集验证.对于数据集内验证,该模型使用1,345张图像进行训练,并使用COFW上的507张图像进行验证SLPT的眼间和瞳孔间NME以及最先进的方法分别报告在表3中。在本实验中,训练样本数量很少,导致坐标回归方法如SDFL、LAB等性能显著下降尽管如此,SLPT仍然保持了优异的性能,并产生了第二好的性能。与热图回归相比,它在NME中提高了 3.77%和11.00%4060和坐标回归方法。对于交叉数据集验证,训练集包括完整的300 W数据集(3,837张图像),测试集为COFW 68(507张图像,具有68个地标注释)。COFW 68的大部分样品处于重度闭塞状态。SLPT和现有技术方法的眼间NME和FR报告于表4中与基于GCN的方法(SDL和SDFL)相比,SLPT(HRNet)在NME中的识别率仅为4.10%,取得了令人满意的结果。实验结果表明,SLPT算法的自适应内在关系比GCN算法的固定邻接矩阵更适合于人脸的鲁棒对齐,特别是在严重遮挡的情况下。4.5. 消融研究对不同粗到细阶段的评估:为了探索粗到细框架的贡献,我们在WFLW数据集上NME,AUC 0。1和FR 0。显示了每个中间级和最终级的1个在表5中。与单阶段模型相比,多阶段模型的局部斑块演化为金字塔状,显著提高了中间阶段和最后阶段的性能.当级数从1级增加到3级时,第一级的NME从4.79%急剧下降到4.38%。当级数大于3时,性能收敛,增加级数不能改善模型性能。MSA和MCA块的评估:为了探索由MSA和MCA块创建的查询-查询相互关系(等式1)和表示-查询相互关系(等式3)的影响,我们实现了四种不同的模型,包括/不包括MSA和MCA,范围从1到4。 对于没有MCA块的模型,我们利用地标表示作为查询输入。四种型号的性能列于表6中。在没有MSA和MCA的情况下,仅基于模型1中的支持块的特征来回归每个界标。尽管如此,由于由粗到细的框架,它仍然优于其他坐标回归方法。当模型中引入自我注意和交叉注意时,NME分别达到4.20%和4.17%,显著提高了模型的性能此外,自我-4061(a) MCA-层1(b)MCA-层2(c)MCA-层3(d)MCA-层4(e)MCA-层5(f)MCA-层6(g)MSA-层1(h)MSA-层2(i)MSA-层3(j)MSA-层4(k)MSA-层5(l)MSA-层6图5.在WFLW测试集上,MCA和MSA在最后阶段的统计注意相互作用每行指示地标的关注权重方法FLOPs(G)参数(M)[34]第三十四话4.759.66实验室[36]18.8512.29AVS + SAN [26]33.8735.02AWing [35]26.824.15DETR†(98个地标)[5]4.2611.00DETR†(68个地标)[5]4.0611.00DETR†(29个地标)[5]3.8010.99SLPT†(98个地标)6.1213.19SLPT†(68个地标)5.1713.18SLPT†(29个地标)3.9913.16表8. SLPT和SOTA方法的计算复杂性和参数。关键字:[=HRNetW 18 C,<$= HRNetW 18 C-lite]]注意力和交叉注意力可以结合起来进一步提高模型的性能。对结构编码的评价:我们实现了两个有/无结构编码的模型,以探索结构信息的影响。利用结构信息,SLPT的性能得到改善,如表7所示计算复杂度评价:SLPT和其他SOTA方法的计算复杂度和参数见表8。SLPT的计算复杂度仅为传统SOTA方法(AVS和AWing)的1/8~1/5 FLOPs,说明学习内在关系比其他方法更有效虽然SLPT运行了三次由粗到细的局部化,补丁嵌入和线性插值过程,我们没有观察到一个显着的计算复杂度增加,特别是对于29个地标,因为稀疏的局部补丁导致更少的令牌。此外,斑块大小和固有层的影响编号见附录A.4和A.5。4.6. 可视化我们计算WFLW测试集上每个MCA和MSA块的平均注意力权重,如图5所示。我们发现MCA块倾向于聚合支持和相邻块的表示来生成局部特征,而MSA块倾向于关注具有长距离的地标来创建全局特征。这就是MCA模块可以与MSA模块合并以获得更好的性能的原因。5. 结论在本文中,我们发现的内在关系之间的地标是显着的人脸对齐的性能,而它被大多数国家的最先进的方法忽略。为了解决这个问题,我们提出了一个稀疏的本地补丁Transformer学习查询查询和表示查询关系。此外,提出了一个由粗到细的框架,使局部补丁演变成金字塔形的前,以进一步提高SLPT的性能利用SLPT学习的自适应内在关系,该方法实现了鲁棒的人脸对齐,特别是对于模糊、严重遮挡和侧面视图的人脸,在计算复杂度上明显优于现有方法。消融研究验证了该方法的有效性。在未来的工作中,内在关系学习将进一步研究并扩展到其他任务。确认本研究是国家留学基金管理委员会资助的项目。202006130004)。4062引用[1] Bram Bakker,Bartosz Zabocki,Angela Baker,VanessaRiethmeister,Bernd Marx,Girish Iyer,Anna Anund,and ChristerAhlst rom.一种多阶段、多特征机器学习方法,用于检测自然道路驾驶条件下的驾驶员困倦。IEEE Transactions on Intelligent Transportation Systems,第1-10页[2] 彼 得 ·N 作 者 : David W. 作 者 : David J. Kriegman 和Neeraj Kumar。使用样本的一致性定位面部的部分在CVPR,第545-552页[3] 布乔恩·布罗瓦茨基和克里斯·蒂安·瓦维尔。图3通过重建进行的最后几个镜头的人脸对齐。在CVPR中,第6109-6119页[4] X a vierP. 但是,阿蒂佐,皮埃特罗佩洛纳,和皮奥特娃娃一个'r。遮挡情况下鲁棒的人脸特征点估计。在ICCV,第1513-1520页[5] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器的端到端对象检测。在ECCV,第213-229页[6] 大卫·克里斯蒂娜和蒂姆·库茨。具有约束局部模型的特征检测和跟踪在BMVC,第3卷,第929-938页[7] ArnaudDapogny , MatthieuCord , andKevinBailly.Decafa:深度卷积级联,用于野外人脸对齐。在ICCV,第6892-6900页[8] 金玛·迪德里克和巴·吉米。Adam:随机最佳化的方法。2015年,国际会议[9] 董宣仪、严妍、欧阳万里、杨毅。用于人脸标志点检测的风格聚合网络。在CVPR,第379-388页[10] Xuanyi Dong,Yi Yang,Shih-En Wei,Xinshuo Weng,Yaser Sheikh,and Shouou-I Yu.通过用于地标检测的配准和三角测量进行监督。IEEE Transactions on PatternAnalysis and Machine Intelligence,43(10):3681[11] AlexeyDosovitskiy、LucasBeyer、AlexanderKolesnikov、Dirk Weissenborn、Xiaohua Zhai、ThomasUnterthiner 、 Mostafa Dehghani 、 Matthias Minderer 、Georg Heigold、Syl-vain Gelly、Jakob Uszkoreit和NeilHoulsby。一张图片相当于16x16个单词:用于大规模图像识别的变压器ICLR,2021年。[12] Zhenhua Feng,Josef Kittler,Muhammad Awais,PatrikHu- ber,and Xiaojun Wu.用卷积神经网络进行鲁棒面部标志定位的翼损失。在CVPR中,第2235-2245页[13] 冯振华,约瑟夫·基特勒,威廉·克里斯莫斯,帕特里克·胡伯,吴晓军。动态注意力控制铸造形状回归利用训练数据扩充和模糊集样本加权。在CVPR中,第3681[14] Golnaz Ghiasi和Charless C.福克斯闭塞一致性:用分层可变形零件模型定位遮挡面。2014年IEEE计算机视觉和模式识别会议,第1899-1906页[15] Yangyu Huang,Hao Yang,Chong Li,Jongyoo Kim,and Fangyun Wei. Adnet:利用错误偏向,面部对齐方向错误。在2021年ICCV,第3060[16] 何开明、张翔宇、任少卿、孙健。用于图像识别的深度残差学习。CVPR,第770-778页,2016年[17] 马雷克·科瓦尔斯基,雅克·纳鲁涅茨,和托马斯·特兹钦斯基。深度对准网络:用于鲁棒人脸对齐的卷积神经网络。在CVPRW,第2034-2043页,2017年。[18] 作 者 : Tim K. Marks , Wenxuan Mou , Ye Wang ,Michael Jones,Anoop Cherian,Toshiaki Koike-Akino,Xi- aoming Liu,and Chen Feng. Luvli面部对齐:估计地标的位置、不确定性和可见性。在CVPR中,第8233-8243页[19] 星蓝、胡青昊、简成。修正面部对齐中的量化误差。2021年ICCVW,第1521- 1530页[20] Vuong Le , Jonathan Brandt , Zhe Lin , LubomirBourdev , and Thomas S. 煌 交 互 式 面 部 特 征 定 位 。ECCV,第679-692页,2012年[21] Lingzhi Li,Jianmin Bao,Hao Yang,Dong Chen,andFang Wen.推进用于伪造检测的高保真身份交换。在CVPR中,第5073-5082页[22] Weijian Li ,Yuhang Lu ,Kang Zheng ,Haofu Liao ,Chihung Lin,Jiebo Luo,Chi-Tung Cheng,Jing Xiao,Le Lu,Chang-Fu Kuo,and Shun Miao. 通过拓扑自适应深度图学习的结构化地标检测。在ECCV 2020中,第266施普林格国际出版社。[23] Yanjie Li , Shoukui Zhang , Zhicheng Wang , SenYang , Wankou Yang , Shu-Tao Xia , and Erjin Zhou.Tokenpose:学 习关 键点 token 用于 人体 姿势 估计 。ICCV,2021。[24] Chunze Lin , Beier Zhu , Quan Wang , Renjie Liao ,Chen Qian,Jiwen Lu,and Jie Zhou.用于鲁棒人脸对齐的结构相干深度特征学习。IEEE Transactions on ImageProcessing,30:5313[25] Alejandro Newell,Kaiyu Yang,and Jia Deng.用于人体姿态估计的堆叠沙漏网络。在ECCV,第483-499页[26] 钱胜菊,孙克强,吴伟,陈谦,贾继亚.通过分离聚集:用半监督式风格转换提升面部标志检测器。在ICCV中,第10152-10162页[27] 任少卿,曹旭东,魏一晨,孙健。通过回归局部二进制特征以3000fps进行面部对齐在CVPR,第1685-1692页[28] Christos Sagonas 、 Georgios Tzimiropoulos 、 StefanosZafeiriou和Maja Pantic。300面临野外挑战:第一个面部地标定位挑战。ICCVW,第397-403页[29] Zhiqiang Tang , Xi Peng , Kang Li , and Dimitris N.Metaxas迈向有效的u网:一种耦合和量化的方法。IEEETransactionsonPatternAnalysisandMachineIntelligence,42(8):2038[30] 放 大 图
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功