RePFormer：鲁棒性人脸标志点检测的金字塔变换器

179 浏览量更新于2024-02-04 收藏 955KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文--RePFormer：用于鲁棒面部标志点检测的李金鹏1，靳海波2，廖胜才3，邵玲4，恒凤安1，51计算机科学与工程系，香港中文大学，香港，中国2计算机科学与工程系，中国香港科技大学3.InceptionInstitute of Artificial Intelligence（IIAI），阿联酋4总站集团，中国5中国科学院深圳先进技术研究院广东省计算机视觉与虚拟现实技术重点实验室，深圳，中国jpli21@cse.cuhk.edu.hk，haibo.nick. gmail.com，scliao，ling. ieee.org，pheng@cse.cuhk.edu.hk摘要本文提出了一种用于鲁棒性人脸特征点检测的细化金字塔变换器（RePFormer）大多数面部界标检测器专注于学习代表性的图像特征。然而，这些基于CNN的特征表示由于忽略了地标的内部结构在这项工作中，我们制定了fa-cial地标检测任务，细化地标查询沿金字塔记忆。具体而言，金字塔Transformer头（PTH）被引入到建立地标之间的同源关系和地标和跨尺度上下文之间的异源关系。此外，设计了动态地标精化模块（DLR），将地标回归分解为端到端的精化过程，将动态聚集的查询转化为残差坐标预测.在四个人脸标志点检测基准及其各个子集上的大量实验结果表明，我们的框架具有优越的性能和高鲁棒性。1介绍人脸特征点检测的目标是在二维人脸图像上定位一组预定义的由于其广泛的应用范围，该任务引起了极大的关注[Ko，2018]。随着卷积神经网络（CNN）的显著成功，现代面部标志检测器[Wanget al. ，2019a; Qianetal. ，2019; Jinet al. ，2021]在受限环境中取得了令人鼓舞的表现。然而，作为真实世界面部应用中的基本组件，面部标志检测器需要能够一致地廖胜才为通讯作者。图1：面部标志检测结果在WFLW。黄色箭头表示错误的结果.(a)地面真相。(b)基于回归方法的结果。(c)基于热图的方法的结果。（d）我们的成果。方法（b）和（c）忽略地标的内部结构，而我们的方法探索地标的内部结构并建立地标和跨尺度上下文之间的关系，从而实现更鲁棒的检测结果。在复杂情况下产生可靠的结果，这对现有方法来说仍然是一个重大挑战。图1显示了一些具有挑战性的人脸图像的例子以及现有算法和我们的方法的检测结果。根据从特征地图生成地标坐标的方法，前人的工作大致可以分为三类：基于热图的方法、基于回归的方法和混合方法。基于热图的方法[Wanget al. 、2019年a;Dong和Yang，2019年]将面部标志检测视为分割任务，其中像素属于类arXiv：2207.03917v1 [cs.CV] 2022年7+v：mala2277获取更多论文地标和背景。这些方法主要面临两个困难： 1)为了减少量化误差在CNN主干中，它们通常利用单尺度高分辨率热图[Ronnebergeret al. ，2015]来表示地标的替代结果，这引入了高计算成本并阻止它们充分探索金字塔特征。2)它们缺乏对面部特征点的全局约束，忽略了图像上下文和特征点之间的关系，这降低了它们对复杂场景的鲁棒性。基于回归的方法[Lvet al. ，2017]以高效率直接将图像特征转换为地标坐标。然而，单一的回归步骤很难达到令人满意的性能。级联回归步骤[Lvet al. ，2017;Fenget al. ，2018年]被用来优化结果，但它们不是完全端到端的可训练的，它们的性能容易饱和。最近，Sun et al. [Sunet al. ，2018]将热图和回归结合在一起，继承了两者的优点。然而，它们的网络设计是不平衡的，大部分计算成本集中在骨干上。Tan et al.[Tanetal. ，2020]证明了不平衡的网络架构会限制检测性能。此外，现有的检测器往往侧重于直接学习的地标表示从纯图像特征，而忽略了动态和交互性的地标和上下文信息。为了解决上述局限性，我们提出了一种新的面部标志检测器，称为细化金字塔变换器（RePFormer），其专注于复杂场景的鲁棒检测。我们把面部标志作为注意力需求，并制定面部标志检测作为一个任务，通过金字塔记忆在一个端到端的可训练的过程中细化地标查询。具体来说，我们提出了一个金字塔Transformer头（PTH）模仿放大机制。在PTH中，跨尺度注意构建金字塔记忆，将长距离上下文结合起来，将高层语义信息传递到低层。然后，在每个PTH阶段中采用地标到地标和地标到记忆的注意力，以实现地标和金字塔记忆的动态交互，这有助于在各种场景中回归地标。此外，我们设计了一个动态的地标细化（DLR）方法来细化地标查询预测残留坐标和动态聚合查询在一个端到端的可训练的方式。残差坐标预测将回归分解为多个步骤，每个步骤基于金字塔存储器中的特定层次对地标查询进行细化，充分利用了金字塔存储器中的多层次信息，降低了预测难度我们对几个面部标志检测基准进行了广泛的实验。我们的模型实现了最先进的性能，并在复杂的情况下表现出强大的鲁棒性。2相关工作面部标志检测。早期的人脸标志点检测方法主要集中在通过优化处理将统计的人脸标志点模型变形为2D图像长官这些方法通常对统计模型应用不同的约束，例如对象形状和纹理特征[Wu和Ji，2019]。然而，它们在野外的各种情况下并不鲁棒。最近，基于深度神经网络（DNN）的方法[Wanget al. ，2019a;Jinet al. 2021年]在这项任务上表现出令人鼓舞的表现。它们的架构通常由CNN骨干和基于热图或/和基于回归的检测头的变体组成热图的像素值表示在对应位置中存在地标的可能性[Wanget al. ，2019 a;Dong and Yang，2019].它们的缺点是热图的下采样率引入量化误差。因此，高分辨率网络，例如 U-Net [Ronnebergeret al. ， 2015] 和 HR-Net[Wanget al. 2019年1月19日]，这是一个常见的问题，以解决这个问题。基于回归的方法[Lvet al. ，2017]通过将图像特征转换为2D坐标来直接预测面部标志。级联回归步骤[Lvet al. ，2017;Fenget al. ，2018]被广泛应用于进一步细化预测的坐标。它们通常遵循迭代裁剪和回归管道，首先从CNN特征图中裁剪补丁，然后将其发送到精心设计的回归器，例如递归神经网络（RNN）[Trigeor-giset al. ， 2016] 或图卷积网络（ GCN ） [Liet al. ，2020]。然而，提取补丁限制了远程信息交换，并且由于不可微的裁剪算子而可能阻碍端到端训练。视觉Transformer。Transformer [Vaswaniet al. ，2017]首次提出用于自然语言处理中的序列到序列任务。它的网络架构简单地由基于自注意的编码器和解码器组成，以对序列中任何位置之间的依赖性进行建模。最近，从高级任务到低级任务的计算机视觉也受益于其强大的表示能力和远程交互 [Carionet al. ， 2020] 。 VisionTransformer（ViT）[Dosovitskiyet al. ，2021]直接平坦化图像块，并使用用于图像分类任务的纯Transformer编码器来处理它们的特征和位置嵌入。DETR [Carionetal. ，2020]介绍了一种基于变换的检测器来解决对象检测问题，如无序集预测。其完全端到端的设计消除了现代目标检测器中手工制作的组件，例如锚点变压器也被探索用于地标检测任务。Yang等人 [Yanget al. ，2020]利用Transformer作为非本地模块来构建图像特征中的长距离空间依赖性，以用于更可解释的人类姿势估计。相比之下，我们的模型中的Transformer明确地建立了地标与地标之间以及地标与图像上下文之间的关系，并沿着金字塔Transformer记忆逐渐细化地标查询。3方法3.1概述问题表述。给定输入2D图像I，我们的ReP-Former旨在学习面部标志检测器f θ（I）以预测有序集L ∈ RN×D ={l1，.，l N}，其表示-+v：mala2277获取更多论文B−B--图2：RePFormer概述LL和LM分别是地标-地标注意和地标-记忆注意DA查询是动态聚合查询。蓝线代表特征图。绿线是记忆和地标查询的嵌入。红线表示面部标志的坐标和残差预测。表示N个有序的面部界标，其中每个界标li在D维坐标中。注意，基于 Transformer 的对象检测器 DETR[Carionet al. ，2020]，也将一般对象检测公式化为一组预测任务。然而，DETR的预测集是无序的，具有可变的长度，因为在一般的目标检测数据集的顺序和数量相比之下，面部地标检测任务假设每个图像仅包含一个主面部（如果图像中有几个面部，则仅考虑最大的中心面部），其用固定数量的地标进行注释。此外，在我们的框架中，标签分配被简单地定义为固定的一对一方式，而不是像DETR那样解决二分匹配。整体架构。我们RePFormer3.2金字塔形Transformer头跨尺度注意力。特征金字塔已经被探索用于解决计算机视觉中的各种挑战，例如检测各种尺度的对象[Li etal. ， 2019] 并结合不同层次的语义特征进行分割[Ronnebergeret al. ，2015]。在这项工作中，我们的Transformer为基础的检测头，PTH，明确采用金字塔的功能，以获得跨尺度的语义信息，模仿放大机制的人类注释。我们的跨尺度注意力将层次特征集Z作为输入，并沿着自上而下的路径生成金字塔记忆集VZ由CNN骨架fB获得，其定义如下：f B（I）= f M（. f i（. f第1（I）段）、（1）段如图2所示。它建立在基于CNN的功能之上B B B B提取器和基于变压器的检测头。一是其中M是网络级数，fi是第i输入图像被馈送到包含几个网络级的公共CNN主干中由这些阶段生成的特征图具有各种分辨率和语义，形成分层图像特征。接下来，我们的PTH模块应用这些分层特征图的跨尺度关注然后，PTH阶段使用地标到地标和地标到记忆注意力将记忆的上下文在每个PTH阶段之后，我们的DLR模块通过基于当前查询的状态预测地标的残余坐标并基于当前地标的坐标进化地标查询来执行相互更新。因此，整个面部界标检测任务被公式化为逐步界标细化过程。网络阶段，以将特征图Zi1作为输入，并如下生成特征图Zi：z i= f i（z i−1）.（二）这些分层特征形成CNN特征集Z=z M，.，z1，它包含具有各种分辨率和语义的多级特征映射。顶层特征包含较强的语义信息，但空间信息较少，仅适用于粗定位。为了更好地将高级语义传播到所有级别的特征中并组合长距离信息，我们的PTH通过在特征映射z i和存储器v i +1的每两个相邻级别上应用跨尺度注意力来计算第i个存储器v i，这受到[Zhanget al. ，2020]。跨尺度注意力的结构如图3（a）所示，它需要三个+v：mala2277获取更多论文H−◦.--H--∈(a)（b）第（1）款图3：（a）跨尺度注意力的架构。（b）本地和本地管理注意事项的结构和数据流。输入包括查询qi、keyki和值vi。自从-记忆具体来说，f i是第i个PTH阶段，tension操作对于输入元素是置换不变的，Qi由Zi及其固定位置编码Pi组成，其中Qi=Zi+Pi以保持像素的相对位置。ki和vi都是通过融合zi和vi+1的信息获得的。存储器vMi+1和第i个状态中的界标查询集Ei作为输入，并为下一个PTH阶段生成新的查询状态Ei+1这是由以下公式计算的：Ei+1=fi（vM−i+1，Ei）双线性插值将vi+1上采样为v<$i+1，分辨率与zi相同。则vi由阿达玛生成H=gLM（gLL（Ei），vM−i+1）（六）乘积为vi=ziv<$i+1，其中v<$i+1旨在屏蔽输出语义区域外的噪声低层细节，并保持语义区域内的精确空间信息。为了使q i和k i之间的相似性计算语义和位置敏感，k i还补充有固定位置编码，如ki=vi+pi。总之，理论vi计算为：其中每个PTH级由两个连续的注意力组成，即，如图3（b）所示的地标到地标注意力g LL和地标到存储器注意力g LM，这是受[Vaswani等人，，2017;Carionet al. ，2020]。它们都是通过多头关注实现的。gLL的查询、键和值都来自Ei，gLM的查询、键和值是z=LN（z+ MHA（q，k，v））（3）gLL的输出分别为vM−i+1和vM−i+1当地雇员我我使用地标查询之间的相似性对地标查询之间的动态关系进行建模，并更新它们的状态。gLM计算vi=LN（z<$i+ FFN（z<$i）），如果i Mvi=zi，否则，（四）地标和金字塔记忆之间的关系，以赋予跨尺度信息和远程图像上下文，其中MHA是多头注意力[Vaswaniet al. ，2017]，FFN是前馈网络，LN是层归一化。因此，金字塔存储器形成集合V=v M，.，v1，其中每个v1具有与z1相同的分辨率，但是具有跨电平和长距离信息。PTH转发。我们的PTH检测头f H由级联的Transformer级组成，定义如下：f H（V，E1）= f K（v M−K+1，. fi（v M−i+1，. f1（v M，E1），地标查询。这些动态关系是动态建立的，并且特定于每个图像，因此它们在检测没有显著视觉特征的面部标志时更鲁棒。3.3动态地标优化我们的模型直接预测地标的坐标，因此它可以被视为一种基于回归的方法。与基于热图的检测器相比，单个回归步骤很难产生有竞争力的结果。因此，多作物-然后-H HH（五）检测步骤[Trigeorgiset al. [2016]用于改善其中，K是Transformer级的数量，fi是第i个基于回归的方法在粗到粗的阶段PTH引入界标查询集ERN×D=e1，.， e N来存储地标的状态，其大小与地标的数量相同。E可以从DETR中的可训练嵌入初始化[Carionetal. ，2020]，或者如在我们的方法中从存储器动态地聚合，这将在下一节中介绍。PTH将金字塔和初始界标查询集E1作为输入，并在自上而下的路径中基于来自金字塔存储器V的信息重复更新E这使得它能够首先在顶层存储器中鲁棒地定位地标的粗略位置，然后逐渐集成来自较低级别的好方法。然而，现有的多步方法通常具有两个缺点：1）硬裁剪算子相对于输入坐标是不可2)仅基于裁剪的特征来执行检测，而不访问图像上下文信息。为了解决这些挑战，我们的RePformer引入了DLR模块，使用残差坐标预测和动态聚合查询将面部标志检测模块化为完全端到端的细化过程。残差坐标预测基于最高级别的神经网络vM预测初始面部界标集合L0。然后，我们的DLR将额外的预测因子附加到+v：mala2277获取更多论文J1J1NN. 归一化相似度ijkk∈kJkJ方法主干姿态表达式。伊卢WFLW发生率BlurFull300WCOFW AFLW M.u.DVLN[吴和杨，2017]VGG-1611.546.785.735.987.336.886.084.66--LAB [Wuet al. ，2018年]ResNet-1810.245.515.235.156.796.325.273.495.581.85Wing [Fenget al. ，2018年]ResNet-508.435.214.885.266.215.814.99-5.071.47DeCaFA [Dapognyet al. ，2019年]级联U形网------5.013.69--HRNet [Wanget al. ，2019年a]HRNetV2-W187.944.854.554.295.445.424.603.323.451.57AVS[Qianet al. ，2019年]ResNet-189.105.834.935.476.265.865.254.54--AVSw/LAB [Qianet al. ，2019年]沙漏8.215.144.515.005.765.434.764.83--AVS w/ SAN [Qianet al. ，2019年]-8.424.684.244.375.604.864.393.86--AWing[Wanget al. ，2019年b]沙漏7.384.584.324.275.194.964.363.07--风格[Qianet al. ，2019年]ResNet-188.424.684.244.375.604.864.394.54--LUVLi [Kumaret al. ，2020年]DU-Net------4.373.23--DAG [Liet al. ，2020年]HRNet-W187.364.494.124.054.984.824.213.04--PIPNet [Jinet al. ，2021年]ResNet-188.024.734.394.385.665.254.573.363.311.48PIPNet [Jinet al. ，2021年]ResNet-507.984.544.354.275.655.194.483.243.181.44PIPNet [Jinet al. ，2021年]ResNet-1017.514.444.194.025.365.024.313.193.081.42RePFormer（我们的）ResNet-187.384.284.064.045.174.864.203.073.071.44RePFormer（我们的）ResNet-507.314.254.093.945.154.824.143.033.011.43RePFormer（我们的）ResNet-1017.254.224.043.915.114.764.113.013.021.43表1：最先进的方法和我们的模型在WFLW上的基准测试结果，包括全集和六个子集，300W，COFW和AFLW数据集。最好的和第二好的结果分别用红色和蓝色更高的PTH阶段，并且第i个预测因子fi只需要其中，k是L2范数的平方，ck表示cor。P预测地标U的剩余坐标i∈RN×D=存储器像素的刻度vkM−i+1. τ是温度参数，{u i，.，u i}关于L i−1，如下：大于1的单位，以放大系数的差异。1Nui=fi（ei），（7）坐标与硬茬作物相比，jPj门控查询可区分为地标的坐标，其中ui是中的第j个地标的残差坐标，第i个阶段，ei是第i个阶段中的第j个地标查询预测者i使得整个多步骤精化过程完全是端到端可训练的。此外，这些查询是由整个内存探索的位置敏感的语义fP是一个双层FFN，它对不同的fP是不可知的因为它只需要预测残差值而不是绝对坐标。并且第i个界标集合L1由下式计算：Li={li−1+ ui ， . ， li−1+ ui} 。（8）L1损失被用作地面实况和由第i个PTH级生成的L i之间的损失函数。因此，通过这种逐步细化，我们的DLR逐渐将回归的地标推到更接近地面实况坐标的位置。动态聚合的。为了使Transformer架构适应残差预测任务，作为第i个PTH阶段的输入的界标查询集合E i需要使用当前结果L i-1的语义和空间信息来表示当前结果L i-1的状态。为了以端到端的方式解决这一挑战，提出了一种动态聚合方法，通过聚合按其相对位置信息加权的金字塔备忘录来提取地标查询这可以看作是“裁剪”操作符的软版本，阶段i的第j个查询由下式计算：特征和全局图像上下文信息。4实验4.1实施细节和数据集我们使用ResNet [Heet al. ，2016]在Ima-geNet上预先训练[Denget al. ，2009]作为RePFormer的主干，并且主干的默认深度是18，除非另有说明。使用不带权重衰减的Adam优化器来训练我们的模型，β1和β2分别设置为0.9和0.999。所有模型都训练了360个epoch，批量大小为16。初始学习率为0.0001，在200个epoch之后下降了10倍。温度τ设定为1000。L1损失被用作所有输出的损失函数，损失权重被简单地设置为1。我们在四个流行的面部标志检测数据集上进行实验，包括WFLW [Wuetal. ，2018]，300 W [Sago-naset al. ，2013]，AFLW-Full[Koestingeret al. ，2011]和COFW [Burgos-Artizzuet al. ，2013]。我们的大多数设置都遵循PIPNet [Jinet al. ，2021]。调整所有输入图像的ei=sijk·vk，（9）256x256Jk∈M−i+14.2与最先进方法的比较其中k是像素索引和vk是级中的第k个内存像素我们将RePFormer与最先进的面部区域进行M−i+ 1M−i+1查询之间的标记检测方法使用的评价尺度的NOR，ei−1和内存pix elvk表示为平均误差（NME）。Jsijk=M−i+1exp（−li−1−ck·τ）exp（−、（十）WFLW。表1显示了最先进的方法和我们的RePFormer模型的性能，其中包括ResNet-18，ResNet-50和ResNet-101。谢谢+v：mala2277获取更多论文τ10100100010000NME（%）3.223.163.073.16表2：通过在RePFormer中使用不同组件在300W上的比较结果。对于我们的有效检测头，在完整的WFLW上，我们的具有轻量级ResNet-18主干的模型已经实现了比所有现有方法更好的性能（4.20%NME），包括具有更重主干的方法，如级联 U- 网和沙漏。使用 ResNet- 50 和 ResNet-101 ， RePFormer 进一步将结果提高到 4.14% 和4.11%NME，优于最具竞争力的方法DAG [Liet al. ，2020年]，分别上升1.7%及2.4%。我们还进行了实验的六个子集的WFLW。我们的模型在五个子集上优于所有以前的方法，并实现了所有最好和次好的结果，证明了我们的框架在各种评估场景中的强大性能和鲁棒性。300瓦。表1的倒数第三列比较了我们的模型和最先进的方法在300 W全套上的性能。所有报告的结果均通过眼间距离标准化。我们的 RePFormer 与 ResNet- 101 和ResNet-50 骨干分别实现最佳和次佳结果。仅使用ResNet-18的轻量级骨干，我们的方法已经显著优于大多数最先进的方法，例如LAB [Wuet al. ，2018]，STYLE[Qianet al. ， 2019] ， HRNet [Wangetal. ， 2019a] 和PIPNet [Jinet al. ，2021]。请注意，尽管RePFormer具有比检测器更深的检测头，具有专门定制的检测头以提高时间效率，但我们认为，它们的大型骨干与小型检测头的架构并不是最佳的，并且我们的RePFormer头可以实现比使用更重的骨干更好的性能增益Tan et al.[Tanetal. ，2020]还表明，平衡结构可以产生更高的精度-速度比。例如，与竞争性方法相比，PIPNet [Jinet al. ，2021年 ] ，我们的 RePFormer 与 ResNet-18 相比， PIPNet 与ResNet-101的性能高出3.8%，推理速度相似（56 FPS与59 FPS）。COFW。我们将我们的方法与最先进的表3：300 W全套上不同τ4.3消融研究RePFormer组件。表2显示了不同组件的RePFormer的性能。首先，我们通过在 CNN 骨干上附加三级Transformer检测头来构建强基线模型请注意，只有来自CNN最后一级的特征图被用作Transformer的分类，并且在训练后固定地标嵌入。由于Transformer的远程信息建模，我们的基线模型已经实现了与最先进的方法相比具有竞争力的性能。其次，我们将PTH模块应用于基线模型。在PTH的帮助下，我们的模型在所有集合上的性能都得到了改善，这证明了金字塔记忆与跨尺度信息的有效性。第三，我们将DLR集成到我们的基线模型中。从表2中，我们观察到DLR显著提高了挑战子集的性能最后，如表2的最后一行所示，我们的带有PTH和DLR模块的RePFormer在所有子集上都实现了比基线更大的性能改进。请注意，与基线相比，RePFormer的性能增益甚至大于所有单个组件的改进之和，这表明这两个拟议的组件相互补充，可以共同促进更准确的回归。温度值。我们评估了ReP- Former在300 W的全套设备上具有不同温度值的性能。τ控制动态聚合查询的权重图如表3所示，当τ值从10增加到1000时，性能持续改善，但是过大的τ值会降低性能。研究结果表明，动态地标查询主要集中于附近像素点的信息，而长距离信息对于生成准确的结果也有一定的价值.5结论在本文中，我们提出了一个细化金字塔Transformer，RePFormer，人脸标志点检测。建议的PTH利用跨尺度的注意力来生成包含多层次语义和空间信息的金字塔记忆，在表1的倒数第二列中显示的数据内设置下对COFW数据集起作用。眼间距离用于标准化结果。我们的模型与三个不同的骨干实现了所有方法中的前3名的性能。劳联。表1的最后一列显示了我们的模型的比较结果和最先进的结果。根据以前的工作，所有地标坐标由图像大小归一化。可以看出，我们的具有不同主链的RePFormer 实现了第二好和第三好的结果，而只有PIPNet [Jinet al. ， 2021 年 ] 与 ResNet-101 略优于我们（1.42% NME对1.43% NME）。mation。在每个PTH阶段中采用地标到地标和地标到存储器引入DLR模块以通过完全端到端的多步细化过程来解决地标回归的任务，其中地标查询通过自顶向下的金字塔存储器通过动态聚合方法逐渐细化。致谢本研究获香港研究资助基金资助14201620。Mod乌勒300WPTHDLR充分共同挑战√√3.283.232.922.884.994.93√√3.223.072.922.724.854.69+v：mala2277获取更多论文引用[Burgos-Artizzuetal.XavierP.Burgos-Artizzu ，PietroPerona，andPiotrDol la'r.在遮挡情况下，必须进行界标2013年，国际天主教儿童会[Carion et al. Nicolas Carion、Francisco Massa、GabrielSynnaeve 、 Nicolas Bognier 、 Alexander Kirillov 和Sergey Zagoruyko。使用变压器进行端到端物体检测。在ECCV，2020年。[Dapogny et al. Arnaud Dapogny，Kevin Bailly和MatthieuCord。Decafa：深度卷积级联，用于野外人脸对齐。在ICCV，2019年。[Deng et al. Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，Kai Li，and Fei-Fei Li.Imagenet：一个大规模的分层图像数据库。2009年，CVPR[董和杨，2019]董宣义和杨毅。教师指导学生如何从部分标记的图像中学习面部标志点检测。在ICCV，2019年。[Dosovitskiy et al. Alexey Dosovitskiy ， Lucas Beyer ，Alexander Kolesnikov ， Dirk Weissenborn ， XiaohuaZhai ， Thomas Unterthiner ， Mostafa Dehghani ，Matthias Min- derer，Georg Heigold，Sylvain Gelly，Jakob Uszkoreit，and Neil Houlsby.一个图像值16x16个单词：大规模图像识别的转换器。在ICLR，2021年。[Feng et al. Zhen-Hua Feng，Josef Kittler，Muham-madAwais，Patrik Huber，and Xiao-Jun Wu.用卷积神经网络进行鲁棒面部标志定位的翼损失。在CVPR，2018年。[He et al. 何开明，张翔宇，任少卿，孙健。用于图像识别的深度残差学习在CVPR，2016年。[Jin et al. Haibo Jin ， Shengcai Liao ， and Ling Shao.Pixel-in-pixel net ： Towards efficient facial landmarkdetection in the wild. 国际计算机目视，2021年。[Ko，2018] BChul Ko.基于视觉信息的面部情感识别研究综述传感器，2018年。[Koestinger et al. Martin Koestinger ， Paul Wohlhart ，Peter M.罗斯和霍斯特·比肖夫。注释的面部地标在野外：一个大规模的，真实世界的数据库，面部地标定位。在BeFIT研讨会上，2011。[Kumar et al. Abhinav Kumar，Tim K. Marks，Wenx-uanMou ， Ye Wang ， Michael Jones ， Anoop Cherian ，Toshi- aki Koike-Akino ， Xiaoming Liu ， and ChenFeng.Luvli面部对齐：估计地标的位置，不确定性和可见性可能性。在CVPR，2020年。[Li et al. Xiaohan Li，Taotao Lai，Shuaiyu Wang，QuanChen，Changcai Yang，Riqing Chen，Jinxun Lin，andFu Zheng.用于目标检测的加权特征金字塔网络。在ISPA/BDCloud/SocialCom/SustainCom，2019年。[Li et al. Weijian Li，Yuhang Lu，Kang Zheng，HaofuLiao ， Chihung Lin ， Jiebo Luo ， Chi-Tung Cheng ，Jing Xiao，Le Lu，Chang-Fu Kuo，and Shun Miao.通过拓扑自适应深度图学习进行结构化地标检测。在ECCV，2020年。[Lv et al. ，2017] Jiangjing Lv，Xiaohu Shao，JunliangXing，Cheng Cheng，and Xi Zhou.一种具有两阶段重新初始化的深度回归架构，用于高性能面部地标检测。在CVPR，2017年。[Qian et al. ，2019] Shengju Qian，Keqiang Sun，WayneWu，Chen Qian，and Jiaya Jia.通过分离进行聚合：通过半监督风格转换提升面部标志检测器。在ICCV，2019年。[Ronneberger et al. Olaf Ronneberger，Philipp Fischer，and Thomas Brox. U-net：用于生物医学图像分割的卷积网络。在MICCAI，2015年。[Sagonas et al. ，2013] Christians Sagonas，Georgios Tz-imiropoulos，Stefanos Zafeiriou，and Maja Pantic. 300面临野外挑战：第一个面部地标定位挑战。在ICCV研讨会，2013年。[Sun et al. ，2018] Xiao Sun，Bin Xiao，Fangyin Wei，Shuang Liang ，and Yichen Wei.完整的人体姿势回归。在ECCV，2018年。[Tan et al. ，2020] Mingxing Tan，Ruoming Pang，andQuoc V.乐Efficientdet：可扩展和高效的对象检测。在CVPR，2020年。[Trigeorgis et al. [2016年7月26日] George Trigeorgis，Patrick Snape，Mihalis A.尼古拉，埃帕梅农达斯·安东纳科斯，和圣法诺斯·扎菲里乌.助记下降法：一种用于端对端面对齐的循环过程。在CVPR，2016年。[Vaswani et al. Ashish Vaswani ， Noam Shazeer ， NikiParmar，Jakob Uszkoreit，Llion Jones，Aidan N.戈麦斯，卢卡斯·凯泽，伊利亚·波洛苏欣。你需要的只是关注。在NIPS，2017年。[Wang et al. Jingdong Wang，Ke Sun，Tianheng Cheng，Borui Jiang，Chaorui Deng，Yang Zhao，Dong Liu，Yadong Mu，Mingkui Tan，Xinggang Wang，WenyuLiu，and Bin Xiao.用于视觉识别的深度高分辨率表示学习 IEEE Trans. 模式肛门。马赫内特尔，2019年。[Wang et al. ，2019 b] Xinyao Wang，烈风波，还有李福新。通过热图回归进行鲁棒面部对齐的自适应翼损失。在ICCV，2019年。[吴和纪，2019]吴跃和纪强。面部标志检测：文献综述。国际计算机目视，2019年。[Wu and Yang，2017] Wenyan Wu and Shuo Yang.利用数据集内和数据集间的变化进行鲁棒的人脸对齐。在CVPRW，2017年。[Wu et al. Wenyan （ Wayne ） Wu ， Chen Qian ， ShuoYang，Quan Wang，Yici Cai，and Qiang Zhou. Lookat boundary ：一个边界感知的人脸对齐算法。在CVPR，2018年。[Yang et al. 杨森，全志斌，聂慕，杨万口。转置：通过Transformer实现可解释的人体姿态估计。CoRR，2020年。[Zhang et al. 张东，张汉旺，唐金辉，王梦，华贤生，孙倩茹。特征金字塔Transformer。在ECCV，2020年。

下载后可阅读完整内容，剩余1页未读，立即下载