LaplaceKL:一种用于地标定位的深度网络模型

16 浏览量更新于2023-10-16 收藏 1.37MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

10103Laplace界标定位Joseph P Robinson1，Yuncheng Li2，Ning Zhang2，Yun Fu1，SergeyTulyakov2东北大学2Snap Inc.摘要图像和视频中的地标定位是一个经典的问题，解决的方法多种多样。如今，随着深度网络在整个机器学习中的流行，人们对推动面部地标检测器来处理更具挑战性的数据有了新的兴趣。大多数努力使用基于L1或L2规范的网络目标，这有几个缺点。首先，生成的热图转换为地标的位置（即，置信度图），根据该置信度图预测界标位置（即，方法）在不考虑价差的情况下受到惩罚：高散布对应于低置信度，反之亦然。为此，我们引入了一个LaplaceKL目标，该目标对低置信度进行惩罚。另一个问题是对标记数据的依赖性，这些数据获取成本高且容易出错。为了解决这两个问题，我们提出了一个对抗性训练框架，利用未标记的数据来提高模型性能。我们的方法在所有300 W基准测试中均达到最先进水平，在An-输入Honari et al. 2018我们的方法图1.由基于softargmax的模型（中间块）和提出的LaplaceKL（右块）生成的热图，每个热图都有输入图像（左）和放大视图。在野外的面部标志（AFLW）数据集。然而，我们的模型是稳健的，尺寸减小了：1/8的通道数（即0.0398MB）在CPU上的实时性可与最先进的技术相媲美。因此，本文的工作具有较高的实际应用价值。1. 介绍定位地标是在视觉媒体中找到与兴趣点相对应的像素位置。在面对齐中，这些点对应于面零件。对于身体和手，标志对应于关节在相机平面上的投影[31，35]。从历史上看，地标检测和形状分析任务可以追溯到几十年前：从主动形状模型[4]到主动外观模型[3]，后者被提出来分析和检测面部标志。需要更先进的模型来处理越来越棘手的观点引发了对面部地标定位的兴趣。于是，一波又一波的这项工作是在第一作者在Snap Inc.实习时完成的眼睛区域（右）。这些热图是置信度分数（即，概率）像素是界标。基于softargmax的方法生成高度分散的映射（低确定性），而用我们的损失训练的相同网络是集中的（即，高确定性）。我们进一步通过实验验证了最小化散射的重要性（表2）。最好是电子观看。深度神经架构，将最先进的技术推向更具挑战性的数据集。这些现代网络是在成对的标记数据（d，s）上进行端到端训练的，其中d是图像，s是实际的地标坐标。其中许多使用编码器-解码器风格的网络来生成特征图（即，热图）转换成像素坐标[23，24，40]。网络必须完全可扩展以进行端到端训练。因此，将K热图转换为像素坐标的层（或操作）必须是可微的[15]。注意，K个热图中的每一个对应于地标的坐标通常，softargmax操作将地标的位置因此，度量像或确定实际10104和预测坐标，即，e=s-s。上文讨论的方法有两个严重的缺点。(1)这些损失仅对坐标空间中的平均值的差异进行惩罚，并且对热图的方差没有明确的惩罚。因此，生成的热图是高度分散的：高方差意味着低置信度。（2）这个目标族完全依赖于成对的训练样本（即，（d，s））。然而，在这方面，获得高质量的数据是昂贵和挑战，拉长不仅每个样本需要几个标记，而且无意的，通常是不可避免的，标签是像素级的标记，易受人为错误（即，不准确和不精确的地面实况标签）。一直以来，大量未标记的人脸数据都是免费提供的。在本文中，我们提出了一个实用的框架，以满足这两个缺点。因此，我们的第一个贡献阐述了第一个问题。为此，我们引入了一个新的损失函数，该函数对由位置和分散度定义的分布差异进行了惩罚（图1）。①的人。独立地，我们将地标视为具有拉普拉斯（s，1）分布的随机变量因此，目标是匹配由均值和方差参数化的分布，以产生较少散射的热图（即，更高的置信度）。我们把这个目标称为拉普拉斯KL损失。我们的第二个贡献是一个对抗训练框架的地标定位。我们建议通过免费利用未标记的数据来解决配对数据需求的问题。我们将我们的地标检测网络视为归一化热图的生成器（G）（即，概率图），传递给学习器（D）学习来区分真实的和生成的热图。这允许大量未标记的数据进一步提高我们基于LaplaceKL的模型的性能。最后，D证明了通过在训练期间将未标记的数据注入管道来提高基于LaplaceKL的模型的预测能力。如实验所支持的，对抗性训练框架补充了所提出的拉普拉斯KL损失（即，未标记数据的增加导致误差的减少）。为了证明这一点，我们首先通过声称没有对抗训练的最先进技术来展示拟议损失的有效性，然后在训练过程中添加更多未标记的数据来进一步改进！此外，我们缩小了模型的尺寸-构成的贡献对于在实时生产、移动设备和其他实际目的中使用的地标检测模型是有帮助的我们的贡献有三个方面：（1）一种新的拉普拉斯KL发散目标，用于训练对预测更确定的地标定位模型;（2）在训练期间利用大量未标记数据的对抗性训练框架;（3）实验表明，我们的模型在面部标志检测方面优于最近的工作，同时消融研究表明，最值得注意的是，我们的模型与最先进的模型相比，其1/8的原始尺寸（即，<160 Kb）和实时（即，>20 fps）。2. 相关工作在本节中，我们回顾了地标定位和生成对抗网络（GAN）的相关工作。几十年来，地标定位一直是研究者的兴趣所在。起初，大多数方法都是基于主动形状模型[4]和主动外观模型。els [3]。然后，引入了级联回归方法（CRM），其按顺序操作;从平均形状开始，然后递增地将形状移动到更接近目标形状。标准物质提供高速度和准确性（即.>1，000 fps（CPU）[26，19]）。最近，基于深度学习的方法由于端到端学习和提高准确性而在社区中流行。最初的工作使用递归卷积神经网络模仿级联方法的迭代性质[24，32，37，38]。此外，已经提出了几种用于密集地标定位[12，18]和3D人脸对齐[33，47]的方法：所有这些方法都是完全监督的，因此需要每个图像的标签。目前，半监督路标定位方法受到越来越多的最近的工作使用了一种顺序多任务方法，该方法能够将两种类型的标签注入到训练管道中，其中一种类型构成注释的地标，另一种类型由面部表情（或手势）组成[15]。作者认为，后一种标签类型更容易获得，并通过声称在几项任务上的最新技术来展示使用这两种类型的注释的好处。此外，他们还探索了其他半监督技术（例如，等方差损失）。在[8]中，提出了一种注册监督方法，1，1，1，1原始卷积数大量使用未标记的视频来训练土地-1684 2过滤器，最小的成本只有79 Kb的磁盘上。我们显示出使用提出的LaplaceKL训练的模型的准确性下降远小于使用基于softargmax的损失训练的其他模型。因此，更多的未标记训练数据在减小尺寸时导致更少的性能下降重要的是要强调，我们的模型的变体在或大于1/8的原始尺寸相比，以及现有的国家的最先进的。我们认为，亲-标记检测器基本假设是，检测到的界标的相邻帧应该与帧之间计算的光流一致。这种方法证明了一种更稳定的视频检测器，并提高了公共基准的准确性。地标定位数据资源也有了显著的发展，MultiPIE数据集的68点标记方案[11]被广泛采用。尽管最初10105生成的热图假热图鉴别器未标记（du）标记（dl，sl）Ladvl）LKL真实热图图2.建议的半监督框架的地标定位。标记和未标记的分支分别用蓝色和红色给定输入图像，G产生K个热图，每个地标一个。标签用于生成真实的热图，如ω（sl）。G从未标记的数据中产生假样本。源图像在热图上连接并传递给D。MultiPIE在整个地标本地化社区[48]中引起了兴奋，现在它被认为是完全在受控实验室环境中捕获的简单数据集之一。然后发布了一个更具挑战性的数据集，野外注释面部标志（AFLW）[20]，每张脸最多有21个面部标志（即没有标记被遮挡或“不可见”的界标）。最后，来自互联网的面部图像组成的300W数据集，使用与MultiPIE相同的68点标记方案进行标记，并作为数据挑战进行推广[27]。目前，300 W是面部标志定位最广泛使用的基准之一。除了2D数据集，社区还创建了几个用3D关键点注释的数据集[1]。GAN最近被引入[10]，在研究和实践中迅速流行。GAN已用于生成图像[25]和视频[28，34]，并进行图像处理[9]，文本到图像[42]，图像到图像[45]，[36]第30话，我的朋友，我的朋友。GAN的一个令人兴奋的特性是能够跨不同领域传输视觉媒体。因此，各种半监督和域适应任务都采用了GAN [6，13，29，41]。许多人利用合成数据来提高真实数据的模型性能。例如，GAN将人眼图像从真实区域传输到引导训练数据[29]。其他研究人员使用它们来合成生成室外场景的照片级逼真图像，这也有助于改善图像分割的性能[13]。有时，在受控设置中标记捕获的图像是可管理的（即，相对于不受控制的设置）。例如，2D身体姿势注释在野外可用，而3D注释主要用于在实验室环境中捕获的图像。因此，在对抗训练中使用具有3D注释的图像来预测3D人体姿势，如在野生[41]。[6]将一次性识别公式化为数据不平衡的问题，并以合成生成的人脸嵌入的形式增加了额外的样本。我们的工作在几个方面与其他人不同。首先，大多数人（如果不是全部的话）使用的训练目标仅考虑地标的位置[15，32，38]，I.E.不考虑差异（即，信心）。因此，地标分布已被假定为可描述的一个单一的参数（即。平均值）。以这种方式训练的网络为了实现这一点，我们使用位置和比例来明确地参数化地标的分布为此，我们提出了一种基于KL-散度的损失来训练网络端到端。其次，以前的作品以某种方式使用GAN进行域自适应在这项工作中，我们不像[13，29]那样在域之间执行任何自适应，也不像[15]那样使用任何额外的训练标签。具体来说，我们让D对给定图像的预测热图进行质量评估。产生的梯度用于提高发生器检测标志的能力。我们表明，这两个贡献提高精度时，单独使用。然后，这两个贡献相结合，以进一步提高国家的最先进的结果。3. 方法我们的训练框架在训练过程中利用了标记和未标记的数据。示于图2是标签可用（蓝色箭头）和不可用（红色箭头）情况的高级图形描述。？.请注意，框架有两个分支，监督的（等式2）。3）和未监督的（Eq.7），其中只有受监督的（蓝色箭头）使用标签进行训练。接下来是两个分支的详细信息。发生器ω（s10106不不不αJe3.1. 全监督分支机构数据：{（dl，sl）}i=1，...，n，{（du）}i=1，...，M我我我我们定义图像d∈的联合分布Rh×w×3和界标s∈RK×2为p（d，s），其中K是θD，θG←初始化网络参数当t≤T时（Dl，Sl）←来自标记数据的样本小批量地标的总数分布t t的形式p（d，s）是未知的;然而，当标签存在时（即，（d，s）（p（d，s））。在训练过程中，我们的目标是学习条件分布qθ（s|d）用参数为θ的神经网络进行建模。地标（Du）←来自未标记数据的Hfake←G（Du）Hreal←ω（Sl）Ladv←logD（[Dl，Hreal]）+ log（1−D（[Du，Hfake]）然后通过采样ΔsΔqθ（s）来检测|d）. 我们现在省略它参数θ从符号为清洁表达式。通过最大化可能性用公式计算损失2或等式。3//更新模型参数模型描述的过程确实产生了观察到的数据，即，通过最小化以下损失函数w.r.t.其参数：θD<$+−−θθG<$+−−θ端Ladv（LG−λLadv）L（θ）=E（d，s）<$p（d，s）<$s−s<$2。（1）或者，可以训练神经网络以算法1：训练所提出的模型。预测归一化概率图（即，heatmaps）：h热图q（h|d），其中h∈Rk×h×w，每个hk∈Rh×w表示界标k的归一化概率图，其中k=1. K.为了获得像素位置，可以通过设置s=a r gmax（hmax））。不过，这次行动并不困难-因此无法进行端到端的培训。argmax的一个可微变体（即softargmax [2]）最近用于定位标志[15]。对于1D情况，表示softargmax操作Σsoftargmax（βh）=softmax（βhx）·xXσ2=Eh[（x−Eh[x]）2]且b=Eh[|x−Eh[x]|]中。我们定义了一个函数τ（h）来使用位置计算预测的热图h的尺度（或方差），其中，阳离子不期望是热图空间中的界标。因此，τ（h）=p（x）||x−s||α，其中εs=Eh[x]，对于拉普拉斯算子α=1，对于高斯算子α=2。因此，τs和τ（hτ））用于参数化预测地标q（h）的拉普拉斯（或高斯）分布|d）.用p（s）表示地标的真实条件分布|d）我们的目标如下：eβhx=βhj·xXJΣ（二）LKL=E（d，s）p（d，s）DKL（q（s|d）、||p（s|（d））、（3）=p（x）·x=Eh[x]，X其中hx是位置x处的预测概率质量，eβhj是归一化因子，β是温度。控制预测分布的自然因子[2]。我们用黑体字表示坐标（即x =（x1，x2）），并将2D软件gmax运算写为：从本质上讲，softargmax操作是期望在选定的维度上的像素坐标。因此，基于软目标最大值的损失假设基础分布仅可通过其均值（即，位置），不管预测有多确定，目标是匹配平均值。为了避免训练模型对于预测的平均值不确定，同时仍然产生低误差，我们使用{µ，σ}参数化分布，其中µ是所选分布的平均值或位置，σ是方差我们希望模型对预测是确定的（即一个小的变化或规模）。我们考虑两个参数分布Gaussian（μ，σ）和Laplace（μ，b），DG10107其中DKL是KL散度。我们假设一个真实的分布的情况下，高斯（即。高斯（μ，1），其中μ是地标的地面实况位置）。对于拉普拉斯的情况，我们寻求拉普拉斯（μ，1）。KL-发散方便地具有这一族指数分布的封闭形式解[14]。或者，采样产生近似值。图中的蓝色箭头。2表示框架的标记分支。从统计学上讲，给定两个具有不同方差的估计量，我们更倾向于具有较小方差的估计量（参见[7]中的偏差-方差权衡分析）。较低的方差意味着预测的置信度较高。为此，我们发现一个客观的测量分布之间的距离是准确和鲁棒的。神经网络必须满足对方差的额外约束，从而产生更高确定性的预测。参见图中更高置信度的热图。1和图3 .第三章。实验评价进一步验证了这一点（表2和表3）。此外，图5示出了样品结果。101083.2. 无监督分支上一节讨论了用可用的配对或完全标记的数据（即，（dl，sl））。我们用上标l来表示数据样本，以将其与未配对或未标记的数据（du）区分开来。一般来说，人类很难用地标标记许多图像。因此，未标记的数据是丰富的，更容易获得，这需要利用这些丰富的数据来改善训练。为了做到这一点，我们将对抗学习框架用于地标定位。我们将我们的地标预测网络视为生成器（G），G=q（h|d）. 其中[·，·]是张量级联运算。我们将D的真实样本定义为{dl，h=ω（si）}，其中ω（·）生成真实热图g，其基于地面实况地标的位置假样本由{du，hq（h|du）}。用这个符号，我们定义了标志定位的最小-最大目标为：minmaxLadv（D，G），（4）表1.生成器的架构（G）。层列出的大小和数量的过滤器（即。h×w×n）。DROP、MAX和UP代表dropout（概率0.2）、max-pooling（步幅2）和双线性上采样（2x）。请注意关于底部的跳过连接：粗到细，连接编码器（即。（D）to the de-编码器（即，DID）通过在融合之前经由全连接层连接特征通道。因此，除了最上面的两个层之外，所有层都具有保留的特征尺寸和特征图的数量（即，将特征图转换为K个热图的层）。步长为1，并进行填充以产生列出的输出大小。G D其中Ladv（D，G）写为：Σ ΣE（dl，sl）ΣlogD（[dl，ω（sl）]）+Σ3.4. 执行E（d）log（1−D（[du，G（du））]）。（五）我们首先遵循重组器网络（RCN）在这种设置中，提供输入图像，D的目标是学习从外观上破译真实和虚假热图。因此，G的目标是生成与真实非常相似的假热图。在这个框架内，D打算通过从标记和未标记的数据中学习来为G在Eq. 4使用交替更新解决。3.3. 培训我们融合了基于softargmax的损失和对抗性损失，在[ 16 ]中提出。具体来说，我们使用4分支RCN作为基本模型，输入图像和输出热图的大小为80×80。编码器的卷积层由64个通道组成，而解码器的卷积层由6 4 个通道组成。输出其输入端的128个通道中的64个通道（即，来自前一层的64个通道与经由分支跳过瓶颈的64个通道我们在除了最后一个卷积层之外的所有卷积层上应用了负斜率为0.2的Leaky-ReLU。有关发生器架构的详细信息，请参见表1辍学紧随其后，毕竟，minG.MaxD.Σλ·Ladv（G，D）+LSAM（G）Σ、（6）第一次和最后一次激活。我们使用亚当优化器与学习率为0.001，权重衰减为10−5。在所有情况下，网络都是从头开始训练的，没有使用任何数据其中KL发散版本的目标被定义为：也没有其他的minG.MaxD.Σλ·Ladv（G，D）+LKL（G）Σ、（7）D是一个4层的PatchGAN [17]。在每个卷积层之前，高斯噪声（σ = 0. [2][3][4]。对抗性损失的权重λ=0。001。这训练目标包括标记数据和未标记数据在配方中。在实验中，我们表明，这种组合显着提高了我们的方法的准确性。我们还认为，基于softargmax的版本不能充分利用未标记的数据，因为预测的热图与真实的热图差异太大。关于所提出的模型的T步的训练过程，参见Al-出租m1。我们展示了框架中未标记的分支--用红色箭头以图形方式显示（图2）。2）的情况。层张量大小输入RGB图像，无数据增强80 x 80 x 3转换（E1）3× 3× 64，LReLU，跌落，最大值40×40 × 64转换（E2）3× 3× 64，LReLU，跌落，最大值20×20 × 64转换（E3）3× 3× 64，LReLU，跌落，最大值10×10 × 64转换（E4）3× 3× 64，LReLU，跌落，最大值5×5 × 64转化（D4）1× 1× 64+E4，LReLU，DROP，UP10×10 × 128转化率（DF）5× 5× 128，LReLU20×20 × 128转换（D31× 1× 64+E3，LReLU，DROP，UP20×20 × 128转化率（DF）5×5 × 128，LReLU，DROP40×40 × 12810109然后进行批量归一化（除了顶部和底部层）和负斜率为0.2的Leaky-ReLU（除顶层外）。原始RGB图像被堆叠在来自G的K个热图的顶部，并作为D的输入（图2）。因此，D接收（K+ 3）个通道。我们对于2，设β=1。Pytorch被用来实现完整的框架。需要注意的一点是，使用拉普拉斯分布优化的模型始终优于基于高斯分布的模型。例如，我们的LaplaceKL基线的归一化均方误差（NMSE）为10110表2. AFLW和300W的NMSE分别由BB面积和两眼间距离的平方根标准化。AFLW300W4.01在300W上，而基于高斯的得到4.71。因此，在当前的网络配置下，更尖锐、“峰值”更高的拉普拉斯分布被证明在数值上更稳定，因为高斯需要更小的学习率来避免梯度消失。我曾用过《易经》。4. 实验我们在两个广泛使用的人脸对齐基准数据集上评估了所提出的方法。在训练我们的模型时，没有使用数据增强技术，学习率也没有下降：这就不会让人怀疑性能的提高是来自训练技巧还是学习组件本身。所提出的所有结果都来自训练了200个epoch的模型。接下来，我们将讨论用于评估性能的指标NMSE，其中数据集之间的归一化因子存在差异然后，分别介绍每个数据集的实验设置、结果和分析。最后，消融研究示出了关键超参数的表征，并且此外，所提出的LaplaceKL+D（70 K）的鲁棒性具有相当的性能，其中特征通道的数量仅为1/8并且>20 fps。4.1. 度量按照惯例[1，5，27]，使用NMSE，欧几里得距离的归一化平均值。从数学上讲：归一化因子d取决于面的大小，并且sk∈ R2和sk∈R2分别是地面真实坐标和预测坐标。面部大小d确保了NMSE分数不同大小的脸都有相当的权重。遵循前人，NMSE用于评价两个数据集，除了计算d时参考的点不同。以下小节提供了查找d的详细信息。4.2. 300W + MegaFace300W数据集是最受欢迎的人脸对齐数据集之一。它有68个可见的地标（即K=68）的3，837图像（即，3，148次培训和689次测试）。我们遵循300 W挑战[27]的方案，并使用NMSE（公式27）进行评估。8），其中d被设置为眼间距离（即，外眼角之间的距离）。按照惯例，我们评估了300 W的不同子集（即，共同点和挑战，共同构成完整的）。我们比较了以半监督方式训练的所提出的目标的性能。在训练过程中，300W数据集组成了标记数据（即，real），并且来自MegaFace的随机选择提供了未标记的数据（即，假）[22]。MTCNN1用于检测五个标志点（即，眼睛瞳孔，嘴角，鼻子和下巴的中间）[43]，这使得类似的面部作物从任何数据集。具体来说，我们将包围五个地标的方形外壳在每个方向上扩展了2倍换句话说，跨越5个点的最小边界框（即，最外面的点位于参数上），然后将矩形转换为边长为2×max（高度，宽度）的正方形。请注意，原始矩形的中点保持不变，以避免移位平移（即。如果半径是均匀的并且在所有方向上延伸，则向上舍入像素）。LaplaceKL+D（70K）模型在300 W时获得最新技术水平，在 300 W 时产生最低误差（表 2 （ 300 W列））。LaplaceKL+D（N）和softargmax+D（N）表示使用未标记数据训练的模型，其中 N 表示从MegaFace添加的未标记图像的数量首先，请注意，在没有未标记数据的情况下训练的LaplaceKL仍然达到了最先进的水平。然后，基于LaplaceKL的模型显示出相对改善，添加了更多未标记的数据。基于softargmax的模型不能充分利用未标记的数据，而不最小化方差（即。生成置信度较低的热图，因此传播更广）。另一方面，我们的LaplaceKL惩罚传播（即。#21453;，使D的工作更具挑战性。基于LaplaceKL的模型ΣK 伊什-s受益于越来越多的未标记数据。NMSE=k=1KK 2、（8）K×d此外，请注意基线模式之间的最大差距-els [8]和我们最好的LaplaceKL+D（70K）模型，其中，可见地标的数量设置为K，k={1、2、…[001pdf1st-31files]K}是可见地标的索引，300W的几套添加更多的未标记的帮助更多（即。1https://github.com/davidsandberg/facenet共同挑战充分[39]第三十九话5.435.5715.407.52LBF [26]4.254.9511.986.32MDM [32]-4.8310.145.88TCDCN [44]-4.808.605.54CFSS [46]3.924.739.985.76CFSS [21]2.174.367.564.99RCSR [38]-4.018.584.90RCN+（L+ ELT）[15]1.594.207.784.90CPM+ SBR [8]2.143.287.584.10Softargmax2.263.487.394.25Softargmax+D（10K）-3.347.904.23Softargmax+D（30K）-3.417.994.31Softargmax+D（50K）-3.418.064.32Softargmax+D（70K）-3.348.174.29LaplaceKL1.973.287.014.01LaplaceKL+D（10K）-3.266.963.99LaplaceKL+D（30K）-3.296.743.9610111图 3. 随机样品（ 300W ）。由我们的拉普拉斯 KL +D（70K）预测的热图（中间，即，L-KL+D（70 K））和softargmax+D（70 K）（右，即.SAM+D（70K））与面部图像（左）一起绘制地面实况。为此，颜色由为每个地标生成的K热图的值设置（即，范围为[0，1]，如颜色条中所示），然后叠加在原始面上。注意，KL发散损失产生更大置信度的预测，并且因此在可视化热图空间时产生分离的地标。换句话说，与基于softargmax的模型相比，所提出的模型具有关于平均值的最小传播，其中热图具有涂抹在一起的各个地标。最好是电子观看。LaplaceKL与LaplaceKL+D（70K）的改善约为2.53%。但是，必须使用未包含在标记组中的样本。为了证明这一点，我们将真实和假集设置为300 W（即，在第二项中dl=du等式（七）.本实验的NMSE结果如下所示：LaplaceKL +D（300 W）4.06（基线-4.01）和softargmax+D （ 300 W ） 4.26 （基线 -4.24 ）。作为hypothe-sized，来自标记集合的所有信息都已经在监督分支中被提取，没有留下在无监督分支中使用相同集合的好处。因此，更多的未标记数据会产生更多的难以训练的否定，这提高了罕见的样品（表2（300 W挑战组））。我们最好的模型在更简单的样本上比[8]好2.7%（即，共同的），平均提高4.7%（即而且，在难度更大的（即，挑战），平均（完全）好4.7%，而且，在更大的差异上好9.8%ficult（挑战）。这些结果进一步突出了优势-阶段的培训与拟议的拉普拉斯KL损失，随着对抗性的培训框架。此外，对抗框架进一步提高了我们的300 W基线（即，更多未标记的数据产生更低的NMSE）。具体而言，我们通过将300 W上的最先进的NMSE从4.01提升到3.91（即，无未标记数据至70K未标记对，恭敬地）。在每一步的大小都有提升（即。较大的N→NMSE）。我们随机选择未标记样品LaplaceKL+D（70K）和softargmax+D（70K）来可视化预测的热图（图（3）第三章。在每种情况下，基于softargmax的模型产生的热图传播得更广，解释了量化评分的恶化（表2）。用建议的贡献训练的模型倾向于产生更高的可能像素位置（即，更集中的预测热图）。对于大多数图像，由使用LaplaceKL损失训练的模型生成的热图具有更可信和适当分布的地标分布：我们的LaplaceKL+D（70K）产生的热图与平均值相差1.02个像素，而softargmax+D（70K）的变化为2.59。学习我们的拉普拉斯KL损失的地标分布在概念上和理论上是直观的（图。①的人。此外，这是实验证明（表2）。4.3. AFLW数据集我们评估了AFLW数据集上的LaplaceKL损失[20]。AFLW包含24，386张人脸，最多可包含21个地标注释和3D头部姿势标签。接下来，20,000张脸被用于训练，另外4,386张脸被用于测试。我们忽略了左右耳垂的两个标志，每个面部留下多达19个标志[8]。由于AFLW的面部具有如此多样的头部姿势，因此大多数面部都具有视野外的标志（即，缺失）。因此，大多数样本没有用完整的19个地标进行注释，这意味着它不允许恒定大小的张量（即，真实的热图）用于对抗训练。因此，我们将softargmax和基于KL的目标与现有的最新技术进行了比较。NMSE的面大小d是边界框外壳的平方根[1]。我们的拉普拉斯KL为基础的模型得分的结果与现有的国家的最先进的（即。RCN+（L+ ELT）[15]）在更大、更具挑战性的AFLW数据集上的表现优于所有其他数据集。在这里必须强调的是，[15]非常强调数据增强，而我们没有应用任何数据增强。此外，由于在一些样本中缺少界标（即，在所有样本中不存在共同的参考点），我们无法为我们的半监督组件准备面部4.4. 消融研究接下来测量误差作为模型大小的函数（表3），以及不同的β值（公式3）。2）和尺度b用于参数化拉普拉斯算子（图。4）. 后者10112表3.NMSE在300 W（全集）上，用于在每个卷积层中使用1/16，1/8，1/4，1/2的较少通道训练的网络，并且大小未修改（即（原文）从左到右排列。我们使用2.8GHz IntelCore i7 CPU测量性能。参数数量，百万0的情况。01740的情况。03890的情况。12810的情况。47811 .一、8724Softargmax9.796.864.834.354.25Softargmax+D（70K）9.026.844.854.384.29LaplaceKL7.385.094.394.044.01LaplaceKL+D（70K）7.014.854.303.983.91存储空间（MB）0.0760.1620.5071.9197.496速度（fps）26.5121.3816.7711.924.924.24.24.14.14.04.06.76.15.65.04.5b=13.90.1 10 20100ββ=10.5 1 2 510比额表（b）图4. LaplaceKL消融研究结果。特征的基线，并支持用于这些超参数的值，而前者揭示了一个关键特征的实用性的建议。具体来说，我们通过将每个卷积层的通道数量减少2个因子来减小模型大小。基于softargmax的模型恶化了大约47% 和 79% 的 NMSE 在一个和通道计数，分别为（即）。 4.25→6.86和 9.79）。 LaplaceKL ，另一方面，减少了约24%与第8和59%与第16的通道数（即4.01#35738;的，则？我们的模型使用未标记的数据进行（即LaplaceKL+D（70K））分别在8和16倍时下降了约 21% 和 57% （即， 3.91→4.85 和 7.01 ）。最后，LaplaceKL+D （70K）被证明是最好的缩小尺寸：0.040M<参数，它仍然与以前的最先进的[15，21，38]，这是一个明显的优势，年龄。例如，SDM [39]需要1.693M参数（25.17MB）用于7.52英寸NMSE（300 W全功率）。[2]然而，我们的最小和次小的参数只有 0.174M（ 0.076 MB ）和0.340M（0.166 MB），分别得到7.01和4.85处理速度也会随着通道的减少而提高（即，训练和推理）。例如，该模型减少了16倍，在Macbook Pro的CPU上2.8GHz英特尔酷睿i7），与原来的运行在4.92fps。我们最好的基于LaplaceKL的模型证明了对尺寸减小的鲁棒性，当减小1/8时，在21.38 fps下获得4.85NMSE。2https://github.com/tntrung/sdm_face_alignmentNMSE10113图5.使用LaplaceKL预测的地标随机样本（白色），地面实况绘制为线段（红色）。注意预测的点往往与地面实况重叠最好用彩色观看。放大以获得更详细的信息。5. 结论我们展示了提出的LaplaceKL损失的好处，并在对抗训练框架中利用未标记的数据。从假设和经验上，我们表明了惩罚里程碑预测的不确定性的重要性。因此，使用所提出的目标进行训练会产生更高置信度的预测，优于以前最先进的方法。我们还揭示了添加未标记的训练数据以通过对抗训练提高性能的好处。最后，我们的模型执行国家的最先进的所有三个分裂的著名300 W（即。常见、挑战和完整），在AFLW基准测试中排名第二。此外，我们证明了所提出的鲁棒性显着减少参数的数量。具体地说，用1/8的通道数（即，<170Kb的磁盘上），建议仍然产生的准确性相媲美的关键国家的最先进的实时（即。21.38fps）。因此，拟议的框架的贡献是工具的模型打算在现实世界中使用的生产。10114引用[1] Adrian Bulat和Georgios Tzimiropoulos我们离解决二维和三维人脸对齐问题还有多远？(and 230，000个3D面部标志的数据集）。在 IEEE 国际计算机视觉会议（ICCV），2017年。三六七[2] Olivier Chapelle和Mingrui Wu。平滑信息检索度量的梯度下降优化。Informationretrieval，13（3）：216-235，2010. 4[3] Timothy F Cootes，Gareth J Edwards，and Christopher JTay- lor.活动外观模型。IEEE模式分析与机器智能学报（TPAMI），（6）：681- 685，2001. 一、二[4] Timothy F Cootes和Christopher J Taylor。主动形状模型聪明的蛇。英国机器视觉会议（BMVC），1992年。一、二[5] 大卫·克里斯蒂娜和蒂莫西·F·库茨。具有约束局部模型的特征检测和跟踪。英国机械视觉会议（BMVC），第1卷，第3页。引用-预言家，2006年。6[6] Zhengming Ding，Yandong Guo，Lei Zhang，and YunFu.通过生成学习进行一次性人脸识别。在自动面部和手势识别（FG）中，第1IEEE，2018年。3[7] 佩德罗·多明戈斯统一的偏差-方差分解。国际机器学习会议（ICML），第231-238页，2000年。4[8] Xuanyi Dong，Shouou-I Yu，Xinshuo Weng，Shih-EnWei，Yi Yang，and Yaser Sheikh.配准监督：一种提高面部标志检测器精度的无监督方法。在IEEE计算机视觉和模式识别会议，第360-368页二六七[9] Zhenglin Geng，Chen Cao，and Sergey Tulyakov. 3d引导的精细面部操作。在IEEE计算机视觉和模式识别会议（CVPR），2019。3[10] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。神经信息处理系统进展（NIPS），第2672- 2680页，2014年3[11] Ralph Gross 、 Iain Matthews 、 Jeffrey Cohn 、 TakeoKanade 和 Simon Baker 。多派图像和视觉计算， 28（5），2010年。2[12] 我是阿尔普·古勒、吉奥·奇·特里吉奥、埃帕梅农达斯·安东·阿科斯、帕特里克·斯内普、斯特凡诺斯·扎菲里乌和亚索纳斯·科基。Densereg：完全卷积的密集形状回归。在IEEE计算机视觉和模式识别会议（CVPR），2017。2[13] Judy Hoffman 、 Eric Tzeng 、 Taesung Park 、 Jun-YanZhu 、 Phillip Isola 、 Kate Saenko 、 Alexei A Efros 和Trevor Darrell。Cycada：周期一致的对抗性结构域适应。2017. 3[14] Matthew D Hoffman，David M Blei，Chong Wang，andJohn Paisley. 随机变分推理机器学习研究杂志， 14（1）：1303-1347，2013。4[15] Sina Honari、Pavlo Molchanov、Stephen Tyree、PascalVin- cent、Christopher Pal和Jan Kautz。改善地标使用半监督学习进行定位。在IEEE计算机视觉和模式识别会议（CVPR），2018年。一二三四六七八[16] Sina Honari ， Jason Yosinski ， Pascal Vincent ， andChristo-pher.重组子网络：学习从粗到细的特征聚合。在IEEE计算机视觉和模式识别会议（CVPR）中，第5743-5752页，2016年。5[17]

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

LaplaceKL: 一种用于地标定位的深度网络模型

最新资源

LaplaceKL: 一种用于地标定位的深度网络模型

网络位置定位

双目视觉+卷积神经网络+地标+aekf

通过计算机视觉系统在RTK中感知外部环境。RTK信息系统的模型。

基于MediaPipe手势识别技术的虚拟鼠标的实现的手地标模型

中文 地标 shp文件

LIOM算法选取关键帧和地标

将定位结果与地图进行匹配

运用算法，在gps精度不足的情况下，如何使定位的路线更加精确

android百度定位

yolo非机动车检测模型

wildcat slam算法

swim transformer目标检测

landmarc定位算法代码matlab

室内厘米级别的高精度实时定位gps实现器件清单

除了根据出行频率确定地标性路段的方法，还有哪些方法能帮助我们确定地标性路段。

自动驾驶定位技术里的室内定位技术

cesium primitive 编辑

python中cnn做图像识别

matlab自动驾驶工具箱

粒子滤波三维定位算法matlab

最新资源

中文地标 shp文件