基于核密度深度神经网络的人脸对齐

195 浏览量更新于2023-10-12 收藏 1.02MB PDF 举报

人脸对齐

深度学习

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6992基于核密度深度神经网络的人脸对齐陈丽莎1，苏辉1，2，季强1，1伦斯勒理工学院2，IBM研究院网址：chenl21@rpi.edu，huisuibmres@us.ibm.com，网址：www.example.com，qji@ecse.rpi.edu摘要深度神经网络在许多计算机视觉问题（如人脸对齐）中具有良好的性能然而，当测试图像由于低分辨率、遮挡或对抗性攻击而具有挑战性因此，重要的是量化其预测中的不确定性。在目标上具有高斯分布的概率神经网络通常用于量化回归问题的不确定性然而，在现实世界的问题，特别是计算机视觉任务，高斯假设是太强了。为了模拟更一般的分布，例如多峰或非对称分布，我们建议开发一个核密度深度神经网络。具体而言，对于人脸对齐，我们将最先进的沙漏神经网络改编为概率神经网络框架，并将地标概率图作为其输出。通过最大化条件对数似然来训练模型。为了利用输出概率图，我们将模型扩展到多阶段，使得来自前一阶段的logits图可以馈送到下一阶段，以逐步提高地标检测精度。在基准数据集上针对最先进的无约束深度学习方法进行的大量实验表明，所提出的核密度网络在预测精度方面具有相当或更高的性能。它还提供了任意的预测不确定性估计。1. 介绍人脸定位是人脸识别、表情估计、头部姿态估计等人脸行为分析的基础人脸对齐的经典工作主要采用基于局部图像特征的级联回归框架[50，49，48，47]，其对初始化敏感，并且在具有挑战性的数据集上实现有限的性能。随着基于深度学习的回归和特征表示学习方法的引入，实现了最先进的面部对齐精度[41，52，43，3，11，46]。然而，人脸对齐的性能仍然对人脸图像质量敏感。大的头部姿势、对象遮挡或低分辨率等挑战可能导致不良的地标检测结果。此外，现有的基于深度学习的方法容易受到诸如对抗性攻击之类的小图像扰动的影响，这可能导致预测中更重要的是，现有的深度学习方法无法预测其输出的不确定性。因此，重要的是开发一个概率深度神经网络来量化预测的不确定性，并避免做出过于自信的错误决策。为了实现这些目标，我们提出了核密度深度神经网络（KDN）。与确定性方法不同的是，我们的模型给出了每个输入的目标概率分布。此外，与假设输出服从高斯分布不同，所提出的方法可以捕获更一般的概率分布，例如多峰或非对称分布。利用目标概率分布，我们可以量化预测置信度，以区分由大的头部姿势，物体遮挡或低分辨率引起的具有挑战性的输入图像，并识别遮挡下的地标。为了进一步利用输出概率图，我们进一步将我们的模型扩展到多级级联框架，以便在最后一个阶段产生的概率图可以作为输入，以指导下一阶段的检测，以逐步提高地标检测的准确性。工作贡献概述如下：1) 我们介绍了核密度深度神经网络，它可以生成目标概率图，而无需假设特定的参数分布。概率图可用于量化输出的不确定性并识别具有挑战性的地标。我们进一步将我们的模型扩展到多个阶段，使用输出概率图来逐步改进地标检测。2) 我们表明，在我们的方法中估计的不确定性，可以用来检测遮挡地标没有遮挡监督。3) 我们表明，所提出的方法一般可以扩展到其他回归任务，如动作单元强度估计。69932. 相关工作2.1. 概率神经网络为了量化神经网络中的不确定性，提出用概率神经网络对给定输入的条件目标概率分布进行建模，并用神经对于回归任务，通常假设目标遵循高斯分布[29，21，19]。对于高斯分布，采用神经网络对均值和方差进行预测。通过这种方式，预测由均值给出，不确定性由方差量化。然而，对于许多现实世界的问题，目标分布可能会更加复杂，例如。不对称或多模态，高斯分布不能充分地捕捉。为了处理这个问题，一种方法是参数化适合于特定问题的不同分布。例如，[28]使用Gamma分布来模拟手术持续时间的分布。和[34]使用冯米斯分布来模拟对象姿态的分布另一种方法是使用混合分布，其在近似具有不同形状的分布时更灵活。例如，[1]使用高斯分布和[34]将von Mises分布扩展为von Mises分布的混合分布，以处理多峰分布。这些方法通常仍然有假设，并不普遍适用。我们感兴趣的是建模的地标位置的分布因此，该分布通常不遵循某些标准参数分布，例如高斯分布。并且不同的界标可能具有非常不同的分布形状。2.2. 面部对准人脸对齐通常被视为回归问题，其中给定人脸图像，其目的是定位图像中的某些人脸关键点。经典方法属于主动形状模型（ASM）[26]，主动外观模型（AAM）[10，18，25，37]，约束局部模型（CLM）[20，38]和级联回归[7，4，54，5，49]。ASM模型的统计形状的对象，而AAM模型的形状和外观特征。CLM类似于AAM，其使用将局部外观特征和形状特征两者投影到基底上的主成分分析（PCA）来对形状进行建模级联回归逐步细化界标定位。这些经典的方法依赖于手工制作的本地图像特征，并且通常对初始化敏感它们的表现优于使用深度特征表示的基于深度学习的方法基于深度学习的人脸对齐方法首次在[41]中提出，并取得了比经典方法更好的性能后来，人们探索了更多使用深度学习框架进行人脸对齐的工作[53，52，43，12]，但它们都是基于坐标回归的。直到最近，基于完全卷积神经网络（FCN）[23]的方法为面部对齐和身体姿势估计建立了新的最先进技术[42，27，45]。大多数这些面部对齐方法[3，46]遵循堆叠沙漏[27]的架构堆叠的模块在每次堆叠后细化网络预测，类似于级联回归的想法。它不是直接预测地标坐标，而是预测与输入图像大小相同的热图，并且通过热图上具有最大响应的坐标来预测地标位置基于热图的回归的思想类似于全卷积神经网络，它保留了输入图像的空间信息，并减少了全连接层带来的参数。2.3. 全卷积网络损耗现有技术的面部对准方法采用具有热图回归损失的FCN损失函数通常被定义为预测热图与地面实况热图之间的均方误差该损失函数最初被引入并广泛用于人体姿态估计[42，27，2，8，6]。除了这个典型的损失函数，还有几个其他的选择，在文献中介绍了解决其他问题，如图像分割。一种选择是将问题视为多类分类问题，其中热图中的每个像素位置对应于一个类，并在2D热图上使用softmax交叉熵损失。这被用于Mask-RCNN[16]用于人体关节估计。选择热图中具有最高概率的一个像素位置作为估计。使用softmax交叉熵损失解决回归问题也存在于其他问题中，例如人脸年龄估计[31]，其中我们有离散的年龄标签。这些年龄标签虽然是离散的，但并不是独立的，因为具有接近值的标签在分类中应该更容易相互混淆。因此，在某种程度上，该损失函数放弃了由标签值提供的部分信息为了解决这个问题，论文[31]进一步使用从softmax概率计算的L2均值损失这个想法已经在其他任务中进行了探索，例如身体姿势估计[40]，头部姿势估计[35]。并且[13]进一步提出在面部年龄估计中使用L1损失而不是L2损失，而[44]提出将翼损失应用于热图回归，该热图回归在[12]中首次提出用于面部对齐中的传统坐标回归。这些工作虽然在低预测误差方面取得了令人满意的性能，但不能准确地量化预测的不确定性。最近，[15]提出估计协方差矩阵6994−2|D{|}≤ ≤ ≤≤|−−除了多元高斯分布的平均值之外，因此将不确定性纳入该框架。除了热图损失之外，添加L1，L2或高斯负对数似然损失的所有上述工作都然而，我们在本文中表明，在现实世界的计算机视觉问题中，情况往往并非如此因此，使用平均值进行推理将导致错误的预测，[39]，目标分布可以表示为乌姆登p（y x;Θ）=K（yµij）πij（x;Θ）（1）i=1j =1其中，K（yµij）是高斯核，其值是标准2D高斯多式联运案件。2（y−µij.）归一化为|Σ|-1，即K（y−µij）=另一种选择是把问题当作一种分类-1−1|2 Φ 2（y − µ ij）。|2 Φ Σ2 (y − µij). π（x;Θ），神经网络的输出每个像素的问题[32，17，33]。有两种类型的分类，一种是二进制分类，其中每个像素将被分类为目标或不是。和地面实况网络，是维度m×n的权重图，其中每个像素值πij（x;Θ）表示网络的权重Gaussiank ernelK（y−µij），0≤πij（x;Θ）≤1，二进制标签是通过将1分配给Mi=1nj=1 πij（x; Θ）= 1。地面实况目标像素周围的特定邻域位置，其余像素为0。另一种选择是多类分类[9]，其中每个像素被分类为身体或面部区域或背景之一。这些损失函数经常用于分割任务。由于它通常使用softmax或sigmoid交叉熵损失，这也是分类分布的负对数似然，因此它能够量化分类不确定性。然而，它们没有实现与[40]中研究的先前损失函数一样好的性能，并且仅给定单个像素位置作为地面实况关键点位置，难以定义地面实况身体或面部部分区域。因此，在这项工作中，我们提出了一个不同的损失函数和相应的推理方法，实现国家的最先进的性能，并提供良好的任意不确定性估计。我们的工作与以前的工作不同之处在于明确量化基于全卷积的架构中的不确定性，而不向预测的协方差添加额外的全连接层[15]。3. 该方法我们的方法是建立在概率神经网络框架。我们假设目标y（地标坐标）是跟随p（y）的随机向量|x;Θ），其中x是因此，我们形成连续概率p（y |x; Θ），其基于高斯核Kij（y − μij）及其对应权重πij（x; Θ）。值得注意的是，p（y x; Θ）的形式取决于我们对核函数的选择。如果我们选择具有1个像素范围的统一内核，则其等效于其中每个类别表示离散地标坐标的分类分布的似然性。在这里，我们选择高斯核来实现类似于核密度估计的平滑效果。通过这种方式，我们只改变了用于人脸对齐问题的神经网络的损失函数，而目标是在不假设目标的任何特定分布的情况下最大化条件似然，这与广泛实践的损失函数不同，该损失函数在地面实况标签周围放置固定的高斯热图作为地面实况热图，并最小化地面实况热图和预测热图之间的L-2距离损失函数损失函数定义为负对数条件似然。给定训练数据=xk，ykk=1，2，. . .，N，我们最小化损失函数以得到如等式（1）所示的Θ *。（二）、ΣN输入图像，Θ是神经网络参数。和p（y |x; Θ）由神经网络输出参数化。Θ*= arg minΘk=1logp（yk|xk; Θ）3.1. 核密度网络而不是假设目标遵循高斯分布，因为目前的模型正在做，我们建议模型ΣN= arg minΘk=1乌姆登日志i=1j =1K<$（yk−yij）πij（xk;Θ）（二）目标概率与多变量核密度函数[39]，以捕获更一般的概率分布，包括多峰和非对称分布。将m，n表示为沙漏模块输出π（x;Θ）的高度和宽度，µij=[i，j]T表示输出地图中的像素位置，其中1i m，1jn.根据多元核密度分布为了证明为什么提出的损失函数的基础上核密度的好处的学习过程中的人脸对齐，我们计算的梯度损失w.r.t. softmax 之前的层。为了简化符号，令wkij=K<$（yk−yij）。将样本k的softmax之前的层表示为fkij，并且 softmax 之后的层为 pkij ， pkij=sofftmaxx（fkij）。由训练样本贡献的损失的导数{xk，yk}可以计算为：Σ−−Σ6995××||图1：以Hour Glass模块为基本结构的级联网络结构，与[3]相同。输入图像的大小为256 256。概率图的大小为6464。小时玻璃模块之后的每个阶段的损失函数基于最小化负对数条件似然。由Eq计算。（四）损失北基季.Σm Σnwkij−ΣΣwkabp kabp（y |x;θ）伊K=基什多夫Σma=1a=1nb=1b=1wkabp kab（三）Σmi=1=Σnj=1 KΣ（y−µij）πij其中wKij>0度量每个像素乌姆登=−伊K（y−µ）π−1（y−µ）（四）热图中的位置和地面实况地标位置。像素位置[i，j]T越接近地面i=1j =1ijijij ij真理yk，更高的wKijΣma=1 Σnb=1 WKab帕卡布是前-预测的协方差。目标分布-离散概率分布上的相似性估计π（xk;Θ）。在Eq。(1)由高斯分布的混合物组成因此，其协方差矩阵可以计算为：在培训期间，如果w >乌姆登Kijw kab p kab，即覆盖率[yx;Θ]a=1不b=1|位置[i，j]处的相似性大于平均相似性。乌姆登（五）则fkij将增加。所以一开始，接近地面实况（相似性大于平均相似性阈值）的像素位置将具有其概率=+i=1j =1Σm（ym−yij）（ym−yij）Tπij（x;Θ）Σnpij增加，并且pix el faraw ay（相似性小于其中ym=i=1j=1yijπij（x; Θ）。平均相似性阈值）将具有最小概率下降，预测的不确定性通过以下方式量化：皱了皱。那么平均相似度Ma=1nb=1 wkabpkab协方差矩阵行列式的平方根1也将增加。随着平均相似度的增加更少的像素将使它们的相关概率增加。然后，随着训练过程的进行，热图将变得更加集中在地面实况附近。与用于分类的softmax交叉熵损失相比，这种损失考虑了每个像素的空间位置，而不像softmax损失在执行梯度更新时同等对待所有更重要的是，在训练过程的开始，接近地面实况的像素将增加其相关概率，这允许在地面实况周围进行探索并防止过拟合地面实况。推理。在测试期间，给定新的图像x∈，通过找到概率y∈=arg maxyp（y x∈; Θ∈）的模式来获得界标位置的预测。具体地说，连续概率分布的模式是通过首先将softmax映射与用于训练的带宽的高斯核卷积以获得离散概率映射并使用其在模式周围的局部平均值作为梯度上升的初始化来获得。梯度可以|x; Θ]|二、|2.3.2. 级联概率传播为了利用概率图，我们将单阶段模型扩展到多阶段，以便可以将前一阶段的概率图馈送到下一阶段，以逐步提高地标估计精度。与[30]类似，我们希望将估计的概率图传播到下一阶段。对于每个阶段，我们将具有估计的概率图p（yx; Θ），原始logits图（在softmax之前）与下采样的输入图像和具有与输入相同大小的特征图到下一个阶段，如图所示。1.一、其思想是，通过将概率图传播到下一阶段，它将隐含地引导下一阶段的网络更多地关注图像中具有高概率的区域。例如，如果对某个地标的预测具有高不确定性，则概率图将具有平坦形状，从而鼓励下一阶段的网络根据概率图在更宽的区域中搜索;否则，概率图将具有尖锐形状，.6996√∗D×≈N网络在下一阶段将尝试在附近邻域中改进预测。根据我们的实验，在第一阶段的概率图是更分散的，即。预测更多在由地面实况面部边界框尺寸D归一化的地面实况（YGT）和预测（YPred）界标位置之间，其中，WBbox和H Bbox是边界框的宽度和高度。 NME =不确定性，与后期的预测相比。和ΣN||y（k）−y（k）||2第一阶段的预测误差大于第二阶段阶段这证明了核密度网络对输出概率分布建模的有效性以及级联框架在提高检测精度方面的有效性。最近，[22]提出在多个阶段使用软标签损失，并逐步减少地面实况热图的固定方差，以便在后期进行更细粒度的这种方法的一个缺陷是，由于它对地面真实热图的固定方差敏感，因此需要仔细调整这个超参数，这对于深度神经网络来说可能很耗时，而我们的方法不需要这样的调整，而是逐步自动学习更集中的4. 实验数据集。我们在300W [36]，Menpo [51]，COFW[4]，AFLW [24]上评估了我们的方法。300W有68个地标注释。我们首先在300 W-LP [55]数据集（61225张脸）上训练该方法，该数据集是从原始的300 W数据集增强的，用于大偏航姿势。然后我们对原来的火车（3837面）进行微调在包含600张图像的300 W测试集上进行测试Menpo包含来自AFLW和FDDB的图像，具有遵循68个界标注释方案的界标重新注释。它有两个子集，额叶有68个标志点近正面的注释（6679个样本）和具有39个轮廓面部标志注释的轮廓（2300个样本）。我们使用正面集进行交叉数据集评估。COFW有1345个训练样本和507个测试样本，其面部图像都是部分遮挡的。原始数据集标注有29个地标。我们还使用COFW-68测试集[14]，其中有68个标志重新注释用于交叉数据集评价。AFLW包含24386个具有大头部姿势的面部，偏航姿势高达120度，俯仰和滚转姿势高达90度我们一起来[53]在AFLW完整数据集上进行实验，地标注释，其中20000和4386个样本分别用于训练和测试。评估指标。我们使用标准归一化平均误差（NME）和累积误差分布（CED）曲线来评估我们的算法。此外，还报告了曲线下面积（AUC）、最大误差为0.07时的故障率（FR）和地面实况位置处的负对数似然（NLL）标准化平均误差（NME）与[3]相同，NME定义为平均点到点欧氏距离k=1普雷德河曲线下面积（AUC）基于测试数据集中的NME，我们可以绘制一条累积误差分布（CED）曲线，横轴为NME，纵轴为测试图像的百分比。然后，AUC被计算为每个测试数据集的曲线下面积。实作详细数据。为了与使用软标签丢失的SoA方法进行公平的比较[3]，我们使用相同的训练和测试过程。培训程序：初始学习率为10- 4，使用10个小批量，15个epoch，然后在每15个epoch后下降到10- 5和10- 6，并保持训练直到收敛。使用Adam优化器。我们用随机的-诸如随机裁剪、旋转、翻转、缩放噪声、颜色抖动、遮挡等的标记。测试程序：我们遵循标准测试程序。使用由68个地面实况标志点的极端位置在300W中定义的地面实况边界框来裁剪面部。裁剪的面在传递到网络之前被重新缩放为256 256。我们没有使用任何其他的面部变换/归一化来进行公平的比较。总体复杂性：在具有4个HourGlass模块的网络中，参数总数为23，820，17624M。使用1个Nvidia RTX 2080Ti GPU，1个Xeon CPU，Ten- sorFlow 1.14.0，在300W-LP数据集上训练1个epoch大约需要26分钟，在300W-train数据集上训练1个epoch大约需要1.5分钟。推理速度约为10 fps。我们的推断是基于预测的连续分布的模式，通过梯度上升获得（详见3.1节）。4.1. 与现有方法的比较我们在300W测试数据集上进行测试采用相同的结构和不同的损失函数，实现了软标记、KDN-Uniform和KDN-Gaussian的结果为了进行公平的比较，它们使用相同的随机种子进行训练。基于我们实现的软标签的结果比[3]稍差。结果示于表1中。 300W测试数据集和Menpo挑战数据集的CED曲线如图所示。2a和2b。从表1中可以看出，与软标签损失相比，我们的损失函数在NME、AUC和FR方面实现了相当或更好的性能，并且与通过将最终热图归一化为概率图而从软标签方法计算的伪NLL相比，我们的方法给出了显著更好的NLL。我们还比较了使用均匀核而不是高斯核的结果。使用统一的核等价于将问题视为类核。16997表1：300 W试验、Menpo-额面试验和COFW-68试验的预测结果（%）数据集300 W-测试Menpo-额COFW-68测试度量方法NMEAUCFRNLLNMEAUCFRNLLNMEAUCFRNLLTCDCN [52]4.1542.14.83-4.0446.25.84-4.7135.88.68-CFSS [53]3.0956.71.83-3.9157.49.75-3.7949.04.34-风扇[3]2.3266.50.00-2.1669.00.21-2.9557.50.00-SAN [11]2.8659.71.00-2.9561.93.11-3.5051.93.94-软标签2.3266.60.334.672.2767.40.244.532.9257.90.005.27KDN-统一2.3865.90.502.782.1968.70.192.922.9258.00.204.13KDN-Gaussian（拟定）2.2168.30.502.932.0171.10.192.872.7360.10.003.21(a)300 W测试装置（b）Menpo-额（c）COFW-68测试装置图2：300 W测试、Menpo-正面测试、COFW-68测试的不同方法的CED曲线图10示出了根据本发明的一个实施例的图像处理系统，其将图像处理和目标分布分类为具有表示不同像素位置的类别的类别。这将导致一个非常清晰的概率图，即。过于自信的损失函数没有考虑不同类别之间的空间关系。图2a表明，我们的方法在一些具有挑战性的图像中比软标签方法表现得更好。与使用高斯核相比，使用均匀核会产生稍大的误差。部分原因是使用统一内核在训练和测试期间引入量化误差。在采用热图回归框架的最新工作中也存在量化误差，该热图回归框架通过从输出热图中获取最大值的坐标来获得地标坐标预测。但是由于热图比原始输入图像的宽度和高度都小4倍。这将导致下采样误差，这使得难以区分两个非常接近但不同的地标的位置。这对于密集地标计划来说可能是一个大问题。以前的工作通常要么不解决这个问题，要么通过启发式后处理方法解决这个问题，例如提供的实现在[3]中。与这些工作不同的是，我们的方法从预测的热图中构建了一个连续的2D高斯分布的混合。因此，在测试过程中，我们能够找到连续分布的模式，即使它位于两个像素之间。4.1.1跨数据集评价除了300 W的测试集，我们评估所提出的方法在Menpo数据集，COFW-68测试集的跨数据集评估。结果示于表1中。该方法在300 W-LP上进行训练，并在300 W挑战训练集上针对68个地标进行微调。虽然所提出的方法在300 W测试集和Menpo-frontal数据集上有类似或边际的改进，但我们可以看到，对于更具挑战性的数据集（如具有严重遮挡的COFW）的跨数据集评估，所提出的方法表现出更好的性能，特别是在NLL方面。4.1.2概率图可视化图3证明了该方法可以基于预测的热图区分遮挡的不确定地标和非遮挡地标。对于被遮挡的地标，预测的热图通常具有比未被遮挡的热图更平坦的形状。而传统的软标签回归方法很难体现遮挡标志点的预测不确定性。具有统一内核的核密度网络也能够区分被遮挡的地标，但与高斯内核相比，它具有更清晰的形状与核密度估计类似，与均匀核相比，高斯核在一定程度上平滑了估计的分布。因此，我们预测的热图可用于检测遮挡，而无需遮挡注释作为监督，不像[48，47]中的工作。图结果表明，该方法能够以更灵活的形状捕获分布。对于位于面部轮廓上的地标，预测的热图通常具有沿着面部的局部边缘而传统的软标签回归方法仍然预测代表标准2D高斯的圆形形状。6998表2：闭塞数据集预测结果（%）数据集COFW-29AFLW-full度量方法NMEAUCFRNLLNMEAUCFRNLLSAN [11]----4.0454.011.88-机场班车[12]----3.5653.57.52-软标签2.5164.30.976.132.8759.34.995.75KDN-统一2.5264.40.794.322.9158.15.244.21KDN-高斯2.2867.80.793.192.8060.34.673.56表3：遮挡检测结果（精度/召回率%）方法COFW-68COFW-29AFLW-full软标签56/4061/4061/40KDN-统一70/4076/4072/40KDN-高斯70/4075/4073/40图3：通过两种方法生成的遮挡地标的示例热图第一行是提出的核密度方法，第二行是软标签方法。显示的标志是68个点的子集，即。前3列表示点1，5，9，13，17;最后一列显示点31、46、37、49、55。图4：从两种方法生成的具有灵活分布形状的示例热图（最佳颜色和放大视图）。第一行是提出的核密度方法，第二行是软标签方法。显示的标志是68个点的子集，即。点15913174.1.3闭塞数据集我们定量评估COFW和AFLW-full上的遮挡检测对于COFW，我们报告了29点注释的原始测试集和COFW-68测试集的结果[14]在300W的火车上训练模型。请注意，对于遮挡检测，我们仅使用从概率图计算的协方差行列式的平方根为了计算软标签方法的伪方差，我们首先对热图进行归一化KDN-Uniform和KDN-Gaussian通常比软标签实现更好的精确度/召回率。由于除了遮挡之外还有其他原因导致不确定性，因此遮挡的地标应该具有更高的不确定性，但反之亦然。表4：闭塞vs.无遮挡点性能数据集COFW-68测试仪闭塞状态非闭塞闭塞方法NME（%）不确定NME（%）不确定软标签2.305.995.017.32KDN-统一2.461.254.457.89KDN-高斯2.341.634.0311.624.1.4挑战性条件我们评估了不同的方法在具有挑战性的条件下所造成的低分辨率或高噪声。我们手动添加不同尺度的噪声来清洁300 W测试集，并在图中绘制NME中的预测误差。图5a中，我们可以看到，对于每种方法，预测误差通常随着噪声尺度而增加，但所提出的方法在噪声条件下表现最好。图在图5b中，我们示出了NME与以像素为单位的输入图像的分辨率。4.2. 消融研究如果未指定，则在300 W测试集上进行消融研究，模型在300 W-LP上训练并在300 W列车集上微调。4.2.1核密度网络为了分析所提出的核密度网络的效果，我们评估了单级网络在预测精度和不确定性量化方面的性能表5示出了从具有单级的不同损失函数生成的结果的比较建议的损失函数是优于从软标签损失的结果。表5：300 W测试集上的单级方法NMEAUCFRNLL软标签2.5862.51.004.79KDN-统一2.5763.11.002.95KDN-高斯2.5263.90.503.014.2.2多级级联多级级联网络是端到端训练的。为了分析多个阶段的效果，我们评估每个阶段的性能。各阶段的NME和平均不确定度如图所示。6.从表中我们可以看到，下一阶段细化了前一阶段6999(a) 不同噪声尺度下的NME。（b）不同决议下的非市场经济。图5：不同挑战条件下的灵敏度（NME）。逐渐地。经过每一阶段，预测误差减小，预测的不确定性也减小。图6：每个阶段的不确定性和预测误差。4.3. 扩展到其他任务理论上，该方法可以广泛应用于任何回归任务的目标值是有界的。为了证明对其他任务的推广性，我们评估了面部动作单元强度估计的方法。4.3.1面部动作单元强度估计我们使用BP4D数据集，并使用度量平均绝对误差（MAE）和类内相关性（ICC）。我们将数据集按不同的主题分为训练集和测试集，即：训练集由奇数指标的受试者组成，测试集由偶数指标的受试者组成。结果示于表6中。KDN-Gaussian的性能在准确性方面并不总是最好的，但它比KDN-Uniform提供了一致的改进。表6：BP4D数据集5. 结论本文引入了核密度深度神经网络来量化人脸对齐中的任意不确定性，并且对于更一般的分布，因此我们的方法适用于其他回归任务。由于以前的工作使用固定方差高斯斑点热图进行监督（软标签），如[3]没有量化不同地标的不同不确定性据我们所知，这是第一个明确解决基于全卷积神经网络的回归问题中的不确定性量化的工作，具有比高斯更灵活的我们表明，不确定性可以用来检测遮挡没有遮挡监督。此外，我们的模型提供了一种原则性的推理方式，使用预测的连续分布的模式，与以前的后处理方法（如插值[11]或启发式方法[3]）相比，可以减少量化误差。此外，在多阶段框架中，平均预测的不确定性自动逐阶段降低，而无需手动调整每个阶段中高斯斑点热图的方差。我们希望这项工作可以使地标定位社区以及其他深度普通回归任务受益，并在设计损失函数时提供不同的视角，以考虑标签分布和任意不确定性。认知沉浸式系统实验室（CISL）是IBM和RPI之间的合作伙伴，也是IBM AI Horizon Network的中心方法MaeICC确定性0.8470.628高斯0.7480.664KDN-统一0.7950.559KDN-高斯0.7570.5887000引用[1] Christopher M.主教混合密度网络技术报告，1994年。[2] Adrian Bulat和Georgios Tzimiropoulos通过卷积部分热图回归的人体姿势估计。在ECCV，2016年。[3] Adrian Bulat和Georgios Tzimiropoulos我们离解决二维和三维人脸对齐问题还有多远？(and 230，000个3D面部标志的数据集）。2017年计算机视觉国际会议[4] X a vierP. 但是，阿蒂佐，皮埃特罗佩洛纳，和皮奥特娃娃一个'r。遮挡情况下鲁棒的人脸特征点估计在Proceedings of the 2013 IEEE International Conference onComputer Vision，ICCVIEEE计算机协会。[5] 曹旭东，魏一晨，方文，孙健。通过显式形状回归进行面部对齐International Journal of Computer Vision，107（2）：177[6] 曹哲、托马斯·西蒙、魏世恩和亚瑟·谢赫。使用部分仿射场的实时多人2d姿态估计。2017年IEEE计算机视觉和模式识别会议（CVPR），第1302-1310页[7] 陈冬，任少卿，魏亦琛，曹旭东，孙坚。联合级联人脸检测和对齐。在 David Fleet 、 Tomas Pajdla 、 BerntSchiele和Tinne Tuyte- laars编辑的《计算机视觉施普林格国际出版社.[8] Yu Chen ， Chunhua Shen ， Xiu-Shen Wei ， LingqiaoLiu，and Jian Yang.对抗性posenet：一种用于人体姿态估计的结构感知卷积网络。2017年IEEE计算机视觉国际会议（ICCV），第1221-1230页[9] Xiao Chu，Wanli Ouyang，Hongsheng Li，and XiaogangWang.CRF-cnn：人体姿态估计中的结构化信息建模InD.D. 李， M 。 Sugiyama ， U. 诉勒克斯堡岛 Guyon 和R.Garnett，编辑，《神经信息处理系统进展》，第316-324页Curran Associates，Inc.2016.[10] T. F. Cootes，G. J. Edwards和C. J·泰勒主动应用模型。Hans Burkhardt和 Bernd Neumann 编辑，计算机视觉-ECCV施普林格柏林海德堡。[11] 董宣仪、严妍、欧阳万里、杨毅。用于人脸标志点检测的风格聚合网络在IEEE计算机视觉和模式识别会议（CVPR）的会议记录中，第379-388页，2018年[12] Zhen-Hua Feng，Josef Kittler，Muhammad Awais，PatrikHu- ber，and Xiao-Jun Wu.用卷积神经网络进行鲁棒面部标志定位的翼损失。在IEEE计算机视觉和模式识别会议（CVPR）上，2018年。[13] Bin-Bin Gao ， Hong-Yu Zhou ， Jianxin Wu ， and XinGeng.使用标签分布学习期望的年龄估计。第27届国际人工智能联合会议论文集，第712- 718页。人工智能组织国际联合会议，2018年7月。[14] Golnaz Ghiasi和Charless C.福克斯闭塞一致性：检测和定位被遮挡的面部。CoRR，abs/1506.08347，2015。[15] 尼特什湾 Gundavarapu ， Divyansh Srivastava ， RahulMitra，Abhishek Sharma和Arjun Jain。人体姿态估计中的结构任意不确定性在IEEE计算机视觉和模式识别会议（CVPR）研讨会上，2019年6月。[16] 何开明、吉欧吉亚·吉欧萨里、彼得·多尔和罗斯·吉尔希克 . 面罩 R-CNN 。在 2017 年国际计算机视觉会议（ICCV）的会议记录中[17] Eldar Insafutdinov、Leonid Pishchulin、Bjoern Andres、Mykhaylo Andriluka和Bernt Schiele。Deepercut：更深、更强、更快的多人姿势估计模型。在ECCV，2016年。[18] F. Kahlovan，G. Muhitin，S. Darkner，和R.拉森一种用于人脸对齐的主动照明和外观模型Turkish Journal ofElectrical Engineering and Computer Sci-ence，18（4）：677[19] 亚历克斯·肯德尔和亚林·加尔贝叶斯深度学习在计算机视觉中需要哪些不确定性（Nips），2017年。[20] 作者：Peter N. Belhumeur和Shree K.纳亚尔Facetracer：一个搜索引擎，用于搜索带有人脸的大型图像集合。第十届欧洲计算机视觉会议（ECCV），2008年10月。[21] Quoc Le，Ale x Smola和Ste' phane Canu。异方差高斯过程回归Proceedings of the 22nd inter-national conferenceon Machine learning ICML 05，227：489[22] Wenbo Li，Zhicheng Wang，Binyi Yin，Qixiang Peng，Yuming Du ， Tianzi Xiao ， Gang Yu ， Hongtao Lu ，Yichen Wei，and Jian Sun.重新思考用于人体姿态估计的多级网络。CoRR，abs/1901.00148，2019。[23] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络。在IEEE计算机视觉和模式识别会议，CVPR 2015，美国马萨诸塞州波士顿，2015年6月7日至12日，第3431[24] Peter M. Roth Martin Koestinger，Paul Wohlhart和HorstBischof。野生动物的面部标志：一个大规模的，真实世界的数据库面部标志定位。在proc 第一届IEEE面部图像分析技术基准国际研讨会，2011年。[25] 伊恩·马修斯和西蒙·贝克。主动外观模型重新审视。International Journal of Computer Vision，60（2）：135[26] 斯蒂芬·米尔博罗和弗雷德·尼科尔斯。使用扩展的活动形状模型定位面部第十届欧洲计算机视觉会议论文集：第IV部分，ECCV '08，第504-513页，柏林，海德堡，2008年。史普林格出版社[27] Alejandro Newell，Kaiyu Yang，and Jia Deng. 用于人体姿态估计的堆叠沙漏网络。InComputer Vision-ECCV2016 - 14th European Conference ， Amsterdam ， TheNetherlands，October 11-14，2016，Proceedings，PartVIII，pages 4837001[28] 内森 ·H Ng ， Rodney A. Gabriel ， Julian McAuley ，Charles Elkan，and Zachary C.利普顿用神经异方差回归预测手术时间。在MLHC中，Proceedings of MachineLearning Research的第68卷，第100- 109111. PMLR，2017年。[29] 尼克斯检察官和AS魏根德估计目标概率分布的均值和方差。在1994年IEEE神经网络国际会议（ICNN'94）的会议录[30] Onur Ozdemir，Benjamin Woodward，and Andrew A.柏林消除多级贝叶斯卷积神经网络的不确定性及其在肺结节检测中的应用CoRR，abs/1712.0

下载后可阅读完整内容，剩余1页未读，立即下载