动物面部关键点检测的微调方法

92 浏览量更新于2023-10-15 收藏 1.29MB PDF 举报

人脸关键点检测

浙江大学

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1人脸关键点检测加州大学戴维斯分校mhnrashid@ucdavis.edu浙江大学gxy0922@zju.edu.cn加州大学戴维斯分校yongjaelee@ucdavis.edu摘要我们提出了一种方法来定位面部关键点的动物，通过转移从人脸获得的知识。我们不是直接将训练用于检测人脸关键点的网络微调为动物脸（这是次优的，因为人类和动物脸看起来可能非常不同），而是建议首先通过校正动物和人类脸部形状的差异来使动物图像适应预先训练的人类检测网络。我们首先找到每个动物图像的最近的人类邻居，使用一个无监督的形状匹配方法。我们使用这些匹配来训练薄板样条扭曲网络，以扭曲每个动物的脸，使其看起来更像人类。然后，使用动物数据集将扭曲网络与预先训练的人类面部关键点检测网络联合微调。我们展示了马和羊面部关键点检测的最新结果，以及对简单微调的显着改进，特别是当训练数据稀缺时。此外，我们提出了一个新的数据集，其中包含3717张带有马脸和面部关键点注释的图像。1. 介绍人脸关键点检测是人脸对齐和配准的必要前提，直接影响人脸表情分析、人脸跟踪以及对人脸进行操作或虽然人类面部关键点检测是一个成熟的研究领域，但尽管其重要性，动物面部关键点检测是一个相对未探索的领域。例如，兽医研究表明，马[16，11]，小鼠[25]，绵羊[3]和猫[17]显示疼痛的面部表情在本文中，我们解决了动物的面部关键点检测问题，重点是马和羊。卷积神经网络（CNN）在人脸关键点检测方面表现出令人印象深刻的性能[33，47，41，54，20，61，6，56]，这使得CNN在加州大学戴维斯分校实习时完成的工作（一）（b）第（1）款图1. 主要思想。（a）将人类关键点检测器直接微调到马可能是次优的，因为马和人类具有非常不同的形状和外观。（b）通过使马变形以具有更像人类的形状，预先训练的人类关键点检测器可以更容易地适应马这是学习动物面部关键点的一个有吸引力的选择不幸的是，从头开始训练CNN通常需要大量的标记数据，这可能是耗时和昂贵的收集。此外，虽然当目标任务没有足够的训练数据时可以对CNN进行微调，但预训练网络的学习程度受到可用于微调的数据量以及两个任务的相关性的限制。例如，以前的工作表明，在人造物体上训练的网络适应自然物体的能力有限[52]，并且额外的预训练数据只有在与目标任务相关时才有益[18]。虽然存在具有人类面部关键点注释的大型数据集（例如，AFLW有26000张图像[23]），但不幸的是，没有动物面部关键点的大型数据集可用于从头开始训练CNN(e.g.、来自[ 51 ]的绵羊数据集只有1600张图像）。同时，人类面部和动物面部之间的结构差异意味着直接微调一个人类的关键点检测器到动物可能导致一个次优的解决方案（如我们在第二节中所演示的）。4）.在本文中，我们解决了两种不同类型的数据（人类和6894人体关键点检测网络翘曲网络人体关键点检测网络6895动物面部）进行相同的任务（关键点检测）。如何通过CNN实现这一点？我们的关键见解是，我们可以先做相反的事情，而不是让预先训练好的网络适应新领域的训练数据。也就是说，我们可以将来自新域的训练数据适应预先训练的，以便更好地进行微调。通过将新数据映射到与来自预训练任务的数据更好地对齐的分布，我们可以从人类面部关键点检测的松散相关任务中获取预训练网络，并对其进行微调以用于动物面部关键点检测。具体来说，我们的想法是显式地扭曲每个动物图像，使其看起来更像人类，然后使用得到的扭曲图像来微调预先训练的网络，以检测人类面部关键点。见图1.一、直观地说，通过扭曲动物的脸看起来更像人类，我们可以纠正它们的形状差异，这样在微调过程中，网络只需要适应它们的外观差异。例如，马的嘴角之间的距离通常比眼睛之间的距离小得多，而对于人类来说，这些距离大致相似-形状差异。此外，马有皮毛，而人类没有- 外貌上的差异。我们的变形网络通过拉伸马的嘴角来调整形状差异，而在微调过程中捐款. 我们的贡献有三个方面：首先，我们介绍了一种新的动物面部关键点检测方法，该方法从人类面部关键点检测的松散相关领域转移知识。其次，我们提供了一个新的注释马面部关键点数据集consisting的3717图像。第三，我们展示了马和羊的关键点检测的最新结果。通过将动物数据转换为看起来更像人类的数据，我们在关键点检测准确性方面取得了显着的进步。重要的是，随着训练数据量的减少，我们的方法和简单的微调之间的差距会扩大，这表明我们的方法对小数据集的实际适用性。我们的数据和代码可在https://github.com/menoRashid/animal_human_kp上获得。2. 相关工作人脸特征点的检测与定位是计算机视觉领域中较为成熟经典的方法包括主动外观模型[8，32，35，43]，Con，应变局部模型[10，9，36，1]，基于回归的方法，ODS [44，48，5，49]与级联[13，26，59]，以及基于范例的模型的集合[2]。最近的工作通过从多个特定领域的回归器[60]学习预测或通过在每个级联级别使用回归专家的混合[42]来扩展级联回归模型。这些当使用紧密相关的任务（如面部检测[28]、3D面部重建[7]和面部动作单元激活检测[46]）求解模拟时，模型也表现出良好的性能在深度学习领域，粗到精的方法通过级联[40，58，55，56]或分支网络[27]来细化关键点的粗略估计其他人通过使用单独的集群特定网络[ 45 ]来辅助关键点检测，使用相关辅助任务[ 57 ]对其进行增强，使用头部姿势预测[ 50 ]进行初始化，使用空间Transformer [ 6 ]校正变形，结合形状基础和薄板样条变换[53]，将关键点检测公式化为密集的3D人脸模型拟合问题[20，61]，或者使用深度回归模型结合去腐败自动编码器[54]。最近的工作探索使用递归神经网络[33，47，41]。虽然深度学习方法表现出令人印象深刻的性能，但它们通常需要大型注释数据集。而不是收集一个大的数据集，[31]使用特定的增强技术来合成姿势，形状和表情变化。然而，它依赖于3D人脸模型的可用性，并解决了相关但独立的人脸识别问题。类似地，[12]利用可用于人脸识别的大型数据集来训练深度网络，然后使用少量数据来指导表情识别网络的训练。然而，虽然[12]在依赖于相同类型数据（人脸）的两个不同任务（人脸识别和表情识别）之间传输知识，但我们在两个不同数据源（人类和动物面部）之间传输知识，以解决相同的任务（面部关键点检测）。据我们所知，动物的面部关键点检测是一个相对未开发的问题。最近，[51]提出了一种用于绵羊关键点检测的算法，在级联形状回归框架中使用三重插值特征。与我们的方法不同，它重新躺在手工制作的功能，并没有转移知识边缘从人类到动物的面孔。在[39，37，30，29]中已经探索了鸟类的关键点定位，尽管这些方法并不关注面部关键点检测。3. 方法我们的目标是检测动物的面部关键点，而不需要大型注释动物数据集的帮助。为此，我们建议将预先训练的人类面部关键点检测器适应动物，同时考虑它们的物种间差异。对于训练，我们假设访问关键点注释的动物面部和关键点注释的人类面部以及它们对应的预先训练的人类关键点检测器。为了测试，我们假设访问动物面部检测器（即，我们只关注面部关键点检测而不关注面部检测）。6896J图2. 我们使用从关键点注释生成的角度来近似面部姿势。用于计算感兴趣角度的关键点取决于哪些面部部分可见。例如，在右侧，马的右眼和右嘴角不可见，因此使用的三个虽然简单，但我们发现这种方法可以产生可靠的姿势估计。我们的方法有三个主要步骤：（1）找到与每个动物面部具有相似姿态的最近邻人脸;（2）使用最近的邻居来训练动物到人的变形网络;以及（3）使用变形的（类人的）动物图像来微调用于动物面部关键点检测的预先训练的人类关键点检测器。3.1. 具有姿态匹配的最近邻为了将（松散相关的）人类面部关键点检测器微调为动物，我们的想法是首先将动物面部扭曲为更像人类的形状，以便预先训练的人类检测器更容易适应动物数据。一个挑战是任意的动物和人脸对可以表现出完全不同的姿势（例如，一匹面向右的马和一个面向左的人），这使得翘曲非常具有挑战性，甚至是不可能的。为了减轻这个困难，我们首先找到了姿势相似的动物和人类。如果我们有动物和人类面部的姿势分类器/注释，那么我们可以简单地使用它们的分类/注释来找到兼容的动物和人类对。然而，在这项工作中，我们假设我们没有访问姿势分类器，也没有姿势注释。相反，我们在给定其关键点注释的情况下近似更具体地说，我们计算一对人类和动物关键点之间的角度差，然后为每个动物实例挑选最近的对于每个动物训练实例Ai，我们基于姿势找到其最近的人类邻居训练实例Hjj j图3.对于每个动物图像（第1列），我们找到了姿势方面最接近的这些人类邻居被用来训练一个扭曲网络，将动物扭曲成类似人类的面部形状。虽然简单，但我们发现这种方法可以产生可靠的姿势估计。在我们的实验中，我们为每个动物的脸找到K=5个最近的人类邻居。图3示出了一些示例。由于我们使用 TPS变换将动物变形为人类（如下一节所述），因此我们仅计算具有至少三个关键点的动物面部的匹配，并忽略关键点接近共线的人类匹配请注意，我们在测试期间不进行姿态匹配，因为我们无法访问地面实况关键点;相反，我们依赖于随后的变形网络来在训练期间学习每个动物面部姿势的“正确”变形（基于其外观）。3.2. 种间面部变形网络现在我们有了每个动物脸最接近的人脸（就姿势而言），我们可以使用这些匹配来训练动物到人类的人脸变形网络。该变形网络用于使动物面部的形状适应于更接近地类似于人类的形状，使得预先训练的人类面部关键点检测器可以更容易地在动物面部上进行微调。为此，我们训练了一个CNN，它将动物图像作为输入，并通过薄板样条（TPS）[4]变换对其进行扭曲我们的扭曲网络是一个空间Transformer [19]，nn（Ai）=Hj=argmin |∡∗AHJ-李明博|、（1）与[6]类似，关键的区别在于我们的扭曲是直接监督的1我们的网络架构是简单的-其中j索引整个人脸训练数据集，并且根据动物面部的可见关键点，以两种不同的方式测量感兴趣的角度θ。当眼睛和鼻子都存在时，我们使用Ec=ENE c V，其中Ec是眼睛中心之间的中点，N是机头位置，V是以Ec为中心的垂直线。如果只有左眼可见，则我们使用左眼、鼻子和左嘴巴关键点：∡∗=∡El NM l(and ∡E r NM rif the right eye is visible).这些情况如图所示。二、类似于[38]中的定位网络;它与Alexnet [24]相同，直到第五个卷积层，然后是一个1×1卷积层，将过滤器的数量减半，两个全连接层，并在第五层之后的每一层在训练中，前五名队员-在ImageNet上对ers进行预训练。我们发现这些层/过滤器1相反，在[19]中，监督仅来自最终识别目标，例如，关键点检测我们在Sec中显示。4直接整经监督产生优越的性能。我6897光滑L型预紧器>网格发生器128384 384256128256961001610644864输入图像翘曲图像16关键点预测翘曲损失关键点检测丢失关键点检测网络翘曲网络图4. 我们的动物面部关键点检测网络架构。在训练过程中，输入图像被馈送到变形网络中，该网络使用具有相似姿势的关键点注释的人类和动物图像对直接进行监督。扭曲的网络扭曲输入的动物图像具有类似人类的形状。然后，将扭曲的动物面部传递到关键点检测网络上，该关键点检测网络利用扭曲的动物图像对预先训练的人类关键点检测网络进行微调。在测试过程中，网络获取输入图像，并为左眼、右眼、鼻子、左嘴角和右嘴角生成5个关键点预测选择，以实现良好的TPS转换学习，而不会过度拟合。参见图4（左）。对于每个动物和人类训练图像对，我们首先使用其对应的关键点对计算地面实况TPS变换然后，我们使用我们的变形网络来计算预测的变形动物图像。为了训练网络，我们回归地面真实扭曲图像和预测扭曲图像像素位置偏移之间的差异，类似于[21]。具体来说，我们使用平方损失来训练网络：Σ典型层和具有绝对双曲正切非线性的两个全连接层，以及最后三个卷积层中的最大池化我们将其调整为适用于更大的图像-我们使用224×224图像作为输入，而不是[45]中使用的40×40-通过添加额外的卷积和最大池化层。此外，我们在每一层之后添加批量归一化，因为我们发现原始网络中的tanh层容易饱和。图4（右）显示了架构。我们的关键点检测网络是在AFLW [23]数据集上对人类面部关键点进行预训练的，[40]中使用的训练数据（共31524张图像）。为了微调我们的关键点网络，我们使用平滑的L1L（A）=（ppred−pgt）2，（2）经一i，mMi，m损失（相当于δ=1的Huber损失）[15]因为它对可能发生的异常值不太敏感，其中Ai是第i个动物图像，ppred和pgt是常见的动物姿势：我，我，我，对于像素m分别为预测偏移和地面实况偏移。值得注意的是，我们的翘曲网络需要L关键点（Ai）=Σ1（ki，n −ki，n），（3）n没有额外的注释用于训练，因为我们只使用其中Ai是第i个动物图像，kpred和kgt是动物/人类关键点注释来查找匹配（i，ni，n对于训练它们各自的关键点检测器已经是可用的并且是必需的此外，由于每只动物-预测和地面实况关键点位置，分别，对于第n个关键点，平滑L1为如果姿态具有多个（K=5）人类匹配，则训练变形网络以将多个变换识别为潜在正确的。这是一种数据扩充形式，有助于降低网络对异常值的光滑L1（x）=.0的情况。5x2，如果|X|<1|-0。| − 0. 5、否则（四）火柴3.3. 动物关键点检测网络我们在前一节中的变形网络将动物数据的分布调节为更接近的人类数据，以便我们可以利用大型人类关键点注释数据集，这些数据集随时可用于关键点检测。最后一步是微调一个预先训练好的人类面部关键点检测网络，以检测我们扭曲的动物面部上的面部关键点。我们的关键点检测器是[45]中使用的Vanilla CNN架构的变体。该网络有四个卷积-6898我们为预测的关键点设置损失，没有任何相关信息。将地面实况注释（由于遮挡）响应为零。3.4. 最终架构在我们的最终模型中，我们在关键点检测网络之前拟合扭曲网络，该关键点检测网络是在人体关键点检测上预先训练的。我们利用这两个损失来共同微调两个网络。关键点检测损失L关键点（等式11）3）通过关键点检测网络以及翘曲网络反向传播。此外，翘曲损失Lwarp（方程10）也可以被计算。（2）反向传播68991010并且在更新两个网络的权重之前累积梯度。见图4.第一章在测试阶段，我们的关键点网络预测每张图像的所有5个面部关键点。在我们的实验中，我们不会因为图像中不可见的关键点预测而惩罚网络，并且仅报告具有相应地面实况的预测关键点的结果。4035302520151050LE RE N LMRM所有关键点454035302520151050LE RE N LMRM所有关键点记法为了评估，使用TPS扭曲参数将在扭曲图像上预测的关键点3.5. 马面部关键点数据集作为这项工作的一部分，我们创建了一个新的马数据集来训练和评估面部关键点检测算法。我们通过Google和Flickr搜索“马脸”、“马头”和“马”来收集图片此外，我们还纳入了 PASCAL VOC 2012 [14] 和Imagenet 2012 [34]数据集的图像数据集中共有3717张图像：3531用于培训，186用于测试。我们用面部边界框和5个关键点注释了每个图像：左眼中心、右眼中心、鼻子、左嘴角和右嘴角。4. 实验在本节中，我们分析了模型的关键点检测精度，并执行消融研究以测量每个组件的贡献。此外，我们评估了我们的方法基线。我们比较了算法在[51]中，其在级联形状回归框架中使用三重插值特征（TIF）用于动物的关键点检测。我们还制定了自己的基准。第一个基线是我们的完整模型，没有扭曲网络。它只是在动物数据集上微调预先训练的人类面部关键点网络（第二个基线是我们的完整模型，没有翘曲损失;也就是说，它仅在关键点检测损失的情况下微调预训练的人脸关键点网络和变形网络该基线等同于[19]中的空间Transformer设置。我们用TPS扭曲（“BL TPS”）显示了结果。第三基线从头开始训练关键点检测网络;也就是说，而没有任何人脸关键点检测预训练并且没有扭曲网络（数据集。我们在AFLW [23]数据集和[40]中使用的训练数据（总共31524张图像）中的人脸关键点上该数据集也用于动物到人类的最近邻检索。我们在两种动物上评估关键点检测：图5. 平均关键点检测失败率（预测关键点的百分比，其到对应的地面实况关键点的欧几里得距离大于面部边界框大小的10%）。马（左）和羊（右）。我们的方法优于基线。越低越好。详情见正文马和羊对于马的实验，我们使用我们的马面部关键点数据集，其中包括3531个用于训练的图像和186个用于测试的图像。对于绵羊实验，我们用嘴角手动注释了[51]中提供的数据集子集，以便我们在人类数据集中具有相同的5个关键点该数据集包含432张用于训练的图像和99张用于测试的图像。评价指标。我们使用与[51]相同的度量进行评估：如果预测和地面实况关键点之间的欧几里得距离然后，我们计算平均失败率，即失败的测试关键点的百分比。培训和实施细节。我们发现在联合训练之前对翘曲网络进行预训练会带来更好的性能。为了训练变形和关键点网络，我们为每个动物实例使用K=5这些匹配也被用来监督4.4对于TPS翘曲网络，我们使用5×5控制点网格我们使用Adam [22]优化所有网络Warp网络训练的基本学习率为0.001，预训练层的学习率低1倍它训练50个epoch，25个epoch后学习率降低1倍。在整个系统训练期间，warp网络具有相同的学习率，而关键点则具有相同的学习率。保护网络的学习率为0.01。我们训练网络150个epoch，在50和100个epoch后降低学习率两次。最后，我们使用水平翻转和旋转，从-10到10，增量为5，用于数据增强。4.1. 与我们的基线比较我们首先将完整模型与模型变量基线进行比较。图5（左）和（右）分别显示了马和羊数据的结果。我们在马和羊的表现都超过了所有的基线，平均-我们BL TPSBL FT划痕我们的BL TPSBL FT划痕故障率%故障率%6900我们TIF10080604020马背上一10080604020的羊10080604020马背上一10080604020的羊00 5 10 15 2025错误阈值%00 5 10 15 2025错误阈值%00 5 10 15 2025错误阈值%00 5 10 15 20 25错误阈值%图6. 我们系统中所有关键点的平均关键点检测失败率与我们的基线（前两个图）和杨等人的三重插值特征（TIF）方法。[51]（最后两个图）。我们的系统在比所有基准更严格的故障阈值下保持更低的故障率。25201515101055我们[五十一]0LERENLMRM所有0LE RENLMRM所有关键点关键点图8. 定性的例子比较我们的方法和杨图7.马（左）和绵羊（右）的平均关键点检测失败率。我们的方法显着优于杨等人的三重插值特征（TIF）方法[51]，其将手工制作的特征与级联形状回归相结合。越低越好。关键点的老化失效率分别为8.36%和0.87%。总体而言，绵羊的所有方法（刮擦法除外）的失败率均低于马。主要原因是由于人和羊数据的姿态分布比人和马数据的姿态分布更相似人和羊的数据中有72%和84%的图像是正面姿势（面部所有5个关键点都可见），而马的数据中只有大多数（60%）马的面是侧视图（只有3个关键点可见的面）。这种相似性使得人类预先训练的网络更容易适应绵羊而不是马。尽管如此，我们的方法优于两个数据集的基线，这一事实表明我们的想法可以推广到不同类型的数据。这些结果也显示了我们的系统的每个组件的重要性。使用人工预先训练的网络进行训练比从头开始进行训练（BL FTvs. Scratch）;添加仅由关键点检测丢失弱引导的扭曲网络进一步改善了结果（BL TPS与BLFT）;最后，直接监督变形网络以产生看起来更像人类的动物面孔，从而获得最佳性能（我们的与 BLTPS）。图中的前两个图。图6示出了针对我们和基线性能上的有效关键点改变接受阈值（关于地面实况和预测关键点之间的欧几里得距离）的结果。我们的方法在阈值范围内保持了卓越的准确性，[51]关于羊的故事虽然[51]可以产生良好的预测（第一列），但总体而言，我们的方法产生了更准确的结果。再次表明我们预测关键点更准确。图9显示了我们和基线的预测关键点和预测扭曲的定性示例值得注意的是，在没有翘曲损失的情况下产生的TPS翘曲（BL TPS翘曲）无法区分不同的马姿势，也不会使马的脸看起来更像人类。另一方面，我们的翘曲网络能够很好地完成这两项任务，因为它直接由姿势特定的人类匹配监督。通过将马扭曲成更像人类的形状，我们的方法产生了比基线更精确的关键点预测最后两行显示了由于极端姿势或闭塞而导致的典型失效示例。4.2. 与Yang et al.[五十一]接下来，我们将我们的方法与[51]的三重插值特征（TIF）方法进行该方法要求所有训练样本中存在所有地标。因此，我们选择了马和羊图像的一个子集，其中所有5个关键点都可见并标记：绵羊的训练/测试图像为345/100，马的训练/测试图像为982/100。图8示出了比较我们的方法的关键点预测与由TIF制作。TIF通常无法处理大的外观和姿势变化。这也反映在定量结果中，如图1所6（第三）和图。 7（左）为马数据集和图。6（第四）和图。7（右）绵羊数据集。我们在两个数据集上的表现都显著优于TIF（马和羊的失败率分别降低了10.44%和12.52%，我们TIF我们TIF我们TIF故障率%故障率%故障率%故障率%故障率%故障率%我们BL TPSBL FT划痕我们BL TPSBL FT划痕6901地面实况我们的曲速我们的预测BL TPS翘曲BL TPS菲内图恩足球俱乐部图9. 我们和基线的预测关键点和预测扭曲的定性示例。前五行显示了我们的方法优于基线的示例。虽然基线也会产生合理的结果，但通过将马扭曲成更像人类的形状，我们的方法可以产生更精确的关键点预测。例如，在第一行中，基线没有定位鼻子和嘴角以及我们的。最后两行显示了由于极端姿势或闭塞而导致的典型失效示例。6902我们的BL TPSBL FT失败率%3516153014251320121511表1. Horse数据集上所有关键点的平均关键点检测失败率，将我们的方法与上限地面真实变形基线进行比较。越低越好。1055001000 1500 2000 2500 3000 3500 4000训练数据大小10981 5 10 15NN数量与地面实况变形图像（图10.（左）平均关键点检测失败率作为Horse数据集上训练实例数量的函数。与基线相比，我们的失败率随着训练图像数量的减少而增加。越低越好。（右）增加动物面部实例的人脸邻居数量可以提高性能，直到嘈杂的邻居导致性能下降。分别地）。主要原因是因为我们使用了高容量的深度网络，而TIF是一种使用手工制作的特征进行学习的浅层方法。重要的是，我们能够使用如此高容量的深度网络的原因-尽管动物模型的训练数据有限-正是因为我们校正了动物和人类之间的形状差异，以便微调预先训练的人类关键点检测网络。4.3. 训练数据大小在本节中，我们将评估网络的性能如何随着训练数据量的变化而变化。为此，我们训练和测试了多个版本的模型和基线，每次使用500到3531张训练图像，在Horse数据集上以500张图像为增量。图10（左）显示了结果。虽然所有方法的性能都随着训练数据量的增加而下降，但我们的性能受到的影响远远小于简单的微调和TPS基线。特别是，当只使用500张训练图像时，我们的方法在依赖相同网络架构的情况下，故障率比TPS基线低6.72%，比简单微调低13.39%，而不使用任何额外的训练数据或注释。这一结果表明，我们的算法很好地适应了少量的训练数据，并支持了我们最初的论点，即明确纠正物种间的形状差异可以更好地微调，因为预先训练的人类关键点检测网络可以主要关注两个领域（人类和动物）之间的外观差异。重要的是，它还显示了我们的方法对小数据集的实际4.4. 整经精度的影响接下来，我们分析扭曲精度对关键点检测的影响。为此，我们首先分析关键点检测网络在微调以及用于翘曲的马面（即，关键点检测网络用地面实况（ground-truth）变形图像进行微调）。在某种意义上，这代表了我们系统性能的上限。表1显示了我们的Horse数据集的结果首先，GTWarp上限产生的错误率甚至比我们的方法更低同时，GT Warp不可忽略的错误率也暗示了我们的Warping网络的训练数据和/或姿势匹配策略的局限性更好的训练数据，使用不同的算法进行最近姿态邻居匹配或增加注释的关键点可能会导致更好的上限，并且也可能为我们的方法提供改进。4.5. 最近邻的最后，我们评估了人类最近邻对我们系统的重要性。我们将用于训练整个系统的最近邻的数量从K=1变化到K=15，增量为5。结果如图10（右）所示虽然错误率随着用于训练的邻居的数量在开始时增加而降低，但最终，检索到的最近邻居中的噪声导致错误率增加。5. 结论我们提出了一种新的方法来定位动物的面部关键点现代深度学习方法通常需要大型注释数据集，但收集此类数据集是一个耗时且昂贵的过程。我们不是收集一个大的带注释的动物数据集，而是将动物的面部形状扭曲成看起来像人类的形状。以这种方式，我们的方法可以利用容易获得的人类面部关键点注释数据集用于动物面部关键点检测的松散相关任务我们将我们的方法与几个强基线进行了比较，并展示了马和羊面部关键点检测的最新结果。最后，我们介绍了一个新的马面部关键点数据集，我们希望社区将用于进一步研究这个相对未开发的动物面部关键点检测主题。鸣谢。这项工作得到了瑞典农业科学大学的捐赠和NVIDIA捐赠的GPU的部分支持。失败率%GT Warp我们故障率%7.76%8.36%6903引用[1] A. Asthana，S. Zafeiriou，S. Cheng和M.惊慌失措具有约束局部模型的鲁棒判别响应图拟合。CVPR，2013。2[2] P. N. Belhumeur，D. W. Jacobs，D. J. Kriegman和N. Ku-mar. 使用一致的例子定位面部的部分。 PAMI ， 35（12）：2930-2940，2013. 2[3] A. Boiss y，A. 奥贝尔湖先生，先生，L。 Gre iv eldinger，E. 德尔·瓦尔和我。维西耶认知科学将绵羊的耳朵姿势与情绪联系起来。动物福利，20（1）：47，2011。1[4] F. L. 布克斯坦主要经纱：薄板样条和变形分解。TPAMI，11（6）：5673[5] X. Cao，Y. Wei，F. Wen和J. Sun.用外显形状回归法进行人脸对齐. IJCV，107（2）：177-190，2014. 2[6] D. Chen，G.Hua，F.Wen和J.太阳用于高效人脸检测的监督Transformer在ECCV，2016年。一、二、三[7] D. Chen，S.任，Y. Wei，X. Cao和J. Sun.联合级联人脸检测和对齐。2014年，在ECCV。2[8] T. F. Cootes，G.爱德华兹角J. Taylor等人主动应用模型。TPAMI，23（6）：681-685，2001. 2[9] D. Cristinacce和T.虱子带约束局部模型的自动特征定位。Pattern Recognition，41（10）：3054-3067，2008.2[10] D. Cristinacce和T.F. 虱子特征检测和跟踪与约束的局部模型。BMVC，2006年。2[11] E. Dalla Costa，M. Minero，D. Lebelt，D. Stucke，E.Canali和M. C.利奇开发马鬼脸量表（HGS）作为接受常规去势的马的疼痛评估工具 PLoS one ， 9 （ 3 ）：e92281，2014. 1[12] H. Ding，S. K. Zhou和R.切拉帕Facenet2expnet：正则化用于表情识别的深度人脸识别网络。arXiv预印本arXiv：1609.06591，2016年。2[13] P. 多尔山口。 Welinde r和P. 佩洛娜级联姿态恢复。CVPR，2010。2[14] M.埃弗灵厄姆湖，澳-地凡古尔角，澳-地K. I.威廉斯，J.Winn 和 A. 齐瑟曼。 PASCAL Visual Object ClassesChallenge2012（VOC2012）http://www.pascal-network.org/challenges/VOC/voc2012/workshop/index.html啊5[15] R.娘娘腔。快速R-CNN。在ICCV，2015年。4[16] K. B. 格里鲁普湾福克曼角Lindegaard和P.H. 安德-森。一张痛苦的脸。兽医麻醉和镇痛，42（1）：103-114，2015。1[17] E.霍尔登湾卡尔沃湾Collins，A. Bell，J. Reid，E. Scott和A.诺兰猫急性疼痛时面部表情的评价。Journal ofSmall Animal Practice，55（12）：615 1[18] M. P. Agrawal和A A.埃夫罗斯是什么让imagenet适合迁移学习？arXiv预印本arXiv：1608.08614，2016。1[19] M. Jaderberg ， K. Simonyan 、 A. Zisserman 等人空间Transformer网络。2015年，在NIPS中。三、五[20] A. Jourabloo和X.刘某通过基于cnn的密集3D模型拟合实现大姿态人脸对齐在CVPR，2016年。一、二6904[21] A. Kanazawa，D. W. Jacobs和M. Chandraker Warpnet：用于单视图重建的弱监督匹配CVPR，2016年。4[22] D. Kingma和J. BA. Adam：一种随机优化方法。arXiv预印本arXiv：1412.6980，2014。5[23] M. Koestinger，P.Wohlhart，P.M. Roth和H.比肖夫在野外标注的面部标志：一个大规模的，真实世界的数据库，用于面部标志定位。BeFIT研讨会，2011年。一、四、五[24] A. 克里热夫斯基岛Sutskever和G.辛顿使用深度卷积神经网络进行图像网分类NIPS，2012年。3[25] D. J. Langford，A. L. Bailey，M. L. Chanda、S. E. 克拉克T. E. 德拉蒙德 S. Echols ， S. Glick ， J. Ingrao ， T.Klassen-Ross，M. L. LaCroix-Fralish等人实验小鼠面部疼痛表现的编码。Nature methods，7 （6 ）：447-449，2010. 1[26] D. Lee，H. Park和C. D.你。使用级联高斯过程回归树的人脸对齐。CVPR，2015。2[27] Z. Liang，S. 叮，和L. 是林书无约束fa-用主干-分支全卷积网络进行社会地标定位。arXiv预印本arXiv：1507.03409，2015年。2[28] F. Liu，L.曾角，澳-地赵，和X。刘某联合人脸对齐与三维人脸重建。在ECCV，2016年。2[29] J. Liu和P. N.贝尔胡默尔使用具有强制姿势和子类别一致性的基于样本的模型的鸟类部分定位。InICCV，2013. 2[30] J. Liu，Y. Li和P. N.贝尔胡默尔用于零件定位的零件对表示。2014年，在ECCV。2[31] I. Masi，A.T. Tran，J.T. Leksut，T.Hassner和G.梅迪奥尼我们真的需要收集数百万张人脸来进行有效的人脸识别吗？arXiv预印本arXiv：1603.07057，2016年。2[32] I. Matthews和S.贝克修订了主动外观模型。IJCV，60（2）：135-164，2004. 2[33] X.彭河，巴西-地S. Feris，X. Wang和D. N. Metaxas一种用于顺序人脸对齐的递归编码器-解码器网络。在ECCV，2016年。一、二[34] O. 鲁萨科夫斯基Deng，H.Su，J.Krause，S.萨蒂希S.妈Z。Huang，黄背天蛾A.卡帕西A.科斯拉，M。伯恩斯坦A. C. Berg和L.飞飞ImageNet大规模视觉识别挑战。IJCV，115（3）：211-252，2015. 5[35] J. Saragih和R.格克aam拟合的非线性判别法。载于ICCV，2007年。2[36] J. M. Saragih，S. Lucey和J. F.科恩通过正则化界标均值漂移进行可变形模型拟合IJCV，91（2）：2002[37] K. J. Shih，A.Mallya，S.Singh和D.霍伊姆使用多建议共识进行细粒度分类的部件本地化。BMVC，2015年。2[38] K. K. Singh和Y.J. 李你相对属性的端到端本地化和排序在ECCV，2016年。3[39] S.辛格山，加-地Hoiem和D.福赛斯学习定位小地标。在CVPR，2016年。2[40] Y. 太阳，X.Wang和X.唐用于面部点检测的深度卷积CVPR，2013。二、四、五6905[41] G. Trigeorgis，P.斯内普M. A. Nicolaou，E.安东纳科斯，S. Zafeiriou.记忆下降法：用于端到端面对齐的循环过程。在CVPR，2016年。一、二[42] O. Tuzel，S.Tambe和T.K. 标记. 使用不变专家混合的鲁棒人脸对齐在ECCV，2016年。2[43] G. Tzimiropoulos和M.惊慌失措野外快速aam拟合的优化问题CVPR，2013。2[44] M.瓦尔斯塔尔湾Martinez，X. Binefa和M.惊慌失措使用提升回归和图模型的面部点检测。CVPR，2010。2[45] Y. Wu和T.哈斯纳使用调整的卷积神经网络进行面部地标检测。arXiv预印本arXiv：1511.04031，2015年。二、四[46] Y. Wu和Q.纪约束联合级联回归框架用于同时进行面部动作单元识别和面部标志检测。在CVPR，2016年。2[47] S. Xiao，J. Feng，J. Xing，H.赖氏S. Yan，和A.卡西姆。基于递归注意细化网络的鲁棒面部标志点检测在ECCV，2016年。一、二[48] X. Xiong和F.德拉·托雷监督下降法及其在人脸配准中的应用。CVPR，2013。2[49] X. Xiong 和F.德拉 ·托雷全局监督下降方法CVPR，2015。2[50] H. 杨，W. 牟，Y. 张岛 Patras，H. 枪，以及P.罗宾逊。头部姿态估计辅助的面部对齐。arXiv预印本arXiv：1507.03148，2015年。2[51] H.扬河，巴西-地Zhang和P.罗宾逊人和羊面部标志定位三元插值功能。InWACV，2016. 一、二、五、六[52] J. Yosinski，J. Clune，Y. Bengio和H.利普森深度神经网络中的特征有多可转移？在NIPS，2014。1[53] X. Yu，F. Zhou和M. Chandraker基于深度变形网络的目标界标定位。在ECCV，2016年。2[54] J.Zhang）、黄山玉兰（M. Kan，S. Shan和X.尘无遮挡面部对齐：深度回归网络加上反腐败自动编码器。在CVPR，2016年。一、二[55] J. Zhang，S.山，M. Kan和X.尘由

下载后可阅读完整内容，剩余1页未读，立即下载