AnimalWeb：大规模动物面部数据集的层次化注释

72 浏览量更新于2023-10-24 收藏 18.98MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Muhammad Haris Khan1, John McDonagh2, Salman Khan1, Muhammad Shahabuddin4Aditya Arora1, Fahad Shahbaz Khan1, Ling Shao1, Georgios Tzimiropoulos31Inception Institute of Artiﬁcial Intelligence, UAE2University of Nottingham, UK3Queen Mary University of London, UK4Comsats University Islamabad, Pakistan{muhammad.haris,salman.khan,fahad.khan,ling.shao}@inceptioniai.org, shahab.pk05@gmail.comjohn.mcdonagh@nottingham.ac.uk, g.tzimiropoulos@qmul.ac.ukAnimalWebPrimatesCercopithacedaeHominadaeMacacaPapioBarabaryMacaqueJapanese Macaque CarnivoraCanidaePhocidaeVulpesCanis Arctic foxCape fox69390AnimalWeb：一个大规模的层次化注释动物面部数据集0摘要0一些研究表明，动物的需求通常通过它们的面部表情来表达。尽管在自动理解人脸方面取得了显著进展，但对于动物脸部来说并非如此。在算法进步方面，存在着很大的改进空间，可以实现解读动物面部的自动系统。除了科学价值外，由此产生的技术将促进更好、更便宜的动物护理。我们认为，研究进展的主要障碍是缺乏一个充分注释的动物面部数据集，涵盖了广泛的动物物种。为此，我们介绍了一个大规模的、层次化的动物面部注释数据集，包括来自生物分类学的350个不同物种和21个动物目的22.4K张面部图像。这些面部图像是在野外环境中捕获的，并且在关键面部特征上一致地注释了9个标志点。该数据集的结构和可扩展性经过了四个系统化阶段的开发，总共耗费了超过6K个人工工时。我们使用现有的技术在两个新的问题设置下对其进行了面部对齐的基准测试。结果展示了它具有挑战性、独特属性和为新颖、自适应和广义的面向面部的计算机视觉算法提供明确前景的特点。进一步在面部检测和细粒度识别任务中对数据集进行基准测试，展示了它的多任务应用和改进空间。该数据集可在以下网址获取：https://fdmaproject.wordpress.com/。01. 引言0动物是我们世界的基本组成部分。它们的需求通常通过面部表情来表达，如果能正确理解这些表情，就可以帮助我们改善实验室、农场和家庭中动物的福祉。行为和神经生理学研究表明，0图1：AnimalWeb：我们介绍了一个大规模的、层次化的动物面部注释数据集，涵盖了广泛的物种，同时覆盖了更广泛的动物生物分类学范围。它展示了独特的挑战，例如物种的大生物多样性、姿势、尺度、外观和背景的高变异性。此外，它还提供了类别不平衡（CI）、多任务应用（MTA）和零样本面部对齐（ZFA）等独特属性。蓝色表示面部标志，图像属于层次结构中具有相同颜色的类别。0近期的研究表明，哺乳动物的大脑可以解读同伴动物脸部的社交信号，并发展出专门的技能来处理面部特征。因此，研究动物的面部是非常重要的。面部标志可以帮助我们更好地理解动物，并通过解读它们的面部表情来促进它们的福祉。面部表情反映了动物内部情绪和心理状态。例如，不同解剖结构的动物（如老鼠、马、兔子和羊）在疼痛时会表现出类似的面部痛苦表情，即眼睛和嘴巴紧闭，脸颊变平，耳朵姿势异常。通过视觉图像理解异常的动物表情和行为是临床检查和生命体征监测的一种更便宜、更快捷的替代方法。鼓励个体。69400研究表明，这些强大的技术确实是可能的，例如，害怕的牛会睁大眼睛和扁平耳朵[19]，沮丧的马会闭上眼睛[10]，面对不愉快的情况时，绵羊会将耳朵向后移动[2]，大鼠在快乐时耳朵的颜色和形状会改变[9]。此外，大规模的动物面部注释数据集可以帮助推进动物心理学的理解。例如，对于非灵长类动物，对动物表情的科学理解通常仅限于疼痛编码系统的发展[13]。然而，其他表情同样重要，例如悲伤、无聊、饥饿、愤怒和恐惧。我们认为，自动理解动物面部行为的研究进展在很大程度上受到了缺乏足够注释的动物面部（表1）的阻碍，这些注释涵盖了广泛的动物物种。相比之下，在人脸分析方面已经取得了显著进展[40, 5, 35, 34, 3, 21,38]，而在视觉社区中，动物面部分析还很少被探索[41,25]。新算法有很大的发展空间，迫切需要开发能够理解动物面部行为的计算工具。为此，我们引入了一个大规模的、分层的、注释的动物面部数据集，称为AnimalWeb，涵盖了更广泛的动物生物分类谱系，包括多种物种。每个图像都用属种术语进行了标注。图1提供了数据集的关键特征的整体概述。贡献：据我们所知，我们在野外条件下构建和注释了迄今为止最大的动物面部数据集。它涵盖了21个不同的目，探索了各种家族和属。这种多样性覆盖了350个不同的动物物种和总计22.4K个动物面部。每张面部图像都在关键面部组成部分（例如眼睛和嘴巴）上一致地注释了9个标记点。最后，数据集的设计和开发经历了四个系统阶段，由专家和受过训练的志愿者共计超过6K个工时的严格努力。我们使用最先进的人脸对齐算法[3,39]对AnimalWeb进行了基准测试。结果表明，由于生物多样性、物种不平衡和野外恶劣条件（例如极端姿势），对它们来说是具有挑战性的。我们通过报告各种分析结果（包括姿势和面部大小）进一步验证了这一点。我们展示了我们的数据集在两个新问题设置下进行测试的能力：少样本和零样本人脸对齐。此外，我们展示了使用该数据集可能的相关应用：动物面部检测和细粒度物种识别。我们的结果表明，它1）是算法进步的强有力实验基础，2）将促进新颖、自适应和广义的面向面部的算法的发展。02. 相关数据集0本节简要概述了现有的人脸和动物面部对齐基准。人脸对齐。自从Active AppearanceModels（AAMs）的开创性工作[6]以来，已经提出了各种具有人脸地标注释的2D数据集。其中，著名的数据集包括XM2VTS[22]、BioID[16]、FRGC[23]和Multi-PIE[12]。这些数据集是在受限环境下收集的，具有有限的表情、正面姿势和正常光照变化。随后，一些数据集提供了显示遮挡和其他变化的面部，例如COFW[4,11]和AFW[44]。300W[29]是人脸对齐中最受欢迎的数据集之一，被科学界和工业界广泛采用[34, 40, 26,43]。它是为与ICCV2013联合举办的300W竞赛而开发的。300W基准源自LFPW[1]、AFW[44]、IBUG[29]和300Wprivate[28]数据集。总共提供了4,350张带有面部的图像，使用了68个面部正面标记方案进行了注释。为了促进人脸跟踪研究，引入了包含114个视频的300VW[30]。这些数据集推动了在具有挑战性条件下的人脸对齐方面的研究进展。最近，人们开始致力于展示更大范围的变化。例如，Annotated Facial Landmarks in thewild（AFLW）[18]提出了一个包含25K个带有21个地标注释的人脸的集合。然而，它排除了不可见地标的位置。Zhu等人[43]为不可见地标提供了手动注释，但是脸部轮廓上没有地标注释。沿着类似的思路，Zhu等人[44]使用3D形态模型（3DMM）从300W数据集中合成了侧面视图，开发了一个大规模的训练数据集。尽管它可以作为一个大型训练集，但合成的侧面脸部具有可能影响拟合精度的缺陷。Jeni等人[15]在ECCV2016竞赛中介绍了一个数据集，包括在受控条件下拍摄的图像或合成生成的图像。最近，Menpo基准[8]在ICCV2017举办的竞赛中发布。它包含2D和3D地标注释，并在姿势、表情、光照和遮挡方面具有大的变化。根据其方向，面部还被分为半正面和侧面，并相应地进行了注释。Menpo-2D分别包含7,576张和7,281张带有注释的训练和测试图像。动物面部对齐。尽管具有科学价值，迫切需要并对动物医疗保健产生直接影响，但在开发动物面部注释数据集方面却付出了很少的关注[41,25]。虽然ImageNet[8]和iNaturalist[36]等数据集提供了合理的物种多样性，但它们针对的是图像级别的分类和区域级别的检测任务。这两个动物面部对齐数据集69410图2：AnimalWeb中随机选择的一些物种的代表性示例。动物面部倾向于在姿势、尺度、外观和表情上表现出较大的变化。0数据集目标面部面部点0Multi-PIE [12]（半正面）人类 6665 68 Multi-PIE[12]（侧面）人类 1400 39 AFLW [18] 人类 25,993 21 COFW[4] 人类 1007 29 COFW [11] 人类 507 68 300W [29, 28] 人类3837 68 Menpo 2D [8]（半正面）人类 10,993 68 Menpo2D [8]（侧面）人类 3852 39 AFLW2000-3D [44] 人类 200068 300W-LP [44]（合成）人类 61,225 680绵羊面部[41] 动物 600 8 马面部[25] 动物 3717 8AnimalWeb（我们的）动物 22,451 90表1：AnimalWeb与各种流行的人脸对齐数据集的比较。AnimalWeb在提供的面部数量方面比80%的人脸对齐数据集都要大。此外，现有的动物面部数据集仅限于单一物种。本研究通过构建一个大规模的注释动物面部数据集，填补了该领域的一个巨大空白。0[41]和[25]中报告了一些数据集。Yang等人[41]收集了600张绵羊面部并用8个基准点进行了注释。同样，Rashid等人[25]报告了一组3717张马面部，并在8个面部特征周围标记了点。这些数据集在生物多样性、规模和可能的真实世界条件范围方面受到严重限制。据我们所知，该数据集是第一个具有9个标记的大规模分层注释动物面部的数据集，具有真实世界的属性（例如大姿势）和独特的特征，如物种不平衡、多任务应用和零样本人脸对齐。03. AnimalWeb属性0在本节中，我们强调了新引入的数据集的一些独特方面（图2）。0图3：AnimalWeb中每个物种的面部分布。我们可以看到，总物种中的29%包含了总面部的65%。该数据集展示了不同物种的自然出现模式。0尺度。该数据集提供了大规模和多样化的注释动物面部。它包含了22.4K个注释面部，涵盖了350个不同的动物物种，每个物种中的动物面部数量各不相同。图3显示了每个物种的面部分布。我们可以看到，总物种中的29%包含了总面部的65%。此外，每个物种的最大和最小面部数量分别为239和1。这些统计数据突出了物种之间的不平衡和不同物种实例计数的高变异性。这标志着与真实世界的一致性，不同物种的观察频率不同。表1比较了AnimalWeb和各种流行的人脸对齐数据集。AnimalWeb在面部数量方面比80%的人脸对齐数据集都要大。重要的是，几乎没有关注构建模拟真实世界属性的注释动物面部数据集，现有的数据集仅限于单一物种。多样性。在开放环境中，用于检测/跟踪动物面部行为的强大计算工具很难实现，除非观察到的情况尽可能展示真实世界的场景。因此，我们的目标是在两个重要维度上确保多样性，（1）300W_full300W_privateAFLW2000Menpo2DAnimalWeb3.3Kb5.5Kb3.5Kb3.0Kb2.4KbAnimalWebMenpo2DCOFW300W_private300W_fullCOFW4.2Kb69420通过对规模、姿势、表情和遮挡的成像变化进行分析，我们观察到动物面部表现出很大的姿势变化，并且它们的面部被从非常不同的角度（例如俯视图）拍摄，这对于人脸来说是不太可能的。此外，动物面部可以展示出很大范围的姿势和尺度变化。图2展示了数据集中捕捉到的一些样本变化。我们观察到AnimalWeb中的面部表现出更大范围的形状变形。每个图像是通过将所有可能的真实形状变换到参考形状上获得的，从而消除了相似性变换。图4试图展示AnimalWeb和其他数据集中的图像多样性。我们观察到，与其他常见的人脸对齐数据集相比，AnimalWeb包含更多多样化的图像。为了评估尺度多样性，我们在图5中绘制了AnimalWeb和流行的人脸对齐数据集的归一化面部尺寸分布。与用于人脸对齐的竞争数据集相比，AnimalWeb在小尺寸面部（<0.2）的范围上提供了32%的增加。0图4：上图：AnimalWeb涵盖了更大的变形。下图：它提供了更多的多样性-外观、视角、姿势、杂乱和遮挡的大变异，导致模糊度最高的平均图像和最小的无损JPG文件大小。0图5：AnimalWeb和流行的人脸对齐数据集中的人脸大小分布。与竞争数据集相比，AnimalWeb提供了32%更多范围的小尺寸人脸（<0.2）。0图6提供了AnimalWeb的分层性质的一个小瞥，展示了其多样性。灵长目和食肉目已随机选择了8个和5个科以及一些属。我们观察到它呈现出可变数量的子节点的分层结构。我们参考表2中前5个目标（按面部数量排序）的家族、属、物种和面部数量。0图6：AnimalWeb的分层性质的一个小瞥。灵长目和食肉目已显示出几个科和相应的属。04. 构建AnimalWeb0本节详细介绍了构建AnimalWeb的四个关键步骤（见图7）。它们包括图像收集、工作流程开发、面部关键点注释和注释改进。04.1. 图像收集0我们首先开发了一个分类学框架，以实现结构化、可扩展的数据集设计，然后制定了详细的收集协议，以确保在开始图像收集过程之前具备真实世界的条件。分类学框架开发。我们设计了一个简单的、分层的类似树状的数据结构，遵循了已经建立的生物动物分类。主要动机是以结构化和原则性的方式进行图像收集的下一步。此外，这种方法还可以记录树的不同节点处的图像数量等各种统计数据。数据收集协议。从动物界开始，我们将自己限制在脊椎动物群（门）内，进一步限制在哺乳动物纲内。我们希望那些面部结构大致规则且可识别的动物。一些被排除在外的动物例子是可能违反这个条件的昆虫和蠕虫。在这些限制下，我们为收集任务列出了21个目标。根据面部数量排名前5的目标的学名在表2中报告。0目科属物种面部数量0食肉目 11 57 144 8281 偶蹄目 7 42 55 4546 灵长目 12 3059 3468 啮齿目 11 19 19 1521 企鹅目 1 5 10 15160表2：AnimalWeb中面部数量最多的5个目标。对于每个目标，我们显示了家族、属、物种和面部数量。总共有21个目标，每个目标平均探索3个家族、8个属和1024个面部。69430•招聘和培训了一个由4名成员组成的团队进行改进。• 由一位专家监督的团队 [45人时]0•在第一阶段，主要错误被纠正，例如纠正点的顺序。这种改进按物种进行，以确保注释在可能的每个物种中保持一致。[548人时]0•在第二阶段：通过交叉标注者审查确保像素完美的注释。[438人时]0• 元数据准备并加载到服务器0•为了便于各个领域专家志愿者使用，设计了一个用于注释9个关键点的工作流程。为每个面部关键点定义了“目”和“名称”。•对于模糊不清的情况（例如不可见的标记点），制定了明确的行动计划。•工作流程与专业开发的帮助页面相链接，显示了注释所有可能物种的指示和插图。•工作流程经过5名专家团队的全面测试。[20人时]0• 准备多样化和广泛的分类学数据结构0•准备详细的数据收集协议以确保真实世界条件•由专家监督下的3名经过培训的志愿者团队完成了收集过程。对于每个工作者，平均每小时需要100张图像。[约250人时]0•对每个物种进行视觉过滤以避免潜在重复。[43.8人时]0•Zooniverse志愿者在注释许多与动物相关的不同成功公民科学项目方面具有先前经验。•每张面部图像由至少5名不同的志愿者进行注释。[约5408人时]0•注释门户允许注释者在整个注释生命周期中与专家提出问题。•Zooniverse众包的整个过程耗费了专家80人时。0由专家和经过培训的志愿者共计花费了6,833人时的手动标注工作0A. 图像收集 B. 工作流程开发 C. 面部点注释 D. 优化注释0图7：AnimalWeb开发中的四个系统阶段，包括详细信息和所需人时。放大以获取详细信息。0最后，我们将每个属种的图像收集数量限定在200-250之间。这将增加宝贵的收集工作在探索不同可能的物种（提高生物多样性）上的机会，而不是过度集中在少数几个物种上。在这个限制下，我们平均每个物种收集了65张动物面部图像。图像来源。互联网是此数据集收集图像的唯一来源。其他大规模计算机视觉数据集，如ImageNet [7]和MS COCO[20]也依赖于此来源来实现相同的目标。具体而言，我们首先选择了一个名为Flickr的大型图像托管网站进行搜索，然后选择并下载相关的动物面部图像。收集。我们使用动物分类框架（前面描述过）中的普通和科学名称来查询图像。选择主要基于捕捉各种野外条件，例如各种面部姿势。在专家的监督下，由3名经过培训的志愿者团队完成了图像收集过程。对于每个工作者，平均每小时需要100张图像，总共约250人时。下载后，我们收集了大约25,000张候选图像。最后，通过视觉过滤步骤，在43.8人时内删除了跨物种的潜在重复图像。04.2. 工作流程开发0毫无疑问，注释面部可能是构建该数据集最重要、劳动密集且困难的步骤。为了实现这一目标，我们利用了一个名为Zooniverse的大型公民科学网络门户的众多志愿者资源。它是许多成功的公民科学项目的家园。我们经历了以下阶段，通过该门户成功启动项目。项目审查。这是第一个阶段，涉及项目设计和审查。该项目只有在通过审查后才会启动。01 https://www.�ickr.com/ 2https://www.zooniverse.org/0一旦由Zooniverse专家小组审核通过，其主要选择标准围绕评估研究项目的影响力。工作流程设计和开发。在通过审核流程后，第二阶段，相关图像元数据被上传到服务器，并开发了一个注释者界面（即工作流程）。工作流程首先设计用于注释点，然后进行彻底验证。两个主要质量检查是：1）对于具有不同领域专业知识的大型志愿者群体来说是否易于使用，以及2）对于关键项目交付成果是否合适。在我们的情况下，工作流程为每个面部点定义了“顺序”和“名称”。此外，它还通过链接专业开发的帮助页面来定义在出现不明确情况（例如，不可见的标记）时的明确行动计划。它显示了指示和插图，以便在各种姿势下注释所有可能的物种的点。最后，我们的工作流程由5名专家组成的团队进行了全面测试，耗时20人时。9个点的标记方案。在我们的情况下，注释者界面要求注释者遵守图8所示的9个标记方案。我们认为9个标记点在注释工作量和面部特征覆盖之间提供了良好的平衡。04.3. 面部点注释0工作流程开发后，该项目向大量的Zooniverse志愿者开放，用于注释面部标记。这些志愿者在注释许多与动物相关的成功公民科学项目方面具有先前经验。每张脸至少由5个不同的志愿者进行注释，总共需要约5408个人时的努力。对于单个脸部的多个注释，提高了恢复到实际面部标记位置附近的注释点的可能性，前提是超过一半的多个注释符合这个假设。为此，我们选择使用单个脸部的多个注释的中值。注释门户允许注释者提出问题。NME = 1N�L�l=1(∥ xi′(l) − xig(l) ∥di).69440图8：AnimalWeb中用于注释面部的九个标记方案。该标记方案涵盖了关键面部组件（眼睛、鼻子和嘴唇）周围的主要面部特征，同时保持了总的标记数量较少。0与专家在整个注释生命周期中保持密切联系。这也有助于消除其他志愿者可能在后期遇到的许多不同的注释模糊性。Zooniverse众包的整个过程耗费了80个专家小时。04.4. 改进注释0由zooniverse志愿者执行的注释可能存在不准确和缺失某些面部点的情况。此外，它们可能是不一致和无序的。如果左眼标记与右眼标记交换，就会导致无序的点注释。上述错误在某种程度上是可以理解的，因为在真实世界的环境中捕捉到的动物面部的点注释是一项复杂的任务。我们雇佣了一个由4名训练有素的志愿者组成的小团队进行改进。他们需要进行手动修正，并由专家监督。改进工作分两次完成，具体如下。改进过程。在第一次改进中，纠正了主要错误，例如纠正点的顺序。这种改进按物种进行，以确保数据集中的每个可能物种的注释一致。第一次改进共花费了548个人时。在第二次改进中，通过交叉注释者审查，在438个人时的工作中确保了像素级的完美注释。例如，由团队的另一成员对第一次改进中由某个成员完成的数据集部分进行审查和改进。05. AnimalWeb基准测试0我们广泛评估了AnimalWeb在人脸对齐任务上的性能。此外，我们还展示了多任务应用，通过展示人脸检测和细粒度图像识别的实验结果。05.1. 动物面部点定位0我们选择了2D人脸对齐的最先进方法来评估AnimalWeb。具体来说，我们采用了Hourglass（HG）基于深度学习的架构；它在一系列具有挑战性的2D人脸对齐数据集[3,32]和竞赛[39]上展现出了出色的结果。数据集和评估协议。我们使用300W-public、300W-private、AFLW2000-3D和COFW进行比较。0因为它们是最具挑战性的，并且是公开可用的。300W-public包含3148张训练图像和689张测试图像。300W-private仅包含600张测试图像。我们仅使用COFW进行测试；其测试集包含507张图像。类似地，AFLW2000-3D仅在在300WLP数据集上训练后用于测试。我们使用归一化平均误差（NME）作为人脸对齐评估指标。0N0i =10它计算了预测点和真实点位置之间的欧氏距离，并通过 d i进行归一化。我们选择真实人脸边界框大小作为 d i，因为其他度量方法（如眼间距）可能对侧面脸部有偏差[24]。除了NME，我们还使用累积误差分布（CED）曲线、曲线下面积（AUC）@0.08（NME）误差和失败率（FR）@0.08（NME）误差来报告结果。训练细节。对于我们的所有实验，我们使用以下设置来训练HG网络，包括人类数据集和AnimalWeb。请注意，这些设置与[32,39]中描述的设置相似，以在2D人脸对齐数据集上获得最佳性能。我们将初始学习率设置为10^-4。0并使用了一个小批量大小为10。在训练过程中，我们在第30、60和90个epoch时将学习率分别除以5、2和2，总共训练110个epoch。我们还应用了随机增强：旋转（从-30°到30°），颜色抖动，尺度噪声（从0.75到1.25）。所有网络都使用RMSprop进行训练。评估设置。AnimalWeb在两种不同的设置下进行评估。第一种设置随机选择80％的图像用于训练，剩下的20％用于测试，每个物种都是如此。我们称之为“已知物种评估”或所谓的“少样本人脸对齐”，因为在训练过程中，网络会看到预期在测试阶段出现的每个物种的示例。第二种设置将所有物种随机划分为80％用于训练，20％用于测试。我们将其称为“未知物种评估”或所谓的“零样本人脸对齐”（ZFA），因为在测试阶段遇到的物种在训练阶段不可用。与其对应，未知物种评估更接近于真实世界的情况。部署的面部行为监测系统可能会遇到一些在训练时不可用的物种。与第一种设置相比，它也更具挑战性，因为测试时物种的面部外观可能与训练时的面部外观有很大的不同。已知物种评估。表3显示了AnimalWeb与各种人脸对齐基准的比较，当堆叠2个和3个HG网络模块时。人脸对齐结果以68个点和9个点为单位显示。0对于验证，我们建议从训练集中使用10％的数据。69450数据集 9个点 68个点0HG-2 HG-3 HG-2 HG-30300W（通用）1.21/84.8/0.18 1.19/85.0/0.00 1.26/84.1/0.00 1.25/84.2/0.00300W（完整）1.42/82.1/0.14 1.40/82.4/0.00 1.41/82.2/0.00 1.40/82.3/0.00300W（具有挑战性）2.28/71.4/0.00 2.25/71.7/0.00 2.03/74.5/0.00 2.01/74.8/0.00300W（私有）2.26/72.2/0.66 2.31/72.4/1.16 1.82/77.5/0.50 1.77/77.8/0.16 AFLW2000-3D3.27/60.8/3.27 3.23/61.3/2.75 2.73/66.5/0.50 2.71/66.9/0.55 COFW 3.43/60.0/3.743.26/61.3/3.55 2.66/67.2/1.97 2.60/68.2/1.57 AnimalWeb（已知）5.22/46.8/16.45.12/47.4/16.3 - - AnimalWeb（未知）6.14/41.5/22.0 5.96/42.9/20.7 - -0表3：AnimalWeb与6个不同的人脸对齐基准在堆叠2个和3个HG网络模块时的准确性比较。我们以68个点和9个点为单位显示人脸对齐结果。每个表项的格式为：NME误差/AUC@0.08（NME）误差/FailureRate@0.08（NME）误差。所有结果以％为单位。0以68个点和9个点为单位进行比较。为了公平比较，人脸上选择的9个点与动物脸上的点相同。此外，9个点的结果对应于在人脸上训练的9个点的模型。我们可以看到人脸对齐数据集和AnimalWeb之间存在相当大的差距（NME差异）。例如，使用HG-2网络测试的COFW与已知物种评估协议下的AnimalWeb之间的NME差异约为1个单位。我们在图9中显示的CED曲线中观察到类似的趋势。COFW数据集的性能在整个pt-pt-error的范围内比人脸中最具挑战性的数据集高出15％。最后，我们在已知物种评估设置下显示了一些示例拟合结果，如图10的第一行所示。我们可以看到现有技术在AnimalWeb中的复杂野外环境中遇到困难。0图9：使用HG-2和HG-3网络比较AnimalWeb和流行的人脸对齐数据集。0图12：已知物种设置下AnimalWeb的物种结果。放大以获取详细信息。图12显示了AnimalWeb的物种测试结果。对于每个物种，我们将结果平均化，沿着物种中存在的实例数量。我们观察到某些物种的性能较其他物种差。这可能是由于物种内部变异较大，同时相对于其他物种来说，训练实例不足。例如，hogdeer物种只有20个训练样本，而amurleopard物种有91个训练样本。接下来，我们根据偏航角报告基于姿态的结果。0表4.我们可以观察到AnimalWeb对于大姿态是具有挑战性的。随着偏航角范围从[-45°,45°]向两端移动，性能下降。此外，表5显示了不同面部尺寸的结果。我们观察到在各种面部尺寸上还有改进的空间。未知物种评估。在这里，我们报告了未知物种设置下的结果。请注意，我们随机选择80%的物种进行训练，剩下的20%进行测试。表3对未知物种设置和其对应的已知物种设置进行了比较。如预期的那样，未知情况下的准确性较低。例如，HG-2在未知情况下的性能比已知情况下差了约1个单位。一些物种之间的面部显示出更大的种间变异。例如，adeliepenguins和giantpandas的面部外观差异很大（图10）。图10的下排显示了此设置下的示例拟合结果。我们可以看到，正面姿态的拟合质量较低；训练中出现的物种的面部外观可能与测试物种的面部外观非常不同。现有方法在未知物种下的低准确性为开发“零样本面部对齐算法”提供了机会，这些算法对未见过的面部外观模式具有鲁棒性。例如，新方法可以更好地利用已见物种之间的相似性，在未知物种下表现出令人满意的性能。05.2. 动物面部检测0我们使用Faster R-CNN[27]基准评估动物面部检测的性能。我们的标准答案是每个动物面部的紧密边界框，通过拟合注释的面部地标获得。我们首先评估我们在面部定位任务上的性能。我们将我们的数据集与WIDER Face[42]中最具挑战性的人脸检测数据集进行比较，以Precision-Recall曲线为指标（图11）。请注意，WIDERFace是一个大规模数据集，包含32K张图像中的393,703个人脸实例，并引入了三个评估协议，即“easy”、“medium”和“hard”，难度逐渐增加。我们的数据集的性能接近于WIDERFace的medium曲线，这表明在动物面部检测方面存在合理的改进空间。我们还计算了整体的类别检测分数，其中FasterR-CNN模型的mAP为0.727。图13展示了我们动物面部检测器的一些定性示例。69460图10：AnimalWeb中的示例地标拟合。上排：已知物种评估下的拟合结果。下排：未知物种评估下的拟合结果。红色点表示HG-3的拟合结果，蓝色点表示真实值。0图11：AnimalWeb设置和WIDERFace数据集的精确率-召回率曲线。0图13：AnimalWeb中的示例面部检测。绿色/红色框表示Faster-RCNN [27]基准的正确/漏检测。0偏航角 -90° [-90°,-45°] [-45°,45°] [45°,90°] 90°0面部 584 993 1092 991 689 NME 6.75 5.02 3.31 4.99 6.940表4：在AnimalWeb的已知物种设置下，根据偏航角计算的NME(%)。0面部尺寸 [0,0.16] [0.16,0.32] [0.32,0.48]0面部 3388 817 129 NME 5.29 4.41 4.730表5：在AnimalWeb的已知物种设置下，根据面部尺寸分布和HG-3计算的NME(%)。面部尺寸通过相应的图像尺寸进行归一化。0在FasterR-CNN模型中，我们评估了动物面部检测的性能，其在我们的数据集上实现了0.727的mAP。图13展示了我们的动物面部检测器的一些定性示例。05.3. 细粒度物种识别0由于我们的数据集标有细粒度物种信息，因此一个感兴趣的补充任务是细粒度分类。我们通过应用具有不同深度（18、34、50和101）的Residual Networks[14]来评估我们数据集上的识别性能。结果报告在表6中。我们可以观察到随着网络容量的增加，Top-1准确率逐渐提高。我们的数据集在难度上与其他具有相似规模的细粒度数据集（例如CUB-200-2011 [37]和Stanford Dogs[17]，分别具有200和120个类别）相似。在CUB-200和Stanford Dogs上，ResNet50基准分别实现了0网络 ResNet18 ResNet34 ResNet50 ResNet1010准确率 78.46 81.51 83.09 84.230表6: AnimalWeb上的细粒度识别准确率.使用四个ResNet变种[14]报告的Top-1准确率（以%表示）.0在AnimalWeb上，同一网络的准确率为83.09%[31]，而在其他数据集上的准确率为81.7%和81.1% [31].06. 结论0我们介绍了一个名为AnimalWeb的大规模分层数据集，其中包含了注释的动物面部图像.它包含了来自350个不同动物物种的22.4K张面部图像，涵盖了21个不同的目.每张面部图像都以9个关键面部特征周围的标记一致地进行注释.使用当前最先进的方法对AnimalWeb进行两种新颖的人脸对齐设置的基准测试，揭示了其具有挑战性的特性.我们观察到，用于人脸对齐的最先进方法在动物面部上的表现相对较差.这突显了需要专门的和稳健的算法来分析动物面部.我们还展示了该数据集在人脸检测和细粒度识别方面的应用.我们的结果表明，它是一个有潜力的算法进展的实验基础.致谢本工作得到了EP-SRC项目EP/M02153X/1 FacialDeformable Models of Animals的支持.此外，它使用了通过Google Global ImpactAward和Alfred P. SloanFoundation资助的Zooniverse.org平台生成的数据.[2] AlainBoissy,ArnaudAubert,LaraD´esir´e,LucileGreiveldinger, Eric Delval, Isabelle Veissier, et al. Cognitivesciences to relate ear postures to emotions in sheep. AnimalWelfare, 20(1):47, 2011. 2[4] Xavier P Burgos-Artizzu, Pietro Perona, and Piotr Doll´ar.Robust face landmark estimation under occlusion. In Pro-ceedings of the IEEE International Conference on ComputerVision, pages 1513–1520, 2013. 2, 3[6] Timothy F Cootes, Gareth J Edwards, and Christopher J Tay-lor. Active appearance models. In European Conference onComputer Vision, pages 484–498. Springer, 1998. 2[8] Jiankang Deng, Anastasios Roussos, Grigorios Chrysos,Evangelos Ververas, Irene Kotsia, Jie Shen, and StefanosZafeiriou.The menpo benchmark for multi-pose 2d and3d facial landmark localisation and tracking. InternationalJournal of Computer Vision, pages 1–26, 2018. 2, 3[10] Carole Fureix, Patrick Jego, S´everine Henry, L´ea Lansade,and Martine Hausberger.Towards an ethological animalmodel of depression?a study on horses.PLoS One,7(6):e39280, 2012. 269470参考文献0[1] Peter N Belhumeur, David W Jacobs, David J Kriegman,and Neeraj Kumar. 使用示例的一致性定位人脸的部分. IEEETransactions on Pattern Analysis and Machine Intelligence ,35(12):2930–2940, 2013. 20[3] Adrian Bulat and Georgios Tzimiropoulos.我们离解决2D和3D人脸对齐问题有多远？（以及一个包含230,000个3D面部关键点的数据集）. In Proceedings of the IEEEInternational Conference on Computer Vision , pages1021–1030, 2017. 2 , 60[5] Xudong Cao, Yichen Wei, Fang Wen, and Jian Sun.显式形状回归的人脸对齐. International Journal of ComputerVision , 1

下载后可阅读完整内容，剩余1页未读，立即下载