动物王国：大型多样化数据集用于动物行为理解

195 浏览量更新于2023-10-25 收藏 19.09MB PDF 举报

大型数据集

中文标签

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

190230动物王国：用于动物行为理解的大型多样化数据集0Xun Long Ng ‡ Kian Eng Ong ‡ Qichen Zheng ‡ Yun Ni ‡ Si Yong Yeo Jun Liu *0新加坡科技与设计大学信息系统技术与设计专业0{ xunlong ng, kianeng ong } @mymail.sutd.edu.sg { qichen zheng, ni yun, siyong yeo, jun liu } @sutd.edu.sg0摘要0了解动物行为对于广泛的应用具有重要意义。然而，现有的动物行为数据集在多个方面存在局限性，包括动物类别、数据样本和提供的任务数量有限，以及环境条件和视角的变化有限。为了解决这些限制，我们创建了一个大型多样化的数据集，动物王国，提供多个注释任务，以便更全面地了解自然动物行为。我们数据集中使用的野生动物镜头记录了一天中不同时间的广泛环境，包括背景、视角、照明和天气条件的变化。具体而言，我们的数据集包含50小时的带注释视频，用于定位长视频中相关的动物行为片段以进行视频定位任务，30K个视频序列用于细粒度多标签动作识别任务，以及33K帧用于姿势估计任务，涵盖了6个主要动物类别的850个物种。这样一个具有挑战性和全面性的数据集将能够促进社区开发、适应和评估各种类型的先进方法来分析动物行为。此外，我们提出了一种协作动作识别（CARe）模型，该模型学习了对于未见过的新动物具有通用和特定特征的动作识别。该方法在我们的实验中取得了有希望的性能。我们的数据集可以在以下网址找到0https://sutdcv.github.io/Animal-Kingdom .01. 引言0更好地了解野生动物在野外的行为和移动不仅是行为科学的基石[24]，也对广泛的应用至关重要。动物行为分析在保护工作[17，62]和野生动物管理[49]中起着关键作用。每年，全球至少花费750亿美元[43，68]用于保护工作0* 通讯作者。 ‡ 这些作者对本文贡献相等。0努力。在研究人员能够更好地保护野生动物之前，他们通常需要首先监测这些动物。研究人员通常使用视频摄像机监测动物，而无需附加可能改变其自然行为的物理标记[24]。通过监测和分析动物的行为，他们可以深入了解其健康状况和需求[24]，甚至检测与运动相关的伤害[24]。此外，检测和分析动物行为中的变化还可以帮助研究人员了解新的行为[1，72]。此外，动物行为分析还帮助制药科学家了解实验干预对行为的影响，以及神经科学家了解不同时间尺度下的脑活动[1，24，29，42，52]。这些发现还帮助研究人员更好地了解人类疾病并开发适用于人类使用的药物。此外，通过分析动物行为获得的见解还在帮助工程师设计生物启发式机器人[46，83]以有效地执行专门的功能（例如救生）。动画师和游戏开发者还可以利用这些见解在动画和游戏中逼真地渲染动物[8，83]。总之，动物行为分析不仅对生态保护具有重要意义，而且在广泛的应用领域也具有重要意义，因此近年来越来越受到研究人员的关注[8，17，34，35，38，39，46，53，77，79]。0动物行为分析对于了解动物的健康和需求尤为重要。鉴于动物行为的多样性，以及动作可以在短短几秒钟内发生和切换，使用视频镜头使我们能够全天候监控多个动物[1]。此外，通过定位关键点和使用姿势估计，我们可以分析和识别动物姿势的变化，以更好地解释它们的动作和行为。在分析动物行为之前，我们可能需要首先确定感兴趣的帧，因为往往大部分动物镜头甚至可能不包含任何动物[12,44]。然而，庞大的野生动物镜头数量使得识别动物和行为既费力又耗时。鉴于此，采用视频定位技术是合理的。190240在长时间的视频流中，使用[47,81]将有效地定位动物和感兴趣的行为。0先前的研究[8,72]表明，一个大而全面的数据集对于开发强大的深度学习模型至关重要。然而，许多现有的动物行为分析数据集在多个方面存在限制：（1）相对较小的数据集和缺乏广泛和良好注释的标签[72]，这降低了模型的泛化能力和可迁移性[72]。相比之下，拥有一个大而全面的数据集将有助于缓解这些问题。（2）动物数量有限且种类有限[1,72]，因为许多现有数据集仅设计用于研究特定的动物群体（例如仅哺乳动物）。然而，在自然界中存在着更多种类的动物，对野生动物的理解不应仅限于少数特定类别。此外，动物类别内外存在着各种形状、大小（例如生命周期的不同阶段）、体型模式（例如伪装）和肢体或附属物（例如翅膀）。因此，拥有一个广泛范围和多样化的动物代表性数据集将提高模型对各种动物类别行为分析的泛化能力[72]。（3）统一的环境条件（例如实验室条件或特定栖息地）阻碍了模型在不同环境中的可迁移性（例如另一个栖息地），因为当新数据与先前用于训练的数据不同时，模型通常无法很好地泛化[72]。此外，野生动物自然分布在不同的位置、不同的环境条件和不同的时间段，这将影响动物的外观和行为[24]。然而，许多现有数据集局限于特定或统一的环境设置。因此，拥有各种环境条件和背景是非常重要的。（4）对于更全面地分析动物行为，任务和注释数量有限。大多数当前的数据集只提供一个任务的注释，而不同的任务可以从不同的角度促进对动物行为的理解。0因此，我们创建了一个多样化的数据集AnimalKingdom，用于动物行为分析的视频定位任务，该任务可以识别和提取相关视频的片段，以进行动物行为识别和姿势估计任务，以更好地理解动物行为。野生动物的自然行为通常是动态、复杂和嘈杂的[42, 52,69]，而我们的多样化数据集很好地反映了野外的实际情况。除了构建AnimalKingdom数据集，本文还设计了一个简单而有效的协作动作识别（CARe）模型，用于识别未见过的新类型动物的动作。02. 相关工作02.1. 动物行为理解数据集0在野外分析动物的姿势和行为可以让研究人员客观地量化自然行为[1, 24, 42, 52, 57, 72]，并发现新的行为[1,72]。在计算机视觉社区，这激发了许多动物行为分析的工作[5, 8, 17, 26, 34, 35, 38, 39, 46, 53, 54, 73, 77,79]。尽管对于大型统一的动物行为数据集[1, 4,72]的需求很大，但目前大多数数据集仍然相对较小，不同，特定于动物和环境。此外，这些数据集通常要么主要基于图像，仅用于动物分类任务（例如iNaturalist[71]，Animals with Attributes [76]，Caltech-UCSDBirds [75]，Florida Wildlife Animal Trap[20]），要么仅关注于一种或少数几种物种[14, 30, 40, 48,75]，或者在特定环境中拍摄（例如Snapshot Serengeti[65]，Fish4Knowledge[28]）。我们在表1中总结了一些值得注意的动物行为分析数据集。许多现有的动物行为数据集都是针对特定环境量身定制的，并且仅针对特定动物执行的少数几个动作。例如，经常在实验室环境中研究小鼠[23,70]、蠕虫[27]、猴子[2]和苍蝇[24,55]的行为，有时是为了了解实验干预的效果[11]。最常研究的动物行为，例如在畜牧业中的绵羊[50]、奶牛[36]和猪[38]，以及在渔业和水产养殖业中的鲑鱼[39]。同时，对于生态学理解和环境保护而言，野生动物行为的理解[17]引起了社区的广泛关注[8, 17, 35, 59,79]。然而，它们大多数仍然局限于少数或特定类别的动物。动物姿势[8]是从公开可用的VOC2011中创建的一个较小的子集，仅针对5种哺乳动物物种，并且仅用于姿势估计。相比之下，迄今为止最大的数据集之一，AP-10K[79]仅专注于姿势估计，并且仅限于哺乳动物。同样，[35]中的动作识别数据集仅专注于7个动作类别。除此之外，还有一些尝试采用合成生成的动物数据[46,60]来进行真实动物图像的姿势估计。总之，这些数据集大多专注于少数动作类别和动物类型，然而动物王国中还有更多的动物。所有这些也说明了获得多样化和全面的动物数据集的明显挑战。与所有现有的动物行为数据集相比，我们的动物王国数据集在数据集大小（即视频定位、动作识别和姿势估计）方面具有显著优势，具有丰富的190250多标签动作的符号和更广泛的动物类别在各种不同背景场景中发现，具有不同的天气条件，低光和夜间场景，并从不同的视角拍摄。因此，我们的数据集为社区提供了一个具有挑战性和全面性的基准，用于开发和测试不同类型的动物行为分析模型。02.2. 动物行为分析方法0一些动物姿势估计模型已经被提出[24, 29, 41,52]。动物的各个身体部位在[67]中被分割并用于姿势归一化。一些工作使用合成图像来学习真实动物的姿势[31, 34,60]。甚至在这个努力中使用了3D模型[46,84]。另一种方法是利用从合成到真实动物的知识[31]，或者从人类和动物姿势[8]中扩展姿势知识到其他动物。当前的动物行为识别模型主要是从现有的人类行为识别方法中进行调整的。其中一些流行的方法是CNN[6]与LSTM[38, 50]，MaskR-CNN[17, 59]与VGG[17]，I3D[35]，(2+1)DResNet[59]和SlowFast[59]。与现有的动物行为识别方法不同，在这项工作中，考虑到动物的多样性以及同一类行为（例如，吃饭）在不同类型的动物中执行时可能看起来相似但不同，我们开发了一个简单而有效的协作行为识别（CARe）模型，提取并利用通用和特定特征来有效识别未见过的新类型动物的行为。3. 提出的动物王国数据集03.1. 数据集描述0我们的动物王国数据集包含50小时的长视频用于视频定位，50小时的视频剪辑用于动作识别，以及33K帧的姿势估计注释。此外，我们的数据集具有以下重要特点。多样化的动物和动作。拥有大量多样化的动物和动作对于理解野外动物行为很有用，并且对于训练各种类型的模型非常重要。我们的数据集识别了140个动作类别，由广泛的陆地和水生动物组成，涵盖了850多个独特的物种，跨越了6个关键的动物类别（例如，爬行动物、鸟类和鱼类，如图1所示）。即使对于同一种动物，在不同的场景中其行为也会有所不同（例如，两栖动物如青蛙在水中和陆地上的生活和移动方式不同）。这些都是动物生活中有趣的方面，为我们数据集中的动作识别增加了复杂性的维度，并且也影响动物的姿势和动作，从而产生了各种各样的动物姿势。另一方面，一些外观相同的动物生活在完全不同的栖息地中，因此具有不同的运动形式（例如，陆地蜘蛛在陆地上爬行，而水生蜘蛛在水中游泳）。我们数据集中的所有这些示例都展示了野生动物的复杂而美丽的多样性，并强调了包含多样的动物类别以涵盖自然环境中发生的各种动作和行为的好处。多样化的环境条件。各种环境和天气条件有助于更好地理解自然生态系统中的动物行为。在野外，动物生活在各种环境中（例如，草地、森林、河流、海洋）和环境条件0图1.分布于6个主要动物类别中的850多个物种的视频剪辑数量分布，根据它们的外观、肢体数量和移动方式进行分类，并进一步细分为子类。0图2.我们数据集中各种动物类别的动作示例。第1行和第2行展示了相同一组动作在不同动物类别中的差异。第3行展示了我们数据集中各种动作的示例。第4行展示了我们数据集的样本特征，包括多样的环境、不同的光照和天气条件。第5行展示了同一帧中多个动物执行的多个动作。0完全不同的栖息地，因此具有不同的运动形式（例如，陆地上爬行的陆地蜘蛛和水中游泳的水生蜘蛛）。我们数据集中的所有这些示例都展示了野生动物的复杂而美丽的多样性，并强调了包含多样的动物类别以涵盖自然环境中发生的各种动作和行为的好处。多样化的环境条件。各种环境和天气条件有助于更好地理解自然生态系统中的动物行为。在野外，动物生活在各种环境中（例如，草地、森林、河流、海洋）和环境条件190260表1.我们的数据集与一些先前的动物行为分析数据集的比较。我们的数据集包含更多各种任务的注释数据，更多多样化的动物类别，多种环境和天气条件，这将为图像和视频中的动物行为理解提供一个具有挑战性和全面性的基准。0数据集0是否公开可用？0多样化的动物类型物种数量0任务1：视频定位0任务2：动作识别0任务3：姿势估计场景类型天气0哺乳动物0鸟类0两栖动物0鱼类0昆虫0注释的长视频数量0语句数量0注释的视频剪辑数量0注释动作类别数量0标记的图像数量0夜景0低光照0复杂背景0山地0森林0草地0沙漠0海洋0水下0有风0雾0雨0雪0肉鸡[14]× × × � × × × NA × × NA 6 556 NA NA NA × × × × × × NA NA NA NA0鱼类行动[53]× × × × × � × NA × × 95 5 × × � � × × × × � � × × × ×0鲑鱼喂食[39]× × × × × � × 1 × × 76 2 × × � � × × × × � � × × � ×0野生猫科动物[17]× � × × × × × 3 × × 2,700 3 × � � � × � � × × × NA NA NA NA0猪咬尾巴[38]× � × × × × × 1 × × 4,396 2 × × � × × × × × × × × × × ×0野生动物行动[35]× � � � � � � 106 × × 10,600 7 × � � � × � � × � � NA NA NA NA0动物姿势[8]� � × × × × × 5 × × × × 4,666 � � � � � � × × × × � × �0马-30[40]� � × × × × × 3 × × × × 8,144 × × � × × � × × × × × × ×0AP-10K[79]� � × × × × × 54 × × × × 10,015 � � � � � � × � � × � × �0猕猴姿势[30]� � × × × × × NA × × × × 13,083 � � � � � × × × × × � × �0狗[3]� � × × × × × 1 × × 13 4 2,200 × � × × × × × × × × × × ×0动物王国（我们的）� � � � � � � 850 4,301（50小时）18,744 30,100（50小时）140 33,099 � � � � � � � � � � � � �0（例如下雨、下雪）。我们数据集中的动物镜头是在不同的时间拍摄的，处于不同的照明条件下（例如低光、日落、背光、不同的水下深度），有时会产生阴影和低前景-背景对比度。当一些动物（例如图2中的乌鸦或渡鸦）缺乏各个身体部位的鲜明颜色，而其他动物（例如图2中的树蜥蜴）非常擅长伪装，与周围环境融为一体[56]时，这种挑战变得更加复杂。一些动物（例如图2中的变色龙）甚至可能会迅速改变外观以应对环境。动物在复杂的组合和动态背景中移动，与其他动物密切接触，或者与风中摇曳的植物共存[56]。所有这些都存在于我们的数据集中，并呈现了野外动物行为分析的重要而实际的挑战。0不同的视角和各种类型的镜头。获取记录动物在野外生活和行为的真实镜头对生态研究和保护工作具有重要意义[62]。这些动物镜头是由自然爱好者和专业人士使用不同的设备（例如夜视设备）拍摄的，包括纪录片、动物陷阱视频和个人摄像机录制的视频，拍摄角度也各不相同（例如鸟瞰、自下而上、水下）。这为我们的数据集带来了多样化的视角。0各种场景的复杂组合和细粒度多标签动作。我们的数据集概括了野生动物的生活和行为，其中的片段描绘了单个动物或多种类型动物在同一帧中的细粒度动作。这导致了一个多标签数据集，其中包含细粒度动作，以准确描述片段中每个动物的独特动作。然而，这也不可避免地导致了动作的长尾分布，这对准确的模型构建提出了重大挑战，并值得深入研究。0为实际世界构建更强大的模型。03.2. 数据集任务和注释0与[72]中详细描述的经验类似，我们的视频定位、动作识别和姿势估计的多样化数据集是通过23名个体（包括生物专家）的集体努力精心组合而成的。我们手动识别并提供了50小时视频的动物和动作描述的逐帧注释，这些视频是从YouTube视频中收集的。我们进行了3轮质量检查，以确保注释质量。请参阅补充材料和我们的网站，了解更多关于我们数据集的详细信息。多标签细粒度动作的动作识别。在动作识别中，模型接收一个输入视频片段，并输出其动作标签。动物的动作可以在短短几秒钟内发生（例如跳跃），也可以持续几分钟（例如性展示）以展示更复杂的行为模式。我们的多样化数据集包含50小时的视频片段，包括超过850种动物和140个细粒度的动作类别，这些类别来自动物行为学家使用的列表[19, 22, 58,63]。动作和行为的收集（请参阅补充材料）涵盖了生活事件（例如蜕皮）、日常活动（例如进食）和社交互动（例如玩耍）。视频片段的平均持续时间为6秒，范围从1秒到117秒。自然界带来的复杂性在分析野外动物行为时提出了一系列实际挑战。（1）我们的数据集中存在大量的类内和类间动作变化。如图2中的前两行所示，相同类型的动作（例如进食）在不同类型的动物执行时可能看起来不同。因此，我们需要设计鲁棒的方法来识别各种动物的动作。（2）在自然环境中，动物可以同时执行多个动作。此外，同一帧中可能有多个动物，这些动物之间可能有不同的动作。190270执行不同的动作。所有这些都导致了多标签动作，并且还可能导致长尾动作分布。(3)由于野外拍摄的动物视频中，一些动作（例如蜕皮）在自然界中发生的频率较低，而其他动作（例如进食）发生的频率较高。这不可避免地导致了不均匀的长尾动作分布，从而鼓励开发处理长尾分布的先进策略。在构建我们的动物行为识别数据集时，我们遵循[82]的工作，根据每个动作类别中的样本数量将分布分为三个不同的部分。具体而言，我们将数据集中的所有140个动作类别分为头部部分（每个类别有超过500个样本的17个动作类别），中间部分（每个类别有100到500个样本的29个动作类别）和尾部部分（每个类别有少于100个样本的94个动作类别）。头部部分包含自然界中发生频率较高的动作（例如感知和进食）。中间部分包括在自然界中常见的动作（例如攀爬、梳理和挖掘），而尾部部分由在自然界中较少见的动作组成（例如蜕皮和翻筋斗）。基于描述的视频定位。在视频定位中，模型提供了描述场景中感兴趣的动物和行为的输入查询句子。然后，模型需要输出相关的时间段，包括开始和结束时间（图3），就像一个视频剪辑搜索引擎。视频定位在提高生态研究的生产力方面起着关键作用，因为大部分生态监测视频可能不包含感兴趣的动物和行为的镜头[12,44]，而视频定位提供了一种方便的方式，让用户通过描述感兴趣的场景来搜索长视频中的相关时间段。视频定位的关键挑战在于根据语言描述识别行为并将动物与复杂的背景区分开来，以返回基于语言描述的相关结果。我们的数据集中的视频定位任务包含50小时的视频（共4301个长视频序列），其中包含18744个注释句子。每个视频序列包含3-5个句子。0图3.视频定位任务的示例。根据语言描述，我们需要检测相应的时间段。0用于推断动物关键点的姿势估计。在姿势估计中，模型接收动物的输入图像，并预测其关节的位置。由于不同类别的动物具有截然不同的解剖结构，这对于姿势估计构成了挑战。因此，我们根据五个主要的动物类别（哺乳动物、爬行动物、两栖动物、鸟类和鱼类）组织图像，以构建对每个动物类别的姿势的差异化理解。我们制定了五个动物类别的共同关键点（图4）。这些关键点对应于人类姿势的等效部位，并且也符合[72]中的建议。我们定义了总共23个关键点：1个头部，2个眼睛，4个口腔部位，2个肩膀，2个肘部，2个腕部，1个腹部中部，2个髋部，2个膝盖，2个踝部和3个尾部部位。对于鸟类的上肢（即翅膀）和鱼类的上肢（即鳍），它们的肩膀、肘部和腕部的定义与它们的上肢运动方式相一致。同样，对于没有腿的鱼类的“下肢”，它们的髋部、膝盖和踝部沿着尾部部分的边缘进行注释，因为它们的尾巴控制它们的游泳动作[7]。总之，我们的动物王国数据集具有各种类型的动物行为分析任务的几个重要特性。此外，大的类内变化、多标签动作和长尾分布对于理解野生动物行为提出了实际挑战。因此，我们的数据集为研究社区提供了一个具有挑战性和多样性的基准，以促进开发、适应和评估各种类型的先进动物行为分析方法。04. 提出的CARe模型0在构建我们的数据集时，我们观察到不同类型的动物执行相同动作类别时可能看起来相似但又不同。例如，动作“吃东西”在变色龙和水獭之间具有相似性但仍然存在差异，如图2所示。同时，训练网络模型来分析和识别各种类型动物的动作可能是一个有趣的问题。然而，即使我们可以收集一大量一组动物的视频动作样本，考虑到世界上有超过700万种物种[45]，对于各种类型的物种进行网络训练仍然可能难以穷尽地收集和注释大量样本。0图4. 我们数据集中的动物姿势示例(1)ˆfspecific = 1KKk=1wk · f kspecific(2)190280图5.我们的协作动作识别（CARe）模型的架构。在测试时，给定一个未知类型动物的视频动作样本，通过以空间感知的加权方式组合K个现有特定特征详细说明器的输出，将获得近似的特定特征。然后将近似的特定特征与一般特征融合，最后输入分类器C预测动作类别。0然而，由于不同动物的相同动作类别可能具有一些共同（可泛化）的特征，因此可以基于注释的动物集的视频样本训练一个通用网络，然后将该网络应用于识别甚至未知新动物的相同动作集（即在模型训练期间未包含但后来感兴趣的动物类型）。通过这种方式，网络可以提取用于动作识别的不同动物之间共享的良好泛化特征。然而，仅提取一般特征而忽略不同动物类型的特定特征可能会限制动作识别性能，因为特定特征，即使只对某种动物类型独有，仍然可以传达用于识别该动物类型动作的有区别的信息。为了解决这个问题，我们提出了一个简单而有效的协作动作识别模型（CARe），通过利用一般和特定特征，能够识别甚至未知类型的动物的相同动作集，如图5所示。假设我们有K种观察到的动物类型的数据进行训练，那么训练数据可以表示为D ={D_k}，其中D_k = {(x_k^n,y_k^n)}，这里x_k^n表示一个视频动作样本，y_k^n表示其真实动作标签，N_k是第k种观察到的动物类型的样本数量。我们的基础模型由骨干特征提取器E、相对较轻的一般特征详细说明器F_gen（所有动物类型共享）和特定特征详细说明器{F_k_specific}以及分类器C组成。骨干特征提取器E（一个I3D模型）用于从每个输入视频样本x提取基础特征f_base =E(x)，然后将其输入到一般特征详细说明器F_gen中，得到一般特征f_gen =F_gen(f_base)，以及特定特征详细说明器F_k_specific中，得到特定特征0f_k_specific =F_k_specific(f_base)。这样的基础模型可以在训练集D上进行训练，具体如下：0ˆ y_k^n = C(F_gen(E(x_k^n)),F_k_specific(E(x_k^n)))0ℓ = ℓ_CE(^y_k^n, y_k^n)0这表明，对于每个训练样本x_k^n，它的一般特征和特定特征被连接起来，最后输入分类器C进行动作标签的预测^y_k^n，这个基础模型的训练是在交叉熵损失ℓ_CE的监督下进行的。通过这个方案，在训练过程中，来自所有K种训练动物的动作样本将通过一般特征详细说明器(F_gen)，而只有来自第k种动物类型的样本将通过特定详细说明器F_k_specific。因此，经过大量各种类型（即K）动物的数据训练的一般特征详细说明器能够学习提取出具有良好泛化能力的特征。同时，每个特定详细说明器F_k_specific（在特定类型动物的数据上进行训练）将学习提取出更适用于相应类型动物的特定特征。因此，这两组互补的特征可以融合用于动作识别。尽管上述基础模型可以为已知动物类型生成一般和特定特征，但它仍然无法处理未知动物类型的情况，因为我们没有针对这K个训练类型之外的动物类型的特定特征详细说明器。考虑到不同动物在外观和行为上可能存在不同程度的相似性（例如，猎豹与老虎之间的相似性比与蛇等其他动物之间的相似性更多），在处理未知动物类型的输入视频时，为了获得其特定特征，一个可能的解决方案是利用基于不同相似性级别的现有详细说明器来挖掘和近似未知动物的特定特征。为此，我们设计了一个相关性评估器R，它是一个子网络，用于评估未知动物类型的动作样本x相对于所有K个观察到的动物类型的相似性。为了实现这一点，我们首先将x输入到骨干特征提取器E中，以获得基础特征f_base，然后将其输入到所有K个特定详细说明器中，得到一组中间特征{f_k_specific}。然后我们估计相似性为：w = R(f_base,{f_k_specific}),其中w ={w_k}表示该样本相对于K个观察到的动物类型的相似性（相关性）得分。因此，我们可以通过现有的K个特定详细说明器的协作来近似该未知动物类型的动作样本x的特定特征：0此外，考虑到动物在不同空间位置上与另一种动物的相似度可能不同，我们可以将w k 实现为张量（即w k ∈ R h × w），而不是标量，从而根据动物与不同观察到的动物类型以及特征图上的不同空间位置之间的不同相似度来生成未见动物类型的特定特征。I3D [10]16.4846.3920.6812.28SlowFast [16]20.4654.5227.6815.07X3D [15]25.2560.3336.1918.83Focal Loss [37]I3D [10]26.4964.7240.1819.07SlowFast [16]24.7460.7234.5918.51X3D [15]28.8564.4439.7222.41LDAM-DRW [9]I3D [10]22.4053.2627.7317.82SlowFast [16]22.6550.0229.2317.61X3D [15]30.5462.4639.4824.96EQL [66]I3D [10]24.8560.6335.3618.47SlowFast [16]24.4159.7034.9918.07X3D [15]30.5563.3338.6225.09190290在我们的基本模型中，特定特征的近似值是通过对观察到的动物类型的不同相似性和特征图上的不同空间位置（大小为h×w）进行计算的。由于w k 可以表示为张量（即w k ∈ Rh × w）而不是标量，因此近似值也可以被实现为张量，从而根据未见动物类型与不同观察到的动物类型以及特征图上的不同空间位置之间的相似性来生成未见动物类型的特定特征。在这种方式下，K个特征精化器以一种空间感知的方式相互协作，以产生最佳的近似值。在近似值被计算出来后，将将一般特征和近似的特定特征融合并输入分类器C进行动作类别预测，如图5所示。如前所述，我们的基本模型可以在观察到的动物的训练集（D）上进行训练。然而，相关性评估器R需要具有对未见新动物的泛化能力，这使得R的训练具有挑战性。受元学习[ 13 , 18 , 25 , 32]的启发，元学习是一种“学习如何学习”的技术，可以通过将原始训练集分割为元训练集和元测试集来模拟模型训练过程中的目标测试场景，我们在这里应用元学习来训练我们的R，以提高其对未见动物类型的泛化能力。具体而言，根据元学习的模拟方案，我们将包含K种动物类型的训练集分割为一个虚拟的元训练集（包含K-1种已见动物类型）和一个虚拟的元测试集（包含一种“未见”动物类型）。基于这些集合，我们利用域泛化元学习（MLDG）算法[ 32]来有效优化我们的模块R。通过交替使用公式（1）训练我们的基本模型和使用MLDG训练R，我们的CARe模型获得了泛化能力，并能够产生可靠的一般和近似的特定特征，对于识别未见动物的相同动作集非常有用。有关CARe的更多实现细节，请参见补充材料。05. 实验0我们在我们的数据集上评估了最先进的方法：I3D [ 10]，X3D [ 15 ]和SlowFast [ 16 ]用于动作识别；VSLNet [81 ]和LGI [ 47 ]用于视频定位；HR-Net [ 64]和HRNet-DARK [ 80]用于姿态估计。我们使用它们的原始代码，并针对我们的动物王国数据集进行了适应。05.1. 动作识别结果0对于我们的第一类实验，我们进行多标签动作识别。我们首先在我们的多标签动物动作识别数据集上使用多标签二值化器[ 51]，该数据集包含了所有的30.1K个视频剪辑，以分层的方式划分动作类别，并将视频剪辑和每个动作类别分为80%的训练集和20%的测试集。我们采用平均精度（mAP）作为评估指标，与[ 61]中提到的一样。正如在第3.2节中提到的，我们的数据集包含了多标签动作的长尾分布，我们遵循[ 82 ]的方法。0表2. 动作识别结果0方法整体头部中部尾部0基线模型（交叉熵损失）0为了识别头部、中部和尾部段，我们评估了整体mAP以及动作识别的特定段mAP。需要注意的是，由于我们的数据集具有长尾分布，我们还评估了处理长尾分布的方法[9, 37,66]在我们的数据集上，并将这些方法应用于动作识别方法。具体而言，我们测试了成本敏感学习（Focal Loss[37]）和重新加权方法（LDAM-DRW [9]和EQL[66]），结合不同的动作识别方法（I3D [10]，X3D[15]和SlowFast[16]）。如表2所示，处理长尾分布的动作识别方法（例如FocalLoss）在头部、中部和尾部段的mAP上比基线方法更高。这表明了社区探索处理长尾和多标签问题的各种方法的可能性和机会。对于我们的第二类实验，我们对未见过的动物类型进行动作识别。具体而言，我们选择了六个动作类别的视频剪辑（即移动、进食、关注、游泳、感知和静止），这些类别被各种类型的动物广泛共享，以训练和测试我们的CARe模型对未见过的新动物类型进行动作识别。我们选择了四种动物类型（即鸟类、鱼类、青蛙、蛇）进行训练，选择了另外五种动物类型（即蜥蜴、灵长类动物、蜘蛛、直翅目昆虫、水禽）进行测试。在这个实验中，我们使用只包含一个动作实例的视频剪辑。因此，我们将准确率作为此实验的评估指标。我们进行了消融研究，并将我们的方法与两种最近的领域泛化方法[33,74]进行了比较，所有实验都使用I3D作为骨干网络。对于消融研究，我们首先构建了“无特定特征的CARe”和“无通用特征的CARe”（即仅使用近似的特定特征）。我们还构建了“无空间感知加权的CARe”，其中相似性权重w在我们的完整CARe模型中实现为一组张量。表3中的结果显示，我们的完整模型（CARe）取得了最好的结果，证明了利用通用特征和空间感知近似特定特征来识别未见动物类型的动作的有效性。190300表3. 未见动物的动作识别结果0方法准确率（%）0Episodic-DG [33] 34.0 Mixup [74] 36.20CARe无特定特征 27.3 CARe无通用特征 38.2CARe无空间感知加权 37.1 CARe（我们的完整模型）39.70一组标量，而w是我们完整CARe模型中的一组张量。表3中的结果表明，我们的完整模型（CARe）取得了最好的结果，证明了利用通用特征和空间感知近似特定特征来识别未见动物类型的动作的有效性。05.2. 视频定位结果0根据[21, 47,81]，我们使用平均交并比（IoU）和“Recall@n，IoU=µ”作为我们的评估指标。平均IoU表示所有测试样本的平均IoU。至于“Recall@n，IoU=µ”，我们首先计算结果与真实值（即开始和结束时间之间的长度）的IoU。如果IoU大于阈值µ，则认为返回的结果是正确的。因此，“Recall@n，IoU=µ”指的是测试集中至少有一个正确结果的语言查询的百分比，其中n=1，µ∈{0.1, 0.3, 0.5,0.7}，并在表4中报告结果。0表4. 视频定位结果0Recall@1 平均IoU0方法 IoU=0.1 IoU=0.3 IoU=0.5 IoU=0.70LGI [47] 50.84 33.51 19.74 8.94 22.90 VSLNet [81] 53.59 33.74 20.8312.22 25.0205.3. 姿势估计结果0我们定义了三个协议来识别由于动物类内和类间变化而产生的姿势估计潜在挑战。协议1：将整个数据集与所有动物物种分为训练集（样本的80%）和测试集（样本的20%）。这意味着所有物种都包含在训练集和测试集中，以评估模型在估计所有动物的姿势时的效果。协议2：我们采用留-k-out设置，选择k=12个动物子类（例如猫科动物、龟类等）仅用于测试，而其他动物子类用于训练。所选的子类来自五个主要类别。因此，测试集中的子类不出现在训练集中。这评估了模型对未见动物类别的姿势估计的泛化能力。协议3：我们将数据集中的所有样本分为五个主要类别（即哺乳动物、两栖动物、爬行动物、鸟类和鱼类）。对于每个主要类别，我们定义其0表5. 姿势估计结果0PCK@0.050协议描述 HRNet [64] HRNet-DARK [80]0协议1 全部 66.06 66.570协议2 留k个样本 39.30 40.280协议30哺乳动物 61.59 62.50 两栖动物 56.74 57.85爬行动物 56.06 57.06 鸟类 77.35 77.41鱼类 68.25 69.960自己的训练集（80%样本）和测试集（20%样本）。这是为了评估每个主要动物类别的姿势估计性能。根据[78]，我们采用正确关键点百分比（PCK）作为评估指标。PCK@α衡量在距离阈值α内定位身体关节的准确性。如果预测的关键点落在由动物边界框的α×max（高度，宽度）计算的距离阈值内，那么它被认为是正确的。这里我们将α设置为0.05。如表5所示，我们评估了两种最先进的姿势估计方法[64,80]在我们的数据集上的表现。在协议3中，爬行动物和两栖动物的结果低于其他动物，可能是由于估计它们的关键点的挑战，因为它们以各种形状和纹理的形式出现，并且在其类别内关节的位置不同，并且它们能够很好地伪装到它们的环境中。我们观察到协议2的结果相对较低，说明了将姿势泛化到未见过的新动物类别的挑战。这将为社区提供机会，以开发新的方法来更好地学习和泛化跨各种动物类别的姿势信息。06. 结论0我们介绍了一个具有挑战性的动物行为分析数据集，包括动物王国中850多个物种的视频定位、动作识别和姿势估计。我们还介绍了一种具有改进能力的协作动作识别（CARe）模型，用于识别未见过的新动物类型的动作。动作识别和姿势估计中动物类别内部和之间的变化说明了我们的数据集在性质上的多样性优势，同时也凸显了挑战，并强调了在视频定位、动物动作识别和姿势估计领域进一步研究的迫切需求。我们期望我们的工作能够激发动物行为分析领域的进一步研究，了解动物行为可以使我们的世界对野生动物和人类都变得更好。致谢。我们要感谢Ang Yu Jie、Ann Mary Alen、Cheong Kah YenKelly、Foo Lin Geng、Gong Jia、Heng Jia Ming、Javier Heng Tze Jian、Javin EngHee Pin、Jignesh Sanjay Motwani、Li Meixuan、Li Tianjiao、Liang Junyi、LoyXing Jun、Nicholas Gandhi Peradidjaya、Song Xulin、Tian Shengjing、WangYanbao、Xiang Siqi和XuLi对视频定位、动作识别和姿势估计的注释和质量检查的工作。本项目得到了新加坡人工智能研究院（AISG-100E-2020-065）、新加坡国家研究基金会和新加坡科技与设计大学创业研究基金的支持。[10] Jo˜ao Carreira and Andrew Zisserman.Quo vadis, actionrecognition? A new

下载后可阅读完整内容，剩余1页未读，立即下载