MultiSports：多人运动视频数据集及其时空局部化

136 浏览量更新于2023-10-13 1 收藏 2.32MB PDF 举报

时空动作检测

数据集构建

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

13536MultiSports：一种时空局部化的多人运动视频数据集易轩李磊陈润宇何振志王刚山吴利民王晓墨南京大学软件新技术国家重点实验室摘要时空动作检测是视频理解中一个重要而又具有挑战性的问题。现有的动作检测基准在修剪视频或低级原子动作中的少量实例方面受到限制。本文旨在提出一个新的多人时空本地化的体育动作的数据集，创造多体育。我们首先通过提出三个标准来分析构建用于时空动作检测的现实且具有挑战性的数据集的重要性：（1）多人场景和运动相关识别，（2）具有明确定义的边界，（3）高复杂度的相对细粒度的类。基于这些准则，我们通过选择4个体育类，收集3200个视频片段，并使用902k个边界框注释37701个动作实例，构建了MultiSports v1.0的数据集。我们的数据集具有高多样性，密集注释和高质量的重要特性我们的多运动，其现实的设置和详细的注释，暴露了时空动作检测的内在挑战。为了对这一点进行基准测试，我们采用了几种基线方法来适应我们的数据集，并对数据集中的动作检测结果进行了深入分析。我们希望我们的MultiSports可以作为未来时空动作检测我们的数据集网站是https://deeperaction.github.io/multisports/。1. 介绍在未经修剪视频中的时空人体行为检测对于监控和体育分析等应用具有重要的意义最近，从短修剪视频中识别动作已经取得了相当大的进展[44，3，40，35，41，42]，但是这些分类模型不能直接应用于多人场景中的视频分析同时，尽管用于未修剪视频的时间动作检测方法[56，26，25，50，53]可以区分人类动作与背景的间隔：通讯作者（lmwang@nju.edu.cn）.但是它们仍然不能在空间上检测多个并发的人类动作，这在视频分析的现实世界应用中是重要的。当前的时空动作检测基准主要可以分为两类：1）密集注释的高级操作，如J-HMDB [17]和UCF 101 -24[38]。他们的剪辑只有一个人在做一些语义上简单和时间上重复的动作。通常，场景上下文可以提供足够的线索来识别这些粗粒度的动作类别。因此，这些基准对于现实世界的应用来说可能是不切实际的，例如监视，其中需要在多人场景中处理更细粒度的动作2)稀疏注释的原子动作，如AVA [12]。它们未能提供清晰的时间动作边界，而只是专注于原子动作的帧级空间定位。此设置消除了动作检测算法的时间定位要求。同时，他们的原子行为很少需要对行为者及其周围环境进行复杂的推理。基于以上分析，我们认为需要一个新的基准来推进时空动作检测的研究。基准测试应该满足几个重要的要求，以涵盖这项任务的现实挑战。1)在同一场景中应该有多个人同时执行不同的动作，其中背景信息不足以用于动作识别，并且演员的运动本身起着重要的作用。2）为了解决人类在时间上固有的混乱的3）考虑到现实世界应用的复杂性，动作应该是细粒度的，这需要准确的人的姿势和运动信息，长期的节奏结构，人、对象和场景之间的可能交互，以及对它们的关系的推理。遵循上述指导方针，我们开发了多人运动数据集，简称多人运动动作。该数据集是大规模、高质量、多人的，并且包含在空间和时间域中具有精确和密集注释的细粒度动作类别。AC-13537运球、带球屏幕，屏幕挡拆防守屈腿跳跃、支撑炸药支架屈腿跳跃、支撑图1. MultiSports数据集中的边界框和细粒度动作类别注释的25fps小块。多个并发的动作情况经常出现在MultiSports中，在长的未修剪视频剪辑中有许多开始和结束点帧被裁剪和采样步长5或7以用于可视化建议。相同颜色的管子代表同一个人。动作词汇由篮球、排球、足球和健美操4个运动项目的66个动作类组成图1中显示了一个示例剪辑。我们选择这四项运动是出于以下原因。1)在体育比赛中存在大量的多个并发动作实例。此外，背景远没有那么特征，并且不能为细粒度动作识别提供足够的信息2)体育运动有明确的范畴和界限.这些界限由职业运动员或官方文件定义[7]。3)由于竞赛规则的复杂性，对体育动作的识别通常需要对动作的长期结构和人-物-场景交互进行例如，在足球中，虽然运动员可能只需要0.5秒来踢球，但我们可能需要多达5秒的上下文来识别它是传球、长传、传中还是传中。在实践中，我们在两个阶段的过程中对25 fps的逐帧边界框和细粒度动作类别进行详尽的注释：1）相应运动的专业运动员团队注释时间和类别标签，以及2）众包注释器团队在跟踪方法FCOT的帮助下完成边界框[6]。这两个阶段的注释过程以及仔细的质量控制一起可以保证一致和干净的注释。为了确保视觉质量，我们数据集中的所有视频都是来自不同国家和不同表现水平的专业比赛的高分辨率记录。在《易经》中，有明确的定义和严密的注释在MultiSports v1.0中，我们在这个具有挑战性的数据集上对时空动作检测进行基准测试。我们进行实证研究与几个最近的国家的最先进的动作检测方法。与之前的动作检测基准测试（如J-HMDB [17]和UCF 101 -24 [38]）相比我们还介绍了一个详细的错误分析检测结果，并试图提供更多的见解时空动作检测。根据我们对MultiSports基准测试的分析，我们指出了时空动作检测需要解决的几个挑战，例如捕获细粒度动作类别之间的细微差异，执行精确的时间定位，处理动作遮挡和建模远程上下文。我们希望MultiSports可以作为一个标准的基准，以推进未来的时空动作检测领域MultiSports 时空动作检测目前是 ICCV2021https://deeperaction.github.io/的DeeperAc- tion挑战赛的一个赛道。总之，我们的主要贡献有两个方面。1）我们开发了一个新的时空动作检测基准MultiSports，用于多人场景中定义明确且现实困难的人类动作，提供来自四个运动的高质量和 25fps 帧的注释。 2) 我们对MultiSports进行了广泛的研究和系统的误差分析，揭示了时空动作检测的关键挑战，并希望能够促进这一领域的未来研究。135382. 相关工作动作识别数据集。早期的动作识别数据集主要集中在动作分类上。这些数据集，包括KTH [32]，Weizmann[2]，UCF-101 [38]和HMDB [21]，包含手动修剪的短片段以捕获单个动作的语义。然而，他们的人类动作线索被背景场景的信号所淹没。Multi-MiT [27]是一个多标签动作识别数据集，可能有多个并发动作，但不提供时间持续时间和空间注释。最近，已经创建了大规模视频分类数据集，如Sports-1 M [19]，YouTube-8M [1]和Kinetics [3]，用于特征表示学习，并作为下游任务的预训练，但外观线索仍然在这里发挥着重要作用。Something-something [11]和FineGym [33]具有大量细粒度的动作类别，有效地减少了背景场景的影响，并揭示了建模单个动作的一些关键挑战。它们与MultiSports具有捕获运动线索的类似属性，但只有一个并发动作-因此我们用它们来解决不同的需求。时间动作检测数据集，如Activi-tyNet [13]，HACS[54]，THUMOS 14 [16]，MultiTHU-MOS [52]和Charades [34]为未修剪视频中的每个感兴趣的动作提供时间动作检测注释。但与MultiSports不同的是，它们不提供空间注释，也无法识别多个人的多个并发操作。先前的时空动作检测数据集，例如 UCF Sports[30]，UCF 101 -24 [38]和J-HMDB [17]，通常评估仅具有单个人和粗粒度动作类别的短视频的时空动作检测我们的MultiSports在几个方面与他们有很大的不同：多个人的多个并发动作;较少的特征背景场景;大量的动作和细粒度的类别;更快的移动和大的变形;以及每个剪辑显著更多的间隔。最近，一种新型的扩展，如DALY [46]，AVA [12]和AVA-Kinetics [22]，采用复合或原子形式的日常生活行为的稀疏注释，以减少人工注释并增加数据集的规模。它可能是一种用于评估日常生活动作而没有快速移动和大变形的好方法，但不适合于像体育分析这样的领域，因为它通常需要对所有感兴趣的人类动作进行连续注释。MEVA[5]是一个安全数据集，它提供时空注释和一些其他模态注释。但我们的体育活动比MEVA更复杂，变化更快与以前的数据集不同，我们的MultiSports提出了一个更困难的基准，具有多人，定义良好的边界，细粒度设置和逐帧注释，重点是体育领域。时空动作检测。UCF101 -24和JHMDB的最新方法可分为两类：帧级检测器和限幅级检测器。已经做出了许多努力来将图像对象检测器扩展到帧级的时空动作检测任务[10，43，28，31，36，45]，其中结果每帧检测然后被链接以生成最终管。虽然流可用于捕获运动线索，但帧级检测器未能充分利用节奏信息。为了对动作检测的时间结构进行建模，已经提出了一些剪辑级方法或动作tubelet检测器[15，23，18，51，24，55，37]。ACT [18]将几个帧作为输入，并检测到从锚长方体回归的tubelets。STEP [51]通过几个步骤逐步完善建议，以解决大位移问题，并利用更长的时间信息。MOC-detector [24]通过将动作实例视为移动点的轨迹来提出无锚tubelet检测器。对于AVA，已经提出了许多方法[8，9，39，47，48]以更好地利用时空信息进行原子动作分类。3. MultiSports数据集我们的MultiSports数据集旨在为时空动作检测领域引入一个具有高质量注释的新的挑战性基准，该基准在多人场景，明确定义的时间边界和细粒度动作类别方面与以前的基准不同秒3.1介绍了我们的注释过程。综合运动的统计和特征在第二节中进行了阐述3.2和第二节三点三3.1. 数据集构建动作词汇生成。我们选择了篮球、排球、足球和健美操这四个项目，因为它们的多人设置、模糊动作较少和时间界限明确对于有氧体操，我们使用官方文档[7]。在实践中，我们只选择难度元素并丢弃移动模式。对于剩下的球类运动，我们使用迭代的方式来生成每项运动中的动作词汇：我们根据运动员的建议初始化一个动作列表，并编写一本手册来阐明动作边界的定义。然后，我们让几个注释器尝试注释数据，其中动作边界的不准确定义、动作类别之间的模糊性和错过的动作类别将从他们的反馈中收集。在我们开始大量注释之前，我们根据反馈多次迭代地调整我们的操作列表和手册，这导致了图中所示的最终操作层次结构。第2段（a）分段。注意，动作类别和时间边界的注释者是相应运动的专业运动员，因此他们的反馈对于在实践中构建定义良好的动作词汇表是重要的保持动作边界准确13539MultiSports健美操篮球足球排球推高通长传服务驱动腿圈开枪块炸药支护3分球空中决斗捍卫直升机运球通过滚珠第一击传球保护… …(a) ：我们的动作类别的层次结构（b）：用于动作注释图2.MultiSports数据集的动作词汇表层次结构和注释器接口（a）我们的综合运动项目有两个层次的动作词汇，其中每个运动项目的动作都是细粒度的。(b)注释详情见第3.1节。并使我们的数据集适合于时空动作检测，我们不计算常见的和原子的动作，如运行或站在我们的动作词汇表。我们也排除球类运动中的犯规。因为在2D视频记录中，我们识别犯规最多的是裁判更糟糕的是，很难确定谁因遮挡而犯规。数据准备在选择了四项运动之后，我们通过在YouTube上查询像排球这样的运动名称和像奥运会和世界杯这样的比赛级别名称来搜索它们的比赛视频，然后从顶部搜索结果中下载视频。对于每个视频，我们只选择高分辨率，例如 720P或1080P，竞争产品人员边界框跟踪。如上所述，我们首先标记由专业运动员生成的每个记录，然后采用众包注释器来细化每个帧处的具体来说，我们使用FCOT [6]逐帧跟踪边界框。我们发现这种跟踪到细化的标记过程不仅可以加快注释过程，而且还可以通过强制工人专注于确定每个框的精确边界来提高注释质量。我们还评估了FCOT [6]的输出，结果如表1所示。我们采用OTB100 [49]中提出的成功和精度指标。有氧运动在成功和精确方面都是最难的。然后手动将它们剪切成分钟的片段在每个剪辑中具有更少的镜头变化并且更适合于动作检测。这些官方记录共享一致和丰富的内容，并可以保证高质量的数据集。动作注释。由于我们的注释难以标记细粒度类别并且在确定25 fps逐帧边界框时是详尽的，因此我们自然地将我们的注释过程分解为两个阶段：1）专业运动员团队生成动作la的记录-bel、起始帧和结束帧以及起始帧中的人物框，保证了标注结果的高效性、准确性和一致性; 2）在FCOT [6]跟踪算法的帮助下，众包注释器团队在每个记录的每个帧处调整跟踪结果的边界框。空间人类边界的模糊性远小于细粒度动作类别和时间动作边界的模糊性。它们使用如图2（b）所示的接口。为了确保动作时间边界的一致性例如，我们的手册将足球传球的注释统一为从控球腿离开地面开始，以这条腿再次触地注释手册在补充材料中提供。有氧健身房。排球足球篮球成功0.660.720.770.66精度0.670.930.920.72表1.跟踪不同运动的结果质量控制对于注释的第一阶段，每个片段具有至少一个具有领域知识的注释器，其双重检查注释。我们纠正错误或不准确的注释，并添加缺失的注释以提高召回率，例如，在足球比赛中增加漏接的防守动作和修改不一致的动作边界。对于第二阶段，我们通过以5fps播放来仔细检查每个实例，并手动纠正不准确的边界框。3.2. 数据集统计数据我们的MultiSportsv1.0包含来自四个运动的66个精细动作每个运动项目的视频被手动剪切成800个片段，以保持运动项目之间的数据平衡。我们舍弃只有颁奖等背景场景的片段，选择比赛的精彩片段作为动作检测片段。表2将MultiSports v1.0的注释类型和AVA [12]只有稀疏和1fps的边界框注释，无法提供清晰的时间动作边界，专注于原子动作识别。AVA-Kinetics [22]使用Kinetics [3]的10 s片段的一部分并注释一个13540al3000200010000图3.统计MultiSports中每个动作类对于不同运动中具有相同名称的动作，我们在它们之前添加运动的名称。anno型#act.#inst.平均法/ vid.dur。#bbox8000J-HMDB [17]管219281.2秒/1.2秒32kUCF101-24 [38]管2444585.1秒/6.9秒574kAVA V2.1 [12]*帧80˜56000†稀疏‡/15 m426k6000[22]第二十二话帧80˜186000†-59万恩特尔夫HACS [54]段200140k33.2秒/148.7秒-我[33]第三十三话段530326971.7s /10m-每4000我们的全部管66377011.0s /20.9s902k表2.现有动作检测数据集与我们的MultiSports v1.0之间的统计比较。（*只有train和val集的地面实况可用;具有类别、时间边界和空间定位的Tube;具有类和空间定位的框架;具有类和时间边界的分段;†数量person tracklet，每个tracklet都有一个或多个action label;‡1fps动作注释）也没有任何时间边界注释。我们的注释类型与他们的不同。MultiSports与J-HMDB [17]和UCF 101 -24 [38]等现有数据集在较长的未修剪视频剪辑（20.9秒vs.1.2秒或6.9秒）、更细粒度的动作类别（66与21或24），更多的实例（37701与928或4458），以及每个视频剪辑更多的实例（11.8 vs. 1或1.4），这提出了在较长视频中对多个人的快速移动和细粒度动作进行建模的新挑战。我们的MultiSports在所有现有数据集中也拥有最多的边界框我们发现，细粒度的类别和明确定义的边界通常会大大缩短动作持续时间，这与Fin-eGym [33]一致。此外，我们只保留球类运动中的共同部分例如，篮球传球是从球员用手臂把球推出去开始的，但不包括持球和做假动作。因此，我们的平均动作持续时间小于UCF 101 -24和HACS [54]，其中包含粗粒度和时间重复的动作，如HACS中的排球和UCF 101 -24中的骑马如图3所示，每个操作类别的实例数范围从3到3，477，显示了00510 152025 303540 455055 60657075 808590 95 100图4. MultiSports中动作实例持续时间的统计，其中x轴是帧数，我们在最后一个条中计算所有长于95帧的实例。长尾分布[14]。长尾动作类别也对动作检测模型提出了新的挑战。图4显示了动作实例持续时间的分布。动作实例持续时间的大变化增加了动作检测模型准确地局部化时间边界的难度此外，在MultiSports中的动作实例通常与较长的时间上下文和与上下文的交互有关。MultiSports的这些固有的挑战需要一个更强大和灵活的动作检测的时间建模方案。我们的训练/验证/测试集在剪辑级别进行分割，其中每个运动中的剪辑编号手动控制为3：1：2，用于训练/验证/测试。3.3. 数据集特征与现有数据集相比，我们的MultiSports困难如上所述，与现有数据集相比，MultiSports在几个方面存在困难：1）不同并发动作的多人情况，这阻止了模型仅用背景来区分动作类别，并且要求模型捕捉微妙不同的运动线索; 2）具有长尾分布的大量细粒度类别; 3）动作实例持续时间的大方差，这使得难以确定动作实例持续时间。足球篮球排球健美操每个类健美操篮球足球排球#i有氧健身房。管2187031.5秒/30.7秒325kNCES排球管1276450.7s /10.5s十三万九千ta13541确定时间边界; 4）运动中动作的快速、大变形和遮挡。高质量 MultiSports 的视频带有高分辨率（ 720P 或1080P）的比赛记录，可以保留小人物和物体的细节此外，在由专业运动员组成的注释团队的帮助下，我们的动作类别及其对应的动作边界被精确地注释。专业的注释人员和仔细的质量控制能够提供一致和干净的注释。多样性我们的视频剪辑选自不同国家和性别的不同表现水平的比赛，使数据集更少偏见和更好的平衡，以进行现实的体育分析。应用程序. 该任务有很多体育分析的应用场景。结合Re-ID技术，我们可以自动执行比赛评论，AI裁判和技术统计。它还可以评估球员的能力，并为制定训练计划和比赛策略以及在俱乐部之间交易球员提供信息。4. 实验和分析4.1. 数据集和指标MultiSports基准。为了构建一个可靠的动作检测基准，我们手动将实例分为训练集、验证集和测试集。由于动作实例数量的长尾分布，在AVA [12]之后，我们只评估了60个类，这些类在验证和测试中至少有25个我们将整个数据集调整为720P。总的来说，当前版本包含来自1，574个剪辑的18，422个训练实例和来自555个剪辑的6，577个验证实例。我们在补充材料中提供了每项运动的训练和验证实例的详细比例。所有这些实例是从覆盖247个竞争记录的3200个剪辑除非另有说明，否则我们报告在训练集上训练并在验证集上评估的结果。测试集包括1071个剪辑，我们在公开发布中保留了注释。指标. 根据标准实践[45，18]，我们使用帧mAP和视频mAP来评估动作检测性能。对于视频mAP，我们使用3D IoU，其被定义为两个轨道的时域IoU乘以重叠帧之间的IoU的平均值对于帧-mAP，阈值为0.5，对于视频-mAP，阈值为0.2和0.54.2. 时空动作检测结果我们评估了MultiSports上的几种代表性动作检测方法，并比较了它们在Ta中的UCF 101 -24 [38]，JHMDB[17]和AVA [12]上的性能。ble3.对于SlowOnly检测和慢快检测器，公司现采用国际MMAction2中的代码[4]。我们使用ROAD、YOWO和MOC的官方发布代码。补充材料中提供了关于方法的更多细节对于UCF 101 -24 [38]和JHMDB [17]，它们具有作为MultiSports的高级动作的密集注释，我们发现这些方法在它们上实现了良好的性能，但在MultiSports上获得了较低的性能（对于MOC [24]，frame-mAP为25.22%，video-mAP@0.2为12.88%，video-mAP@0.5为0.62%在我们的数据集中，最大的性能下降发生在ROAD [36]上，ROAD是一种帧级动作检测器，在不利用时间信息的情况下独立地在每个帧处执行动作检测。UCF 101 -24 [38]和JHMDB [17]每个视频只有一个类别特征视觉场景提供了足够的线索来预测他们的粗粒度动作。然而，MultiSports在同一运动中具有类似的背景，其中背景未能提供足够的信息用于细粒度动作识别。同时，我们的时间边界标注更精确，需要更准确的时间域定位。对于AVA [12]，它只有原子操作的稀疏注释，我们观察到SlowFast Det之间的性能差距。”[8]“慢，慢，慢。[8]在Mul- tiSports上比在AVA上更明显（帧-mAP差距为11.02%vs.4.54%）。这指示体育动作需要更高的帧速率来以更精细的时间粒度捕获快速运动。如图5所示，许多有氧动作获得了较大的绝对改善，例如有氧转身（+30 AP）和有氧水平支撑（+54 AP）。我们分析出有氧动作我们还观察到在其他运动中，如篮球传球，足球解围和排球第二次进攻，这些运动具有短时间和激烈的运动，表现出很大的提高。4.3. 误差分析在本节中，我们分析了错误的原因，以更好地了解MultiSports基于ACT [18]帧-mAP误差分析，其被设计用于每个视频具有一个动作类别的我们将检测错误分为10个相互排斥的类别进行分析mAP损失的百分比ER：检测结果针对已经匹配的地面实况管EN：与任何地面实况管没有时空交叉并且凭空出现的检测结果。EL：具有正确的动作类别、准确的时间定位和不准确的空间定位的检测结果。EC：具有错误动作类别、准确时间定位和准确空间定位的检测结果。ET：具有正确的动作类别、准确的空间定位和不准确的时间定位13542方法ResUCF101-24JHMDBAvaF@0.5V@0.2V@0.5F@0.5V@0.2V@0.5F@0.5V@0.2V@0.5F-mAP@0.5道路[36][第20话]MOC [24]（K=7）MOC [24]（K=11）300× 300224× 224288× 288288× 2883.909.2822.5125.220.0010.7812.1312.880.000.870.770.6270.771.1078.0-69.872.9782.8-40.946.4253.8--74.5170.8-60.888.0577.3-59.782.5777.2-----SlowOnly检测，4×16[8]慢速快速检测，4×16[8]短边256短边25616.7027.7215.7124.185.509.65------------20.0224.56表3.比较MultiSports、UCF 101 -24、JHMDB和AVA的最新方法806040200图5.仅慢速与慢快帧-mAP。类别按实例数的降序排序MOC-排球MOC-篮球MOC-足球MOC-有氧MOC-all慢速快速0 10 20 3040 50 6070 80 90 100我们的细粒度动作分类的困难。具有EN误差的检测结果意味着模型确实在时空上检测到人，但不能将动作类正确地识别为背景类。ENN误差也是MOC的训练策略的结果，其中仅对时间上在动作实例内部的帧进行采样以用于训练，使得尽管在这些帧的其他空间位置中存在负样本，但是检测器不具有足够量的负样本用于没有动作实例的人。图6.错误分析。AP是正确的检测。由检测匹配的地面实况的阈值为0.1。回忆是1− EM本地化ECT、ECL、ETL、ECTL：在相应方面不准确而在其他方面可接受（如果有的话）的检测。例如，ECT指的是具有错误的动作类、不准确的时间定位但准确的空间定位的结果。EM：没有被任何检测结果匹配的地面实况管。前九个类别涵盖了假阳性预测。这种划分可以用附在我们补充材料中的决策树来解释该代码在https://github.com/MCG-NJU/MultiSports上提供。如图6所示，尽管召回率相对较低，但SlowFast Det.实现了比MOC更高的视频mAP，因为它做出更少的假阳性预测。这可以解释的事实是，慢快Det。使用MultiSports上的Faster RCNN [29]作为人物检测器，以极大地避免没有动作的人物框。然而，仍然有许多硬的例子错过了慢-快侦探。对于MOC，EC和EN是假阳性检测结果中最常见的错误，表明做任何体育运动。更有甚者，ECT，ECTL和 ET 也是其余误差的大部分（其中 ECT> ECTL>ET），表明动作边界不准确的时间误差多于空间定位误差。当前方法的误差。因此，我们需要一种更有效的建模时间边界的方法典型的错误可视化如图7所示。4.4. 消融研究时间信息有多重要？小管长度K在MOC [24]中很重要，我们在表4中报告了UCF 101 -24 [38]和具有不同K的MultiSports的结果。对于帧mAP，我们可以发现，尽管MultiSports的动作持续时间比UCF 101 - 24短，但MultiSports可以从更长的时间上下文中受益，如表2所示。对于视频-mAP，结果不随着帧-mAP而增加我们分析有两个原因。首先，预测MOC中的运动在较长的输入长度下更难。更严重的是，MultiSports中的类别具有较大的变形和位移，MOC运动分支无法准确预测，严重影响了视频层次检测。第二、+54仅慢速（16.70 mAP）慢快（27.72 mAP）+25+25+30+27+24+30+25+25+23+222.8x4.5x6.0x6.7x3.0x8.0x3.0x3.2x2.8x5.0x3.5x5.0x11.0x7.0x4.0x6.0x7.0xAP（%）APENECETECTECLETLECTLEMERE L13543表4.不同微管长度K估计AvaF@0.5V@0.2V@0.5F-mAP@0.5未修剪27.7224.189.6522.57修剪38.7124.9518.3424.56图7.MultiSports中典型错误的可视化绿色表5.测试慢速快速检测在AVA和MultiSports上使用修剪方式和未修剪方式。盒子是基础事实。黄色框是检测。红框是错过的地面实况。第1和第2行：由于阻塞而错过检测。第3和第4行：E C&T：驱动器被错误地分类为运球并且也具有不准确的动作边界;EM：错过了对掩护、挡拆防守和下垂的检测。图4显示了作用持续时间的可变性。实例持续时间小于7的比率为9%，小于11的比率为23%。固定的剪辑长度K（例如11）将损害时间检测能力。因此，我们需要考虑更长的时间上下文，更准确的运动估计和灵活的时间检测的MultiSports。哪些行动类别具有挑战性？图5显示，并非所有类别都能在训练样本越多的情况下获得更好的性能。与场景高度相关的类别（如篮球罚球）或有氧运动基本类别（如有氧水平支撑和V支撑）仍然可以在较少的样本中获得较高的性能。注意，有氧运动包含基本和复杂两个类别，其中复杂动作结合了基本动作的运动和其自身的核心运动，因此这些复杂动作需要更长的时间背景。相比之下，具有短时间持续时间和激烈运动的类别（如足球传球，篮球传球和足球拦截）即使有大量的训练样本，也能获得较低的性能。通过观察补充材料中的混淆矩阵，我们总结了其他常见的挑战：（1）情境建模，如篮球2分球与3分球（2）推理，如排球保护与防守时，我们需要关注球是否被挡回或被对手在几帧前扣球。（3）长时间建模，如足球长传球与传球时，他们有类似的动作，但需要确定球将被传多久。修剪与未修剪设置。MultiSports具有明确定义和高质量的时间边界。我们评估了SlowFast Det的性能。两者项下的MultiSports和AVA数据集上的未修剪和修剪设置。结果见表5。修剪设置仅评估具有注释的帧的性能，未修剪设置报告所有帧的性能。我们发现它只下降了2%在AVA上，而在我们的数据集上为11%，这表明时间定位在我们的数据集中非常重要。另外，video-mAP@0.5的下降远大于video-mAP @ 0. 2。这表明时间定位对于高质量动作管检测是重要的。5. 结论在本文中，我们介绍了MultiSports数据集与密集的时空注释的行动，从四个体育。MultiSports在许多方面与现有的动作检测数据集不同：1）为识别细粒度动作类提出了新的挑战; 2）要求在多人情况下精确定位明确定义的边界; 3）高质量视频数据和密集注释; 4）在体育分析中的潜在应用; 5）在竞争水平、国家和性别方面具有高度多样性的偏差较小的数据集。我们已经 empiri- cally 研究了几个动作检测基线方法的MultiSports数据集。我们的错误分析和消融研究的检测结果揭示了一些有见地的发现，有利于未来的研究时空动作检测。鸣谢。本工作得到了国家自然科学基金（ No.62076119号61921006）、江苏省创新人才和企业家计划、软件新技术与产业化协同创新中心。感谢南京大学各专业运动员和MCG学生对本数据集的注释。E，EGTEGTKUCF101-24F@0.5V@0.2V@0.5F@0.5V@0.2V@0.5114.6112.531.0668.3365.4731.50317.2211.880.7669.9475.8345.94519.2911.810.9871.6377.7449.55722.5112.130.7773.1478.8151.02924.2211.720.5772.1777.9450.161125.2212.880.62---1324.2811.230.57---13544引用[1] Sami Abu-El-Haija、Nisarg Kothari、Joonseok Lee、PaulNat-sev 、George Toderici、Balakrishnan Varadarajan和Sud-heendra Vijayanarasimhan。Youtube-8 m：大规模视频分类基准。CoRR，abs/1609.08675，2016。3[2] Moshe Blank，Lena Gorelick，Eli Shechtman ，MichalIrani ， and Ronen Basri. 作为时空形状的动作。在ICCV，第1395-1402页，2005中。3[3] J oaoCarreira和Andr e wZisserman。Quovadis，动作识别？新模型和动力学数据集。在CVPR中，第4724-4733页一、三、四[4] MMAction2贡献者。Openmmlab的下一代视频理解工具箱和基准测试。github.com/open-mmlab/mmaction2，2020. 6[5] 凯莉·科罗娜，凯蒂·奥斯特达尔，罗德里克·柯林斯，安东尼·胡格斯. MEVA：用于活动检测的大规模多视图多模式视频数据集。在WACV，第1059- 1067页，2021中。3[6] Yutao Cui，Cheng Jiang，Limin Wang，and GangshanWu. 完全卷积在线跟踪。 CoRR ， abs/2004.07109 ，2020。二、四[7] 国际体操联合会。有氧体操评分规则。国际体操联合会健美操执行委员会，2017年。二、三[8] Christoph Feichtenhofer ， Haoqi Fan ， Jitendra Malik ，and Kaiming He.用于视频识别的慢速网络。在ICCV，第6201-6210页，2019年。三六七[9] RohitGirdhar ， Joa oCarreira ， CarlDoersch ， andAndrewZis-serman.视频行动Transformer网络。在CVPR中，第244-253页，2019年。3[10] Georgia Gkioxari和Jitendra Malik。找活动管。在CVPR，第759-768页，2015年。3[11] Raghav Goyal，Samira Ebrahimi Kahou，Vincent Michal-ski ， Joanna Materzynska ， Susanne Westphal ， HeunaKim ， ValentinHaenel ， IngoFründ ， PeterYianilos ，MoritzMueller-Freitag ， FlorianHoppe ， ChristianThurau，Ingo Bax，and Roland Memisevic.学习和评估视觉常识的在ICCV，第5843-5851页，2017年。3[12] 顾春晖，孙晨， David A.Ross ， Carl Von- drick ，Caroline Pantofaru ， Yeqing Li ， Sudheendra Vijaya-narasimhan ， George Toderici ， Susanna Ricco ， RahulSuk-thankar ， CordeliaSchmid ， andJitendraMalik.AVA：时空局部原子视觉动作的视频数据集。在CVPR中，第6047-6056页，2018年。一、三、四、五、六[13] Fabian Caba Heilbron、Victor Escorcia、Bernard Ghanem和Juan Carlos Niebles。Activitynet：人类活动理解的大规模视频基准。在CVPR中，第961-970页，2015年。3[14] 格兰特·范·霍恩和皮埃特罗·裴罗纳。魔鬼在尾巴里：野外细颗粒分类。CoRR，abs/1709.01450，2017。5[15] Rui Hou，Chen Chen，and Mubarak Shah.用于视频中动作检测的管卷积神经网络（T-CNN）在ICCV，第5823-5832页，2017年。3[16] Haroon Idrees、Amir Roshan Zamir、Yu-Gang Jiang、Alex Gorban、Ivan Laptev、Rahul Sukthankar和MubarakShah。THUMOS挑战“野外”视频动作识别Comput.目视图像理解，第1-23页，2017年。3[17] Hueihan Jhuang ， Juergen Gall ， Silvia Zuffi ， CordeliaSchmid，and Michael J.黑色.对行动识别的理解。在ICCV，第3192-3199页，2013中。一二三五六[18] Vicky Kalogeiton，Philippe Weinzaepfel，Vittorio Ferrari和Cordelia Schmid。用于时空动作定位的动作小管检测器。在ICCV，第4415-4423页，2017年。三、六[19] Andrej Karpathy ， George Toderici ， Sanketh Shetty ，Thomas Leung，Rahul Sukthankar，and Fei-Fei Li.使用卷积神经网络进行大规模在CVPR中，第1725-1732页3[20] OkanK o¨ p u¨ kl u¨，Wei Xiangyu，andGerhardRigoll.你只看一次：用于实时时空动作定位的统一CNN架构。CoRR，

下载后可阅读完整内容，剩余1页未读，立即下载