没有合适的资源?快使用搜索试试~ 我知道了~
2616FineGym:一种用于精细动作理解滇邵岳赵伯戴大华林香港中文大学-商汤科技联合实验室{sd017,zy317,bdai,dhlin}@ ie.cuhk.edu.hk图1:FineGym数据集的概述。我们提供了从粗到细的注释时间和语义。分类标签有三个层次。时间维度(由两个条表示)也被划分为两个级别,即,动作和子动作。子动作可以一般地使用集合类别或精确地使用元素类别来描述地面实况元素类别的子动作实例通过手动构造的决策树。摘要在公共基准上,当前的动作识别技术已经取得了巨大的成功。然而,当在实际应用中使用时,例如,运动分析要求有能力将一项活动分解成阶段,并区分细微的不同行为,但它们的表现远不能令人满意。为了将 动 作 识 别 提 升 到 一 个 新 的 水 平 , 我 们 开 发 了FineGym1,这是一个建立在体操视频之上的新数据集。与ex-actionrecognition数据集相比,FineGym在丰富性,质量和多样性方面都很突出。特别是,它提供了时间注释在动作和子动作级别与一个三级语义层次。例如,“平衡梁”事件将被注释为从五个集合导出的一系列基本子动作:“leap-jump- hop”、“beam-turns”、“flight-salto”、“flight-handspring”和“swing”,其中每个集合中的子动作将进一步用精细定义的类标签注释。这个新1数据集和代码可在www.example.com上https://sdolivia.github。io/Finegym/粒度级别对动作识别提出了重大挑战,例如,如何从一个连贯的动作中解析时间结构,以及如何区分细微不同的动作类。我们系统地研究了这个数据集上的代表性方法,并获得了一些有趣的发现。我们希望这个数据集可以推进对行动理解的研究。1. 介绍动作识别的显著进步[39,42,40,25,37,49],特别是许多新的识别模型的发展,例如。TSN [44]、TRN [55]和I3D [3]主要由大规模基准测试驱动,如ActivityNet [11]和Kinetics [23]。在这些基准上,最新的技术已经获得了非常高的精度。即便如此,我们发现现有的技术和支持其发展的数据集受到一个重要的限制,即它们专注于粗粒度的动作类别,例如,“hockey” 为了不同的-……………行动vault高低杠平衡木平衡木自由体操…………子动作束匝树推理跳-跳-跳树推理BB-飞手翻树推理事件带失步的Flic-flac狼跳,臀部角度45,膝盖并拢3转抱膝立架元件集更细粒度2617在这些范畴之间,背景语境往往起着重要的作用,有时甚至比行为本身更重要。然而,在某些领域,粗粒度分类是不够的。以体育分析为例,它通常需要在细粒度的类之间进行详细的比较。不同的动作对于这样的应用,需要细粒度分析的能力。值得注意的是,这里的细粒度能力涉及两个方面:1)时间:能够沿着时间轴将动作分解为更小的元素; 2)语义:能够在分类层次结构的下一级区分子类。为了促进细粒度动作理解的研究,我们开发了FineGym,Fine-grained Gymnas- tics的缩写,这是一个提供细粒度注释的大规模高质量动作数据集。具体来说,FineGym有几个突出的特点:1)多层次语义层次。 所有动作都在三个级别上使用语义标签进行注释,即事件、集合和元素。这样的语义层次结构为粗粒度和细粒度的动作理解提供了坚实的基础。2)时间结构。识别每个视频中感兴趣的所有动作实例这些带注释的时态结构也从另一个方面为细粒度理解提供了重要支持(3)高质量。 数据集中的所有视频都是高水平职业比赛的高分辨率记录。此外,谨慎的质量控制是强制执行,以确保准确性,可靠性和一致性的注释。这些方面使其成为一个丰富的研究数据集和可靠的评估基准。此外,我们还总结了一个收集数据和注释的系统框架e.G. 通过决策树进行标记,这也可以应用于具有类似要求的其他数据集的构建利用FineGym提供的新探索空间,我们进行了一系列实证研究,旨在揭示细粒度动作理解的挑战。具体来说,我们测试了各种动作识别技术,发现它们在细粒度识别上的性能为了给未来的研究提供指导,我们也重新审视了一些模型的选择,例如。采样方案和输入数据模态。我们发现,对于细粒度的动作识别,1)稀疏采样帧不足以表示动作实例。2)运动信息起着非常重要的作用,而不是视觉外观。3)正确的时间动态建模是至关重要的。4)并且针对粗粒度动作识别的数据集进行预训练并不总是有益的。这些观察清楚地显示了粗粒度和细粒度动作识别之间的差距。总的来说,我们的工作有助于行动理解的研究在两个不同的方面:1)我们开发了一个新的数据集FineGym用于细粒度的动作理解,它提供了高质量和细粒度的注释。特别地,注释在三个语义级别,即事件,集合和元素,和两个时间级别,即动作和子动作。2)我们在FineGym之上进行了深入的研究,揭示了细粒度环境中出现的关键挑战,这可能会为未来的研究指明新的方向。2. 相关工作粗粒度数据集 行动 识别. 作为更复杂技术的基础,对更好数据集的追求从未停止在交流领域。理解。早期的尝试可以追溯到KTH [35]和魏茨曼[1]。随后提出了更具挑战性的数据集,包括UCF 101 [40],Kinet-ics [3],ActivityNet [11],Moments in Time [32]和其他[25,18,50,2,52,38,33,22,46,31,20]。他们中的一些还提供了超出类别标签的注释,范围从时间位置[18,50,2,11,52,38]到空间-时间边界框[33,22,46,31,20]。然而,所有这些数据集的目标是粗粒度的动作理解(例如,曲棍球、滑板等),其中,背景环境通常提供区别信号,而不是动作本身。此外,如[44,29]中所报告的,有时几帧就足以在这些数据集上进行细粒度数据集为行动识别.也有人尝试构建用于细粒度动作识别的数据集[6,34,19,15,24,29]。具体地说,早餐[24]和MPII-烹饪2 [34]都为各种烹饪活动的各个步骤提供了注释。In [24] the coarse actions (e.g. 果汁)被分解成行动单位(例如,cut orange),在[34]中,动词部分被定义为细粒度的类(例如,切洋葱)。Something-Something [19]收集了147类日常的人与物体的交互,例如移动某物和从某处拿走某物。 Diving48[29]是建立在48个细粒度的div上的,ing动作,其中标签是4个属性的组合,例如,背面+15som+15twis+免费。 与这些数据集相比,我们提出的FineGym具有以下特点:1)结构层次更复杂(2个时间级别和3个语义 级 别 ) , 并 且 最 细 类 的 数 量 显 著 更 大 ( 例 如FineGym vs.早餐48); 2)FineGym中的动作涉及快速运动和剧烈的身体变形,为识别模型提出了新的挑战;3)参考专家知识获得注释,其中在所有类中实施统一标准以避免歧义和不一致。动作识别的方法。在FineGym上,我们根据经验研究了各种最先进的动作识别,2618点火方法 这些方法可以总结为三个管道。第一个流水线采用2D CNN [39,44,13,10]来建模每帧语义,然后是1D模块来考虑时间聚合。具体来说,TSN [44]将动作实例划分为多个片段,通过稀疏采样方案表示实例。平均池化操作用于融合每帧预测。TRN [55]和TSM [30]分别用时间推理模块和时间移位模块代替池化操作或者,第二流水线直接利用3D CNN [42,3,43,45,8]来联合捕获空间-时间语义,诸如非局部[45]、C3 D [42]和I3 D [3]。最近,一个中间代表(例如,[48,4,5]中的人体骨骼)被若干方法使用,其可以被描述为第三流水线。除了动作识别,动作理解的其他任务,包括动作检测和定位[14,47,54,21,16,36],动作分割[26,9]和动作生成[28,41],也吸引了许多研究人员。3. FineGym数据集FineGym数据集的目标是为动作理解社区引入一个具有高质量注释的新的具有挑战性的基准虽然后续版本将包含更多类型的注释,但当前版本的FineGym主要提供用于体操上细粒度实际上,Fin- eGym中的动作和子动作的类别根据三级层次结构组织,即事件,集合和元素。在层次结构的粗层次上,项目是指属于不同体操套路的动作,例如跳马(VT)、自由体操(FX)、高低杠(UB)和平衡木(BB)。集合是描述子操作的中级类别。一个集合包含几个技术上和视觉上相似的元素。最细粒度的是元素类别,它为子动作提供了比集合类别更详细的描述。e.G. 一组横梁下跳的子动作实例可以被更精确地描述为后空翻两周或该组中的其他元素类别。同时,FineGym还提供了两个层次的时间注释,即视频中所有事件的位置和动作实例中子动作的位置(即,事件实例)。图2显示了FineGym的注释组织。下面,我们首先回顾建设FineGym时面临的主要挑战,然后简要介绍建设过程,包括数据准备、注释收集和质量控制。最后,对FineGym的统计特性进行了阐述。3.1. 关键挑战构建如此复杂且细粒度的数据集带来了一系列前所未有的挑战,包括:(1)如何收集数据?通常,大规模行动数据集的数据主要通过两种方式收集,即从互联网上抓取和邀请工作人员自记录然而,虽然FineGym的细粒度标签包含丰富的细节,e.G. 后空翻两周转体两周,用这些方法收集的视频很难精确地匹配细节。相反,我们从高水平职业比赛的视频记录中收集数据。(2)如何定义和组织类别?由于FineGym类别的粒度丰富以及最精细类别实例之间的细微差异,手动定义和组织Fin-eGym类别[19,34]是不切实际的。幸运的是,我们可以求助于专家提供的官方文档[7],这些文档自然地以一致的方式定义和组织FineGym分类这导致了530个定义明确的(3)如何收集注释?如前所述,Fin-eGym类别的专业要求和细微差异使我们无法利用众包服务,例如Amazon MechanicalTurk。相反,我们聘请了一个专门为这项工作培训的团队。(4)如何控制质量?即使有一个训练有素的团队,可能的注释的丰富性和多样性也不可避免地需要一个有效和高效的质量控制机制,没有它,我们可能会面临严重的麻烦,因为错误会沿着FineGym的层次结构传播。因此,我们实施了一系列质量控制措施,如3.2所述。3.2. 数据集构建数据准备我们的数据收集程序采取以下步骤。我们首先对近年来举办的高水平体操比赛进行了调查。然后,我们从互联网上收集他们的官方视频记录,确保这些视频记录是完整的,独特的和高分辨率的,例如。720P和1080P。最后,我们将它们均匀地切成10分钟的块,以便进一步加工。通过这些步骤,通过选择正式录像来确保数据的质量。由于官方竞争具有一致性和丰富的内容,因此也保证了动作和子动作此外,通过人工检查避免了数据冗余。注释集合。 我们采用多阶段的策略来收集三层语义范畴层次(即语义范畴层次)和语义范畴层次(即语义范畴层次)的注释。事件、集合和元素标签)和动作实例的两级时间结构。整个注释过程如图1所示,描述如下:1)首先,要求注释者准确定位每一套完整体操动作的开始和结束时间(即:包含若干子动作的完整动作实例),然后为其选择正确的事件标签。在这一步中,我们丢弃所有不完整的例程,比如那些有中断的例程。2)其次,从最新的官方码本[7]中选择了来自4个事件的15个集合,因为它们提供了更多2619FX_Turn数据是的是的1转?叶:错觉1转通过站立分裂;DV:0.2是的, 幻觉转向?没有2转?是叶:错觉2通过站立劈叉转身;DV:0.3头朝下?没有3转或更多?没转身抱膝还是转身?…是是没有 自由腿向后?没有……事件# set cls#元素cls#inst# sub instVT16720342034FX564+20+23+49128929BB558+25+26+2697611586UB452+22+57+296110148总共10个15530488332697图2:FineGym分层组织语义和时间注释。上半部分显示了三个级别的分类标签,即事件(例如,平衡木),成套设备(例如,拆卸)和元件(例如,前空翻屈体前空翻)。下半部分描述了两级时态标注,即:动作的时间边界(在顶部栏中)和子动作实例(在底部栏中)。表1:FineGymv1.0的统计数据。图3:基于决策树的推理过程的说明,用于注释给定集合中的元素标签(例如,FX转弯)。独特的元素级类。我们进一步丢弃了具有视觉上无法察觉的差异和不受管制的移动的元素级类。因此,当给定一个事件时,注释器将从定义的集合中定位所有子操作,并提供它们的集合级标签。3)每个子动作还需要一个元素标签,这很难直接决定。因此,我们利用决策树2组成的基于属性的查询来指导决策。从具有集合标签的根节点开始,注释器在树上行进,直到遇到具有元素标签的叶节点。有关演示,请参见图3质量控制为了构建一个高质量的数据集,在所有层次结构中提供干净的注释,我们采用了一系列机制,包括:用领域训练注释者-2决策树的详细情况载于补充材料。具体的知识,在正式注释之前严格地预先测试注释者,准备参考幻灯片和演示,以及跨注释者的交叉验证。3.3. 数据集统计数据表1显示了FineGymv1.0的统计数据,该数据用于本文的实证研究3具体来说,Fine- Gym包含10个项目类别,其中男性项目6个,女性项目4个。特别地,我们从中选择了4个女性事件以提供更细粒度的注释。每个元素类别中的实例数量从1到1,648不等,反映了它们的自然重尾分布。定义的530个元素类别中的354个具有至少一个实例。4为了满足不同的需求,除了自然不平衡的设置,我们还提供了一个更平衡的设置,通过阈值的实例数。详情见第二节。四点二。方面另据统计,目前共有303项比赛记录,累计比赛708小时。 对于4个事件,3 v1.1版本中提供了更多数据,详情请参见网页。4补充资料中提供了元素种类的总体分布。体操自由体操平衡木高低杠跳马-女子飞手翻光束转向弗利特萨跳-跳-跳卸下前手翻换腿Flic-flac,向下摆动以交叉跨坐前手翻Flic-flac双脚着地Flic-flac,0.5转,倒立后跳转体0.5周,屈体前空翻空翻向后伸展转体两周前空翻屈体后空翻屈体屈体后空翻两周… …tt $rt&n(时间tst$rtt)st$rtt)&n(不&n(子动作行动元件设置事件语义时间注释2620图4:FineGym中的细粒度子操作实例示例。 左侧部分示出了属于所设置的UB圆内的三个元素类别的实例,从上到下:“向后转1圈的透明梭子鱼圆”、“向后转1圈的梭子鱼圆”和“向后转0圈的梭子鱼圆”。5转 在右边,有来自集合FX-leap-jump-hop的三个元素类别的实例,从上到下:“劈腿跳一圈”、“劈腿跳一圈”、“转换跳一圈”。可以看出,这种细粒度的实例包含微妙而具有挑战性的差异。最好在高分辨率下观看在一些注释中,Vault具有相对较短的持续时间(平均8s)和较强的运动,而其他注释具有相对较长的持续时间(平均55s)。由于时间上更细粒度,注释的子动作实例通常覆盖不到2秒,满足了学习更细粒度信息的时间短的先决条件[19]。3.4. 数据集属性FineGym有几个吸引人的属性,使其与现有的数据集区分开来。高质量FineGym中的视频都是顶级比赛的官方记录,动作实例因此是专业和标准的。此外,超过95%的视频都是高分辨率的(720P和1080P),因此动作实例之间的细微差异被很好地保留下来,为未来的注释和模型留下了空间。此外,由于使用了训练有素的注释团队以及类别定义和组织的官方文件,FineGym中的注释在不同方面都是丰富和多样性。如前所述,FineGym包含语义和节奏上的多粒度。当我们沿着语义层次向下移动时,类别的数量会显著增加,而在时间相似性中捕获的变化动 态 为 更 全 面 的 时 间 分 析 奠 定 了 基 础 。 此 外 ,FineGym在观点和姿势方面也是丰富多样的。例如,由于扭曲和空翻等动作,许多罕见的姿势都包含在FineGym中。以操作为中心的实例。与背景也是区分不同类别的主要因素的几个现有数据集不同,FineGym中的所有实例都具有相对一致的背景。此外,乍一看是相同的,来自两个不同猫的实例模型信息事件集方法模态平均值Top-1平均值Top-1RGB98.4298.1889.8595.25TSN [44]流93.4093.2591.6496.422Stream98.4799.8691.9797.69表2:时间段网络(TSN)的结果就粗粒度(即,事件和设置级别)动作识别。语义可能只有细微的差别,尤其是在最精细的语义粒度上。e.G.图4右侧底部的两个样本的不同之处在于腿和转弯的方向在开始时是否一致。因此,我们认为FineGym是一个具有挑战性的数据集,需要更多地关注动作本身。元素类别的决策树。当我们使用手动构建的决策树(由基于属性的查询组成)来注释元素类别时,从树根到其叶节点之一的路径潜在地,人们可以使用这些决策树进行预测解释和推理。4. 实证研究在FineGym之上,我们系统地评估了跨多个粒度的代表性动作识别方法,并且还包括对使用MMAction的典型动作定位方法的示范性研究[53]。所有的训练方案都遵循原始文件,除非另有说明。我们的主要重点是理解细粒度的行动(即。元素级),其具有挑战性的特性可能会带来新的灵感。最后,我们提供了一些启发性的意见,为今后的研究在这个方向上。2621型号信息Gym288 Gym99方法模态平均值Top-1平均值Top-1随机-0.3-1.0保加利亚[17]RGB16.560.550.169.5RGB26.568.361.474.8TSN [44]流38.778.375.684.72Stream37.679.976.486.0RGB33.173.768.779.9[55]第五十五话流42.679.577.285.02Stream42.981.679.887.4RGB32.073.168.879.5TRNms [55]流43.479.777.685.52Stream43.382.080.287.8RGB34.873.570.680.4[30]第三十话流46.081.680.387.12Stream46.583.181.288.4I3D [3]∗I3D [3]RGB27.966.763.274.8RGB28.266.164.475.6[45]第四十五话∗[45]第四十五话RGB27.164.062.173.0RGB28.067.064.375.3ST-GCN [48]构成11.034.025.236.4(a) 所有事件的结果。Model Info VT,6clsFX,35cls方法模态平均值Top-1平均值Top-1随机-16.7-2.9保加利亚[17]RGB32.7 44.656.465.0RGB27.8 46.658.667.5TSN [44]流23.1 42.670.778.52Stream27.0 47.573.181.6RGB32.1 48.065.872.0[55]第五十五话流28.9 44.274.981.22Stream31.4 47.177.584.6RGB31.5 46.666.673.4TRNms [55]流29.1 43.974.881.12Stream30.1 47.378.284.9RGB29.2 42.262.268.8[30]第三十话流26.2 42.476.281.92Stream28.8 44.876.983.6I3D [3]∗I3D [3]RGB31.5 42.153.759.5RGB33.4 47.852.260.2[45]第四十五话∗[7]第七话RGB30.6 46.053.459.8RGB30.8 47.350.957.6ST-GCN [48]构成19.5 38.835.340.1(b) 事件中元素的结果。型号信息FX-S1,11 clsUB-S1,15 cls方法模态平均顶部-1平均顶部-1随机-9.1-6.7保加利亚[17]RGB45.052.351.964.6RGB31.249.944.865.6TSN [44]流69.678.065.378.92Stream 68.278.565.080.0RGB58.255.053.670.9[55]第五十五话流73.379.971.582.52Stream 74.481.983.071.0RGB58.564.455.871.4TRNms [55]流75.882.670.882.22Stream 72.980.870.883.2RGB45.653.350.966.4[30]第三十话流75.881.773.182.52Stream 72.979.470.180.8I3D [3]∗I3D [3]RGB33.338.932.249.1RGB36.142.931.048.1[45]第四十五话∗[45]第四十五话RGB31.439.029.348.5RGB35.840.126.948.5ST-GCN [48]构成21.630.813.728.1(c) 集合中元素的结果。表3:代表性方法的元素级动作识别结果。具体地,在(a)、(b)和(c)中分别包括跨所有事件、事件内和集合内4.1. 事件/设置级别动作识别我们提出了一个简短的示范性研究的事件和集合级动作识别,因为他们的特点类似于粗粒度的动作识别,以及在多个基准研究。具体来说,我们选择广泛采用的时间段网络(TSN)[44]作为代表。它将一个实例划分为3个段,并从每个段中采样一帧以形成输入。输入帧的视觉外观(RGB)和运动(光流)特征在TSN中分别处理,使其成为比较每个特征源的贡献的良好选择。表2中列出了事件和集合级别动作识别的结果,从中我们观察到:(1)3个框架(占总框架的5%以下)足以识别事件和集合类别,这表明这两个层次的类别可以用孤立的框架进行很好的分类。2)与运动特征相比,外观特征在事件层的贡献更大,在集合层的贡献相反。这意味着当我们进入更细的粒度时,对静态视觉线索(如背景上下文)的依赖会减少。这种趋势在最细的粒度上继续并变得更清晰,如元素级动作识别所示。4.2. Element level Action Recognition我们主要集中在元素级的动作识别,这对现有的方法提出了重大挑战。具体地,选择属于各种流水线的代表 性方 法,包 括2D-CNN (即 ,TSN [44], TRN[55],TSM [30]和VLAD [17]),3D-CNN方法(即,[35]第35话,一个人,一个人,基于ST-GCN的方法[48]。这些方法在三个子任务中被彻底研究,即识别所有事件中的元素、事件内的元素和集合内的元素,分别如图3(a)、(b)和(c)所示 对于所有事件的元素,我们采用自然的长尾设置和更平衡的设置,分别称为Gym288和Gym99。这些设置的详细信息包含在补充材料中。对于一个项目中的元素,我们分别从Gym99 中 选 择 两 个 特 定 项 目 的 所 有 元 素 , 即 跳 马(VT)和自由体操(FX)。FX的元素来自4个不同的集合,而VT的元素来自单个集合(VT是只有一个集合的特殊事件)。最后,对于集合内的元素,我们选择集合FX-G1,覆盖FX的跳跃,跳跃和跳跃,以及集合UB-G1,覆盖不均匀条(UB)中的圆。根据表3中这些任务的结果,我们总结了几个观察结果。(1)给定实例分布的长尾性质,所有方法都被证明过拟合具有最多实例的元素,特别是在Gym288设置上。(2)由于元素之间的细微差异,RGB值形式的视觉外观的贡献明显小于粗粒度动作识别。而运动特征在大多数情况下都有很大的贡献,除了事件中元素中的Vault,因为Vault中元素的运动动力学非常强烈。(3)捕获时间动态是重要的,因为TRN和TSM大幅优于TSN。(4)在ImageNet和Kinetics上预训练的I3 D和非局部网络与2D-CNN方法获得了类似的结果,这可能是由于元素类别的时间模式与Kinetics的时间模式之间存在很大的差距。(5)骨架-2622图5:顶行表示Vault例程的人员检测和姿态估计[12,27]的结果,底行可视化光流[51]特征。可以看出,体操运动员的检测和姿势估计在多个帧中丢失,特别是在具有剧烈运动的帧中。最好在高分辨率下观看。GymFine,mAP@α时间级0.500.600.700.800.90Avg行动60.057.957.154.635.049.4子动作22.215.49.23.90.69.6表4:SSN [54]在粗(即,动作)和细粒度(即,子动作)水平。度量是mAP@tIoU。通过以0.05的间隔将tIoU阈值范围从0.5至0.95来获得平均(Avg)[11]第十一届中国国际纺织品博览会135.4685.082.0361.486.583.6570.886.784.6774.486.484.01278.82--表5:在训练期间改变采样帧数量时TSN的性能基于ST-GCN的解决方案由于在体操实例上的骨架估计中的挑战而挣扎,如图5所示。4.3. 时间动作定位我们还包括一个说明性的研究时间动作定位,FineGym可以支持广泛的任务。实际上,可以对视频记录内的事件动作或动作实例内的子动作进行时间动作定位,从而产生两个子任务。我们选择结构化细分网络(SSN)[54]作为代表,依靠其开源实现。SSN在这两个任务上的结果列在表4中,其中局部化子动作比局部化动作更具挑战性。虽然视频记录中的动作的边界更加独特,但是识别子动作的边界可能需要对整个动作的4.4. 分析在本节中,我们列举了我们在所进行的实证研究中观察到的关键信息。稀疏采样是否足以用于动作识别? 稀疏采样方案由于其在各种数据集中证明的高效率和有希望的准确性而被广泛用于动作识别[40,11]。然而,这种趋势并不适用于FineGym中的元素级动作识别。表5列出了TSN [44]在子集Gym99以及现有数据集上的结果,其中我们调整了输入帧的数量。与仅使用少量帧的现有数据集上的饱和结果相比,Gym99上的TSN结果随着帧数目的增加而稳步增加,并且在占所有帧的30%的12帧处饱和。这些结果表明,在FineGym上的细粒度动作识别中,每一帧都很重要。时间信息有多重要? 作为 如图6a所示,光流等运动特征可以捕获逐帧的时间动态,从而提高TSN的性能[44]。许多方法还设计了用于长期时间建模的创新模块,例如TRN [55]和TSM [30]。为了研究它们,对于TRN中的时间推理模块,我们在测试期间对输入帧进行了洗牌,并在图6b中观察到了显着的性能下降,这表明时间动态确实在FineGym中发挥了重要作用,TRN可以捕获它。此外,对于TSM中的时间移位模块,我们进行了一种方案,其中我们开始训练具有3个输入帧的TSM,然后在测试期间逐渐增加帧的数量。以TSN进行比较,图6c包括得到的曲线,其中当测试帧的数量与训练中的数量非常不同时,TSM的性能急剧下降,并且TSN保持其性能,因为仅在其中应用时间 平 均 池 化 。 这 些 结 果 再 次 验 证 了 时 间 动 态 在FineGym上是必不可少的,因此不同数量的帧导致显著不同的时间动态。总之,光流可以捕获一定程度的时间2623(a)(b)(c)(d)图6:(a)在6个元素类别中具有运动和外观特征的TSN的每类性能(b)TRN在使用有序或混洗测试帧的UB圈N(c)当用3帧训练并用更多帧测试时,Gym99上TSM和TSN的平均类精度。(d)在Kinetics和ImageNet上预训练的I3D在各种元素类别中的每类性能。最好在高分辨率下观看。动力学,但不是全部。运动密集型动作的细粒度动作识别严重依赖于时间动态建模。在大规模视频数据集上进行预训练是否有帮助?考虑到3D-CNN方法中参数的数量,例如,I3D [3],通常它们首先在大规模数据集上进行预训练,例如。动力学,这确实会导致性能提升[3,52]。例如,Kinetics预训练的I3D可以将识别准确率从84. 5%至97。9%的UCF101 [40]。然而,在FineGym上,这种预训练方案并不总是有帮助的,如图6d所示。一个潜在的原因是粗粒度和细粒度操作之间的时间模式目前的方法/模块不能处理什么?通过仔细观察混淆矩阵5,我们总结了一些对现有方法具有挑战性的点。(1)激烈的运动,特别是在不同种类的空翻中(通常在1秒内完成),如图5的最后几帧所示。(2)微妙的空间语义,涉及身体部位的差异,如腿是弯曲还是笔直,以及人与物体的关系。(3)复杂的时间动态,如运动方向和旋转程度。(4)推理,比如计算空翻的次数我们希望FineGym的高分辨率和专业数据能够帮助未来针对这些问题的研究。此外,Fin-eGym对具有中间表示的方法提出了更高的要求,例如.人体骨骼,由于人体姿势的多样性,很难在FineGym上估计。有关演示,请参见图55. 潜在的应用和讨论虽然后续将添加更多类型的注释,但FineGym的高质量数据为各种应用程序提供了基础,除了粗粒度和细粒度的动作识别和定位,包括5例子见补充材料但不限于(1)自动评分,其中在官方文档中为每个元素类别给出难度评分,并且我们还可以基于视觉信息来估计质量评分,从而产生体操自动评分框架。(2)动作生成,其中细粒度子动作的一致背景上下文可以帮助生成模型更多地关注动作本身,并且FineGym中的标准和多样化实例可以促进探索。(3)多属性预测,由于决策树的使用,元素类别的属性地面实况是(4)模型解释和推理,这可以从手动构建的决策树中受益,如图3所示。FineGym可以用于对模型设计进行更多的实证研究,例如在处理高度信息化但又微妙不同的动作时,如何在准确性和效率之间取得平衡? 如何对复杂的时间动态进行高效、有效、鲁棒的建模?6. 结论在本文中,我们提出了FineGym,一个专注于体操视频的数据集。FineGym在多个方面不同于现有的动作识别数据集,包括高质量和以动作为中心的数据,在语义和节奏上跨多个粒度的一致注释,以及多样化和信息丰富的动作实例。在FineGym之上,我们已经在各个层面上对代表性方法进行了实证这些研究不仅导致了许多有吸引力的发现,有利于未来的研究,但也清楚地显示了FineGym带来的新挑战。我们希望这些努力能够促进行动理解领域的新鸣谢。我们衷心感谢优秀的注释团队的出色工作。这项工作得到商汤科技大规模多模态分析合作基金和香港一般研究基金(第100号)的部分支持。14203518和14205719号)。2624引用[1] Moshe Blank,Lena Gorelick,Eli Shechtman ,MichalIrani , and Ronen Basri. 作 为 时 空 形 状 的 动 作 。 在ICCV,第2卷,第1395-1402页中。IEEE,2005年。2[2] Fabian Caba Heilbron,Joon-Young Lee,Hailin Jin,andBernard Ghanem.我接下来要注释什么?行动定位主动学习的实证研究。在ECCV,2018。2[3] Joao Carreira和Andrew Zisserman。你好,动作识别?新模型和动力学数据集。在CVPR中,第6299-6308页一二三六八[4] GuilhemChe'ron,I v anLapt ev,和CordeliaSchmid。P-cnn:用于动作识别的基于姿势的cnn特征。在ICCV,第3218-3226页,2015年。3[5] VasileiosChoutas,PhilippeWeinzaepfel,Je´romeRev aud,and Cordelia Schmid.Potion:用于动作识别的姿势运动表示。在CVPR中,第7024-7033页,2018年。3[6] DimaDamen 、 HazelDoughty 、 GiovanniMariaFarinella 、 Sanja Fidler 、 Antonino Furnari 、 EvangelosKazakos 、 Davide Moltisanti 、 Jonathan Munro 、 TobyPerrett、Will Price和Michael Wray。扩展以自我为中心的愿景:epic-kitchens数据集。在ECCV,2018。2[7] 国际体操联合会。2017年10月28日,2017 三、六[8] Ali Diba , Mohsen Fayyaz , Vivek Sharma , AmirHossein Karami , Mohammad Mahdi Arzani , RahmanYousefzadeh, andLucVanGool.Temporal3DConvnets : New Architecture and Transfer Learning forVideo Classification.arXiv 预 印 本 arXiv : 1711.08200 ,2017。3[9] 李丁和徐晨良。弱监督动作分割与迭代软边界分配。在CVPR中,第6508-6516页3[10] JeffreyDonahue 、 LisaAnneHendricks 、 SergioGuadarrama、MarcusRohrbach、SubhashiniVenugopalan、Kate Saenko和Trevor Darrell。用于视觉识别和描述的长期递归卷积网络在CVPR,第2625-2634页3[11] Bernard Ghanem Fabian Caba Heilbron、Victor Escorcia和Juan Carlos Niebles。Activitynet:用于人类活动理解的大规模视频在CVPR中,第961-970页,2015年。一、二、七[12] 方浩树,谢淑琴,戴玉荣,陆策武。RMPE:区域多人姿势估计。InICCV,2017. 7[13] ChristophFeichtenhofer、AxelPinz和AndrewZisserman 。 卷 积 双 流 网 络 融 合 视 频 动 作 识 别 。 在CVPR,第1933-1941页,2016年。3[14] Adrien Gaidon、Zaid Harchaoui和Cordelia Schmid。动作的时空定位。IEEE transactions on pattern analysis andmachine intelligence,35(11):2782- 2795,2013。3[15] Yixin Gao,S Swaroop Vedula,Carol E Reiley,NargesAh-midi , Balakrishnan Varadarajan , Henry C Lin ,Lingling Tao , LucaZappella , BenjamınBe´ja r , D avidDYuh , etal.Jhu-isi 手 势 和 技 能 评 估 工 作 集 ( 拼图):用于人体运动建模的手术活动数据集。2014. 2[16] Rohit Girdhar , Joao Carreira , Carl Doersch , andAndrew Zis-serman. 视 频 动 作 Transformer 网 络 。 在CVPR,2019年6月。3[17] Rohit Girdhar、Deva Ramanan、Abhinav Gupta、JosefSivic和Bryan Russell。Actionvlad:学习动作分类的时空聚合。在CVPR中,第971- 980页,2017年。6[18] A. Gorban,H. Idrees,Y. G. Jiang,中国茶条A.罗尚扎米尔岛Laptev,M. Shah和R.苏克坦卡THUMOS挑战:具有大量类的动作识别。网址://www.thumos.info/,2015年。2[19] Raghav Goyal,Samira Ebrahimi Kahou,Vincent Michal-
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- IEEE 14总线系统Simulink模型开发指南与案例研究
- STLinkV2.J16.S4固件更新与应用指南
- Java并发处理的实用示例分析
- Linux下简化部署与日志查看的Shell脚本工具
- Maven增量编译技术详解及应用示例
- MyEclipse 2021.5.24a最新版本发布
- Indore探索前端代码库使用指南与开发环境搭建
- 电子技术基础数字部分PPT课件第六版康华光
- MySQL 8.0.25版本可视化安装包详细介绍
- 易语言实现主流搜索引擎快速集成
- 使用asyncio-sse包装器实现服务器事件推送简易指南
- Java高级开发工程师面试要点总结
- R语言项目ClearningData-Proj1的数据处理
- VFP成本费用计算系统源码及论文全面解析
- Qt5与C++打造书籍管理系统教程
- React 应用入门:开发、测试及生产部署教程
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功