HAA500:以人为中心的原子动作数据集

190 浏览量更新于2023-10-14 收藏 1.2MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

13465HAA500：以人为中心的原子动作数据集与精选视频钟智勋1，2吴正欣1，3杨宣如1戴玉荣1，4邓志强1香港科技大学2普林斯顿大学3卡耐基梅隆大学4快手科技jc5933@princeton.educktang@cs.ust.hkyuwing@gmail.comhyangap@ust.hkcwuu@andrew.cmu.edu摘要我们贡献了HAA5001，一个手动注释的以人为中心的原子动作数据集，用于500个类的动作识别，超过591K个标记帧。为了最小化动作分类中的歧义，HAA500由高度多样化的细粒度原子动作类组成，其中只有一致的动作属于同一标签，例如， “ 棒球投球”vs“篮球罚球”。因此，HAA500与现有的原子动作数据集不同，在现有的原子动作数据集中，粗粒度的原子动作被标记为粗动作动词，例如 “Throw” 。HAA500经过精心策划，可以捕捉到人类人物的精确运动，几乎没有与类别无关的运动或时空标签噪声。HAA 500的优势有四个方面：1）以人为中心的动作，对于相关的人类姿势具有高平均69.7%的可检测关节; 3）捕捉原子动作的基本元素而没有不相关帧的策划视频; 4）细粒度的原子动作类。我们广泛的实验，包括使用野外收集的数据集进行交叉数据验证，证明了HAA500以人为中心和原子特征的明显优势，这使得甚至可以训练基线深度学习模型，以通过关注原子人类姿势来改善预测。我们详细介绍了HAA500数据集的统计和收集方法，并与现有的动作识别数据集进行定量比较。1. 介绍观察由诸如[21，25，42]的常用动作识别数据集提供的粗略注释，其中相同的动作标签被分配给定的复杂视频动作序列（例如，玩足球、玩棒球）通常持续10秒或300帧，因此在训练期间引入了许多模糊性，因为两个或更多个动作类别可能包含相同的原子动作（例如，Run是Play Soccer和Play Baseball的原子动作之一）。1 HAA500项目页：https://www.cse.ust.hk/haa。这项工作得到了快手科技和香港特别行政区研究资助局的资助。16201818最近，已经引入了原子动作数据集[5，16，17，36，39]以试图解决上述问题。GoogleAVA口语活动数据集[36]包含视频中的时间标记的面部轨迹，其中每个面部实例被标记为说话或不说话，以及语音是否可听见。Something-Something数据集[16]包含人类对日常对象执行预定义基本动作然而，它们的一些动作仍然是粗糙的，其可以进一步分成具有显著不同的运动姿势的原子类。例如，AVA[17] 和 Something- Something[16] 分别包含 PlayMusical Instrument和Throw Something作为一个类，其中前者应进一步划分为诸如Play Piano和Play Cello的子类，而后者应进一步划分为Soccer Throw In和PitchBaseball等。因为这些原子动作中的每一个都具有显著不同的姿态。将不同的视觉姿势包含到单个类中对正确学习相关的原子动作构成了深度神经网络几乎无法克服的挑战，这可能解释了即使在AVA[17]中采用最先进的架构ACAR-Net（mAP：38.30%）[33]时普遍存在的低性能，尽管只有80个类。现有动作识别视频数据集的另一个问题视频数据集通常具有固定的剪辑长度，允许在数据收集阶段期间容易地包括不相关的视频帧。Kinetics 400数据集[21]具有固定的10秒剪辑长度，包含许多不相关的动作，例如，在主小提琴演奏之前向观众展示，或者一个人在踢球之前跑了很长一段路。另一个问题是具有太有限或太宽的视场，其中视频仅展示与对象交互的人的一部分[16]，或者单个视频包含具有不同动作的多个人物[17，21，48]。最近，FineGym[39]已经被引入以通过提出细粒度的动作注释来解决上述限制，例如，平衡梁-下空翻-前空翻。但是由于昂贵的数据收集亲-13466图1. HAA500是细粒度的原子动作数据集，具有精细级别的动作注释（例如，Soccer-Dribble，Soccer-Throw In）与传统的复合动作注释（例如，足球、棒球）。HAA500可与现有的粗粒度原子动作数据集相比较，其中我们有区别（例如Soccer-ThrowIn，Baseball-Pitch）在原子动作（例如Throw Something）时的动作差异可见。上图显示了HAA500三个不同区域的示例视频。观察每个视频包含一个或几个主要人物执行相关动作。然而，它们仅包含4个具有原子动作注释的事件（平衡木、自由体操、高低杠和女子跳马），并且它们的剪辑是从运动或竞技事件中的专业体育馆视频中提取的。在本文中，我们贡献了以人为中心的原子动作数据集（HAA500），该数据集是由精心策划的视频构建的，具有69.7%的可检测关节的高平均值，其中存在一个占主导地位的人物来执行标记的动作。策划的视频已经用细粒度标签注释以避免歧义，并且具有密集的每帧动作标记，并且没有不相关的帧被包括在集合中以及注释中。HAA500包含各种各样的原子动作，范围从运动原子动作（花样滑冰-伊娜鲍尔）到日常原子动作（吃汉堡）。HAA 500还具有高度可扩展性，添加一个类只需20夹子是类平衡的，包含清晰的视觉信号，几乎没有遮挡。与“野生”原子动作数据集相反我们广泛的交叉数据实验验证了细粒度类的精确注释对大小更大的量级的数据集具有更好的特性图1显示了收集的示例原子操作。2. 相关作品表1总结了代表性动作识别数据集。2.1. 动作识别数据集复合动作数据集代表性的动作识别数据集，如HMDB51[25] ，UCF101[42] ，Hollywood-2[29] ，ActivityNet[9]和Kinetics[3，21]由手动修剪以捕获单个动作的短片段组成这些数据集非常适合于训练完全监督的全剪辑视频分类器。几表1.代表性动作识别数据集的总结动作识别研究中使用的数据集，如MSR Actions[47]，UCF Sports[34]和JHMDB[19]，在短视频的每个帧中提供时空注释，但它们只包含很少的动作。除了缩短视频长度的子类别之外，最近的扩展（如UCF101[42]，DALY[44]和Hollywood2Tubes[30]）评估了未修剪视频中的时空定位，由于任务的性质更加困难，导致性能下降。上述这些数据集上的一个共同问题是它们用复合动作类（例如，打网球），因此不同的人类动作姿势（例如，反手挥拍、正手挥拍）在单个类下进行注释。另一个问题是它们倾向于在宽视场中捕获并因此包括多个人物（例如，网球运动员、裁判员、观众）在单个帧中具有不同动作，这不可避免地给动作分析和识别带来混乱。原子动作数据集为了对更精细的事件进行建模，引入了AVA数据集[17]，以提供类似于一些早期作品[2，13，37]的以人为中心的原子动作时空注释。其他特别-演奏乐器体育/田径大钢琴大提琴龚记录器跑动（运球）开枪拯救日常行动运行间距摆动接住飞球鼓掌腰弓碰拳敬礼棒球足球数据集视频行动原子KTH[37]6006✓魏茨曼[2]UCF Sports[34]901501010✓好莱坞-2[29]1,70712HMDB51[25]7,00051UCF101[42]13,320101DALY[44]51010AVA[17]动力学700[3]387,000650,31780700✓HACS[48]1,550,000200✓时间的瞬间[32]1,000,000339✓免费WiFi[39]32,687530✓HAA50010,000500✓13467模型[21]第二十一话V1[16]Top-1Top-5Top-1Top-5TSN（R-50）[43]2-流I3D[4][27]第二十七话TPN（TSM）[46]70.6%71.6%74.1%78.9%百分之八十九点二百分之九十91.2%百分之九十三点九百分之二十点五41.6%百分之四十七点三50.2%47.5%72.2%百分之七十六点二百分之七十五点八基于骨架模型[21]第二十一话NTU-RGB+D[38]Top-1Top-5X-subX-View深度LSTM[38]ST-GCN[45]百分之十六点四百分之三十点七35.3%52.8%百分之六十二点九百分之八十一点五百分之七十点三88.3%表 2. 以前在 Kinetics 400[21] ， Something-Something[16] 和NTU-RGB+D[38]数据集上的工作性能。我们对NTU-RGB+D的跨主题（X-Sub）和跨视图（X-View）基准进行了评估。为了进行公平的比较，在本文中，我们使用[21]而不是[3]作为代表性动作识别模型，在撰写时仍然使用[21]进行预训练或基准测试。诸如 MomentinTime[32] 、 HACS[48] 、Something-Something[16]和Charades-Ego[40]之类的标准化数据集提供了原子动作的类，但是它们都不是以人为中心的原子动作，其中一些视频帧是以自我为中心的，其仅示出了人体的一部分（例如，手），或者根本没有人的动作。现有的原子动作数据集[17，32]倾向于在英语语言中具有原子性，例如，在Moments in Time[32]中，Open在视频剪辑上被注释为郁金香打开、眼睛打开、打开门的人或打开包裹的人，这是根本不同的动作，仅共享动词open，这给出了更精细划分的可能性。细粒度动作数据集细粒度动作数据集试图解决[1，31]中讨论的模糊时间注释问题。这些数据集（例如，[6，14，24，26，35，39]）使用系统动作标记来注释小动作域上的细粒度标签。 Breakfast[24] 、 MPIICooking 2[35]和EPIC- KITCHENS[6]为烹饪和准备菜肴提供了细粒度的操作，例如，旋转牛奶瓶盖[24]。JIGSAWS [14]，Diving48 [26]和FineGym [39]分别为手术，潜水和体操提供细粒度的动作数据集。虽然现有的细粒度动作数据集非常适合基准测试，但由于其种类少且类域窄，它们无法在通用动作识别中轻松扩展。我们的HAA500数据集与所有上述数据集不同，因为我们在各个领域提供了各种各样的500个细粒度原子人类动作类，其中每个类中的视频仅展示相关的人类原子动作。2.2. 动作识别架构当前的动作识别架构可以分为两种主要方法：2D-CNN和3D-CNN。基于2D-CNN[8，12，27，41，43，49]的模型在单个帧上利用基于图像的2D-CNN模型，其中特征被13468聚合以预测动作。虽然一些方法（例如，[8]）使用RNN模块进行视觉特征的时间聚合，TSN[43]表明简单的平均池化可以是处理时间聚合的有效方法。为了将时间信息并入2D-CNN，已经提出了双流结构[12，41]，以使用RGB帧和光流作为卷积网络的单独输入。3D-CNN[4，11，20]通过将时空滤波器并入图像帧中来采取更自然的方法。受[41]的启发，双流内扁平 3D-CNN （ I3 D ） [4] 在 3D-CNN 上结合了双流SlowFast[11]从I3D改进而来，表明当3D内核仅用于模型的后面几层时，精度会提高。在TPN[46]中采用了不同的方法，其中高级结构被设计为采用可以使用2D-CNN或3D-CNN作为骨干的时间金字塔网络。一些模型[22，23，45]使用替代信息来预测视频动作。具体而言，ST-GCN[45]使用图卷积网络来从姿势估计预测视频动作然而，它们的基于姿势的模型不能展示比基于RGB帧的模型更好的性能。表2列出了视频动作数据集上的代表性动作识别模型的性能，其中基于2D骨架的模型[38，45]在Kinetics400 [21]中显示出相当低的准确性。3. HAA5003.1. 数据收集HAA500的注释包括两个阶段：vocabulary收集和视频剪辑选择。虽然在选定的长视频上注释动作标签的自下而上的方法通常用于原子/细粒度动作数据集[17，39]，但我们的目标是构建用于原子动作识别的干净且细粒度的数据集，因此视频剪辑是基于预定义的原子动作来收集的，遵循自上而下的方法。3.1.1词汇收集为了使数据集尽可能干净，并有助于识别细粒度的原子动作，我们将超类的范围缩小到4个区域;运动/田径，演奏乐器，游戏和爱好，以及日常活动，未来扩展到现有课程之外是可行的。我们选择动作标签，其中类内的变化通常无法区分。例如，代替手吹口哨，我们用一只手吹口哨和用两只手吹口哨，因为变化很大且可区分。我们的词汇收集方法使数据集具有层次性，其中原子操作可以组合以形成复合操作，例如，吹口哨或踢足球。因此，HAA 500包含500个原子动作类，其中212个是运动/田径，51个是演奏乐器，82个是游戏和爱好，155个是日常动作。134690：0.00运球0：8.00射击0：10.00(a) 动力学400 -投篮0：0.00演唱0：8.00观众0：10.00(b) 动力学400 -歌唱0：0.00跳远0：3.00(c) 跳远0：0.00 0：3.20(d) HAA 500-不均匀条：陆地图2. 动作识别数据集中不同类型的标签噪声。（a）：动力学400具有10秒的固定视频长度，其不能准确地注释快速动作，如投篮，其中运球的不相关动作被包括在剪辑中。（b）：可以看到一个摄像机剪辑，在主要动作之后显示不相关的帧（观众）。（c）：通过不具有帧精确的剪辑，剪辑以在半空中的感兴趣的人开始，并且在几帧之后迅速消失，导致视频剪辑的其余部分没有任何人在行动。（d）：我们的HAA 500准确地注释了Uneven Bars-Land的完整运动，没有任何不相关的帧。课程中的所有视频都从运动员将手从横杆上移开的确切帧开始，到他/她完成落地姿势的确切帧表3. HAA500的总结3.1.2视频剪辑选择为了确保我们的数据集是干净和类平衡的，所有的视频剪辑都是从YouTube上收集的，大多数的分辨率至少为720p，每个原子动作类包含16个我们手动选择具有明显的以人为中心的动作的剪辑，其中感兴趣的人是中心处的帧中的唯一主要的人，其身体清晰可见。为了增加视频剪辑之间的多样性并避免不必要的偏差，所有剪辑都是从不同的YouTube视频中收集的，具有不同的环境设置，使得动作识别任务不能被简单地简化为识别对应的背景。剪辑以帧精确的方式被适当地修剪以覆盖期望的动作，同时保证每个视频剪辑在每个类内具有兼容的动作（例如，类中的每一个视频Salute在人在移动手臂之前静止不动的确切帧上开始，并且视频在手靠近眉毛时结束有关所选视频的示例，请再次参阅图13.1.3统计表3总结了HAA500统计数据。HAA500包括500个原子动作类，每个类包含20个剪辑，平均长度为2.12秒。每个剪辑都使用元信息进行注释，其中包含以下两个字段：视频中占主导地位的人的数量和摄像机的移动。表4.视频动作数据集的剪辑长度和不相关帧3.1.4训练/确认/测试集由于不同类中的剪辑是互斥的，因此所有剪辑仅显示在一个拆分中。将10，000个剪辑分割为16：1：3，得到8，000个训练片段、500个验证片段和1，500个测试片段的片段。3.2. 属性和比较3.2.1清除每帧的大多数视频数据集[17，21，42]显示出强烈的标签噪声，这是由于难以收集干净的视频动作数据集。一些[21，25，42]经常关注视频剪辑的“场景”，忽略了人的“动作”，因此包括剪辑中具有可见相机剪切的不相关动作或帧。此外，视频动作数据集[17，21，32，48]具有固定长度的视频剪辑，因此对于较短的动作，不相关的帧是不可避免的。我们经过适当修剪的视频集合保证了每一帧都有一个干净的标签。表4列出了视频动作数据集的剪辑长度和标签噪声。图2示出了标签噪声的示例。由于HAA500是用准确的时间注释和灰铭记，我们几乎没有任何不利影响，由于这些噪音。3.2.2人为中心动作识别中的一个潜在问题是神经网络可能通过简单地比较视频中的背景场景或检测动作中的关键元素行动剪辑平均长度持续时间帧50010,0002.12s21，591K数据集剪辑长度Irr. 行动摄像机切割UCF101[42]HMDB51[25]AVA[17]HACS[48]动力学[21]麻省理工[32个]变化变化1秒2秒10秒3秒✓✓✓✓✓✓HAA500恰到好处号的人12>2个8,309859832移动相机OX2,3737,62713470图3. AVA、HACS和Kinetics 400中的视频剪辑在同一帧中包含具有不同动作的多个人物。Something-Something聚焦在目标对象上，几乎不显示任何人体部位。相比之下，HAA500中的所有视频剪辑都经过精心策划，其中每个视频都显示一个人或感兴趣的人作为给定帧中最主要的人物数据集可检测关节[21]第二十一话41.0%UCF101[42] 百分之三十七点八HMDB51[25]41.8%免费WiFi[39] 百分之四十四点七HAA50069.7%表5.视频动作数据集的可检测关节我们使用Alpha- Pose [10]来检测帧中最大的人，并计算得分高于0的关节数量。五、框架（例如，检测打篮球的篮球），而不是识别相关的人的姿势，因此导致动作识别没有比场景/对象识别更好的性能改进。另一个问题源于视频动作数据集，其中在宽视场中捕获的视频在单个帧中包含多个人[17，21，48]，而使用窄视场捕获的视频仅展示与相关对象交互的非常少的身体部位[16，32]。在[17]中，尝试通过给定帧中每个个体的空间注释来克服这个问题。这引入了动作定位的另一个问题，并且因此进一步使困难的识别任务复杂化。图3示出了不同视频动作数据集的示例帧。HAA500提供了一个精心策划的数据集，其中可以在任何给定的帧上清楚地检测到人体关节，从而使模型能够从学习人体运动中受益，而不仅仅是执行场景识别。如表5所示，HAA500具有69.7%的高可检测关节[10]，远高于其他代表性动作数据集。3.2.3原子诸如[5，17，32]的现有原子动作数据集受到英语语言学的限制，其中动作动词（例如，走、扔、拉等）都腐烂了这种分类不能完全消除复合动作数据集的上述问题。图4显示了不同原子操作数据集的情况，其中单个操作类包含根本不同的操作。另一方面，我们的细粒度原子操作在每个类下只包含一种类型的操作，例如基本球-投球，瑜伽-树，跳房子-旋转等。图4.粗粒度原子动作数据集在单个英语动作动词下标记不同的HAA500（底部）具有细粒度的类，其中尽可能消除了动作的歧义。3.2.4扩展性每个类只需要20个视频注释，或者大约600帧来表征如上所述策划的以人为中心的原子动作，与需要数百甚至数千个视频注释的其他代表性数据集相比，我们的类平衡数据集具有高度可扩展性。在实践中，我们每节课的注释大约需要20-60分钟，包括在互联网上搜索具有预期质量的视频。补充资料中提供了详细的注释程序4. 实证研究我们使用广泛使用的动作识别模型在多个方面研究HAA500。表6的左侧显示了使用HAA500进行训练时各个模型为了在不同模型和训练数据集之间进行公平比较，所有实验都是使用原始作者在没有ImageNet[7]预训练的情况下给出的超参数对于除了ST-GCN[45]之外的姿态模型，我们使用三通道姿态联合热图 [10] 来训练姿态模型。 RGB 、Flow[18]和Pose[10]在HAA500中均显示出相对相似的性能，其中没有一个显示出比其他更优越的性能。考虑到姿态热图具有比从RGB帧或光流帧给出的信息少得多的信息，我们期望HAA500的容易检测的关节有益于基于姿态的模型性能。动力学400东西AvaHACs13471500原子模型Top-1前3RGB33.53% 53.00%I3D[4]流构成34.73%35.73%52.40%54.07%三流百分之四十九点八七66.60%RGB25.07% 44.07%[第11话]流构成22.87%28.33%36.93%45.20%三流39.93% 百分之五十六RGB55.33% 75.00%TSN[43]流百分之四十九点一三66.60%Inst.关于AtomicTop-1Top-170.59%71.90%73.20%77.79%69.28%71.90%81.70%82.35%40.52%50.98%71.90%71.90%64.71%66.01%67.97%73.86%86.93%84.31%79.08%86.27%89.54%90.20%73.20%75.82%67.32%67.97%体育体育与原子Top-1Top-147.48%53.93%51.42%54.40%百分之五十四点八七55.03%68.55%69.81%42.92%44.18%44.81%45.91%42.45%50.00%59.91%62.89%72.64%72.48%百分之六十九点九七68.24%表6. 左图：HAA500在不同模型上训练。右：不同模型在使用/不使用原子动作分类进行训练时的复合动作分类精度。当差异大于1%时，数字以粗体显示。单个复合动作类可以包含多个可区分的动作（例如，复合动作玩足球具有足球运球、足球投掷等）。HAA500通过提供细粒度的原子动作标签来区分不同复合动作中的类似原子动作，从而解决了这个问题。为了研究原子动作标签的益处，具体如下：图5.HAA500的可视化我们从RGB-I3 D的倒数第二层提取1024个向量，并使用t-SNE绘制它们。此外，我们还研究了原子动作的一个符号对视频识别的好处，以及以人为中心的特点HAA500的重要性。在本文中，除非另有说明，否则我们使用具有32帧的I3 D-RGB[4]我们使用AlphaPose[10]用于需要人体姿势估计的模型。4.1. 可视化为了研究原子动作识别，我们在HAA 500上训练RGB-I3 D模型，并从倒数第二层提取嵌入向量，并使用截断SVD和t-SNE绘制它们从图5中，嵌入向量显示出与人类行为的自然层次结构的在图的左边，我们看到体育运动课程和演奏乐器课程之间的明显区别。具体来说，在体育运动中，我们看到类似的超级课程，单板滑雪和滑雪，在紧密的嵌入空间下，而篮球，平衡木（体操）和花样滑冰则在其独特的独立空间中。当仅使用原子动作标记来训练模型时，我们观察到复合动作的超类聚类这种可视化暗示了细粒度原子动作标记对于复合动作分类任务的好处。4.2. 原子动作我们之前已经讨论过，现代动作识别数据集引入了歧义，其中两个或更多个复合动作共享相同的原子动作，而我们从HAA 500中选择了两个领域，运动/田径和演奏乐器，其中复合动作与该领域中的其他动作包含强烈的模糊性我们比较了用两种不同类型的标签训练的模型：1）只有复合标签和2）原子+复合标签，然后我们评估复合动作分类的性能。结果列于表6的右侧。仅用复合标签训练的模型的准确性低于Inst。和Sport列，并且用原子动作分类训练的复合动作分类的准确性在其他列上列出。我们可以观察到改进的复合动作分类时，原子动作分类纳入。HAA500中的细粒度动作分解使模型能够解决类似原子动作的歧义，并帮助模型学习细微的差异在不同的复合动作中的原子动作。这证明了对细粒度原子动作进行适当标记的重要性，这可以在不改变模型架构或训练集的情况下提高复合动作分类的性能。4.3. 人为中心HAA500的设计包含动作剪辑与高比例的可检测的人的数字。为了研究人体姿态在细粒度原子动作识别中的重要性，我们比较了HAA 500和Fine- Gym在RGB和姿态估计都如图所示时的性能。13472原始归一化复合两复合两I3D-RGB66.01%56.86%75.82%77.12%I3D-Flow73.20%77.78%75.16%74.51%2-Stream77.78%百分之八十点三九83.01%百分之八十点三九表7. 当RGB图像和姿态估计都作为输入给出时的原子动作分类精度。我们还显示了它们单独训练时的性能以进行比较。预训练UCF101[42]Top-1[9]第九话Top-1HMDB51[25]Top-1没有一58.87%43.54%28.56%AVA[17]百分之四十八点五四30.51%25.28%简体中文[CN]69.94%43.79%36.24%UCF101[42]-42.94%32.37%[9]第九话57.52%-28.63%HMDB51[25]53.36%39.33%-HAA50068.70%47.75%40.45%放松62.24%38.30%33.29%表8. 微调I3D性能。放。对于姿势估计，我们从AlphaPose[10]中获得17个关节热图，并将它们合并到3个通道中;头部，上身和下身。表7列出了结果。在HAA 500的四个区域中的三个区域中，I3 D-RGB显示出比I3 D-Pose更好的性能，这是由于向模型提供了大量信息。I3 D-Pose在运动/田径方面表现最佳，具有充满活力和独特的动作，而I3 D-Pose在演奏乐器方面未能表现出可比的性能，其中仅从17个关节预测原子动作是相当具有挑战性的。然而，我们的实验表明，当姿态估计和RGB帧都被馈送到原子动作分类模型时，性能提升，这暗示了HAA500动作分类中人类动作的重要性关于FineGym- Gym288中，由于快速的运动动作导致模糊的帧，人的姿势不容易识别，这说明当使用姿势时相对不显著的改进。5. 意见我们提出了从HAA500中观察到的显着特征与我们的交叉数据集实验。在这里，我们测试如何利用策划的HAA500数据集来检测“野外”动作数据集中的动作我们使用HAA 500或其他视频动作数据集[9，17，25，39，42]预训练I3 D-RGB[4]，并冻结除最后三层外的所有层以进行特征提取。然后，我们用“野外”复合动作数据集微调最后三层[9，25，42]。表8列出了微调结果。我们的数据集经过精心策划，具有多种背景和表9.对感兴趣的人进行标准化的准确性改进数字是复合动作分类精度。人，同时对每个类具有一致的动作尽管与其他动作识别数据集相比，HAA500相对较小且更尺度归一化的影响HAA500在整个视频集合中的人体位置具有很高的多样性。在这里，我们选择了HAA500，演奏乐器的一个区域，研究人体归一化的检测精度的影响。我们手动注释了每帧中感兴趣的人的边界框，并裁剪它们以使模型专注于人类动作。在表9中，我们测试了经过训练以检测复合动作或复合动作和原子动作的模型。虽然HAA500是高度以人为中心的，其中感兴趣的人作为帧的最主要人物，但是当在原子动作注释或复合动作注释上训练时，归一化帧上的动作分类仍然显示出可观的改进。这表明空间标注对于动作识别的重要性。对象检测的效果在大多数视频动作数据集中，非人类对象作为对类的强烈偏见而存在（例如，篮球（Playing Basketball）当高度多样化动作（例如，投篮、运球等）在单个类别下注释，直接的深度学习模型往往会受到偏差的影响，并且将学习检测视频剪辑中最容易的共同因素（篮球），而不是设计不良的视频动作数据集促使动作分类模型轻易地变成对象检测模型。在HAA500中，同一类中的每个视频剪辑都包含兼容的动作，使得公共因子成为篮球存在于Shooting aBasketball 和 Dribbling a Basketball 中）。为了测试HAA500中的“对象”的影响在这里，我们使用使用COCO[28]数据集训练的Fast RCNN[15]来生成对象热图。在COCO中的80个可检测对象中，我们选择了5个类别（运动器材，食物，动物，餐具和车辆）中的42个与表7类似，热图通道作为输入附加到RGBRGB构成RGB +姿势HAA50033.53% 35.73%42.80%体育38.52% 47.33%50.94%仪器30.72% 24.18%32.03%爱好31.30% 26.42%35.37%每日百分之二十八点八二28.60%39.14%13473RGB+对象HAA50033.53% 33.73%体育38.52% 38.68%仪器30.72% 30.07%HAA-COCO 34.26% 34.26%UCF10157.65% 60.19%表10. 使用对象热图训练时I3D的准确性。HAA-COCO表示预期具有被检测到的对象的147类HAA 500。表10将对象在HAA 500的原子动作分类中的可忽略影响制成表格，包括预期使用所选对象（HAA-C 0 C0）的类，而UCF 101示出了当对象热图用作视觉提示时的改进。考虑到对象热图的影响可以忽略不计，我们相信细粒度的动作注释可以有效地消除不必要的歧义或偏差（密集时间采样的影响表11列出了HAA500和其它数据集在训练和测试期间使用的帧数上的性能差异表11的底部列出了具有32帧窗口大小的不同步幅的性能，除了我们用16帧测试的AVA除了AVA之外，示出了动作识别的前1个准确度，AVA由于其数据集的多标记性质而示出了mIOU。正如预期的那样，当馈送32帧时，AVA示出了由于不相关的帧（例如，动作变化、相机切换等）包括在较宽的窗口中。虽然当模型仅使用单个帧（即，当该问题已经被简化为“场景识别”问题时），与它们在32帧中的准确度相比，HAA500和Gym288都显示出显著的下降。虽然具有相同的背景有助于Gym288的性能差异，从HAA500，我们看到时间动作运动是如何关键的原子动作的检测，他们不能平凡地检测使用一个简单的场景检测模型。我们还看到，时间窗口的密度是原子动作分类中的另一个重要因素我们看到，HAA500和Gym288都是细粒度动作数据集，当帧以2或更大的步幅采样时，表现出更大的性能下降，反映了细粒度动作分类中对短时动作运动采样的重要性。质量与数量为了研究我们精确的时间注释对数据集大小的重要性，我们通过放宽时间注释要求来修改HAA500，即，我们采用比原始符号更长的剪辑。我们的松弛 HAA500 由 4400K 标记帧组成，与原始HAA500的591K帧相比有了显着增加。表12列出了性能表11. 在帧和步幅的数量上的I3 D-RGB上的性能比较，其中除了我们用16帧测试的AVA之外，使用HAA500放松整体33.53% 22.80%体育38.52% 25.47%仪器30.72% 28.10%爱好31.30% 20.33%每日百分之二十八点八二18.71%表12.原始HAA500和放松版本的动作分类准确性。在原始HAA500测试集上进行原始HAA500和放松版本之间的比较。我们观察到所有领域的性能下降，其中在体育运动中显著下降，其中准确的时间注释受益最大。演奏乐器区域的性能下降不太明显，因为在这些课程中，动作的开始/结束定义模糊。我们还测试了松弛的HAA500的微调性能，其中表8的最底部行将松弛的HAA500用于预训练时的性能下降制表。我们的两个实验都表明了准确的时间标签的重要性，超过了数据集的大小。6. 结论本文介绍了HAA500，一个新的人类动作数据集，具有细粒度的原子动作标签和以人为中心的剪辑注释，其中视频被仔细选择，使得相关的人类姿势是明显的和可检测的。通过精心策划的动作视频，HAA500不会受到不相关帧的影响，其中视频剪辑仅显示注释的动作。具有少量的剪辑，HAA500是高度可扩展的，以包括更多的行动类。我们已经证明了HAA500的功效，其中动作识别可以大大受益于我们干净的、高度多样化的、类别平衡的细粒度原子动作数据集，该数据集以人为中心，具有高百分比的可检测姿势。在HAA500之上，我们还实证研究了几个重要的因素，可以影响动作识别的性能。我们希望HAA500和我们的研究结果可以促进视频动作识别的新帧数HAA500 UCF101[42] AVA[17]简体中文[CN]119.93%45.57%33.57%39.77%223.27%47.26%39.42%44.68%424.40%49.30%39.48%51.22%8百分之二十四点零七49.80%42.38%59.64%1628.20%52.31%43.11%69.25%3233.53%57.65%29.88%76.11%步幅227.47%57.23%41.49%68.68%13474引用[1] Humam Alwassel ， Fabian Caba Heilbron ， VictorEscorcia，and Bernard Ghanem.诊断时间动作检测器中的错误。在ECCV 2018。[2] Moshe Blank，Lena Gorelick，Eli Shechtman ，MichalIrani，and Ronen Basri.作为时空形状的动作。2005年ICCV。[3] 若昂·卡雷拉，埃里克·诺兰，克洛伊·希利尔，安德鲁·兹瑟曼.关于动力学-700人类行动数据集的简短说明。arXiv预印本arXiv：1907.06987，2019.[4] J oaoCarreira和Andr e wZisserman。Quovadis，动作识别？新模型和动力学数据集。在CVPR 2017。[5] 放大图片作者：Daniel P. W.安德鲁·埃利斯。放大图片创作者：Marvin，Caroline Pantofaru，Nathan Reale，Loretta Guarino Reid Wilson 和 Zhonghua Xi 。 Ava-speech ：电影中语音活动的密集标记数据集。在INTERSPEECH，2018年。[6] DimaDamen ， HazelDoughty ， GiovanniMariaFarinella ， Sanja Fidler ， Antonino Furnari ， EvangelosKazakos ， Davide Moltisanti ， Jonathan Munro ， TobyPerrett，Will Price，et al.扩展以自我为中心的愿景：epic-kitchens数据集。在ECCV 2018。[7] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。在CVPR 2009中。[8] JeffDonahue 、 LisaAnneHendricks、SergioGuadarrama、MarcusRohrbach、SubhashiniVenugopalan、Trevor Darrell和Kate Saenko。用于视觉识别和描述的长期递归卷积网络在CVPR 2015。[9] Bernard Ghanem Fabian Caba Heilbron、Victor Escorcia和Juan Carlos Niebles。Activitynet：用于人类活动理解的大规模视频基准在CVPR 2015。[10] 方浩树，谢淑琴，戴玉荣，陆策武。RMPE：区域多人姿势估计。在ICCV 2017。[11] Christoph Feichtenhofer ， Haoqi Fan ， Jitendra Malik ，and Kaiming He.用于视频识别的慢速网络。在CVPR2019。[12] ChristophFeichtenhofer、AxelPinz和AndrewZisserman。卷积双流网络融合视频动作识别。在CVPR2016中。[13] Adrien Gaidon、Zaid Harchaoui和Cordelia Schmid。动作的时空定位。2013年《技术援助和评估》。[14] Yixin Gao，S Swaroop Vedula，Carol E Reiley，NargesAh-midi ， Balakrishnan Varadarajan ， Henry C Lin ，Lin

下载后可阅读完整内容，剩余1页未读，立即下载