HACS：大规模动作识别和时间定位数据集

37 浏览量更新于2023-10-16 收藏 2.32MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1HACS：用于识别和时间定位的人类动作片段和片段数据集Hang Zhao<$，Antonio Torralba< $，Lorenzo Torresani，ZhichengYan†麻省理工学院、达特茅斯学院、伊利诺伊大学香槟分校摘要本文提出了一种新的大规模数据集的识别和时间定位的人的行动收集2.E+063.E+053.E+044.E+03动力学-600HACS剪辑（我们的）从网络视频。我们称之为HACS（人类行为）4.0E+3 1.6E+4 6.4E+4 2.6E+5 1.0E+6数量的夹子剪辑和片段）。我们利用视觉分类器之间的一致性和不一致性，从未标记的视频中自动挖掘候选短片，这些短片由人类注释者进行后续验证。由此产生的数据集被称为HACS Clips。通过一个单独的亲-2.E+053.E+043.E+034.E+025.E+01字谜HACS部分（我们的）因此，我们还收集定义动作段边界的注释。该结果数据集称为HACS分段。总体而言，HACS剪辑由从504K未修剪视频中采样的1.5M注释剪辑组成，HACS片段包含在跨越200个动作类别的50K未修剪视频中密集注释的139K动作片段。HACS Clips包含的标记示例比任何前视频基准都多。这使得我们的数据集既是一个大规模的动作识别基准，也是时空特征学习的一个很好的来源。在我们对三个目标数据集的迁移学习实验中，HACS Clips作为预训练源的表现优于Kinetics-600，Moments-In-Time和在HACS Segments上，我们评估了最先进的行动建议生成和行动本地化方法，并强调了我们密集的时间注释所带来的新挑战1. 介绍计算机视觉的最新进展[22，23]受到数据集规模稳定增长的推动。对于图像分类，在短短几年的时间里，我们从Caltech 101 [15]（仅包含9.1K个示例）过渡到ImageNet数据集[12]（包含超过120万个示例）。在对象检测中，我们看到了类似的数据集规模扩大趋势。Pascal VOC [13]首次发布时有1.6K个示例，而今天的COCO数据集[36]由20万张图像组成，5.0E+3 2.0E+4 8.0E+4数量的段图1：手动标记的动作识别数据集（顶部）和动作定位数据集（底部）的比较，其中我们的数据集标记为红色。标记大小以对数标度对动作类的数量进行编码。它目前包含9M具有图像级标签的图像和1.7M具有14.6M边界框的图像，并极大地推动了这些领域研究工作的进展[1，19]。在视频领域，我们目睹了动作识别数据集规模的类似增长。虽然几年前创建的视频基准仅包含数千个示例（HMDB 51中的7 K视频[29]，UCF101中的13 K [52]，好莱坞中的3.7K [38]），但更近的动作识别数据集，如Sports 1 M [25]，Kinetics [27]和Moments-in-Time [39]，包括两个或更多数量级的视频。然而，对于动作本地化，我们还没有看到数据集大小的可比增长。THUMOS [24]创建于2014年，包含2.7K未修剪的视频，本地化注释超过20节课。ActivityNet [6]仅包含20K视频和30K注释。AVA [42]包括58 K剪辑，Cha-rade [51]包含67 K时间定位间隔。我们认为，缺乏大规模的动作本地化数据集阻碍了更复杂的模型的探索。出于大规模动作数据集的需求，我们引入了一个新的视频基准，命名为人类动作剪辑和片段（HACS）。它包括两种类型的人-500K对象实例注释。[28]第二十八话进一步将图像数据集的大小放大到下一个级别。网站首页：http://hacs.csail.mit.edu8668的视频数量的视频数量50100200400UCF-101妈妈树人HMDB-51ActivityNetTHUMOS 1450100200Ava8669用户注释。第一种类型是从50万个视频中稀疏采样的150万个持续时间为2秒的片段上的动作标签我们将此数据集称为HACS Clips。它被设计成一个基准，并作为一个预先培训的行动识别来源。在我们的实证研究中，我们比较了不同的剪辑采样方法，我们观察到，在不同的视觉分类的共识和分歧，根据这样的标准从大的视频池中采样的剪辑捕获动作动态、上下文、视点、照明和其他条件的大的变化。我们证明了在HACSClips上学习的时空特征可以很好地推广到其他数据集。第二种类型的注释涉及50K未修剪视频上的时间局部化标签，其中时间边界和动作片段的动作标签都被注释。我们称之为HACS片段。谢谢根据我们关于如何区分动作和非动作片段的严格指导方针，与ActivityNet相比，所产生的数据集每个视频的动作片段多1.8倍，并且片段持续时间较短我们证明，这构成了在动作定位方面存在更大的挑战，因为定位短片段需要更精细的时间分辨率和更有区别的特征表示。这两种类型的注释共享相同的200个动作类的分类，我们从ActivityNet中获取。我们将HACS与图1中的其他视频数据集进行了比较。尽管是在它的第一个版本中，HACS在规模上与该领域的大多数先前的基准相比是有利的。综上所述，本文的主要贡献如下.1. 我们提出了一个彻底的实证研究剪辑采样方法，并使用非平凡的发现，采样大量的剪辑，进一步手动验证。与 Kinetics-600相比，生成的 HACSClips数据集的剪辑注释多2.5倍2. 我们在HACS Clips上对最先进的动作识别模型进行基准测试。我们表明， HACS Clips 优于Kinetics-600，Moments-In-Time和Sports 1 M作为其他基准上动作识别的预训练数据集3. 我们收集50K视频上的动作片段边界，基于注释准则，减少动作定义和本地化中的模糊性与ActivityNet相比，HACS Segments的视频数量增加了2.5倍，动作片段增加了4.7倍4. 在HACS细分市场上，我们评估了行动建议生成和行动本地化的最新方法，并强调了新的挑战。2. 相关工作行动识别。在动作识别中， HMDB51 [29]和UCF101[52]数据集是与先前的数据集（如KTH [47]）相比，创建这些数据集是为了提供具有更高多样性的基准。这些基准已经使得能够手动设计运动特征，例如时空兴趣点[30]、定向梯度和光流的时空直方图[56，31]和Fisher向量特征编码[41]。然而，这些数据集还不够大，不足以支持深度模型的现代端到端训练。大-最近引入了比UCF 101大20倍以上的Sports1M [26]和Kinetics数据集[27]来填补这一空白。它们可以从头开始训练深度模型[8，43，53]。然而，这些基准不能用于训练动作本地化模型，因为它们不包含时间边界注释。在大规模视频数据集上收集注释非常耗时[50]。以前的工作[37，32]已经表明，广泛可用的Web动作研究人员还探索了视频的合成生成（例如，VGAN [55]，PHAV [11]用于训练动作识别模型。尽管这消除了对人工注释的需求，但在合成视频上训练的模型仍然不如在具有人工注释的自然视频上训练的模型。行动定位。未修剪视频中的动作本地化对于理解互联网视频至关重要。最近，已经提出了几个数据集。THU- MOS Challenge 2014 [24]包括2.7K修剪视频的20个动作。它随后被扩展到MultiTHU-MOS [60]，有65个动作类。其他具有细粒度类别但专注于窄域的数据集包括MPII Cooking [45，46]和EPIC-Kitchen [10]。不幸的是，在这种以领域为中心的数据集上训练的模型可能无法很好地推广到日常活动。相反，Charades数据集[51]是有目的地设计的，包括更一般的日常活动。ActivityNet-v1.3 [6]包括20 K未修剪的视频和30 K时间动作注释。最近，引入了AVA数据集[20]，以提供以人为中心的原子动作时空注释。这些数据集极大地推动了行动建议生成[17，18，5，35]和行动本地化[59，48，61，34，9、2、4]。3. 数据集集合3.1. HACS数据集一览HACS使用200个动作类的分类法，这与ActivityNet-v1.3数据集的分类法它从YouTube上检索了504K视频每一个严格短于4分钟，平均长度为2。六分钟。总计1. 500万个持续时间为2秒的剪辑通过基于均匀随机性和一致性的方法稀疏8670共识图像分类器的SUS/不一致0的情况。6M和0。9M片段分别被注释为阳性和阴性样本我们将集合分为大小为1.4M、50K和50K的训练、验证和测试集，这些片段分别从492K、6K和6K视频中采样。我们将此基准称为HACS Clips。此外，在50K视频的子集上（38K用于训练，6K用于验证，6K用于测试），我们收集定义视频中每个动作片段的开始，结束和动作标签的手动边界所有视频都包含至少一个动作片段。我们将此集合称为HACS分段。3.2. 视频检索与去重我们使用200个动作标签来查询YouTube视频搜索引擎，并检索到89万个潜在相关视频。每个班级的视频数量从1100到6600不等。然后，我们执行两种类型的重复数据消除。首先，删除HACS中的重复视频。其次，为了支持对其他基准的公平评估，我们删除了与其他数据集（包括Kinetics，ActivityNet，UCF-101和HMDB-51）的验证或测试集中的样本重叠的有关视频重复数据消除的更多详细信息，请参见补充资料。3.3. 稀疏片段采样手动注释未修剪视频中动作片段的开始和结束非常耗时。如果目标是创建用于动作识别的数据集，则更有效的是从大量视频中稀疏地采样短持续时间的片段，并要求注释器快速验证假定的动作是否真正发生在片段中。该过程可用于收集大规模动作片段数据集，其不仅可单独用作动作识别基准，还可用于迁移学习，例如，通过使一般深度模型的训练成为可能，然后可以将其转移到较小规模的数据集上进行微调或用于其他下游任务。对片段进行采样的一个挑战是，正面例子的频率可以说比负面例子的频率小得多。因此，均匀的随机剪辑采样将不可避免地产生大量的负样本，这些负样本远不如用于视频建模的正样本有用。另一方面，使用机器学习分类器来指导剪辑采样可能会引入数据集偏差。例如，Kinetics [27]剪辑的集合利用了一个图像分类器，该图像分类器是在Google图像搜索的用户反馈自动标记的图像上训练的。该分类器用于对具有最高动作分数的剪辑进行采样。由这样的图像分类器引起的偏差在数据中是肯定存在的，但它是难以评估的。在本节中，我们对以下两个问题感兴趣。首先，我们如何评估用不同方法取样的剪辑的质量？第二，哪些剪辑采样注：这一行动正在发生吗？滑板剪辑采样视频帧分类器随机/共识/谷歌图像分类器分歧镜头检测和人物检测视频抓取和重复数据消除图2：稀疏片段采样和标记的流水线方法会产生最好的训练数据集？为了回答这些问题，我们提出了一个彻底的实证研究剪辑采样策略。我们研究中使用的剪辑采样管道概述如图2所示。3.3.1预处理：删除非人剪辑作为预处理步骤，我们排除不包含人的剪辑，因为我们的目标是创建人类行为的数据集。为了实现这一点，我们首先运行基于视频帧之间的颜色直方图距离的镜头检测，以将视频分割成镜头。之后，我们在每个镜头中均匀间隔的两个帧上运行Faster R-CNN [44]人物检测器，并删除平均人物检测分数较低的镜头3.3.2裁剪抽样方法在这项研究中，我们比较了三种抽样方法：随机抽样和两种基于图像分类器的抽样方法。关于利用静止图像进行动作识别的先前工作[37，32，21]已经表明，静止图像分类器可以相当好地预测视频中的动作，尽管它们无法对运动进行建模。动作上下文，诸如动作中通常涉及的对象、动作发生的原型场景、以及频繁地与动作共同发生的其他视觉模式，可以由图像分类器捕获以为了支持我们的研究，我们首先使用来自两个不同领域的训练数据训练两个不同的图像分类器：• YouTube框架模型。第一个模型是在从YouTube为每个动作类检索的前500个视频中提取的帧上训练的。只有视频帧，检测到的人被用作用于训练的阳性样本这总共提供了超过600K帧。作为背景（负）样本，我们随机选择人物得分低的帧8671夹式ME随机MCRes3D-18、Train-mini-ME Res3D-18、Train-mini-RandomRes3D-18、Train-mini-MCI3D、Train-mini-ME I3D、Train-mini-Random I3D、Train-mini-MC706050表1：阳性和阴性剪辑在三个火车迷你集采样不同的方法。• Google Image Model. 第二个模型是在从Google图像搜索引擎检索的图像gine使用类标签作为查询。我们收集了总共304K的图像阈值后的人检测分数。我们使用ImageNet中的随机样本作为背景类的示例。图像分布在场景组成、背景和视点方面不同于视频帧的分布。对于这两个分类器，我们使用ResNet-50训练，交叉熵损失超过201个类（200个动作类和1个背景类）。将分类器应用于每个镜头的中心帧，以获得概率动作预测。接下来，我们考虑三种不同的剪辑采样方法：1. 随机我们从每个视频中随机抽取帧。2. 最大熵（ME）。在每个视频中，我们将每个镜头的中心帧的未归一化采样概率定义为概率的平均熵从两个图像分类器的预测。然后，我们应用L1归一化来获得视频上的适当这种方法倾向于对两个分类器最不一致的帧进行采样。3. 最大共识（MC）。与ME不同，MC方法将非归一化采样概率定义为两幅图像用于检索视频的动作标签的分类器。也使用L1-归一化。该方法使采样偏向于从两个分类器接收针对感兴趣的动作标签的高分的剪辑使用这3种采样策略，我们从训练视频的子集中收集3组不同的剪辑，分别表示为Train-mini-Random、Train-mini-ME和Train-mini-MC对于每种策略，我们在每个类中随机选择400个训练视频，每个视频采样3帧。以这些采样帧为中心的持续时间为2秒的剪辑被发送给人工注释者进行手动验证，并且每个剪辑都被标记为正或负。在我们的分类法中，大多数动作类在2秒的剪辑中观察时是足够明显的，并且注释2秒的剪辑也是有效的。采样剪辑的统计信息。如表1所示，MC方法对最高数量的真阳性片段进行采样，因为基于图像分类器的一致性具有高分的片段更可能是真阳性的。然而，这些也可能是容易的正面例子，因为它们可以被图像分类器识别。另一边，我403020验证-ME验证-随机验证-MC验证-组合图3：在4个不同的验证集上评估在3个不同Train-mini产生最小数量的真阳性，因为它对具有来自图像分类器的冲突预测的剪辑进行采样。这意味着行动类有更多的不确定性。评估剪辑采样方法。我们执行一个EM-我们的评估旨在解决我们在第3.3节。使用了两种模型。一个Res3D模型[53]有18个剩余单元（即，Res 3D-18）和I3 D模型[8]。两者都将16帧的序列作为输入。在训练时，使用剪辑内的16帧的随机序列。在评估时，使用16帧的4个均匀间隔的序列我们在3个不同的Train-mini集合上训练每个模型的3个单独的实例。由于正负剪辑是不平衡的，我们在训练过程中采用加权采样，每个示例的权重与其类大小的平方根成反比我们还将每种采样方法应用于验证视频，并获得3组不同的片段，即验证随机，验证ME和验证MC，它们也由人类手动验证我们还将所有3个验证集合并为一个，即Validation-Combined。我们在所有4个验证集上评估每个训练模型实例。由于验证集也是类不平衡的，我们报告平均类精度（Class@1），这是通过平均每类精度超过201类。结果如图3所示。在所有验证集上，在Train-mini-MC集上训练的模型始终优于在Train-mini-Random和Train-mini-ME集上训练的模型这表明，为了在恒定的人类注释build-get下构建大规模的剪辑训练集，MC是这里考虑的那些方法中的最佳方法，因为在Train-mini-MC上训练的模型最好地推广到所有类型的验证集。另一方面，Validation-MC集合比其他集合更容易（模型实现更高的准确性），而Validation-ME对于所有模型来说都是最困难的。这表明，要构建偏差较小的验证/测试集，我们不应依赖于单一的抽样方法。因此，我们建议在最终确认/测试集中组合通过所有3种方法采样的剪辑。正极夹71.3K82.2K100.3K负剪辑168.7K157.8K139.7K等级@18672图4：密集段注释的示例。指导原则中明确了行动定义，以减少行动边界的模糊性。3.4. 稀疏剪辑注释我们设置注释任务来标记采样剪辑。注释指南。不同的人可能对什么构成一个给定的动作有不同的理解为了减少歧义，我们准备了一个详细的注释指南，其中包括明确的动作定义以及对每个动作分别进行澄清的正面/负面示例请参阅补充资料中的更详细指南注释工具。我们的注释工具支持在单个页面中显示多达200个剪辑。我们将从同一视频中采样的片段放在一起。这不仅减少了注释的不一致性，而且使注释更快。质量控制我们从两个方面努力提高标注质量.首先，每个片段由三个注释器标记其次，我们确保来自同一类的剪辑由同一组注释器标记这消除了注释器间的噪声。3.5. 密集段注释单独的HACS剪辑不足以训练和评估动作定位方法，因为它们缺乏时间边界。因此，我们要求注释者密集地标记50K视频子集中所有动作片段的开始、结束和动作类。我们的密集段注释工具的屏幕截图如图5所示。我们准备了明确的注释指南，区分前景动作段（动作正在执行的地方）和背景段（人和上下文都在的地方）。图5：动作片段注释工具。时间轴概览显示在视频播放器下方，当前时间窗口的放大视图显示在底部，以进行准确的时间注释。（例如对象、场景）可能出现但动作不存在。更重要的是，我们确定了每个操作类的开始和结束的共同模式这有助于注释者更好地注释动作段边界。密集段注释的示例如图4所示。例如，对于动作肚皮舞，我们认为舞蹈演员正在接受采访的视频部分作为背景。对于动作小轮车，我们建议标记为背景的一部分，视频中的人是解释如何骑小轮车，即使车手和小轮车是可见的。对于动作上篮练习，我们澄清，8673图6：比较HACS Segments和ActivityNet。上图：比较每个视频的动作片段平均数量。平均而言，HACS Segments每个视频具有1.8 ×动作片段（2.8 vs. 1.5段）。底部：比较平均段持续时间。HACS片段明显短于ActivityNet（40.6 Vs. 51.4秒）。输入Class@1RGB流RGB+流80.372.283.5表2：在HACS剪辑的确认集上评价I3D模型[8运动员静止或完成射击的视频应标记为背景。我们的指导方针的有效性可以用数字来衡量：与ActivityNet相比，HACS平均每个视频的动作片段多1.8倍，平均片段持续时间短约20%，如图6所示。这对动作定位方法提出了新的挑战，必须定位更短持续时间的更多片段。3.6. HACS的显著特性与其他识别数据集不同，其中每个视频仅收集单个正面示例，HACS剪辑还包括负面示例（每个视频包含3个剪辑，负面与正面的比例大致为1比2）。这可以用来模拟行动和非行动内容之间的差异。此外，HACS片段中的视频具有稀疏剪辑注释和密集片段注释，稀疏剪辑注释是用于本地化的监督的弱形式[57，49，40 这种混合注释可以用于弱监督动作定位的任务[57，49]，让人想起图像语义分割中的点监督[3]和涂鸦监督[33]。4. HACS剪辑4.1. 动作片段分类在本节中，我们在完整的HACS Clips训练集上训练I3D [8]，并在验证集上对其进行评估。实验中我们同时使用RGB帧和光流作为输入.为了提高效率，采用Farneback我们还报告了通过后期融合将RGB和光流相结合的结果，其中最终的预测分数是从RGB和光流获得的预测分数的加权和。我们根据经验将RGB和光流的融合权重分别设置为0.6和0.4。结果示于表2中。我们还显示了特定类别的准确性，以及补充中每个类别的阳性和阴性剪辑的分布4.2. 迁移学习的结果在HACS Clips上训练的模型可以在其他识别数据集上进行微调通过将微调模型与从头开始训练的模型进行比较，我们可以评估在HACS Clips上学习的时空特征的泛化性能。我们在3个动作识别基准上评估了迁移学习。在所有基准测试中，我们观察到通过HACSClips进行预训练的实质性收益。数据集。我们总共使用了6个额外的数据集进行评估。UCF-101、HMDB-51和Kinetics-400被用作目标基准。Sports 1 M，Moments-in-Time和Kinetics-600 [7]，这是一个扩展版本，原始的Kinetics-400数据集被用作比较预训练数据集。对于Kinetics-400，我们报告了准确性-8674预训练数据方法UCF101HMDB51动力学-400[54]第54话92.767.2N/AImageNetST-乘数网络[16]94.268.9N/ATSN [58]94.269.4N/A运动1MT-S R（2+1）D-34[53]97.378.775.4动力学-400T-S I3D [8]98.080.775.7T-S I3D98.281.376.4HACS剪辑T-S R（2+1）D-3498.079.876.1T-S R（2+1）D-101N/AN/A77.0表3：HACS Clips与预训练I3D模型的其他数据集的比较。UCF-101和HMDB-51 的结果在第1部分计算。Moments表示Moments-In-Time数据集。验证集上的racy。对于评估指标，我们使用Video@1，它是通过对视频中的10个剪辑进行均匀采样并对预测进行平均而获得的。结果我们训练I3D模型[8]，而不使用任何2D到3D的膨胀。当I3D模型经过预训练后，我们会根据目标基准对它们进行进一步微调。如表3所示，通过在HACS Clips上进行预训练，所有3个基准测试的指标都得到了大幅改善。在所有目标数据集上，与Sports 1 M、Moments-in-Time和Kinetics-600相比，HACS Clips显示出更好的泛化性能，其中Kinetics-600是该集合中最强的竞争者。Sports1M注释是嘈杂的，因为它们是由标签预测算法生成的。此外，Sports1M视频的平均长度超过5分钟，并且标记的动作可能仅存在很短的时间段。这在学习时空特征表示时引入了大量的时间噪声。与Moments-in- Time相比，HACS Clips对人类行为有更细粒度的分类，这有助于推广到其他数据集。与Kinetics-600相比，HACS Clips包含超过3×训练集中的注释更多，这也有助于卓越的迁移学习性能。与其他方法的比较。在表4中，我们与最先进的技术进行了比较。这里使用I3D [8]和R（2+1）D [53]模型架构。对于R（2+1）D，我们报告了RGB和流量分数后期融合后具有34和101个残差单位的我们计算视频类sifications平均预测超过20个均匀采样的剪辑在每个视频。通过使用现成的I3D和R（2+1）D模型，并利用大规模剪辑数据集，我们的方法在所有3个基准上都优于其他方法[54，16，58，8，53动作定位的迁移学习。HACS Clips还可以用于预训练动作定位模型。与从头开始的训练相一致，HACS剪辑上的预训练CDC模型[48]将平均mAP提高了8。占6%表4：将在HACS Clips上预训练的I3D和R（2+1）D模型与之前的工作进行比较。对于UCF-101和HMDB-51，报告了3次拆分的平均结果。由于R（2+1）D-101模型比R（2+1）D-34模型多2倍的残差单元和1.3倍的参数，适用于UCF-101和HDMB-51的小数据集因此，我们忽略这些结果。我们用T-S表示双流。在THUMOS 14和2。在ActivityNet上分别为5%在补充中查看更多详细结果。5. HACS段我们评估了两个行动建议生成方法和一个行动本地化方法的HACS段。5.1. 行动建议生成结果评估了两种行动建议生成方法：边界敏感网络（BSN）[35]和时间主动性网络（TAG）[61]。我们选择它们是因为它们在THUMOS 14和Activ- ityNet基准测试中实现了SoTA结果，并且这些方法的开源实现是可用的。我们主要遵循原始的训练设置，仅在下面突出显示差异。BSN实验。在原作中，片段级的fea-图是400D，由两个200D的串联产生从两个TSN [58]模型中提取的概率向量，分别使用RGB输入和光流输入对ActivityNet的200个动作类进行训练。类似地，我们在HACS Clips上训练了两个TSN模型（分别以RGB和流量为输入），其中包含200个动作类和1个背景类。来自经训练的模型的两个201D概率向量被连接以形成402D片段级特征。TAG实验。在最初的工作中，两个二进制分类器（基于 TSN [58] ）分别使用 RGB 输入和光流输入在ActivityNet上进行训练。我们在HACS Segments中使用-符号来训练这样的二进制分类器。我们遵循最初的评估协议，并报告两个指标：1）每个视频的平均召回率（AR）与平均建议数（AN）和2）AR-AN曲线下面积（AUC）。两者都是在时间交集与并集（tIoU）阈值上以0.05的增量从0.5到0.95进行平均结果示于表5（第4和5行）和输入预训练UCF101HMDB51动力学400没有一75.039.469.9RGB运动1M时刻92.892.468.369.671.071.6Kinetics-60094.973.472.9HACS剪辑95.173.673.4没有一85.256.162.9流运动1M时刻92.794.671.175.363.463.9Kinetics-60096.076.266.7HACS剪辑95.776.567.28675数据集0.50 0.75 0.95平均值ActivityNet [61]43.2628.705.6328.28小型HACS分段24.8916.044.5015.93HACS分段28.8218.805.3218.97表5：ActivityNet和HACS部分的行动建议生成结果。ActivityNet上的BSN结果来自原始工作[35]。其他结果是通过在HACS Segments上运行开源实现获得的。图7：TAG（左）和BSN（右）方法在HACS段上的行动建议生成结果。图7.与TAG相比，BSN实现了更好的AR@100和更好的AUC评分。然而，TAG在图7中的高tIoU阈值0.9处实现了更高的AUC，表明其能够更好地定位动作段边界。比较HACS Segments与ActivityNet。我们使用BSN来比较HACS Segments与ActivityNet上的动作定位难度。虽然 HACS Segments 和 ActivityNet 的验证集大小相似（ 6Kvs 5K 视频），但 HACS Segments 的训练集比ActivityNet的训练集大3.8倍（38Kvs 10K视频）。有一个更公平的比较，我们创建HACS细分迷你，它包含10K训练视频（每类50个视频）和原始的HACS片段验证集。我们在同一数据集的训练和验证分割上训练和测试每个模型（例如，在HACS Segments Mini上训练的模型仅在HACS Segments的验证集上进行测试，而不是ActivityNet的验证集）。如表5所示（第2和3行），与ActivityNet相比，BSN在HACS Segments Mini上实现了低得多的AR@100和AUC这表明HACS Segments Mini是更具挑战性的本地化基准，因为它在每个视频中有更多的片段要本地化，并且这些片段的持续时间较短。请注意，我们不会对在一个数据集上训练并在不同数据集上测试的模型进行实验（例如，在HACS Segments Mini上训练并在ActivityNet上测试），因为动作开始、结束和结束的定义可能会因数据集而异。另一个发现是通过在HACS Segments完整数据集上训练BSN模型，AR@100和AUC提高了1。77%，1。82%在表6：SSN方法对于范围从0.5至0.95的tIoU阈值的动作定位结果指标为mAP（%）。ActivityNet上的结果来自原始工作。通过后期融合RGB和Flow模型的分数获得HACS片段的结果。表5（第4行），这表明较大的训练集会导致更好的准确性。利用HACS剪辑中的负面例子。在HACS剪辑中，我们注释了1M阴性剪辑。由于所提出的剪辑采样方法，它们包括许多硬负的例子，如剪辑的人和上下文都存在，但动作没有发生。我们已经进行了一项消融研究，研究它们如何帮助学习更多有用的功能，以生成行动建议。由于篇幅的限制，本文的结果仅作为补充。5.2. 行动结果本地化我们使用其开源实现在HACS分段上训练和测试结构化分段网络（SSN）[61]。†。结果报告于表6中。与ActivityNet通信，HACS细分市场迷你低 12.35% 。鉴于 ActivityNet 和 HACSSegments Mini具有类似的未修剪视频的数量和持续时间，HACS的挑战性来自精确的片段注释。HACS节段Mini和HACS节段之间的平均mAP间隙为3.04%。这表明训练数据的减少阻碍了动作定位性能，并且我们的全尺寸训练集大幅提高了准确性。6. 结论我们引入了一个新的视频数据集，同时具有稀疏和密集注释。由于HACS Clips的大规模，我们已经证明了在HACS Clips上学习的时空特征的出色泛化性能。与其他本地化数据集相比，HACS Segments不仅更大，而且还通过更精细的时间注释对动作本地化提出了新的挑战。我们希望HACS在动作识别和定位方面提出的新挑战将激发新一代的方法和体系结构，用于对人类动作的高度复杂性进行建模。BSN [35]没有被基准测试，因为它的开源代码没有实现提案分类。方法训练/测试数据集AR@100AUCActivityNet74.1666.17BSN小型HACS分段61.8551.59HACS分段63.6253.41标签HACS分段55.8849.158676引用[1] Takuya Akiba 、Tommi Kerola 、 Yusuke Niitani、 ToruOgawa、Shotaro Sano和Shuji Suzuki。Pfdet：2018年开放图像挑战赛目标检测赛道的第二名解决方案。arXiv预印本arXiv：1809.00778，2018。1[2] Yancheng Bai，Huijuan Xu，Kate Saenko，and BernardGhanem.用于活动检测的上下文多尺度区域卷积3d网络。arXiv预印本arXiv：1801.09184，2018。2[3] Amy Bearman，Olga Russakovsky，Vittorio Ferrari和LiFei-Fei。What’s the point：带有点监督的语义分割。欧洲计算机视觉会议，第549-565页。施普林格，2016年。6[4] 夏马尔·布赫，维克多·埃斯科西亚，伯纳德·加尼姆，李飞飞，胡安·卡洛斯·尼布尔斯.端到端，单流时间- poral动作检测未修剪的视频。英国机器视觉会议（BMVC），2017年。2[5] Shyamal Buch、Victor Escorcia、Chuanqi Shen、BernardGhanem和Juan Carlos Niebles。单流临时行动建议。2017年IEEE计算机视觉和模式识别会议（CVPR），第6373- 6382页。IEEE，2017年。2[6] Fabian Caba Heilbron、Victor Escorcia、Bernard Ghanem和Juan Carlos Niebles。Activitynet：人类活动理解的大规模视频基准。在Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition中，第961-970页，2015年。一、二[7] Joao Carreira 、 Eric Noland 、 Andras Banki-Horvath 、Chloe Hillier和Andrew Zisserman。关于动力学的简短说明-600。arXiv预印本arXiv：1808.01340，2018。6[8] Joao Carreira和Andrew Zisserman。你好，动作识别？新模型和动力学数据集。在IEEE计算机视觉和模式识别会议上，2017年7月。二四六七[9] Yu-Wei Chao ， Sudheendra Vijayanarasimhan ， BryanSey-bold ， David A Ross ， Jia Deng ， and RahulSukthankar.重新思考更快的r-cnn架构用于时间动作本地化。在IEEE计算机视觉和模式识别会议论文集，第1130-1139页，2018年。2[10] DimaDamen 、 HazelDoughty 、 GiovanniMariaFarinella 、 Sanja Fidler 、 Antonino Furnari 、 EvangelosKazakos、Da- vide Moltisanti、Jonathan Munro、TobyPerrett、Will Price和Michael Wray。扩展以自我为中心的愿景：史诗厨房数据集。欧洲计算机视觉会议（ECCV），2018年。2[11] Ce'sarRobertodeSouza ， AdrienGaidon ， YohannCabon 和AntonioManuelL o' pez。程序化生成视频以训练深度动作识别网络。2017. 2[12] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。在计算机视觉和模式识别，2009年。CVPR2009。 IEEE会议，第248-255页。IEEE，2009年。1[13] 马克·埃弗林汉姆卢克放大图片作者：Christopher K. I.Williams，John Winn，and Andrew Zisserman. 帕斯卡8677视觉对象类（VOC）挑战。International Journalof Computer Vision ， 88 （ 2 ）： 303-338 ， June2010. 1[14] 贡纳·法内巴克。基于多项式展开的两帧运动估计图像分析，第363-370页，2003年。6[15] 李飞飞，罗伯·费格斯，皮埃特罗·裴罗纳。对象类别的一次性 IEEE Transactions on PatternAnalysis and Machine Intelligence，28（4）：594-611，2006。1[16] Christoph Feichtenhofer，Axel Pinz，and Richard PWildes.用于视频动作识别的时空倍增器网络。在IEEE计算机视觉和模式识别会议论文集，第4768-4777页7[17] Jiyang Gao，Kan Chen，and Ram Nevatia. Ctap：复杂的临时行动建议生成。arXiv预印本arXiv：1807.04821，2018。2[18] Jiyang Gao ， Zhenheng Yang ， Chen Sun ， KanChen，and Ram Nevatia.Turn tap：Temporal UnitRegressionNe

下载后可阅读完整内容，剩余1页未读，立即下载