小管变换器：视频动作检测的新方法

148 浏览量更新于2023-10-25 收藏 22.06MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

135980TubeR：用于视频动作检测的小管变换器0赵娇娇1*，张燕翼2*，李新宇3*，陈浩3，帅冰3，徐明泽3，刘春晖3，昆杜3，熊元军3，达维德∙莫多洛3，伊万∙马尔西奇2，Cees G.M. Snoek1，JosephTighe301阿姆斯特丹大学2罗格斯大学3AWS AI实验室0摘要0我们提出了TubeR：一种简单的时空视频动作检测解决方案。与现有方法不同，它不依赖于离线的演员检测器或手动设计的演员位置假设，如提议或锚点，而是提出了一种直接在视频中检测动作小管的方法，同时执行动作定位和识别。TubeR学习一组小管查询，并利用小管注意力模块来建模视频剪辑的动态时空特性，与在时空空间中使用演员位置假设相比，有效地增强了模型的容量。对于包含过渡状态或场景变化的视频，我们提出了一个上下文感知的分类头部，利用短期和长期上下文来加强动作分类，以及一个动作切换回归头部，用于检测精确的时间动作范围。TubeR直接生成可变长度的动作小管，甚至对于长视频剪辑也能保持良好的结果。TubeR在常用的动作检测数据集AVA、UCF101-24和JHMDB51-21上超过了先前的最先进方法。代码将在GluonCV（https://cv.gluon.ai/）上提供。01. 引言0本文解决了视频中时空人体动作检测的问题[3, 17,39]，这在先进的视频搜索引擎、机器人技术和自动驾驶汽车中起着核心作用。动作检测是一个复合任务，需要定位每一帧的人物实例，将这些检测到的人物实例链接成动作小管，并预测它们的动作类别标签。文献中有两种流行的时空动作检测方法：帧级检测和小管级检测。帧级检测方法在每一帧上独立地检测和分类动作[14, 29,32]，然后将每帧的检测结果链接成连贯的动作小管。为了弥补缺乏时间信息的不足，有几种方法简单地重复使用2D提议[12, 15, 35]或离线人物检测[9, 28, 37,43]来获取时空特征（图1左上角）。另一种小管级检测方法[16, 19,0*同等贡献并在AWS AI实验室工作0t0击剑0t0TubeR0人物检测0对固定动作位置的假设0序列到序列无检测器无提议无假设0对长方体锚点的假设0长方体优化0t0锚点0图1.TubeR以视频剪辑作为输入，直接输出小管：一系列边界框及其动作标签。TubeR在没有人物检测器、锚点或提议的情况下端到端运行。0方法简单地重复2D提议[12, 15, 35]或离线人物检测[9, 28,37,43]来获取时空特征（图1左上角）。或者，小管级检测方法[16, 19,026, 33, 45,49]，直接从视频剪辑中生成时空体积，以捕捉动作的连贯性和动态性质。它们通常通过时空假设同时预测动作的定位和分类，例如3D长方体提议[16,19]（图1右上角）。不幸的是，这些3D长方体只能捕捉到很短的时间段，而且当人的空间位置随着他们的移动或摄像机运动而改变时。理想情况下，这类模型应该使用灵活的时空小管，可以在较长的时间内跟踪人物，但是这样的参数化的大配置空间限制了以前的方法只能使用短的长方体。在这项工作中，我们提出了一种能够以灵活的方式同时定位和识别动作小管的小管级检测方法，允许小管随时间改变大小和位置（图1底部）。这使得我们的系统能够利用更长的小管，从而在更长的时间内聚合人物和他们的动作的视觉信息。我们从自然语言处理（NLP）中的序列到序列建模，特别是机器翻译[21, 24, 36,40]，以及其在目标检测中的应用DETR[4]中获得灵感。作为一个检测框架，135990DETR可以简单地应用于帧级动作检测方法，但是基于DETR构建的变压器框架的强大之处在于其能够在序列上生成复杂的结构化输出。在自然语言处理中，这通常以句子的形式呈现，但在本文中，我们使用解码器查询的概念来表示视频序列中的人物及其动作，而不必将管道限制为固定的立方体。我们提出了一种称为TubeR的管道变压器，用于从单个表示中定位和识别动作。在DETR框架[4]的基础上，TubeR学习一组管道查询，以从时空视频表示中提取特定于动作的管道级特征。我们的TubeR设计包括一种专门的空间和时间管道注意力，允许我们的管道在空间位置和时间尺度上不受限制，从而克服了仅限于立方体的先前方法的局限性。TubeR在时间上联合回归管道内的边界框，考虑到管道之间的时间相关性，并在管道上聚合视觉特征以进行动作分类。这个核心设计已经表现出良好的性能，优于许多先前的模型设计，但仍然没有改进使用离线人物检测器的帧级方法。我们假设这部分是由于我们基于查询的特征缺乏更全局的上下文，因为仅仅通过观察单个人物很难对涉及‘听’和‘说’等关系的动作进行分类。因此，我们引入了一个上下文感知的分类头，除了管道特征外，还使用完整的剪辑特征，从中我们的分类头可以获取上下文信息。这个设计使网络能够有效地将人物管道与出现管道的完整场景上下文相关联，并在我们的结果部分单独显示其有效性。这个设计的一个限制是上下文特征仅来自我们的管道所占据的相同剪辑。已经证明[43]，还包括长期的上下文特征对于最终的动作分类也很重要。因此，我们引入了一个受[44]启发的记忆系统，用于压缩和存储管道周围视频内容的上下文特征。我们使用相同的特征注入策略将这个长期的上下文记忆传递给我们的分类头，并再次显示这相对于仅有短期上下文的重要改进。我们在三个流行的动作检测数据集（AVA [15]，UCF101-24[34]和JHMDB51-21[18]）上测试了我们的完整系统，并展示了我们的方法可以胜过其他最先进的结果。总之，我们的贡献如下：01. 我们提出了TubeR：一种基于管道级变压器框架的人体动作检测方法。02.我们的管道查询和基于注意力的公式能够生成任意位置和尺度的管道。03.我们的上下文感知分类头能够聚合短期和长期的上下文信息。04. 我们在三个具有挑战性的动作检测数据集上呈现了最先进的结果。02. 相关工作0帧级动作检测。视频中的时空动作检测有着悠久的传统，例如[3, 15, 17, 28, 29, 37, 39,42]。受深度卷积神经网络在目标检测中的应用启发，帧级方法[29, 31, 32,42]极大地改进了视频中的动作检测。这些方法通过每帧应用2D位置假设（锚点）或离线人物检测器在关键帧上定位演员，然后更加注重改进动作识别。它们通过使用光流的额外流来融入时间模式。其他方法[12, 15,35]应用3D卷积网络来捕捉时间信息以识别动作。Feichtenhofer等人[9]提出了一种慢快网络，以更好地捕捉时空信息。Tang等人[37]和Pan等人[28]提出了明确建模演员和物体之间关系的方法。最近，Chen等人[5]提出了从单个骨干网络端到端训练演员定位和动作分类的方法。与这些帧级方法不同，我们的目标是进行管道级视频动作检测，使用统一的配置同时进行定位和识别。管道级动作检测。以管道为表示单元进行动作检测[23, 26, 33, 45,49]自从Jain等人[17]提出以来就变得流行起来。Kalogeiton等人[19]在每帧上重复2D锚点以汇集ROI特征，然后将逐帧特征堆叠起来预测动作标签。Hou等人[16]和Yang等人[45]依赖于精心设计的3D立方体提议。前者直接检测管道，后者逐步改进3D立方体提议。除了盒子/立方体锚点，Li等人[26]通过依赖中心位置假设来检测管道实例。基于假设的方法在处理长视频剪辑时存在困难，正如我们在介绍中讨论的那样。我们通过学习一小组管道查询来补充管道传统。我们将动作检测任务重新定义为序列到序列学习问题，并明确建模管道内的时间相关性。我们的方法能够处理长视频剪辑。基于变压器的动作检测。Vaswani等人[40]提出了用于机器翻译的变压器，很快成为序列到序列任务中最流行的骨干网络，例如[21, 24, 36]。最近，它在目标检测[4, 50]、图像分类[6,46]和视频识别[7, 10,47]方面取得了令人印象深刻的进展。Girdhar等人[13]提出了一种用于检测动作的视频变压器网络。他们应用区域提议网络进行定位。变压器用于进一步处理。!FFN$×&'()×4$×&'()"1"2T ′H′W ′C′136000通过聚合周围时空上下文中的特征来进一步提高动作识别的性能。我们提出了一种统一的解决方案，可以同时定位和识别动作。03. TubeR的动作检测0在本节中，我们介绍了我们的TubeR，它以视频剪辑作为输入，直接输出tubelet：一系列边界框和动作标签。TubeR的设计灵感来自基于图像的DETR[4]，但它重新构建了变换器架构，用于视频中的序列到序列建模（Figure2）。给定一个视频剪辑I∈RTin×H×W×C，其中Tin、H、W、C分别表示帧数、高度、宽度和颜色通道，TubeR首先应用3D骨干提取视频特征Fb∈RT'×H'×W'×C'，其中T'是时间维度，C'是特征维度。然后利用变换器编码器-解码器将视频特征转换为一组tubelet特定特征Ftub∈RN×Tout×C'，其中Tout是输出的时间维度，N是tubelet的数量。为了处理长视频剪辑，我们使用时间下采样使得Tout

下载后可阅读完整内容，剩余1页未读，立即下载