视频理解中的统一图结构模型

90 浏览量更新于2023-10-15 收藏 1018KB PDF 举报

视频理解

时空关系

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8117视频理解的统一图结构模型Anurag Arnab Chen Sun Cordelia Schmid谷歌研究{aarnab，chensun，cordelias} @ google.com摘要准确的视频理解涉及通常在长时间间隔上对演员、对象及其环境之间的关系进行在本文中，我们提出了一个消息传递图神经网络，明确地模拟这些时空关系，并可以使用显式表示的对象，当监督可用，否则隐式表示。我们的公式，mulation概括了以前的结构化模型的视频理解，并允许我们研究如何不同的设计，签署选择图结构和表示影响模型的性能。我们展示了我们的方法在两个不同的任务需要关系推理的视频- AVA和UCF 101 - 24上的时空动作检测，以及最近的Action Genome数据集上的视频场景图分类-并在所有三个数据集上实现最先进的结果。此外，我们定量和定性地展示了我们的方法是如何能够更有效地建模场景中的相关实体之间的关系。1. 介绍深度学习已经在许多图像理解任务中实现了快速发展，例如图像分类[20]，对象检测[45]和语义分割[7]。然而，最近的视频理解数据集（如 AVA [17] 和Charades [48]）的进展在比较中落后。由这些数据集构成的视频理解任务的进一步进展将促进在自动驾驶车辆、健康监测和自动媒体分析和制作等方面的应用。视频理解如此具有挑战性的原因是因为，如图所示。1、它需要理解场景中演员、对象和其他上下文之间的交互。此外，这些相互作用并不总是从单个帧可观察到的，并且因此需要在长时间间隔上进行推理。这示于图1，其中仅从目标关键帧不可能理解中心帧中的人的动作。为了知道这个女人在站在说话但已不在现场的人旁边。而要正确地推断出女人是在视频是一个比单个图像更高维的信号，因为它有额外的时间轴，所以我们认为直接从当前的数据集和大型卷积网络中学习这些未标记的交互是不可行的。在本文中，我们提出了一个结构化的图形神经网络显式地模拟这些时空的相互作用。我们模型的演员和对象（显式与绑定框时，我们有监督，和隐式其他明智的）作为节点在我们的时空图和执行消息传递推理，直接建模他们的关系。虽然已经提出了广泛的图形结构模型的动作识别，我们注意到，这些模型一直没有统一的配方。因此，一些作品只对参与者和对象之间的空间关系进行建模[14，53]，而不是这些交互如何随着时间的推移而演变。其他方法对长距离时间交互进行建模[60]，但不捕获空间关系，也不是端到端训练的。虽然一些方法确实对对象的时空交互进行建模[3，59]，但它们对对象的显式表示需要额外的监督，并且不会在时空定位任务上进行评估，而时空定位任务需要详细的理解并且对于分析未修剪的视频是必要的。我们的基于消息传递神经网络[13]抽象的图网络公式化允许我们明确地建模演员，对象和场景之间的交互，以及这些交互如何随时间演变。我们的灵活模型允许我们使用来自预训练区域建议网络（RPN）[45]的显式对象表示，和/或隐式地来自卷积特征图，而无需额外的监督。此外，我们的一般公式允许我们将以前的工作[14，53，59，60，69]解释为特殊情况，从而了解对象表示，图形连接和消息传递功能中的不同设计选择如何影响模型我们在两个不同的任务上展示了我们的通用模型：AVA上的时空动作检测[17]8118............目标关键帧标签：听，开车，坐时间图1：理解视频需要对演员，对象和环境之间的长期时空交互进行推理。考虑到典型的3D CNN架构所考虑的附近帧，中心帧中的女性的动作是模糊的然而，通过考虑她与附近帧中的男人的互动，我们知道她在而她后来握着方向盘的事实表明，她是在“驾驶”，而不是在本文中，我们提出了一个时空图上，我们执行消息传递明确地模拟这些时空的相互作用。来自AVA数据集的示例[17]。和UCF 101 -24 [52]，以及最近Action Genome [23]数据集上的视频场景图预测。这两项任务都需要对场景中的演员和/或对象之间的时空交互进行建模，并且我们显示出使用我们模型的每个组件的一致改进，并在每个数据集上实现最先进的结果。此外，我们观察到，AVA中最大的改进确实是在涉及人与人和人与对象交互的动作类上实现的，并且我们的网络的可视化显示它专注于与其动作分类直观相关的场景上下文2. 相关工作场景关系建模在场景理解中有着悠久的历史。该领域早期工作的相关示例包括建模人与对象之间的交互[18，66]，不同对象[44]以及人类动作与场景上下文之间的关系[40，16]。此外，还表明人类视觉也依赖于上下文[42]。在本文中，我们认为视频理解的任务，特别是时空动作识别和视频场景图解析，其中涉及推理的演员，对象和他们的环境之间的相互作用在空间和时间。动作识别的早期工作使用手工制作的特征来编码运动信息[32，57]。进展在深度学习中，首先看到将用于视频的2D图像卷积神经网络（CNN）重新利用为然而，这些架构集中于提取粗略的视频级特征，并且不适合于学习图1中描绘的细粒度关系。1.一、因此，虽然时空动作检测的初始方法涉及在时间上扩展2D对象检测器[37，45][26，50，1，63]，但是当前领先的动作检测器[37，45][26，50，1，63][26，50，1，64][26，50，1，65][26，50，1，63][26，50，1，64][26，50，1，65][AVA数据集[17]上的方法[14，60，69]都明确地建模关系，我们所展示的方法可以被解释为图神经网络的变体。图神经网络（GNN）通过将实体建模有向或无向图[5，47，29]，它们通过为每个节点定义的邻域进行交互。self-attention [55]和Non-local [58]算子也可以被认为是GNN [5，13]，其中特征映射中的每个元素都是一个节点，并且所有节点都是彼此完全连接的。这种基于注意力的模型在许多自然语言处理和计算机视觉任务中表现出色，并激发了许多后续方法[21，8，9，61，68]。许多结构化模型最近也被用于视频理解。然而，以前没有一致的框架来统一这些方法。因此，一些作品只对参与者和对象之间的空间关系进行建模，而不是这些关系如何随时间演变[53，14]。虽然LFB [60]对长距离时间相互作用进行建模，但它并没有捕获关键帧内的此外，为了对远程交互进行建模，[60]使用预先计算的特征，因此不是端到端训练我们提出的方法基于消息传递神经网络（MPNN）[13]框架，对空间和时间相互作用进行连贯建模。在描述了我们的模型之后。3，我们展示了如何以前的结构化模型动作检测[53，14，59，60，69]可以被认为是我们的模型的特殊情况。此外，我们灵活的模型可以推理对象时，我们有明确的监督，当我们没有。视频理解中的先前工作，其已经提出了不太通用的模型，已经假设了显式对象监督的情况[3，59]或不[53，14，69]，但是没有考虑当两个选项都可用时的场景。此外，我们的一般公式允许我们消融图形建模设计选择，如对象表示，消息传递函数和时间上下文，在这些以前的方式，更具体的方法是不可能的。此外，我们注意到，在视频中采用时空图的一些方法仅考虑了帧到帧的相互作用[22，59，3，39，41，43]，而不是长距离关系，并且没有评估需要更详细理解8119时空图构造与消息传递读出功能，RT N S ∪ TSN∈VG≥vvvWSvu不3D CNN坐，摸（物体），看（人），听（人）坐，触摸（物体），看（人），说话（人）坐着、接电话、拿/拿东西前景节点隐式上下文显式上下文图2：我们的方法概述：我们构建了一个时空图，并在其上执行消息传递推理，以建模演员，对象和他们的环境之间的交互。前景节点（圆圈）具有与它们相关联的用于感兴趣的任务的读出函数（即对于动作识别，节点表示被分类为动作的人边界框）。上下文节点（正方形）对附加信息进行建模，并且可以是隐式的，作为原始特征图的单元格，或者通过ROI池化外部区域提议（RPN [45]为清楚起见未显示每个节点的初始状态是从3D CNN提取的时空特征向量并且对于分析未修剪的视频是必要的。我们还注意到，场景图解析[25，30]是另一个任务，其通过将对象表示为图中的节点并将关系表示为边来评估模型尽管该任务最初是针对单个图像[30]提出的，但最近的Action Genome [23]数据集扩展了该任务通过添加注释到Charades视频[48]。虽然基于GNN的方法也已用于单个图像的场景图解析[10，33，62，64]，但据我们所知，它们尚未应用于对视频中的此外，相同的模型也没有被证明像我们的方法的时空动作识别3. 该方法我们的模型旨在通过将视频表示为场景中的演员，对象和上下文元素的图形来构建视频的结构化表示，如图所示。二、然后使用这种结构化表示来执行任务这就需要理解cuss如何以前的结构化模型的视频理解[14，53，59，60，69]可以被视为我们的模型的具体三点六3.1. 消息传递神经网络MPNN在有向或无向图上操作，该有向或无向图由节点v和每个节点v的邻域组成，该邻域定义了图对于视频模型，我们区分空间、V和时间。10 -12- 1v=v v）。每个节点v与潜在状态hv相关联。该模型中的推理由消息传递阶段和最终读出阶段组成。在消息传递阶段中，首先通过将空间和时间消息传递函数Ms和Mt分别应用于其邻域中的所有节点来计算每个节点的消息，如等式（1）中所描述的（一）. 然后，更新函数U聚集所接收的消息以更新潜在状态h，v。mi+1=ΣMs（hi，hi;θi）+ΣMt（hi，hi;θi）（1）w∈Svu∈Tv图中的元素，例如动作识别i和场景hi+1=U（mi+1，hi），（2）v v v图预测请注意，我们并不假设我们有-相关场景上下文的符号。我们的方法基于消息传递神经网络（MPNN ）[13]，因为它是一个灵活的框架，可以生成许多以前的图神经网络算法[4，5，29，56]。3.1，在详细说明我们的模型从3.2到3.5最后，我们发现-其中θ表示可学习的函数参数。直观地，通过聚合从其邻居传递的消息来更新节点的状态hv。最后，在消息传递的I1次迭代之后，读出函数R使用更新的节点特征用于感兴趣的分类任务y= R（{hi}|v ∈ G）。（三）8120FFFC∈FC{}F {}∈TJ如示于图2，我们的图由一组“前景”节点组成，=f1，f2，. . .，fn和“上下文”节点，i = c1，c2，. . . 其中n和m针对每个视频而变化。 “前景”节点具有与其相关联的对于动作识别的任务，对应于关键帧中每个演员的边界框。而对于场景图预测，是指所有潜在感兴趣对象的边界框。“上下文”节点捕获从场景提取的接下来将详细介绍这些节点的表示及其空间连接性3.2. 空间模型我们的图模型中的空间连接关系-船舶演员，对象和场景上下文在同一帧。例如，在AVA数据集中识别诸如“将对象给人”的动作为了对这种相互作用进行建模，我们首先表示我们模型的前期节点，通过从网络的最后一层提取卷积特征，XRt×h×w×c，并使用ROI-Align [19]，然后进行时空池化和线性投影以获得fi∈Rd。前景上下文帧图3：时间连接性的图示。前景（蓝色）和上下文（绿色）节点具有从以关键帧（由黑色圆圈表示）为中心的τ t帧（黄色阴影）上的时空特征计算的初始状态。τs控制选定关键帧之间的距离; τc是所考虑的关键帧总数。这里，τc=3，τs=7帧，τt= 5帧。3.3. 时间模型我们还在我们的图中包括时间连接，以模拟演员和对象之间的远程交互。如图1，理解动作通常需要对在当前框架中不再可见的行动者进行推理，因此需要大的时间上下文。我们通过将关键帧t中的前景节点与相邻关键帧t’中的所有其他前景节点连接来对这些时间交互进行建模。具体地，我们定义时间上下文τc和时间步长τs超参数。如图在图3中，τc是我们在时间图中考虑的视频中的关键帧的总数τs是我们选择关键帧的采样率，因为τs彡1允许我们考虑更宽的时间间隔。我们模型场景上下文考虑的特点在我们的图中，特征图X中的每个空间位置作为上下文节点ci注意，这些特征被投影到Rd。[53]使用了类似的表示，我们将其称为隐式对象模型，因为它使网络能够在没有任何额外监督的情况下编码有关场景和相关对象的信息。这种方法也被称为还可以通过使用区域提议网络（RPN）[45]计算类不可知的对象提议来用显式对象表示来增强我们的上下文节点集合我们使用在OpenImages数据集[31]上预训练的RPN，并通过使用ROI-Align和线性投影从每个提案中获得d维特征。以计算上更有效的方式来计算间隔这是这是训练整个模型端到端所必需的此外，由于图中的每个前景特征节点f1本身是由3D CNN在τt的时段上计算的时空特征，因此选择相邻关键帧（并且有效地设置τs=1个关键帧）可能导致冗余信息被图中的时间连接捕获请注意，我们对关键帧的定义遵循常见数据集[17，23]，作为我们旨在对给定的周围时间上下文进行分类的帧更正式地，我们可以将用于时间消息传递的每个前景节点v的邻域描述为[τc/2前台节点。在视频中使用显式对象表示的类似想法也已经由[3]和[4]采用。Tv= ）t=−[τc/2¶Ft·τs。（五）[59]虽然不是用于时空动作识别。然后计算消息并将其从图中的前台节点和上下文节点传递到前台节点。我们仅在消息传递期间更新前台节点，因为这些是随后在最终读出阶段中被分类的节点具体地，我们的图中每个前景节点的空间邻域是Sv=F ∪ Cv∈ F.（四）这里，我们使用上标来表示时间索引，并且不失一般性地认为t=0是中心关键帧，这意味着负时间索引对应于过去的帧。我们将τc设置为奇数正整数，以在中心关键帧的任一侧上采用相等大小的时间窗口我们首先执行空间消息传递，在传递消息之前暂时。这允许来自帧t’中的上下文节点的信息有效地传播到帧t’中的上下文节点。伊普⚫⚫⚫8121FNSNT∈∈. .ΣΣ√dvIJ一IjJ/≥通过ft’连接前景节点ft（其中t = t’），因为前景节点在时间上是完全连接的。下面的部分现在描述沿着上述图传递的消息。3.4. 消息传递函数我们首先观察到，非局部算子或自我注意力[55，58]可以被认为是全连接图中的消息传递函数，其中每个节点hv是输入特征图H中的元素，并且邻域包括所有其他特征元素。并且由于自注意力与残差连接[58，55]和层归一化[2，55]一起使用，因此当被视为MPNN时，非局部的更新函数为U= LN （ hv+ 自我注意（ H ））。（六）类似的分析[5，13]已经表明，图注意力网络（GAT）[56]、关系网络[46]和许多其他图神经网络[47，29，35，4]也可以被解释为MPNN。在本文中，我们将非局部[58]和图形注意力（GAT）[56]视为更新函数中的消息传递函数，方程：（六）、我们修改Non-local [58]以将来自所有前景和上下文节点的消息仅传递到前景节点（等式10）。4），因为这些是用于读出阶段中的最终分类的节点，. QKT Σ3.5. 读出功能在消息传递的11次迭代之后，在前景节点上应用读出函数以获得最终预测。对于动作检测，读出函数是对的每个元素进行操作的线性分类器，其中每个前景节点f1对应于关键帧中的演员的特征对于场景图预测，读出函数由两个分类器组成：第一线性分类器预测每个前景节点的对象类标签第二个是每对前景节点的函数，并预测它们之间的关系标签3.6. 讨论我们注意到，许多先前的用于视频理解的结构化模型可以被认为是我们提出的MPNN框架的特殊情况Girdhar等人[14]仅考虑空间模型，即，=，使用隐式对象和Non-local [59]进行消息传递。ACRN [53]具有相同的图形结构，但使用关系网络[46]进行消息传递。相比之下，LFB [60]只考虑了一个时间模型，即： =，使用Non-local作为ME-在时间上完全连通的图中的sage传递函数。然而，[60]不考虑空间模型来捕获关键帧中的演员之间的交互。Zhang等人[69]，另一方面，模型的时间和空间的连接。然而，它们有效地模拟了三个单独的图表：第一个模型演员在短，3秒Q= AWqK =[A||C] WkV=[A||[C]Wv.这里，ARn×d和CRm×d是矩阵，其中每行分别是前景和上下文特征节点，M是A中每个节点接收的消息的Rn×d矩阵，[A||表示这些矩阵的级联，并且Wq、Wk和Wv是可学习的d×d投影矩阵。图注意力（GAT）节点v的图注意力[56]消息计算为m=σΣαWh（8）j∈Nvtubelets使用GCN [29]进行消息传递。其他两个图使用类似于GAT [56]的消息传递方法来建模演员-演员和演员-对象关系，但是使用手动定义的加权函数，而不是如GAT中的学习加权函数（等式10）。第9段）。Wang等人[59]还使用用于消息传递的GCN和空间模型中的显式对象表示来建模时空图然而，它们的时间连接仅在相邻帧之间，这不允许长序列中的所有帧之间的信息传播，与我们的模型完全连接的时间相反。有了我们统一的框架我们研究了图形建模设计选择的效果，并在第二节中展示了我们如何超越以前的工作。4.第一章αij=SoftmaxσwbT[hi||（9）其中σ是ReLU非线性，并且Wa和Wb分别是可学习的矩阵和向量并行消息还可以针对节点h，v并行计算多个传入消息。当使用多个非局部或图形注意力功能时，这对应于多头注意力[55，56]。通过将Non-local和GAT视为消息传递函数，我们还可以从这两个函数的组合中聚合消息。在这些情况下，我们使用注意力加权的凸组合来聚合消息，如在等式2中执行的。（九）、4. 实验我们评估我们的方法时空动作识别我们在AVA [17]上进行评估，AVA是该任务的最大数据集，由从电影中获得的15分钟视频剪辑组成，UCF 101 - 24 [52]是该任务的先前标准基准AVA被标记为原子动作，其中一个人通常同时执行多个动作，而另一个人通常同时执行多个动作。M=Softmax第五章（七）8122×个表1：使用3D ResNet 50骨架对Action Genome进行的实验。我们消融（a）不同的空间消息传递函数，（b）图中的时间连接和（c）消息传递的迭代（d）与[23]报告的现有方法的比较(a) 消息传递函数SGClsR@20(b) 时态图结构时间参数SGClτcτsR@20(c) 消息传递迭代迭代SGClsR@20(d) 与现有方法的SGCls PredCls R@20R@50 R@10 R@20在UCF 101 -24中，tors只执行一个高级操作。我们遵循标准协议，并在两个数据集上以0.5的IoU阈值对于AVA，我们使用v2.2注释进行消融，并使用v2.1或v2.2注释与先前工作进行公平比较。视频场景图预测我们在最近的Action Genome数据集[ 23 ]上进行评估，该数据集将场景图注释添加到Charades [48]，关于两个场景图任务：场景图分类（SGCls）和谓词分类（PredCls）。这两个任务都使用标准的Recall@K度量[38，23]（R@K）进行评估，该度量测量了出现在前K得分预测三元组中的地面真实关系三元组（主语-谓语-宾语）的分数在SGCl中，给出了地面实况边界框坐标，并且目的是预测它们的对象类以及对象对之间的关系标签PredCls更简单，因为给出了边界框坐标和对象类，并且仅必须预测关系标签。实施细节我们使用SlowFast [ 11 ]的公共实施作为我们与3D ResNet 50或ResNet 101主干[ 20 ]的基线，因为它是当前最先进的。该网络类似于Fast-RCNN [15]，因为它使用外部区域建议使用ROI对齐[ 19 ]从res 5的最后一个特征图中提取特征。然后，这些特征被空间-时间地汇集和分类。在我们的图形模型中，我们使用这些ROI对齐的res5特征来初始化我们的前景节点的内部状态hi对于我们的动作检测实验，我们的图中的前景节点对应于演员的边界框，并且我们使用与[11，60]相同的人检测器用于我们的演员区域提案。对于场景图实验，当我们评估场景图分类（SGCls）和谓词分类（PredCls）时，我们使用人和对象的地面真值框作为我们的前景节点除非另有说明，我们使用SlowFast8 - 8，对应于32个输入帧，其中视频被二次采样，由一个因子2。这意味着图中的每个特征节点h，i聚合τ t=2。当视频以每秒30帧（fps）采样时，AVA上的1秒时间信息。由于AVA中的关键帧被定义为1 fps，这意味着我们需要为tem设置τs≥2个关键帧由图中的时间相邻节点捕获的部分信息不重叠。对于Action Genome，Charades视频以24fps采样，并且关键帧平均为0.85秒，或间隔20.5帧。我们在8个GPU上使用同步SGD训练我们的网络20个epochs，总批量大小为64，初始值为- 来自Kinetics-400 [28]预训练模型。我们所有实验中的基线模型都是SlowFast，没有以相同方式训练的任何图形模块当训练时空图模型时，我们从仅用空间图训练的模型中微调10个时期，并将批量大小减少τc的因子。我们还完整的培训详情见补充资料。4.1. 视频场景图预测空间消息传递我们首先仅消融空间组件（第二节）。3.2）在Tab中的模型。1a.图注意力（GAT）[56]作为消息传递函数比非本地[55，58]表现稍好，并且我们通过并行组合这两种方法获得了进一步的小改进第3.4段）。总的来说，我们在我们的基线模型（其是基于ResNet 50的SlowFast而没有任何图形建模）上改进了SGCl上的R@20的2.4个点。另一个基线是在最终res5层之后和ROI对齐层之前插入非局部层[58]，因为非局部也可以被视为图形网络（第2节）。第3.4段）。在这种情况下，前景和上下文节点没有像我们的方法中那样明确地建模，并且对于SGCl的R@20，整体性能比我们的方法低2.2个点。这表明，明确建模的前-地面节点，随后分类是重要的性能。然而，我们注意到，Non-Local [58]通常在网络中较早使用（即在res3或res4 [58，60，11]中），因此可以被视为改进网络学习的特征的补充方法。时间消息传递表1b增加了时间连接（第3.3）到我们的模型，使用GAT进行消息传递，因为它在Tab中优于Non-local。1a.我们观察到一致的改进，为广泛的时间背景，τc，和步幅，τs，显示建模的效用基线48.9仅空间51.1151.1MSDN [34]44.047.2--骨干网中非本地49.1332552.953.3251.6研究药物[62]44.147.4--非本地50.43753.5351.6RelDN [67]46.749.4--GAT51.1552553.453.8551.8SlowFast（ResNet50）48.951.378.793.8GAT +非本地51.35753.6我们的（ResNet 50）53.856.079.394.28123表2：使用具有ResNet-50骨干作为基线的SlowFast对AVA通过改变邻域，我们研究了对象表征（隐式，显式或无）和时间连接的效果我们报告的三种类型的行动类AVA的框架mAP。表3：AVA比较。我们使用v2.1和v2.2标签报告平均AP。所有方法都在Kinetics 400上进行了预训练。方法v2.1v2.2表4：与UCF 101 -24的最新技术水平的比较我们使用[50]的校正注释报告0.5处的帧AP。消息传递邻域人类-人类人-物体所有[53] 2013年12月17Zhang等人（R50）[69] 22.2慢快基线（无）43.1 25.2 17.4 24.8仅演员43.2 27.0 17.8 25.6仅隐式对象43.4 26.7 18.0 25.7仅显式对象43.0 26.7 17.8 25.5演员+隐含43.4 26.8 18.3 25.9慢快基线（R50）24.5 24.8Girdhar等人（I3D）[14] 25.0我们的（R50）26.5 27.0我们的多尺度（R50）27.3 27.7慢快基线（R101）26.3 26.7LFB（R101）[60] 26.8演员+隐含+显式43.7 27.0 18.4我们的（R101）28.3 28.8LFB Multiscale（R101）[60] 27.7时空43.8 27.5 19.9 27.0我们的多尺度（R101）29.5 30.0时间动力学对于R@20，我们改进了仅具有空间连接的图多达2.7个点。对于时间模型，要考虑的另一基线是通过增加输入处的帧的数量来简单地增加仅空间图模型可用的时间信息。当输入帧的数量增加三倍时，R@20为52.4，小于我们的时间模型的所有变体，其中τc=3。类似地，增加输入帧5倍，R@20是52.8，低于我们所有的节奏-τc=5的ral模型。这种改进证明了在显式时态图上传递消息的好处。消息传递的迭代表1c示出了模型最后，我们比较了以前的作品在选项卡。1d，它们是由[23]评估的单图像模型我们的SlowFast，ResNet 503D基线超越了这些，显示了使用时空特征进行此任务的重要性。由于动作基因组包含人类根据脚本行动的视频，因此在场景中的演员和对象之间的交互中存在时间结构（图12）。（六）。我们最终的时空图结构化模型在这个基线上大幅提高了4.9和4.9。SGCl的R@20和R@50分别为4.7分我们对PredCls基线的改进较少，因为这项任务更容易，性能饱和。4.2. 动作识别图结构和对象表示表2比较了改变将消息传递到随后分类的每个前景节点的邻域的效果。我们报告了AVA[17]中三种类型的动作类别的性能-3.2），也有时间上的联系。我们的SlowFast基线不对任何显式图进行建模，因此有效地执行无消息传递。为在我们的AVA实验中，图中的前景节点对应于场景中演员的边界框，使用与[60，11]相同的人检测因此，在本节中，我们从Tab的第二行观察。2，仅在参与者节点之间传递消息（并且因此不建模对象交互）提供了0.8分的总体改进。如预期的，最大的增益是针对人-人动作类，因为这些是通过在图中的参与者节点之间传递消息而当将消息从隐式上下文节点传递到参与者（第三行）时，我们观察到所有类型的动作类都有改进，但主要是在Human-Human和Human-Object类中。这是因为隐式上下文节点包含整个特征图，并且因此捕获关于整个场景的信息（也如图1B中所示）4）.使用外部区域方案（第四行）显式地对对象进行建模，可以改进与隐式对象模型相同的操作类型这表明我们在OpenImages [31]上训练的RPN无法检测到对AVA动作最具辨别力的对象由于AVA中未提供对象注释，因此无法评估我们对相关对象的外部区域提议的召回目前还不清楚我们是否应该期望显式对象有更多的改进，因为尽管以前的工作已经考虑了隐式[14，53，69]和显式表示[3，59]，但我们不知道有任何人比较了两者。请注意，这些显式上下文节点也对人与人之间的交互进行建模，因为我们的RPN是在OpenImages [31]中对人进行训练的。我们通过组合来自参与者、隐式和显式上下文节点的消息来获得进一步的改进最后，我们评估我们的时空模型，它传递来自参与者、隐式和显式上下文的具有τc=3和τs=3的节点，对应于8.5秒的总时间窗口。该模型表现最好，在基线基础上提高了2.2分，或相对提高了8.9%。特别是，时间连接有助于改进人-对象动作类。构成方法模态平均前后ACT [26]RGB +流69.5Song等人[五十一]RGB +流72.1步骤[65]RGB +流75.0Gu等人[17个]RGB +流76.3MOC [36]RGB +流78.0慢速快速（R50）RGB76.6慢速快速（R101）RGB77.4我们的（R50）RGB78.68124(a) 与人交谈（0.6），坐着（0.92），看着人（0.81）（b）听人说话（0.9），看着人（0.89），坐着（0.97）（c）携带/持有（1.0），坐着（0.88）图4：使用隐式对象时空间消息传递的可视化，详见第2节。四点三。请注意，在（a）和（b）中，当动作是“与之交谈”时，网络聚焦于所选择的参与者（由左侧的绿色框表示），当动作是“听人说话”时，网络聚焦于与他说话的人。注意力权重αij根据最右侧的条进行颜色编码。最好用颜色看。与人交谈（0.85），看人（0.82），坐着（0.51）图5：如在第2.2节中详细描述的时间图的可视化四点三。我们在中间的关键帧中显示了红框所描绘的演员的邻居，并使用其注意力权重（αij）对相应的框进行颜色编码。红色演员的预测动作得分如下，并且选择的关键帧为τs= 2。间隔1秒。请注意，模型聚焦于演员两侧的人2个关键帧（4.2秒），以识别她正在“与他们交谈”和“观看”他们。侧的不接触不看不看不接触面前面前看着不接触人表笔记本索法库奇电视面前上述笔记本看着不接触感人不接触看着人面前下方表背后坐在不看不看索法库奇侧的图6：Action Genome [23]的连续关键帧的示例场景图预测。分类的边界框在顶部，相应的场景图（对象显示为彩色矩形，关系为浅蓝色椭圆形）在下面。AVA是一个长尾数据集，我们模型的所有变体中最常见的然而，我们的模型相对于基线在头部和尾部类上都有所这一点，以及详细的每类结果，在补充。AVA的最新技术水平比较表3与最近发表的关于AVA的工作进行了我们的方法建立在SlowFast [11]作为基础架构的基础上，我们的图模型显示了3D ResNet 50或ResNet 101主干的实质性改进如第3.6，Gird-har等人[14]和LFB [60]可以被认为是我们的图模型的特殊情况，因为它们分别仅对空间和时间边缘进行建模。我们的方法，它构建了一个时空图，优于两者。请注意，我们在ResNet 50和ResNet 101主干上的表现优于LFB [60]。Zhang等人[69]也对时空交互进行建模，但使用三个单独的图形，并使用手工制作的聚合函数，我们也将其排除在外。用我们单一的、连贯的时空图来执行。UCF 101 -24的最新技术水平比较表4显示，我们使用3D ResNet 50或ResNet 101主干，在UCF 101 -24 [52]上的表现优于最近发表的工作。我们这样做没有使用光流作为额外的输入模态，表明我们的网络可以在没有它的情况下捕获时间信息。此外，从我们的图模型中获得的改进与我们在Action Genome和AVA数据集上的结果一致。4.3. 定性结果我们可视化的空间和时间的消息接收的演员节点在图中，在AVA数据集，当使用- ING GAT作为消息传递函数。特别地，我们在（9）中可视化每个隐式对象节点上的注意力权重α ij（图12）。4）和演员在相邻的关键帧（图。5），对于一个给定的演员。我们观察到，网络将更多的权重放在直观上与最终动作预测一致的图节点例如图4、当演员的动作是“说话”时，模型聚焦于演员的面部，当演员的动作是“听”时，模型聚焦于另一个人的面部。最后图6示出了示例场景图预测。补充资料中有更多的例子5. 结论和未来工作我们提出了一种新的时空图神经网络框架，以显式地建模之间的相互作用的演员，对象和他们的环境。我们的公式可以隐式或显式地对对象进行建模，并将先前的结构化模型推广到视频理解[14，53，60，69]。使用我们的通用方法，我们在三个数据集的两个不同任务上取得了最先进的结果。未来的工作仍然是利用显式对象表示更有效地对AVA。8125引用[1] Anurag Arnab，Chen Sun，Arsha Nagrani，and CordeliaSchmid.Uncertainty awareweaklysupervisedactiondetection- tion from untrimmed videos. 在 ECCV ， 2020年。二个[2] Jimmy Lei Ba，Jamie Ryan Kiros，Geoffrey E Hinton.层归一化。在arXiv预印本arXiv：1607.06450，2016。五个[3] Fabien Baradel 、 Natalia Neverova 、 Christian Wolf 、Julien Mille和Greg Mori。视频中的对象级视觉推理。在ECCV，2018。一、二、四、七[4] Peter Battaglia ， Razvan Pascanu ， Matthew Lai ， andDanilo Jimenez Rezende.交互网络，用于学习物体，关系和物理。InNeurIPS，2016. 三、四、五[5] Peter W Battaglia，Jessica B Hamrick，Victor Bapst，Al-varo Sanchez-Gonzalez ， Vinicius Zambaldi ， MateuszMa- linowski，Andrea Tacchetti，David Raposo，AdamSan- toro，Ryan Faulkner，et al.关系归纳偏差、深度学习和图网络。在 arXiv 预印本 arXiv ： 1806.01261 ，2018。二三五[6] Joao Carreira和Andrew Zisserman。你好，动作识别？新模型和动力学数据集。在CVPR，2017年。二个[7] Liang-Chieh Chen，Yukun Zhu，George Papandreou，Florian Schroff，and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。在ECCV，2018。一个[8] Yunpeng Chen，Yannis Kalatidis，Jianshu Li，ShichengYan，and Jianshi Feng. A 2-nets：双重注意网络。NeurIPS，2018。二个[9] Yunpeng Chen，Marcus Rohrbach，Zhicheng Yan，YanShuicheng，Jiashi Feng，and Yannis Kalantidis.基于图的全局推理网络。在CVPR，2019年。二个[10] Bo Dai，Yuqi Zhang，and Dahua Lin.用深层关系网络检测视觉关系。在CVPR，2017年。 3[11] Christoph Feichtenhofer ， Haoqi Fan ， Jitendra Malik ，and Kaiming He.用于视频识别的慢速网络。在ICCV，2019年。六七八[12] Christoph Feichtenhofer，Axel Pinz，and Richard Wildes.用于视频动作识别的时空残差网络。InNeurIPS，2016.二个[13] Justin Gilmer、Samuel S Schoenholz、Patrick F Riley、Oriol Vinyals和George E Dahl。量子化学的神经信息传递。ICML，2017。一、二、三、五[14] Rohit Girdhar ， Joao Carreira ， Carl Doersch ， andAndrew Zis-serman. 视频行动 Transformer 网络。在CVPR，2019年。一二三五七八[15] 罗斯·格希克。快速R-CNN。在ICCV，2015年。六个[16] Georgia Gkioxari Ross Girshick 和 Jitendra Malik 。用 r*cnn进行上下文动作识别。在ICCV，2015年。二个[17] Chunhui Gu ， Chen Sun ， David A Ross ， CarlVondrick，Caroline Pantofaru，Yeqing Li，SudheendraVijayanarasimhan ， George Toderici ， Susanna Ricco ，Rahul Sukthankar，et al. Ava：时空局部

下载后可阅读完整内容，剩余1页未读，立即下载