视频Transformer：预测未来视频动作的注意力机制模型

39 浏览量更新于2023-10-14 收藏 1.03MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

13505宽视频TransformerRohit Girdhar†Kristen Grauman†‡德克萨斯大学奥斯汀分校（University of Texas， Austin）http://facebookresearch.github.io/AVT摘要我们提出了预期的视频Transformer（AVT），端到端的注意力为基础的视频建模架构，出席以前观察到的视频，以预测未来的行动。我们联合训练模型来预测视频序列中的下一个动作，同时还学习预测连续未来帧特征的帧特征编码器与现有的时态聚合策略相比，AVT具有既保持观察到的动作的顺序进展，同时仍然捕获长程依赖性的优势，这两者对于预期任务都是至关重要的。通过广泛的实验，我们发现AVT在四个流行的动作预期基准测试中获得了最佳的报告性能： EpicKitchens-55 、 EpicKitchens-100 、 EGTEAGaze+和50-Salads;它赢得了EpicKitchens-100 CVPR'21挑战赛的第一名。1. 介绍预测人类未来的行为是人工智能系统的一项重要任务。考虑在停车标志处的自动驾驶车辆，它需要预测行人是否会穿过街道。做出这一决定需要模拟复杂的视觉信号行人过去的行为，如步行的速度和方向，或使用的设备，可能会阻碍他对周围环境的认识，并使用这些来预测他下一步可能会做什么。类似地，成像增强现实（AR）设备，其从可穿戴相机观察用户的活动，例如，可穿戴相机当他们做一道新菜或组装一件家具时，需要提前通知他的下一个步骤以提供及时的帮助。在许多这样的应用中，识别视频中正在发生什么是不够的相反，视觉系统还必须预测随后可能的动作。因此，人们越来越有兴趣将活动预期任务[24，45，49，64，73，82]形式化，并开发多个挑战基准来支持它[13，14，49，55，82]。与传统的动作识别相比，预期往往更具挑战性。首先，它是--临时注意力（/行空间注意头洗番茄…...关断抽头骨干输入帧时间图1：使用AVT来预测未来动作涉及用空间注意力主干对视频帧进行编码，随后是仅关注当前帧之前的帧以预测未来动作的时间注意力头部。在该示例中，它自发地学习关注手和物体，而无需被监督这样做。此外，它关注最相关的帧来预测下一个动作。例如，为了预测有关详细信息和其他结果，请参见第5.3超越将当前时空视觉模式分类为单个动作类别的要求--一项非常适合于当今精心打磨的判别模型的任务--来代替预测未来活动的多模态分布。此外，虽然动作识别通常可以通过利用瞬时上下文线索来避开时间推理[31]，但预期本质上需要对过去动作的进展进行建模以预测未来。例如，具有叉子的一盘食物的存在可能足以指示吃的动作，而预期相同的动作将需要识别和推理在其之前的动作序列，诸如切碎、烹饪、上菜等。事实上，最近的工作[23，77]发现，建模长时间上下文通常对于预期至关重要，不像动作识别，其中帧级建模通常就足够了[43，50，81]。这些挑战在实践中也得到了证实例如，当处理识别与预测时，当今表现最好的视频模型之一的准确率13506相同的测试片段[13]-预测未来的一秒钟比宣布当前的动作要困难得多。解决长期预测推理任务的典型方法涉及使用标准架构[12，86，91]提取帧或剪辑级特征，然后进行ag-使用聚类[32，62]，递归[23，24，42]或基于模型的注意力[28，59，77，95]进行除了重现的那些，大多数这样的模型仅仅在时间范围上聚合特征，很少考虑对视频在帧上的顺序时间演变进行虽然像LSTM这样的递归模型已经被探索用于抗干扰[2，23，96]，但已知它们由于其顺序（非并行）性质而难以最近的工作使用在不同量的上下文上的基于注意力的聚合来减轻这种限制，以产生短期然而，它仍然将视频减少到多个聚合表示，并失去其顺序性。此外，它依赖于对体系结构和用于不同聚合特征的上下文的量的仔细的和在这项工作中，我们介绍了预期视频转换器（AVT），替代视频建模架构，取代为了克服上述权衡，所提出的模型自然地包含视频的顺序性质，同时最小化循环架构产生的限制。类似于周期性模型，AVT可以无限期地推出以预测未来（即未来）。生成未来预测），但是它在处理输入时与远程注意并行地这样做，远程注意通常在递归架构中丢失。具体而言，AVT利用流行的Transformer器架构[89，92]，具有因果2掩蔽注意力，其中每个输入帧仅允许关注在其之前的帧。我们训练模型来共同预测下一个动作，同时还学习预测与真实未来特征及其中间动作标签（当可用时）相匹配的未来特征。图1示出了AVT通过合并中间未来预测损失，AVT鼓励预测视频表示，该预测视频表示拾取视觉活动可能如何展开到未来的模式。我们的模型的这一方面与语言进行了类比，其中跨-1我们使用术语用大量文本语料库训练的形成器现在是预测单词序列的强大工具（参见图1）。GPT和变体[8，69，70]）。增量时间建模方面也已经被探索用于动作识别[53]，尽管使用卷积架构并且没有中间的自我监督损失。虽然到目前为止描述的架构可以应用于各种帧或剪辑编码器之上（如我们将在实验中所示），但我们进一步提出了一种纯粹基于注意力的视频建模架构，其通过用来自最近引入的Vision Transformer [18]的基于注意力的帧编码器替换主干这使得AVT不仅关注特定帧，而且关注一个统一框架中的帧内的空间特征。在我们看来在图1中，当在以自我为中心的视频上训练时，模型自发地学习关注与手和物体相对应的空间特征，这在预测未来活动时往往特别重要[57]。总的来说，我们的贡献是：1）AVT，一种用于预测视频建模的新型端到端纯基于注意力的架构; 2）引入自我监督的未来预测损失，使得该体系结构特别适用于预测任务，如动作预测; 3）对模型的广泛分析和消融，显示其在不同骨干体系结构、预训练等情况下的通用性。最流行的动作预期基准，无论是从第一和第三人称的观点。具体来说，我们在EpicKitchens- 553[13]，EpicKitchens-1003 [14]，EGTEA Gaze+ [55]和50-Salads [82]上的表现优于所有先前发表的工作。最值得注意的是，我们的方法优于EpicKitchens-100 CVPR'21挑战4的所有提交2. 相关工作动作预测是在给定视频剪辑的情况下预测未来动作的任务。虽然在第三人称视频[2，26，38，39，47，49，82，90]中得到了很好的探索，但由于其在可穿戴计算平台上的适用性，其最近在第一人称（以自我为中心）视频[13，14，16，24，57，64，77]中得到了普及。已经针对该任务提出了各种方法，例如通过预测未来特征[90，96]、聚合过去特征[24，77]或利用示能表示和手部运动[57，64]来学习表示。我们的工作贡献了一个新的视频archi- tecture的预期，我们证明了其有前途的优势，多个流行的预期基准。自监督特征学习视频方法从未标记的视频中学习表示，往往是为了精细-[2]在全文中，我们使用“因果”一词视频以向前的、在线的方式被处理，即，在时间t应用的函数只能引用它们之前的帧，类似于因果语言建模（CLM）[51]。这不应与AI中“因果”的其他用法混淆，其中内涵是因果关系3EpicKitchens-55/100数据集采用Creative Commons Attribution-NonCommercial 4.0国际许可协议进行许可。4competitions.codalab.org/competitions/259255competitions.codalab.org/competitions/2007113507⇥--{···}BB联系我们针对特定的下游任务进行调整。研究人员探索了各种[36，37，40，83]和跨模态对应-dence [3，48，83，84]. AVT合并了增强预测未来特征（和动作）的特征的损失;虽然这方面与先前[25，36，37，58，60，75，78，83，84，90]和并发工作[96]共享动机，但我们实现预测特征的架构是不同的（基于变换器而不是卷积/递归[25，36，37]。78，96]），它在原始帧或连续视频特征上操作，而不是聚类的“视觉词”[ 84 ]，仅包括视觉数据（而不是具有语音或文本的视觉[ 83，84 ]），并且针对动作预期进行联合训练（而不是预先训练然后针对动作识别进行微调[ 36，37，83 ]）。语言建模（LM）随着自我注意体系结构的引入而发生了革命性的变化[89]。 LM方法通常可以分为三类：（1）仅编码器[17，67]，其利用双向注意力并且对分类等区分任务有效;（2）仅解码器[8，69]，其利用对过去标记的因果注意力[51]，并且对文本生成等生成任务有效;以及（3）编码器-解码器[52，71]，其结合了双向编码器和因果解码器，并且对于诸如机器翻译的任务是有效的。利用动作预测和生成语言任务之间的类比，我们在我们的模型中探索因果解码器的注意力架构。虽然语言模型通常在离散输入（单词）上训练，但AVT使用连续视频特征进行训练。这种区别自然会影响我们的设计选择，例如生成训练的L2损失与下一个单词的交叉熵损失相反。自我关注和视觉中的变形金刚。视觉中的自我注意力的一般思想可以追溯到非局部手段[9]，并且作为非局部块[10，56，93，95]和gat被并入当代网络架构中。[30，46，62，97]。虽然像变压器[89，92]这样的自我注意力方法为高级视觉推理任务[11，101]提供了强大的结果，但最近，人们对用变压器完全取代卷积架构进行图像识别[18，85]的兴趣越来越大。对于视频，先前的工作主要是在标准时空卷积基础架构[12，86，88]之上利用注意力架构[28，93，95]相比之下，AVT是用于视频的端到端Transformer架构-据我们所知是第一个（与[4，7，19，54，65]同时发生）。与双向并解决传统动作识别的并发方法 [4 ， 7 ， 19 ， 54 ，65]AVT产生了最好的结果，迄今为止的几个良好的研究预期基准。已观察视频未观察视频过去帧（o）预期行动时间段图2：动作预期问题设置。目标是使用所观察到的长度为 A〇的视频片段来在未来动作发生之前A秒预测未来动作。3. 预期问题设置虽然在文献[45，64，73]中已经探索了多个预期问题设置，但在这项工作中，我们遵循最近的挑战基准[13，14]中定义的设置并在图2中说明。对于数据集中开始于时间t s的每个标记的动作片段，目标是使用在它之前的t个单位的长度的视频片段来识别它，即从伊什（a+o）到sa 虽然方法通常都必须使用任意长度的观测数据集（ωo），但预测时间（ωa）通常针对每个数据集是固定的。4. 视频Transformer我们现在介绍AVT模型架构，如图3所示。它的目的是预测未来的行动给定的视频剪辑作为输入。为此，它利用两阶段架构，包括对单独的帧或短剪辑进行操作的骨干网络，随后是对帧/剪辑级特征进行操作以预测未来特征和动作的头部架构。AVT采用因果注意力建模预测未来的行动，只基于到目前为止观察到的帧，并使用自监督学习启发的目标进行我们现在详细描述每个模型组件，然后是训练和实现细节。4.1. 骨干网给定具有T个帧的视频剪辑，V= Xi，Xi，Xi虽然已经提出了各种视频基础架构[12，20，87，91]，并且可以与AVT一起使用，正如我们稍后所展示的那样，在这项工作中，我们提出了一种替代架构，用于纯粹基于注意力的视频理解。这个主干，我们称为AVT-b，采用了最近提出的视觉Transformer（ViT）[18]架构，该架构已显示出令人印象深刻的静态图像分类结果。具体来说，我们采用ViT-B/16架构。我们将每个输入帧分成16个16个不重叠的补丁。我们将每个补丁平坦化为256D向量，并将它们线性投影到768D，这是整个编码器使用的特征维度。虽然我们不需要分类-单独地细化每一帧，我们仍然预先准备了一个可学习[类]令牌嵌入到补丁功能，其13508企企业简介企企业简介$% t0z11z22个z33z$Transformer编码器Transformer编码器Transformer编码器Transformer编码器时间位置嵌入0* 1 2 3…0* 1 2 3…0* 1 2 3…[CLASS]线性投影令牌线性投影线性投影线性投影面片特征+空间位置嵌入X*输入视频帧X+过去的框架特征+因果Transformer解码器线性z“$线性（%）tz-3线性（%）tz-2线性（%）tz-1线性z1LL···L§B.D打开披萨盘子披萨获取包装皱纹包装机抛出包装器图3：（左）AVT架构。我们将T个输入帧分割成线性投影的非重叠补丁。我们添加了一个学习过的[CLASS]标记，以及空间位置嵌入，由此产生的特征将通过多层多头注意力传递，并在所有帧上应用转换器的共享权重我们采用对应于[CLASS]标记的结果特征，附加时间位置编码，并将其传递给因果Transformer解码器，该解码器在关注来自1的所有特征之后预测帧t处的未来特征。t.训练生成的要素以回归到真实的未来要素（feat），并且如果被标记则预测该时间点处的动作（cls），并且训练最后的预测以预测未来动作（next）。（右）因果Transformer解码器。它遵循Transformer架构，具有预规范[92]，注意力中的因果掩蔽和最终LayerNorm [70]。输出将被用作到头部的帧级嵌入输入。最后，我们将学习的位置嵌入添加到每个补丁特征中，类似于[18]。我们选择坚持特定于帧的空间位置编码，以便可以将具有共享权重的相同骨干模型应用于每个帧。我们将把时间位置信息合并到头部架构中（接下来讨论）。得到的补丁嵌入通过具有预范数[92]的标准变换器编码器[89关于编码器架构的细节，我们请读者参考[18AVT-b是一个有吸引力的主干设计，因为它使我们的架构纯粹是注意力。尽管如此，除了AVT-b之外，AVT还与其他视频骨干兼容，包括基于2D CNN [80，91]、3D CNN [12，20，87]或基于固定特征表示的视频骨干。在检测到的对象[5，6]或视觉属性[63]上。在5中，我们提供了测试几个这样的替代品的实验。对于时空主干的情况，其对剪辑而不是帧进行操作，我们提取特征为（Xt-L1，Xt），其中模型在L-长度上训练剪辑这确保了帧t处的特征不包含任何来自未来的信息，这在预期问题设置中是不允许4.2. 头网给定由主干提取的特征，头网络（称为AVT-h）用于使用因果Transformer解码器D来预测每个输入帧的未来特征：其中，ξz1，· ··，ξzT=D（z1，· ··，zT）.（一）这里是在关注之前的所有特征并包括它之后，与帧特征z t相对应的预测的未来特征。然后使用线性分类器将预测的特征解码成语义动作类上的分布。e. yt=✓（最终的预测值（yT）被用作下一个动作预测任务的模型注意，由于根据问题设置，下一个动作片段（T+1）距离最后一个观察到的帧（T）是a秒，因此我们通常以a的步幅对帧进行采样，使得模型学习以该帧速率预测未来的特征/动作。然而，根据经验，我们发现该模型对其他帧速率值也是鲁棒的。我们使用掩码Transformer解码器实现，其灵感来自生成语言建模中的流行方法，例如GPT-2 [70]。我们首先将节奏位置编码添加到帧特征中，将其实现为绝对帧位置的学习嵌入骨干未来帧嵌入层规范L+MLP层规范+蒙面多头关注层规范过去的帧嵌入头13509····-XX2弹夹然后，嵌入的特征通过多个解码器层，每个解码器层由掩蔽的多头注意力、LayerNorm（LN）和多层感知器（MLP）组成，如图3（右）所示。然后，最终输出通过另一个LN，类似于GPT-2 [70]，以获得未来的帧嵌入。除了视觉而不是文本之外，该模型在最终LN和多头注意力中的掩蔽操作方面不同于原始的Transformer解码器[89]掩蔽确保模型只关注输入的特定部分，在像我们这样的预测任务中，这被定义为即截至对应于帧t之后的未来的输出，即，zt，we将掩码设置为仅关注z1zt。我们建议读者参考[70]以了解有关掩蔽实现的详细信息预测任务的类似目标，但具有重复的架构[25，78，96]。而最近的冰毒-ods [36，37，96]用NCE风格[66]对象探索了这种损失，在最初的实验中，我们发现简单的L2损失同样有效。由于我们的模型总是使用最终的监督损失进行训练，因此我们在训练期间不会遭受潜在的崩溃，而这将需要使用对比损失。第三，作为动作类级别的预期损失，我们利用数据集中可用的任何动作标签来监督中间预测，即，当输入剪辑与在要预期的片段之前的任何标记的动作片段重叠时。6对于我们没有标签的任何较早的帧，设置Ct=1这种设计与以前的语言建模架构在视频中的应用有很大的不同，例如Lcls=T-1 L;Lt=（-logyt[c电话+1] 如果ct+1≥0[84].它直接对连续的剪辑嵌入进行操作，而不是首先将它们聚类到令牌中，并且t=1CLSCLS0否则。（四）它利用因果注意力来允许预期训练（下面讨论），而不是像 BERT [17] 中那样需要掩蔽语言建模（MLM）。这些特性使AVT适合预测视频任务，同时允许经常在递归架构中丢失的远程推理我们训练我们的模型L=Lnext+Lcls+Lfeat（5）作为目标，并将其称为预期[a]培训设置。作为基线，我们也用一个模型进行实验真的。虽然后续的VideoBERT，如CBT [83]操作原始剪辑功能，他们仍然利用传销ob-仅使用L=L训练下，并称之为天真具有双向注意力的目标，其主要目标是表征学习，而不是未来预测。4.3. 培训AVT为了对训练数据进行采样，对于给定数据集中的每个标记的动作片段，我们对其之前和结束的剪辑进行动作开始前的a秒。我们把夹子递过来通过AVT获得未来的预测，然后使用三个损耗来监督网络。首先，我们使用带有标记的未来动作cT+1的跨中心py损失来监督下一动作预测：Lnext=-logyT[cT+1].（二）其次，为了利用模型的因果结构，我们在特征级和动作类级监督模型对于前者，我们预测未来的功能，以匹配真正的未来功能，目前在剪辑，即T-1[n]设置，因为它不利用我们模型正如我们将在表7中显示的那样，预期设置导致了显著的改进。4.4. 实现细节我们通过在248和280px之间随机缩放高度来预处理输入视频剪辑，并在训练时进行224px的裁剪对于大多数实验，我们以1FPS采样10帧。我们采用[18]中的网络架构细节具体来说，我们使用一个12头，12层Transformer 编码器模型，操作 768D 表示。我们从ImageNet-1 K（IN 1 k）、ImageNet-21 K（IN 21 k）或ImageNet-21 K（IN 21 + 1 k）微调的ImageNet-1K上预训练的模型初始化权重，并对预期任务进行端到端微调对于AVT- h，我们使用4头6层模型，该模型在2048D表示上操作我们在骨干和头部之间采用线性层来投影特征以匹配头部中使用的特征尺寸。我们使用10-6使用SGD+momentum对 AVT进行端到端Lfeat=t=1||ˆzt-zt+1||2.（三）权重衰减和10-4学习率为50个epochs，20 epochs预热[33]和30 epochs的余弦退火去这种损失的灵感来自于Vondrick等人的开创性工作。[90]以及后续研究[36，37]表明，预期未来的视觉表示是一种有效的自我监督形式，尽管通常用于传统的动作识别任务。同时和最近的工作采用不13510礁在测试时，我们采用3-crop测试，其中我们从248px输入帧计算三个224 px空间裁剪，并且6例如，对于像50-Salads这样的密集标记数据集的每个帧，以及像EpicKitchens-55这样的稀疏标记数据集的帧子集，13511）数据集Vie点分段类a（s）度量EK100 [14]月190.0K3，807 1.0 [14]召回EK55 [13]月139.6K1.0 [13] top-1/5，召回[55]第五十五话月110.3K106 0.5 [57] top-1，cm top-150S [82]第30.9K17 1.0 [2] top-1表1：用于评价的数据集。我们使用四个流行的基准点，跨越第一和第三人称视频。类平均值=按类进行评估并对类取平均值。召回是指来自[22]的类平均召回@5。对所有人来说，越高越好。对相应的三个剪辑上的预测求平均。AVT的默认主干是基于ViT-B/16架构的AVT-b然而，为了丰富我们与一些基线的比较[23，24，77]，下面我们还报告了仅我们的头部模型在固定特征上操作的性能，这些特征来自1）预先训练用于动作分类的帧级TSN [91]骨干，或2）在大型弱标记视频数据集[ 27 ]上预先训练的最近的时空卷积架构irCSN-152 [ 87 ]。当对动作识别进行微调时，其已经显示出强有力的结果。我们对预测数据集上的动作分类模型进行微调，并提取头部用于预测的特征。在这些情况下，我们只训练AVT-h层。对于所有考虑的数据集，我们使用验证集或分割1来进一步优化超参数，并在多个分割或保持的测试集上使用该设置将发布代码和模型以进行再现。5. 实验我们经验评估AVT四个流行的动作anticipation基准涵盖第一和第三人称视频。我们首先描述数据集和评估协议（§5.1），然后是关键结果和比较最新技术水平（§5.2），最后是消融和质量-结果（5.3）。5.1. 实验装置数据集和指标。我们在表1中总结的四个流行的动作模拟数据集上进行测试。EpicKitchens-100（EK 100）[14]是最大的以自我为中心的（第一人称）视频数据集，包含700个长的烹饪活动无脚本视频，总计100小时。EpicKitchens-55（EK 55）[13]是其早期版本，允许与尚未在EK 100上报告的更大的基线集进行比较。对于两者，我们分别使用[14]和[23]中的标准train，val和test拆分来报告性能。测试评估是通过向其质询服务器提交来在保留集上执行的EGTEA Gaze+[55]是另一个流行的以自我为中心的动作预期数据集。根据最近的工作[57]，我们报告了在a = 0时数据集的分裂1[55]上的性能。5只最后，50-Salads（50 S）[82]是一个流行的第三人称预测数据集，并且表2：分别使用RGB和检测到的对象（OBJ）模态的EK100（val）。AVT使用完全相同的功能优于先前的工作，并进一步改进了我们的AVT-b骨干。使用类别平均召回率报告的性能@5。我们报告了根据先前工作[77]在预定义的5个分割上平均的 top-1 准确度。这些数据集中的一些采用 top-5/recall@5标准来解释未来预测中的多模态，以及类均值（cm）度量来同等地加权长尾分布中的类。前三个数据集还将动作注释分解为动词和名词。虽然一些先前的工作[77]还监督了名词和动词的模型，但我们只训练我们所有的模型来预测动作，并通过边缘化另一个来估计动词/名词的概率，类似于[23]。在所有表格中，我们突出显示了显示用于在官方挑战排行榜中对方法进行排名的度量的列除非另有说明，否则报告的标准对应于未来的行动（act.）预测，尽管我们在适用的情况下分别报告动词和名词的数字。更多详情请参见附录A基线。我们将AVT与具有不同主干和预训练初始化的变体进行比较，以及与最近最强的动作预测方法进行比较，即。RULSTM [23，24]，ActionBanks [77]和预测HOI（FHOI）[57]。有关详情，请参阅附录B。当FHOI端到端地训练模型时，RULSTM和ActionBanks在来自针对该数据集上的动作分类预先训练的模型的特征之上操作。因此，我们使用完全相同的特征以及端到端训练的骨干来报告结果，以促进公平的比较。5.2. 与最新技术水平的EK100 我们首先使用表2中的单独模态（RGB和Obj[23]）将AVT与先前的工作进行比较，以进行苹果对苹果的比较，并隔离我们每个贡献的性能。首先，我们将仅使用我们的 AVT （头部）模型与最先进的RULSTM方法进行比较，该模型应用于来自TSN [91]的完全相同的特征，这些特征在EK100上进行了分类我们注意到这已经比RULSTM有所改进，特别是在预测未来对象（名词）方面。此外，我们实验与骨干fea-头骨干Init动词名词动作RULSTM [14] TSNIN1k27.529.0十三点三AVT-hTSNIN1k27.230.7十三点六AVT-hirCSN152公司简介 25.528.1十二点八AVT-hAVT-bIN1k28.229.3十三点四AVT-hAVT-bIN21+1k 28.732.3十四点四AVT-hAVT-bIN21k30.231.7十四点九RULSTM [14] Faster R-CNN IN1k17.923.37.8AVT-hFaster R-CNN IN1k18.0 24.3八点七13512整体看不见的厨尾分类拆分法动词名词行为AVT-h TSN IN1k13.128.113.5AVT-h AVT-bIN21+1k12.530.113.6AVT-h irCSN152 公司简介14.431.713.2表4：仅使用RGB模态进行动作预期的EK55。AVT表现相当，并且当与在大型弱标记数据集上预训练的骨干相结合时表现更好表3：使用所有模态的EK100 val和测试集。我们将已发表的工作和CVPR’21挑战提交之间的测试比较分开我们优于以前的工作，包括所有的挑战提交，特别是显着的收益尾部类。Top-1 acc.类平均acc.方法动词名词行为。动词名词法I3D-Res50 [12] 48.042.134.831.330.023.2FHOI [57] 49.045.536.632.532.725.3AVT-h（+TSN）51.750.339.841.241.428.3头顶-1DMR [90] 6.2RNN [2] 30.1美国有线电视新闻网[2]29.8[77]第十七话AVT48.0使用类别平均召回@5报告性能。多模态的AVT+和AVT++晚期融合预测详情请见正文。AVT54.9 52.243.049.9 48.335.2表5：EGTEA凝视+在A处的分割1=表6：50-沙拉。0的情况。5只AVT的表现优于先前的工作显著-AVT的表现优于显著的利润率，特别是在接受过培训的先前工作时，即使在来自最新最先进的视频模型irCSN- 152 [87]在大型弱监督数据集上进行预训练与AVT-b主干端对端连接第三人视频IG65M [27].我们微调EK 100上的识别骨干，提取其特征并像以前一样训练AVT-h，但发现它在EK 100 antic-ipation任务中不是特别有效接下来，我们用我们的AVT-b替换主干我们对在RULSTM提供的EK100上训练的对象检测器[72]的特征进行了相同的比较（称为OBJ模态，详见附录A），并且类似地发现我们的方法在此模态上也优于RULSTM注意，上面使用的固定特征可以被认为是过去识别的动作的代理，因为它们仅针对动作识别而被训练。因此，TSN或irCSN 152特征上的AVT-h与在过去的动作上训练语言模型以预测未来动作的基线相当。如后面的实验所示，端到端训练的AVT明显更有效，支持AVT最后，我们比较了使用EK100 val和表3中的保持测试集的所有模态的模型。虽然RUL-STM使用基于注意力的模型（MATT [23]）融合了在RGB，Flow和OBJ特征上训练的模型请注意，我们在尾部类上获得了最大的收益，这表明我们的模型在少数几次抗感染时特别有效最后，AVT++集成了多种型号，性能优于所有提交的EK100 CVPR挑战排行榜有关AVT++的详细信息，请参阅研讨会文件[29EK55 由于EK100是相对较新的，有几个基线方法报告，我们也评估AVT EK55。因此，我们首先比较表4中的单模态方法（仅RGB）。对于AVT-h模型，我们发现一组稍微不同的（正确验证的）超参数对于前1/5度量比对于前1/5度量表现得更好。召回度量，因此我们报告每组结果的最佳模型。在这里，我们发现AVT-h的表现与RULSTM相当，并且在前1个指标上超过了另一个基于注意力的模型[77]（EK 55 2020挑战赛的获胜者之一）该增益在召回度量上更显著，召回度量对类的性能进行平均，再次表明AVT-h对在前1/5度量中被忽略的尾部类特别有效。接下来，我们用AVT- b替换主干，并且发现它在前1/5度量上表现相当，并且在召回度量上表现优异。最后，我们使用使用IG 65 M[27]预训练并在EK 55上进行微调的irCSN-152 [87我们在附录C中显示了与最新技术水平的EK55的进一步比较。EGTEA凝视+。在表5中，我们比较了我们的方法a=0。5s在分裂1作为在最近的工作[57]。即使使用固定功能与AVT-h的顶部，AVT优于最好的报告结果，并使用AVT-b骨干进一步提高性能。值得注意的是，FHOI利用对手部轨迹的注意力来获得强大的性能，如图1所示，这在我们的模型中自发出现。50-沙拉最后，我们证明了我们的方法是不有限的-头主干初始化Top-1Top-5召回RULSTM [24] TSN美国[77]IN1kIN1k30.8 12.512.328.513.113.1机会6.42.00.2十四点四2.90.51.60.20.1alRULSTM [14]27.830.814.028.827.214.2 19.822.011.1VAVT+（TSN）25.531.814.825.523.611.5 18.525.812.6AVT+28.232.015.929.523.911.9 21.125.814.1St机会6.22.30.1第八条第一款3.30.31.90.70.0TeRULSTM [14]25.326.711.219.426.99.717.616.07.9TBN [100]21.526.811.020.828.312.2 13.215.47.2AVT+25.628.812.620.922.38.819.022.010.1葛IIE MRG25.326.711.219.426.99.717.616.07.9en[76]第76话21.830.6十二点六十七点九27.010.5 13.620.68.9大厅ICL+上海交通大学[35]36.232.213.427.624.210.1 32.129.911.913513LL！“！“LossesBackbonesSettingLclsLfeat TSN AVT-b表7：预期训练。采用预期的训练损失是必要的，以获得强大的性能与AVT。报告EK 100/cm召回@5。图4：时间背景。AVT有效地利用了较长的时间背景，特别是在[a]设置中。图5：长期预期。 AVT还可以用于通过滚动预测自回归来预测未来。顶部的文本表示在提供的帧处预测的下一个动作，随后是随后预测的动作，其中数字表示该动作将重复多长时间。它适用于以自我为中心的视频，在第三人称设置中也很有效在表6中，我们报告了在标准5个分割上平均的50个沙拉的前1个性能。我们观察到它比以前的RNN[2]和基于注意力[77]的方法有显著的7.3%的绝对改进，再次建立了一个新的最先进的状态。5.3. 消融和分析我们现在分析AVT架构，使用RGB模态和EK100验证集作为测试床。预期损失。在表7中，我们评估了利用AVT因果结构的两个中间预测损失的贡献。我们发现使用这些目标导致两个骨干的显着改善我们发现cls对TSN更有效，对AVT-b 更有效。考虑到两者在两种设置中都很好地结合工作，我们将两者用于所有实验。注意，朴素设置也用作具有AVT-b主干的基线，随后是顶部的简单聚合，并且显示我们提出的鼓励预测结构的损失对于获得强性能是必要的。我们分析了AppendixD.1中的每个类的收益，发现像“烹饪”这样的类，需要理解到目前为止的行动顺序才能很好地预测，在预期的设置中获得最大的收益。时间背景。接下来，我们分析了时间语境的影响。在图4中，我们用不同长度的时间连续来训练和测试模型。我们注意到，随着我们结合更多的上下文帧，性能提高，对于AVT-b具有更一致的增益。当使用预期设置（11. 2十四岁9 = 3。5）vs.天真（十一、0十三岁1 = 2。1）.这表明端到端培训使用预期损耗的AVT更适合于建模长距离时间相互作用的序列。注意力可视化。为了更好地理解AVT如何对视频进行建模，我们将骨干和头部中的学习注意力可视化。对于主干，遵循先前的工作[18]，我们使用注意力卷展[1]来聚合头部和层上的注意力。对于头部，因为我们的因果模型会使聚集的注意力偏向第一几帧，我们可视化最后一层的注意力平均超过头部。如图1所示，该模型自发地学习关注手和物体，这对于以自我为中心的预期任务[57]是有益的-但在先前的工作中需要手动指定。时间注意力也取决于预测的未来动作而在聚焦于过去或主要聚焦于当前帧之间变化。我们在附录D.2中显示了其他结果。长期预期。到目前为止，我们已经显示了AVT在下一个动作预期任务中的应用。由于AVT的预测性质，它还可以自动推出，以预测给定视频上下文的未来动作序列。我们附加预测的特征并在结果序列上运行模型，重用为过去帧计算的特征如图5所示，AVT做出合理的未来预测我们的因果注意力和预期培训架构的核心能力。我们在附录D. 3中展示了其他结果。6. 结论和未来工作我们提出了AVT，一种用于预期视频建模的端到端基于注意力的通过对四个流行的基准进行广泛的实验，我们展示了它在预测未来行动中的适用性，获得了最先进的结果，并展示了其预期培训目标的重要性。我们相信AVT将是超出预期的任务的有力候选者，例如自我监督学习[37，90]，发现动作模式和边界[68，79]，甚至是需要建模时间顺序的任务中的一般动作识别[34]。我们计划在未来的工作中探索这些方向。鸣谢：作者们要感谢安托尼诺·弗纳里、法迪姆·塞纳和刘淼对前期工作的帮助; Naman Goyal和Myle Ott在语言模型方面的帮助;以及Tushar Nagarajan、GedasBertasius和Laurens van der Maaten对手稿的反馈。开启水龙头清洗刀洗干刀勺4只手1手2时间幼稚[n]--十点一 13.13-十一点五十四点四-313.7 13.0预期的[a]313.6 十四点四13514引用[1] Samira Abnar和Willem Zuidema。量化变压器中的注意力流。在ACL，2020年。[2] Yazan Abu Farha、Alexander Richard和Juergen Gall。你什么时候做什么？预测活动的时间在CVPR，2018年。[3] Relja Arandjelovic和Andrew Zisserman。听着学习InICCV，2017.[4] Anurag Arnab ， Mostafa Dehghani ， Georg Heigold ，Chen Sun，MarioL ucˇ i c´，andCordeliaSchmid. ViV it：一款视频视觉 Transformer 。 arXiv 预印本 arXiv ：2103.15691，2021。[5] Gedas Bertasius和Lorenzo Torresani 分类，赛格-分割和跟踪具有掩模传播的视频中的对象实例。在CVPR，2020年。[6] Gedas Bertasius和Lorenzo Torresani Cobe：上下文-化的对象嵌入从叙述教学视频。在NeurIPS，2020年。[7] Gedas Bertasius，Heng Wang，and Lorenzo Torresani.是时空注意力你需要视频理解吗？在ICML，2021。[8] Tom B Brown，Benjamin Mann，

下载后可阅读完整内容，剩余1页未读，立即下载