GliTr：在线动作预测模型的一瞥定位与识别

52 浏览量更新于2023-10-15 收藏 1.21MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

3413∼∼GliTr：用于在线动作预测Samrudhdhi B Rangrej1Kevin J Liang2Tal Hassner2James JClark11麦吉尔大学2Meta AIsamrudhdhi. mail.mcgill.ca摘要许多在线动作预测模型观察完整的帧，以定位和关注帧中的信息子区域，然而，在资源受限的应用中，代理可能无法观察到完整的帧，但仍然必须定位有用的一瞥，以仅基于本地信息来在本文中，我们开发了Glimpse Trans-formers（GliTr），它在任何时候都只观察狭窄的一瞥，从而预测正在进行的行动和以下最翔实的一瞥位置的基础上收集到的部分在缺乏动作识别的最佳瞥见位置的基础事实的情况下，我们使用一种新的时空一致性目标来训练GliTr：我们要求GliTr注意到具有与相应的完整帧（即，空间一致性），并且在时间t得到的类logit等于使用直到t的整个帧预测的类logit（即，时间一致性）。包含我们提出的一致性目标在Something-Something-v2（SSv 2）数据集上的准确性比基线交叉熵目标高10%。总体而言，尽管每帧仅观察到总面积的33%，但GliTr在SSv2和Jester数据集上分别实现了53.02%和93.91%的准确性。1. 介绍最近的模型，如 TSM [37] ， Swin-B [38] 或VideoMAE [53]在视频动作识别基准上取得了令人印象深刻的性能，但它们经常做出一些假设，限制了它们在某些应用中的使用。例如，上述模型以离线方式操作，假设完整的剪辑（即，在动作结束之后）可以做出决定。离线模型在在线设置中通常效率低下，在在线设置中，必须基于在当前时间之前看到的不完整剪辑上。例如，Swin-B的性能在图1：我们提出了Glimpse Transformers（GliTr），这是一个在线动作预测模型，只关注帧（xt）中最具信息量的一瞥（gt虽然从未完全观察帧y，但Gli Tr预测标签yt（i. e. 在时间t的正在进行的动作的估计）和下一次一瞥仅基于直到t所观察到的一瞥来确定位置t+1。Something-Something-v2（SSv 2）数据集，仅观察前70%帧[52]。另一个常见的假设是，随着时间的推移，完整的空间信息的要求但是，由于空间分辨率，仅观察全帧的小的但非信息的子区域就足以做出准确的预测。几种方法[6，25，40，62，64]主要处理称为“一瞥”的狭窄区域。然而，这些方法仍然需要整个框架来确定信息性的一瞥。虽然为这个“全局”视图使用轻量级模型高分辨率、大FOV相机是昂贵的，需要更多的功率，并且消耗更多的带宽来传输数据。在某些高风险的时间敏感型应用中，如用于灾难恢复的移动无人机、监测野外高危动物或实时手语翻译等，必须最大限度地降低此类成本。因此，我们开发了一种廉价的模型，预测信息的一瞥位置，而不观察整个帧，因此避免了需要高分辨率，大FOV相机。从一个给定位置的一瞥开始，我们的模型仅基于先前观察到的一瞥来决定在随后的帧中关注哪个位置因此，我们的模型仅使用3414∼本地信息和在线方式。我们选择transformers [57]来学习基于瞥见的注意机制和动作预测，因为它们可以有效地编码空间和时间上遥远的瞥见之间的关系。因此，我们将我们的模型称为Glimpse Transformers（GliTr）。遵循因式分解的编码器架构[2]，我们使用a）空间编码器，其仅对来自单个一瞥的补丁之间的关系进行建模以预测空间特征，以及b）两个时间编码器，其对跨时间的各种一瞥特征之间的交互进行建模以分别预测类别标签和下一个一瞥位置。由于最佳的一瞥位置的地面真理是不可用的，我们提出了一种新的时空教师-学生一致性目标，以激励GliTr学习一瞥位置在弱监督的方式。GliTr（作为学生模型）只需要当教师学习从全帧中为在线动作识别的下游任务产生预测特征和逻辑时，在学生模型上强制执行这种一致性损失隐含地需要将注意力集中在信息量最大的区域上，从而学习一瞥机制。我们证明了GliTr我们的主要贡献如下。• 我们开发GliTr：一种在线动作预测模型，它只观察一瞥，并基于部分时空观察来预测正在进行的动作。虽然以前的作品定位瞥见的第一个pronuv-ing全帧，GliTr预测下一个信息瞥见的位置完全基于过去的瞥见。• 我们提出了一种新的时空一致性目标来训练GliTr，而不需要用于一瞥定位的地面事实。在此目标下，GliTr必须选择概括从整个帧预测的特征和类分布的一瞥。与基线交叉熵目标相比，我们提出的一致性在SSv2上的准确性上获得了10%的• 我们的模型从不观察完整的帧，只根据通过一瞥收集的局部信息识别动作，在SSv2和Jester数据集上分别实现了近53%和94%的准确率，同时减少了每帧观察到的总面积。近67%（从224×224的帧中瞥见128×128的图像）。2. 相关作品在线动作识别。许多最先进的方法执行离线动作识别，一旦整个视频[17，19，10，27，55，56，59，60]。然而，这些方法并没有针对整个视频尚未可用的情况进行优化，并且模型必须基于初步的不完整视频来预测动作。基于部分观察到的视频执行在线或早期动作识别是一项具有挑战性的任务。部分观察到的视频可能与多个可能的动作相关联，导致预测任务中的固有不确定性。几种方法专注于从部分视频中预测动作。Zhao等人[69]，Wuet al. [65]和Panget al. [43]基于过去帧中的运动和对象关系来预测未来动作。许多人分析了可用早期帧中的微动[52，34，30，28]。还使用了其他方法，如动态词袋[49]，全局-局部显着性[32]，记忆虽然现有的在线动作识别方法集中在时间维度上的部分观察，我们专注于在时间以及空间维度上的动作识别的空间选择。空间选择通常使用硬注意力来执行[42]。与观察具有不同注意力水平的场景的所有区域的软注意力模型[68]相反，硬注意力模型顺序地注意到最有信息的一瞥。硬注意力广泛用于图像分类[3，16，42，68，44，48，47，63]。最近，硬注意也被应用于视频动作识别。Wang等人提出在线动作识别模型Adafocus [62，64]。Chen等人[11]，Huanget al.[25] Wanget al.[58]呈现首先观察整个视频以便预测值得注意的一瞥位置的离线Mac等人[40]和Ba- radelet al.[6]也呈现离线模型，但定位并观察每帧的多个信息性一瞥。另一种方法是利用姿势信息，仅关注相关的身体部位[5，13]。以前的方法，不管它们的在线或离线性质，访问全帧，以定位信息一瞥。相比之下，我们的模型从来没有观察到完整的帧;它只观察到每个帧的一个狭窄的一瞥。一致性学习。一致性被广泛用于半监督学习问题[50，51，66，7，33]。这个想法是迫使模型的输出对相同输入的不同增强[51，66，7，36]，或内部表示[4，50]的变化，或不同训练时期的模型参数[33]保持不变。另一种相关的方法是伪标签[67，45]，其中一个单独的教师模型在没有扰动的情况下为未标记的样本生成伪标签，而学生模型则经过训练以预测某些扰动下的伪标签。这种方法类似于知识蒸馏3415不T−−不不不≤不TT不不图2：Gli T r的总体视图。 Gli Tr由帧水平空间TransformerTf和因果时间变换器Tc和Tl组成。一次训练迭代需要T次向前通过我们的模型。在上面，我们展示了在时间t≤T−1和t+1≤T的两个连续的向前传递。向前通过t（蓝色路径）：G iv ena newgligeegt，Tfeextractsgligse-featuresft。我们将ft附加到f1：t1，i. e. 在前一遍期间从G1：T1中执行的特征。 N e xt，c从f1：t预测标签 y t。同时，l从f t 1：t预测n个新的瞥见位置tt+1。向前路径t+1（橙色路径）：Given预测位置t+1，我们从帧xt+1中提取在t+1处的一瞥gt+1。然后，我们遵循与蓝色路径相同的步骤后T为Ward我们计算右边显示的损失为了找到tar，对于空间和时间一致性，我们使用一个单独的预先训练和固定的教师模型（显示在左侧，并在图3中解释），观察完整的帧x1：T.为了保持稳定性，我们停止从T1到Tf的梯度。[23]，学生被训练重建教师的输出或内部表征[1]。许多早期动作识别模型学习仅使用早期帧的子集来预测与完整视频一致的类分布其他人也利用了完整帧的时空一致性受以前工作的启发，我们使用了一个教师模型，该模型可以从完整的帧中预测特征，并以在线方式预测类分布。我们的学生模型观察部分时空信息，并试图预测与教师模型一致的特征和类分布3. 模型我们使用教师模型来i）初始化我们的GliTr -学生模型，以及ii）计算用于训练GliTr的时空一致性目标的目标。我们将在3.1节讨论我们的教师模型，然后在3.2节讨论GliTr。我们使用完整的框架和一瞥分别用（）和（）来3.1. 老师给定来自时间t T的初步视频的空间上完整的帧x1：t，我们的在线教师模型预测了yGT，这是对真实动作yGT的早期估计。我们为我们的老师采用了事实上的transformers编码器模型，并依次聚合空间和时间信息。它包括以下组成部分。快速提取（Tf）。我们使用空间TransformerTf为了从每个单独的帧xt中提取特征ft，t.我们使用没有最终分类头的ViT架构[57，54]，并从与输入类令牌对应的输出中收集特征早期行动预测（C）。我们用一个时间转换器c来聚集特征f*1：t并预测标签y*t。由于变压器是置换不变的，我们强制使用时间位置嵌入在输入序列中排序。此外，我们不使用单独的类标记，将对应于f的输出传递到线性分类器，预测一下。此外，为了减少训练时间，我们使用因果注意掩蔽[21，12]。因此，在训练期间，c观察者在单个forward遍中检查f1：T并产生y1：T，同时以在线渐进方式聚合特征，仅参考f1：t以在index t处产生输出yt。一瞥位置预测（1）. 我们包括时态Transformerl来从f t 1：t预测瞥见位置tt+1。l和c有相同的结构，除了最后的线性分类器被线性回归头代替以预测坐标Δt+1。虽然不需要在线行动预测从全帧，我们训练l初始化corre-我们学生模型中的响应模块。一旦学生模型被初始化，我们就从教师模型中丢弃T13416联系我们不^^˜不不F不不1：TC^˜L=KLD（y，y）.（六）算法1使用GliTr进行1：已预定义的索引1。2：对于t 1，. . .，Tdo3：从x t在0.01 t处采样g t。Glimpse提取4：ft=Tf（gt，lt）Featur提取5：yt=Tc（f1：t）早期行动预测空间一致性丢失。我们要求GliTr关注那些产生特征的一瞥，这些特征对动作的预测与我们的教师模型使用完整帧预测的特征一样。因此，我们最小化均方误差（MSE）在GliTr预测不到的一瞥特征和我们的教师模型无法预测帧特征，6：lt+1=l（f1：t）一瞥位置预测7：S av eft.8：结束3.2. Glimpse Transformer（GliTr）-学生版我们的Glimpse Transformer（GliTr）是从第3.1节讨论的教师模型中派生和初始化的。它是一个迭代模型，主动定位和关注场景中的狭窄一瞥，并根据空间和时间上不完整的观察及早预测正在进行的动作。在时间t处，Gli Tr感测到来自位置t处的新一瞥gt，框架xt. 使用瞥见g1：t，它预测i）y_t，标记y_GT的早期近似，以及ii）y_t+1，第n个瞥见的位置我们在图1中显示了GliTr的原理图。我们说明了算法1和图2中GliTr操作。它由以下组件组成。GlimpseExtraction. 如果位置是t=（i，j），则我们裁剪以帧xt中的位置t为中心的一瞥gt。为了维护L空间=MSE（f1：T，f1：T）/T。（二）时间一致性丢失。虽然教师模型在一个完整的帧中具有所有可用的瞬时空间信息，但GliTr必须依赖于过去的一瞥来推理当前帧中未观察到但信息丰富的区域为了激励GliTr聚合来自过去的空间信息以减轻部分可观测性，我们最小化由GliTr使用瞥见（yt）预测的类logit与教师使用完整帧（yt）预测的类logit之间的KL-发散，得到L速度=KL D（y=1：T，y=1：T）/T。（3）我们对GliTr的最终培训目标如下：L^=L^cls+L^spatial+L^temporal（4）通过裁剪操作的可微性，我们使用空间Transformer网络（RNN）[26]1。快速提取（Tf）。类似于教师模型，我们使用T从一瞥g中提取特征f。我们推导4.2. 老师分类损失。对于所有的t，我们最小化预测yt和地面实况标签之间的交叉熵损失位置嵌入的补丁在gt中使用。早期行动预测（Tc）。我们输入一些特征f1：t到Tc，这反过来又预测了类标签yt。一瞥位置预测（T1）。类似地，我们将特征ft1：t传递到T1，其预测第二个瞥见位置ft 1：t+1。4. 培养目标我们将在4.1节讨论GliTr的训练目标考虑到GliTr作为下游模型，我们在第4.2节中设计了适合我们的教师模型的培训目标我们将GliTr和教师模型的训练目标分别冠上（）和（）。Lcls=CCE（y=1：T，yGT）/T。（五）蒸馏损失。当可用时，我们还使用更强大的离线动作识别模型，例如Video-MAE[53]来从完整的视频中预测动作I.E. x1：T.然后，我们通过以下方式最小化最终预测y_T与flineg iv en的above y之间的KL发散：线下地址TT时空一致性损失。注意，上面的两种方法只训练Tf和Tc。我们将采用以下策略来训练TL。首先，我们使用的位置l1（可学习的页面-4.1. Glimpse Transformer（GliTr）-学生版分类损失。由于我们的目标是使用空间和时间上不完整的rameter）和由T1预测的T2：T，以提取瞥见g1：T从帧x1：T。我们创建Tf和Tc的副本，记为Tf′和Tc′。We输入g1：T和对应于Tf′的位置嵌入，并预测瞥见特征GTf视频，我们最小化交叉熵损失，. 给定f，T′预测动作y在网上流行起来-y动作的GT1：T1：T3417^˜Lcls=CCE（y=1：T，yGT）/T。（一）1不要与（空间）视觉变换器（ViT）混淆离子。然后我们最小化，L空间=MSE（f1：T，f1：T）/T，（7）L的速度ral=KL D（y=1：T，y=1：T）/T。（八）3418不不∼∼×T TT˜ ˜ ˜ ˜˜×不~LTT不TT128T TT图3：教师模型的总体视图。我们的教师模型由空间TransformerTf和因果时间transformer Tc和Tl组成。教师模型的每次训练迭代由两个步骤组成步骤1（蓝色路径）：给定完整的视频帧x1：T，Tfe提取帧特征f1：T。 Ne xt、Tc和T1预测类别标签y=1：T和来自f = 1：T的瞥见位置y=12：T+1。我们放弃了T+1。步骤2（橙色路径）：G ivenl1（可学习参数）和l2：T（在步骤1中预测），我们从x 1：T中提取g1：T。然后，我们创建Tf和Tc的不可学习副本，记为Tf′和Tc′。 Tf′e从g 1：T中提取了瞥见特征f1：T，Tc′从f1：T中预测了标签y 1：T。我们计算右边显示的损失并更新模型参数。为了在训练期间实现稳定性，我们停止从T1到Tf的梯度。我们只使用上述两个损失来更新l的参数。我们基于GliTr的时空一致性目标（等式2和3）设计这些一致性目标。正如4.1节所讨论的，他们鼓励l在框架中找到覆盖最有用的任务相关区域的一瞥，但要基于过去观察到的完整框架。我们在图3中演示了训练过程。我们的教师模型的最终目标如下。L=Lcls+Ldist+Lspatial+Ltemporal（9）5. 实验数据集。我们使用两个公开的大规模真实世界数据集进行实验，即Something-Something- v2（SSv 2）[22]和Jester [41]。我们采用官方的训练-验证分裂。SSv2数据集包含记录174个使用日常物品的人类动作的有170K的视频用于培训，25K用于验证。 Jester数据集是一个视频集合，捕获了27个基本的手势，包括120K的培训视频，观看15K视频进行验证。实施. 我们分别从SSv2和Jester中对每个视频16帧和8帧的序列进行采样。我们将每帧的大小调整为224第224章用你的眼神96 96除非另有说明我们使用ViT-Small [54] ar-f.建筑对于c和l，我们使用自定义转换-具有768个嵌入维度、6个头和4个深度的ERS架构。优化. 首先，我们讨论了常见的设置，然后是特定于模型的设置。对于所有型号和数据集，我们使用与VideoMAE相同的数据增强方案[53]。与Wanget al相似。[64]，我们停止从l到f的梯度以在训练期间保持稳定性。我们使用AdamW优化器[39]，权重衰减为5e-2，余弦学习速率计划没有预热，除非另有说明。我们分别在4个40 GB内存的A100 GPU和4个32 GB内存的V100-SXM 2 GPU上为了在SSv 2数据集上训练教师模型，我们使用在ImageNet数据集[14]上预训练的开源ViT-S模型[71]初始化f，并初始化c和我是随机的。我们使用b=60个视频形成一个小批量，并使用初始学习率αb，其中f，c和l的基本学习率α分别为1 e-5，1e-4和1 e-4。我们训练教师模型40个epoch，预热15个epoch李斯特对于Jester数据集，我们使用在SSv2数据集上训练的教师模型初始化教师我们不对Jester数据集使用蒸馏损失dist对于所有模块，我们使用100的批量大小b和1 e-5的α。该模型被训练了50个时期。每个学生模型（GliTr）都是从在相应数据集上训练的教师模型初始化的。我们对所有模块使用基本学习率α=1 e-5，并分别用来自SSv 2和Jester的360和800个视频的批量b训练它们100和150个epoch。5.1. 经验比较部分可观测性我们将GliTr学习的一瞥注意力策略与四个基线和一个近似上限进行比较：• 均匀随机：Glimpse位置独立3419不± ×图4：GliTr在（左）SSv2和（右）Jester上选择的一瞥。显示的完整帧仅供参考。GliTr不观察全帧。它只观察到了一些片段。我们在补充材料中展示了更多的例子从每个t的均匀分布中提取。• 高斯随机：类似于均匀随机，但取而代之的是，从具有零均值和单位方差的高斯分布中采样瞥见位置，并通过tanh（）函数将位置约束为保持在帧的边界内。• 中心：模型从每个帧中心的恒定位置观察一瞥。• 左下角：模型关注帧左下角的一瞥。• 教师（上限）：根据教师模型的预测选择一瞥位置，50403020101 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16时间t（一）90807060504030201234567 8时间t（b）第（1）款完整的框架。在不存在地面实况瞥见位置的情况下，这提供了近似的上限。为了分离瞥见策略对性能的影响，我们使用相同的模型来评估由各种策略选择的瞥见，GliTr.在评估基线和上限时，我们忽略来自l的预测，而是使用上述特定策略给出的位置我们在图5中显示了结果，绘制了每个t之后的在线动作预测准确率。正如预期的那样，随着模型观察到更多的一瞥，所有策略的预测准确性都会增加。中心和左下角策略在SSv2和Jester数据集上的表现优于其他基线。我们怀疑这是因为感兴趣的对象经常出现在SSv 2的中心;而在来自Jester的大多数示例中，手的移动在帧的左下角附近的区域中开始和结束。另一方面，GliTr优于所有基线，并达到最接近上限的性能（即。教师战略）。我们在图6中绘制了GliTr选择的一瞥区域的直方图。我们观察到，GliTr不仅成功地捕获了不同的偏差（中心与中心），左下角），但必要时也会忽略偏差。注意t>1时直方图的分布，表明GliTr观察到不同视频中的不同区域。因此，GliTr比基线更快地实现了更好的准确性，并且在时间T处，优于表现最好的基线，在时间T上分别有近5%和11%的裕度。图5：在线动作预测准确性比较使用不同的窥探机制。（a）SSv2和(b) 小丑均匀和高斯策略从各自的分布中采样位置。我们显示使用五次独立运行计算的平均5个标准差。中心和左下角策略总是在恒定的位置观察一瞥。教师（一个近似的上限）和我们的GliTr定位信息的一瞥基于过去的帧和一瞥，分别。(a)（ b ）第（1）款图6：GliTr在（a）SSv2和（b）Jester上选择的随时间增加（光栅扫描顺序）的瞥见区域的直方图。回想一下，GliTr在预定位置观察第一次一瞥，然后进行主动选择。SSv2和Jester。我们在图4中可视化了GliTr在SSv2和Jester的示例视频中选择的片段。完全空间可观测基于一瞥的离线模型。我们在表1中将我们的GliTr与以前的基于一瞥的离线动作识别模型进行了比较。我们注意到，直接比较这些方法是不公平的，因为以前的模型均匀高斯中心左下角教师GliTr（我们的）rs）r（欧GliTEFTOML她BottTEAC儿美分ORM锡安UnifGau准确度（%）准确度（%）3420××× ×≈×××方法在线/离线？观察全帧？[41]第四十二话：一个人粗略尺寸#帧像素数准确度（%）粗略尺寸#帧像素数准确度（%）美国[62]线下是的144×144160×160176×176128×128144×144160×160176×17696×96（×2）mm96×96（×2）mm96×96（×2）mm8+128+128+128+128+128+128+12812161M1M1M1M1M1M1M401K602K803K系列59.7060.2060.7059.6060.5060.8061.3059.5061.0062.00---128×128176×-176-80×80（×2）mm96×96（×2）mm128×128（×2）mm---8+128+12--八个1216---1M1M--401K602K803K系列---96.6096.90--95.5095.8096.10AdaFocusV2 [64]线下是的[25]§线下是的GliTr（我们的）在线没有64×641666K38.2464×64833K84.0396×9616十四万七千47.5696×96874K91.15128×12816262K53.02128×1288131K93.91表1：与基于一瞥的动作识别模型的比较。我们计算通过不同方法检测到的像素数量来执行识别。以前的方法是离线的，使用完整的帧来定位信息瞥见和识别动作。GliTr是一个在线模型，只观察到一瞥，而不是完整的帧。GliTr实现了具有竞争力的性能，在观察到的总面积中具有显著的节省AdaFocus [62]和AdaFocusV2 [64]首先观察8帧以定位有用的瞥见，然后对另外12帧进行采样以提取瞥见，由于其离线性质，这需要提前感知总共20帧。§结果基于[25]中的图13。CIGFNet每帧观察两次。有关与在线方法的比较，请参见图7。还观察完整的帧。此外，与离线AP不同，这种方法最初观察一个完整的视频，并根据当前、过去和未来的帧在t时选择一个信息性的一瞥，我们的GliTr -一个在线模型-只依赖于过去的信息来定位当前帧中的一瞥。此外，以前的方法使用从完整帧收集的全局信息来定位瞥见和预测动作;然而，GliTr仅使用本地信息。然而，我们包括这个分析，以强调储蓄-50403020100的情况。20的情况。40的情况。60的情况。81 .一、0806040200的情况。250的情况。500的情况。751 .一、00GliTr在获得认可的观察面积方面取得的成就，同时仍实现了具有竞争力的性能，时间观测率（一）时间观测率(b)带部分观察结果。我们计算和比较的像素数感测的各种方法来执行动作识别。AdaFocus [62]和AdaFocusV2 [64]从完整视频中均匀采样8帧以预测瞥见位置，然后均匀采样另外12帧以提取瞥见。由于它们的离线性质，它们总共需要提前感测20个完整帧（20（224 224）1M像素）。另一方面，GFNet [25]从同一组完整的帧中定位和提取一瞥。当与AdaFocusV2的大小为128 128的一瞥，我们的GliTr减少了近74%和87%的感应量，同时只损害约6%和3%的准确性SSv2和Jester，分别。此外，虽然GFNet在SSv 2和Jester上的大小为96 - 96的一瞥中表现出了近14.4%和4.7%的GliTr，但与GFNet（分别为16帧和12帧）相比，GliTr（分别为16帧和8帧）在这些数据集上减少了近82%和88%的感知量。我们强调，GFNet以离线方式观察全帧和每帧两次瞥见，而GliTr以在线方式观察每帧只有一次瞥见。图7：与早期行动预测模型的埃尔斯（a）SSv2和（b）Jester。 [38]第38话[52] 和TRN [70]基于完整帧预测早期动作，GliTr基于早期一瞥预测动作。早期行动预测模型。我们还将GliTr与图7中的早期行动预测模型进行了比较。我们强调，这些方法观察整个框架（即。全局信息）;而GliTr仅部分地通过一瞥（即，当地信息）。对于SSv 2数据集，我们考虑Swin-B [38] 和 TemPr [52] 。我们引用了来自 [52] 的Swin-B结果，他们评估了Swin-B在早期行动预测之前（即，利用预训练模型的直接推理）以及在对初步视频进行微调之后。请注意，在96 96和更高的尺寸下，GliTr的表现优于针对早期动作预测进行微调的Swin-B。此外，GliTr也跑赢了TemPr，当两者都观察到早期70%的视频时，大小为128 128的对于Jester数据集，GliTr在早期行动预测方面优于TRN [70]，其大小为9696及更高。结果表明，GliTr的早期行动预测只使用本地信息的效率TemPrSwin-B（仅推理）Swin-B（微调）GliTr -64×64（我们的）GliTr - 96×96（我们的）GliTr-128×128（我们的）TRNGliTr - 64×64（我们的）GliTr - 96×96（我们的）GliTr - 128×128（我们的）准确度（%）准确度（%）3421^^^^ ^您的位置：^^^LLC∼50403020101 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16平均一瞥次数（一）806040201234567 8平均一瞥（b）第（1）款1 3 5 7 9 11 13 15时间t1 3 5 7 9 11 13 15时间t1 3 5 7 9 11 13 15时间t图9：提前退出的GliTr。我们显示准确性与每个视频中GliTr看到的平均瞥见次数，(a)(b)（ c ）第（1）款图8：SSv2数据集上时空一致性目标的消融研究。(a)当使用训练目标的不同组合进行训练时GliTr的准确性（b）教师的准确性与上述变体所选择（c）当用均匀随机策略测试时，GliTr的上述变量的准确性我们显示5次独立运行的平均值±5×标准差预测概率> γ的类。（a）SSv2和（b）Jester。5.3.提前退出我们将GliTr扩展到需要及时决策的应用程序。当GliTr做出足够自信的预测时，我们终止感知并得出结论。我们使用最大值来评估置信度，预测类logits，Ct=max（p（yt））和e，当5.2.时空一致性为了证明所提出的时空训练目标的价值我们使用以下训练目标的组合来训练GliTr的四种变体：使用Lcls的GliTr基线，ii）使用Lcls+L空间的GliTr空间，iii）使用Lcls+Ltemporal的GliTr temporal，以及iv）使用 cls + spatial + temporal 的我们的默认变体GliTrspatiotemporal。请注意，上述变体具有相同的架构和操作;只是它们的训练目标不同。图-图8（a）示出了结果。我们观察到，在训练目标中仅包括空间一致性或仅包括时间一致性在t =16时将GliTr的准确性提高此外，包括空间和时间一致性提供了约10%的最高改进。了解改进的来源，这两个一致性损失，我们再进行两个实验。首先，我们使用图8（b）中的公正教师模型评估了上述版本的GliTr学习的一瞥选择策略我们观察到更好的性能GliTr时，空间一致性包括在训练目标，表明空间一致性有助于GliTr学习更好的一瞥选择策略，从而提高其性能。其次，我们使用图8（c）中的公平均匀随机策略评估上述四个版本的GliTr我们观察到，当我们在训练目标中包括时间一致性时，GliTr为均匀随机策略提供了最高的性能，这表明时间一致性通过在部分可分辨性下学习更好的分类器来提高GliTr的性能。我们在补充材料中对教师模型进行了不同的培训程序。GliTr实现置信度t> γ。我们在图9中显示了不同γ下GliTr的性能。我们观察到一个权衡之间的瞥见的大小和所需的信心预测瞥见的平均GliTr在早期通过较大的一瞥尺寸实现了较高的置信度，因此需要较少的一瞥来实现特定性能。虽然持续感知提高了GliTr没必要6. 结论我们开发了一种新的在线动作预测模型，称为Glimpse Transformer（GliTr），该模型仅通过瞥见部分地观察视频帧，并仅基于空间和时间上不完整的观察来预测正在进行的动作它根据过去观察到的一瞥来预测当前帧的信息性一瞥位置。没有任何地面真相的一瞥位置，我们训练GliTr使用一种新的时空一致性目标。在Something-Something-v2（SSv 2）数据集上，提出的一致性目标比基于交叉熵的基线目标的准确性高出约10%此外，我们建立了空间一致性有助于GliTr学习更好的一瞥选择策略，而时间一致性提高了部分可观测性下的分类性能。虽然从未完全观察过帧，但GliTr在SSv2和Jester数据集上的准确率分别为53.02%和93.91%，并将每帧的感知面积减少了67%。最后，我们还展示了早期行动预测所需的一瞥大小和一瞥数量之间的权衡。GliTr适用于轻型、低成本具有小视场相机的设备。GliTr基线GliTr空间GliTr时间GliTr时空354040303030253820204137201540363941351010103813 161415161213141516141512424344γ=0.7γ=0.8γ=0.9γ=0.6γ=0.8γ=0.9γ=0.5γ=0.7γ=0.6γ=0.5γ=0.4γ=0.4γγ = 0γ7=0γ。=80.9=0.6γ=0.5γ=0.3γ=0.3γ=0.4γ=0.3γ=0.2γ=0.2γ=0.2γ=0.1γ=0。0γ=0.1γ=0.1γ=0.0γ=0.0GliTr -64×64GliTr -96×96GliTr-128×128准确度（%）γ=0.8γ=0.7γ =0.8γ = 0γ6=0.7γγ=0.5γ=0.7γ = 0γ5=0.6γγ=0.8γ=0.9γ=0.9γ=0.9=0.4=0.6γ=γ0=. 304γ=0.5γ=0。3γ=0.4γ=0.2γ=0。2γ=0.3γ=0.2γ=0.1γ=0.1γ=0.1γ=0.0γ=0.0γ=0.0GliTr -64×64GliTr -96×96GliTr -128×128准确度（%）准确度（%）3422引用[1] Gustavo Aguilar ， Yuan Ling ， Yu Zhang ， BenjaminYao，Xing Fan，and Chenlei Guo.从内部表征中提炼知识。在AAAI人工智能会议论文集，2020。[2] Anurag Arnab ， Mostafa Dehghani ， Georg Heigold ，Chen Sun，MarioL ucˇic´，andCordeliaSchmid. Vivit：视频视觉Transformer。在IEEE/CVF国际计算机视觉会议，第6836[3] Jimmy Ba、Volodymyr Mnih和Koray Kavukcuoglu。具有视觉注意的多目标识别2015年，国际会议[4] Philip Bachman，Ouais Alsharif，and Doina Precup. 学习伪合奏。神经信息处理系统进展，27：3365[5] Fabien Baradel Christian Wolf和Julien Mille 人的动作识别：基于姿势的注意力将注意力吸引到手。在IEEE计算机视觉研讨会国际会议论文集，第604-613页[6] Fabien Baradel ， Christian Wolf ， Julien Mille ， andGraham W Taylor.一瞥云彩：从非结构化特征点识别人体活动。在IEEE计算机视觉和模式识别会议论文集，第469-478页[7] 大卫·贝特洛、尼古拉斯·卡利尼、伊金·D·库布克、亚历克斯·库-拉金、孙奇赫、张涵和科林·拉菲尔。混音-匹配：具有分布匹配和增强锚定的半监督学习。在2019年国际学习代表会议上[8] Yijun Cai ， Haoxin Li ， Jian-Fang Hu ， and Wei-ShiZheng.基于部分视频的动作预测的动作知识转移。在AAAI人工智能会议论文集，2019年。[9] Yu Cao ， Daniel Barrett ， Andrei Barbu ， SiddharthNarayanaswamy，Haonan Yu，Aaron Michaux，YuweiLin，Sven Dickinson，Jeffrey Mark Siskind，and SongWang.从部分观察到的视频中识别人类活动。在IEEE计算机视觉和模式识别会议论文集，第2658-2665页[10] Joao Carreira和Andrew Zisserman。你好，动作识别？新模型和动力学数据集。在IEEE计算机视觉和模式识别会议的论文集，第6299-6308页[11] Guangyi Chen，Jiwen Lu，Ming Yang，and Jie Zhou.学习用于基于视频的人重新识别的经常性3d注意。IEEETransactions on Image Processing，29：6963[12] 亚历克西斯·康诺和纪尧姆·兰普尔。跨语言语言模型预训练。神经信息处理系统的进展，32，2019。[13] Srijan Das，Arpit Chaudhary，Francois Bremond，andMonique Thonnat.人类行为识别的重点在哪里？2019年IEEE 计算机视觉应用冬季会议（ WACV ），第71IEEE，2019。[14] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei.ImageNet：一个大规模的分层模型年龄数据库IEEE/CVF计算机视觉和模式识别会议论文集，2009年。[15] AlexeyDosovitskiy，LucasBeyer，AlexanderKolesnikov，Dirk Weissenborn，Xiaohua Zhai，ThomasUnterthiner ， Mostafa Dehghani ， Matthias Minderer ，Georg Heigold，Sylvain Gelly，et al.一张图片相当于16x16个单词：用于大规模图像识别的变换器.在2020年的学习代表国际[16] Gamaleldin Elsayed ， Simon Kornblith ， and Quoc VLe.Sac- cader：提高视觉硬注意模型的准确性。在神经信息处理系统的进展，第702-714页[17] 克里斯托夫·费希滕霍夫。X3d：扩展架构以实现

下载后可阅读完整内容，剩余1页未读，立即下载