没有合适的资源?快使用搜索试试~ 我知道了~
记忆增强的多尺度视觉Transformer:优化长时间视频识别
13587××MeMViT:记忆增强的多尺度视觉Transformer,用于有效的长时间视频识别Chao-Yuan Wu*,1 Yanghao Li*,1 Karttikeya Mangalam1,2范浩奇1熊博1Jitendra Malik1,2 Christoph Feichtenhofer*,1*同等技术贡献1Facebook AI Research2加州大学伯克利分校摘要虽然今天大多数现有的视频架构只能处理5秒的视频,而不会遇到计算或内存瓶颈。在本文中,我们提出了一种新的策略,以克服10080604029.3 mAP基线模型ViTMeM长期模型28.5 mAP传统0 13 27 40临时支持这个挑战。 而不是试图处理更多的帧在一次像大多数现有的方法,我们建议处理视频在一个在线的方式和缓存“内存”在每次迭代。通过记忆,模型可以参考先前的上下文进行长期建模,而只有边际成本。基于这一思想,我们建立了MeMViT,一个记忆增强的多尺度视觉Transformer,它的时间支持比现有模型长30,计算量仅增加4.5%;传统方法需要多3,000%的计算才能做到这一点。在广泛的设置中,MeMViT所支持的增加的时间支持一致地带来了识别准确性的大幅提高。MeMViT在AVA、EPIC-Kitchen- 100动作分类和动作预测数据集上获得了最先进的结果代码和模型将公开提供。1. 介绍我们的世界随着时间的推移不断发展不同时间点的事件计算机视觉有望理解这个故事,但今天的系统仍然非常有限。它们准确地解析独立快照或短时间段内的视觉内容(例如,5秒),但不超过这一点。那么,我们如何才能实现准确的长期视觉理解呢?未来肯定会有很多挑战,但拥有一个实际上在长视频上运行的模型可以说是重要的第一步。在本文中,我们提出了一种基于记忆的方法来建立有效的长期模型。中心思想是(a) 传统的长期模式与我们的方法MeMViT输出…时间(b) MeMViT图1. MeMViT是一类视频模型,可以有效地对长视频进行建模。它具有比transmitting方法明显更好的权衡,transmitting方法通过增加模型输入中的帧的数量来增加视频模型的时间支持(图1)。1a)。MeMViT通过分层地参与先前缓存的过去的“记忆”来实现有效的长期建模(见第1b段)。当我们以在线方式处理视频时,我们简单地保持“记忆”,而不是针对整个长视频进行联合处理或训练在任何时间点,模型都可以访问长期背景的先验记忆由于记忆是为了实现这个想法,我们建立了一个具体的模型 , 称 为 MeMViT , 一 个 内 存 增 强 的 多 尺 度 视 觉Transformer。MeMViT处理30个输入持续时间比现有模型长,计算量仅增加4.5%相比之下,通过增加数量建立的长期模型计算(GFlops)13588××帧的误码率将需要超过3,000%的计算。图1a给出了计算/持续时间的权衡比较。更具体地说,MeMViT使用Transformer [ 68 ]的当模型在一个剪辑上运行时,“查询”关注一组扩展的“键”和“值”,它们来自当前时间和过去。当在多个层上执行此操作时,每一层都进一步向下关注过去,导致明显更长的感受野,如图所示。1b.为了进一步提高效率,我们联合训练了一个压缩模型来减少内存占用。直觉上,这允许模型学习哪些线索对未来的识别很重要,并只保留那些线索。我们的设计灵感来自人类如何解析长期视觉信号。人类不会在很长一段时间内同时处理所有相反,人类以在线方式处理信号,将我们所看到的与过去的记忆联系起来以理解它,并记住重要的信息以供将来使用。我们的研究结果表明,增强视频模型的记忆和实现远程注意力是简单和非常有益的。在AVA时空动作局部 化 [31] 、 EPIC-Kitchen-1001 动 作 分 类 [13 , 14] 和EPIC-Kitchen-100 动 作 预 期 数 据 集 [13 , 14] 上 ,MeMViT相对于其短期对应物获得了较大的性能增益,并实现了最先进的结果。我们希望这些结果对社区有帮助,并让我们更接近理解我们的视觉世界所讲述的有趣的漫长故事。2. 相关工作视频理解模型旨在解析视频中的时空信息。在过去的十年中,流行的方法包括使用手工特征的经典作品[12,16,20,35,38,52,6933,41,44,49,61]和2D-[72,73,79]或3D-CNN[4,23、24、27、44、44、53、63、66、67、75、80、83]。 更多re-目前,建立在Transformer [68]架构上的方法(视觉转换器)已经显示出有希望的结果[2,3,22,48,51]。视觉转换器[2,18,19,22,30,47,64,65,81]将图像视为一组补丁,并使用基于转换器的架构[68]对其相互作用进行建模。最近的工作增加了视觉先验,如多尺度特征层次结构[22,30,47,74,81]或局部结构建模[9,18,47]已被证明是有效的。它们也已经从图像推广到视频域[3,22,48,51]。在这项工作中,我们基于多尺度视觉Transformer v2(MViTv2)架构构建我们的架构[22,43]1EPIC-Kitchen-100 数 据 集 根 据 Creative Commons Attribution-NonCommercial 4.0 International License进行许可。作为一个具体的例子,但一般的想法可以应用到其他基于ViT的视频模型。长期视频模型的目标是在长视频中捕获长期的模式(例如,>30秒)。为了降低高计算成本,一种广泛研究的工作直接对预先计算的特征进行建模,而不联合训练骨干[1,17,29,78,82]。另一个潜在的方向-tion设计了有效的模型[32,37,45,79,83,85],使覆盖更多的帧可行。与我们的工作更相关的是较少研究的中间地带,它构建了一个类似记忆的设计,仍然允许端到端的训练,但大大减少了开销[8,39,40,77]。例如,基于“长期特征库”的方法扩展了然而,这些方法仅捕获最终层特征,并且需要两个主干、两轮训练和推理计算。MeMViT灵活地对任意层的特征进行建模,对标准训练方法的更改最小,并且仅需要一个独立的主干。在线视频建模在机器人、AR/VR或视频流等应用中自然出现。 虽然可以使用基于图像的方法(例如,[57]第五十七话视频逐帧,考虑长期上下文,大多数现有的作品使用因果卷积[6,10,36],RNN [17,46]或特征融合[8,84]。在这项工作中,我们探索了基于注意力的设计,它直接引用过去的任意时间点,而不需要像RNN那样争取获得性,也不需要像CNN那样受到内核大小的限制。NLP中的Transformer设计 也与我们的方法有关。MeMViT从远程语言模型中获得灵感[11,55,56,59,60],这些模型也缓存远程“内存”。与这些作品不同的是,视频模型处理的张量明显更大(T W H),使得缓存和出席内存昂贵,如果不是禁止的。NLP中的先前工作试图学习一个模块来压缩内存,但通过时间反向传播(BPTT)的要求使其具有挑战性[55]。Rae等人[55]因此使用自动编码器进行内存压缩,但无法针对最终任务进行优化。在本文中,我们提出了一个3. 预赛在 本 文 中 , 由 于 其 强 大 的 性 能 , 我 们 基 于MViTv2[22,43]架构构建MeMViT,但本文提出的技术可以应用于其他基于ViT的架构。为了完整起见,我们回顾ViT和MViT,并在下面介绍符号。13589输出阶段4层AttnT×H×W23232V(tK(tQ(t阶段3层…T×H×W线性V线性K线性Q21616阶段2层…V(t−1)K(t−1V(t−3)K(t−3) V(t−2)K(t−2) V(t−1)K(t−1)2 8 8阶段1层T×H×WV(t−3)K(t−3)V(t−2)K(t−2)ˆˆˆFVFKT×H×W压缩存储器2 4 4未压缩数据层内存K(t)Q<$(t)合并液K合并液 QW HV(t−1)K(t−1)从早期iter缓存要在此iter缓存其他张量V(t)池VX(t早期迭代当前迭代迭代∈P图2. MeMViT是一种记忆增强的多尺度视觉Transformer网络,用于长期视频识别。MeMViT将长视频视为一系列短剪辑,并按顺序处理它们。(连续迭代查看连续剪辑。)“Memory” obtained from 请注意,在当前迭代中,我们缓存未压缩的内存,这些内存只会在下一次迭代中被压缩详情见正文左:模型概述。右:详细的MeMViT注意力设计。Vision Transformers(ViT)首先将图像嵌入到N个不重叠的补丁中(使用步幅卷积),并将它们打包到张量X0RN×d中。然后,Transformer层的堆栈对这些补丁之间的交互进行Transformer层的中心组件是这两个变化显著提高了模型的性能和效率。在本文中,我们基于稍微修改的MViT构建我们的方法,其中我们交换线性层和池化的顺序:注意力操作,它首先线性地投射一个内-Q<$=PQ(X),K<$=PK(X),V<$=PV(X)(3)将张量X设为查询Q、键K和值V:2Q=Q<$WQ, K=K<$WK, V=V<$WV(四)Q=XWQ,K=XWK,V=XWV,(1)并执行自我注意操作Z:=Attn(Q,K,V)=Softmax.QK<$/d<$V,(2)得到输出张量Z ∈ RN ×dout.多尺度视觉变换器(MViT)基于两个简单的想法改进了ViT。首先,MViT不是在整个网络中具有N的固定分辨率,而是通过多个阶段学习多尺度表示,从较小块的细粒度建模(具有大N和小d)开始到后期阶段中的较大块的高级建模(具有小N和大d)。阶段之间的转换通过跨越池化完成。第二,MViT使用池化注意力(pooling attention),池化Q、K和V的时空维度以大幅降低注意力层的计算成本,即,Q = PQ(XW Q),K =P K(XW K),V = PV(XW V)。[2]为了清晰起见,这里我们省略了层索引。…13590××这允许线性层在较小的张量上操作,从而在不影响精度的情况下降低计算成本有关此变更的消融研究,请参见补充材料。在下一节中,我们将看到这种变化如何使MeMViT更有效。为了构建更长持续时间的视频模型,大多数最先进的方法只是增加输入剪辑中的帧数[22,24,75]。该策略显著增加了在下一节中,我们将介绍构建更有效的长期视频模型的方法4. MeMViT用于有效的长期建模我们的方法很简单。我们把一段视频分割成一系列的短T HW剪辑并顺序处理它们(用于训练和推理)。连续迭代会看到连续的剪辑。我们缓存当在时间步t处理当前剪辑时,模型可以访问来自早期迭代t ′ t的先前缓存的<图2示出了概述。13591.ΣO T2.ΣV4.1. 记忆、注意和缓存基本的注意力。实现这一思想的一种简单方法是将Transformer 架构中的“k eys”K <$和 “values”V<$ 视 为 一 种 存 储 形 式 , 并 在 当 前 迭 代 t 中 扩展 K<$ ( t ) 和 V<$ ( t ) 以 包 含 K<$(t ′)。和从t-M到t-M的较早迭代t′缓存的V′(t′)t-1,即,算法1类似PyTorch风格的MeMViT注意力伪代码。class MeMViTA attention():# pool_q,pool_k,pool_v:池化层# lin_q、lin_k、lin_v:线性层# f_k,f_v:压缩模块self.m_k = []#缓存内存键 self.m_v = []#缓存内存值 self.max_len#最大内存长度K<$(t):=100g.K<$(t-M),的。-是的-是的,sg.K<$t−1,K<$(t)、(五)def forward(x):#计算池化Q、K和Vq,k,v = pool_q(x),pool_k(x),pool_v(x)V<$(t):=10sg.V<$(t-M),. -是的-是的 ,sg.V<$(t−1),V<$(t),(6)其中方括号表示沿着令牌维度的级联。利用该公式,查询Q不仅涉及关于当前时间步t的信息,而且还涉及来自之前多达M步的信息。[3]在这里,请注意,存储器是随着时间的推移分层构建的(见图1)。1b)和我们先前的键和值存储器保存从先前时间步存储的信息。训练和推理的额外成本仅通过GPU内存进行内存缓存和扩展注意力层中的额外计算。网络的所有其他部分(MLP等)保持不变。 的在O(M)中,成本随着时间支持而增长,而不是在这个基本实现中,我们缓存完整的键和值张量,这些张量可能包含对未来识别无用的冗余信息。在下一节中,我们将讨论压缩内存以只保存“重要”信息的方法4.2. 存储器压缩简单内存压缩。有许多潜在的方法来压缩存储器,但是一种直观的设计试图联合训练压缩模块(例如,可学习的池化运算符),fK和fV,以分别减小K和V张量#压缩内存cm_k = f_k(m_k[-1])cm_v = f_v(m_v[-1])#对增强的键和值执行注意z = attn(lin_q(q),lin_k(cat(self.m_k[:-1] + [cm_k,k])),lin_v(cat(self.m_v[:-1] + [cm_v,v])),)#缓存新压缩的内存self.m_k[-1] =cm_k.detach()self.m_v[-1] =cm_v.detach()#缓存当前未压缩内存self.m_k.append(k.detach())self.m_v.append(v.detach())#如果len(self.m_k)> self.max_k,则保持内存的最大长度:self.m_k.pop_first()self.m_v.pop_first()返回zcat:沿token维的连接。消耗和成本,使得获得这样的模型是昂贵的。对于具有较大M的长期建模模型,成本甚至更高4流水线内存压缩。为了解决这个问题,我们提出了一种流水线压缩方法。我们的见解是,虽然压缩模块fK和fV需要在未压缩的内存上运行并进行联合优化,以便模型学习哪些是重要的,但学习的模块可以在所有过去的内存中共享。因此,我们建议每次只训练一步来压缩内存,即,K<$(t):=fK.s g(K<$(t-M))<$,. -是的-是的 ,fK.sg(K<$(t−1))<$,K<$(t)<$,同样地,V′(t)也是如此。有了这个设计,我们只需要K<$(t):=K-是的-是的,K< $(t−2),fK.SG.K<$t−1,K<$(t),高速缓存并加入“压缩”存储器y,f K。K<$t′和f.V′(t′),在感染时,从而减少了同样地,V′(t)也是如此。图的右手侧。图2示出了该设计。注意,这里仅存储SG前一个步骤中的缓存未被缓存K<$(t−1)理论足迹和计算成本。 然而,在训练时间,它需要联合训练所有的3注意,我们对K<$andV< $而不是KandV进行操作,因此,与传统的缩放方法一样。13592.Σ压缩,并用于在当前迭代中训练fK。第 K<$ (t′ )=sgfK (K<$( t′ ))对于t′从t−M到t−2是从早期迭代缓存的压缩内存。Al-出租m1提供了这个过程的伪代码随后的线性层将在注意力操作之前转换特征状态。在初步实验中,我们发现这表现得更好。[4]我们将在第5.2节中进行更多的实证分析。13593××∈1210860204060543020406021 .一、5102040600的情况。250的情况。20的情况。150的情况。102040601401201008060020406029282760708090临时支持(一)临时支持(b)第(1)款临时支持(c)第(1)款临时支持(d)其他事项临时支持(e)GFLOPS(f)第(1)款图3. 缩放策略的比较。在训练GPU内存方面,使用MeMViT进行扩展比其他策略获得了更好的权衡(图11)。3a)、推理GPU存储器(3b)、训练运行时间(3c)、推理运行时间(3d)和FLOP(3e),同时更准确(3f)。(The广泛使用的所有方法都使用相同的硬件和软件实现。通过这种方式,MeMViT仅在“基本”MeMViT上增加但是,它大大减少了所有其他步骤的缓存和注意力成本(例如,16、默认)。在第5节中,我们将表明,总体而言,这导致了显着的节省,同时保持高精度。我们的设计的一个吸引人的特性是,我们的视频模型的感受野不仅随着M而增长,而且随着层数L而增长,因为每一层都进一步向下进入过去,因此随着深度分层地增加时间感受野。参见图lb的图示。4.3. 实现细节数据加载。在训练和推理过程中,我们执行连续帧块(剪辑)的顺序读取 这是在广泛的应用中,例如,机器人或实时流媒体视频上的识别。在我们的实现中,我们简单地连接所有视频并按顺序读取它们。在高速缓存的存储器来自先前视频的情况下(即,在视频边界),我们将存储器屏蔽为零。压缩模块设计。压缩模块可以是减少令牌数量但保持维度d的任何函数。在我们的实例化中,我们选择了一个可学习的池[22],因为它的简单性和强大的性能,但其他选择也是可能的。我们将在§5.2中研究不同下采样因子的影响。位置嵌入。在原始的MViT [22]中,将绝对位置嵌入添加到网络的输入中,并且每个剪辑使用相同的位置嵌入。因此,位置嵌入只能指示剪辑内的位置,但不能指示多个剪辑之间的顺序。因此,重要的是采用相对位置嵌入(如MViTv2 [43]中所使用的),以便不同时间点的内存与查询具有不同的相对距离5. 实验在本节中,我们将首先比较MeMViT与第5.1节中的其他策略的缩放比例,然后在第5.2节中消融MeMViT的不同设计选择。我们在AVA时空动作本地化数据集[31]上执行这些实验,该数据集由从电影中采样的299个15分钟长的视频组成。在第5.3节中,我们将研究我们在AVA上开发的方法如何在多个其他任务和数据集上推广。最后,我们将在§5.4中将MeMViT与现有技术方法进行比较。实 现 方 式 的 Our default MeMViT model is based onMViTv2-B [43] (16 layers) with 16-frame input clips,sampled at a temporal stride of 4 (denoted ‘16 4’ in modelspecifications).根据之前的工作[22-AVA模型使用SGD使用128的批量大小训练30个epoch。我们应用随机水平翻转和大小为2242的随机裁剪,从调整大小的帧中,使短边[256,340]作为数据增强。我们报告了2242种作物的FLOPs。我们使用余弦学习率调度,基本学习率为0.6,权重衰减为10−8。所有运行时间和内存使用量都是在同一台机器上测量的,该机器使用NVIDIA 16GB Quadro GP100 GPU,批量大小为1。Kinetics预培训详细信息、AVA人员检测器规格和其他详细信息可参见补充材料。所有方法都是使用PySlow- Fast实现的[21]。5.1. 扩展策略我们首先将MeMViT的缩放行为与广泛使用的 在图3中,我们可以看到,通过增加M,MeMViT可以扩展到更长的时间支持,同时大大降低训练GPU内存(图3)。图3a)、推理GPU存储器(3b)、训练运行时(3c)、推理运行时(3d)和FLOP(3e)。图3f表明,在相同的计算成本下,我们的基线MeMViT(不含压缩)MeMViT训练GPU内存(GB)测试GPU内存(GB)列车运行时间(s)Test iter time(s)GFLOPS最大平均接入13594×××× ×感受野 GFLOPsmAP w/o 1×57.427.01 8×58.1 28.72 16×58.729.33 24×59.3 29.24 32×60.0 28.8(a) 每层存储长度压缩系数GFLOPsmAP无73. 0 28. 91× 2× 2 62.3 29.02× 1× 1 65.3 29.12× 2× 2 59.9 29.02× 4× 4 58.2 28.34× 2× 2 58.729.34× 4× 4 57.8 28.6(b) 存储器压缩系数Aug layers GFLOPsmAP all 60.229.175%(统一)50%(统一)25%(统一)早期58.4 28.6中部58.8 28.7后期57.8 29.1(c) 内存扩充层表1. 消融实验。我们对(a)进行详细消融:每层存储器长度,(b):压缩模块下采样因子,以及(c):来增强记忆。所有结果都是在AVA数据集[31]上进行的,并使用Kinetics-400 [34]进行预训练。我们看到MeMViT可以增加感受野,从而提高性能,显然在各种不同的设计选择上只有很小的计算成本。灰色行表示默认选项。(mAP%)。方法也获得了明显更好的精度。我们还看到,我们的压缩方法带来了一个明确的权衡改进的“基本”版本,不压缩内存。这些结果表明,我们的基于内存的设计与压缩是一个有前途的方向,建立实用和强大的长期视频模型。5.2. 消融实验每层内存长度。表1a比较了模型64200 100 200临时支持(一)4200 100 200临时支持(b)第(1)款具有不同的每层存储器长度(M)。我们看到,所有增强记忆的模型都比基线短期模型有明显的改善(mAP绝对有趣的是,行为对记忆长度的选择使用每层记忆长度为2,这对应于16个更大(36秒)的感受野,AVA的性能最佳。在以下AVA实验中,我们使用M=2作为默认值。内存压缩系数。表1b比较了具有不同下采样因子的压缩模块。我们看到,时间下采样可以比空间下采样(2)稍微更积极(4),同时实现强大的性能。有趣的是,我们的压缩方法实际上比没有压缩的模型提高了精度这支持了我们的假设,即学习由于其强大的性能,我们使用下采样因子4 2 2(分别用于时间,高度和宽度)作为默认值。记忆增强层。在表1c中,我们探讨了是否需要在所有注意力层增加记忆,如果不需要,在哪些层增加记忆最有效。有趣的是,我们看到所有层次的注意记忆都是不必要的。事实上,增加50%的层(即,在正常自我和记忆增强之间交替5有趣的是,在语言建模的背景下,NLP文献中也有类似的发现[56]。图4. 压缩策略。即使使用我们相对轻量级的基于池的压缩模块,流水线策略在GPU内存使用方面也已经显示出明显更好的扩展行为(图10)。4a)和运行时间(图第4b段)。注意力)导致最佳性能,同时节省计算。此外,我们观察到,将它们均匀地放在整个网络中比将它们集中在早期(阶段1 - 2)层、中间(阶段3)层或晚期(阶段4)层要好一些。压缩策略。最后,我们比较了我们的流水线压缩策略的缩放行为与图中没有流水线的基本版本。4.第一章我们可以看到,即使使用我们相对轻量级的基于池的压缩模块,流水线策略在GPU内存使用方面也已经显示出明显更好的扩展行为(图10)。4a)和运行时间(图第4b段)。因此,我们在MeMViT中默认使用它我们希望更好的缩放模型将有助于未来的研究扩展到更长期的视频模型或更容易地探索更先进的压缩模块。5.3. 概化分析到目前为止,我们主要基于AVA动作定位数据集[31]上的MViTv 2-B [22]默认主干开发和分析了我们的方法。接下来,我们研究MeMViT无管线w/pipeline(默认)训练GPU内存列车运行时间13595××××前模型地图GFLOPs参数火车(%)(男)任务示范行动动词名词尾部作用尾动词尾名词K400 MViTv2 -16,16 × 427.057.434.5MeMViT-16,16× 429.358.7 35.4K600 MViTv2 -24,32 × 3 30.1204.451.3MeMViT-24,32× 332.3211.7 52.6K700 MViTv2 -24,32 × 3 32.5204.451.3MeMViT-24,32× 334.4211.7 52.6(a) 额外的预训练数据集和模型大小。(b) 其他数据集任务表2. 泛化分析我们表明,我们的方法在表2a中的不同模型大小和预训练数据集以及表2b中的数据集和任务中带来了一致的收益。根据标准实践,通过AVA的 mAP(%)、EPIC-Kitchen分类的top-1(%)和EPIC-Kitchen预期的类平均召回率@5(%)[25]测量性能模型预-火车地图中心(%)充分FLOPs(G)Param(男)慢快,4× 16,R50 [24]慢快,8× 8,R50 [24]慢快,8× 8,R101 [24]吴,SFR50 [7]MViTv1-B,16× 4 [22]MViTv1-B,32× 3 [22]MViTv1-B,64× 3 [22]MViTv2-16,16× 4 [43]MeMViT-16,16× 4K40021.922.723.825.424.526.827.326.228.5-------27.029.352.696.9137.7147.570.5169.8454.757.458.733.733.853.0- 三十六点四36.436.434.535.4慢速快速,8× 8 R101+NL[24]慢速快速,16× 8 R101+NL[24][23]第二十三话吴,SFR101 [7]MViTv1-B,16× 4 [22]MViTv1-B,32× 3 [22]MViTv1-B-24,32× 3 [22]对象Transformer [78]ACAR 8× 8,R101-NL [50]MViTv2-24,32× 3 [43]MeMViT-24,32× 3MeMViT-24,32× 3,↑3122K60027.127.527.428.326.127.528.731.0-二十九点四31.532.8--------31.430.132.333.6146.6296.348.4251.770.4169.8236.0243.8293.2†204.4211.7620.059.259.211.0- 三十六点三36.452.986.2118.4†51.352.652.6美国保险协会[62][50]第五十话MViTv2-24,32× 3 [43]MeMViT-24,32× 3MeMViT-24,32× 3,↑3122K70032.3-31.833.534.4-33.332.534.435.4-212.0†204.4211.7620.0-107.4†51.352.652.6表3.与AVA v2.2上的先前工作的比较[31]。 †:ACAR不提供参数和触发器,但我们估计了一个仅计算其“主干”的下限,其中包含两个“8 × 8 R101-NL”(或“8 × 8 R101”)用于K600-(或K700-)预训练的SlowFast主干。额外的预训练数据集和模型大小。我们首先检查我们的方法如何推广到不同的预训练数据集和模型大小。特别是,我们从K400数据集[34](400个类; 24万个视频)到K600数据集[4](600个类; 387 k个视频)和K700数据集[5](700个类; 522 k视频),以及我们的16层基础模型, 4个输入(表示为到24层,32 3个输入(表示为32 3 ')。有关MeMViT-24的详细型号规格,请参见补充材料。训练配方保持不变。表2a显示,尽管设置不同,MeMViT提供了与原始短期模型(MViTv2)一致的性能增益,表明我们的方法具有良好的AVA Loc.MViTv2 27.0---MeMViT 29.3(+2.3)---EPIC Cls.MViTv2 44.6 69.7 56.1---MeMViT 46.2(+1.6) 70.6(+0.9)58.5(+2.4) ---史诗预言。 MViTv2 14.6 29.3 31.8 12.222.625.5MeMViT 15.1(+0.5) 32.8(+3.5) 33.2(+1.4) 13.2(+1.0)26.3(+3.7)27.4(+1.9)13596×其他数据集和任务。 表2b列出了EPIC-Kitchen-100自我中心行为分类和EPIC-Kitchen-100行为预期的结果[13,14]。这里使用的模型与AVA所用的缺陷模型相同动作预测模型是一个因果版本,以确保模型输出不会看到“观察视频”之外的完整的模型和培训细节可在补充材料。请注意,由于目标动作上的严重运动模糊和遮挡,EPIC-Kitchild数据集中以自我为中心的视频的识别非常具有挑战性[13,14]。还要注意与AVA [ 31 ]中的视频相比的较大域差异,AVA [31]中包含具有不同相机运动的稳定电影内容。尽管存在差异,但我们看到,在AVA上开发的MeMViT在EPIC-Kitchen上也能很好地开箱即用如果我们仔细研究EPIC分类任务,我们会发现“名词”识别比“动词”识别更难,这可能是因为对象被手遮挡,模糊,甚至不在场景中。尽管如此,MeMViT显著提高另一方面,对于动作预测,预测动词实际上比预测名词更具挑战性,这可能是因为名词更持久,但动词可以更频繁地变化(考虑虽然使用短期模型,预测下一个5.4. 最先进的比较AVA数据集。 表3比较了MeMViT与AVA v2.2数据集上的先前工作[31]。 我们看到,所有预训练设置,MeMViT获得了显着更高的准确性比以前的工作,同时具有比较,13597××模型外部数据/参数总体看不见的尾部额外注释(M)动作动词名词动作动词名词动作动词名词TempAgg(RGB + Obj + Flow + ROI)[58]IN 1 K + EPIC框-14.7 23.2 31.4 14.5 28.0 26.2 11.8 14.5 22.5RULSTM(RGB + Obj + Flow)[26] IN1K + EPIC框-14.0 27.8 30.8 14.2 28.8 27.2 11.1 19.8 22.0TSN-AVT+(RGB + Obj)[28] IN21K + EPIC盒-14.8 25.5 31.8 11.5 25.5 23.6 12.6 18.5 25.8AVT+(RGB + Obj)[28] IN21K + EPIC盒-15.9 28.2 32.0 11.9 29.5 23.9 14.1 21.1 25.8概率--0.2 6.4 2.0 0.5 14.4 2.9 0.1 1.6 0.2TempAgg(RGB)[58] IN1K-13.0 24.2 29.8 12.2 27.0 23.0 10.4 16.2 22.9AVT(RGB)[28] IN21K 378 14.9 30.2 31.7-MeMViT,16× 4 K4005915.132.833.2 9.8 27.5 21.7 13.226.327.4MeMViT,32× 3 K700 21217.732.237.0 15.2 28.6 27.4 15.525.331.0表4. 与EPIC-Kitchen-100 Action Anticipation的先前工作比较[13,14]。根据标准方案[14],通过类别平均召回率@5(%)[25灰色表示使用额外模态的质询条目,例如光流或单独提取的对象特征; MeMViT仅使用像素,仍然优于所有像素。《训练前示范法》。动词名词运行-内存FLOPs参数时间(秒)(GB)(G)(M)MFormer [51]MeMViT,16 × 4K40046.2 70.6五十八点五0.161.758.7三十五点四[36]不适用47.7 72.257.30.858.3117.0 31.4MeMViT,32 × 3K60048.4 71.460.30.353.9211.7 52.6表5.与EPIC-Kitchen-100行动分类的先前工作比较[13,14]。通过前1分类准确度(%)测量的准确度最小或更小的FLOP和参数数。特别是,它优于ACAR[50] -最先进的如果我们进一步微调MeMViT(在2242作物上训练)在3122的更高分辨率上,单个模型达到35.4mAP。EPIC-Kitchen-100动作分类任务。 接下来,我们将与EPIC-Kitchen- 100分类的先前工作进行比较[13,14]。表5显示MeMViT再次优于所有先前的工作,包括基于CNN的方法[24,36,42,73]和基于ViT的方法[2,51]。特别是,之前的最佳方法MoViNet [36]也考虑了MeMViT的效果明显更好。还要注意的是,MoViNetTice [54]. MeMViT的性能明显优于MoViNet,同时速度快3倍,GPU内存低2-5倍。在获得高性能的同时,我们强调MeMViT使用更简单,更轻便的测试程序,只需顺序执行一遍视频,并通过平均池化聚合对目标片段进行的所有预测,而无需对测试片段进行多作物测试或过采样。EPIC-Kitchen-100 行 动 预 期 任 务 。 最 后 , 我 们 将MeMViT与EPIC-Kitchen-100预期的先前工作进行了比较[13,14]。在这里,我们使用在Kinetics- 400 [34]上预训练的无故障模型(MeMViT-16,16 4)以及在Kinetics-700 [5]上预训练的更大的MeMViT-24,32 3。表4显示MeMViT执行所有先前的工作,包括那些使用多种模态的工作,例如光流[26],单独训练的对象特征提取器[28]和大规模预训练(IN-2000)。21K [15]比K400多1060×今年的比赛获胜者AVT+ [28]使用了一个大型的基于ViT的骨干网,带有IN21K预训练,该预训练使用了辅助损失(例如,特征回归损失和动作识别损失)和对象特征。通过动作标签上的简单交叉熵损失,我们的长期MeMViT大幅优于AVT+(动作:+1.8%,动词:+4.0%,名词:+5.0%)。6. 结论长期视频理解是计算机视觉的一个重要目标。要实现这一目标,拥有一个用于长期视觉建模的实用模型是一个基本的先决条件。在本文中,我们表明,扩展现有的国家的最先进的模型,包括更多的输入帧不能很好地扩展。我们基于内存的方法MeMViT可以更有效地扩展,并实现更好的准确性。本文提出的技术是通用的,适用于其他基于变换器的视频模型。我们希望MeMViT将有助于未来的长期视频建模研究。TSN [73]IN1K33.260.246.0- --[58]第五十八话IN1K36.959.945.1- --[45]第四十五话IN1K38.367.949.0- --[24]第二十四话K40038.565.650.0- --[42]第四十二话K400-67.052.9- --IPL [76]K40041.068.651.2- --ViViT-L/16× 2[2]IN21K 44.0IN21K+K40043.166.466.756.856.5三四一零- -三百七十100109[51]第五十一话[36]第三十六话IN21K+K40044.5不适用44.567.069.158.555.1- -9590.498.3七十四点九38215.713598引用[1] Sami Abu-El-Haija、Nisarg Kothari、Joonseok Lee、PaulNat-sev 、George Toderici、Balakrishnan Varadarajan和Sud-heendra Vijayanarasimhan。Youtube-8 m:大规模视频分类基准。arXiv:1609.08675,2016。2[2] Anurag Arnab , Mostafa Dehghani , Georg Heigold ,Chen Sun,MarioLu c. ViV iT:视频视觉Transformer。在Proc.ICCV,2021中。二、八[3] Gedas Bertasius,Heng Wang,and Lorenzo Torresani.时空注意力是你理解视频所需要的全部在Proc.ICCV,2021中。2[4] Joao Carreira 、 Eric Noland 、 Andras Banki-Horvath 、Ch
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功