没有合适的资源?快使用搜索试试~ 我知道了~
13577×××VidTr:无卷积YanyiZhang1,2*,Xin yuLi1*,ChunhuiLiu1,BingShuai1,YiZhu1,Biagio Brattoli1,Hao Chen1,Ivan Marsic2 and JosephTighe11亚马逊网络服务;2罗格斯大学{xxnl,chunhliu,bshuai,yzaws,biagib,hxen,tighej} @ amazon.com;{ yz593,marsic} @rutgers.edu摘要我们介绍了视频Transformer(VidTr)与可分离的注意视频分类。与常用的3D网络相比,VidTr能够通过叠加注意力聚合时空信息,并提供更好的性能和更高的效率。我们首先介绍了香草视频Transformer,并表明变压器模块能够执行时空建模从原始像素,但与沉重的内存使用。然后,我们提出了VidTr,它减少了3.3的内存成本,同时保持相同的性能。为了进一步优化模型,我们提出了基于标准差的topK池注意力(池topK标准),它通过沿时间维度丢弃非信息特征来减少计算。VidTr在五个常用数据集上实现了最先进的性能,具有较低的计算要求,显示了我们设计的效率和有效性。最后,错误分析和可视化表明,VidTr是特别好的预测行动,需要长期的时间推理。1. 介绍我们介绍了视频Transformer(VidTr)与可分离的注意力,第一个基于变压器的视频动作分类架构,执行全球时空特征聚合。近年来,基于卷积的架构已经主导了视频分类文献[19,32,55],并且尽管是成功的,但是基于卷积的方法具有两个缺点:它们在每一层上具有有限的感受野;信息通过堆叠的卷积层缓慢地聚集,这是低效的并且可能是无效的[31,55]。注意力是克服这些限制的潜在候选者,因为它具有大的感受野,其可以被杠杆化用于时空建模。以前的工作使用的注意力建模的*同等贡献。视频,但仍然依赖于卷积骨干[31,55]。受最近变压器在NLP [12,52]和计算机视觉[14,47]上的成功应用的启发,我们提出了一种基于变压器的视频网络,该网络直接对原始视频像素施加张力以进行视频分类,旨在提高效率和性能。我们首先介绍了一个vanilla视频Transformer,它通过视觉转换器[14]从原始像素输入中直接学习时空特征然而,如[56]中所讨论的,Transformer相对于序列长度具有O(n2)复杂度。vanilla视频Transformer是内存消耗的,因为在批大小仅为1的16帧剪辑(224 224)上训练需要超过16GB的GPU内存,这使得它在大多数商业设备上不可行。受将3D卷积核分解为空间核和时间核的R(2+1)D卷积的启发[50],我们进一步介绍了我们的可分离注意力,它分别执行空间和时间注意力。这减少了内存消耗的3.3,灰没有下降的准确性。我们可以通过利用许多视频中的大部分在时间上具有冗余信息的事实来进一步降低系统的存储器和计算需求。这个概念已经在卷积网络的背景下进行了探索,以减少之前的计算[32]。我们建立在这个直觉,并提出了一个基于标准偏差的topK池操作(topK标准池),这减少了序列长度,并鼓励Transformer网络专注于代表性的帧。我们在6个最常用的数据集上评估了我们的VidTr,包 括 Kinetics400/700 , Charades , Something-something V2,UCF-101和HMDB-51。我们的模型在五个数据集上实现了最先进的(SOTA)或相当的性能,与以前的SOTA方法相比,具有更低的计算要求和延迟我们的错误分析和消融实验表明,VidTr在需要更长时间推理的活动(例如,在需要更长时间推理的活动)上比I3D工作得更好。做蛋糕vs. 吃蛋糕),这与我们的直觉一致13578这也启发我们将VidTr与I3D卷积网络集成,因为全局和局部建模方法的特征应该是互补的。我们表明,简单地通过集成将VidTr与I3D50模型(8帧输入)相结合可以导致在Kinetics 400上大约2%的性能改进。我们进一步说明了VidTr如何以及为什么通过使用注意力卷展[1]可视化可分离注意力来工作,并表明空间注意力能够集中在信息块上,而时间注意力能够减少重复/非信息时间实例。我们的贡献是:1. 视频Transformer:我们希望能有效地、有效地--与基于卷积的方法相反,利用堆叠的姿态来有效地聚集时空信息我们introduce香草视频Transformer的概念证明与SOTA的视频分类性能相当。2. VidTr:我们引入VidTr及其排列,包括具有SOTA性能的VidTr和使用所提出的基于标准差的池化方法具有显著降低的计算成本的3. 结果和模型权重:我们提供了6个常用数据集的详细结果和分析,可作为未来研究的参考。我们的预训练模型可用于许多下游任务。2. 相关工作2.1. 动作分类基于视频的动作识别的早期研究依赖于2D卷积[28]。LSTM [25]后来被提出来基于ConvNet特征[30,51,63]对图像特征进行建模。然而,Con- vNet和LSTM的结合并没有带来显著的性能提升。而不是依赖于RNN,基于段的方法TSN [54]及其排列[22,35,64]具有良好的性能。虽然2D网络被证明是成功的,但时空建模仍然是分离的。使用3D卷积进行时空建模最初是在[26]并进一步扩展到C3D网络[48]。然而,从头开始训练3D convnet很难,I3D [7]中最初提出了通过从2D网络膨胀来初始化3D convnet权重,并很快证明了适用于不同类型的2D网络[10,24,58]。I3D被用作许多后续工作的骨干,包括双流网络[19,55],专注于时间建模的网络[31,32,59],以及具有精细3D卷积内核的3D网络[27,33,39,44]。3D网络被证明是有效的,但往往不是有效的,具有更好的性能的3D网络往往需要更大的内核或更深的结构。最近的研究表明,深度卷积显著减少了计算[49],但深度卷积也增加了网络推理延迟。[37]和TAM[17]提出了一种更有效的时间建模主干,然而,这种设计神经结构搜索最近被提出用于动作识别[18,43],具有竞争性的性能,然而,高延迟和有限的可推广性仍有待改进。先前的方法严重依赖于卷积来时空地聚集特征,这是低效的。一些先前的工作试图执行全局时空建模[31,55],但仍然受到卷积骨干的限制所提出的VidTr与基于卷积的先前工作有根本的不同,VidTr此外,VidTr不依赖于滑动卷积和深度卷积,与3D卷积相比,其以更少的FLOP和更低的2.2. 视觉Transformer变压器[52]以前被提出用于NLP任务[13],最近被用于计算机视觉任务。在以前的作品中,变压器大致以三种不同的方式使用:1.弥合不同模式之间的差距,例如视频字幕[65]、视频检索[20]和对话系统[36]。2.为了聚合用于下行流任务的卷积特征,例如对象检测[5,11]、姿态估计[61]、语义分割[15]和动作识别[21]。3.第三章。 要对原始像素执行特征学习,例如最近的图像分类[14,47]。在卷积特征[21]上具有自注意力的动作识别被证明是成功的,然而,卷积也生成局部特征并给出冗余计算。与[21]不同,并且受到最近在原始像素上应用Transformer的工作的启发[14,47],我们在不依赖于卷积特征的情况下从原始视频中聚合时空特征。不同于 最 近 的 工 作 [41] , 即 在 每 个 视 频 帧 上 使 用 视 觉Transformer提取空间特征,然后将特征与注意力聚合,我们提出的方法联合学习时空特征,具有更低的计算成本和更高的性能。我们的工作不同于并行工作[4],我们提出了一个分裂的注意力,具有更好的性能,而不需要更大的视频分辨率,也不需要额外的长剪辑长度。 最近的一些工作[2,4,4,16,40,42]进一步研究了多尺度和不同的注意力分解方法。3. 视频Transformer我们从vanilla视频转换器(第3.1节)开始介绍视频Transformer,它说明了我们在没有卷积的情况下进行视频动作识别的想法。然后,我们提出了VidTr的第一次引入分离注意13579∈×S2S2ˆS2RSSS20不S2不不不∈不不WH∈3.2. VidTr在表2中,我们示出了这种简单的公式能够学习局部补丁序列上的3D运动特征然而 ,如在[3]中所解释的,亲和度注意矩阵Attn∈R( T W H+1 ) × ( T WH+1)需要是图1:时空可分离注意视频变换器(VidTr)。该模型以像素块为输入,通过提出的可分离注意力学习时空特征.绿色阴影块表示可以插入到VidTr中以获得更高效率的τ表示下采样之后的时间维度。(第3.2节),然后是注意力集中以暂时丢弃非代表性信息(第3.2节)。3.1. Vanilla视频Transformer在NLP [13]和图像分类[14]之前的努力之后,我们采用Transformer [52]编码器结构进行动作识别,对原始像素进行操作。给定一个视频剪辑VRC×T ×W ×H,其中T表示剪辑长度,W和H表示视频帧的宽度和高度,并且C表示通道的数量,我们首先将将V转化为s×s空间面片序列,并应用存储在存储器中以用于反向传播,并且因此MEM理论消耗与序列长度二次相关。我们可以看到,vanilla视频Transformer器将亲和映射的内存使用量从O(W2H2)增加到O(T2W2H2),导致训练占用的内存为T2,这使得它在大多数可用的GPU设备上不切实际。我们现在用可分离的注意力架构来解决这种低效率。3.2.1分开注意为了解决这些记忆约束,我们通过将3D自我注意力解耦为空间注意力MSAs和时间注意力MSAt来引入多头可分离注意力(MSA)(图1):MSA(S)= MSAs(MSAt(S))⑴不同于普通视频Transformer对S应用1D顺序建模,我们将S解耦为2D序列SR(T+1)×(WH+1)×C′,具有位置嵌入和两种类型的类标记,它们沿空间和时间维度附加额外的标记. 这里,空间类令牌使用空间注意力从单个帧中的空间块收集信息,并且时间类令牌使用时间注意力从跨帧(在相同位置处)的然后在-将空间和时间类的三分之一划分为k个S(0,0,:)用于最终分类。为了解耦2D序列特征S(上的1D自注意函数,我们首先对线性嵌入到每个补丁,即S∈THW×C′,在每个空间位置(i)上独立地进行速率,应用其中C′ 是线性嵌入之后的通道尺寸。我们向S添加了一个1D可学习的位置嵌入[13,14],并且在之前的工作[13,14]之后,还附加了一个类标记,其目的是从整个序列中聚合这导致时间注意力为:S(:,i,:)=MSAt(k=q=v=S(:,i,:))(2)=池(Attnt)·vt(3)=池(Softmax(qt·k))·vt⑷S′∈R(TWH+1)×C′,其中S′ ∈R1×C′是类令牌。S′被输入到我们的Transformer编码器结构中,下面详细介绍。如 图 1 中 所 示 , 我 们 扩 大 了 以 前 的 成 功 ViTTransformer架构的三维功能学习,荷兰荷兰。具体来说,我们堆叠了12个编码器层,每个编码器层由8头自关注层和两个具有768和3072个隐藏单元的密集层组成。与2D图像的变压器不同,每个atten-概念层学习时空亲和图Attn∈其中S(1 )A(+ l)XC是MSA的输出,池表示将在后面描述的用于减小时间维度的下采样方法(从T到τ,当不执行下采样时τ = T),q t、k t和v t表示在应用独立特征之后的关键字、查询和值特征。线性函数(Linear Function,LN):qt=LNq(S(:,i,:));kt=LNk(S(:,i,:));vt=LNv(S(:,i,:))(5)此外,Attnt∈R(τ+1)×(T+1)表示一个时间at-13580S2S2R(TWH+1)×(TWH+1)。从q和之间的矩阵乘法获得的张力13581S∈”。,Σ不不不∈不不kt. 在MSA之后,我们在空间维度上应用类似的1D顺序自我注意MSAS(i,:,:)=MSA(k=q=v=S(i,:,:))(6)模型剪辑透镜sr下采样层τstst=Attns·vs(7)=Softmax(qs·kT)·vs(8)表1:不同VidTr置换的详细配置。clip_len表示采样的剪辑长度W H其中S∈R(τ+1)×(+1)×C是MSA的输出,代表采样率。 我们统一采样夹镜头s2s帧超出剪辑镜头×sr个连续帧。 这个骗局qs、ks和vs表示键、查询和值特征af。ter在St上应用独立的线性函数。收件人(WH+1)×(WH+1)根据经验选择图形,详见消融。Rs2S2表示空间方向亲和图。如:我们没有对空间注意力应用下采样,因为我们在初步实验中看到了显着的性能下降。我们的时空分离注意力降低了记忆-σ(i)=1T不i=1(Attn(i,:)−µ)2(10)通过减少亲和性来减少Transformer层的理论使用µ(i)=1ΣAttn(i,:)(十一)矩阵从O(T2W2H2)到O(τ2+W2H2)。这使我们能够探索更长的时间序列长度,在现代硬件上的香草Transformer是3.2.2时域下采样方法视频内容通常包含冗余信息[31],随着时间的推移,多个帧描绘几乎相同的内容。我们引入紧凑的VidTr(C-VidTr)通过在我们的Transformer架构内应用时间下采样来去除一些冗余。我们研究了不同的时间下采样方法(池在方程。3)包括时间平均池化和步长为2的1D卷积,这将时间维度减少了一半(详见表5d)。这些池化方法的局限性在于它们跨时间均匀地聚合信息,但通常在视频剪辑中,信息帧不是均匀分布的。我们采用了来自先前工作的非均匀时间特征聚合的思想[31]。与以前的工作[31]不同,直接使用平均池对查询进行下采样基于这种直觉,我们提出了一个基于topK的池(topK stdpooling),它通过注意力矩阵中每行的标准差对实例进行排序:,topK,σ(Attn(1:,:)),,:,Tti=1其中µRT是Attn(1:,:)的平均值。 注意,topK标准池被应用于亲和矩阵,不包括令牌(Attn(0,:,:)),因为我们总是保留令牌用于信息聚合。我们的实验表明,topK标准池提供了更好的性能比平均池或卷积。topK标准池可以直观地理解为选择具有强局部化注意力的帧并移除具有均匀注意力的帧。3.3.实现细节模型实例化:基于输入剪辑长度和采样率,我们引入三个基本VidTr模型(VidTr-S、VidTr-M和VidTr-L)。通过应用不同的池化策略,我们引入了两个紧凑的VidTr置换(C-VidTr-S和C-VidTr-M)。为了规范化特征空间,我们在每个Transformer层的剩余连接之前和之后应用层规范化,并采用[14]中建议的GELU激活详细说明见表1。我们根据经验确定了不同剪辑长度的配置,以产生一组从低FLOP和低延迟到高准确度的模型(消融中的详细信息)。在训练过程中,我们从ViT-B [14]初始化模型权重。为了避免过拟合,我们采用了常用的增强策略,包 括 随 机 裁 剪 、 随 机 水 平 翻 转 ( 除 了 Something-something数据集)。我们使用64个Tesla V100 GPU训练模型,每个GPU的批处理大小为6(对于VidTr-S),权重衰减为1 e-5。我们采用SGD作为优化器,但发现Adam优化器也提供了相同的性能。topK std t t池(Attn(1:,:))=Attn(九)VidTr-S88--VidTr-M164--VidTr-L322--C-VidTr-S88[1、2、4][6,4,2]C-VidTr-M164[1、2、4][8,4,2]13582不其中σ∈RT是Attn(1:,:)的我们总共用ini训练了我们的网络50个epoch0.01的初始学习率,并且在时期25和40之后将其降低了10倍。大约需要12个小时的时间,13583×S模型收敛,训练过程也可以用更少的GPU(例如,GPU)很好地扩展。4天8个GPU)。在推理期间,我们采用了VidTr和紧凑VidTr的常用30个裁剪评估,其中10个均匀采样的时间段和每个时间段上的3个均匀采样的空间裁剪[55]。值得一提的是,我们可以通过采用单遍推理机制来进一步提高紧凑VidTr的推理速度,这是因为注意力机制比3D卷积更有效地捕获全局信息。我们通过使用TSN [54]风格采样的帧训练模型来做到这一点,并在推理中均匀采样N帧(补充材料中的细节)。4. 实验结果4.1. 数据集我们在六个最广泛使用的数据集上评估了我们的方法。Kinetics 400 [8]和Kinetics 700 [6]由大约240 K/650K的培训视频和20 K/35 K的验证视频组成,这些视频从400/700个人类动作类别中削减到10秒。我们报告了验 证 集 上 的 前 1 和 前 5 分 类 准 确 度 。 Something-Something V2 [23]数 据集 由174个 动作 组成 ,包 含168.9K训练视频和24.7K评估视频。我们报告前1的准确性以下以前的作品[37]评估设置。Charades [45]有9.8k的训练视频和1.8k的验证视频,平均跨度约为30秒。Charades包含157个具有较长活动的多标签类,性能以平均平均精度(mAP)来衡量。UCF-101 [46]和HMDB-51 [29]是两个较小的数据集。UCF-101包含13320个视频,每个视频平均长度为180帧,包含101个动作类别。HMDB-51包含6,766个视频和51个动作类别。我们报告了基于两个数据集的分割1的验证视频的前1分类。4.2. Kinetics 400结果4.2.1与SOTA的比较我们在表2中报告了Kinetics 400的验证集的结果,包括在一个视图上计算结果所需的前1和前5准确度、GFLOP(千兆浮点运算)和延迟(ms)如表2所示,与先前基于I3D的SOTA架构相比,VidTr实现了SOTAVidTr在大致相同的计算预算下显著优于先前的SOTA方法,例如。在200 GFLOP时,VidTr-M的 性能比I3 D50高3。6%,NL50由2. 1%和TPN50由0。9%。 在相似的准确度水平下,VidTr显著计算效率比其他作品,例如。在78%的top-1准确度下,VidTr-S的FLOPs比NL-101少6倍,比TPN少2倍,少12%模型输入GFLOPSLat.首页-1首页-5I3D50 [60]32× 216774.475.0 92.2I3D101 [60]NL50 [55]NL101 [55]TEA50 [34]TEINet [39]CIDC [32]SF50 8×8 [19]SF101 8×8 [19]SF101 16×8 [19]主题方案网络50[60]TPN 101 [60]CorrNet50 [53]CorrNet101 [53]X3D-XXL [18]32× 232× 232× 216× 216× 232× 2(32+8)×2(32+8)×2(64+16)×232× 232× 232× 232× 216× 5342282544706610166106213199374115187196118.353.3134.1-四十九点五82.349.371.9124.389.3133.4---77.476.577.776.176.275.577.077.578.977.778.977.278.580.492.792.693.392.592.592.192.692.393.593.393.9不适用不适用94.6香草-TrVidTr-S VidTr-M VidTr-L8× 88× 816× 432× 2898917935132.836.261.1110.277.577.778.679.193.293.393.593.9En-I3D-50-101En-I3D-TPN-10132× 232× 2509541192.7207.877.779.193.294.0En-VidTr-SEn-VidTr-MEn-VidTr-L8× 816× 432× 213022039273.298.1147.279.479.780.594.094.294.6表2:Kinetics-400数据集的结果。 我们报告了验证集上的前1个准确度(%)。“输入”列指示64帧剪辑中的哪些帧实际上N的输入指示我们将N个帧馈送到每S个帧采样的网络Lat. 表示单次裁剪的延迟。慢节奏101 我们还看到,我们的VidTr在更高的采样率下优于基于I3D的网络(例如,s=8,TPN达到76. 1%的前1位精度),这表示全局注意力比3D卷积更有效地学习时间信息。来自architecture search的X3 D-XXL是唯一一个性能优于我们的VidTr的网络我们计划在未来的工作中使用architecture搜索技术的注意力为基础的4.2.2紧凑型VidTr我们用所提出的时间下采样方法评估我们的紧凑VidTr的有效性(表1)。结果(表3)表明,所提出的下采样策略消除了VidTr所需的大约56%的计算,而精度仅下降2%。紧凑的VidTr完成了VidTr系列,从小型模型(仅39GFLOPs)到高性能模型(高达79.1%的准确度)。与之前的SOTA紧凑型模型[34,39]相比,我们的紧凑型VidTr实现了更好或相似的性能,具有更低的FLOP和延迟,包括:TEA(+0.6%,FLOP减少16%)和TEINet(+0.5%,FLOP减少11%)。13584×××××××××模型输入Res.GFLOPs延迟(ms)top-1[37]茶[34]3DEffi-B4 [18]TEINet [39]X3D-M [18]X3D-L [18]8fTSN16× 416× 516× 416× 516× 5256256224256224312697073351929--36四十9五十九474.776.172.474.974.676.8C-VidTr-SC-VidTr-M8× 816× 42242243959十七岁5二十六岁175.776.7表3:VidTr与其他快速网络的比较。我们提出了用于评估和FLOP每个视图所需的视图的数量等待时间表示获得报告的前1分所需的总时间。14.2.4消融FP型。top-1立方(4× 162)立方(2× 162)方形(1× 162)方形(1× 322)23G45G89G21G73.175.577.771.2(a) 不同修补策略之间的比较。Init. 从FPtop-1型号Mem.top-1WH2.1GB74.7WHT7.6GB77.5WH + T2.3GB77.7W + H +T。1.5GB72.3(b) 不同因子分解的比较。配置top-1top-5前5名(+)Acc.增益前5名(-)Acc.增益(c) 不同主链之间的比较(d)不同下采样方法之间的比较。(a)VidTr工作的前5类(b)I3D工作的前5类层τFP。top-1层τFP。top-1比I3D好比VidTr更好。表4:对Kinetics-400数据集的定量分析。性能增益被定义为VidTr网络与I3 D网络之间的top-1准确度的差异(e) 在层k和k +2处紧凑VidTr下采样两次。(f) 紧凑VidTr下采样两次,从层1开始,跳过不同数量的层。4.2.3误差与系综分析我们比较了VidTr-S和I3 D50网络的错误,以更好地理解本地网络我们提供了我们的VidTr-S在I3 D50上获得最显著改进的前5个活动我们发现,我们的VidTr-S在需要长期视频上下文识别的活动上优于I3 D。例如,我 们 的 VidTr-S 在 “ 制 作 蛋 糕 ” 方 面 的 准 确 度 比 I3D50I3D50与“蛋糕”过于匹配,并且经常将制作蛋糕视为吃蛋糕。我们还分析了I3 D优于我们的VidTr-S的前5种活性(表4)。我们的VidTr-S在需要捕获快速和局部运动的活动上表现不佳。例如,我们的VidTr-S在“摇头”上的准确性差21%在我们的错误分析的结果的启发下,我们ensem-bled我们的VidTr与一个轻量级的I3 D50网络之间的平均输出值的两个网络。结果(表2)示出了I3D模型和变换器模型彼此互补,并且集成模型在具有有限的附加FLOP(37G)的情况下大致导致Kinetics 400的2%的性能改进通过将VidTr与I3D集成获得的性能明显优于通过组合两个3D网络获得的性能(表2)。1我们使用作者的代码和快速深度测量X3D的延迟表5:Kinetics 400数据集上的消融研究。我们使用VidTr-S骨架,其具有用于(a,b)的8个帧输入和用于(c,d)的C-VidTr-S。除非另有说明,否则在30个视图上执行8帧输入的评价FP 代表FLOPs。我们使用我们的VidTr-S模型在Kinetics 400上进行所有消融实验。我们用了8224224输入,帧采样率为8,30视图评估。修补策略:我们首先比较立方贴片图10示出了视频块(416_2)与正方形块(116_2)之间的关系,其中,视频块(416_2我们的结果(表5a)表明,使用具有较长时间大小的立方体补丁的模型具有较少的FLOP,但导致显著的性能下降(73.1对3.2)。75.5)。使用正方形贴片的模型显著优于所有基于立方体贴片的模型,这可能是因为线性嵌入不足以表示立方体中的短期 时 间 我 们 进 一 步 比 较 了 使 用 不 同 补 丁 大 小(1162vs.1322)的性能,使用322补丁导致序列长度减少4,这将亲和矩阵的内存消耗减少了16,然而,使用162贴片的模型显著优于使用322贴片的模型(77.7 vs. 71.2)。我们没有使用较小的修补尺寸(例如,8)由于内存消耗高。注意因子分解:我们比较了注意力设计的不同因素化,包括仅空间建模(WH),联合时空建模模块(WHT),卷积补丁:https://github.com/facebookresearch/SlowFast/blob/master/projects/x3d/README.md,该 公司只有X3 D-M和X3 D-L型号,而没有XL和XXL型号T2T [62]34G76.3[第14话]89G77.7ViT-L [14]35877.5温度Avg. 池74.991.61D转换[六十二]75.492.3STD池。75.792.2做蛋糕+26.0%抓鱼+21.2%接棒球+20.8%伸展臂+19.1%喷涂+ 18.0%摇头-21.7%扣篮-20.8%弓步-19.9%弹吉他-19.9%踢踏舞-16.3%[0,2][4、2]26G72.9[1、3][4、2]32G74.9[二、四][4、2]47G74.9[第1、2项][4、2]30G73.9[1、 3][4、2]32G74.9[1、 4][4、2]33G75.013585×××××××图2:不同模型在准确性、FLOP和延迟方面的比较。vanilla-Tr)、时空分离注意(WH + T,VidTr)和轴向分离注意(W + H + T)。我们首先评估一个仅空间Transformer。我们对每个输入帧的类标记取平均值,以获得最终输出。我们的结果(表5b)表明,与时空注意力模型相比,仅空间Transformer器需要更少的存储器,但具有更差的性能。这表明时间建模对于基于注 意 力 的 体 系 结 构 是 至 关 重 要 的 。 联 合 时 空Transformer显着优于仅空间变换器,但需要有限的内存量(T2倍的亲和矩阵)。我们的VidTr使用时空可分离注意力需要3。3、内存少,精度不下降。我们进一步评估了需要最少记忆的轴向可分离注意(W + H +T)。结果(表5b)示出了轴向可分离注意力具有显著的性能下降,这可能是由于破坏了X和Y空间维度。序列下采样比较:我们比较了不同的下采样策略,包括时间平均池,一维时间卷积和提出的基于STD的topK池方法。 结果(表5d)示出了我们提出的基于STD的下采样方法优于时间平均池化和随时间均匀地聚合信息的基于卷积的下采样策略主 干 泛 化 : 我 们 评 估 了 使 用 不 同 模 型 初 始 化 的VidTr,包括T2 T [62]、ViT-B和ViT-L。表5c上的结果表明,我们的VidTr在所有主链上实现了合理的性能使用T2T作为主干的VidTr具有最低的FLOP,但也具有最低的准确度。基于Vit-L的VidTr实现了与基于Vit-B的VidTr相似的性能,即使使用3个浮点数。如之前的工作[14]所示,基于Transformer的网络更可能过拟合,并且对于基于Vit-L的VidTr,Kinetics-400相对较小。下采样位置:最后我们研究一下型号输入K700 Chad SS UCF HMI3D [7]32× 28(TSN)32× 432× 216(TSN)64× 264× 216× 558.732.950.095.174.3[37]--59.394.570.7I3D101 [59]40.3---CSN152 [49]70.1----TEINet[39]--62.196.773.3SF101 [19]70.2-60.9--SF101-NL [19]70.645.2---X3D-XL [18]-47.1---VidTr-MVidTr-LEn-VidTr-L16× 432× 232× 269.570.270.8-43.547.361.963.0-96.696.7-74.474.4-表6:Kinetics-700数据集(K700)、Cha- rades数据集(Chad)、something-something-V2数据集(SS)、UCF-101和HMDB(HM)数据集的结果。评估度量是用于Charades(使用324输入)的以百分比表示的平均精度(mAP)、用于Kinetics 700的前1精度、某物-某物 -V2 ( 使 用 TSN 样 式 的 数 据 加 载 器 ) 、 UCF 和HMDB。执行时间下采样。我们在不同层处执行时间下采样(表5e)。我们的结果(表5e)示出了在第一编码器层之后开始执行下采样在一开始就开始执行下采样导致最少的FLOP,但具有显著的性能下降(72.9与74.9)。稍后执行下采样仅具有轻微的性能改进,但需要更高的FLOP。然后,我们分析在两个下采样层之间要跳过多少层。基于表5f中的结果,在两个下采样操作之间跳过一层在连续层(0个跳过层)上执行下采样具有最低的FLOP,但是性能降低(73.9对74.9)。跳过更多的层并没有显示出显著的性能改善,但确实具有更高的FLOP。4.2.5运行时分析我们进一步分析了延迟、FLOP和准确性之间的权衡。我们注意到,VidTr实现了这些因素之间的最佳平衡( 图 2 ) 。 与 I3 D101-NL ( 少 5 个 FLOP ) 、Slowfast10188(少12%的FLOP)、TPN 101(少2个FLOP)和Cor_rNet 50(少20个FLOP)相比,VidTr-S实现了类似的性能,但显著更少的FLOP请注意,X3D具有非常低的浮点数,但由于使用深度卷积的高延迟。我们的实验表明,X3 D-L具有约3 .第三章。延迟是VidTr-S的6倍(图2)。4.3. 更多结果Kinetics-700结果:我们的实验显示了Kinetics 700的一致性能趋势(表6)。VidTr-S的性能显著优于基线I3 D模型(+9%),VidTr-M的性能相当13586×与Slowfast 10188相比,并且VidTr-L与先前的SOTAslowfast 101-nonlocal相当。我们的模型和Slowfast-NL[19]之间有一个小先前发现VidTr和I3 D互补与Kinetics700一致,VidTr-L与I3 D的集合导致+0.6%性能提升。字谜游戏结果:我们比较我们的VidTr与以前的SOTA模型的字谜。我们的VidTr-L优于先前的SOTA方法LFB和NUTA 101,并且实现了与Slowfast 101-NL相当的性能(表6)。Charades上的结果表明,我们的VidTr generalizes以及多标签活动数据集。我们的VidTr在Charades上的表现比当前SOTA网络(X3 D-XL)差,可能是如在先前的工作[14]中所讨论的,基于变换器的网络比基于卷积的模型更容易过拟合,并且Charades相对较小。我们观察到我们的ensem- ble,ensembling我们的VidTr与I3 D网络(40.3 mAP)实现SOTA性能类似的发现Something-something V2结果:我们观察到,VidTr在某物-某物数据集(表6)上工作得不好,这可能是因为纯粹的基于Transformer的方法不对局部运动以及卷积进行建模。这与我们在错误分析中的观察一致。进一步提高局部运动建模能力是未来工作的一个领域。UCF和HMDB结果:最后,我们在两个小数据集UCF-101和HMDB-51上训练我们的VidTr,以测试VidTr是否适用于较小的数据集。VidTr在6个训练时期实现了SOTA 相 当 的 性 能 ( UCF 上 为 96.6% , HMDB 上 为74.4%),表明该模型在小数据集上推广良好(表6)。5. 可视化和理解VidTr我们首先可视化了VidTr 我们发现空间注意力能够集中在信息区域上,而时间注意力能够在时间上跳过重复的/非代表性的信息。然后,我们将VidTr的第4、第8和第12层处的注意力可视化(图3b),我们发现空间注意力在更深层上更强。注意力在早期阶段不捕获有意义的时间实例,因为时间特征依赖于空间信息来确定信息丰富的时间实例。最后,我们比较了来自VidTr的I3D激活图和卷展注意力(图3c)。I3D错误地将捕鱼归类为航行,因为I3D的注意力集中在坐在后面和水的人身上VidTr能够做出正确的预测,并且注意力表明VidTr能够跨时间聚焦于动作相关区域。(a) Vidtr中的时空注意。注意力能够集中在信息帧和区域上。(b) 从VidTr的不同层推出注意事项(c) I3D激活和VidTr注意事项的比较图3:VidTr的空间和时间注意力的可视化以及与I3D激活的比较。6. 结论在本文中,我们提出了一种新的基于堆栈注意力的视频动作识别体系结构的视频Transformer与可分离的注意力。我们的实验结果表明,所提出的VidTr实现国家的最先进的或可比的性能上的五个公共行动识别数据集。实验和误差分析表明,VidTr是特别好的建模需要长期推理的行动。进一步结合VidTr和卷积的优势,以更好地进行局部-全局动作建模[38,57],并在大规模数据上采用自监督训练[9]将是我们未来的工作。鸣谢。 我们感谢NSF资助IIS-1763827支持张燕怡攻读博士学位。罗格斯大学的学生引用[1] Samira Abnar和Willem Zuidema。量化变压器中的在第58届年会上13587计算语言学协会会议,第4190-4197页,2020年。二、八[2] Anurag Arnab,Mostafa Dehghani,Georg Heigold,ChenSun、MarioLucˇ i c´和Corde l iaSchmid。Vivit:AvideovisionTransformer.arXiv预印本arXiv:2103.15691,2021。2[3] Iz Beltagy,Matthew E Peters,and Arman Cohan. 长-former:长文档Transformer。arXiv预印本arXiv:2004.05150,2020。3[4] Gedas Bertasius,Heng Wang,and Lorenzo Torresani.是时空注意力你需要视频理解吗arXiv预印本arXiv:2102.05095,2021。2[5] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- BottleJS快速入门:演示JavaScript依赖注入优势
- vConsole插件使用教程:输出与复制日志文件
- Node.js v12.7.0版本发布 - 适合高性能Web服务器与网络应用
- Android中实现图片的双指和双击缩放功能
- Anum Pinki英语至乌尔都语开源词典:23000词汇会话
- 三菱电机SLIMDIP智能功率模块在变频洗衣机的应用分析
- 用JavaScript实现的剪刀石头布游戏指南
- Node.js v12.22.1版发布 - 跨平台JavaScript环境新选择
- Infix修复发布:探索新的中缀处理方式
- 罕见疾病酶替代疗法药物非临床研究指导原则报告
- Node.js v10.20.0 版本发布,性能卓越的服务器端JavaScript
- hap-java-client:Java实现的HAP客户端库解析
- Shreyas Satish的GitHub博客自动化静态站点技术解析
- vtomole个人博客网站建设与维护经验分享
- MEAN.JS全栈解决方案:打造MongoDB、Express、AngularJS和Node.js应用
- 东南大学网络空间安全学院复试代码解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功