MASTAF：基于时空注意力的少镜头视频分类模型

173 浏览量更新于2023-10-16 收藏 1.4MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

2508MASTAF：一种用于少镜头视频分类的美国加州大学戴维斯分校{rexliu，dtzhang，hpirsiav，xinliu} @ ucdavis.edu摘要我们提出了MASTAF，一个模型无关的时空注意力融合网络，用于少镜头视频分类。MASTAF从一般视频空间和时间表示中获取输入，例如，使用2D CNN、3D CNN和Video Transformer。然后，为了充分利用这种表示，我们使用自我和交叉注意模型来突出关键的时空区域，以增加类间的变化，减少类内的变化。最后，MASTAF应用轻量级融合网络和最近邻分类器对每个查询视频进行分类。我们证明了MASTAF在三个少镜头视频分类基准（ UCF 101 ， HMDB 51 和Something-Something-V2）上提高了最先进的性能，例如，对于五路单镜头视频分类，分别高达91.6%，69.5%和60.7%。1. 介绍少镜头学习在视频分类中受到越来越多的关注，因为它有可能显着降低视频标记成本[3]。在少镜头视频分类中，训练集和测试集中的视频样本来自不同的类（即，测试集中看不见的类为了对未标记的视频样本（查询）进行分类，少镜头视频分类模型旨在将查询分类到未见过的类（支持集）。受少数镜头图像分类[7，13，21]发展的启发本文的目标是基于度量学习的少镜头视频分类。基于度量学习的少镜头视频学习算法基于查询视频的表示与支持集中每个类的表示之间的相似性对查询进行分类。因此，基于度量学习的少镜头视频分类的核心是设计支持集和查询。许多特征嵌入网络都是为此目的而设计的。Perrett [20]利用来自支持集的时间排序帧中的注意力机制，在使用预训练的 2D 卷积神经网络（ 2DCNN）提取每个帧的Zhang [36]引入了置换不变池和自监督学习任务，以在从3D卷积神经网络（3D CNN）嵌入网络中提取后增强表示。在少数情况下，使用2D CNN嵌入网络的先前努力优于使用3D CNN嵌入网络的努力[3，20，40]。然而，有两个considerable限制，在现有的工作与2D CNN嵌入网络。第一个限制是，为了更好的准确性，视频帧之间的复杂的时间对齐策略增加了计算需求和模型推断运行时间。例如，Perrett [20]通过从视频中探索两个和三个有序采样帧的所有组合以获得时间信息，实现了SOTA每随着视频采样帧数量的增加，计算成本和推理运行时间显著增加。第二个限制是当用其他高级视频表示模型（如3DCNN [5，11，28，33]和Video Transformer [1]）替换2D CNN嵌入网络时，它们无法保持高性能。随着大规模视频数据集的发布，基于 3D CNN 和 VideoTransformer的视频分类模型因此，可以预期，如果我们用高级视频表示模型替换现有的少数镜头视频分类模型中的2D CNN，性能应该会提高。然而，这并没有发生。相反，Zhu [40]发现3D CNN模型[5，28，33]在PAL [40]中的表现并不比2D CNN模型更好，PAL [40]是一种基于SOTA 2D-CNN的少镜头视频分类算法。主要原因是2D-CNN方法依赖于帧级相似性得分和时间对齐，这在3D CNN嵌入网络中不存在。2509图1. 2路2镜头视频分类上的模型不可知时空注意力融合（MASTAF）的说明。首先，我们使用预训练的嵌入网络为每个视频提取时空特征。然后，我们计算支持集中每个类的原型表示（RSc），这是每个类的所有表示的平均值。之后，我们使用自注意模块突出每个查询和支持类表示的时空特征，并使用余弦距离计算每对查询表示和支持类表示的相似性得分。并行地，我们使用交叉注意模块来突出每对查询表示和支持类表示的时空相关性特征，并使用余弦距离计算相似性得分。支持集中每个类的交叉注意表示被馈送到全局视频分类器中作为多任务训练集。并将自注意模块和交叉注意模块的相似度融合结果送入最近邻分类器。详情见第3节。在本文中，我们提出了一个模型无关的少镜头视频学习算法命名为模型无关时空注意力融合网络（MASTAF）。我们的主要动机是充分利用视频表示学习的快速发展，构建一个简单高效的少镜头视频学习框架。为了实现这一目标，我们必须解决上面讨论的限制。先进的视频表示网络，如3D CNN和Transformer，直接提取时空表示，而不是帧级信息。为了更好地利用这种表示，我们使用自我和交叉注意模型来增加关键时空区域的权重自注意力网络强调表示每个类和查询所必需的表示区域，而交叉注意力网络强调表示区域，其增强了查询和支持集中看不见的类之间的可然后，我们根据每个注意力网络的特征图来测量查询和每个未见过的类之间的相似性最后，我们用一个简单而有效的融合网络对查询视频进行分类。我们还增加了一个多任务训练设置，即，全局视频分类任务，以正则化嵌入模块并进一步提高泛化性能。更多详情见第3节贡献我们作出以下贡献。1.我们提出了MASTAF，一个简单而有效的基于注意力的网络，兼容不同的视频分类模型，用于少镜头视频分类。MASTAF可以受益于先进的视频分类模型，如三维CNN和视频Transformer，提取良好的时空表示。2.我们设计了一种融合机制来整合自我注意和交叉注意网络，这极大地增强了视频表示的基本空间和时间区域。3.我们广泛评估MASTAF使用三个基准，即，UCF101[25] ， HMDB51 [15] ， and Something- Something V2[10].与现有的工作相比，MASTAF通过2D CNN嵌入网络实现了最先进的性能，并通过3D CNN嵌入网络提高了最先进的性能，而无需额外的计算成本。我们的代码可在https://anonymous.4open.science/r/STAF-30 CF 1上获得。2. 相关工作大多数现有的少镜头学习算法可以分为三类：基于模型的方法[18，23]，基于优化的方法[9，22]，和基于度量学习的方法[3，20，24]。基于度量学习的方法在少镜头视频分类中比其他两种方法更有前途，因为基于度量学习的大量工作取得了更好的性能[3，20]。基于度量学习的方法测量支持样本的表示与查询样本之间的距离，并借助最近邻进行分类2510K={fk，nk我--让相似的类靠近，不相似的类远离。特别地，Prototypcal Network [24]基于这样的思想，即每个类都有一个原型表示，它是嵌入空间中支持集的平均值。然后，少次学习问题成为嵌入空间中的最近邻。我们的工作是基于度量学习的方法之一。我们可以从从不同视频表示模型中提取的一般视频空间和时间表示中获取输入。为了充分利用嵌入空间中的表示，我们突出了每个类需要注意的时空特征，同时增加了与其他类的差异。少镜头视频分类针对少镜头视频分类模型的大多数基于度量学习的方法的第一个模块是从每个视频提取特征的嵌入网络嵌入网络的两种最常用在使用2D CNN从每个视频帧中提取特征后，Zhu和Yang [38，39]介绍了一种记忆网络结构，以在更大的视频表示空间中学习最佳表示。与创建存储器结构来记忆视频表示的长期信息不同，最近使用2D CNN嵌入网络的工作专注于查询视频和支持集之间的时间对齐探索。Cao [3]通过时间排序信息对齐查询视频和支持视频之间的帧。Perrett [20]通过计算查询视频和支持视频的每帧之间的时间关系表示的距离，实现了5路5镜头视频学习的SOTA。相比之下，从3D CNN嵌入网络中提取的特征已经包含了时间信息。因此，最近的工作集中在生成一般的时空视频表示看不见的类。Dwivedi [8]利用GAN为未看到的类的原型生成时空视频表示。Zhang[36]引入了置换不变池和自监督学习任务来增强表示，而Bishay [2]使用基于分段的注意力用于表示每个帧的注意机制，以定位用于相似性计算的代表性帧。Thatipelli [27]提出了一个自我关注模块，用于视频中每个帧的补丁这些工作采用2D CNN来提取特征，并将注意力机制应用于时间对齐和帧级特征丰富。然而，当使用3D CNN嵌入网络时，如果没有复杂的时间对齐和帧级特征丰富的帮助，这些工作就无法保持高性能。我们的工作是兼容任何视频分类模型，并使用注意力融合网络突出的时空特征，这有助于增加类间的变化，减少类内的变化。Wang [32]将多头自注意力应用于视频级特征丰富，增加了GPU内存和计算消耗。然而，我们的方法采用了一个简单而有效的融合层的自注意和交叉注意模块具有较低的计算成本。3. MASTAF：模型无关的时空注意力融合网络3.1. 问题定义少镜头视频分类问题的目标是将一个未注释的查询视频分类到几个注释的类别集中的一个，我们称之为每个类别在这个支持集中只有几个视频实例，模型在训练过程中没有看到这些类别。我们的论文重点是C路K-shot视频分类，其中C表示支持集中的类别数，K表示支持集中每个类别的视频实例数。我们遵循与先前研究相同的情景训练[3，20，36，38，39]，随机选择C类K个视频片段作为支持集。然后，我们从这些C类中选择一个查询视频，该查询视频不同于支持集中的K个视频剪辑对于每个C-way K-shot剧集，支持集包含C个类，每个类有K个视频剪辑。深度度量学习最近，Video Transformers我们使用Scck，1ck，2，的。. .，fc}来表示第k个已经成为用于类别c的视频表示视频剪辑的有前途的选择，其中c属于C，并且k属于由于他们的长期推理能力[1，16]。虽然至K，fc表示从视频中提取的第i帧Video Transformer在少镜头视频分类中的应用并不广泛，SOTA在少镜头视频分类中的表现预示着其应用前景。基于注意力的学习注意力机制增强了网络中长程依赖关系的学习能力，以突出视觉表征的关键区域[29]。这些临界区域有助于区分不同类别之间的差异。因此，最近的工作与注意力机制实现SOTA的精度为少数拍摄学习任务[20，27，32]。Perrett [20]将十字形Transformer与多头一起应用而N表示从视频中提取的帧的总数。对于查询视频，我们使用Sq= f1，...，fi，… 其中fi表示从查询视频中提取的第i帧，n表示从查询视频中提取的帧的总数。最终目标是预测Sq到其中一个类。3.2. MASTAF模型MASTAF模型的设计原则是突出关键时空区域，以最小化类内变化，同时最大化类间变化。，f2511ΣJ我∈∈联系我们v××我SSQ∈v我∈∈查询视频和支持集之间的关系。为了应对只有少数样本的挑战，自exp（（d<$M self）/τ）=i，（3）类，我们首先提取时空特征使用任何视频分类模型。然后，我们用注意力-ILj=1 exp（（d<$M self）/τ）sion模块，以进一步突出度量学习的关键同时，我们使用全局分类任务来正则化嵌入网络。接下来，我们分析MASTAF模型中的每个模块，如图1所示。嵌入模块在MASTAF模型中，嵌入模块fφ的目标是学习每个视频的时空表示。我们从每个视频中均匀地提取帧，其中n是从每个视频中提取的帧的总数我们可以使用任何视频分类模型作为时空嵌入模块。给定从视频中提取的帧序列，其中τ是放大方差的温度超参数，并且A self表示自注意图Aself的第i个位置，即，AselfRT′×H′×W′。我们不是为每个位置分配相等的权重，而是添加一个元学习器来动态学习内核d，以关注特征立方图。首先，我们利用Mself的行式全局平均池化来获得平均向量Mself，其中Mself RL。然后我们使用元学习器动态地学习内核d：自我d=fγ（σ（fδ（M ），f1，f2，. . . ，fn，令RvRC′×T′×H′×W′表示从嵌入模型学习的表示其中fδ：RL→RL和fγ：RL→RL，即l表示R v= f φ（S v）。（一）缩放维度，σ表示ReLU函数[19]。在我们得到自我注意力立方映射Aself之后，我们利用剩余注意力机制来权衡每个el。对于支持集Sc中的视频片段，我们使用RSc来表示原始映射Rv的1+Aself，以获得KK从嵌入模块学习的表示我们使用RSc来表示类c的表示，这是支持集中类c的由于我们在少量学习任务中只有一个查询视频，因此我们使用RSq表示每个类的自我注意表示RselfRself= Rv（1 + Aself），（5）其中Rself∈RC′×T′×H′×W′.查询视频剪辑的表示。在我们拿到表示的支持集和查询视频，我们通过两个独立的注意力模块并行，即自我注意力模块和交叉注意力模块。自我关注模块我们的自我关注模块的目标是突出每个类的表示中的关键信息。如图2所示，我们首先重新交叉注意模块而自我注意模块突出表示本身中的关键时空区域，交叉关注模块关注查询视频和支持集之间的相关性。如图3所示，我们遵循与自我注意模块中相同的步骤来重塑每个表示，′ ∈RC′×L. 之后，我们计算相关图将每个表示形状为R′RC′×L，其中L（L=T′H′W ′）是每个特征立方图上的时空位置的数量。之后，对于对于每一对查询视频和支持类原型类型。例如，对于查询视频RSq和支持类c的对，即，我们计算相关图′ScSc横支持，RSc变为RSc，即，[R1，. . . Ri . .，RL]，对于查询视频MSq←Sc，在查询视频和其中R Sc 表示第i个空间的特征向量。支持类：在R′c中的时间位置。F或每个查询视频，RS横′⊺′变成R′ ，即， [RSq，. . . RSq. . . ，RSq]，其中RSqde-MSq←Sc=（RSc）RSq.（六）Sq1i L i注意第i个时空位置然后为支持 C类，的相关性图在R'. 然后，我们计算每个的自关系映射，M交叉Sc←S 查询视频和支持类之间的关系是：表示为：M自我=（Rv′）Rv′，（2）QM交叉Sc←Sq =（RS′）S′c。（七）其中M是自我RL×L表示自关联映射其中，M_self表示特征图中第i个时空位置处的自关系。然后，我们应用具有核d的卷积运算，即，dRL，将每个位置自关系向量融合成一个注意力在获得每对中的查询视频和支持类的相关性图之后，我们经历与自注意模块中相同的步骤，如图3所示，以获得查询视频的交叉注意表示，支持每对中的类，即，R交叉，C和R交叉。Sq←S Sc ←S q标量，单位为RT′×H′×W′。然后我们使用一个soft-max函数来吸引每个第i个位置的自我注意力RQ（四）Q2512注意力融合模块将两种注意力融合得到自身注意力和交叉注意力的表示2513联系我们C|←联系我们||联系我们联系我们自我|QCexp（−D（Rself，Rself））Sq←SjSqSkSJSQ（九）模块计算预测查询视频图2.自我注意模块图3.交叉注意模块模块，我们使用自注意表示来计算将Sq预测为类kexp（−Dcos（Rself，Rself））P（y=k|S）= 0，j=1cosSQSJ（八）看不见的类，我们在多任务设置中训练MASTAF模型，以正则化嵌入网络。我们结合了最近邻分类器和全局视频分类器。其中D cos表示余弦距离，P self（y=k S q）表示将Sq预测为类别k1，2，.的概率， C使用自我注意表征。然后，我们使用交叉注意表示来计算将Sq预测为类k的概率对于支持集中的一个类，我们使用否定的对数概率作为基于实际类别标签的最近邻分类器的损失函数：L1= −logP（y = k|S q）。（十一）exp（−Dcos（Rcrossk，Rcross））k=1P交叉（y=k|S q）=Cexp（−DSq←S（R交叉）Sk←Sq，，Rcross））因为在交叉注意模式之后的陈述规则包含与查询视频相关的高亮区域，我们选择这些表示来预测全局类其中Pcross（y=k Sq）表示预测的概率将S q作为类k1，2，...，使用交叉注意模块。为了利用来自两个注意机制的区分性信息，我们利用具有最近邻分类器的注意融合模块：1在整个训练数据集中。训练数据集中的总类数是Z。我们将这些交叉注意表示馈送到全连接层和softmax层，以获得预测全局类的概率P（y=z S c），其中z1，2，.，Z.然后，我们将全局视频分类器的损失函数定义为：P（y = k|Sq）=2[P self（y = k|S q）+P cross（y =k|S q）]，（十）L2=−−logP（y = z|S c）。（十二）其中P（y=k Sq）表示预测的最终概率将S q作为类k1，2，...，C.多任务训练为了降低过度拟合的风险，训练数据集并生成一般表示，z=1最后，MASTAF模型的损失函数定义为：L=L1+λL2，（13Z在训练过程中，注意力融合后j=1cos2514）2515------联系我们关于我们×--×----联系我们--联系我们--其中我们使用λ来衡量不同分类任务的影响。请注意，多任务训练设置仅在训练过程中使用。此设置在推理阶段被丢弃。4. 评价4.1. 实验装置数据集。我们将MASTAF与UCF 101 [25]，HMDB 51[15]和Something-Something V2（SSv 2）[10]的现有工作进行了比较。我们不使用Kinetics-100 [38]来避免偏差，因为我们的一个MASTAF模型是在Kinetics-700 [4]上预先训练的。在这些数据集中，SSv2更具挑战性，因为它专注于与时间关系相关的动作，例如CMN [38]和OTAM [3]提出了SSv2的两个少镜头分割，包含64，12和24个类作为训练，验证和测试集。我们使用SSv2-part 和 SSv 2-all 表示来自 CMN [38] 的拆分和来自OTAM [3]的拆分这两个分割之间的差异对于SSv 2-part，Zhu和Yang [38]为每个类随机选择100个样本，而对于SSv 2-all，Cao [3]使用原始SSv 2中的所有样本。我们在这两个分裂中评估我们的方法。此外，我们还遵循ARN [36]中HMDB 51和UCF 101的划分。评价和基线。根据TRX [20]中的评估过程，我们评估了5路1镜头和5路5镜头视频分类任务，并报告了从测试集中随机选择的10，000集的平均我们比较我们的结果与十SOTA算法，即， [31]，CMN-J [39]，OTAM[3]，FEAT [34]，PAL [40] ， TRX [20] ， Baseline [6] ， MatchingNet[30]，Pro- toGAN [8]，ARN [36].特别地，基线的思想（来自[6]的注释）是在从嵌入网络中提取表示之后，用新类中的给定标记示例训练新分类器。为了进行公平的比较，我们使用三种不同类型的嵌入网络的MASTAF模型，即，MASTAF- TSN、MASTAF- R3D和MASTAF- ViViT。为MASTAF- TSN，我们遵循与[3，20，34，40]相同的嵌入网络配置，使用ImageNet预训练的ResNet-50作为骨干网络。对于MASTAF-R3 D，我们使用合并的视频数据集与 Kinetics- 700 [4] ， Moment-in-time [17] 和START-action [35]来预训练3D ResNet-50嵌入网络。我们还将我们的方法与基于2D CNN嵌入网络的先前工作进行了比较，其中我们将2D CNN替换为3D CNN。我们使用Baseline-R3 D，MatchingNet-R3 D，TRX-R3 D作为基线，通过替换2D CNN em-使用3D CNN嵌入网络（与MASTAF-{R3 D}相同的预训练 R3 D模型）。我们提取使用来自每个视频的预训练R3D的一个表示，然后通过基线[6]，MatchingNet [30]和TRX [20]中提出的匹配部分。对于MASTAF- ViViT和TRX- ViViT，我们使用ViViT [1]作为我们的嵌入式网络。我们从在JFT [26]数据集上训练的ViT [14]图像模型初始化ViViT。由于ViViT [1]的巨大计算需求，我们只执行5路1-MASTAF-{ViViT}和TRX-{ViViT}的镜头学习。实验配置。对于MASTAF- TSN、MASTAF- ViViT和TRX- ViViT，我们从每个视频中均匀地采样8帧，作为每个视频的8个片段。对于基于CNN的3D Baseline，MatchingNet，TRX和MASTAF-R3 D，我们从每个视频样本中均匀采样16帧。之后，我们调整每个帧的大小，256 256. 然后，我们随机翻转每一帧的水平计数和裁剪的中心区域的224 224，以增加训练数据。对于测试数据，我们只裁剪中心没有水平翻转的相同大小然后对于MASTAF-TSN，我们使用ImageNet预训练的ResNet- 50作为骨干，并将所有帧表示平均为视频表示。对于基于3D CNN的基线，MatchingNet，TRX和MASTAF-R3 D，我们使用3D ResNet-50[12]，其权重在组合数据集上预先训练，其中Kinetics-700[4]，Moments in Time[17]和Start Action[35]作为嵌入网络。在对验证数据集进行微调之后，我们将0.025设置为温度超参数（等式3中的τ），并将6设置为元学习者缩放维度（等式4中的fγ的缩放维度），并将2设置为失重超参数（等式13中的λ我们在8个NVIDIA RTX A5000 GPU中训练了128，000集的模型（除了更大的SSv 2-所有，我们训练了256 ，000 集的模型我们用 SGD 优化MASTAF模型，其中学习率为0.01.经过微调，我们采用了128，64，UCF 101、HMDB 51、部分SSV和全部SSV均为32、32，分别4.2. 与最新算法的表1列出了在SSv2的两个分割上与现有方法相比的总体5路1次和5路5次性能。根据嵌入网络的不同，可以将这些比较方法分为三类.在2D CNN嵌入组中，TSN++ [31]、CMN-J [39]、FEAT [34]是模型不可知的，并且不应用任何帧级时间对准。与这三种方法相比，OTAM [3]、PAL [40]和TRX [20]采用帧级时间对齐，这进一步提高了少镜头视频分类的性能。MASTAF- TSN在2D CNN组中优于现有的5路1镜头视频分类算法。TRX [20]实现了5路5次学习的SOTA性能，因为它利用了不同视频中不同帧的时间信息，2516--------联系我们联系我们联系我们图4.在UCF 101上采样帧数从8帧变化到16帧时，TRX、MASTAF- TSN和MASTAF-R3 D的计算需求分析支持集。然而，这种复杂的对齐策略导致了巨大的计算成本，并增加了模型推理的运行时间。图4和图5比较了TRX [20]和MASTAF- TSN的TFLOP和模型推理的运行时间。我们的方法在不增加计算成本的情况下实现了SOTA精度，并且比TRX更有效[20]。随着从视频中采样的帧数量的增加，TRX [20]消耗更多的计算资源，并且推理过程需要更长的时间。在3D CNN组中，TRX-R3 D的精度低于TRX，因为它不能执行帧级时间对准。对于PAL [40]，Zhu [40]还指出，由于缺乏帧级相似性得分，3D CNN模型[5，28，33]的性能并不比2D CNN模型好。相比之下，MASTAF-R3 D利用了R3D的时空表示，并进一步提高了性能。在反式组中，MASTAF- ViViT进一步提高了患者的耐受性。这些结果表明，MASTAF的作品最好的时空信息时，先进的视频分类模型表示。相比之下，当用其他高级视频表示模型替换2D CNN嵌入网络时，使用2D嵌入网络的现有工作不能保持高性能。表2列出了与UCF 101和HMDB 51上的现有方法相比的总体5路1次和5路5次性能。我们的MASTAF与2D嵌入式网络实现了体面的性能，而TRX和PAL实现SOTA 精度在这两个数据集。原因是 TSN 没有为MASTAF提供足够的时空信息来区分查询视频和支持集中的视频。因此，为了从MASTAF中获益最多，我们使用3D CNN嵌入式网络和视频Transformer。如表2所示，我们的MASTAF-{R3 D} 优于基于 3D 模型的其他方法，MASTAF-{ViViT} 优于 TRX-{ViViT} 并实现了新的SOTA性能。Com-图5.在一个NVIDIA RTX A5000 GPU中对TRX、MASTAF-TSN和MASTAF-R3 D进行模型推理当采样帧数在UCF 1011上从8帧变化到16帧时使用MASTAF- TSN，MASTAF-R3 D具有显著降低的资源消耗和运行时间，如图4和图5所示。4.3. 消融研究我们在第4.2节中已经表明，我们的MASTAF可以充分利用高级视频分类模型来提高准确性，而无需更多的计算成本。我们现在对两个数据集UCF 101和SSV 2进行详细的消融研究，以显示每个模块的影响。关于多任务学习环境、Meta学习者和剩余结构的消融研究在这些消融研究中，所有MASTAF模型均使用在合并视频数据集上预训练的 3D ResNet-50 模型，其中Kinetics-700 [4]、Moment-in-time [17]和START- action[35]作为嵌入网络。4.3.1注意力融合机制为了探索注意力融合机制的有效性，我们引入了三个比较模型，即，MASTAF-Neighbor，MASTAF-Self，MASTAF-Cross.在MASTAF-Neighbor中，从嵌入式网络中学习到的表示被直接馈送到最近邻分类器和全局视频分类器中，而无需我们的注意机制。对于MASTAF-Self和MASTAF-Cross，表征在被送入两个分类器之前，分别经历了自我注意和交叉注意机制。表3示出了比较结果。与MASTAF-Neighbor相比，加入注意机制后，其他三种模型的性能都有了明显的提高，说明嵌入网络后的表示具有与非目标动作区域相关的时空特征. MASTAF-Cross中的交叉注意机制有助于突出查询视频中与目标动作区域相关联的时空特征，2517表1.SSv 2-part和SSv 2-all的5路1次和5次基准测试的比较每组中表现最好的是高-点亮†：结果来自[3]。* ：结果来自[40]方法嵌入组SSv 2-部分SSv 2-全部 1张5张1张5张基线-{R3 D}MatchingNet-{R3D}3DCNN24.9 36.1 25.6 39.834.1 45.2 43.2TRX-{R3D}26.1 47.0 34.9 58.9MASTAF-{R3D}39.9 52.2 50.3 66.7TRX-{ViViT}Transformer34.7 - 42.7-MASTAF-{ViViT}45.6-60.7-表2. UCF 101和HMDB 51的5路1次和5次基准测试的比较。每组中最好的表现是突出的。* ：结果来自[40]嵌入组UCF101 HMDB51单次拍摄 5次射击 1-5-shot[34]第34话94.560.475.2PAL [40]2D CNN85.395.260.975.8[20]第二十话96.1-75.6MASTAF-{TSN} 79.390.354.867.7[8]第八话80.234.754[36]第三十六话83.145.560.6基线-{R3 D}3D CNN53.488.740.168.1MatchingNet-{R3D} 82.793.561.875.6TRX-{R3D} 82.594.157.074.3MASTAF-{R3D}90.697.667.981.2TRX-{ViViT}Transformer84.8-58.1-MASTAF-{ViViT}91.6-69.5-表3.与MASTAF的三种变体进行5路1镜头视频分类的比较结果方法UCF 101 SSv 2-所有MASTAF-邻居82.7 43.2MASTAF-SelfMASTAF-Cross 90.5 49.2MASTAF90.6 50.3集MASTAF-Self的自我关注模块有助于突出与每个视频本身中的动作相关的时空特征。因此，组合两个不同的注意力模块可以利用每个模块来进一步提取更具区别性的时空表示。表3中的结果证明了我们的论点。5. 结论提出了一种用于少镜头视频分类的模型无关MASTAF是一个简单高效的少镜头视频分类框架，兼容不同的视频分类模型。MASTAF充分利用了从高级视频分类模型中学习到的知识，并使用自注意和交叉注意来突出时空特征。当时空信息在高级视频分类模型中得到很好的表示MASTAF将UCF 101、HMDB 51和HMDB 52的5路单镜头视频分类的准确率分别提高到91.6%、69.5%和60.7%。SSv2，分别。[31]第三十一话CMN-J [39][34]第三十四话-36.2--48.8-34.4-45.343.8-61.2OTAM [3]2D CNN--42.852.3PAL [40]--46.462.6[20]第二十话36.059.142.064.6MASTAF-{TSN}37.550.246.962.4方法2518引用[1] Anurag Arnab ， Mostafa Dehghani ， Georg Heigold ，Chen Sun，MarioL uc i c′，andCorde l iaSchmid. Vivit：一个视频视觉Transformer。2021年。[2] Mina Bishay，Georgios Zoumpourlis，and Ioannis Patras.Tarn：用于少镜头和零镜头动作识别的时间注意关系网络。2019年。[3] K. Cao，J. Ji，Z.曹氏C. Chang和J.尼布尔斯基于时间对齐的少镜头视频分类。第10615- 10624页[4] 若昂·卡雷拉，埃里克·诺兰，克洛伊·希利尔，安德鲁·兹瑟曼.关于动力学-700人类行动数据集的简短说明。ArXiv，2019。[5] Joao Carreira和Andrew Zisserman。你好，动作识别？新模型和动力学数据集。2017年。[6] 工作日陈玉贞< 英> 香港实业家。，1939--人 Liu ，Z.Kira，Y.C.Wang和J.B.煌更仔细地看几个镜头分类。2019年，在ICLR[7] Carl Doersch，Ankush Gupta，and Andrew Zisserman.交叉变压器：空间感知少拍传输。2021年。[8] Sai Dwivedi ， Vikram Gupta ， Rahul Mitra ， ShuaibAhmed ， and Arjun Jain. Protogan ： Towards few shotlearning for action recognition. 2019年。[9] Chelsea Finn，Pieter Abbeel，Sergey Levine.用于深度网络快速适应的模型不可知元学习。在第34届机器学习集，第1126-1135页[10] Raghav Goyal、Samira Ebrahimi Kahou、Vincent Michal-ski 、 Joanna Materzynska 、 Susanne Westphal 、 HeunaKim、Valentin Haenel、Ingo Fruend、Peter Yianilos、Moritz Mueller-Freitag 、 Florian Hoppe 、 ChristianThurau、Ingo Bax和Roland Memisevic。学习和评估视觉常识的“某事某事”视频数据库。第5843-5851页[11] 原贤章片冈广胜佐藤丰利用三维残差网络学习时空特征用于动作识别。在ICCV研讨会，第3154-3160页[12] 原贤章片冈广胜佐藤丰时空3d cnns能回溯2d cnns和imagenet的历史吗？第6546-6555页[13] 侯瑞兵、常红、马冰鹏、Shiguang Shan和Xilin Chen。交叉注意力网络用于少数镜头分类。2019年。[14] Alexander Kolesnikov、Alexey Dosovitskiy、Dirk Weis-senborn 、 Georg Heigold 、 Jakob Uszkoreit 、 LucasBeyer 、 Matthias Minderer 、 Mostafa Dehghani 、 NeilHoulsby、Syl-vain Gelly、Thomas Unterthiner和XiaohuaZhai。一张图片值16x16个单词：用于大规模图像识别的变压器。2021年。[15] H. Kuehne，H. Jhuang、E. Garrote，T. Poggio和T. Serre.HMDB：一个用于人体运动识别的大型视频数据库。2011年。[16] Xinyu Li，Yanyi Zhang，Chunhui Liu，Bing Shuai，YiZhu ， Biagio Brattoli ， Hao Chen ， Ivan Marsic ， andJoseph Tighe. Vidtr：无卷积的视频Transformer。2021年。[17] Mathew Monfort，Alex Andonian，Bolei Zhou，KandanRa- makrishnan ， Sarah Adel Bargal ， Tom Yan ， LisaBrown，Fan Quanfu ， Dan Gutfruend ， Carl Vondrick ， et al.Moments in time数据集：100万个视频用于事件理解。2019.[18] Tsendsuren Munkhdalai和Hong Yu。Meta网络。机器学习研究的首席执行官，70，03 2017。[19] 作者声明：Dr.辛顿校正线性单元改善受限玻尔兹曼机。第27届国际机器学习会议论文集，第807-814页，2010年[20] 托比·佩雷特，亚历山德罗·马苏洛，蒂洛·伯格哈特，马吉德·米尔梅迪，还有迪马·达蒙.用于少数镜头动作识别的时间关系交叉变换器。2021年。[21] Aniruddh Raghu、Maithra Raghu、Samy Bengio和OriolVinyals。快速学习还是功能重用？了解MAML的有效性。2020年。[22] Sachin Ravi和H.拉罗谢尔优化作为一个模型的少镜头学习。2017年。[23] 放大图片作者：Michael M. Botvinick，Daan Wierstra，and Timothy P. Lillicrap使用记忆增强神经网络的一次性学习。在2016年国际机器学习会议上[24] Jake Snell，Kevin Swersky，and Richard S.泽梅尔用于少量学习的原型网络。CoRR，2017年。[25] Khurram Soomro、Amir Roshan Zamir和Mubarak Shah。Ucf101：来自野外视频的101个人类动作类的数据集2012年。[26] Chen Sun ， Abhinav Shrivastava ， Saurabh Singh ， andAbhi-nav Gupta.在深度学习时代重新审视数据的不合理有效性。第843-852页[27] Anirudh Thatipelli，Sanath Narayan，SalmanKhan，Rao Muhammad Anwer ， Fahad Shahbaz Khan ， andBernard Ghanem.面向少镜头动作识别的时空关系建模。在CVPR中，第19958-19967页，2022年6月。[28] 杜特兰湖作者声明：Rober

下载后可阅读完整内容，剩余1页未读，立即下载