19958用于少镜头动作识别的时空关系建模Anirudh Thatipelli1 Sanath Narayan2 Salman Khan1,4Fahad Shahbaz Khan1,5 Bernard Ghanem61穆罕默德·本·扎耶德人工智能大学2Inception Institute of Artificial Intelligence3阿尔托大学4澳大利亚国立大学5CVL,林可平大学6阿卜杜拉国王大学摘要我 们 提 出 了 一 种 新 的 少 镜 头 动 作 识 别 框 架 ,STRM,它增强了类特定的功能区分能力,同时学习高阶时间表示。我们的方法的重点是一个新的时空富集模块,聚合空间和时间的背景下,专用的本地补丁级和全球帧级的功能丰富的子模块。局部块级富集捕获动作的基于外观的特征。另一方面,全局帧级丰富明确地编码广泛的时间上下文,从而随着时间的推移捕获相关的对象特征。然后利用所得到的时空丰富的表示来学习查询和支持动作子序列之间的关系匹配。我们进一步引入了一个查询类相似性分类器的补丁级丰富的功能,以提高类特定的功能区分,通过加强在所提出的框架中的不同阶段的特征学习实验在四个少数镜头动作识别基准上进行:动力学,SSv2,HMDB51和UCF101。我们广泛的烧蚀研究揭示了拟议的贡献的好处此外,我们的方法在所有四个基准上设置了一个新的最先进的状态。在具有挑战性的SSv2基准测试中,我们的方法实现了3的绝对增益。5%的分类精度,相比,在文献中现有的最好的方法。我们的代码和模型可在https://github.com/Anirudh257/strm 上 获得。1. 介绍少镜头(Few-shot,FS)动作识别是一个具有挑战性的计算机视觉问题,其任务是将未标记的查询视频分类到每个动作类具有有限样本的支持集中的一个动作类别中。问题设置与细粒度动作识别特别相关[11],因为收集足够的标记示例是具有挑战性的[4,5]。大多数现有的FS动作识别方法通常搜索单个超级动作,端口视频[31]或支持类的平均表示[2,3]。然而,这些方法仅利用帧级表示,并且没有明确地利用视频子序列进行时间关系建模。在FS动作识别的上下文中,建模查询视频和有限的支持动作之间的时间关系是一个主要的挑战,因为动作通常以各种速度执行,并在不同的时间瞬间(时间偏移)发生。此外,期望视频表示对来自多个子动作的相关信息进行编码,所述多个子动作构成用于查询和支持视频之间的增强匹配的动作此外,动作的空间和时间上下文的有效表示对于区分需要时间关系推理的细粒度类是至关重要的,其中动作可以在各种背景中对不同对象执行,例如,把什么东西洒在什么东西。上述时间关系建模的问题最近由时间关系交叉转换器(TRX)[19]探索,其以基于部分的方式比较查询和支持视频的子序列,以解决动作的变化速度和偏移的此外,TRX模型复杂的高阶时间关系,通过表示子序列作为元组具有不同基数。然而,TRX斗争的情况下,与不同的对象和背景执行的行动(见图。1)。这可能是由于在时间关系建模期间没有明确地利用可用的丰富时空上下文此外,TRX中的元组表示是固定的,每个基数需要一个单独的CrossTransformer [7]分支,这影响了模型的灵活性。在这里,我们开始共同解决上述问题,同时建模的时间关系-船舶之间的查询和有限的支持行动。在这项工作中,我们认为,本地补丁功能的帧和视频中的全球帧功能是理想的线索,有效地丰富了编码的空间和时间的上下文信息。这种特征富集提高了类别特定的可辨别性,使得能够聚焦于视频中的相关对象及其对应的运动。19959()Category:Spilling Something behind Something(SSv2)()Category:Pretending to put Something behind Something(SSv2)视频帧TRX我们的:STRM时间Time视频帧TRX我们的:STRM(五)Category:Run(HMDB51)(六)Category:Pushup(HMDB51)图1. 从最近引入的TRX [19]和我们提出的STRM方法中获得的注意力地图可视化示例来自SSV2和HMDB51测试集的四个示例。注意力图测量潜在特征的激活幅度。TRX在空间和时间上下文变化的情况下挣扎,这些变化通常在用不同对象和背景执行的动作中遇到,(b)中从左起第5和第6类似地,虽然在(c)中从左起的第3和第6帧中也强调了背景区域,但是由于来自另一个人的移动的手的干扰物运动,在(d)中从左起的第2和第3帧中的动作我们的STRM方法显式地提高了类特定的功能的可辨别性,通过时空上下文聚合和中间的潜在特征分类。这导致查询和有限支持动作实例之间的更好匹配附加示例呈现在图1中。5、补充。此外,学习分类的特征表示在不同的阶段,预计将加强模型寻找类可分离的特征,从而进一步提高类特定的辨别性。此外,这种类别特定的可辨别性是通过由高阶时间关系的自动学习生成的基数的减少集合来实现的贡献:我们引入了一个FS动作识别框架,该框架包括时空丰富和时间关系建模模块,查询类相似性分类器。时空富集模块包括局部块级富集(PLE)和全局帧级富集(FLE)子模块。PLE通过以样本依赖的方式关注帧中的所有块来利用空间上下文丰富局部块特征,以便捕获动作类别之间的基于外观的相似性以及不相似性另一方面,FLE通过基于持久关系记忆(样本不可知)的聚合来丰富具有时间上下文的全局帧特征,该聚合包括整个感受野,以便捕获视频中的相关对象运动。所得到的丰富的帧级全局表示,然后利用在时间关系建模(TRM)模块学习查询和支持动作之间的时间关系。我们的TRM模块不依赖于多个基数模型高阶关系。相反,它利用空间-时间富集模块,用于学习较低基数下的高阶此外,我们引入了一个查询类相似性分类器,通过学习从中间层输出中对表示进行分类,进一步我们对四个FS动作识别基准进行了广泛的实验:动力学[4]、SSv2 [11]、HMDB51 [14]和UCF101 [23]。我们广泛的消融表明,所提出的时空富集和查询类相似性分类器都增强了特征区分能力,从而使基线得到显著改善。时空丰富模块还使得能够使用单个基数来对时间关系进行建模。我们的方法优于现有的FS行动识别方法在文献中的所有四个基准。在具有挑战性的SSv2基准测试中,我们的方法实现了68的分类准确率。1%,绝对收益为3. 5%,比最近推出的TRX [19],当采用ResNet-50骨干。图1显示了我们的方法与TRX的比较,在注意力地图可视化方面,来自SSv2和HMDB51的示例2. 预赛问题表述:少镜头动作识别的目标是将未标注的查询视频分类为一个19960∈联系 我们∈不KT∈ΣΣC∈KK1KL联系 我们t t1tω···∈∈在“支持集”中的C个动作类,为此,令Q=q1,,,q,L表示要被分类到类别c,C的L个帧的查询视频。此外,令Sc是动作类c的K个视频的支持集,其中第k个视频表示为Sc=Sc,,Sc.为了简单起见,我们将每个视频表示为均匀采样的L帧的序列。在这项工作中,我们遵循如[16]中的情景训练范例,其中从训练集中随机采样少量任务,用于在每个情景中学习C路K-shot分类任务接下来,我们描述基线FS动作识别框架。2.1. 基准FS行动认可框架在这项工作中,我们采用最近引入的时间关系交叉转换器(TRX)[19]方法作为基线,该方法已被证明在多个动作识别基准上实现了最先进的性能TRX通过使用CrossTransformers [7]将查询视频与支持类视频中以不同速度和时刻发生的动作进行匹配来对首先,对于查询视频中的每个子序列,经由动作类的支持视频中的所有可能的子序列的聚合来计算查询特定的类原型。聚合权重基于查询子序列和支持类子序列之间的交叉关注值然后,对查询视频的子序列的嵌入与其对应的查询特定类原型之间的距离进行平均,以获得查询到类的距离.TRX方法引入手工制作的表示来捕获高阶时间关系,其中子序列由基于用于编码子序列的帧的数量的不同基数的元组表示例如,以eiRD作为第i帧表示,t i和t j之间的子序列可以表示为一对(ei,ej)∈R2D,一个三元组(ei,ek,ej)∈R3D,一个四元组(ei,ek,el,ej)∈R4D等等,使得1≤