没有合适的资源?快使用搜索试试~ 我知道了~
9151查询视频:跳远运行跳着陆支持视频:跳远基于运动调制的时间片段对齐网络的少镜头动作识别1 1,121 1吴嘉民,张天柱,张哲,吴峰,张永东1中国科学技术大学2中国航天局探月与航天工程中心jiaminwu@mail.ustc.edu.cn,{tzzhang,fengwu,zhyd73}@ustc.edu.cn,cnclepzz@126.com摘要虽然大多数FSL模型专注于图像分类,但由于视频中的额外时间维度为了解决这个问题,我们提出了一个 端 到 端 的 运 动 调 制 的 时 间 片 段 对 齐 网 络 ( MT-FAN),通过联合探索特定于任务的运动调制和多层次的时间片段对齐的少镜头动作识别(FSAR)。所提出的MT-FAN模型具有许多优点.首先,我们设计了一个运动调制器,条件是学习特定于任务的运动嵌入,它可以激活与每个帧的任务共享运动模式相关的通道第二,提出了一种分段注意机制来自动发现用于多级时间片段对齐的更高级别的分段,其包括帧到帧、分段到分段和分段到帧对齐。据我们所知,这是第一项利用FSAR任务特定运动调制的工作在四个标准基准上的大量实验结果表明,该模型对最先进的FSAR方法表现良好。1. 介绍深度学习在动作识别领域取得了巨大的成功[31,37,38,43]。然而,现代深度学习方法需要大量的注释数据,收集这些数据非常困难且成本高昂[1]。为了减少对人类注释的需求,已经提出了少镜头学习(FSL)[9,32,41,44],其目的是将未标记的样本(查询集)分类为只有少数标记的样本(支持集)的新的不可见类。虽然大多数FSL模型[9,32,41,44]专注于图像分类,但将其扩展到视频分类是相当具有挑战性的。这是因为视频具有比具有特定时间维度的图像复杂得多的结构[4]。为了利用时间信息,一些最近的方法[3,4,25]执行时间信息。*通讯作者(a) 帧到帧对齐(b)段与段之间的协调(c) 时间片段对齐图1.不同的对齐方式。(a),(b):先前的方法[3,4,25]在单个级别匹配视频,即,“帧到帧”或“段到段”。(c)在多个级别执行时间片段对准,即,“frame to frame”, “segment tosegment”, and “frame to segment”, which suits the videos withdifferent speeds in the real-worldporal对齐,以在时间维度上匹配视频帧或片段(参见图1),这有助于区分顺序敏感的动作。在[4]中,Cao等人使用动态时间规整[24]来找到帧之间的最佳对齐路径。然后将视频距离作为帧序列的对齐代价。在[3]和[25]中,注意力机制被用于实现时间对准。在[3]中,Bishay等人首先从视频中均匀采样片段,每个片段包含固定长度的帧。然后,他们将这些片段馈送到3D CNN中以提取运动特征,并进行片段级别的atten-tion以进行时间对齐。类似地,在[25]中,它从视频中随机采样帧对/三元组以形成视频片段,并对这些片段进行关注。通 过 对 以 往 基 于 时 间 对 齐 的 少 拍 动 作 识 别(FSAR)方法的研究[3,4,25],我们总结了建立鲁棒FSAR模型所必须的两个方面。(1)任务特定的运动模式挖掘。运动建模已被证明对于动作识别至关重要,因为视频包含丰富的时间结构[19]。一些方法[3,16,48]采用3D9152CNN用于提取FSAR的运动特征。然而,它们具有较高的计算成本,并且在对少炮集的时间结构建模时缺乏具体考虑。特别是在FSAR中,任务由新的类别组成,这导致了大的任务间差异。因此,利用相同的网络来提取所有任务的运动特征可能并不合适,因为运动模式在不同的特定任务中具有很大的差异因此,如何有效地挖掘特定于任务的运动模式对于FSAR具有至关重要的意义。(2)多层次时间片段对齐。大多数先前的方法执行帧级对齐[4]或片段级对齐[3,25](参见图1(a)和(b)),这可能会在以不同速度匹配视频时导致模糊和未对齐此外,[3,25]中的片段是通过预先定义的采样策略获得的,因此具有很大的随机性,可能会加剧错位问题。实际上,现实世界中的时间对齐不仅包括在这里,我们使用时间片段来统一表示帧和片段。为了实现不同速度下视频的鲁棒匹配,该模型应具有自动发现更高级别片段并执行多级时间片段对齐的能力受上述见解的启发,我们提出了一个端到端的运动调制的时间片段对齐网络(MTFAN),通过联合探索特定于任务的运动调制模块和FSAR的多级时间片段对齐模块。在任务特定的运动调制模块中,我们首先聚合来自支持视频的连续帧的时间差异,以诱导任务特定的运动模式。随后,提出了一种运动调制器,用于根据任务级时间知识来激励帧的运动相关通道。以这种方式,网络被迫发现和增强任务共享的信息运动信息,这有助于在同一任务中的视频在多层次的时间片段对齐模块中,我们提出了一个Transformer启发的片段注意层,通过聚合任意数量的相关帧来自适应地具体来说,我们引入了几个可学习的片段原型,条件是先前的视频上下文作为查询,并采取帧特征作为键和值。我们可以通过操作片段原型和框架之间的张力来获得更高级别的片段利用帧和发现的片段,我们可以利用时间片段之间的更多样化的对齐考虑到多层次的节奏-该模型能够灵活地发现和对齐具有不同持续时间的相似时间模式。最后,我们将时间片段对齐过程重新表示为最优运输问题[40],并使用Sinkhorn算法[8]来解决它。我们的模型的贡献可以概括为三个方面:(1)我们提出了一个端到端的运动调制的时间片段对齐网络(MT-FAN),通过联合利用特定于任务的运动调制和多层次的时间片段对齐。(2)我们设计了一个运动调制器来激活与帧的任务特定运动模式此外,提出了一个片段注意层,以发现更高级别的片段,用于多级时间片段对齐。据我们所知,这是第一项利用FSAR任务特定运动调制的工作(3)在四个具有挑战性的基准上的大量实验结果表明,我们的方法优于最先进的FSAR方法。2. 相关工作在本节中,我们将介绍几条研究路线,包括少数镜头图像分类、少数镜头动作识别和动作识别中的运动建模。少镜头图像分类。在少数拍摄图像分类文献中有两个主流(1)基于优化的方法[2,9,17,22,27,34]使用元学习器作为优化器,以使模型参数适应新任务。MAML[9]及其许多变体[2,12,34]试图元学习一个良好的模型初始化,以确保模型可以快速适应具有有限优化步骤的未知任务。(2)基于度量的方法[20,30,32,35,36,41,44,47]为他们选择的距离度量学习嵌入空间。原型网络[32]计算平均类表示之间的欧几里德距离(即,原型),并通过最近邻搜索执行分类。几种方法[14,29,35,46]通过使用CNN或图形神经网络来推断属性,直接学习深度距离度量。我们的方法属于基于度量的类型。然而,由于视频的时间结构复杂,直接将上述方法扩展到FSAR中可能是不理想的。因此,本文设计了运动调制模块和时间片段对齐模块,有效地利用了FSAR中丰富的时间线索。少拍动作识别。大多数现有的FSAR方法[3,4,10,16,48,49]采用度量学习范式,并专注于探索良好的度量来计算查询和支持视频之间的距离以进行分类。其中一些[5,16,50]直接聚合帧特征以获得用于距离计算的单个视频表示。然而,这些基于聚合的方法忽略了对视频分类至关重要的时间关系。为了利用时间信息,9153不SQ不不我t=1∈不∈--我···我 i=112- -NK另一系列研究[3,4,25]集中于视频之间的OTAM [4]通过DTW算法[24]执行一些方法[3,25]通过在视频的片段嵌入之间使用注意力机制来实现时间对齐它们的片段是从视频中采样的,因此具有一定的随机性。总之,上述时间对齐方法考虑了帧级对齐集合D训练被分割成一组任务训练来模拟测试环境,希望获得跨任务的泛化能力。 测试集D测试包括测试任务测试,测试任务测试包含与训练集D训练不相交的动作类。每个少镜头任务由一个支持集和一个查询集组成具体来说,N路K次任务意味着任务由N个类组成 , 每 个 类 有 K 个 支 持 样 本 即 , S ={ ( Vs ,ys)}NK,其中ys ∈ {1,2,···,N}. 查询集由M个sam组成我qqMN或者只进行片段级对齐,但忽略帧-到段对齐,这在真实视频匹配中也很常见随后,我们的方法自动探索更高级别的片段进行多级时间片段对齐,包括帧到帧,片段到片段和帧到片段对齐。动作识别中的运动建模。运动建模已被证明是动作识别的关键[19]。最近的动作识别方法[7,26,37,38,45],包括几种FSAR方法[3,16,48],利用3DCNN同时对外观和运动特征进行建模。然而,基于3DCNN的方法有大量的参数需要优化,因此可能不适合于少数镜头设置。另一种工作线是基于双流网络[31,43],具有光学光流流以结合运动特征。然而,光学相干流的计算也是昂贵的。为了避免高计算成本,一些最近的方法[13,19,42]设计了可以插入到2D CNN中进行运动提取的时间差模块。在这些方法中,时间差可以被看作是作为运动表示的光学光流的有效替代物。尽管如此,上述方法不是为FSAR设计的,其中测试任务包含在训练中看不到的新类。因此,他们可能不会很好地概括了看不见的任务。 当然,在这方面-每个类的单元数,即, Q ={(Vi,yi)}i=1。最终目标是将查询视频Vq∈ Q分类到N个超端口类给出了一些标记的视频从S.3.2.任务专用运动调制模块为了提取运动特征,一些FSAR方法[3,16,48]采用现成的3D CNN [37]。然而,它们具有高计算成本,并且不对少数镜头设置进行修改。在这里,我们通过引入特定于任务的运动调制,提出了一种有效的运动建模策略,它可以很容易地嵌入到2D CNN中。运动编码器。为了利用特定于任务的运动模式,提出了运动编码器E以将时间差异转换为运动特征。相邻帧之间的时间差与光学相干流有关,并且可以堆叠以近似于最大值。特色[42]。具体来说,我们首先随机采样T帧,扩展每个视频V的整个视频长度,如[43]所示。这些帧被分别馈送到基于ResNet的特征提取器中以获得特征:I tT在哪里我tRH×W×C是第t帧的特征.然后提出了运动编码器E,以通过收集以下运动特征来提取特定于任务的运动嵌入MT:所有支持视频{V s,V s,· · ·,V s }在当前针对这一问题,我们设计了一个特定于任务的运动调制模块,它可以学习与任务相关的运动模式并自适应任务测试:1 2 朝鲜MT=E(Vs,Vs,···,Vs )的情况。(一)该模型适用于任意任务。3. 我们的方法在本节中,我们首先制定了少数镜头动作识别的任务。然后,我们描述每个组件,首先介绍了如何在E.具体地,我们通过下式计算It与其相邻帧It+1和It-1之间的前向差分特征D f,t和后向差分特征D b,t:提出的运动调制的时间片段对齐网络(MTFAN)的细节。如图2所示,我们的MTFAN由两个模块组成。(1)特定任务Df,t=It+1−φsmt(It),Db,t=It−1−φsmt(It),(二)运动调制模块旨在基于任务特定的运动模式来增强帧特征,其涉及逐通道调制机制。(2)多级时间对齐模块负责自动发现可以与帧组合以进行时间片段对齐的更高级别的片段3.1.问题定义少镜头动作识别是在一组其中t=1,是用于空间平滑的卷积层,其可以减轻空间未对准。然后,对于前向差分特征Df ,tt=1,应用另一个卷积层φmt以将它们变换成紧凑的运动特征。通过压缩时间维度来导出最终前向运动特征MfRC。从形式上讲,1ΣT任务T (也称为测试)。 培训Mf=Tt=1GAP(φmot(Df,t)),t=1,2,···,T,(3)9154我不t=1j=1ppFt=1B不t=1···JC联系我们联系我们p j=1∈∈任务特定运动调制模块多层次时间片段对齐模块图2. 我们的方法的架构(在1-shot设置中示出):(1)在特定于任务的运动调制模块中,给定查询和支持视频Vq和Vs,我们首先通过运动编码器E获得特定于任务的运动嵌入MT,然后使用它来调制帧特征(即,Iq和Is)的查询和支持视频的运动调制器。(2)在多级时间片段对齐模块中,我们从Vq和Vs的上下文帧嵌入生成片段原型Pq,Ps。原型以及调制帧嵌入{fq}T、{fs}T被发送到段注意层以发现更高级别的段(即,tt=1t t =1sq,sq,sss,s ss),然后将其与帧嵌入组合以用于多级时间片段对齐。1212其中GAP表示用于聚集空间信息的全局平均池化可以通过等式(3)以类似的方式获取向后运动特征Mb对于每个支持视频Vs,我们可以提取这样的双向运动特征Mi,Mi,其中i=1,2,,NK。亚因此,特定于任务的运动嵌入MT是ob-t。通过聚合支撑运动来获得:以MT为条件的参数发生器gγ和gβ:γT=gγ(MT),βT=gβ(MT),(6)其中每个参数生成器由两个线性层组成,第一个层后面是ReLU激活函数。在任务特异性运动嵌入的指导下,γT和βT可以加强对任务共享运动模式敏感的独特通道,MT=1K1型坦克(M i+ M i)。(四)有助于在同一任务中找到查询和支持视频的时间结构中的同现。NK2fbi=1通过这种方式,MT知道上下文化的全局运动知识,从而可以揭示有用的模式,可能是区分任务中不同小说类别的关键。运动调节器。为了有效地利用特定于任务的运动嵌入,我们提出了一种运动调制器算法,将包含在我把它放进个人视频里。运动调节器由多个调制层组成,每层3.3.多级时间对齐模块为了适应速度变化较大的视频,我们设计了一个分段注意层来发现更高级别的分段,这些分段可以与帧序列相结合来实现多级时间对齐。分段注意层。 启发通过的由于Transformer体系结构在发现局部区域[6,18]方面的优势,我们将Transformer [39]中的交叉注意模块具体地说,考虑到最后一层的调制特征,采用仿射变换来适配帧FEA,骨干网的相应层中的隧道。 为了描述的简洁性,我们使用图来概括地说明对于视频V,我们引入一组可学习的 片段原型P=PJ,pjR以用作用于收集相关帧的查询Q。我们-每一层的调制过程。 具体而言,鉴于对于视频V的帧特征I ={I}T,我们获得符号序列原型生成器gp={gj}J以产生- 通过运动调制的自适应帧嵌入:m(It)=γTIt+βT,t=1,2,···,T,(5)01-021ΣT不f(t),j=1,2,···,J,(7)其中,γTRC和βTRC是任务共享的逐信道调制参数,其由PA产生t=1其中,e_a_ch原型生成器a_tor_g_j由线性层r组成。然后,我们将{f t}T作为键K和值V。以下查询视频中心框架特点原型时间片段对齐特征…发电机散热器间隙萃取器细分市场原型���−���������−������共享框架特点支持视频中心运动调制器间隙段Attention层������−��� ������特征…萃取器,���−������➚➚间隙细分市场原型其他支持功能运动编码器参数生成器你好原型发电机校准矩阵���余弦相似特定任务运动嵌入式系统相似性评分标准从帧序列的上下文中分割原型9155--··∈ {···}∈关于我们⟨··⟩∈∈××qs变压器,Q,K,V三元组由独立的线性投影层生成:Qj=pjWq,Kt=ftWk,Vt=ftWv,(8)其中t=1,2,···,T和j=1,2,···,J,且Wq∈RC×dq,Wk∈RC×dk,Wv∈RC×dv 线性投影层。然后,我们可以通过以下方式获得关键字和查询之间的注意力分数其中φsim(i)表示相似性函数,并且hq,hs表示查询和支持视频V q和V s的时间片段。在等式(12)中,Pmax中的比对分数可以测量不同项目之间的相似性如何。poral片段有助于视频级的相似性。值得注意的是,对于多镜头设置,我们可以对与类别表示相同的类中的支持实例的时间片段表示进行平均,然后使用等式(12)来计算V q和类别c之间的相似度为φsim(Vq,c)。exp(ajt)QjKTajt=,ajt=宾馆(9)基于视频相似度,不t′=1√exp(ajt′)dk可以通过Softmax函数来推断当前任务中的每个查询视频Vq的类c 1,2,…,N:哪里d是缩放因子r。注意力得分为100可以qexp(φsim(Vq,c))K JTC|V)=<$Nexp(φsi m(Vq,c′))。分类损失被认为是段之间的软对应原型和框架,可用于选择和c′=1Lc可以定义为负对数概率:将任意数量的语义相关的帧聚合到更高级别的片段中。具体地说,段sj被定义为所有值的加权和:ΣT1Lc= − |Q|4. 实验Σ(Vq,yq)∈Qlogp(y= yq|Vq)。 (十三)sj =t=1a_j_tV_t,j=1,2,···,J.(十)在本节中,我们首先介绍数据集和实现-站点详细信息。然后,我们展示了实验结果和一些可视化。时间碎片对齐。我们结合帧特征和片段作为给定视频V的时间片段表示h:h=f1, ,f T,s1,,S.J.为了实现多-水平对齐的时间片段之间,我们公式化的视频匹配任务作为一个最优传输(OT)的问题[21,23]。OT的目标是在两个离散分布μ,νRd之间找到具有最小成本运输计划的最优运输。最佳运输通过最小化运输成本获得计划P:P = argmin P, C,4.1. 数据集描述我们在四个具有挑战性的数据集上评估了我们的模型 , 包 括 Something-Something V2 ( SSv 2 ) [11] ,Kinet-ics [7],UCF 101 [33]和HMDB 51 [15]。 对于SSv2和动力学,我们遵循与[4]和[49]相同的分割,它们都从整个数据集中随机选择100个类,其中64,12,24个类用于训练/验证/测试。UCF101和HMDB51分别包含101和51个动作类。我们按照[48]中的实践对两个数据集使用少量分割UCF 101中的类分别被分成70、10、21个类用于train/val/test。 在HMDB51中,QP∈(μ,ν)S.T. P 1 = μ,PT1 =ν,Q(十一)51个类被分成31个训练类、10个验证类、10个测试类。4.2. 实现细节哪里(μ,ν)是具有边际μ的联合分布,ν,表示余弦相似度,CRd×d表示将μ传送到ν的成本矩阵。问题可以通过Sinkhorn算法[8]有效地求解方程(11)中的 为了将OT应用到视频匹配任务中,我们假设比较的查询和支持视频是时间片段上的均匀分布。成本矩阵C由时间点之间的距离定义。片段,即,CR(T+J)×(T+J)。 通过求解(11),我们可以获得Pq作为对齐矩阵,然后定义查询视频Vq和支持视频Vs:T+J对于每个视频,我们稀疏且均匀地采样T=8帧,并将这些帧调整为256 256,如[43]所示。我们利用TSN[43]来提取视频帧的2D特征为了与以前的作品[4,25,49]进行公平比较,我们选择ResNet-50作为TSN的主干。在训练过程中,视频剪辑通过随机水平缩放进行增强,然后随机裁剪为224 224.为了测试,我们只使用中心裁剪来增强视频。在元训练之前,我们在ResNet骨干的训练集上应用预训练策略,以加速实践之后的训练过程。[28,47]。然后,以情节的方式训练模型,每个情节由N路K镜头组成φsim(Vq,Vs)=hm,hn9156m=1,n =1、(十二)任务我们主要试验5路1拍和5路5-拍摄设置。我们使用SGD优化器,9157表1.比较我们的方法与国家的最先进的方法对动力学,SSv2,UCF 101和HMDB 51。红色字体和蓝色字体表示最高和第二高结果。我们重新实现的版本的结果用†标记。方法骨干动力学SSv2UCF101HMDB51单次拍摄5次射击单次拍摄5次射击单次拍摄5次射击单次拍摄5次射击Protogan [16]C3d----57.880.234.754.0TRAN [3]C3d66.680.7------[48]第四十八话C3d63.782.4--62.184.844.659.1[49]第四十九话ResNet-5053.374.6------MAML [49]ResNet-5054.275.3------[49]第四十九话ResNet-5060.578.9------TRAN [3]ResNet-5064.878.5------OTAM [4]ResNet-5073.085.842.852.3----[25]第二十五话ResNet-5063.685.942.064.678.8†96.152.2†75.6MTFAN(我们的)ResNet-5074.687.445.760.484.895.159.074.6表2.在5路单次激发和5路5次激发设置下,SSv2和UCF 101的消融结果。方法SSv2UCF101单次拍摄5次射击单次拍摄5次射击基线37.449.578.692.4基线+OT39.252.781.693.0基线+OT+节段41.653.982.393.1基线+OT+TMM42.455.583.394.4基线+OT+TFA43.357.583.894.2MTFAN45.760.484.895.1率为0.0001。学习片段的数量对于SSv2设置为 4,对于其他数据集设置为2,这些数据集通过情景交叉验证选择在测试阶段,我们报告了1000个随机抽样任务的平均分类准确率训练需要一个Tesla V100 GPU。4.3. 与其他方法的比较我们比较了我们的MTFAN与各种最先进的方法在不同的数据集和少数镜头设置。如表1所示,我们的MTFAN在5路1次设置中的所有数据集上设置了新的最先进的结果,这有力地证明了我们方法的有效性。在5路5次拍摄设置中,我们的方法还使用最先进的方法进行了同步。根据结果,我们有以下观察结果。(1)与最好的基于C3D的方法(即,ARN [48]),我们的方法在UCF 101上的1次拍摄和5次拍摄设置中实现了22.7%和10.3%的大幅改善。3D CNN引入了大量的优化参数,这可能会导致过拟合问题,特别是在少次学习中。此外,直接使用通用运动提取器可能无法适应不同的少数拍摄任务的需要。因此,我们利用时间差异来提取特定于任务的运动模式,以增强任务中每个视频的表示。(2)与基于ResNet的方法相比,我们的方法在UCF 101和HMDB 51上的1次设置中的性能明显优于最先进的性能6.0%和6.8%,这证明我们的网络在数据极其稀缺时能够有效地适应新任务的运动调制中的任务特定机制有助于我们的模型为每个特定任务提取有用的运动表示,这进一步提高了泛化能力。(3)与基于时间对齐的方法(即,TARN [3],OTAM [4]和TRX [25]),我们的方法在大多数结果中获得了更好的性能,这证明了我们提出的多级对齐的优越性。我们在帧和自动学习的片段之间进行更多样化和更易执行的对齐,这对具有不同速度的视频更鲁棒。值得注意的是,MTFAN在5次拍摄设置中的表现略低于TRX [25这是因为我们在比较之前平均了每个类的支持特性。而在TRX中,所有支持特征都通过注意力机制与查询视频进行比较,这会导致更高的计算成本,并且不适用于1次拍摄设置(在Ki- netics上,准确度比MTFAN低11%)。在未来,我们将尝试通过考虑不同支持视频的重要性来改善5次拍摄的结果。4.4. 消融研究在本节中,我们进行了详细的消融研究,以证明我们选择的提议方法的有效性。基线。我们首先介绍我们的基线方法,该方法是从经典的少量学习方法ProtoNet [32]扩展而来的。使用与MTFAN相同的预先训练的具体来说,我们在时间维度上对帧特征进行平均以获得视频级表示。我们把支持样本的平均表示作为类原型。然后计算给定查询与原型之间的距离,并将查询分类为最接近类原型的类别。模型组件分析。我们对SSv2和UCF 101上的MTFAN模型组件进行了详细分析(见表2)。我们将特定于任务的运动调制模块表示为TMM,并且将多级节奏片段对齐模块表示为TFA。我们也评估9158464544434241403938370 1 2 4 68段数(一)9088868482807876740 1 2 4 6 8段数(b)第(1)款表3.我们生成的片段与SSv2和UCF 101上的采样片段在5路1次拍摄设置中的比较图3.在5路1次设置中,发现的片段数量对(a)SSv2和(b)UCF 101的影响。504030表4. SSv2在5路1次和5路5次设置中的不同调制策略的比较。201005 7 10 12 15班级数量图4. MTFAN与基线的比较在SSv2上在5路1次设置中的不同N路1次任务下,其中N表示类的数量,并且在[5,7,10,12,15]中变化。仅执行帧到帧对齐(表示为+段”)。结果分析如下:(1)与基线,用于帧级对准的OT的利用带来了明显的改进(例如,在SSv2上5次激发设置中为3.2%)。单独执行片段级对齐也大大提高了性能,这证明了通过自适应地收集几个语义相关的帧来自动生成片段的有效性(2)利用TMM,可以观察到明显的性能提升。TMM可以通过使用基于任务特定的运动嵌入的通道调制来增强每个样本的运动模式。通过这种方式,全局任务共享信息可以进一步有利于任务内的后续对齐。(3)与单独使用帧级对齐或段级对齐相比,TFA的引入实现了显著的精度增益。这些改进主要归功于多层次的时间片段对齐,它发现了任意一对帧和片段之间的不同匹配关系。段数的分析。我们研究了SSv2和UCF 101上发现的片段数量(表示为J)的影响(见图3)。在SSv2上,与基线相比,即使使用一个段也会带来一定的改进。随着J值的增加,匹配精度呈现出明显的上升趋势,因为更多的片段可以扩大时间片段对齐的多样性,有助于更准确的视频匹配。然而,准确性在J=4时达到峰值,然后随着引入更多段而下降。原因可能是增加J会带来更多的参数,并可能加剧过度拟合的风险。在UCF 101上,我们可以观察到相同的精度变化趋势,但是当使用2个段时实现了最佳性能。总体而言,在不同J下,性能变化相对平稳,这表明所提出的分段注意层的鲁棒性不同的类数N。我们通过增加任务中类的数量(表示为N)来测试模型在更具挑战性的少数场景中的性能。从图4中我们可以看到,MTFAN和基线的精度随着N的增加而降低。这并不奇怪,因为更多涉及的小说类使少数镜头的分类变得更加困难。值得注意的是,即使在非常具有挑战性的少数拍摄设置(例如,N=15),MT- FAN仍然超过基线5.5%的显著幅度,这证明了我们的方法在处理稀缺数据时的泛化能力。生成的片段和采样片段的比较。为了定量分析分段生成的效果,我们与[3,25]中采用的其他分段采样策略进行了比较。在[25]之后,我们为每个视频采样8帧,然后将帧对和帧三元组作为片段进行穷举采样。我们还从视频中均匀采样片段,每个片段由固定长度的帧组成,如[3]所示。我们用4个或2个片段进行实验,总共使用8个帧或12个帧,并对帧特征进行平均以形成片段表示。我们使用OT对所有方法进行段对段对齐,以进行公平比较。正如我们从表3中看到的,我们生成的片段实现了最佳结果。即使与使用更多帧的采样片段相比(见第五行的结果),我们的实验结果证明了自动分割的优越性,即相关帧被选择和聚集以形成更合理的分割。43.542.94342.241.5SSv2-1shot39.2UCF 101 - 1镜头81.88281.682.6八十二点五83.6准确度(%)MTFAN基线45.737.435.429.2二十九点四25.922.822.619.417.1准确度(%)方法SSv2UCF101采样片段三胞胎37.381.8对三胞胎37.882.08帧40.381.58帧39.381.612帧41.182.2我们生成的细分市场42.682.6方法单次拍摄5次射击通过外观进行调节39.352.6运动调制42.455.59159帧帧0.50.500(1)帧到帧对齐(1)帧到帧对齐帧段帧段(2)段到段和段到帧对齐(2)段到段和段到帧对齐查询支持查询支持(a) 跳高(b)跳远图5.在UCF 101上的类别(a)跳高和(b)跳远中,我们对八帧进行采样,并为每个视频学习两个片段连接边的颜色指示对齐矩阵P中的对齐分数的值。(a)(1)和(b)(1)呈现帧到帧对齐,而(a)(2)和(b)(2)示出了学习的片段和片段到片段、片段到帧对齐。高的框架段注意力层中的注意力分数及其对应的2个段用相同颜色(红色和绿色)的框来示出。我们可以看到,包含类似子动作的帧和片段具有高对齐分数。不同调制策略的比较。为了评估运动建模的影响,我们将特定于任务的运动嵌入MT替换为调制中的2D外观特征。具体来说,我们平均支持样本的帧特征,并使用它们来生成调制参数。比较结果示于表4中。运动特征的替换导致1次和5次FSAR的精度明显下降单独的外观表示可能无法表达时间结构中的关键信息。4.5. 可视化在这一节中,我们提出了几个可视化生动地说明了多层次的时间片段对齐的过程和有效性。帧到帧对齐的可视化。在图5(a)(1)和图5(b)(1)中,我们在查询和两个类别(“跳高”和“跳远”)的支持视频之间的帧到帧对齐中显示学习到的对齐矩阵P可以看出,一定数量的框架可以很好地对齐。然而,由于采样策略的随机性和背景区域的噪声,当不考虑上下文帧时,一些孤立帧在语义上是模糊的(例如,图5(b)(1)中的第七支撑框架),这导致框架之间的不对准。发现的片段的可视化。我们可视化由分段关注层自动生成的分段。对于每个视频,我们从采样的八帧中学习两个如图5所示(a) (2)以及(b)(2),具有高注意分数的帧并且用相同颜色(红色和绿色)的框来示出它们对应的两个段。我们可以观察到,组成相同片段的帧一般具有语义相似的动作模式,如“跑”、“跳”和“落”,这证明了片段注意层在匹配相关帧与片段原型方面段到段和段到帧对齐的可视化。如图5(a)(2)和(b) (2)在具有大相似性的片段之间可以观察到高比对分数。这些语段与语义相关的框架也有很强的联系。这些现象证明了多层次时间片段对齐的可靠性,它考虑了更全面的对齐方式,并允许灵活地利用高阶时间关系。因此,学习的时间对齐可以有助于更准确的视频相似性度量。5. 结论在本文中,我们提出了一个运动调制的时间片段对齐网络的FSAR。我们设计了一个运动调制器,以增强帧特征的基础上学习的特定于任务的运动嵌入。此外,提出了一种分段注意机制,以自动发现更高级别的分段进行多级时间片段对齐。实验证明了该方法的有效性。6. 确认本 工 作 得 到 了 国 家 自 然 科 学 基 金 ( 62022078 、62121002 、 62071122 ) 和 国 防 基 础 科 学 研 究 计 划(JCKY2020903B002)的部分资助。9160引用[1] Maria-Luiza Antonie,Osmar R Zaiane和Alexandru Co-man。数据挖掘技术在医学图像分类中的应用。在Proceedings of the Second International Conference onMultimedia Data Mining,第94- 101页,2001年。1[2] Antreas Antoniou,Harrison Edwards,Amos Storkey.如何训练你的妈妈。在2018年国际学习代表会议上。2[3] 米娜·比沙伊,乔治斯·祖普利斯,和扬尼斯·帕特拉斯.Tarn:用于少镜头和零镜头动作识别的时间注意关系网络。arXiv预印本arXiv:1907.09021,2019。一二三六七[4] Kaidi Cao , Jingwei Ji , Zhangjie Cao , Chien-YiChang,and Juan Carlos Niebles.通过时间对齐进行少镜头视频分类。在IEEE计算机视觉和模式识别集,第10618一二三五六[5] 克里斯·卡瑞加,布莱恩·哈钦森,内森·奥肯·霍达斯和劳伦斯·菲利普斯。用于视频动作识别的基于度量的少镜头学习arXiv预印本arXiv:1909.09602,2019。2[6] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测在European Conference on Computer Vision中,第213-229页Springer,2020年。4[7] Joao Carreira和Andrew Zisserman。你好,动作识别?新模型和动力学数据集。在IEEE计算机视觉和模式识别会议的论文集,第6299-6308页,2017年。三、五[8] 马可·库图里Sinkhorn距离:最佳运输的光速计算。神经信息处理系统进展,26:2292-2300,2013。二、五[9] Chelsea Finn,Pieter Abbeel,Sergey Levine.用于深度网络快速适应的模型不可知元学习。在国际机器学习会议上,第1126-1135页,2017年。一、二[10] Yuqian Fu,Li Zhang,Junke Wang,Yanwei Fu,andYugang Jiang.基于深度引导自适应元融合网络的小镜头视频识别。2020年ACM国际多媒体会议2[11] Raghav Goyal,Samira Ebrahimi Kahou,Vincent Michal-ski , Joanna Materzynska , Susanne Westphal , HeunaKim,Valentin Haenel,Ingo Fruend,Peter Yianilos,MoritzMueller-Freitag,etal.The“somethingsomething”video database for learning and evaluatingvisual common sense.在IEEE计算机视觉国际会议论文集,第5842-5850页,2017年。5[12] Muhammad Abdullah Jamal和Guo-Jun Qi。任务不可知的元学习用于少量学习。在IEEE计算机视觉和模式识别会议集,2019年。2[13] Boyuan Jiang , MengMeng Wang , Weihao Gan , WeiWu,and Junjie Yan.Stm:用于动作识别的时空和运动编码。在IEEE计算机视觉国际会议论文集,2019年10月。3[14] Jongmin Kim、Taesup Kim、Sungwoong Kim和Chang DYoo。用于少次学习的边标记图神经网络在IEEE计算机视觉和模式识别会议论文集,第11-20页,2019年。2[15] Hildegard Kuehne,Hueihan Jhuang,Est´ıbaliz Garrote,Tomaso Poggio,and Thomas Serre. Hmdb:用于人体运动 识 别 的 大 型 视 频 数 据 库 。法 律 程 序 中IEEEInternational Conference on Computer Vision , 第 2556-2563页,2011年。5[16] Sai Kumar Dwivedi 、 Vikram Gupta 、 Rahul Mitra 、Shuaib Ahmed和Arjun Jain。Protogan:Towards few shotlearning- ing for action recognition.在IEEE计算机视觉和模式识别研讨会论文集,第0-0页,2019年。一、二、三、六[17] KwonjoonLee,SubhransuMaji,AvinashRavichandran,and Stefano Soatto.可微凸优化的元学习在IEEE计算机视觉和模式识别集,第10657-10665页,2019年。2[18] Yulin Li , Jianfeng He ,Tianzhu Zhang, Xiang Liu ,Yongdong Zhang,and Fe
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功