没有合适的资源?快使用搜索试试~ 我知道了~
7567取样剪辑它取样剪辑迭代i骨干骨干骨干骨干骨干协作记忆超越短片:端到端的视频级学习与协作记忆杨锡通1*,郝奇2,托雷森2,3,戴伟斯1,王恒21马里兰大学帕克分校2Facebook AI3达特茅斯{xyang35,lsd}@ cs.umd.edu{haoqifan,torresani,hengwang}@fb.com摘要训练视频模型的标准方式需要在每次迭代时从视频中采样单个剪辑,并相对于视频级标签优化剪辑预测。我们认为,一个单一的剪辑可能没有足够的时间覆盖来展示标签识别,因为视频数据集往往是弱标记的分类信息,但没有密集的时间注释。然而,在简短的剪辑上优化模型阻碍了其学习长期时间依赖性的能力。为了克服这些限制,我们引入了一种合作的方式-剪辑级学习erectionj(a) 标准:在每次迭代中对单个剪辑进行剪辑级学习视频级学习一种在每次训练迭代中对视频的多个采样剪辑进行信息编码的理论机制。这使得学习远程依赖性超越取样剪辑取样剪辑取样剪辑一个片段我们探索不同的设计选择的协作内存,以减轻优化的困难。我们提出的框架是端到端的可训练的,并显着提高了视频分类的准确性,在一个可以忽略不计的计算开销。通过广泛的实验,我们证明了我们的框架可以推广到不同的视频架构和任务,在动作识 别 ( 例 如 , Kinetics- 400& 700 , Charades ,Something-Something-V1)和 动作检 测(例如 , AVAv2.1 v2.2)。1. 介绍近年来,3D卷积网络(3D CNN)的端到端学习已经成为视频分类的重要范例[2,5,7,9,10,22,33,39,4143、45、47、53]。随着越来越深和越来越大的网络的引入,准确性得到了稳步提高然而,由于它们的高计算成本和大的存储器需求,大多数视频模型在短的、固定长度的剪辑而不是整个视频上的每次迭代中被优化。虽然在现代视频模型中得到了广泛的应用,但剪辑级学习框架对于视频级*在Facebook AI实习期间完成的工作。(b) 我们的框架:视频级学习与协作记忆。图1:剪辑级学习与我们提出的端到端视频级学习框架。(动作标签:某物偏离某物。)分类.首先,捕获超出短片段的长范围时间结构是不可能的,因为模型在训练期间仅暴露于单个片段。第二,视频级标签可能没有在简短剪辑中很好地表示,其可能是视频的无信息片段或仅包括动作的一部分,如图1(a)所示。因此,使用视频级标签在各个片段上优化模型类似于使用噪声标签进行训练。最近试图克服这些限制的方法包括在基于剪辑的主干上构建单独的网络[20,50,56]。然而,这些方法也不能与主干端到端地训练(即,视频模型在预提取的剪辑级特征 上 被 优 化 ) 或 者 需 要 自 组 织 主 干 ( ad-hocbackbone),这阻碍了它们在当前发展的体系结构中的应用。在本文中,我们提出了一个端到端的学习框架,它使用从视频的多个时间位置收集的视频级信息来优化分类模型,如图1(b)所示我们的方法7568取决于协作存储器机制,该协作存储器机制从从视频采样的多个剪辑中存储视频级上下文信息在相同的训练迭代中,此上下文信息将与所有剪辑共享,以增强各个剪辑表示。协同记忆允许模型通过生成特定于剪辑的记忆来捕获超出单个短剪辑的长范围时间依赖性,特定于剪辑的记忆对每个本地剪辑与全局视频级上下文之间的关系进行编码。我们的实验表明,所提出的训练框架是有效的和通用的。具体来说,我们的方法不作任何假设的骨干架构。我们的经验表明,当应用于不同的最先进架构(例如,SlowFast [10],R(2+1)D [43],I3 D-NL[47])时,它始终会产生显著的准确性增益本文还介绍和比较了几种协同记忆的设计方案此外,我们证明了精度的提高是在一个negigible计算开销,而不增加内存需求。最后,我们表明,我们的框架可以扩展到动作检测,在那里它产生显着的改进,而不需要额外的信息,如光流和对象检测预测,这是常用的在以前的工作[38,40]。我们将我们的主要贡献总结如下:• 一个新的框架,使端到端的学习视频级依赖的剪辑为基础的模型。• 一种新的协作记忆机制,可促进多个剪辑之间的信息交换。我们探索不同的设计选择,并提供有关优化困难的见解。• 实验表明,我们的协作记忆框架推广到不同的骨干和任务,产生最先进的结果动作识别和检测。2. 相关工作剪辑级视频架构。 自从将3D CNN [2,22,41]引入视频分类以来,已经提出了新的体系结构[5,7,9,33,39,43,45,47,53]来学习更好的时空表示。除了旨在提高准确性的模型外,还提出了几种架构,以实现更好的性能/成本权衡[9,24,27,32,42,51,57]。另一种研究涉及多流网络的设计[5,10,11,36,46,53,54],其中每个流消耗不同类型的输入,例如,RGB或光流。除了CNN,基于变换器的模型,例如时间变换器[3]也显示出有希望的结果。不同于以往的工作集中在设计的剪辑级架构,我们的论文提出了一个新的框架来学习长范围的依赖关系,使用前的剪辑级模型。因为我们不做任何假设关于剪辑级架构,我们的框架一般化到不同的骨干,并使剪辑模型与视频级上下文信息的端到端训练。视频级分类。已经进行了几次尝试来克服单剪辑训练框架的限制。Timeception [20]使用多尺度时间卷积来覆盖不同的时间范围以进行长距离时间建模。时间感受层是在冻结的主干上训练的。TSN [46]和ECO [57]都将输入视频划分为相等大小的片段,并从每个片段中随机采样一个短片段或单个帧,以在训练期间提供更好的时间覆盖。随着GPU存储器成本相对于CPU成本线性增长,段的数量,TSN和ECO采用轻量级的3DCNN甚至2D CNN作为骨干,以便同时处理多个段。这些简单的主干限制了框架的性能。此外,TSN使用平均来聚合来自不同片段的预测,而我们提出了一个专用的内存机制来模拟视频级上下文。FASTER [56]和SCSampler [25]探索了限制将视频级标签应用于剪辑的不利影响并节省计算成本的策略。另一个与我们的方法相关的工作是LFB [50]。它利用来自其他剪辑的上下文特征来增强对当前剪辑的预测。与我们的方法不同,存储在LFB中的上下文特征是使用单独的模型预先计算的因此,在训练期间不能更新上下文特征,并且用于提取这些上下文特征的模型相比之下,我们的框架是端到端可训练的,并且积累的上下文信息可以反向传播到骨干架构中。注意,存储上下文特征对于大规模视频数据集是不可能的,例如,动力学和LFB主要是为动作检测应用而设计的。用记忆学习。 记忆机制[1,15,37,49]已被广泛用于语言建模的递归神经网络,以便从顺序文本数据中学习长期依赖关系。具体来说,已经提出了用于问答(QA)的神经网络[49],而Sukhbaatar等人。[37]介绍这是一种能够对这些模型进行端到端学习的策略。RWMN [31]已经扩展了电影视频的QA应用程序。Grave等人[15]已经提出将过去的隐藏激活存储为可以通过与当前隐藏激活的点积来访问的存储器这些作品在精神上与我们的方法相似,但我们的应用程序处于不同的领域,具有不同的限制和挑战。此外,我们的协同记忆机制的目的是捕捉样本之间的相互作用,是非常轻量级和内存友好,并适合于训练计算密集型视频模型。7569产品型号:1×1×1n=0例13. 端到端视频级学习与协同记忆我们首先概述了所提出的框架,然后提出了不同的设计的协作记忆。最后,我们讨论的实施策略,以应付GPU的内存约束。3.1. 拟议框架概述给定视频识别体系结构(例如,I3D [5],R(2+1)D [43],SlowFast [10]),它对短的固定长度的剪辑进行操作,我们的目标是以端到端的方式执行视频级学习。特别是,我们的目标是使用从整个视频收集的视频级信息来优化基于剪辑的为了实现这一点,我们首先在同一训练迭代中从视频中采样多个剪辑,以覆盖视频的不同时间位置从多个剪辑生成的基于剪辑的表示然后经由协作存储器机制累积,该协作存储器机制捕获剪辑之间的之后,生成特定于剪辑的存储器,以通过将视频级信息注入主干来增强基于剪辑的各个表示最后,采样的剪辑与视频级的监督应用于从多个剪辑的预测的共识联合优化。多剪辑采样。给定视频V={1,0,...,IT-1},对于T个帧,我们对N个剪辑{C0,., CN-1},在每次训练迭代时从视频中提取。每个短剪辑Cn={Itn,.,Itn+L−1}由L个连续帧组成,从全长视频中采样的domly,其中tnindi-图2:具有关联记忆和特征门控的协作记忆。特征图显示为它们的张量的形状,长×高×宽×深。GAP表示全局平均池。矩阵和元素表示乘法,分别。• 上下文注入:各个基于剪辑的表示被注入视频级上下文。这通过门控函数g来完成,该门控函数g增强每个剪辑表示与存储在剪辑特定存储器中的信息:Xn=g(Xn,Mn)。视频级监控。为了便于多个剪辑的联合优化,我们应用了视频级损失,该损失考虑了剪辑级预测以及从所有N个采样剪辑聚合的视频级预测最初,我们首先通过以下方式来聚合剪辑-L水平预测:N个剪辑上的平均池化:H=1N−1h(X<$n)=指定开始帧的索引。 N是一个超参数N−1Nn=0这可以根据视频和视频之间的比率来决定,n=0h(g(f(Cn),Mn)).那么我们的视频级损失可以长度和夹子长度,以确保足够的时间覆盖。然后将采样的剪辑馈送到主干生成基于裁剪的表示{Xn}N-1,其中写成L视频=1N−1L(h(X<$n))+αL(H).(一)n=0例Xn=f(Cn),并且f表示剪辑级主干。在传统的剪辑级分类中,Xn直接用于通过分类器h执行最终预测:yn=h(Xn)=h(f(Cn)),其中yn是分类分数的向量。合作记忆。我们的方法依赖于一种协作记忆机制,该机制积累来自多个片段的信息,以学习视频级依赖性,然后将此视频级上下文与各个片段共享,如图2所示。具体来说,协作记忆包括两个阶段:• 记忆交互:通过累积来自多个剪辑的信息来构建 整 个 视 频 的 全 局 记 忆 : M=Push({Xn}N−1)。全局存储器然后与各个剪辑共享回去,以便生成剪辑特定的存储器:Pop(M,Xn).Nn=0L表示分类的交叉熵损失,α是平衡两个项的权重,这两个项考虑了剪辑级损失和从所有分类中聚合的视频级损失N个夹子。所有参数(即,f、g和h)是端到端w.r.t.这个目标。3.2. 协作记忆我们关于协作记忆的想法是通用的,可以通过多种方式实现。在本节中,我们介绍了一些可能的设计。我们在4.3节中对这些不同的选择进行了实证评估。记忆互动存储器交互的设计应遵循两个原则:1)存储全局存储器的存储器占用面积应是可管理的;2)与存储器的交互应该是计算高效的。第一个原则意味着记忆上下文^输注液×���1×1×1×���乙状内存推送产品编号:100000间隙���ℎ���×���′���′×���′内存弹出���′×���ℎ������ℎ���×���′���ℎ���×���′���×ℎ×���×���′���规格:1×1×1���×ℎ×���×������×ℎ×���×���′���规格:1×1×1���型号:1×1×1���×ℎ×���×������-���7570n=0例n=0例N′′消耗不应随着剪辑的数量N而增长。因此,简单地存储所有基于剪辑的特征是不可行的。使用上下文信息的剪辑级特征。通常,增强特征计算为-高×宽×长),d是Xn=.ΣJ+σ(MnWO)(4)渠道 一个简单的策略是执行全局平均对所有采样片段进行池化:M=Push({Xn}N−1)=其中σ是S形激活函数,σ是元素,两重乘法,J是残差池({XnWI}N−1)。 WI∈Rd×dn=0例是一个可以学习的重量连接.Mn是通过改变空间和矩阵以将维度从d降到d′。这个全局信息可以简单地与所有剪辑共享:Mn=Pop(M,Xn)=M。–能够从多个剪辑中收集信息它不能捕获剪辑间依赖性,并且不能从全局存储器M中检索剪辑特定信息。这促使我们设计一种新的机制,当needed.受关联网络[1,18]的启发,我们建议使用外积运算符来累积剪辑级特征以生成全局记忆M:1N−1M n的时间维度:Mn=GAP(Mn)。我们的恐惧-真选通操作可以被认为是通道式的注意机制类似于上下文门控[30,53]和SE块[19]。然而,我们的方法中的注意力权重是由视频级上下文信息生成的,而不是在同一剪辑中捕获通道关系的自选通值实验结果表明,我们提出的特征门控设计在训练过程中的优化困难,使视频级上下文信息的更有效的使用。3.3. 处理GPU内存限制视频级学习带来的一个挑战是,Push({Xn}N−1)=Nn=0例(XnWk)T(XnWv).(二)联合优化多个夹子下一个固定和紧GPU内存预算。在本节中,我们将讨论两个简单的实现,它们允许视频的端到端训练给定第n个剪辑,我们通过以下方式获得其剪辑特定内存Mn=Pop(M,Xn)=(XnWq)M,(3)其中Wk,Wv,Wq∈Rd×d是用于记忆交互和降维的注意,这种存储器设计可以被视为实现了一种视频级剪辑间关注的形式,其中基于剪辑的表示Xn关注从所有采样的CLI P都与它们的相似度成比例地与VIDO成比例在这种约束下的依赖关系。批量减少。 假设B是用于传统剪辑级训练的小批量视频的大小。我们的方法可以在相同的GPU架构预算下实施,方法是将批处理大小减少N倍:B=rond(B/N)。我们得把这些东西装进-对于B/N个不同的视频中的每一个,仅N个剪辑在或-为了提高剪辑多样性,以更新小批量内的批量范数[21]参数,我们建议稀疏度:Mn=1N−1m=0 (XnWq)(XmWk)T(XmWv)。只使用来自dif的剪辑计算batch-norm统计然而,与自我注意机制不同[44,47],我们的设计在计算和存储器消耗方面都更有效,因为它不需要存储所有的片段级特征或在所有片段之间执行成对比较背景注入。将剪辑专用存储器Mn与剪辑级特征Xn合并的一种方式是视频虽然这种实现不能处理任意大的N,但它简单,高效,我们发现它适用于实践中的大多数设置。例如,训练基于剪辑的模型的批量大小的典型选择是B=64的8 GPU机器;我们的方法可以在此内存设置下通过在每次迭代通过剩余连接:Xn=MnWO+Xn,其中WO∈Rd×d是一个线性变换,以匹配特征维数. 但是,正如我们将在前...实验(图5)中,这种设计在训练过程中倾向于过拟合特定于剪辑的记忆,并导致较差的性能。由于Mn存储的信息比单个剪辑级特征Xn多得多,因此模型在训练期间主要依赖于Mn,而很少使用Xn。鉴于上述观察结果,我们建议通过特征选通操作将上下文信息注入到剪辑级特征中。不是允许模型直接访问剪辑特定的存储器Mn,而是特征门控迫使模型重新校准不同存储器的强度。′7571B=16个不同的视频,并且通过从每个视频中采样其中N=4个剪辑。多次迭代。与直接将N个剪辑加载到一个minibatch中不同,我们还可以将视频的训练展开为N次迭代。每次迭代使用N个剪辑中的一个。这种实现是内存友好的,并且消耗与标准单剪辑训练框架相同的内存量它允许我们用任意大的N处理任意长的视频。在整合协作存储器时,我们只需执行两次扫描过程:第一次扫描生成基于剪辑的特征以构建全局存储器M,第二次扫描生成以M为条件的每个剪辑的分类输出。7572787776757473721 3 5 7 9用于训练CM的夹子数量(N)图3:Kinetics-400与CM的视频级精度。横轴显示用于训练CM的剪辑数量(N)。请注意,所有模型都使用30种作物进行推理。75726966636012345678910用于测试图4:Kinetics-400在视频中10个不同节奏位置的剪辑级精度。N表示用于训练CM的剪辑数量。模型基线我们△FLOPs仅慢速-50 8×8[10]74.476.8+2.41.03×I3D-50+NL 32×2[47]74.977.5+2.41.02×R(2+1)D-5016×2[43]75.778.0+2.31.01×Slow Fast-50 4×1675.677.8+2.21.02×Slow Fast-50 8×8[8]76.878.9+2.11.03×表 1 : 对 不 同 骨 干 架 构 的 概 括 . 我 们 在Kinetics-400 上 报 告 了 标 准 剪 辑 级 训 练(“基线”)和使用CM的视频级训练(“我们的”)的视频级准确度4. 实验为了展示我们的端到端视频级学习框架的优势,我们对具有不同骨干架构的四个动作识别基准我们使用PySlowFast代码库实现了我们的模型并进行了实验[8]。4.1. 实验装置数据集。Kinetics [23](K400和K700)是大规模视频分类中最受欢迎的数据集之一。Cha- rades [35]是一个具有长期活性的多标签数据集。Something-Something-V1 [14]是一个需要很好地利用时间关系进行准确识别的数据集。按照标准协议,我们使用训练集进行训练,并报告验证集上的前1名准确度。骨干我们使用不同的骨干架构来评估我们的框架,包括I3 D [47],R(2+1)D [43,45],Slow-only [10]和SlowFast [10],可选地增加非本地块(NL)[47]。我们将所提出的协作存储器附加到这些骨干的最后一个卷积层,以进行联合训练。训练我们首先按照最初的时间表训练骨干,然后结合我们的协作记忆重新训练骨干,以进行视频级学习。当在Kinetics上训练时,我们使用带有余弦学习时间表的 同 步 SGD [28] 。 对 于 Charades 和 Something-Something-V1,我们遵循PySlowFast [8]的配方,并从Kinetics上预训练的模型初始化网络权重,因为这两个数据集相对较小。对于视频级训练,我们采用批量缩减策略来处理默认的GPU内存约束,并应用线性缩放规则[13]来相应地调整训练时间表推理。在[10,47]之后,我们从每个视频中均匀采样3×10个作物进行测试(即,3种空间作物和10种时间作物)。全局记忆M是从10个空间中心作物中聚集的,并为所有30种作物的推断我们在推理过程中采用了第3.3节中的多次迭代所有30个剪辑的softmax分数被平均以用于最终的视频级预测。4.2. 评估协作记忆对于本节中的所有实验,我们使用具有特征门控的协作记忆的关联版本,因为如消融研究(第4.3节)所示,该设计提供了最佳结果。视频级学习的有效性。首先,我们提出了我们提出的视频级学习和标准的剪辑级训练适用于相同的架构之间的实验比较。对于此评估,我们使用具有50层的仅慢速主干,可以将其视为3D ResNet [17]。为了研究时间覆盖对视频级学习的影响,我们使用每个视频不同数量的采样剪辑来训练模型N∈ {1,3,5,7,9}。N=1对应于传统的剪辑级训练,因为我们每个视频只采样一个剪辑在这种情况下,协作存储器(CM)被限制为在单个剪辑内执行“自我关注”。对于N >1,CM跨N个剪辑捕获视频级信息。图3显示了不同模型实现的视频级精度,所有模型都使用相同的测试设置,每个视频3 ×10请注意,在此设置下,所有模型ing. 如图3所示,我们的CM框架显著提高了视频级别的准确性。例如,当剪辑长度为8×8(8帧,时间步幅为8)时,使用N = 9的CM产生显著的2。6%改善-与 使 用单 个 剪 辑 的 训练 相 比 ( 74. 5% , 七 十 七。1%)。当夹子具有较短的长度时(即,8×2),我们的方法给出了更大的增益,3。2%(73. 2%vs. 76岁。4%)。正如预期的那样,我们的方法的改进随着采样剪辑的数量N而增加。当N≥7时,性能趋于稳定。 为了让训练时间更长-我们默认使用N=5仅限慢速-50 8x2仅限慢速-508x8前1视频级准确度(%)=1=3=5=7=9前1个剪辑级准确度(%)7573′多夹存储器端到端Top-1C C74.5C C75.5设置关联 门控顶部-1Multi-clip(w/o memory)75.5CM(平均池)C75.8(a) 评估我们的视频级学习框架的不同组成部分(b) 比较我们的合作记忆机制的不同设计(c) 变通道缩减比α=d/d。模型逐阶段Top-176.1模型批量缩减多迭代Top-1C76.6模型时间步幅CM仅慢速R(2+1)DC76.877.7C78.0仅慢速R(2+1)DC76.8C77.9C78.02 4 8 16仅慢速 七十三点二 七十四点三 七十四点四 七十四点四 七十六点八R(2+1)D 75.7 七十六点四 七十五点零七十二点二 七十八点零(d) 智能训练VS。从头开始训练(e) 比较不同的CM培训方式批量减少与多次迭代(f) 比较CM与使用具有大时间步幅的剪辑的主干。表2:Kinetics-400上的消融实验报告了前1位视频级准确度(%)除非另有说明,我们使用50层的Slow only[10],输入剪辑长度为8×8。R(2+1)D也是50层,夹长度为16×2。图4显示了剪辑级精度在不同的时间- poral位置的视频,根据他们的时间或- der。当N=1时,来自视频中间的剪辑比来自视频开始或结束的剪辑具有高得多的准确性,因为中间剪辑倾向于包括更多相关信息。CM通过增加每个剪辑,视频级上下文信息(即,N≥3),尤其是对于视频边界附近的剪辑。这是一个明显的标志-我们的记忆机制能够捕获视频级别的依赖关系,并将其有效地与视频中的剪辑共享,以提高识别准确性。推广到不同的骨干。 由于我们没有对主干做任何假设,因此我们的视频级端到端学习框架可以与不同的架构和输入配置(例如,剪辑长度、采样步幅等)。如表1所示,CM在最先进的视频模型(包括具有非局部块的I3D[47]、改进的R(2+1)D网络[43,45]和最近的SlowFast网络[10])之上产生超过2%的一致视频级准确度增益请注意,我们实现这些改进,只有微不足道的额外的推理成本,约1-3%以上的FLOP COM-骨干本身。4.3. 消融研究评估我们框架中的组件。 与大多数先前的视频级建模工作不同[20,50],我们的框架是端到端可训练的。为了展示端到端学习在改进主干方面的好处,我们进行了一次消融,冻结了主干的参数,只更新来自协作网络的参数理论和FC层进行分类。如表2a所示,与在冻结的主干上学习视频级聚合相比,端到端学习将性能提高了1.1%(76.8%vs. 75.9%)。表2a还示出了不使用CM的视频级学习的结果。这是通过优化每个视频的多个剪辑来实现的,但不共享剪辑之间的任何信息。有趣的是,这个简单的设置也比单剪辑学习基线有很好的改善(75.5%对74.5%)。增益来自对视频的多个片段的联合优化,这再次证实了视频级学习对分类的重要性。我们的CM框架在启用所有组件的情况下实现了最佳性能。协同记忆设计。 我们的默认设计使用关联存储器进行存储器交互,并使用特征门控操作进行上下文注入。在表2b中,我们探索了其他设计选择,用平均池代替关联记忆,或者用剩余连接代替特征门控。我们观察到,所有这些变体都提供了改进,超过了没有教程的简单视频级学习设置然而,由平均池化提供的增益相对较小,这并不令人惊讶,因为不存在剪辑间交互。虽然我们也看到了通过删除功能门控操作而导致的每千次下降,但其背后的原因是不同的。如图5中的训练/验证误差曲线所示,没有特征门控的模型实现了较低的训练误差,但验证误差较高。这表明模型在训练期间由于过度拟合视频级上下文而退化。在表2c中,我们消融了在设置#Param.Top-1α= 149.2百万76.8α= 240.9百万76.8CC75.9CM(残留)C76.0α= 436.7百万76.8CCC76.8CM(默认)CC76.8α= 834.6个月76.47574443934292419142 4 681012141618202224 26只有GFLOPs训练迭代(K)图5:Kinetics- 400上不同设计的协作记忆的视频级训练/验证错误CM(d′in Eq.2,3),这可以通过信道缩减比α=d/d′来控制。可以看出,只要压下率合理(α≤4),结果就保持不变。我们在实验中使用α=4作为默认值,因为它引入的额外参数较少。培训战略。回想一下,我们采用了一个阶段式的训练策略:首先使用标准剪辑级训练食谱训练骨干,然后在控制中重新训练骨干表3:与Kinetics- 400的最新技术水平的比较。与CM连接,用于视频级学习。在表2d中,我们将此策略与从头开始训练一切进行比较(两种策略都使用了等效的训练迭代)。方法预训练GFLOPS×作物Top-1在两个不同的主干上进行的实验表明,从头开始训练所有东西会产生稍微差一点的结果。我们假设阶段式训练允许第二阶段中的优化专注于有效的远程建模,这要归功于良好初始化的主干。我们注意到,非本地网络也是以分阶段的方式训练的。我们还比较了这两种方法来处理GPU内存约束(第3.3节)。如表2e所示,慢快-101+NL8×8 [10] K600 115×30 70.6慢快-101+NL16×8 [10] K600 234×30 71.0慢快-504×16K600 36×30 66.1慢快-1018×8转K600 126×30 69.2慢快-101+NL8×8毫米K600 135×30 70.2我们的(慢快-504×16)K600 37×30 68.3我们的(慢快-1018×8)K600 128×30 70.9我们的(慢快-101+NL8×8)K600 137×3072.4两种方法的精度几乎相同,差异在随机性的范围内,这是有意义的,因为这两种方法在技术上是相同的。时间跨度的局限性。增加视频模型的时间覆盖的一种简单方法是在对输入剪辑的帧进行采样时使用更大的时间步幅。我们在表2f中比较了我们的视频级学习框架和这种策略。注意,我们保持CM的节奏步幅与原始骨干相同,即,仅慢速8帧,R(2+1)D2帧我们可以看到,通过步幅增加时间覆盖率只能在准确性上获得适度的增益值得注意的是,使用非常大的步幅甚至会损害某些架构(如R(2+1)D)的性能。相比之下,我们的方法可以学习远程依赖关系,并大幅提高基于短剪辑的主干的性能。4.4. 与最新技术水平的比较先前的实验结果来自Kinetics-400。为了证明我们的方 法 可 以 推 广 到 不 同 的 数 据 集 , 我 们 进 一 步 在Kinetics-700[4] , Charades[35] 和 Something-Something-V1 [14]上评估了我们的方法。表4:与Kinetics- 700最新技术水平的比较。*表示我们复制的结果。其中,Charades具有较长的活动范围(平均30秒),而Something-Something-V1主要包括人与物体的互动。我们将结果与表3、4、5和6中的现有技术进行了比较。我们提出的CM框架在所有数据集上为SlowFast的不同变体产生了超过2%的一致收益这些改进非常重要,因为SlowFast是最好的视频骨干之一。在Kinetics-400和Kinetics-700上,我们的方法建立了一个新的技术水平,如表3和表4所示。值得注意的是,我们在没有对其他数据集进行预训练或使用光流的情况下实现了这些结果同样,我们的方法在字谜(表5)和Something-Something-V1(表6)上都超过了最先进的水平。在Charades上,我们的CM框架产生了超过3%的收益(例如,44.6%对41.3%)。这表明CM在具有较长视频且需要较长时间学习的数据集上表现更好。注意,我们的方法大大超出了-默认值(train)默认值(val)残差(序列)残差(值)Avgpool(train)Avgpool(val)前1个视频级错误(%)方法预训练RGB×作物Top-1I3D [5]ImageNet✗216×N/A75.7S3D-G [53]ImageNet✗142.8×N/A77.2LGD-3D-101 [34]ImageNet✗N/A81.2[47]第四十七话ImageNet✓359×3077.7IP-CSN-152运动1M✓109×3079.2CorrNet-101运动1M✓224×3081.0MARS+RGB [6]没有一✓N/A74.8DynamoNet [7]没有一✓N/A77.9[45]第四十五话没有一✓224×3079.2Slow Fast-101 8×8[8]没有一✓106×3077.9Slow Fast-101 16×8[8]没有一✓213×3078.9SlowFast-101+NL 16×8[10]没有一✓234×3079.8我们的(R(2+1)D-10132×2)没有一✓243×3080.5Ours(SlowFast-1018×8)没有一✓128×3080.0Ours(SlowFast-101+NL8×8)没有一✓137×3081.47575×作物方法预训练GFLOPsTop-1方法预训练mAP方法预训练mAP表5:与最先进的字谜游戏的比较。*表示我们复制的结果方法仅预训练RGBTop-1S3D-G [53] ImageNet 2014[57]第57话[27]第27话我爱你MARS+RGB+Flow [6] K400 53.0NL I3D-50+GCN [48] ImageNet 20.1[29]第29话我的世界[26]第二十六话[45]第45话:你是谁?慢快-508×8*K400✓50.1慢快-101+NL8×8*K400✓51.2Ours(SlowFast-508×8)K400✓52.3Ours(SlowFast-101+NL8×8)K400✓53.7表6:与最新技术的比较- 什么V1 *表示我们复制的结果在长范围时间建模方面执行其它最近的工作(例如,Timeception [20],LFB [50]).4.5. 用于动作检测的协作记忆在本节中,我们将展示我们的框架的好处也扩展到动作检测的任务我们在AVA [16]上评估了我们的方法,其中包括211k训练和57k验证视频片段。AVAv2.2比v2.1在相同数据上提供更一致的注释。我们报告平均平均精度(mAP)超过60个频繁的类的验证集以下的标准协议。适应动作检测。 调整我们的方法来检测动作是简单的。我们不是从整个视频中随机采样多个剪辑,而是在某个时间窗口tn∈[t-w,t+w]内对剪辑进行采样,在时间t检测动作,其中tn指示中心帧的第n个采样剪辑和2w+1是窗口大小。 由于AVA包括每秒一帧的稀疏注释-表7:(a)AVA v2.1和(b)v2.2与SOTA的比较。†表示具有RGB帧以外的额外信息的结果,例如光流、音频和目标检测预测。*表示我们复制的结果。其次,我们简单地以一秒的步幅对剪辑进行采样,使得采样的剪辑以具有符号的帧为中心。以这种方式,随着我们在训练期间使用更大数量的剪辑N,时间窗口大小相应地增加。之后,我们用它们自己的注释联合优化这些采样协作存储器用于在采样剪辑之间共享长范围上下文信息。我们在实验中使用N=9,并遵循AIA [40]中的时间表进行模型训练。定量结果。 我们在表7中比较了CM与AVA的最新技术水平。虽然CM框架不是专门为动作检测而设计的,但是它实现了与现有技术相当的结果。特别地,CM对于不同的骨干网络(例如,AVAv2.2上的SlowFast- 504×16主干的增益为2.9%)。这表明我们可以有效地将我们的方法扩展到检测任务中并取得显著的改善。请注意,当使用相同的主干时,我 们 的 方 法 也 优 于 LFB [50] ( 即 , R50-I3D+NL )(26.3%vs. 25.8%)。5. 结论我们已经提出了一个端到端的学习框架,使用视频级信息优化分类模型。我们的方法依赖于一种新颖的协作记忆机制,该机制从视频采样的多个片段中积累上下文信息,然后共享该视频级上下文以增强单个片段表示。通过本地剪辑和全局记忆之间的相互作用,捕获超出短剪辑的长范围时间依赖性。在动作识别和检测基准测试上的广泛实验表明,我们的框架以可忽略的计算开销显著提高了视频模型的准确性[55]第五十五话ImageNetN/A25.2[47]第四十七话ImageNet+K400544 ×3037.5STRG [48]ImageNet+K400630 ×3039.7时间感受[20]K400N/A41.1美国(公告牌另类歌曲榜)[50]K400N/A42.5[10]第十届全国政协委员K400234×3042.5[52]第五十二话K400278×3043.7慢快-5016×8英寸K400131×3039.4慢快-101+NL16×8英寸K400273×3041.3我们的(慢快-5016×8)K400135×3042.9Ours(SlowFast-101+NL16×8)K400277×3044.6[第38话]AVSF-50 4×16[52]AT(I3D)[12]K400K400K40017.4†27.8†25.0AVSF-101 8×8[52]AIA(SF-504×16)[40]AIA(SF-1018×8)[40]K400系 列K700系 列K700系列28.6†29.8†32.3†比利时(比利时)[50]K40025.8 SF-101+NL8×8 [9]K60029.0[50]第五十话K40023.6 SF-50 4x 16毫米 [10]K70026.9SF-504×16毫米 [10]K40023.6 SF-101 8x8毫米 [10]K70029.0我们的(R50+NL)K40026.3 我们的(SF-504×16)K70029.87576引用[1] Jimmy Ba,Geoffrey E Hinton,Volodymyr Mnih,JoelZ Leibo,and Catalin Ionescu.使用快速权重来关注最近的过去。InNeurIPS,2016. 第二、四节[2] Moez Baccouche , Franck Mamalet , Christian Wolf ,Christophe Garcia,and Atilla Baskurt.用于人类动作识别的顺序深度学习。人类行为理解国际研讨会,第29Springer,2011. 一、二[3] Gedas Bertasius,Heng Wang,and Lorenzo Torresani.时空注意力是你理解视频所需要的全部吗?arXiv预印本arXiv:2102.05095,2021。2[4] 若昂·卡雷拉,埃里克·诺兰,克洛伊·希利尔,安德鲁·兹瑟曼.关于动力学-700人类行为数据集的简短说明。arXiv预印本arXiv:1907.06987,2019。7[5] J. Carreira和A.塞瑟曼你说的是行动识别吗新模型和动力学数据集。在CVPR,2017年。一、二、三、七[6] Nieves Crasto,Philippe Weinzaepfel,Karteek Alahari,and Cordelia Schmid. Mars:用于动作识别的运动增强rgb流。在CVPR,2019年。七、八[7] Ali Diba, Vivek Sharma , Luc Van Gool, and RainerStiefel. Dynamonet:动态动作和运动网络。ICCV,2019年。一、二、七[8] Haoqi Fan,Yanghao Li,Bo Xiong,Wan-Yen Lo,andChristophFeichtenhofer.Pyslowfast 。 https : //github.com/facebookresearch/slowfast,2020年。5[9] 克里斯托夫·费希滕霍夫。X3D:扩展架构以实现高效的视频识别。在CVPR,2020年。一、二[10] Christoph Feichtenhofer , Haoqi Fan , Jitendra Malik ,and Kaiming He.用于视频识别的慢速网络。在ICCV,2019年。一、二、三、五、六、七、八[11] ChristophFeichtenhofer,AxelPinz和Andre
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- BottleJS快速入门:演示JavaScript依赖注入优势
- vConsole插件使用教程:输出与复制日志文件
- Node.js v12.7.0版本发布 - 适合高性能Web服务器与网络应用
- Android中实现图片的双指和双击缩放功能
- Anum Pinki英语至乌尔都语开源词典:23000词汇会话
- 三菱电机SLIMDIP智能功率模块在变频洗衣机的应用分析
- 用JavaScript实现的剪刀石头布游戏指南
- Node.js v12.22.1版发布 - 跨平台JavaScript环境新选择
- Infix修复发布:探索新的中缀处理方式
- 罕见疾病酶替代疗法药物非临床研究指导原则报告
- Node.js v10.20.0 版本发布,性能卓越的服务器端JavaScript
- hap-java-client:Java实现的HAP客户端库解析
- Shreyas Satish的GitHub博客自动化静态站点技术解析
- vtomole个人博客网站建设与维护经验分享
- MEAN.JS全栈解决方案:打造MongoDB、Express、AngularJS和Node.js应用
- 东南大学网络空间安全学院复试代码解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功