没有合适的资源?快使用搜索试试~ 我知道了~
284用于详细视频理解的吴朝元1、2克里斯托弗·费希滕霍夫2范浩琪2开明He2菲利普·Kr aühenb uühl1罗斯·吉尔希奇k21德克萨斯大学奥斯汀分校2Facebook AI Research(FAIR)摘要为了理解世界,我们人类需要不断地将现在与过去联系起来,并将事件置于背景中。 在本文中,我们使现有的视频模型做同样的事情。我们提出了一个长期的功能银行支持信息提取的整个跨度的视频,以增强国家的最先进的视频模型,否则只会看到2-5秒的短片。我们的实验表明,使用长期特征库增强3D卷积网络可以在三个具有挑战性的视频数据集上产生最先进的结果:AVA、EPIC-Kitchens和Charades。代码可在线使用1.1. 介绍理解一部电影需要什么?人类智力的许多方面,当然,但记忆力特别重要。随着电影的展开,人们总是需要把现在发生的事情和过去发生的事情联系起来如果没有利用过去来理解现在的能力,我们作为人类观察者,就不会理解我们正在观看的内容。在本文中,我们提出了一个长期的功能银行,存储丰富的,整个电影的时间索引表示的想法。直观地,长期特征库存储对关于过去和(如果可用的话)未来场景、对象和动作的信息进行编码的特征。这些信息提供了一个支持性的背景,允许视频模型,如3D卷积网络,更好地推断当前正在发生的事情(见图2)。1、2和5)。我们希望长期特征库能够改进最先进的视频模型,因为大多数预测仅基于来自短视频剪辑的信息,通常为2-5秒[5,33,46这种短期观点的原因很简单:基准测试的进步来自于使用某种形式的3D卷积训练端到端网络,这些3D卷积需要及时密集采样才能有效工作。因此,为了适应GPU内存,视频输入必须很短。1https://github.com/facebookresearch/视频长期特征库目标帧输入剪辑(4秒)图1.这些人在干什么?当前的3D CNN视频模型仅在104秒的短剪辑上运行。如果不观察长期背景,识别是困难的。(来自AVA数据集的视频[14];请参阅下一页的答案。长期特征库的灵感来自于通过使用预先计算的视觉特征来利用长期时间信息的作品[25,31,45,57]。然而,这些方法使用ImageNet预先训练的网络从孤立的帧中提取特征,然后将这些特征作为训练的池化或递归网络的输入。因此,相同的特征既代表了当前的背景,也代表了长期的背景。相比之下,我们建议将两者解耦:长期特征库是一个辅助组件,可以增强标准视频模型,例如最先进的3D CNN。这种设计使长期特征库能够存储灵活的支持信息,例如与3D CNN计算的不同的对象检测特征。将长期特征库与3D CNN集成是简单的。我们证明了多种机制是可能的,包括将当前信息(来自3DCNN)与存储在长期特征库中的远程信息相关联的注意力机制我们举例说明它在具有不同输出要求的不同任务中的应用:我们展示了需要对象级以及帧级或视频级预测的数据集上的结果。最后,我们进行了大量的实验,证明用长期特征库增强3D CNN在三个连续视频数据集上产生了最先进的结果:AVA时空动作定位[14],EPIC-Kitchen动词、名词和动作分类[6],以及Charades视频分类[38]。我们的消融研究表明,这些任务的改善来自于长期信息的整合。285......3DCNN输入长期功能库图2.当将目标帧与远程上下文相关联时,动作变得清晰。我们的长期特征库提供长期支持信息,使视频模型能够更好地理解当前。(AVA地面实况标签:2. 相关工作深度网络是视频理解的主要方法[5,21,33,39,46这包括非常成功的双流网络[21,39,50]和3D卷积网络[5,33,46在本文中,我们使用3D CNN,但长期特征库也可以与其他系列的视频模型集成。时间和关系模型包括对视频帧的演变进行建模的RNN[7,24,27,44,57]和对有序帧特征进行建模的多层感知器[58]。为了对更细粒度的交互进行建模,越来越多的工作利用预先计算的对象建议[52]或检测[4,30],并在短剪辑内对其同现[30,43,52],时间顺序[4]或空间排列[52]进行建模使用现代CNN进行长期视频理解的探索较少,部分原因是GPU内存限制。 克服这些约束的一种策略是使用预先计算的特征,而不进行端到端训练[25,31,45,57]。这些方法不会优化目标任务的特征,因此可能是次优的。 另一种策略是使用积极的子采样[50,58]或大跨步[8]。TSN [50]每个视频采样3-7帧ST-ResNet [8]使用的时间步长为15。据我们所知,我们的方法是第一个享受三个世界中最好的:通过密集采样和解耦、灵活的长期建模,实现针对强大短期特征的端到端学习。时空动作定位是一个活跃的研究领域[12,14,17,32,40,53]。最新的方法扩展了对象检测框架[10,34],首先在短剪辑/帧中提出小块/框,然后将小块/框分类为动作类[14,17,20,32,36,36]。检测到的小管/盒然后可以可选地连接以形成全作用管[12,17,20,32,36,40]。与我们的方法相反,这些方法在每个帧或剪辑中独立地找到动作,而不利用长期上下文。信息我们从这些方法中获得灵感,并为详细的视频理解任务开发方法3. 长期特征库模型对于计算机视觉模型来说,要对长而复杂的视频做出准确的预测,它们肯定需要将当前发生的事情与遥远的事件联系起来的能力。考虑到这一动机,我们提出了一个具有长期特征库的模型,以显式地启用这些交互。3.1. 方法概述我们描述了我们的方法可以用于时空动作定位的任务,其目标是检测视频中的所有演员并对他们的动作进行分类。大多数最先进的方法[9,14,43]结合了C3D [46],I3D [5])与基于区域的个人检测器(例如,快速/更快的R-CNN [10,34])。为了处理视频,它被分成2-5秒的短片段,这些片段通过3D CNN独立转发以计算特征图,然后将其与区域建议和感兴趣区域(RoI)池化一起使用,以计算每个候选演员的RoI特征[9,14]。这种方法只捕捉短期信息,如图所示。3a.我们方法的中心思想是用两个新概念扩展这种方法:(1)长期特征库,直观地充当整个视频期间发生的事情的“记忆”-我们将其计算为来自定期采样时间步长处的检测的RoI特征;以及(2)特征库运算符(FBO),其计算短期RoI特征(描述演员现在正在做什么)与长期特征之间的交互。可以通过注意力机制(例如非局部块[51])或通过特征池化和连接来计算交互。我们的模型总结在图中。3b.接下来我们将详细介绍这些概念3.2. 长期特征库长期特征库L的目标是提供相关的上下文信息,以帮助在当前时间步长进行识别对于时空动作本地化的任务,我们在整个视频上运行一个人检测器,为每一帧生成一组检测。同时,我们以规则的间隔(例如每秒一次)在视频上运行标准的基于剪辑的3D CNN,例如C3D [46]或I3D [5]然后我们使用ROI池提取fea-286投资回报池分类器L~短期特点:S长期特征库:L骨干特征提取器投资回报池分类器特征库操作员:FBO(S,L~)短期特征:S骨干……帧(a) 3D CNN……帧(b) 带有长期特征库的3D CNN(我们的)图3.我们将我们的模型与标准方法进行对比。(a)3DCNN:vanilla 3DCNN处理来自视频的短剪辑(例如,2-5秒)并使用池化来获得剪辑的表示(例如,[5、46、51])。(b)长期特征库(我们的):我们使用长期特征库L和特征库运算符FBO(S,L)扩展了vanilla 3DCNN,该特征库运算符计算短期特征库之间的相互作用。长期的特点。我们的模型能够在长时间的支持下整合信息,持续几分钟甚至整个视频。由3D CNN处理的每个时间步的所有人员检测的结果形式上,L=[L0,L1,. . .,LT-1]是视频时间步长0,.,L T-1的特征的时间索引列表。. . ,T −1,其中Lt∈RNt×d是Ntd维RoI的矩阵时间t的特征。Intuiting,L提供了有关所有演员在整个视频中什么时候做什么,并且它可以通过检测器和3D CNN在视频上的单次通过中有效地计算。3.3. 特征库操作员我们的模型通过一个特征库算子FBO(St,Lt)从长期特征L中引用信息。要素库运算符接受输入St和Lt,其中St是短期RoI池化要素,Lt是[Lt−w,. . . ,Lt+w],以当前剪辑为中心的L的子片段在“wind o w”大小为ε 2w + 1的情况下,将使用I3D技术[5]。网络结构被修改为包括非本地操作[51]。在将网络从2D膨胀到3D之后,我们在Kinetics-400数据集上对它进行预训练以进行视频分类[5]。该模型在Kinetics- 400 [5]验证集上达到74.9%(91.6%)的前1(前5)准确度。最后,我们在[52]之后删除了conv1和pool1的时间步幅,并删除了特定于动力学的分类层以生成主干模型。精确的型号规格在Supple-CableMaterial中给出。 生成的网络接受输入形状为32×H×W×3,表示空间大小为H×W的32个RGB 帧,并输出形状为16×H/16×W/16×2048的要素。相同的架构用于计算短期特征S和长期特征L。除非另有说明,否则这两个模型之间不共享参数勒特 ∈RN×d,其中N=t+wt′=t−w Nt′。我们把胜利-投资回报池。我们首先平均池视频骨干fea-dow size2w+1作为我们交叉验证的超参数在我们的实验中。然后,输出是通道方向的CON。与St连接并用作线性分类器的输入。直觉上,特征库操作符计算向上-通过将合并的短期特征St与长期特征相关联来确定合并的短期特征S t的FBO的实现是灵活的。注意机制的变体是一个显而易见的选择,我们将在实验中考虑多个批次与随便到目前为止,我们已经假设了一个批处理设置,其中整个视频可用于处理。我们的模型也适用于在线,休闲设置。 在在这种情况下,L_t只包含过去的风大小信息2w+1;我们认为在我们的实验中,操作的批处理和因果模式。3.4. 实现细节骨干我们使用最近视频分类工作中的标准3D CNN架构。该模型是一个ResNet-50 [16],它在ImageNet [35]上进行了预训练,并“膨胀”成一个具有3D卷积的网络(在空间和时间上)。在时间轴上。然后,我们使用RoIAlign [15],空间输出为7 ×7,然后是空间最大池化,为RoI生成一个2048维的特征向量。这相当于使用时间直管[14]。要素库运算符实例化。特征库运算符可以以多种方式实现。我们用以下选择进行实验;其他的是可能的。-LFB NL:我们的默认特征库操作符F B O N L(S t,Lt)是注意力操作符。直观地说,我们使用St来关注Lt中的特征,并添加被关注的信息。通过快捷连接返回到St我们使用一个简单的实现,其中FBONL(St,Lt)是最多三个非本地(NL)块的堆栈[51]。我们取代了自我-[51]第51话,我的心在哪里?局部特征St和长期特征风wLt之间的关系,如图所示。 4.第一章此外,我们的设计使用层归一化(LN)[3]和dropout [41]来改进正则化。我们发现这些修改很重要,因为我们的目标任务包含相对较少的训练视频,并且表现出过拟合。修改的堆栈……287Nt× 512Nt× NNt× 512N× 512线性Nt×512 N×512S~~不LtLt比例尺1/512Softmax线性线性LNReLU线性辍学t2t(一)不N× 512N× 5124. AVA实验我们使用AVA数据集[14]进行广泛的消融研究。AVA包括235个培训视频和64个验证视频;每个视频是从电影中截取的15分钟片段。帧以1 FPS稀疏标记。标签为:在帧中的每个人周围的一个边界框与指定哪个AC的多标签注释结合在一起,框中的人在标记帧的±0.5秒内参与的动作定义了动作标签空间由数据集作者定义的80个AVA中的任务是时空动作定位:出现在测试视频中的每个人必须在每个帧中被检测到,并且所检测到的每个人的多标签动作必须在每个帧中被检测到。图4. 我们改进的非局部区组设计。 在这里我们绘制以第一层S(1)=NL′θ(St,L<$t)为例。儿子必须被正确预测一个算法的质量是由一个平均精度(mAP)指标来判断的,t1要求至少50%的交集大于并集(IoU)重叠,矩阵乘法,并且非局部块(表示为NL′)被迭代为:S(1)=NL′θ(St,L<$t),在同时预测正确动作的同时与地面实况相匹配的检测。4.1.实现细节t1S(2)=NL′θ(S(1),L<$t),.其中θ{1,2,. }是可学习的参数。与Wanget al相似。[52],我们使用线性层将FBONL输入维度降低到512,并使用率应用dropout [41]0.2. 因此,最终线性分类器的输入是2048(St)+ 512(FBONL输出)= 2560维。-该实施导致分类器输入为2048(St)+ 2048(FBO池输出)= 4096维。训练整个模型的端到端联合训练(图3b)是不可行的,这是由于反向传播通过长期特征库的计算和相反,我们将用于计算L的3D CNN和检测器视为离线训练的固定组件,但仍然在目标数据集上,并且随后没有更新。我们已经尝试了交替优化方法来更新这些模型,类似于目标传播[23],但发现它们并没有改善结果。数据集特定的训练细节稍后给出。基线短期操作员。 为了验证结合长期信息的好处,我们还研究了我们模型的“降级”版本,该版本不使用长期特征库。相反,它使用与FBO NL相同的短期运算符,但仅引用剪辑内的信息:STO(St):= FBONL(St,St)。 STO在概念上类似于[52],并且允许反向传播。我们观察到大量的STO过拟合,因此应用了额外的正则化技术。详见补充资料。接下来,我们将描述用于AVA的对象检测器、输入采样以及训练和推理细节。个人探测器。我们使用更快的R-CNN [34]和ResNeXt-101-FPN [28 , 55] 骨 干 进 行 人 员 检 测 。 该 模 型 在ImageNet [35]和COCO关键点[29]上进行预训练,然后在AVA边界框上进行微调;有关培训详情,请参见补充材料。最终模型在AVA验证集上获得93.9 AP@50时间采样。短期和长期特征都是由3D CNN提取的,3DCNN使用32个输入帧,以2的时间步长采样,跨越63帧(30 FPS视频中为12秒)。长期特征计算在一个在整个视频中每秒剪辑,具有在AVA上微调的3DCNN模型(图3a训练我们使用同步SGD在8个GPU上训练我们的模型,小批量大小为16个剪辑(即,每个GPU 2个片段),并冻结批处理归一化[18]层我们对所有模型进行了140k次迭代的训练,学习率为0.04,在迭代100k和120k时减少了10倍我们使用10−6的重量衰减和0.9的动量。对于数据增强,我们执行随机翻转,随机缩放,使得短边∈[256,320]像素,随机裁剪大小为224×224。我们使用地面实况框和预测框,0.9训练这解释了地面真值箱分布和预测箱分布之间的差异,我们发现这是有益的。我们将地面实况框的标签分配给预测框,如果它们与IoU至少重叠0.9。预测框可能没有指定标签由于长期特征的数量N因剪辑而异,因此我们为具有较少长期特征的剪辑填充零向量以简化小批量训练。S288支持(秒)23510153060地图地图地图3D CNN22.122.222.320.019.717.515.7K400 feat.19.7平均池23.1全局池24.9STO23.223.623.321.520.918.516.9AVAfeat.24.3最大池23.22 ×2网格25.1LFB(因果)-24.024.324.624.824.624.2LFB25.5NL25.54 ×4网格25.1LFB(批次)-24.224.725.225.325.325.5检测25.5(a) 时间支持(mAP,%)(b) 特征解耦(c) LFB算子(d) LFB空间设计地图params FLOPs 地图地图1L25.13D CNN1×1×22.1R50-I3D-NL2L(默认)25.53D CNN×22×2×22.9中心裁剪(默认)25.82 L w/o秤25.2STO1 .一、00×1 .一、12×23.2R101-I3D-NL2 L,不含LN23.9STO×2二、00×二、24×24.1中心裁剪(默认)26.82 L无脱落25.4LFB(2L)二、00×二、12×25.5三茬27.12L(点积)25.5LFB(3L)二、00×二、15×25.83-裁剪+翻转27.4模型流valtestAVA [14]C15.6-[第43话]C17.4-RTPR [24]C22.3-九型鼻内窥镜。[19个]C25.6 21.1R50-I3D-NL [19]19.3-RTPR [24]20.5-Girdhar等人[9]第一章21.9 21.0LFB(R50)25.8 24.8(e) LFB NL设计(f) 模型复杂性(g) 主干测试(h) 与先前工作的表1. AVA消融和测试结果。 STO:具有非局部(NL)短期算子的3D CNN; LFB:具有长期特征库的3D CNN;默认情况下,LFB算子是一个两层(2L)NL块。我们对AVA的时空动作定位进行消融。结果证实,长期的信息是有益的,改善是大于将观察到的集成,并展示了各种设计选择。最后,我们展示了AVA测试集的最新结果。推理。 在测试时 ,我们使用得分≥0.85.所有模型都将短边重新缩放为256像素,并使用256×256的单个中心裁剪。对于训练和推理,如果一个框跨越了裁剪边界,我们就在裁剪的片段中池化该区域。在罕见的情况下,框从裁剪区域中掉出,RoIAlign [15]在边界处池化特征4.2.消融实验临时支持。我们首先分析了增加时间支持对有无LFB模型对于没有LFB的模型,我们评估了一个普通的3DCNN(图1)。图3a)和用STO扩展的3D CNN(在表中表示为为了增加它们的时间支持,我们增加了时间步长,但固定了输入帧的数量,以便模型覆盖更长的时间范围,同时仍然可以训练。为了增加LFB模型的时间支持,我们将LFB t的“wind o w size”增加2 w + 1。表1a比较了模型性能。不断增长的tem-事实上,通过大步的poral支持损害了“3D CNN”和“STO”的性能时间卷积可能不适合长期模式,因为长期模式更加多样化,并且包括具有挑战性的场景切换。另一方面,通过添加LFB来增加时间支持可以稳定地提高性能,从而导致大的相对于原始“3D CNN”的增益在线(因果)设置显示了类似的趋势。总的来说,我们观察到了长距离上下文的强大改进,即使AVA动作被设计为“原子”并在±0.5秒内本地化。对于消融研究的其余部分,我们重点关注批次设置,并由于性能较强而使用60秒的窗口大小。特征解耦。在表1b中,我们比较了我们的解耦特征方法与先前的长期建模策略,其中使用单个预先计算的特征类型(例如,[25、31、45、57])。为此,我们使用相同的3D CNN进行短期和长期特征库计算,并在训练期间保持固定;只有FBO和分类器的参数我们考虑两个选择:a Kinetics-400 [5]预训练的3D CNN('K400feat.')以及在AVA上微调的3D CNN我们的解耦方法基于长期背景更新短期3D CNN,效果明显更好。FBO功能设计。我们接下来在表1c中比较不同的FBO函数设计。我们看到,非局部函数在AVA上的性能明显优于池化。这并不奇怪,因为AVA中的视频(以及一般的视频)是多演员、多动作的,并且可能在很长的时间范围我们预计需要一个更复杂的函数类来推理复杂的场景。尽管如此,池化仍然提供了明显的改进。这再次证实了长时语境在视频理解中的重要性。FBO输入设计复杂的视频理解需要什么样的空间粒度?在表1d中,我们使用检测到的对象(“检测”)、规则网格(“网格”)和非空间特征(“全局池”)来构造长期特征。在“网格”实验中没有物体探测器的站(类似于ACRN [43])。表1d显示了参与者级别的特征比粗糙的规则网格或非空间有限元更有效289AP(说话)?4秒6秒8秒10秒14.9%百分之十九点二45.5%65.9%BP(holdinganobject)4秒6秒8秒10秒百分之二十点三百分之四十点四35.9%47.5%CP(说话)?4秒6秒8秒10秒百分之七点二百分之十一点二百分之二十八点九31.2%DP(听)?4秒6秒8秒10秒47.0%百分之三十四点一35.7%百分之十二点八图5. 示例预测。我们比较了使用不同窗口大小的LFB模型所做的预测。通过LFB,模型能够利用时间上遥远的信息,例如,示例A和C中的放大帧,以改善预测。我们鼓励读者放大细节。(蓝色:正确的标签。红色:标签不正确。最好在屏幕上观看)。真的。我们相信这表明了一个很有前途的未来研究方向,即从全局池到视频中对象/演员的更非局部区组设计。接下来,我们消融NL块设计。在表1e中,我们看到添加第二层NL块可以提高性能。此外,缩放[49],层归一化[3]和dropout [41]都有助于良好的性能。层规范化[3],这是我们修改后的NL设计的一部分,是特别重要的。如[51]中所示,默认的嵌入式高斯变量与点积和级联类似(后来我们发现添加第三层NL块可以进一步提高精度,但默认情况下使用两层模型复杂性。我们的方法使用了两个骨干模型的实例:一个用于计算长期特征,另一个用于计算短期特征。因此,它使用比我们的基线多出大约2倍的参数和计算量如果我们只是通过一个系综在基线上多用2倍的计算会怎么样我们发现,无论是‘STO’示例预测。我们定性地提出了几个例子,说明图LFB的影响。五、具体地说,当只观察短期信息时,模型会感到困惑,无法在这些情况下做出准确的预测。当观察到更多的上下文时,放大帧(示例A、C)或给出更清晰提示的帧(示例B、D),LFB模型能够利用信息并改进预测。主干和测试。 到目前为止,为了简单起见,我们使用了相对较小的R50-I3 D-NL主干,并进行了中心裁剪测试。在表1g中,我们表明,使用R101-I3 D-NL骨架,LFB(3L)达到26.8 mAP,使用标准测试技术,达到27.7 mAP。我们使用短边∈ {224,256,320}像素进行3尺度测试。与以前的工作比较。 最后,我们与其他最先进的方法进行比较(表1h)。为了公平比较,我们遵循Girdhar等人。[9]并在训练集和验证集上进行训练,以进行测试集评估。2对于这个模型,由于数据量较大,我们使用了1.5倍长的时间表。我们的模型,只使用RGB帧,大大超过-形成了所有先前的工作,包括使用光流和大型合奏的强竞争获胜者。我们的单一模型优于最好的以前的单一模型条目的网格-哈尔等人。[9]验证集和测试集的边际分别为5.8和6.2点mAP。我们比较了不同LFB模型的预测不同的窗口大小,从4秒到10秒。 我们看到ActivityNet服务器评估的2个测试集性能。290不5. EPIC-Kitchen实验长期特征库是一个可推广和灵活的概念。我们在EPIC-Kitterfly数据集[6]中的两个任务中说明了这一点,我们在特征库中存储了不同类型的信息。EPIC-Kitchen数据集由参与者在本地厨房环境中记录的日常活动(主要是烹饪)的视频组成。每个视频的片段用一个动词(例如,‘squeeze’) and one noun( 'lemon')。任务是预测每个片段中的动词、名词和组合(称为动作[6性能通过前1和前5的准确性来衡量。该数据集由432个视频中的39,594个片段组成。测试集注释未发布;为了验证,我们将原始训练集拆分为Baradel等人的新训练/验证拆分。[4]的文件。我们训练独立的模型来识别动词和名词,并结合它们对动作的预测。对于动作,我们还使用基于先验的验证动词名词动作首页>新闻中心>公司新闻>公司新闻>公司新闻动词和名词的训练课频率;详见补充资料。5.1. 实现细节长期特色银行。从一个短片段中识别一个人正在与哪个对象交互(名词任务)是具有挑战性的,因为对象通常被遮挡、模糊,甚至可能在场景之外。我们的LFB非常适合解决这些问题,因为长期支持信息可以帮助解决模糊性。例如,如果我们知道这个人30秒前从冰箱里拿了一个柠檬,那么切柠檬的可能性就更大。基于这种动机,我们构建了一个LFB,包含对象为中心的功能。具体来说,我们使用Faster R-CNN来检测对象,并使用RoIAlign从检测器的特征图中提取对象特征(有关检测器的详细信息,请另一方面,为了识别动词,我们使用视频模型来构建捕获运动模式的LFB。具体来说,我们使用我们的基线3D CNN对EPIC-Kitchenverbs进行微调,以每1秒的视频提取剪辑级特征。我们的默认设置为动词模型使用40秒的窗口大小,名词模型使用12秒的窗口大小,在验证集上选择。适应段级任务。为了使我们的模型适用于片段级预测,我们将RoI池化替换为全局平均池化,从而得到S∈R1×2048。对于STO基线,我们使用稍微修改的公式:STO(S′):= FBONL(St,S′),其中S′包含16个空间。表2. EPIC-Kittleware验证和测试服务器结果。使用LFB增强3D CNN导致显著的改进。5.2. 定量评价我们现在定量评估我们的LFB模型。表2显示,使用LFB增强3D CNN显著提高了所有三项任务的性能对名词模型使用对象特征特别有效,5.7%(26.1→31.8)的绝对改善超过我们的强基线模型。在动词识别方面,具有3D CNN特征的LFB导致3.2%(49.8→53.0)的改进,并且优于Baradel等人之前的最新技术。[4] 12.1%(40.9 →53.0)。我们还观察到,FBOMax和FBOAvg在EPIC-Kitchen上优于FBONL。我们推测这是由于更简单的设置:每个视频只有一个人,一次做一件事,没有AVA复杂的人与人的互动。一个简单的函数就足够了。在测试集上,我们的方法在“看到的厨房(S1)”和“看不见的厨房(S2)”设置上都大大优于先前的工作。我们的LFB模型相对于S1的性能优于双流[39]TSN [50]基线50%,并且在前1个动作准确度方面几乎是S2性能的两倍。6. 字谜实验t t t基本上合并的特征,每个都在一个时间位置,并且St是S′在时间轴上的集合。STO学习在短剪辑内的不同时间步长与信息交互。训练和推理过程类似于我们对AVA的实验;详见补充材料。最后,我们在Charades数据集上评估我们的方法[38]。Charades数据集包含9,848个视频,平均长度为30秒。在每个视频中,每个人可以执行一个或多个动作。任务是识别视频中的所有动作,而不进行本地化。巴拉德尔[4]40.9-----3D CNN49.880.626.151.319.037.83D CNN ens.50.781.227.852.820.039.0STO51.080.826.651.519.538.3STO ens.51.981.227.852.520.539.4LFB NL51.781.229.255.321.440.2LFB平均值53.082.329.155.421.240.8LFB Max52.681.231.856.822.841.1100+ 3.2+1.7+5.7+5.5+3.8+3.3测试s1(见)TSN RGB [6]45.785.636.864.219.941.9TSN流程[6]42.879.517.439.49.021.9TSN Fusion [6]48.284.136.762.320.539.8LFB Max60.088.445.071.832.755.3测试s2(不可见)TSN RGB [6]34.974.621.845.310.125.3TSN流程[6]40.173.414.533.86.718.6TSN Fusion [6]39.474.322.745.710.925.3LFB Max50.977.631.557.821.239.429120表3. 猜字游戏的训练时间表。我们的2×较短时间表的效果明显优于STRG [52]中使用的时间表骨干模态列车/列车trainval/测试2-Strm。[39](来自[37])VGG16RGB+流18.6-Asyn-TF [37]VGG16RGB+流22.4-[54]第五十四话R50压缩21.9-[58]第五十八话成立RGB25.2-I3D [5]Inception-I3DRGB32.934.4I3D [5](来自[51])R101-I3DRGB35.537.2[51]第52话:我的世界R50-I3D-NLRGB33.5-[51]第五十一话R101-I3D-NLRGB37.539.5STRG [52]R50-I3D-NLRGB37.5-STRG [52]R101-I3D-NLRGB39.7-3D CNNR50-I3D-NLRGB38.3-3D CNN ens.R50-I3D-NLRGB39.5-STOR50-I3D-NLRGB39.6-STO ens.R50-I3D-NLRGB40.0-LFB平均值R50-I3D-NLRGB38.4-LFB MaxR50-I3D-NLRGB38.6-LFB NLR50-I3D-NLRGB40.3-3D CNNR101-I3D-NLRGB40.340.83D CNN ens.R101-I3D-NLRGB41.7-STOR101-I3D-NLRGB41.0-STO ens.R101-I3D-NLRGB42.3-LFB平均值R101-I3D-NLRGB40.8-LFB MaxR101-I3D-NLRGB40.9-LFB NLR101-I3D-NLRGB42.543.4表4. 动作识别准确率在Charades。(mAP %)6.1. 实现细节我们使用数据集作者提供的24 FPS的RGB帧。我们在STRG [52]之后以4的时间步长对训练和测试剪辑(32帧)进行采样,从而产生跨越125帧(125.2秒)的输入剪辑LFB以每秒2个剪辑的速度采样我们发现了一个帖子-激活版本的NL′更好地工作在Charades上,所以我们在下面的实验中采用它。两种变体的详细信息和完整结果见补充材料。其他细节与EPIC-Kitterfly的动词模型相同。训练与推理我们训练3D CNN模型进行24 k次迭代,学习率为0.02,权重衰减为1.25e-5。请注意,这些超参数与STRG [52]不同,STRG使用更长的时间表(50 k迭代),更小的学习率(0.0025)和更大的权重衰减(1 e-4)。3表3比较了两种设置,我们看到令人惊讶的是,我们的2×更短的时间表工作得更好。 使用新的时间表,一个简单的NL模型无建议书(STO)工程以及完整的STRG3原始STRG [52]使用的批量大小为8。为了清楚地比较,我们使用与我们相同的批量大小(16),但根据“线性缩放规则”调整学习速率和时间表我们验证了精度与原始4-GPU训练的精度相匹配。1003 .第三章。757. 5 15 30 60 120时间支持(秒)图6.具有不同窗口大小的LFB模型相对于vanilla 3D CNN的相对改进方法(37.5% mAP)[52]。我们观察到,当使用更强的基线时,使用短期操作符的益处变得更小。在以下所有实验中,我们使用我们的24 k时间表作为默认值,并使用类似于STRG [ 52 ]的2阶段训练方法来训练LFB模型;详见补充资料。在测试时,我们对每个视频采样10个片段,并在之前的工作之后使用最大池化来组合预测[51,52]。我们使用(左,中,右)3作物测试后,王等。[51 ]第51段。6.2. 定量评价对于Charades,我们用ResNet-50-I3 D-NL和ResNet-101-I3 D-NL [5,16,51]主链进行实验,以与先前的工作进行一致的表4表明,LFB模型再次一致优于所有没有LFB的模型Charades的改进不如其他数据集大,部分原因是预测任务较粗糙(视频级)。7. 讨论图6示出了使用不同窗口大小的LFB的相对增益。4我们看到不同的数据集表现出不同的特征。电影数据集AVA受益于持续2分钟以上的超长上下文识别烹饪活动(EPIC-Kitchen),背景从15岁到60岁秒是有用的。Charades视频要短得多(2.30秒),但仍然将时间支持扩展到10+秒是有益的。我们推测,未来更具挑战性的数据集可能会受益更多。总之,我们提出了一个长期的功能银行,提供长期的支持信息的视频模型。我们表明,通过LFB使视频模型能够访问长期信息,导致了一个大的性能增益,并在AVA、EPIC-Kitches和Charades等挑战数据集上产生最先进的结果4对于每个数据集,我们使用其性能最好的FBO。 基于5次运行计算标准误差。这里的时间支持考虑了用于计算L的每个剪辑的支持,因此Charades(top-1)AVA(top-1)CharAdes史诗名词史诗动词相对改善(%)iterations / lr /wd50k / 0.0025 / 1e-4 [52]24k / 0.02 /1.25e-53D CNN33.838.3STO37.839.6292引用[1] T. Althoff,H. O. Song和T.达雷尔。检测库:一种用于多媒体事件识别的基于对象检测的视频表示。2012年多媒体国际会议。2[2] P. Anderson,X.他,C.Buehler、D.Teney,M.约翰逊先生,S. Gould和L.张某自下而上和自上而下的图像字幕和视觉问答注意。在CVPR,2018年。[3] J. L. Ba,J.R. Kiros和G. E.辛顿层归一化。arXiv预印本arXiv:1607.06450,2016。四、六[4] F. Baradel,N.内韦罗瓦角Wolf,J. Mille,and G. 森视频中的对象级视觉推理。在ECCV,2018。二、七[5] J. Carreira和A.齐瑟曼。你好,动作识别?新模型和动力学数据集。在CVPR,2017年。一二三五八[6]D. 达门, H. 道蒂 G. M. 法里内拉 S. 菲德勒A. Furnari、E. Kazakos,D. Moltisanti,J. Munro,T.佩雷特,W. Price,et al.缩放自我中心的愿景:EPIC-kitchens数据集。在ECCV,2018。1、7[7] J.多纳休L.安妮亨德里克斯S. 瓜达拉马M. Rohrbach,S. Venugopalan湾Saenko和T. 达雷尔。用于视觉识别和描述的长期递归卷积网络。CVPR,2015。2[8] C. Feichtenhofer、A. Pinz和R.王尔德用于视频动作识别的时空残差网络。在NIPS,2016年。2[9] R.作者:J. Doersch和A.齐瑟曼。更好的AVA基线。arXiv预印本arXiv:1807.10066,2018。二五六七[10] R.娘娘腔。快速R-CNN。在ICCV,2015年。2[11] R. 格尔希克岛 Rados avo vic,G. Gkioxari,P. Dolla'r,还有K.他外Detectron,2018年。[12] G. Gkioxari和J.马利克找活动管。CVPR,2015。2[13] P.戈雅,P.多尔,R.女孩P.诺德豪斯,L. Wesolowski,A. Kyrola,A. Tulloch,Y. Jia和K.他外准确的大小批量sgd:1小时内训练imagenet。arXiv预印本arXiv:1706.02677,2017。8[14] C. 古角,澳-地Sun,D.A. 罗斯角冯德里克角Pantofaru,Y.李鹏说,S. Vijayanarasimhan,G. Toderici、S.里科河Sukthankar等人AVA:时空局部原子视觉动作的视频数据集。在CVPR,2018年。一、二、三、四、五[15] K. 他,G. Gkioxari ,P. Doll a'r和R. 娘娘腔。面罩R-CNN. InICCV,2017. 三、五[16] K.他,X。Zhang,S. Ren
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- IEEE 14总线系统Simulink模型开发指南与案例研究
- STLinkV2.J16.S4固件更新与应用指南
- Java并发处理的实用示例分析
- Linux下简化部署与日志查看的Shell脚本工具
- Maven增量编译技术详解及应用示例
- MyEclipse 2021.5.24a最新版本发布
- Indore探索前端代码库使用指南与开发环境搭建
- 电子技术基础数字部分PPT课件第六版康华光
- MySQL 8.0.25版本可视化安装包详细介绍
- 易语言实现主流搜索引擎快速集成
- 使用asyncio-sse包装器实现服务器事件推送简易指南
- Java高级开发工程师面试要点总结
- R语言项目ClearningData-Proj1的数据处理
- VFP成本费用计算系统源码及论文全面解析
- Qt5与C++打造书籍管理系统教程
- React 应用入门:开发、测试及生产部署教程
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功