没有合适的资源?快使用搜索试试~ 我知道了~
1视频动作Transformer网络RohitGirdhar1*JoaRoccoCarreira2CarlDoersch2AndrewZisserman2,31卡内基梅隆大学2DeepMind3牛津大学http://rohitgirdhar.github.io/ActionTransformer摘要我们介绍了动作Transformer模型,用于识别和定位视 频 剪 辑 中 的 人 类 动 作 。 我 们 repr- pose 一 个transformer风格的架构,从周围的人,我们试图分类的行动时空背景聚合我们表明,通过使用高分辨率,特定于个人的,类不可知的查询,该模型自发地学习跟踪个人的人,并拿起语义上下文从其他人的行动。此外,它的注意力机制学会强调手和脸,这通常是区分 一 个 动 作 的 关 键 我 们 在 Atomic Visual Actions( AVA ) 数 据 集 上 训 练 和 测 试 了 我 们 的 ActionTransformer网络,仅使用原始RGB帧作为输入,其性能明显优于最先进的网络。1. 介绍在本文中,我们的目标是本地化和recognize人的行动,在视频剪辑。人类的行为仍然难以识别的一个原因是,推断一个人例如,识别一个人是否在“听别人说话”是基于另一个人在场景中说什么的类似地,识别一个人是在‘指着一个物体’,还是‘拿着一个物体’,还是‘握手’;所有这些都需要对人及其周围的有生命和无生命的元素进行联合推理。注意,这不限于给定时间点的上下文:在被观察的人已经走出帧之后,识别“观察人”的动作需要随着时间的推移进行推理,以理解我们的感兴趣的因此,我们寻求在确定感兴趣的人的动作时可以确定和利用这样的上下文信息(其他人、其他对象)的模型来自Vaswani等人的跨前体架构。 [43]一个合适的*在DeepMind实习期间完成的工作图1:动作Transformer。我们提出的多头/层动作Transformer体系结构学习关注感兴趣的人及其上下文(其他人,对象)的相关区域每个头部计算一个剪辑嵌入,该剪辑嵌入用于关注不同的部分,如面部、手部和其他人,以识别感兴趣的人正在“牵手”和“观看一个模型,因为它明确地使用自我注意力为其表示与传统的循环模型相比,这种然而,问题是:如何建立一个类似的人类行为识别模型我们的答案是一个新的视频动作识别网络,动作Transformer,它使用修改后的Transformer架构作为“头”来分类感兴趣的人的动作。它汇集了另外两个想法:(i)在先前用于视频中的动作识别的方法中已经成功的时空I3 D模型[7] -这提供了基本特征;以及(ii)区域建议网络(RPN)[33]-这提供了一种用于本地化执行动作的人员的采样机制。I3 D特征和RPN一起生成查询,该查询是Trans-former头部的输入,其聚合来自周围视频中的其他人和对象的上下文信息。我们在第3节中详细描述了这种架构。我们在第4节中展示了经过训练的网络能够学习跟踪单个人,并根据视频中其他人的行为将他们的行为置于上下文中此外,Transformer还关注手部和面部区域,这令人放心,因为我们知道它们在区分动作时具有一些最相关的所有这些都是244输入视频剪辑上下文嵌入个体特异性自我注意关键帧t=−$/2t=0t=$/2action类……245在没有明确监督的情况下获得,而是在动作分类期间学习。我们在Atomic Visual Action(AVA)[15]数据集上训练和测试我们的模型。这是一个有趣的和合适的测试床,这种上下文推理。它需要在视频中半密集地及时检测多个人,并识别多个基本动作。这些动作中的许多动作通常不能单独从人边界框确定,而是需要推断与其他人和对象的关系与以前的作品[3]不同,我们的模型在不需要显式对象检测的情况下学习这样做。我们在AVA数据集上创造了新纪录,将性能从17.4%[41]提高到25.0% mAP。该网络只使用原始RGB帧,但它优于所有以前的工作,包括使用额外的光流和声音输入的大型合奏在提交时,我们的方法是ActivityNet排行榜上表现最好的方法[6]。然而,我们注意到,在25%mAP时,这个问题,甚至这个数据集,远未解决。因此,我们在第5节中严格分析了我们模型的失败案例。我们描述了一些常见的故障模式,并分析了每一个语义和空间标签分解。有趣的是,我们发现许多训练集相对较大的类我们调查这样的尾巴情况下,为未来的工作标记潜在的途径。2. 相关工作视频理解:视频活动识别近年来发展迅速。数据集变得越来越大,越来越难:从演员执行简单的动作[13,35],到简短的体育和电影剪辑[26,40],最后到多样化的YouTube视频[1,25]。模型已经跟随套装,从手工制作的功能[27,44]到深度端到端可训练模型[7,24,45,46,48]。然而,这项工作的大部分集中在修剪动作识别,即,将短剪辑分类为动作类。虽然有用,但这是对动作理解的相当有限的看法,因为大多数视频涉及多个人在任何给定时间执行多个不同的动作最近的一些工作着眼于这种细粒度的视频理解[8,19,23,39],但主要限于UCF- 24 [39,40]或JHMDB[21]等小型数据集。另一项工作是专注于时间动作检测[37,38,49];然而,它不解决人检测或人动作归因的任务。AVA数据集和方法:最近引入的AVA [15]数据集试图通过引入15分钟长的片段来纠正这一点,这些片段标记有所有人,每隔一秒就有一个动作虽然相当新,但已经提出了各种模型[15,22,41,51]来完成这项任务。大多数模型都试图扩展对象检测框架[16,20,33]以在视频上操作[10,19,23]。 可能是离我们最近的-proach是以人为中心的关系网络[41]上的并发工作,它学习将人的特征与类似于关系网络的视频剪辑联系起来[34]。相比之下,我们建议使用人员检测作为查询来寻找要聚合的区域,以便识别他们的动作,并且在很大程度上优于[41行动识别注意事项:关于将注意力纳入神经网络的工作已经有很多,主要集中在与语言相关的任务上[43,50]。对视频的关注以各种形式进行,包括门控或二阶池[11,29,30,48],引导人的姿态或其他原语[4,5,11,12],区域-图表示[18,47],循环模型[36]和自我注意力[46]。我们的模型可以被认为是一种自我注意的形式,与这些方法相辅相成。代替比较所有像素对,它减少了与人类区域比较的一侧,并且可以应用于各种基础架构之上,包括前面提到的注意力架构,如[46]。3. 作用Transformer网络在本节中,我们将描述新的Action Transformer模型的总体设计它的目的是检测所有的per-sons,并分类所有的行动,他们正在做的,在一个给定的时间点(“关键帧”)。它摄取以关键帧为中心的短视频剪辑,并为中心帧中的所有人生成一组人类绑定框,每个框标记有该人的所有预测动作。该模型由不同的基础和头部网络组成,类似于FasterR-CNN对象检测框架[33]。我们也称之为主干的基础使用3D卷积架构为在场的人生成特征和然后,头部使用与每个提议相关联的特征来预测动作,并回归更紧密的边界框。请注意,重要的是,RPN和边界框回归都是动作不可知的。更详细地,头部使用由主干生成的特征图以及RPN建议,以使用RoIPool [20]操作生成对应于每个RP的特征表示。然后使用此功能将框分类为C操作类或背景(总计C+1),并回归到4D偏移向量,将RPN提案转换为人员 周 围 的 紧 密 边 界 框 。 底 座 在 第 3.1 节 中 描 述 ,Transformer第3.2节中的标题。我们还在第3.3节中描述了另一种I3D头,它是Faster-RCNN头的更直接模拟物。用于消融研究。第3.4节中给出了实施细节。3.1. 基础网络体系结构我们首先从原始视频中提取一个T帧(通常为64帧)剪辑,围绕给定的关键帧编码约3秒的上下文。我们使用一个246× ×× ××41616× × ××××输入剪辑图2:基础网络架构。 我们的模型将剪辑作为输入,并使用主干网络(通常是I3D的初始层)特征图的中心帧通过RPN以生成边界框提议,并且特征图(用位置嵌入填充)和每个提议通过然后使用此功能回归一个紧密的边界框并分类到动作类中。头部网络由一堆动作Transformer(Tx)单元组成,这些单元生成要分类的特征我们还可视化放大的Tx单元,如第3.2节所述。QPr和FFN分别指查询预处理器和前馈网络,也在3.2节中解释。一组卷积层,并将此网络称为干线。在实践中,我们使用在Kinetics-400上预训练的I3 D网络的初始层[7]。我们从Mixed 4f层中提取特征图,通过该特征图,TH W输入被下采样到T′H′W′=THW.我们从这个特征图中切出时间中心框架,并将其传递给区域建议网络(RPN)[33]。RPN生成多个潜在的人边界框以及对象分数。然后,我们选择具有最高对象性分数的R框(我们使用R=300),以进一步回归到紧密边界框中,并使用“头部”网络分类到动作类中图2的中继线和RPN部分说明了到目前为止所描述的网络。3.2. 动作Transformer头如引言中所述,我们的头部架构受到Transformer架构的启发并被重新利用[43]。它使用RPN中的人物框作为“查询”来定位要关注的区域,并在剪辑上聚合信息以 对 其 动 作 进 行 分 类 。 我 们 首 先 简 要 回 顾 一 下Transformer架构,然后描述我们的Action Transformer头框架。Transformer : 这 种 架 构 是 在 [ 43 ] 中 提 出 的 , 用 于seq2seq任务,如语言翻译,以取代传统的循环模型。原始体系结构的主要思想是通过将一个特征与序列中的所有其他特征进行比较来计算自我注意力。这通过不直接使用原始特征而有效地执行。相反,特征首先被映射到查询(Q)和使用线性投影的存储器(键和值,KV查询的输出被计算为值V的注意力加权和,其中注意力权重从查询Q与键K的乘积获得。在实际上,这里的查询是正在翻译的单词,键和值是输入序列和到目前为止生成的输出序列位置嵌入也被添加到这些表示中,以便合并在该非卷积设置中丢失的位置信息我们建议读者参考[43]和[31],以获得对原始架构的更详细描述。动作Transformer:我们现在描述我们的重新用途的Transformer 架 构 的 视 频 理 解 的 任 务 。 我 们 的Transformer单元将来自RPN的视频特征表示和框建议作为输入,并将其映射为查询和内存特征。我们的问题设置对查询(Q)、键(K)和值(V)张量有一个自然的选择:被分类的人是查询,而人周围的剪辑是记忆,投射到键和值中。该单元然后处理查询和存储器以输出更新的查询向量。直觉是,自我注意力将把来自剪辑中的其他人和对象的上下文添加到查询向量,以帮助随后的分类。该单元可以堆叠在多个头和层中,类似于原始架构[43],通过在给定层连接来自多个头的输出,并使用连接的功能作为下一个查询。该更新的查询然后被用于再次关注下一层中的上下文特征。在图2中,我们展示了这种高级设置,以及它如何适应我们的基础网络(以绿色突出显示),每个Action Transformer单元都表示为“Tx”。我们现在详细解释这个单元。键特征和值特征被简单地计算为原始特征图从躯干的线性投影,因此每个都具有形状T′H′W′D。在实践中,我们从中心剪辑中提取人框的RoIPool-ed特征,并将其通过查询预处理器(QPr)和线性层以获得大小为11D 的查询特征。QPr 可以直接将RoIpool功能平均化,I3D基础位置嵌入多头、多层Tx头中心框架特征上的RPNRoIPoolTXTX⊙TXTX⊙TXTX⊙QPR++公司简介关注后备来自I3D的卷积特征图⨁⍉加权和 辍学⍉辍学Tx单元N+1路分类边界框回归规范层规范层RoIPoolRPNFFN247×××× ××× ×××QKRPN中心框架特征上的RPN延伸I3D中的建议通过以下方式来阻止时间:复制LogitsST-RoIPool图3:I3D股骨头。可选地,我们可以用一个更简单的头来替换Action Trans- former头,该头将最后几个I3 D块应用于区域特征,如第3.3节所述。空间,但会失去人的所有空间布局。相反,我们首先通过1 - 1卷积来降低维度,然后将所得7 - 7特征图的单元格连接成一个向量。最后,我们使用线性层将此特征映射的维度降低到128 D(与查询和关键特征映射相同)。我们将此过程称为HighRes查询预处理。在第4.3节中,我们将其与简单地对特征进行空间平均或LowRes预处理的QPr进行比较。其余的架构基本上遵循trans-former。我们使用对应于RPN的特征Q(r)建议r,对于dot-K个特征上的产品注意力,通过codeD归一化(与[43]相同),并将结果用于V特征的加权平均(A(r))此操作可以简洁地表示为管 使 用 标 准 RoIPool 操 作 [20] , 类 似 于 以 前 的 作 品[10]。将所得到的跨时间的特征堆叠以得到对应于管的时空特征图。然后,它通过从干线分出的I3D网络的层(即,混合5a至混合5c)。然后将得到的特征图3说明了这个体系结构。3.4.实现细节我们在Tensorflow中开发我们的模型,在TF对象检测API之上[20]。我们使用400 - 400px的输入空间分辨率 和 64 的 时 间 分 辨 率 ( T ) 。 用 于 I3D 和 ActionTransformer头的RoIPool生成1414输出,然后是一个最大池,以获得一个7 7特征图。因此,I3D磁头输入最终为16 77的大小,而对于Action Transformer,我们使用77功能作为查询和完整的162525主干特征作为上下文。如在先前的工作[31,43]中也观察到的,在这样的架构中添加位置嵌入是非常有益的。它允许我们的模型除了视觉相似性之外还对时空接近性进行编码,这是一种在远离传统卷积或基于记忆的(例如,LSTM)架构。对于主干特征图中的每个单元格,我们在-(r)(r)不xytΣΣ(r).ΣΣ(r)通过构建载体进行信息化:[h,w]和[t]表示axyt=A;A=x,y,tSoftmaxAVxytxyt特征空间和时间位置,相对于特征的大小和中心计算我们对A(r)应用dropout,并将其添加到原始查询特征中。产生的查询通过由LayerNorm [2]操作组成的剩余分支,然后是实现为2层MLP和dropout的前馈 网 络 ( FFN ) 。 最后 一 个 特 征 通 过 另 一 个LayerNorm来获得更新的查询(Q′′)。图2(Tx单元)示出了上述单元架构,并且可以表示为地图我们通过一个2层MLP传递每个,并连接输出。然后,我们将得到的向量沿着通道维度附加到树干特征图。由于K、V是躯干特征映射的投影,并且Q是通过RoIPool从该特征中提取的,所有这些都将隐含地包含位置嵌入。最后,对于分类损失,我们为每个动作类使用单独的逻辑损失,使用sigmoid交叉熵实现,因为多个动作可以被′Q(r)=层范数.Q(r)+辍学.ΣΣA(r)对一个特定的人来说是积极的。 对于回归,我们使用标准-Dard smooth L1丢失。对于Action Transformer头,我们′′Q(r) =层规范.′Q(r) +辍学.FFN.′Q(r)ΣΣΣ使用D =128的特征维度和0.3的dropout。我们为Action Transformer默认情况下,尽管我们在arXiv版本中消融了其他选择[9]。3.3. I3D头端为了衡量Action Transformer头收集的上下文的重要性,我们还构建了一个不提取上下文的更简单的头架构。为此,我们使用时空RoIPool(ST-RoIPool)操作从特征图中提取对应于RPN提案的特征表示。它的实施首先拉伸RP的时间通过复制框,以形成一个管。然后,我们在每个时间点使用对应的框从特征图中提取特征表示3.5.培训详细信息预培训:如[ 7 ]所述,我们通过在大型标记良好的动作分类数据集Kinetics-400 [25]上分别预训练I3 D层来初始化我们的大多数模型。我们初始化模型的其余层(例如,RPN、Action Transformer heads等)从头开始,将批规范层的运行均值和方差统计量固定到预训练模型的初始化,然后端到端微调完整模型请注意,248模型中的规范层位于I3 D基础网络和头部网络中;因此,当从预训练模型进行微调时,不需要估计新的批量统计。数据扩充:我们使用随机翻转和裁剪来增强训练数据。我们发现这是至关重要的,因为移除增强会导致严重的过拟合和性能的显著下降我们评估了预-第4.6节中的培训和数据扩充。SGD参数:训练是使用V100 GPU上的同步SGD完成的,每个梯度步长的有效批量大小为30个剪辑。这通常通过每GPU一批3个剪辑和总共10个副本来实现。然而,由于我们对所有实验都保持固定的批量范数,除了从头开始的实验,因此可以通过将批量拆分为10个,15个甚至30个副本来实现这个批量大小。我们的大多数模型都经过了50万次迭代的训练,这在10个GPU上需要大约一周的时间。我们在500K次迭代中使用0.1的学习率和余弦学习率退火,尽管在前1000次迭代中使用从0.01到0.1的线性预热 [14]对于某些情况,比如带有Action Transformer head和使用地面实况框的模型(第4.2节),我们在30万次迭代时提前停止训练,因为它学习得更快。使用用于对象检测的标准损失函数训练模型[20],除了多标签分类损失的S形交叉熵。4. 实验在本节中,我们将在AVA基准测试中对模型进行实验性评估。我们首先在第4.1节中介绍数据集和评估协议。请注意,模型需要执行两个不同的任务:动作定位和动作分类。为了更好地理解每一个独立的挑战,我们评估每一个任务的完美信息。在第4.2节中,我们将RPN提案替换为groundtruth(GT)框,并保持其余架构不变。然后在第4.3节中,我们假设通过将所有类别标签转换为单个“活动”类别标签来进行完美分类,将问题简化为纯粹的“活动人”与背景检测问题,并评估人定位性能。最后,我们在第4.4节中总结了这两个方面的经验教训。我们对AVA确认集进行了所有这些消融比较,并与第4.5节中测试集的最新技术水平进行了比较。4.1. AVA数据集和评估Atomic Visual Actions(AVA)v2.1 [15]数据集包含211K训练,57K验证和117K测试剪辑,以1 FPS从430个15分钟的电影剪辑中拍摄。每个剪辑中的中心帧都用所有人物边界框以及每个实例的80个活动动作类中的一个或多个进行了详尽的标记。按照以往行李箱盖QPr GT箱 参数(M) GFlopsVal mAPi3Di3D-16.26.521.3i3Di3D-J16.26.523.4i3DTXLowRes13.933.217.8i3DTXHighRes19.339.618.9i3DTXLowResJ13.933.229.1i3DTXHighResJ19.339.627.6表1:GT人员框的行动分类。 为了从本地化性能中隔离分类,我们在假设地面实况框位置已知时评估我们的模型。可以看出,当使用GT盒时,Action Transformer头的性能远强报告的所有性能均采用R= 64个提案。为了更好地理解复杂度,典型的视频识别模型,Kinetics上的16帧R(2+1)D网络,是41 GFlops [42]。对于随机变化的意义,我们重新训练基本Tx模型(第5行)三次,并获得0.45的标准偏差(在29.1的mAP上)。作品[15,41],我们报告了我们在60个类的子集上的性能,这些类至少有25个验证示例。为了与其他挑战提交进行比较,我们还报告了我们最终模型在测试集上的性能,如挑战服务器所报告的那样。除非另有说明,否则使用IOU阈值为0.5的帧级平均精度(帧AP)进行评价,如[15]所述。4.2. GT人员框在本节中,我们将评估头部在给定AVA数据集提供的真实边界框的情况下对动作进行这将给出整个网络的动作分类性能的上限我们首先比较表1中带和不带GT盒的I3D股骨头。为了减少这些实验的计算费用,我们对RPN使用较低的R=64值。有趣的是,通过使用地面实况(GT)框,我们只得到了很小的改进,这表明我们的模型已经能够学习一个很好的人物检测表示 。 接 下 来 , 我 们 将 I3D 头 架 构 替 换 为 ActionTransformer,这将使GT盒子的性能显著提升5%。还值得注意的是,我们的Action Transformer头实现实际上比LowRes QPr情况下的I3D头少了2.3M个参数,消除了任何关于这种改进仅仅是由于额外的模型容量的担忧。Action Transformer在有和没有GT盒的情况下性能的显著下降是由于仅使用R=64的建议。从随后的结果中可以看出,当使用R=300提案24921.320.5RoI源QPr头值mAPIOU@0.5IOU@0.75方法模态架构Val mAPTest mAP[22]第二十二话 RGB,流量 I3D,FRCNN,NL,TSN,-C2D、P3D、C3D、FPN21.08表2:本地化性能(与操作无关)。我们执行分类不可知的评估以评估用于人检测的头部的性能。我们观察到I3 D头优于Action Transformer-head模型,尽管使用HighRes查询转换(QPr)显着改善了它报告的所有业绩都有R= 64项提案。QPr负责人表3:总体性能。 把表4:与先前最新技术水平和挑战申报资料的比较。 我们的模型比以前的技术水平高出> 7。验证集上的5%,CVPR获胜者是> 3 5%的测试集。我们这样做时,只使用I3D-64I3D-300的行动Transformer头HighRes 预处理 和 300亲-一个单一的模型(没有合奏),运行在原始RGB帧,如-放。这与这里列出的各种以前的方法相反它带来了显著的改善-在I3D头上。使用两个头:用于回归的I3D和用于分类的Tx表现最好。4.3. 本地化性能(与操作无关)考虑到Action Transformer在分类任务中的强大性能如前所述,我们通过将所有类合并为单个平凡类来隔离本地化性能。我们在表2中报告了标准0.5 IOU阈值和更严格的0.75 IOU阈值的性能。配备RPN盒的I3D头在此任务上表现出色,在0.5IOU时实现了近93%的mAP。使用低分辨率查询的Transformer的简单实现在77.5%处表现得相当差,但是通过采用高分辨率查询,性能上的差距被显著减小( 对 于 IOU-0.5 度 量 , 从 92.9% 减 小 到 87.7% ) 。Transformer的定位精度较低,这可以通过其更全局的性质来理解;需要对该问题进行更多的研究然而,正如我们接下来将要展示的那样,使用HighRes查询,我们已经可以在性能上实现积极的权衡,并且可以利用分类收益来获得显着的整体改进。4.4. 把事情放在一起现在,我们将Transformer头与RPN底座放在一起我们在表3中报告了我们的发现。可以看出,ActionTransformer头远远优于I3D头(24.4对比20.5)。通过使用I3 D头进行回归和使用Action Transformer头进行分类,可以获得额外的提升(至24.9)-尽管计算开销略高(0.1GFlops)。其使用多种体系结构的各种形式和集合。此处使用的型号缩写如下。R- 50:ResNet-50 [17],I3 D:膨胀的3D卷积[7],S3 D(+G):可分离的3D卷积(带门控)[48],FRCNN:更快的R-CNN [33],NL:非局部网络[46],P3 D:伪3D卷积[32],C2 D [42],C3 D [42],TSN:时间段网络[45] RN:关系网络[34],Tx:Transformer [31,43]和FPN:特征金字塔网络[28]。一些提交还尝试使用其他模式,如音频,但性能较低。在这里,我们与他们最好的报告数字进行比较。4.5. 与现有技术水平的比较最后,我们在表4中的测试集上将我们的模型与以前的最新技术进行比较。我们发现Tx+I3D头获得了最佳性能,并且在测试时简单地添加时间上下文(96帧,而训练时为64帧)会导致进一步的改进。我们在验证集上的绝对点超过同样值得注意的是,我们的方法比以前提出的大多数方法要简单得多此外,我们仅使用原始RGB帧作为输入来获得这种性能,而先前的作品使用RGB,流,并且在某些情况下也使用音频4.6. 消融研究到目前为止,我们所有的模型都使用了类不可知回归,数据增强和Kinetics [25]预训练,我们早期观察到的技术对于这项任务的良好性能至关重要。我们现在验证这些设计选择的重要性。我们在表5中使用I3D头部网络作为基线来比较性能。从表中可以明显看出,这三个因素对获得强大的个人能力至关重要。特别是,类不可知回归是一个重要的贡献。虽然典型的对象检测框架[16,20]为每个对象学习单独的回归层,单帧[15]RGB,流量R-50,FRCNN14.7-AVA基线[15]RGB,流量I3D、FRCNN、R-5015.6-ARCN [41]RGB,流量S3D-G,RN17.4-我们的(TX专用头)RGBI3D,德克萨斯州24.424.30我们的(Tx+I3D头)RGBI3D,德克萨斯州24.924.60Tx高分辨率6418.9Tx高分辨率30024.4Tx+I3D高分辨率30024.9RPN-i3D92.977.5RPNLowResTX77.543.5RPNHighResTX87.763.3复旦大学---17.16[51]第五十一话RGB,流量P3D,FRCNN-19.60250帧Tx-A Tx-B帧Tx-A Tx-B注意图4:嵌入和注意。 对于两个帧,我们将它们的有趣的是,其中一个头部学习语义跟踪人(Tx-A:所有上半身都是类似的颜色-绿色),而另一个是特定于实例的(Tx-B:每个人都是不同的颜色-蓝色,粉红色和紫色)。在下面的列中,我们显示了最后一个Tx层中所有头部的平均softmax注意力对应于红框中的人。我们的模型学习磨练面部,手部和与之交互的物体,因为这些对于识别动作最具歧视性i3D头CLS特定的bbox-reg8月无数据从头Val mAP21.319.216.619.1表5:增强、预训练和类不可知回归。我们评估了某些设计选择的重要性,例如类无关的盒回归,数据增强和Kinetics预训练,通过报告从模型中删除每个设计选择时的性能。我们使用I3D头部模型作为基线。显然,删除任何导致性能显着下降。报告的所有业绩都有R= 64项提案。对象类别,它在我们的情况下没有意义,因为“对象”总是人。共享这些参数可以帮助例子很少的类也学习一个好的人回归器,从而导致整体提升。最后,我们注意到在RPN中使用足够数量的提案的重要性。从表3中可以看出,将数量从300减少到64会显著降低Ac-tion Transformer模型的性能。I3D头受影响较小。这很有趣,因为即使是64人,我们使用的提案也远远超过了框架中的实际人数。5. 分析我们现在分析Action Transformer模型。除了获得优越的性能,该模型也更可解释的显式编码自底向上的注意。我们首先可视化模型学习的键/值嵌入和注意力地图。 接下来,我们分析性能与特定的类,人员规模和计数;最后可视化常见的故障模式。学习的嵌入和注意力:我们在图4中可视化了128维“键”嵌入和注意力地图。我们通过对3D PCA投影进行颜色编码来可视化嵌入在我们的2-head 3-layer Action Transformer模型中,我们展示了六个头中的两对于注意力地图,我们可视化了Tx头的最后一层中2个头的平均softmax注意力有趣的是,我们的模型学会了跟踪剪辑中的人,如嵌入所示,所有“人”像素都是相同的此外,对于第一个头部,所有人都具有相同的颜色,这表明语义嵌入,而另一个头部具有不同的颜色,这表明实例级嵌入。同样,softmax注意力地图学习关注和跟踪感兴趣的人的面部、手部和其他部位以及场景中的其他人。它也倾向于关注与人互动的物体,如真空吸尘器和咖啡杯。这是有意义的,因为AVA中的许多动作,如说话,倾听,持有物体等。需要聚焦人和物体的脸、手来推断。分解性能:我们现在将模型的性能分解为某些组。我们首先在图5(a)中评估每个类的性能我们根据训练数据的增加量对性能进行排序,如绿色所示。虽然训练数据大小和性能之间存在一些相关性,但我们注意到存在许多数据充足但性能较差的类,如吸烟。我们注意到,我们得到了一些最大的改善类,如帆船,看电视等,这将受益于我们的行动trans-former模型参加的人的背景。接下来,我们根据剪辑中人物的大小来评估性能,由GT框占据的百分比区域定义,如图5(b)所示。为此,我们将验证集拆分为bin,将预测和GT保持在一定的大小限制内。我们通过对所有GT框进行排序并分成类似大小的箱来找到大小阈值,从而确保251+4.735e4I3D头端Tx头0.90.80.70.60.5106105104(b)第(1)款0.25200.20150.15100.10(一)0.40.30.20.10.0103102101(c)第(1)款0.050.000.350.300.250.200.150.100.050.000.078.1117.11包装盒覆盖的图像面积%29.2447.205013000120001100010000900080007000600050000 1 2 3 5 7剪辑中的框数图5:按(a)类别、(b)箱面积和(c)计数划分的性能。 虽然总体趋势表明性能与训练集大小(绿线)呈正相关,但确实存在有趣的异常,如“吸烟”,“进食”等,尽管有大量的训练数据,但仍然难以识别。在(b)和(c)中,绿线表示验证子集的大小。我们观察到,随着人员框大小的增加和框数量的减少,性能大大提高轴标签在屏幕上最佳查看放大携带/持有(物体)打架/打(人)监视(人)(a)(b)(c)图6:热门预测。 示例使用我们的模型对一些类的顶级预测。请注意,上下文(例如与之交互的其他人或对象)通常有助于对动作进行分类,如“观察人”、“持有对象”等。捕获上下文是我们模型的一个优势。对于每个箱类似的我们发现,盒子越大,表现越好,大概是因为越来越容易看到每个人在近距离做什么最后,我们根据图5(c)中剪辑中标记的GT框的数量来评估我们发现当我们在场景中添加更多的人时,性能会下降。定性结果:我们在图6中可视化了我们模型的一些成功之处。我们的模型能够利用上下文来识别动作,例如“看一个人”,这在仅仅看演员时是很难的最后,我们在图7中分析了我们的最佳模型的一些常见故障模式。这些列显示了一些常见的失效模式,如(a)类似的作用/相互作用,(b)同一性和(c)临时位置。所有类的类似可视化在arXiv版本中提供[9]。I3D头端Tx头I3D头Tx头地图指向(物体)游泳转身(例如,螺丝刀)在计算机上工作剪一张照片跳/跳爬升(例如,山)摔下来穿衣服手挥拉(物体)推(另一个人)举起(人)推(物)手机短信/看手机举起/拿起放下收听(例如,(音乐)从(人)处拿走(物品)手摇帆船亲吻(某人)写关闭(例如,(门,盒子)把(东西)给(人)拥抱(人)起床驱动器(例如,一辆小汽车,一辆卡车)用手拍开(例如,窗户,车门)演奏乐器唱歌给(例如,自我,一个人,一个群体)抓住(人)手表(例如,电视)读武术喝酒蹲/跪打架/打人烟吃舞接电话跑步/慢跑乘坐(例如,一辆自行车,一辆汽车,一匹马)(弯腰)触摸(物体)携带/持有(物体)坐倾听(某人)交谈(例如,自我,一个人,一个群体)监视(一个人)站地图列车组大小地图弹簧夹GT-GT盒子252图7:错误分类的视频。来自“吸烟”类的视频,即使有大量的训练数据,也能获得较低的性能。失效模式包括:(a)类似的作用/相互作用:在第一个片段中,人把手放在嘴上,类似于吸烟者;在第二个片段中,麦克风看起来像一支香烟;(b)身份:有多个人(或映像),并且动作没有被指定给正确的人;(c)时间位置:数据集期望动作发生在关键帧中,在这些示例中,动作在关键帧之前已经完成或没有开始。6. 结论我们已经证明,动作Transformer网络能够从视频剪辑中的其他人类动作和对象中学习时空上下文,以定位和分类人类动作。由此产生的嵌入和注意力地图(作为监督动作训练的一部分间接学习)具有语义意义。该网络超过了AVA数据集的最新技术水平。值得注意的是,除了RGB之外,之前最先进的网络还使用了运动/流流[7,48],因此添加流作为输入可能会 提高Action Transformer 网络的性 能。然而,性能远非完美,我们已经提出了几种改进和调查的途径。鸣 谢 : 感 谢 V 。 帕 特 洛 塞 安 河 Arandjel o v ic' , J.- B.Alayrac,A. Arnab,M. Malin o wski和C. mc-coy进行有益的讨论。253引用[1] S. Abu-El-Haija,N. Kothari,J. Lee,P.纳采夫湾托代里奇,B. Varadarajan和S. Vijayanarasimhan。 Youtube-8 m:大规模视频分类基准。CoRR,abs/1609.08675,2016。2[2] J. L. Ba,J.R. Kiros和G. E.辛顿层归一化。统计,2016年。4[3] F. Baradel,N.内韦罗瓦角Wolf,J. Mille,and G. 森视频中的对象级视觉推理。在ECCV,2018。2[4] F.巴拉代尔角沃尔夫和J。米勒人类行为识别:基于姿势的注意力将注意力吸引到手。在ICCV研讨会,2017年。2[5] F. 巴拉代尔角沃尔夫和J。米勒人体行为识别对RGB的关注。在BMVC,2018年。2[6] F. Caba et al. Activitynet leaderboard. 时 空 动 作 定 位( AVA-1. 仅 计 算 机 视 觉 ) 。 http://activity-net.org/challenges/2018/evaluation.html。2[7] J. Carreira和A.齐瑟曼。 Quo Vadis,Action Recogni-tion?新模型和动力学数据集。在CVPR,2017年。一二三四六八[8] K. Duarte,Y. S. Rawat和M. Shah. VideoCapsuleNet:A用于动作检测的简化网络。在NIPS,2018年。2[9] R. 作 者 : J.Doersch 和 A.齐 塞 - 曼 。 视 频 动 作Transformer 网 络 。 arXiv 预 印 本 arXiv : 1812.02707 ,2018。四、八[10] R. Girdhar,G.基奥克萨里湖Torresani,M.Paluri和D.交易。检测和跟踪:视频中的高效姿态估计。 在CVPR,2018年。 二、四[11] R. Girdhar和D. Ramanan动作识别的注意力集中。在NIPS,2017年。2[12] R. Girdhar,D. Ramanan 、A. Gupta,J. Sivic,and B.Russell.AVLAD:学习时空聚合用于动作分类。在CVPR,2017年。2[13] L. Gorelick,M.Blank,E.Shechtman,M.Irani和R.巴斯里作为时空形状的动作。TPAMI,2007年。2[14] P.戈雅,P.多尔,R.女孩P.诺德豪斯,L. Wesolowski,A. Kyrola,A. Tulloch,Y. Jia和K.他外准确的大小批量sgd:1小时内训练imagenet arXiv预印本arXiv:1706.02677,2017。5[15] C.古角,澳-地Sun,D.罗斯角冯德里克角Pantofaru,Y.李鹏说,S. Vijayanarasimhan
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于Python和Opencv的车牌识别系统实现
- 我的代码小部件库:统计、MySQL操作与树结构功能
- React初学者入门指南:快速构建并部署你的第一个应用
- Oddish:夜潜CSGO皮肤,智能爬虫技术解析
- 利用REST HaProxy实现haproxy.cfg配置的HTTP接口化
- LeetCode用例构造实践:CMake和GoogleTest的应用
- 快速搭建vulhub靶场:简化docker-compose与vulhub-master下载
- 天秤座术语表:glossariolibras项目安装与使用指南
- 从Vercel到Firebase的全栈Amazon克隆项目指南
- ANU PK大楼Studio 1的3D声效和Ambisonic技术体验
- C#实现的鼠标事件功能演示
- 掌握DP-10:LeetCode超级掉蛋与爆破气球
- C与SDL开发的游戏如何编译至WebAssembly平台
- CastorDOC开源应用程序:文档管理功能与Alfresco集成
- LeetCode用例构造与计算机科学基础:数据结构与设计模式
- 通过travis-nightly-builder实现自动化API与Rake任务构建
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功