没有合适的资源?快使用搜索试试~ 我知道了~
演员-变换器:群体活动识别中的静态和动态演员表示
8390用于群体活动识别的演员-变换器0Kirill Gavrilyuk 1 � Ryan Sanford 2 Mehrsan Javan 2 Cees G. M. Snoek 101 阿姆斯特丹大学 2 Sportlogiq { kgavrilyuk,cgmsnoek } @uva.nl { ryan.sanford, mehrsan }@sportlogiq.com0摘要0本文旨在从视频中识别个体动作和群体活动。虽然现有的解决方案通常基于个体演员的位置明确地建模空间和时间关系,但我们提出了一种能够学习和有选择地提取与群体活动识别相关信息的演员-变换器模型。我们使用来自2D姿势网络和3DCNN的丰富演员特定的静态和动态表示来输入变换器。我们经验性地研究了不同的表示组合方式,并展示了它们的互补优势。实验证明了转换的重要性以及如何进行转换。此外,演员-变换器在两个公开可用的群体活动识别基准测试中取得了最先进的结果,优于以前发表的最佳结果。01. 引言0本文的目标是识别个体的活动以及其所属的群体[11]。例如,考虑一个排球比赛,一个个体运动员跳跃,而群体正在进行扣球。除了体育运动,这种群体活动识别在众多应用中都有应用,包括人群监控、监视和人类行为分析。识别群体活动的常见策略是利用表示来建模个体演员之间的空间图关系(例如[27, 45,60])并跟踪演员及其随时间的运动(例如[28, 45,48])。大多数先前的工作都是基于演员的位置明确地建模这些空间和时间关系。我们提出了一种隐式时空模型来识别群体活动。我们受到自然语言处理(NLP)任务的进展的启发,这些任务也需要对单词随时间的关系进行建模。0� 本文是在Sportlogiq实习期间完成的工作。0嵌入 嵌入 嵌入0变换器0群体活动0图1:我们探索了两种互补的静态和动态演员表示,用于群体活动识别。静态表示由单帧的2D姿势特征捕获,而动态表示则来自多个RGB或光流帧。这些表示通过变换器进行处理,推断群体活动。0在自然语言处理(NLP)任务中,循环神经网络(RNN)及其变种(长短期记忆(LSTM)和门控循环单元(GRU))是NLP任务的首选[8, 41,52]。虽然这些模型旨在对时间上的单词序列进行建模,但它们在建模长序列时存在困难[14]。最近,变换器网络[55]作为一种优秀的NLP方法出现[15, 17, 33,62],因为它依赖于一种自注意机制,使其能够更好地建模单词之间的依赖关系,而无需循环或递归组件。这种机制允许网络有选择地提取最相关的信息和关系。我们假设变换器网络也能更好地建模演员之间的关系,并结合演员级别的信息进行群体活动识别,相比于需要明确的空间和时间约束的模型。关键的支持因素是变换器的自注意机制,它学习演员之间的相互作用,并有选择地提取对活动识别重要的信息。因此,我们不依赖于任何先验的空间或时间结构,如图[45,60]或8400基于RNN的模型[16,28]。我们提出了用于识别群体活动的transformer。除了在群体活动识别中引入transformer外,我们还关注个体参与者的编码。首先,通过引入简单而有效的位置编码[55]。其次,通过明确建模参与者的静态和动态表示,如图1所示。静态表示通过由单帧的2D姿态网络获得的姿态特征来捕获。动态表示通过以堆叠的RGB或光流帧为输入的3DCNN来实现,类似于[2]。该表示使模型能够捕捉每个参与者的运动,而无需通过RNN或图模型进行显式的时间建模。同时,姿态网络可以轻松区分具有细微运动差异的动作。这两种类型的特征都传递到一个transformer网络中,其中学习参与者之间的关系,从而更好地识别群体的活动。我们将我们的方法称为actor-transformers。最后,鉴于静态和动态表示捕捉到了独特但互补的信息,我们通过不同的融合策略探索了整合这些信息的好处。本文的贡献有三个。首先,我们引入了transformer网络用于群体活动识别。它可以在不需要任何显式的空间和时间建模的情况下,对参与者级别的特征进行细化和聚合。其次,我们使用来自2D姿态网络和3DCNN的丰富的静态和动态参与者特定表示来输入transformer。我们经验性地研究了不同的组合这些表示的方式,并展示了它们的互补优势。第三,我们的actor-transformers在群体活动识别的两个公开基准数据集Collective[11]和Volleyball[28]上取得了最先进的结果,比之前发表的最佳结果[2,60]有了显著的提升。02. 相关工作02.1. 视频动作识别0用于视频动作识别的卷积神经网络(CNN)。尽管二维卷积神经网络(CNN)在图像识别方面取得了巨大的成功,但最初它们不能直接应用于视频动作识别,因为它们没有考虑到时间,而时间在视频中是重要的信息。Karpathy等人[31]提出了二维CNN来处理单个帧,并探索了不同的融合方法,以包含时间信息。Simonyan和Zisserman[49]采用了一个双流CNN架构,独立地从输入的RGB图像和光流堆叠帧中学习表示。Wang等人[57]提出将视频分成几个片段,并使用多个0流方法来以可学习的方式建模每个片段及其组合。许多人利用LSTM来建模跨帧的长期依赖关系[18, 37, 42,47]。Ji等人[30]是第一个将二维CNN扩展到三维的人,其中时间是第三个维度。Tran等人[53]通过在大量带有噪声标签的视频[31]上进行训练,证明了三维CNN的有效性。Carreira和Zisserman[7]将二维卷积滤波器扩展到三维,利用大量标记图像和视频进行训练。最近的研究探索了利用由三维CNN学习的视频特征表示,并在此表示之上提出了模型[26,59]。Wang和Gupta[59]探索了时空图,而Hussein等人[26]则建议使用多尺度时间卷积来推理长达一分钟的视频。类似地,我们也依赖于由三维CNN[7]学习到的表示来捕捉参与者的运动和时间特征。此外,我们提出将该表示与参与者姿态的静态表示融合,以更好地捕捉参与者身体关节的准确位置。0视频动作识别的注意力。注意力机制最初用于NLP任务[4],后来也被应用于图像字幕生成[61]。一些研究通过将注意力纳入LSTM模型[37, 47]、池化方法[22,40]或图[59]来探索视频动作识别中的注意力。注意力还可以通过不同的模态进行引导,例如姿势[5,19]和运动[37]。最近,由于自注意机制可以更好地捕捉长期依赖关系,相对于RNN,变换器网络[55]受到了特殊的认可。将变换器网络整合到视觉任务中也开始出现[21,44]。Parmar等人[44]将变换器推广到图像生成任务,而Girdhar等人[21]在3DCNN表示[7]之上创建了一个视频动作变换器网络,用于动作定位和动作分类。类似地,我们探索了变换器网络作为一种改进和聚合参与者级别信息以识别整个团体活动的方法。然而,我们使用所有参与者的表示来创建查询、键和值,以改进每个个体参与者的表示并推断团体活动,而[21]仅使用一个人的边界提案作为查询,并使用围绕该人的片段作为键和值来预测该人的动作。0姿势用于视频动作识别。大多数人类动作与身体关节的位置和运动密切相关。这在文献中得到了广泛的探索,包括手工制作的姿势特征[29, 43, 56]、骨架数据[20, 25, 39, 46,50]、身体关节表示[6, 8]和由姿势引导的注意力[5,19]。然而,这些方法只训练用于识别单个参与者的动作,对于推断团体活动的泛化能力不强。在我们的工作中,我们探索了融合的方法8410姿势特征与动态表示,遵循多流方法[13, 54,63]用于动作识别,但我们利用它来推断团体活动。02.2.团体活动识别0最近,由于引入了公共集体数据集[11]和排球数据集[28],团体活动识别受到了更多的关注。最初,方法依赖于为每个参与者提取的手工特征,然后通过概率图模型进行处理[1, 9,10, 12, 23, 34,35]。随着深度学习的出现,团体活动识别的性能稳步提高。一些更成功的方法利用了RNN类型的网络。Ibrahim等人[28]使用LSTM对个体动作动态进行建模,并将信息聚合起来预测团体活动。Deng等人[16]将图模型与RNN结合起来。Shu等人[48]使用两级LSTM层次结构,同时最小化预测的能量并最大化置信度。Bagautdinov等人[3]通过维持RNN对边界提案的时间一致性,共同检测视频中的每个参与者,并预测他们的动作和团体活动。Wang等人[58]利用基于LSTM的模型利用单人动态、团体内和团体间的相互作用。Li和Chuah[36]采用了一种替代方法,为每个视频帧生成标题,然后用于推断团体活动。Ibrahim和Mori[27]为每个人创建了一个关系表示,然后用于多人活动识别。Qi等人[45]提出了一种注意力机制的语义RNN,利用时空注意力和语义图来捕捉团体间的关系。最近,研究开始远离RNN。Azar等人[2]使用由CNN生成的中间表示称为活动图,通过迭代地改进团体活动预测。Wu等人[60]使用2DCNN和图卷积网络构建了一个参与者关系图,以捕捉参与者之间的外观和位置关系。与Wu等人[60]类似,我们也依赖于参与者级别的表示,但不同的是,我们利用了具有选择性突出参与者和团体关系的自注意机制,而不是显式构建任何图。此外,我们通过使用静态和动态表示来丰富参与者特征。与[2]类似,我们使用3D CNN构建我们的动态表示。03. 模型0我们的方法的目标是通过增强和聚合个体演员特征来识别多演员场景中的群体活动。我们假设变压器网络提供的自注意机制是一个足够灵活的模型,可以直接使用,无需额外的技巧或调整,用于推断整个群体的活动。0我们的方法包括三个主要阶段,如图2所示:演员特征提取器、群体活动聚合和融合。简而言之,我们模型的输入是一个视频帧序列Ft,t =1,..,T,每个帧提供N个演员边界框,其中T是帧数。我们通过在单个帧上应用2D姿势网络和在所有输入帧上应用3DCNN来获得每个演员的静态和动态表示。动态表示可以由RGB或光流帧构建,这些帧经过3D CNN和RoIAlign[24]层处理。接下来,将演员表示嵌入到子空间中,使得每个演员由一个一维向量表示。在第二阶段,我们在这些表示之上应用变压器网络以获得动作级别的特征。这些特征经过最大池化以捕捉活动级别的特征。线性分类器用于预测个体动作和群体活动,分别使用动作级别和群体活动级别的特征。在最后一个阶段,我们在变压器网络之前和之后引入融合策略,以探索跨不同表示的信息融合的好处。我们在下面的子节中详细描述每个阶段。03.1. 演员特征提取器0所有人类动作都涉及身体关节的运动,例如手和腿。这不仅适用于在体育活动中进行的细粒度动作(例如排球中的扣球和接球),还适用于日常动作,如行走和交谈。这意味着不仅捕捉关节的位置,还要捕捉它们的时间动态。为此,我们利用两个不同的骨干模型来捕捉关节和演员本身的位置和运动。为了获得关节位置,我们应用姿势估计模型。它以演员周围的边界框为输入,并预测关键关节的位置。我们的方法不依赖于特定的姿势估计模型的选择。我们选择最近发布的HRNet[51]作为我们的姿势网络,因为它具有相对简单的设计,同时在姿势估计基准测试中取得了最先进的结果。我们在所有实验中使用网络的最后一层的特征,即在最终分类层之前的特征。具体来说,我们使用在COCO关键点[38]上训练的最小网络pose hrnetw32,它在我们的任务中也表现出足够好的性能。第二个骨干网络负责建模时间动态。多项研究已经证明,具有足够可用的训练数据的3DCNN可以为动作识别构建强大的时空表示[53,7]。因此,我们在我们的框架中使用I3D[7]网络,因为仅使用姿势网络可能无法捕捉到动作的时空信息。3.2. Transformer)V(1)8420图2:提出模型的概述。输入视频包含T帧和N个演员边界框,经过静态和动态两个分支处理。静态分支为每个演员边界框输出HRNet [51]姿势表示。动态分支依赖于I3D [7],其输入可以是堆叠的RGB或光流帧。在I3D之后,我们应用RoIAlign[24]层提取演员级别的特征。变压器编码器(E)对演员级别的特征进行细化和聚合,然后进行个别动作和群体活动分类器。支持两种融合策略。对于早期融合,我们在E之前组合两个分支的演员级别特征,在晚期融合中,我们组合分类器的预测分数。0不能从单个帧中捕捉关节的运动。I3D网络使用膨胀的3D卷积处理堆叠的Ft,t =1,..,T帧。我们考虑RGB和光流表示,因为它们可以捕捉不同的运动方面。由于3DCNN计算成本高昂,我们使用RoIAlign[24]层在处理整个输入帧时仅对每个演员周围的N个边界框提取特征一次。0Transformer网络最初是在机器翻译中引入的[55]。Transformer网络由编码器和解码器两部分组成。编码器接收一个单词序列(源)的输入,该序列通过由多头自注意力层和全连接前馈网络组成的一堆相同层进行处理。然后,解码器通过编码器生成的表示生成一个输出序列(目标)。解码器的构建方式与编码器类似,可以访问编码的序列。自注意力机制是Transformer网络的关键组件,也可以成功地用于推理演员之间的关系和交互。在下一节中,我们将描述自注意力机制本身以及如何将Transformer架构应用于视频中具有挑战性的群体活动识别任务。0注意力A是一个函数,表示值V的加权和。权重是通过将查询Q与键K进行匹配来计算的。匹配函数可以有不同的形式,最流行的是缩放的点积[55]。形式上,具有缩放的点积匹配函数的注意力可以写成:0A(Q, K, V) = softmax(QKT0其中 d是查询和键的维度。在自注意力模块中,所有三个表示(Q,K,V)都是通过线性投影从输入序列S计算得到的,因此A(S) =A(Q(S),K(S),V(S))。由于注意力是所有值的加权和,它克服了随时间遗忘的问题,这在RNN和LSTM中已经有很多研究[14]。在序列到序列建模中,这种机制使得源序列中最相关的单词更加重要。这对于群体活动识别也是一个可取的特性,因为我们可以根据场景中其他演员的特征增强每个演员的信息,而不受空间约束。多头注意力Ah是注意力的扩展,使用独立的线性投影hi(Q,K,V)的多个并行注意力函数:0Ah(Q, K, V) = concat(h1, ..., hm)W, (2)hi = A(QW Qi , KW Ki , V W Vi )(3)L(X) = Linear(Dropout(ReLU(Linear(X)))(4)E(S) = LayerNorm( ˆE(S) + Dropout(L( ˆE(S)))) (6)8430Transformer编码器层E由多头注意力和前馈神经网络L组成:0ˆ E(S) = LayerNorm(S + Dropout(Ah(S))) (5)0Transformer编码器可以包含多个这样的层,按顺序处理输入S。在我们的情况下,S是通过演员特征提取器获得的一组演员特征Si | i =1,..,N。由于特征Si没有遵循任何特定的顺序,自注意力机制比RNN和CNN更适合对这些特征进行细化和聚合。另一种方法可以是像[60]中那样将图形表示纳入其中,该方法也不依赖于Si的顺序。然而,图形表示需要通过外观和位置关系明确建模节点之间的连接。Transformer编码器通过仅依赖自注意力机制来减轻这个要求。然而,我们表明,Transformer编码器可以通过对Si的位置编码来隐含地利用演员之间的空间关系。我们通过使用与[55]中相同的函数PE将相应演员特征Si的边界框bi表示为其中心点(xi,yi)并对中心点进行编码来处理2D空间。我们将xi编码为Si的前半部分维度,将yi编码为后半部分。在这项工作中,我们仅考虑Transformer架构的编码器部分,将解码器部分留给将来的工作。03.3. 融合0Simonyan和Zisserman的工作[49]展示了通过融合包含互补信息的不同模态可以获得性能改进。在他们的示例中,我们也将几种模态结合到一个框架中。静态分支由姿势网络表示,捕捉身体关节的静态位置,而动态分支由I3D表示,负责场景中每个演员的时间特征。由于RGB和光流可以捕捉到运动的不同方面,我们研究了使用这两种输入视频表示的动态分支。为了融合静态和动态分支,我们探索了两种融合策略:在变换网络之前对演员特征进行早期融合和晚期融合,类似于[49]。早期融合可以同时访问两者0在推断组活动之前,将静态和动态特征进行融合。晚期融合分别处理组活动识别的静态和动态特征,并可以分别集中于静态或动态特征。03.4. 训练目标0我们的模型以端到端的方式进行训练,同时预测每个演员的个体动作和组活动。对于这两个任务,我们使用标准的交叉熵损失进行分类,并将两个损失以加权和的形式组合起来:0L = λg Lg(yg, ˜yg) + λa La(ya, ˜ya) (7)0其中Lg,La是交叉熵损失,yg和ya是真实标签,˜yg和˜ya是模型对组活动和个体动作的预测。λg和λa是两个损失的标量权重。我们发现对个体动作和组活动使用相等的权重效果最好,因此在我们的所有实验中,我们将λg = λa =1。接下来我们详细介绍。04. 实验0在本节中,我们展示了我们提出的模型的实验。首先,我们介绍了两个公开可用的组活动数据集,排球数据集[28]和集体数据集[11],我们在这些数据集上评估我们的方法。然后我们描述了实现细节,接着是模型的消融研究。最后,我们将我们的方法与最先进的方法进行比较,并对结果进行深入分析。为了简单起见,我们在以下章节中将我们的静态分支称为“姿势”,使用RGB帧的动态分支称为“RGB”,使用光流帧的动态分支称为“Flow”。04.1. 数据集0排球数据集[28]包含55个排球比赛视频的片段,分为两组:39个训练视频和16个测试视频。总共有4830个片段,3493个训练片段和1337个测试片段。每个片段有41帧。可用的注释包括组活动标签、个体球员的边界框及其相应的动作,这些仅提供给片段的中间帧。Bagautdinov等人[3]通过为片段中的其余帧提供真实边界框来扩展数据集,我们在实验中也使用了这些边界框。组活动标签列表包含四个主要活动(发球、扣球、传球、得分),它们分为两个子组(左、右),总共有八个组活动标签。每个球员可以执行九种个体动作:拦网、挖球、倒地、跳跃、移动、设球、扣球、站立和等待。集体数据集[11]包含44个片段,长度各不相同,从193帧到约1800帧不等。8440每个片段有多少帧。每10帧中有一个带有人的边界框的注释,其中包含五种个体动作:穿越、等待、排队、行走和交谈。组活动由大多数人在片段中执行的动作确定。根据[45]的方法,我们使用32个视频进行训练,12个视频进行测试。04.2. 实现细节0为了与相关工作进行公平比较,我们在两个数据集上将T =10帧作为我们模型的输入:中间帧,前5帧和后4帧。对于Volleyball数据集,我们将每个帧的大小调整为720×1280分辨率,对于Collective数据集,调整为480×720。在训练过程中,我们随机采样T个输入帧中的一个帧Ftp用于姿势网络。在测试过程中,我们使用输入序列的中间帧。按照常规方法,我们还使用真实的人边界框进行公平比较。我们从帧Ftp中裁剪出人的边界框,并将其调整为256×192大小,然后使用姿势网络处理得到参与者级特征图。对于I3D网络,我们使用从Mixed4f层获得的特征图,经过时间维度的额外平均池化。然后,我们将特征图调整为90×160大小,并使用RoIAlign[24]层从输入视频的中间帧中提取每个人边界框的大小为5×5的特征。然后,我们将姿势和I3D特征嵌入到相同维度d =128的向量空间中。Transformer编码器使用dropout0.1,并且前馈网络中线性层的大小L设置为256。对于静态分支的训练,我们使用批量大小为16个样本,对于动态分支,我们使用批量大小为8个样本。我们在两个数据集上进行20,000次迭代的模型训练。在Volleyball数据集上,我们使用带有动量0.9的SGD优化器。前10,000次迭代中,我们使用学习率0.01,后10,000次迭代中,我们使用学习率0.001。在Collective数据集上,使用ADAM [32]优化器,超参数β1= 0.9,β2 = 0.999和� =e-10。初始时,我们将学习率设置为0.0001,并在5,000次和10,000次迭代后将其减小十倍。我们的模型代码将在发表后提供。04.3. 消融实验0我们首先在Volleyball数据集[28]上对我们的方法进行消融实验,以展示模型的三个阶段的影响。我们在所有消融实验中使用群体活动准确率作为评估指标。参与者-Transformer。我们首先探索参与者-Transformer的参数。我们尝试不同的层数、头部数量和位置编码。在这个实验中,只考虑由姿势网络表示的静态分支。结果如下:0# 层次 # 头部 位置编码 群体活动01 1 � 91.0 1 1 � 92.3 1 2 � 91.4 2 1 � 92.10表1:使用静态参与者表示在Volleyball数据集上进行的Actor-Transformer消融实验。位置编码改善了表示的强度。由于可用的训练样本数量有限,添加额外的头部和层次并没有实现。0方法 静态 动态0姿势 RGB 流0基准模型 89.9 89.0 87.8 图[60] 92.0 91.1 89.5活动地图[2] - 92.0 91.50Actor-Transformer(我们的方法)92.3 91.4 91.50表2:在Volleyball数据集上对人级特征进行群体活动识别的参与者聚合消融实验。我们的参与者-Transformer优于图模型,并与活动地图的结果相匹配。0在表1中报告了位置编码的效果。位置编码可以提高大约1.3%的性能。这是预期的,因为Volleyball数据集的群体活动类别根据活动发生的位置分为两个子类别:左侧或右侧。因此,显式地添加有关参与者位置的信息有助于transformer更好地推理群体活动的这一部分。通常,基于transformer的语言模型受益于使用更多的层和/或头部,因为有大量的数据集可用。然而,Volleyball数据集的规模相对较小,transformer无法充分发挥其潜力。因此,我们在其余的实验中使用一个层和一个头部。参与者聚合。接下来,我们将参与者-transformer与两种最近的方法进行比较,这两种方法结合了参与者之间的信息以推断群体活动。我们使用静态单帧(姿势)和动态多帧(I3D)模型作为基准。它遵循我们的单分支模型,不使用参与者-transformer部分,而是直接在姿势和I3D网络的参与者级特征上应用动作和活动分类器。第一个相关方法使用关系图表示来聚合参与者之间的信息[60]。我们使用作者公开可用的代码来实现图模型。我们还使用嵌入的点积函数来进行聚合。8450方法 姿势+RGB 姿势+光流0早期求和91.2 88.5 早期串联91.8 89.7 后期93.594.40表3:在排球数据集上对静态和动态表示的融合进行消融实验。后期融合优于早期融合方法。0外观关系和位置关系的距离掩码,在[60]中表现最佳。为了公平比较,我们用图形替换了演员变换器,并保持了我们单支模型的其他部分不变。第二个相关方法是基于使用空间活动图的多个细化阶段[2]。由于我们使用相同的骨干I3D网络,我们直接与[2]中获得的结果进行比较。比较结果报告在表2中。我们的演员变换器在所有骨干网络上优于图形,在光流特征上有良好的改进,而不需要显式构建任何关系表示。我们在光流上与活动图[2]的结果相匹配,并在RGB上稍微差一些。然而,我们在不需要将边界框注释转换为分割掩码和多个细化阶段的情况下实现了这些结果。融合。在最后的消融实验中,我们比较了不同的融合策略来结合我们模型的静态和动态表示。对于后期融合,我们将静态表示的权重设置为动态表示的两倍。结果如表3所示。对于我们的模型来说,早期融合并不有益,表现与单支模型相似甚至更差。早期融合策略要求演员变换器同时考虑静态和动态特征。由于排球数据集的规模较小,我们的模型无法充分利用这种融合类型。将注意力集中在两个表示上分别有助于模型更好地利用静态和动态特征的潜力。尽管光流仅略优于RGB(91.5%对91.4%),但与静态表示的融合影响更大(93.9%对93.1%),表明光流对姿势比RGB捕捉到更多的互补信息。04.4.与最先进方法的比较0排球数据集。接下来,我们使用群体活动和个体动作预测的准确性指标,在表4中与最先进的模型进行比较。我们提出了我们模型的两个变体,即姿势与RGB的后期融合(姿势+RGB)和姿势与光流的后期融合(姿势+光流)。这两个变体都超过了所有现有方法,差距相当大:群体活动为0.5%和1.4%,个体动作为2.7%和2.9%。0方法 骨干 群体活动 个体动作0Ibrahim等人[28]AlexNet 81.9 - Shu等人[48]VGG16 83.3 -Qi等人[45]VGG16 89.3 - Ibrahim和Mori[27]VGG19 89.5 -Bagautdinov等人[3]Inception-v3 90.6 81.8Wu等人[60]Inception-v3 92.5 83.0 Azar等人[2]I3D 93.0 -0我们的(RGB + Flow)I3D 93.0 83.7 我们的(Pose +RGB)HRNet + I3D 93.5 85.7 我们的(Pose +Flow)HRNet + I3D 94.4 85.90表4:个体动作预测和群体活动识别的排球数据集比较。我们的姿势+光流模型超越了最先进的方法。0方法 骨干 群体活动0Lan等人[35]无79.7 Choi和Salvarese[9]无80.4Deng等人[16]AlexNet 81.2Ibrahim等人[28]AlexNet 81.5Hajimirsadeghi等人[23]无83.4 Azar等人[2]I3D 85.8Li和Chuah[36]Inception-v3 86.1Shu等人[48]VGG16 87.2 Qi等人[45]VGG16 89.1Wu等人[60]Inception-v3 91.00我们的(RGB + Flow)I3D 92.8 我们的(Pose +RGB)HRNet + I3D 91.0 我们的(Pose +Flow)HRNet + I3D 91.20表5:群体活动识别的集体数据集比较。我们的姿势+RGB和姿势+光流模型取得了最先进的结果。0个体动作识别。这支持了我们的假设,即基于transformer的模型与静态和动态的actor表示对于群体活动任务是有益的。此外,我们还将RGB与光流表示的后期融合(RGB +Flow)与[2]中使用骨干网络I3D的结果进行了比较,达到了相同的群体活动准确率。然而,我们通过更简单的方法实现了这些结果,而且不需要任何分割注释。三种表示的组合与Pose +Flow的性能相同,表明只使用一种动态表示是必要的。Collective数据集。我们进一步在Collective数据集上评估我们的模型,并在表5中与先前的方法进行比较。我们只使用群体活动准确率作为度量标准,采用与文献相同的方法。90.62.15.70.01.00.50.00.02.394.81.20.60.00.60.60.01.40.597.10.00.00.00.50.50.00.00.092.00.00.00.08.00.60.60.00.094.01.23.00.60.61.10.00.02.894.41.10.00.01.32.20.00.90.095.60.00.00.00.04.90.00.00.095.183.32.20.014.50.00.096.10.03.90.00.00.0100.00.00.09.61.40.988.10.00.00.00.00.0100.08460图3:通过actor-transformer获得的每个actor的注意力示例。大部分注意力集中在关键演员(5号)身上,他执行了设置动作,有助于正确预测左侧组活动。最好在数字版本中查看。0右侧设置0右侧扣球0右侧传球0右侧得分点0左侧扣球0左侧传球0左侧得分点0图4:羽毛球数据集群体活动识别的混淆矩阵。我们的模型对每个群体活动的准确率均超过90%。0相关工作。有趣的是,我们在Collective数据集上的个体分支在性能上比Volleyball数据集上的个体分支有更大的变化:Flow-83.8%,Pose-87.9%,RGB-90.8%。然而,通过融合模型Pose + RGB和Pose +Flow,我们实现了最先进的结果,略微超过了[60]的最佳结果。我们还探索了RGB和Flow表示的融合,发现这种组合在Collective数据集上的表现最好,达到92.8%的准确率。我们假设Pose和RGB表示捕捉到了与光流表示互补的类似信息,这得到了Pose +RGB模型的结果的支持,该模型略好于单独的RGB表示。我们还尝试将这三种表示组合在一起,但没有获得额外的改进,与RGB +Flow相比也没有任何改进。值得注意的是,使用相同的骨干网络I3D,Azar等人[2]实现了85.8%的准确率,比我们的结果低7.0%,这显示了基于transformer的模型相对于他们的活动地图方法的好处。04.5. 分析0为了分析我们的actor-transformer的好处,我们在图3中展示了transformer的注意力。0穿越0等待0排队0行走0交谈0图5:群体活动识别的集体数据混淆矩阵。最大的混淆来自于区分穿越和行走。0矩阵右侧的每一行表示方程2中使用行号作为查询的actor表示的注意力分布A h。对于大多数actor,transformer主要集中在左侧设置组活动中执行设置动作的关键演员(编号为5)身上。为了进一步了解我们模型的性能,我们还在图4中展示了羽毛球数据集上的群体活动识别的混淆矩阵,以及在Collective数据集上的混淆矩阵。对于羽毛球数据集上的每个群体活动,我们的模型的准确率均超过90%,其中右侧设置类的准确率最低(90.6%)。尽管它们的空间位置不同,但在区分设置、扣球和传球之间仍存在较大的混淆。模型在区分右侧得分点和左侧得分点方面也存在困难。在Collective数据集上,我们的方法对排队和交谈两个类别实现了完美的识别。然而,对于穿越和行走这两个活动,我们的模型存在最大的混淆。一些研究[58,2]认为穿越和行走在本质上是相同的活动,它们只在人与街道之间的关系上有所不同。整合全局场景级别的信息可能有助于区分这两个活动,这是我们留给未来工作的方向。05. 结论0我们提出了一种基于Transformer的网络作为演员级特征的细化和聚合模块,用于群体活动识别任务。我们展示了在没有任何任务特定修改的情况下,Transformer与优化用于群体活动识别的相关方法相匹配或超越其性能。此外,我们研究了演员的静态和动态表示,包括几种将这些表示组合在一起的方法。我们在两个公开可用的基准测试中取得了最先进的结果,超过以前发表的结果。8470参考文献0[1] Mohammed Abdel Rahman Amer, Peng Lei, and SinisaTodorovic. Hirf: 分层随机场用于视频中的集体活动识别.在ECCV中, 2014. 30[2] Sina Mokhtarzadeh Azar, Mina Ghadimi Atigh, AhmadNickabadi, and Alexandre Alahi. 卷积关系机用于群体活动识别.在CVPR中, 2019. 2 , 3 , 6 , 7 , 80[3] Timur M. Bagautdinov, Alexandre Alahi, Franc¸ois Fleuret,Pascal Fua, and Silvio Savarese. 社交场景理解:端到端多人动作定位和集体活动识别. 在CVPR中, 2017. 3 , 5 , 70[4] Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio.通过联合学习对齐和翻译进行神经机器翻译. 在ICLR中, 2014. 20[5] Fabien Baradel, Christian Wolf, and Julien Mille.基于姿势驱动的注意力机制进行人类活动识别. 在BMVC中, 2018.20[6] Congqi Cao, Yifan Zhang, Chunjie Zhang, and HanqingLu. 使用关节池化的3D深度卷积描述符进行动作识别. 在IJCAI中,2016. 20[7] Jo˜ao Carreira and Andrew Zisserman. Quo vadis,动作识别?一种新模型和动力学数据集. 在CVPR中, 2017. 2 , 3 ,40[8] Guilhem Ch´eron, Ivan Laptev, and Cordelia Schmid.P-cnn: 基于姿势的卷积神经网络特征用于动作识别. 在ICCV中,2015. 1 , 20[9] Wongun Choi and Silvio Savarese.用于多目标跟踪和集体活动识别的统一框架. 在ECCV中, 2012. 3 , 70[10] Wongun Choi and Silvio Savarese.从视频中理解人们的集体活动. IEEE模式分析与机器智能交易,36:1242–1257, 2014. 30[11] Wongun Choi, Khuram Shahid, and Silvio Savarese.他们在做什么?使用人们之间的时空关系进行集体活动分类.在ICCV Workshops中, 2009. 1 , 2 , 3 , 50[12] Wongun Choi, Khuram Shahid, and Silvio Savarese.学习上下文进行集体活动识别. 在CVPR中, 2011. 30[13] Vasileios Choutas, Philippe Weinzaepfel, J´erˆomeRevaud, and Cordelia Schmid. Potion:姿势运动表示用于动作识别. 在CVPR中, 2018. 30[14] Jasmine Collins, Jascha Sohl-Dickstein, and DavidSussillo. 循环神经网络中的容量和可训练性.arXiv预印本arXiv:1611.09913, 2016. 1 , 40[15] Zihang Dai, Zhilin Yang, Yiming Yang, Jaime G. Carbonell,Quoc V. Le, and Ruslan Salakhutdinov. Transformer-xl:超过固定长度上下文的注意力语言模型. 在ACL中, 2019. 10[16] Zhiwei Deng, Arash Vahdat, Hexiang Hu, and Greg Mori.结构推理机: 用于分析群体活动识别中关系的循环神经网络.在CVPR中, 2016. 2 , 3 , 70[17] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and KristinaToutanova. Bert: 深度双向变换器的预训练用于语言理解.在NAACL-HLT中, 2019. 10[18] Jeff Donahue, Lisa Anne Hendricks, Marcus Rohrbach,Sub- hashini Venugopalan, Sergio Guadarrama, Kate Saenko,and Trevor Darrell. 长期循环卷积网络用于视觉识别和描述.IEEE模式分析与机器智能交
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功