无检测器团队活动识别模型：基于Transformer的部分上下文表示与时空关联

14 浏览量更新于2023-10-26 收藏 15.13MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

200830无检测器弱监督的团队活动识别0Dongkeun Kim 1 Jinsung Lee 2 Minsu Cho 1 , 2 Suha Kwak 1 , 20CSE系，POSTECH 1 AI研究生院，POSTECH 20https://cvlab.postech.ac.kr/research/DFWSGAR/0摘要0团队活动识别是指理解多人视频中整个团队活动的任务。现有的团队活动识别模型通常在测试中要求有关演员的真实边界框标签，或依赖现成的物体检测器，这在实践中往往不可行。出于这个原因，我们提出了一种新颖的团队活动识别模型，既不依赖边界框标签，也不依赖物体检测器。我们的模型基于Transformer，通过利用注意机制定位和编码团队活动的部分上下文，并将视频剪辑表示为一组部分上下文嵌入。然后，这些嵌入向量被聚合成一个反映整个活动上下文并捕捉每个部分上下文的时间演变的单一团队表示。我们的方法在Volleyball和NBA数据集上取得了出色的性能，不仅超过了以相同监督水平训练的现有技术水平，还超过了一些依赖更强监督的现有模型。01. 引言0团队活动识别（GAR）是指对给定视频剪辑中一群人共同进行的活动进行分类。由于其包括体育视频分析、视频监控和社交场景理解等多种应用，因此越来越受到关注。与侧重于理解个体动作的传统动作识别不同，GAR需要全面而准确地理解多个参与者之间的相互作用，这引入了诸如演员定位和建模其时空关系等固有挑战。由于任务的难度，大多数现有的GAR方法在训练和测试中都需要个体演员的真实边界框标签以及它们的动作类别标签。特别是，边界框标签用于提取个体演员的特征（例如RoIPool和RoIAlign）。0时间0(a) (b) (c)0图1.在时间轴上捕捉到的部分上下文的可视化。本示例中的令牌关注球队在失球后的行为。 (a)在事件3p-succ之后，计时器被重置为24秒，一名防守球员盯着球。 (b)球员们为下一次进攻做准备，一名裁判和一名摄影师指着谁拿球。(c)一名球员发起下一次进攻。通过这样的令牌，每个令牌代表整个团队活动的不同部分，我们的模型获得了目标活动的封装语义。0并准确地发现它们的时空关系；这些演员特征在考虑演员之间的关系的同时进行聚合，形成一个反映整个活动上下文的团队级视频表示，然后将其输入到团队活动分类器中。尽管这些方法在具有挑战性的任务上表现出色，但它们对于繁重的注释，尤其是在推理过程中需要边界框，是不切实际的，从而严重限制了它们的适用性。解决这个问题的一种方法是使用边界框标签共同学习团队活动识别和人员检测，以在推理过程中估计演员的边界框。然而，这种方法仍然需要训练视频中个体演员的真实边界框标签。为了进一步降低注释成本，Yan等人引入了无监督的团队活动识别（WSGAR），在训练和推理过程中都不需要演员级别的标签。他们通过在外部数据集上预训练检测器并学习修剪不相关提议的方法来解决缺乏边界框标签的问题。然而，基于检测器的WSGAR方法存在一些缺点。首先，检测器经常遇到问题。200840由于遮挡和背景杂乱，目标检测在WS-GAR中面临三个主要问题。首先，目标检测容易受到遮挡和背景杂乱的干扰，因此经常导致漏检和误检，降低了GAR的准确性。其次，基于检测器的方法丢失了对GAR有用的上下文信息，因为它只关注人；例如，在体育视频分析中，除了人之外的实体，如球和记分牌，可能为任务提供关键信息。第三，目标检测本身是昂贵的，并且在计算和内存方面增加了额外的开销。在本文中，我们提出了一种不依赖于真实边界框或目标检测器的WS-GAR的无检测器模型。它通过在卷积神经网络（CNN）骨干网络之上放置一个Transformer编码器[48]，通过注意机制在参与组活动的实体上绘制注意力，从而绕过了显式的目标检测。具体而言，我们定义了可学习的令牌作为编码器的输入，以便它们中的每一个通过编码器的注意机制学习定位组活动的部分上下文；这些令牌不仅捕捉关键演员，还捕捉图1中显示的其他有用线索。由于一组可学习的令牌在所有帧中共享，编码器为每个帧计算了预定义数量的令牌嵌入。然后，一个视频剪辑被表示为一组令牌嵌入，这些嵌入被聚合成一个组表示，分为两个步骤：首先聚合来自不同帧的相同令牌计算的嵌入，以捕捉每个令牌的时间演变，然后将结果融合成一个用于组活动分类的单个特征向量。此外，为了进一步提高性能，我们模型的骨干网络被设计为计算运动增强特征。与以前的GAR工作[4, 17, 29,36]不同，它不依赖于昂贵的现成光流，因此成为计算瓶颈。相反，受最近的视频表示架构的启发[16, 26, 27, 35,49]，它通过嵌入两个相邻帧的特征图之间的局部相关性来学习在特征级别捕捉运动信息。我们在两个数据集Volleyball [23]和NBA[56]上评估了所提出的框架。我们的框架在弱监督学习设置下在这两个基准上取得了最先进的性能，并且与依赖于更强监督（如真实边界框和个体动作类别标签）的现有方法相比具有竞争力。本文的贡献有三个方面：0•我们提出了第一个专门用于WSGAR的无检测器方法，既不需要真实边界框标签，也不需要目标检测器。0•我们提出了一种基于Transformer的新型模型，通过注意机制捕捉参与组活动的关键演员和对象。此外，我们的模型经过精心设计，捕捉它们的时间动态，以产生丰富的组级视频特征。0• 在这两个基准上，所提出的方法在很大程度上0超越现有的WSGAR模型。此外，它甚至超过了依赖于比我们更强的监督的早期GAR模型。02. 相关工作02.1. 组活动识别0由于在现实世界中具有各种应用，组活动识别（GAR）已经得到了广泛研究。早期的尝试使用基于概率图模型[1, 10,11, 28, 40]或基于AND-OR图[2, 3,43]的手工特征，这些特征基于个体动作和组活动之间的内在关系。基于RNN的方法[6, 12, 22, 23, 30, 38, 42, 51,54]展示了分层时间建模的有效性。LSTM架构通常以分层方式结构化[23, 42,51]，以对个体动作动态建模并聚合个体特征以推断组活动。此外，图形构建的RNN模型[12,38]被提出来利用个体特征之间的关系。最近的方法更倾向于采用关系建模[4, 15, 21, 53, 55,58]。基于图的方法广泛用于建模演员之间的时空关系[15,21, 53, 55,58]；它们首先从边界框中提取特征，然后将特征作为节点放置，并将它们的关系定义为边。这些方法随后采用自己的方式演化关系图，例如图卷积网络（GCN）[53]或图注意力网络（GAT）[15]。更复杂的发展关系图的方式，例如构建交叉推理模块来嵌入时空特征[55]或利用动态关系和动态漫步偏移来构建个人特定的相互作用图[58]，也已经被引入。另一方面，Azar等人[4]引入了活动图的概念，以编码个体之间的空间关系。基于Transformer的方法[17, 29, 36, 37,57]模拟了组活动特征之间的关系，并在GAR中取得了显著的改进。它们在演员特征之上放置了一个Transformer，以通过条件随机场（CRF）[36]或关于组内和组间关系的联合时空上下文[29]嵌入时空关系。袁等人[57]的最相关研究对每个个体特征进行了人特定的场景上下文编码。然而，它仍然依赖于人检测器，并且仅捕捉人特定的上下文。另一方面，我们的方法进一步考虑了多个人，并且不依赖于任何现成的检测器，因此使得模型能够以较少的监督有效地进行训练。此外，我们的方法利用可学习的令牌来形成不同组活动共享的部分上下文。弱监督组活动识别。GAR在应用中面临许多障碍，以使其适用于TT200850运动0可学习令牌0运动增强特征提取输入帧0Transformer0编码器0组表示0令牌嵌入0卷积0卷积0卷积0卷积0卷积0卷积0Transformer0编码器0卷积0卷积0部分上下文嵌入部分上下文聚合分类0卷积卷积层0运动特征计算模块0运动0运动0运动0运动0时间0卷积0卷积0图2.我们模型的整体架构。一个包含运动特征计算模块的CNN从每个帧中提取一个增强运动特征图。在每个帧上，一组可学习的令牌（未涂色的拼图块）通过Transformer编码器的注意机制嵌入以定位有助于群体活动识别的线索。然后，令牌嵌入（涂色的拼图块）被融合以形成群体表示，分为两个步骤：首先，聚合相同令牌的嵌入（具有相同形状的拼图块）跨时间，然后聚合不同令牌（具有不同形状和颜色的拼图块）的结果。最后，群体表示被馈入分类器，预测群体活动类别得分。0现实生活中。特别是，很少提供诸如边界框和个体动作之类的详细注释。因此，一些方法已经解决了GAR与较弱的监督，例如仅利用边界框来训练其内置检测器[6，60]或活动图[4]。因此，Yan等人[56]提出了WSGAR，即在训练和推理中都不使用边界框的任务。他们通过在模型内部放置一个现成的对象检测器来解决边界框的缺失问题。为了剪除对象检测器的噪声输出，构建了一个关系图，涉及检测到的边界框的相关性。Zhang等人[61]提出了一种使用特定活动特征进行多标签活动识别的方法，也在WSGAR中显示出改进。然而，它并不是为GAR设计的，在WSGAR设置中与基线的性能差距微小。与以前的工作[56，61]不同，我们提出了一种专门用于WSGAR的无检测器方法，不仅不需要演员级注释，而且不需要对象检测器。02.2. Transformer0Transformer[48]最初是为了解决序列到序列的任务，如机器翻译。它引入了自注意机制，旨在捕捉输入元素的全局依赖关系。最近，Transformer在许多视觉任务中被广泛采用，无论是与CNN特征提取器[8，18，24，33，62]一起使用，还是作为纯Transformer架构[13]。检测Transformer（DETR）[8]0Transformer模型用于目标检测，被应用于基于检测的任务，如人-物交互检测[24，62]和目标跟踪[33]。此外，一些尝试将自注意机制应用于处理视频[7，18，41，52]。Girdhar等人[18]利用人周围的时空上下文来同时定位和识别人的动作。Ryoo等人[41]提出了TokenLearner，它有效地学习传达输入的有意义特征。03. 提出的方法0我们的目标是在多人视频中识别群体活动，而不使用真实边界框或对象检测器。我们通过利用注意机制来定位和编码群体活动的部分上下文，并将它们聚合成群体级视频表示，同时捕捉它们的时间动态。我们的模型分为三个部分：增强运动特征提取，部分上下文嵌入和部分上下文聚合。其整体架构如图2所示，本节的剩余部分详细介绍了这三个部分。03.1. 增强运动特征提取0给定一个包含 T 帧的视频剪辑 X video ∈ R T × H 0 × W 0 × 30作为输入，使用ImageNet预训练的ResNet [ 20]主干网络以逐帧的方式提取特征 F video ∈ R T × H ×W × C 。为了将运动信息融入特征中𝐅′(𝐭)QKV𝐖(𝐭)QKVs : (F(t), F(t+1)) �−→ S(t) ∈ RH×W ×P ×P(S(t))(x,p) = ⟨(F(t))(x), (F(t+1))(x+p)⟩,(1)200860PE0H, W, C0K, D0�0多头自注意力01x1卷积0加和和层归一化0多头交叉注意力0加和和层归一化0FFN0加和和层归一化0位置编码0K, D0(a) 部分上下文嵌入0T, K, D0K, D0D0K, T, D0时间卷积0T, D0时间0卷积0多头0自注意力01, D01D卷积01D卷积01D卷积0平均池化0多头自注意力0K, D01, D0平均池化0自注意力0重塑0(b) 部分上下文聚合0图3. 部分上下文嵌入和部分上下文聚合模块的详细架构。0不使用计算量较大的3D CNNs [ 9 , 46 ]或光流[ 45 , 59]，我们的模型计算相邻中间特征图 F ( t ) 之间的局部相关性。0并将相关性编码为逐帧的运动特征，类似于最近的运动特征学习方法[ 26 , 49]。运动特征计算。给定相邻帧的两个特征图，我们首先通过 1 × 1 卷积将它们的通道维度减少到 C ′。然后，局部相关函数 s 定义如下：0其中0x ∈ [0 , H − 1] × [0 , W − 1] , 并且 p ∈ [ − l, l ] 2. 本地相关张量 S ( t ) 的元素 ( S ( t ) ) ( x , p )是通过相邻帧 F ( t ) 和 F ( t +1)之间位移向量的点积相似度计算得到的。通过将最大位移限制为 l ，空间位置 x 的相关分数仅在其大小为 P = 2 l +1 的局部邻域中计算。注意，每个特征图都用大小为 l的零填充。因此， S ( t ) 以 P × P局部相关图的形式揭示了 F ( t ) 的每个位置的运动。在第T 帧的情况下， S ( T ) 通过自相关 s ( F ( T ) , F ( T ) )计算。将局部相关张量整合到主干网络中， 1 × 1卷积将局部相关张量 S ( t ) ∈ R H × W × P 2转换为运动特征 M ( t ) ∈ R H × W × C。然后，通过残差连接将运动特征插入到主干网络中，即 F′ ( t ) = F ( t ) + M ( t )；这个操作赋予输出特征以运动感。在我们的模型中，在ResNet的最后两个残差块之后插入了两个运动特征计算模块。根据[ 26 ]，我们采用了FlowNet [ 14]中实现的局部相关计算。03.2. 部分上下文嵌入 (PCE)0给定运动增强特征F' ∈ RT × H × W × C0对于T帧，通过Transformer编码器以逐帧的方式训练一组K可学习的标记Z = {zi}Ki=1，其中zi ∈RD用于编码组活动的部分上下文。对于每一帧，K个标记通过编码器的机制转换为相同大小的标记嵌入W(t)，即可学习的标记集合Z被每一帧共享，以捕捉每个标记嵌入在时间上的动态。为此，我们采用了一个由多头交叉注意力层、多头自注意力层和前馈网络（FFN）组成的Transformer架构[48]。通过自注意力考虑与其他标记的关系，通过交叉注意力从运动增强特征中捕捉部分上下文。我们称这个过程为部分上下文嵌入，其实现遵循DETR[8]的解码器。注意，Transformer编码器的权重在T帧之间共享。为了清晰起见，我们描述了给定运动增强特征F'(t) ∈ RH × W ×C和一组可学习的标记Z的帧t的部分上下文嵌入的详细过程（图3a）。首先，对特征图应用逐点卷积操作，将通道维度C减少到D。然后，将特征图的空间维度展平，将其整体形状转换为HW ×D。对于多头交叉注意力层，查询是两个元素的和：（1）可学习的标记Z，（2）应用于可学习标记Z和前一个编码器层的输出标记嵌入的多头自注意力的输出。键和值来自展平的特征图，空间位置编码添加到键中。具体来说，输入特征图F'(t)的空间坐标被转换为空间位置编码。200870使用正弦函数[48]进行编码，每个D通道的一半分别编码为宽度和高度坐标。通过注意机制，每个标记学习到从给定特征图中定位和编码关键演员和实体的部分上下文。对于T帧，输出的标记嵌入W(t) = {w(t)i}Ki=1被堆叠起来形成W =[W(1), W(2), ..., W(T)] ∈ RT × K × D，一个维度为D的T ×K标记嵌入的集合。注意，w(t)i表示帧t的第i个标记嵌入。03.3.部分上下文聚合（PCA）0部分上下文聚合模块将输出的标记嵌入W ∈ RT × K × D聚合到最终的组表示g ∈RD。这个过程分为两个步骤。第一步是在时间上聚合相同标记的嵌入，第二步是将第一步的结果组装起来构建单个视频表示。整个过程如图3b所示，并在下面详细讨论。在第一步中，来自不同帧的第i个标记的输出标记嵌入Wi = {w(t)i}Tt=1 ∈ RT ×D被融合成第i个聚合标记特征˜wi ∈ RD。0对于所有i，将输出的标记嵌入W重塑为K × T ×D张量，沿T维度应用一系列1D卷积层，每个卷积层后面跟着ReLU[34]。然后将输出馈送给AvgPool操作。这个时间卷积块f(∙)逐渐沿时间维度聚合标记嵌入，即f：RK × T × D →RK ×D。通过时间上的参数共享，它实现了对视频中活动的时间偏移的鲁棒性，同时有效地捕捉了标记嵌入的时间动态。在第二步中，融合了K个聚合标记特征˜W = {˜wi}Ki=1 ∈ RK×D，以形成组表示g。具体地，首先对˜W应用层归一化[5]，然后采用单层多头自注意力来捕捉K个聚合标记嵌入之间的动态关系。最后，通过在K维度上应用AvgPool操作，得到组表示g。03.4. 训练目标0在获得群组表示后，我们应用分类器来预测群组活动的类别得分。我们的模型以端到端的方式使用标准的交叉熵损失进行训练。04. 实验0我们在排球[23]和NBA[56]这两个数据集上评估了提出的无检测器模型，将其与最先进的WSGAR和GAR方法进行了比较。我们还通过大量的消融研究和定性分析验证了模型的有效性。04.1. 数据集0排球数据集。该数据集包含55个视频，进一步划分为4830个片段。其中3494个片段用于训练，1337个片段用于测试。每个片段的中心帧标有(i)8个群组活动标签之一，(ii)每个球员的9个动作标签之一，以及(iii)每个球员的边界框。Bagautdinov等人[6]提供了中心帧前后10帧的球员边界框轨迹，并作为这些帧的真实边界框标签。然而，在WSGAR设置中，包括我们的模型在内的模型仅使用群组活动标签，不使用更强和更细粒度的注释。我们在整个实验过程中采用多类分类准确率(MCA)和合并MCA进行评估。特别地，为了计算合并MCA，我们将类别“right set”和“rightpass”合并为“right pass-set”，将类别“leftset”和“left pass”合并为“leftpass-set”，以便与SAM[56]进行公平比较。NBA数据集。该数据集包含7624个训练片段和1548个测试片段。目前，这是唯一一个用于WSGAR的数据集，每个片段仅提供9个群组活动标签之一。由于其低注释成本，它目前是最大的群组活动识别数据集。由于每个视频片段的长度为6秒，通常具有复杂的时间结构，该数据集需要捕捉长期时间动态的模型，与其他GAR基准相比。此外，由于快速移动、摄像机视角变化和每帧人数的变化，这是一个具有挑战性的基准。为了评估，我们采用多类分类准确率(MCA)和每类平均准确率(MPCA)指标；由于数据集的类别不平衡问题，我们采用了MPCA。04.2. 实现细节0采样策略。对于两个数据集，我们使用基于片段的采样[50]采样了T帧，每帧的大小调整为720×1280。需要注意的是，NBA数据集的T = 18，排球数据集的T =5。超参数。我们采用ImageNet预训练的ResNet-18[20]作为骨干网络。对于运动增强特征提取，使用1×1的卷积操作将通道维度减少到C' = 64，局部邻域大小设置为P =11。我们在NBA数据集上堆叠了6个Transformer编码器层，使用4个注意力头和256个通道，在排球数据集上堆叠了2个Transformer编码器层，使用2个注意力头和256个通道。我们测试了不同数量的可学习标记，包括K = 1, 2, 4, 8, 12,16，最终选择了12作为两个数据集的标记数。对于部分上下文聚合模块，NBA使用了三个卷积核大小为5的1D卷积层，排球使用了两个卷积核大小为3的1D卷积层进行零填充。在多头自注意力(MHSA)聚合中，使用了单层MHSA。SSU [6]Inception-v389.9-PCTDM [54]ResNet-1890.394.3StagNet [38]VGG-1689.3-ARG [53]ResNet-1891.195.1CRM [4]I3D92.1-HiGCIN [55]ResNet-1891.4-AT [17]ResNet-1890.094.0SACRF [36]ResNet-1890.792.7DIN [58]ResNet-1893.195.6TCE+STBiP [57]VGG-1694.1-GroupFormer [29]Inception-v394.1-PCTDM [54]ResNet-1880.590.0ARG [53]ResNet-1887.492.9AT [17]ResBet-1884.389.6SACRF [36]ResNet-1883.386.1DIN [58]ResNet-1886.593.1SAM [56]ResNet-1886.393.1†SAM [56]Inception-v3-94.0200880在两个数据集中，我们使用了具有256个通道的ResNet-18作为骨干网络，并且NBA数据集使用了4个注意力头，排球数据集使用了2个注意力头。在训练过程中，我们使用ADAM [25]进行优化，其中β1 = 0.9，β2 = 0.999，ϵ =1e-8，共进行30个epochs。NBA数据集的权重衰减设置为1e-4，排球数据集的权重衰减设置为1e-3。学习率初始设置为1e-6，经过5个epochs的线性预热后线性衰减，直到第6个epoch。我们在NBA数据集上使用大小为4的mini-batch，在排球数据集上使用大小为8的mini-batch。04.3. 与最先进的方法进行比较0NBA数据集。对于NBA数据集，我们将我们的方法与GAR和WSGAR中的最新方法进行比较，这些方法使用由SAM [56]提供的边界框提议，并且还与弱监督学习设置中的最新视频骨干进行比较。为了公平比较，我们将它们的骨干网络设置为ResNet-18，除了VideoSwin [ 320总结了结果。请注意，复制的SAM [ 56]的分数高于其原始论文中报告的分数。我们的方法在MCA和MPCA方面大幅领先于所有GAR和WSGAR方法：MCA提高了14.2个百分点，MPCA提高了14.4个百分点。就复杂性而言，我们的方法需要的参数较少，FLOPs略多于其他GAR方法，尽管我们没有计算它们的目标检测器的计算复杂性。我们还将我们的方法与最近的视频骨干ResNet-18 TSM [31 ]和VideoSwin-T [ 32]进行了比较，这些骨干在传统的动作识别中表现良好。尽管这些强大的骨干在WS-GAR中表现良好，但我们的方法表现最佳。我们还展示了没有运动特征模块的方法的结果，该方法仍然优于所有其他方法。排球数据集。对于排球数据集，我们将我们的方法与全监督设置和弱监督设置中的最先进GAR和WSGAR方法进行比较。两种设置的区别在于在训练和推理中使用了包括真实边界框和单个动作类别标签的演员级标签。为了公平比较，我们报告了先前方法[ 4 , 6 , 29 ,38 , 55 , 57]仅使用RGB输入的结果，以及使用ResNet-18骨干的复制结果[ 17 , 36 , 53 , 54 , 58]。请注意，前者来自原始论文，后者是来自[ 58]的MCA值。对于弱监督设置，我们用在外部数据集上预训练的目标检测器替换了真实边界框，并删除了单个动作分类头。表2总结了结果。第一和第二部分分别显示了全监督设置和弱监督设置中先前方法的结果。我们的方法在弱监督设置中大幅领先于所有GAR和WSGAR模型：与使用ResNet-18骨干的模型相比，MCA提高了3.1个百分点，合并MCA提高了1.3个百分点。0方法 # 参数 FLOPs MCA MPCA0视频骨干 TSM [ 31 ] 11.2M 303G 66.6 60.3VideoSwin [ 32 ] 27.9M 478G 64.3 60.60GAR模型 ARG [ 53 ] 49.5M 307G 59.0 56.8 AT [ 17 ]29.6M 305G 47.1 41.5 SACRF [ 36 ] 53.7M 339G56.3 52.8 DIN [ 58 ] 26.0M 304G 61.6 56.0 † SAM [56 ] - - 49.1 47.5 SAM [ 56 ] 25.5M 304G 54.3 51.50我们的方法（无运动特征） 17.3M 311G 73.6 69.00我们的方法 17.5M 313G 75.8 71.20表1.与NBA数据集上最先进的GAR模型和视频骨干进行比较。除了VideoSwin，所有模型都采用ResNet-18骨干。粗体数字表示最佳性能，下划线数字表示第二好的性能。‘†’表示结果直接复制自SAM [56 ]。所有其他结果均由我们复制。0方法骨干网络 MCA 合并 MCA0全监督0弱监督0我们的无运动ResNet-18 88.1 94.00我们的ResNet-18 90.5 94.40表2.在排球数据集上与最先进方法的比较。'-'表示未提供结果，'†'表示直接从SAM [56]复制的结果。0它还击败了基于Inception-v3的当前最先进技术。我们在没有运动特征模块的情况下给出结果以172.766.6273.167.2472.667.7874.069.71273.669.01674.368.8200890展示了其竞争力。与完全监督设置中的GAR方法相比，我们的方法使用更强的演员级监督超过了最近的GAR方法[6, 17,36, 38, 54]。04.4. 消融研究0我们还通过消融研究和NBA数据集上的分析证明了我们方法的有效性。所提出模块的效果。表3总结了每个模块的效果。基础模型由主干网络、全局平均池化层和群体活动分类器组成。没有部分上下文聚合（PCA），所有令牌嵌入被平均以形成群体表示。除了模型架构之外，所有训练设置都相同。从结果来看，三个组件在两个指标上一致地增强了模型。部分上下文嵌入（PCE）模块将MCA从58.4％提高到64.1％，将MPCA从51.7％提高到58.5％。基础模型通过使用全局场景特征来预测群体活动，强调了捕捉部分上下文以识别群体活动的重要性。PCA模块进一步将MCA从64.1％提高到73.6％，将MPCA从58.5％提高到69.0％。这也显示了我们的聚合方法相对于简单的平均池化聚合的有效性。令牌聚合方法的详细分析将在后面讨论（表4）。运动特征模块无论其他组件如何，都能带来额外的增益，这意味着运动感有助于理解群体活动。令牌聚合方法的效果。在这个消融实验中，我们不采用运动特征模块，使用普通的ResNet-18主干网络作为特征提取器。表4显示了各种令牌聚合方法的性能。表的第一部分和第二部分分别包含了一阶聚合方法和二阶聚合方法的结果。给定一组令牌嵌入，二阶聚合方法将聚合分为不同帧之间的聚合和不同令牌之间的聚合，而一阶聚合方法一次性融合所有令牌。MLP聚合将令牌嵌入连接起来，并使用线性层对其进行投影，被视为沿某个轴聚合向量的基准。多头自注意力（MHSA）聚合由一个单层MHSA和一个平均池化层组成。从结果来看，二阶聚合方法在大多数情况下超过了一阶方法。与二阶MLP聚合相比，我们的方法，即跨帧的一维卷积后跨令牌的MHSA，表现更好。这显示了时间卷积和MHSA聚合的有效性，它们对视频中的时间偏移具有鲁棒性，并能够捕捉部分上下文之间的动态关系。此外，聚合的顺序-0模型 MCA MPCA0基础模型 58.4 51.7 基础模型 + 运动62.7 55.10PCE 64.1 58.5 PCE + 运动 65.1 59.1PCE + PCA 73.6 69.00PCE + PCA + 运动 75.8 71.20表3.所提出模块的贡献。PCE和PCA分别表示部分上下文嵌入和部分上下文聚合模块。0聚合方法 MCA MPCA0平均池化 64.1 58.5 最大池化 61.3 55.1MLP（T，K维度均为） 62.8 56.4MHSA（T，K维度均为） 68.7 64.70MLP (T-dim) - MLP (K-dim) 68.9 63.1 MHSA(K-dim) - 1D conv (T-dim) 72.4 67.00我们的模型 (1D conv - MHSA) 73.6 69.00表4.令牌聚合方法的消融实验。T-dim和K-dim分别表示在不同帧上使用相同令牌的聚合和在相同帧上使用不同令牌的聚合。MHSA代表多头自注意力。0# 令牌 MCA MPCA0表5.每帧令牌数量的消融实验。0模型 MCA MPCA0基础 73.6 69.0 res 272.2 68.3 res 3 74.270.2 res 4 74.8 69.4 res5 74.0 70.5 res 3, 474.2 69.0 res 4, 5 75.871.2 res 3, 4, 5 73.168.10表6.运动特征模块位置的消融实验。Base表示没有该模块的模型。0聚合方法的效果。将聚合方法首先应用于时间轴，然后应用于令牌轴，可以提高1.2%p的MCA和2.0%p的MPCA。令牌数量的影响。表5总结了不同令牌数量的性能。注意，这些消融实验是在没有运动特征模块的情况下进行的。当可学习令牌的数量设置为1时，单个令牌嵌入提取上下文信息作为全局场景特征。性能通常随着令牌数量的增加而提高，当数量在8到16之间时获得最佳结果。这些结果表明，将场景上下文分成几个部分以封装丰富的群组表示更有效。200900图4. NBA数据集上Transformer编码器注意力图的可视化结果。0基础模型 PCE PCE + PCA PCE + PCA + Motion0图5. NBA数据集上不同模型变体学习到的特征嵌入的t-SNE[47]可视化结果。0运动特征模块位置的影响。我们研究了在不同位置插入运动特征模块的有效性。运动特征放置在残差块之后，如果在第i个残差块之后插入运动特征模块，则表示为resi。如表6所示，除了在第2个残差块之后插入的情况外，运动特征模块在大多数情况下都是有效的，这被认为是计算局部相关性的太早。还测试了插入多个运动特征模块，在第4个和第5个块之后插入运动特征模块的效果最好。04.5. 定性分析0在图4中，我们展示了在NBA数据集上从最终Transformer编码器层获得的注意力可视化结果。结果表明，令牌嵌入学习到了关键概念并遵循给定视频片段中发生的活动。图5显示了我们模型及其变体的t-SNE[47]可视化结果。每个模型在NBA上的最终群组表示在二维空间中可视化。我们可以发现每个提出的模块都有助于清晰地区分每个类别。05. 结论0我们提出了一种无需检测器的弱监督群体活动识别方法，该方法通过注意力机制首先嵌入活动的部分上下文，然后在捕捉其时间演变的同时进行聚合。我们在弱监督学习设置下在两个基准测试中取得了最先进的结果，甚至超过了一些依赖于更强监督的GAR模型。这些结果表明，我们的方法捕捉到的部分上下文可能比以人边界框形式给出的人类先验更有效。尽管具有这些优势，由于缺乏直接监督，我们的模型在生成足够多样的令牌嵌入时存在困难。通过增加它们的多样性而不捕捉无关上下文，可以进一步改进。0致谢.本工作得到了韩国科学技术部（NRF-2021R1A2C3012728，NRF-2018R1A5A1060031，IITP-2020-0-00842，IITP-2021-0-00537，No.2019-0-01906人工智能研究生院项目-POSTECH）资助的NRF和IITP资助.[13] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov,Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner,200910参考文献0[1] Mohamed Rabie Amer, Peng Lei, and Sinisa Todorovic.Hirf: 用于视频中集体活动识别的分层随机场.在欧洲计算机视觉会议（ECCV）中，页码572-585.Springer，2014年. 20[2] Mohamed R Amer, Sinisa Todorovic, Alan Fern, andSong- Chun Zhu. 用于调度活动识别的蒙特卡洛树搜索.在IEEE国际计算机视觉会议（ICCV）中，页码1353-1360，2013年. 20[3] Mohamed R Amer, Dan Xie, Mingtian Zhao, Sinisa Todor-ovic, and Song-Chun Zhu.用于多尺度活动识别的成本敏感的自上而下/自下而上推理.在欧洲计算机视觉会议（ECCV）中，页码187-200.Springer，2012年. 20[4] Sina Mokhtarzadeh Azar, Mina Ghadimi Atigh, AhmadNickabadi, and Alexandre Alahi.用于群体活动识别的卷积关系机.在IEEE计算机视觉与模式识别会议（CVPR）中，页码7892-7901，2019年. 2 , 3 , 60[5] Jimmy Lei Ba, Jamie Ryan Kiros, and Geoffrey E Hin- ton.层归一化. arXiv预印本arXiv:1607.06450，2016年. 50[6] Timur Bagautdinov, Alexandre Alahi, Franc¸ois Fleuret,Pas- cal Fua, and Silvio Savarese.社交场景理解：端到端多人动作定位和集体活动识别.在IEEE计算机视觉与模式识别会议（CVPR）中，页码4315-4324，2017年. 1 , 2 , 3 , 5 , 6 , 70[7] Gedas Bertasius, Heng Wang, and Lorenzo Torresani.时空注意力是否足以理解视频？在国际机器学习会议（ICML）中，2021年. 30[8] Nicolas Carion, Francisco Massa, Gabriel Synnaeve,Nicolas Usunier, Alexander Kirillov, and Sergey Zagoruyko.基于Transformer的端到端目标检测.在欧洲计算机视觉会议（ECCV）中，页码213-229.Springer，2020年. 3 , 40[9] Joao Carreira and Andrew Zisserman. Quo vadis,动作识别？一种新模型和动力学数据集.在IEEE计算机视觉与模式识别会议（CVPR）中，2017年. 1 , 40[10] Wongun Choi and Silvio Savarese.一种统一的多目标跟踪和集体活动识别框架.在欧洲计算机视觉会议（ECCV）中，页码215-230.Springer，2012年. 20[11] Wongun Choi, Khuram Shahid, and Silvio Savarese.他们在做什么？使用人与人之间的时空关系进行集体活动分类.在IEEE国际计算机视觉会议（ICCV）研讨会中，页码1282-1289.IEEE，2009年. 20[12] Zhiwei Deng, Arash Vahdat, Hexiang Hu, and Greg Mori.结构推理机：用于分析群体活动识别中关系的循环神经网络.在IEEE计算机视觉与模式识别会议（CVPR）中，页码4772-4781，2016年. 20Mostafa Dehghani, Matthias Minderer, Georg Heigold,Syl- vain Gelly, Jakob Uszkoreit, and Neil Houlsby.一张图片相当于16x16个单词：用于大规模图像识别的Transformer. 在国际学习表示会议（ICLR）中，2021年. 30[14] Alexey Dosovitskiy, Philipp

下载后可阅读完整内容，剩余1页未读，立即下载