没有合适的资源?快使用搜索试试~ 我知道了~
基于Transformer的社会群体活动识别框架
0使用Transformer寻找社会群体活动的线索进行社会群体活动识别0Masato Tamura,Rahul Vishwakarma和Ravigopal Vennelakanti0Hitachi America, Ltd.masato.tamura.sf@hitachi.com,{rahul.vishwakarma,ravigopal.vennelakanti}@hal.hitachi.com0摘要。本文提出了一种用于社会群体活动识别的新框架。作为群体活动识别的扩展任务,社会群体活动识别需要识别多个子群体活动并确定群体成员。大多数现有方法通过细化区域特征,然后将其总结为活动特征来处理这两个任务。这种启发式的特征设计使得特征的有效性容易受到不完整的人物定位的影响,并忽视了场景背景的重要性。此外,区域特征对于识别群体成员来说是次优的,因为这些特征可能被区域中的人的特征所主导,并具有不同的语义。为了克服这些缺点,我们提出利用Transformer中的注意模块生成有效的社会群体特征。我们的方法设计得如此之好,以至于注意模块能够识别并聚合与社会群体活动相关的特征,为每个社会群体生成一个有效的特征。群体成员信息被嵌入到特征中,并通过前馈网络访问。前馈网络的输出如此简洁地表示群体,以至于可以通过群体和个体之间的简单匈牙利匹配来识别群体成员。实验结果表明,我们的方法在排球和集体活动数据集上优于现有方法。0关键词:社会群体活动识别,群体活动识别,社会场景理解,注意机制,Transformer01 引言0社会群体活动识别是一项识别场景中多个子群体活动并确定群体成员的任务。这个任务源自群体活动识别,后者只需要在场景中识别一个群体活动。这两个任务近年来引起了极大的关注,因为它们具有潜在的应用价值,如体育视频分析、人群行为分析和社会场景理解[1-5, 12-14, 16-18, 21, 23-27, 32, 33, 36,40-43]。在这些任务的背景下,“动作”一词表示单个人的原子运动,“活动”一词指的是由一群人执行的更复杂的运动关系。虽然我们的框架可以同时识别动作和活动,但我们专注于群体活动。0+v:mala2255获取更多论文02 M. Tamura等人0输入序列 区域特征0边界框特征细化模块0活动分类器0聚类模块0检测器/跟踪器0特征提取器0行走0穿越0穿越0(a) 传统方法。0输入序列0特征编码器/解码器0检测头0群体成员标识符0行走0穿越0穿越0特征提取器0(b) 提出的方法。0图1:传统和提出的社会群体活动识别方法的概述。右图中的标签显示了预测的社会群体活动。0大多数现有方法将识别过程分解为两个独立的部分:人物定位和活动识别(参见图1a)[5, 12-14, 16, 18, 21, 26, 32, 33, 36,40-43]。人物定位识别场景中观察到人物的区域,并用边界框表示。这些边界框用于从特征图中提取区域特征。区域特征进一步通过特征细化模块(如循环神经网络(RNNs)[8, 15]、图神经网络(GNNs)[20, 39]和Transformer[38])编码时空关系。为了进行活动识别,对这些细化的特征进行总结。尽管这些方法已经取得了显著的改进,但它们存在一些缺点,这些缺点归因于特征设计的启发式性质。由于区域特征是从特征图中的边界框区域提取的,特征的有效性受到定位性能的影响。大多数现有方法忽视了这种影响,并使用地面真实边界框的区域特征来评估其性能。然而,一些研究[5, 13, 33,41]表明,使用预测的边界框而不是地面真实边界框时,识别性能略有下降。此外,使用区域特征会丢弃大量的场景背景信息,因为这些特征通常被边界框中的人的特征所主导。场景背景,如物体位置和背景情况,有时对于识别群体活动非常重要。例如,在体育比赛中,运动球的位置对于识别群体活动是有信息量的。应该利用这些特征来提高识别性能。社会群体活动识别面临的另一个挑战是,利用区域特征来识别群体成员是次优的。Ehsanpour等人[13]使用区域特征作为图注意网络(GATs)[39]的节点特征,并训练它们输出具有低概率的邻接矩阵,用于表示人物的0+v:mala2255获取更多论文0使用Transformer在SGAR中寻找群体线索 30在不同的群体中,相同群体的人具有较高的相似度。在推理过程中,将谱聚类[31]应用于邻接矩阵,将人员分成群体。由于邻接矩阵反映了节点特征的语义相似性,如果同一群体中的人的区域特征具有不同的语义,例如执行不同的动作,则该方法可能无法正常工作。为了解决这些挑战,我们提出了一种新颖的社交群体活动识别方法,可以应用于社交群体活动识别和群体活动识别。我们利用基于transformer的目标检测框架[6,45]来消除现有方法中启发式特征设计的需求(见图1b)。transformer中的注意力模块在我们的方法中起着关键作用。我们设计我们的方法,使得注意力模块能够识别并聚合与社交群体活动相关的特征,为每个社交群体生成有效的特征。由于活动和群体成员信息嵌入到生成的特征中,这些信息可以被检测头中的前馈网络(FFNs)访问。检测头的输出被设计得非常简洁,可以通过简单的匈牙利匹配来执行群体成员识别。这种识别方法与Ehsanpour等人的方法[13]不同之处在于,他们的方法依赖于个体的特征将人员分成群体,而我们的方法生成的特征嵌入了用于分组人员的线索,从而实现了有效的群体识别。总结起来,我们的贡献有三个方面:0-我们提出了一种新颖的社交群体活动识别方法,利用transformer中的注意力模块生成有效的社交群体特征。从特征中提取的群体成员信息被设计得简洁,并可以通过简单的匹配过程用于识别群体成员。0-我们的方法在群体活动识别和社交群体活动识别两个具有挑战性的基准测试中取得了更好或具有竞争力的性能。0- 我们进行了全面的分析,揭示了我们的方法在各种条件下如何工作。02 相关工作02.1 群体活动识别0由于网络的学习能力,基于深度神经网络的方法在群体活动识别中已经占据主导地位。Ibrahim等人[18]提出了一种基于RNN的方法,该方法使用卷积神经网络提取人物边界框区域的特征,并使用长短期记忆来优化区域特征。该架构捕捉了每个人在帧之间的时间动态和场景中人员的空间动态。在他们的工作之后,提出了几种基于RNN的方法[5, 21,33, 36, 40]。0+v:mala2255获取更多论文04 M. Tamura等人0GNNs也被用于对场景中的人的时空上下文和关系进行建模。Wu等人[41]使用图卷积网络(GCNs)[20]捕捉人物外观和位置在帧之间的时空关系。Ehsanpour等人[13]采用GATs[39]学习潜在的相互作用,并使用邻接矩阵将人员分成社交群体。Hu等人[16]利用RNN和GNN结合强化学习来优化特征。Yuan等人[42]使用个人特定的动态图,为每个节点动态改变GNN的连接。随着transformer[38]在视觉问题中的快速应用,一些工作将transformer引入到群体活动识别中。Gavrilyuk等人[14]使用transformer编码器来优化区域特征。Li等人[26]提出了空间-时间transformer,可以编码时空依赖性并解码群体活动信息。Zhou等人[43]提出了多尺度时空堆叠transformer,用于群体活动的组合理解和关系推理。我们的方法与现有方法的不同之处在于,它们依赖于区域特征,而我们的方法利用transformer中的注意力模块生成社交群体特征,从而提高了性能。02.2 检测变换器0Carion等人[6]提出了一种基于变换器的目标检测器DETR,将目标检测视为一组预测,并实现了端到端的目标检测。传统目标检测器与DETR之间的一个重要区别是,传统目标检测器需要启发式的检测点,其特征用于预测目标类别和边界框,而DETR通过让变换器解码器中的查询使用注意机制来聚合目标对象的特征,避免了这种启发式组件。DETR即使没有这种启发式组件,也能够与传统的最先进的目标检测器相媲美。为了进一步提高DETR的性能,已经提出了几种方法[11, 37,45]。Zhu等人[45]提出了用可变形变换器替换标准变换器的DeformableDETR。变换器中的可变形注意模块结合了可变形卷积的稀疏采样[10]和标准注意模块的动态加权,从而显著降低了注意力权重计算的计算复杂度。这种降低使得DeformableDETR能够使用骨干网络的多尺度特征图。为了利用非启发式设计和多尺度特征图,我们使用可变形变换器生成社交群体特征。03 提出的方法0我们利用基于可变形变换器的目标检测框架[45]来识别多个群体活动并在没有启发式特征设计的情况下识别群体成员。我们首先在第3.1节中解释整体架构。0+v:mala2255获取更多论文+12+v:mala2255获取更多论文0使用变换器寻找群体线索用于SGAR 50可变形变换器编码器0可变形变换器解码器0可变形变换器编码器0可变形变换器解码器0群体成员标识符0活动头0群体大小头0成员点头0I3D(RGB流)0投影卷积...0人类类别头0盒子头0动作头0输入序列 特征图0个体识别路径 群体识别路径0共享权重0修改后的特征图0位置编码0查询嵌入0共享权重0F0右侧集合0右侧集合0站立0图2:所提出方法的整体架构。0并展示了我们如何建立社交群体活动识别的框架。在第3.2节中,我们描述了训练中使用的损失函数。最后,在第3.3节中解释了推理过程中执行的群体成员识别。由于篇幅有限,我们省略了可变形变换器的细节,鼓励读者参考Deformable DETR[45]的论文以获取更多细节。03.1 整体架构0图2显示了所提出方法的整体架构。给定一个帧序列x∈R3×T×H×W,特征提取器提取一组多尺度特征图Zf={z(f)i|z(f)i∈RDi×T×H′i×W′i}Lfi=1,其中T是序列的长度,H和W是帧的高度和宽度,H′i和W′i是输出特征图的高度和宽度,Di是通道数,Lf是尺度数。我们采用膨胀3D(I3D)网络[7]作为特征提取器,将局部时空上下文嵌入特征图中。请注意,我们仅使用I3D的RGB流,因为组成员是通过其位置进行识别的,而光流流无法预测位置。为了减少变换器的计算成本,每个特征图z(f)i在时间维度上进行平均池化,并输入到一个投影卷积层,将通道维度从Di减小到Dp。最小特征图还应用了一个核大小为3×3,步幅为2×2的额外投影卷积层,以进一步增加尺度。修改后的特征图中的特征通过可变形变换器进行细化和聚合。给定一组修改后的多尺度特征图Zp={z(p)i|z(p)i∈RDp×H′i×W′i}Lfi+1i=1,得到一组经过改进的特征图Ze={z(e)i|z(e)i∈RDp×H′i×W′i}Lfi+1i=1,其中Ze=fenc(Zp,P),fenc(∙,∙)是堆叠的可变形变换器编码器层,P={pi|pi∈RDp×H′i×W′i}Lfi+1i=1是一组多尺度位置编码[45],用于补充注意力机制。6M. Tamura et al.+v:mala2255获取更多论文0模块具有位置和尺度信息,以确定每个特征在特征图中的位置。编码器通过在特征图中和多尺度特征图之间交换信息,帮助特征获取丰富的社交群体上下文。这些丰富的特征图被馈送到可变形变换解码器中以聚合特征。给定一组经过改进的特征图 Z e和可学习的查询嵌入 Q = { q i | q i ∈ R 2 D p } N q i =1 ,得到一组特征嵌入 H= { h i | h i ∈ R D p } N q i =1 ,其中 N q 是查询嵌入的数量,f dec ( ∙ , ∙ )是堆叠的可变形变换解码器层。每个解码器层预测包含与输入嵌入相关的特征的位置,并使用动态加权从这些位置聚合特征。我们设计查询的方式是每个查询最多捕获一个社交群体。这种设计使得每个查询能够从改进的特征图中聚合其目标社交群体的特征。特征嵌入通过检测头转换为预测结果。这里我们用归一化图像坐标表示定位结果。通过预测活动和识别群组成员,可以识别社交群体活动。识别是通过群组大小头和群组成员点头来执行的。大小头预测目标社交群体中的人数,点头通过定位群组成员的边界框的中心来指示群组成员。这种设计使得我们的方法能够在推理过程中通过简单的点匹配来识别群组成员,如第 3.3 节所述。活动类别概率的预测 { ˆ v i | ˆ v i ∈ [0 , 1] N v } Nq i =1 ,群组大小的预测 { ˆ s i | ˆ s i ∈ [0 , 1] } N q i =1 ,和群组成员点的序列 { ˆ U i } N q i =1 被计算为 ˆ v i = f v ( h i ), ˆ s i = f s ( h i ), 和 ˆ U i = f u ( h i ,r i ),其中 N v 是活动类别的数量,ˆ U i = ( ˆ u ( i ) j | ˆ u ( i ) j ∈ [0 , 1] 2 ) M j =1是一个指示群组成员边界框中心的点序列, M 是定义最大群组大小的超参数, f v ( ∙ ), f s ( ∙ ), 和 f u ( ∙ , ∙ ) 是每个预测的检测头, r i ∈ [0 , 1] 2 是参考点,与可变形DETR 中的定位方式相同。预测的群组大小是使用 M进行归一化的值。所有的检测头都由带有后续 sigmoid 函数的 FFN组成。我们在补充材料中描述了检测头的详细信息。可以通过用个体识别头替换群组识别头来执行个体识别。我们经验证明,对个体识别和社交群体识别使用不同的可变形变换器参数并没有显示出性能改进,因此使用共享参数来减少计算成本。个体识别头的详细信息在补充材料中描述。03.2 损失计算0我们将社交群体活动识别视为直接集合预测问题,并在训练过程中使用匈牙利算法 [ 22] 对预测和真实值进行匹配,遵循 DETR [ 6 ]的训练过程。通过计算与预测的活动类别的匹配成本来确定最佳分配。̸H(u)i,j ≠̸̸0使用变压器寻找社交群体活动的线索 70概率、组大小和组成员点。给定一个社交群体活动识别的真实集合,首先用 ϕ ( gr )(无活动)填充该集合,将集合大小改变为 N q。使用填充的真实集合,计算地面真实集合中第 i 个元素与预测集合中第 j个元素的匹配成本如下所示:0H ( gr ) i,j = 1 { i �∈ Φ ( gr ) } � η v H ( v ) i,j + η s H ( s ) i,j + η u H( u ) i,j � ,(1)0H ( v ) i,j = − v T i ˆ v j + ( 1 − v i ) T (1 − ˆ v j )0N v ,(2)0H ( s ) i,j = | s i − ˆ s j | ,(3)0� S i k = 1 ��� u ( i ) k − ˆ u ( j ) k ��� 10S i ,(4)0其中Φ ( gr )是与ϕ ( gr )对应的一组真实值索引,v i ∈ { 0 , 1 } N v是一个真实的活动标签,s i ∈ [0 ,1]是一个通过M归一化的真实群体大小,S i 是一个未归一化的真实群体大小,u ( i ) k ∈ [0 , 1] 20是一个通过图像大小归一化的真实群体成员点,η { v,s,u }是超参数。序列U i中的群体成员点为:0( u ( i ) k ) S i k =1按照从图2中的组识别结果看到的X坐标的升序排序。我们使用这种排列方式,因为组成员通常在图像中以相同的垂直位置并排出现,组成员点的顺序可以从它们的位置中清楚地确定,这使得预测变得容易。我们使用匈牙利算法计算最优分配,即ˆ ω ( gr ) =arg min ω ∈ Ω Nq � N q i = 1 H ( gr ) i,ω ( i ) ,其中Ω N q是Nq个元素的所有可能排列的集合。社交群体活动识别的训练损失L gr 计算如下:0L v = 10| ¯ Φ (gr ) |0Nq �0i = 10� 1 { i �∈ Φ ( gr ) } l f � v i , ˆ v ˆ ω ( gr ) ( i ) � + 1 { i ∈ Φ ( gr ) } l f� 0 , ˆ v ˆ ω ( gr ) ( i ) �� ,(5)0L s = 10| ¯ Φ (gr ) |0i = 1 1 { i �∈ Φ ( gr ) } �� s i − ˆ s ˆ ω ( gr ) ( i ) �� ,(6)0L u = 10| ¯ Φ (gr ) |0Nq �0i = 10j = 1 1 { i �∈ Φ ( gr ) } ��� u ( i ) j − ˆ u (ˆ ω ( gr ) ( i )) j ��� 1 ,(7)0其中λ { v,s,u }是超参数,l f ( ∙ , ∙)是逐元素的焦点损失函数[28],其超参数在[44]中描述。通过匹配真实值和个人类别概率、边界框和动作类别概率的预测,以及计算匹配的真实值和预测之间的损失来联合学习个体识别。0+v:mala2255获取更多论文H(gm,k)i,j=���ˆu(k)i− fcent ˆbj08 M. Tamura等0通过稍微修改Deformable DETR[45]的原始匹配成本和损失,执行匹配和损失计算。我们在补充材料中描述了这些匹配和损失计算的详细信息。03.3 组成员识别0检测头的输出表示群组的群组大小和指示群组成员边界框中心的群组成员点。这些值必须转换为指示个体的值。在推断过程中,我们通过以下简单的过程将预测值转换为指向个体预测集中的元素的索引。为了匹配群组成员点和个体预测,使用匈牙利算法[22],而不仅仅计算每个群组成员点的最近边界框中心。匈牙利算法可以防止多个群组成员点与同一人匹配,从而稍微提高性能。计算第i个群组成员点与第j个个体预测之间的匹配成本如下:0ˆ c j , (8)0其中 ˆ b j ∈ [0 , 1] 4 是个体的预测边界框,ˆ c j ∈ [0 , 1] 是个体的检测分数,fcent ( ∙ )是计算边界框中心的函数。通过将匈牙利算法应用于此匹配成本,将最优分配计算为ˆ ω (gm,k ) = arg min ω ∈ Ω Nq � � M × ˆ s k � i =1 H ( gm,k ) i,ω ( i ) ,其中 �∙�将输入值四舍五入到最近的整数。最后,对于第k个社交群体预测,获得个体的索引集合为 G k = { ˆ ω ( gm,k ) ( i ) } � M × ˆ s k � i =1 。04 实验04.1 数据集和评估指标0我们在两个公开可用的基准数据集上评估了我们方法的性能:Volleyball数据集[18]和CollectiveActivity数据集[9]。Volleyball数据集包含55场排球比赛的4,830个视频,分为3,493个训练视频和1,337个测试视频。每个视频的中心帧都标注有边界框、动作和一个群体活动。动作和活动类别的数量分别为9和8。由于原始注释不包含群体成员信息,我们使用Sendo和Ukita提供的额外注释集。我们将原始注释与额外集中的群体注释结合起来用于实验。请注意,除了额外集中的群体注释之外的其他注释不用于公平比较。CollectiveActivity数据集包含44个生活场景的视频,分为32个训练视频和12个测试视频。每隔十帧对视频进行边界框和动作标注。0+v:mala2255获取更多论文+v:mala2255获取更多论文0使用Transformer和SGAR 9进行狩猎小组线索0群体活动定义为场景中数量最多的动作。动作类别的数量为6。由于原始注释没有群体成员信息,Ehsanpour等人[13]注释了群体标签。我们使用他们的注释进行实验。我们将评估分为两个部分:群体活动识别和社交群体活动识别。在群体活动识别的评估中,我们遵循基于检测的设置[5, 13, 33,41],使用分类准确率作为评估指标。由于我们的方法设计用于预测多个群体活动,我们需要从中选择一个用于群体活动识别。我们选择概率最高的预测活动,并将其与真实活动进行比较。在社交群体活动识别的评估中,每个数据集使用不同的指标,因为Volleyball数据集中的每个场景只包含一个社交群体活动,而CollectiveActivity数据集中的每个场景包含多个社交群体活动。对于Volleyball数据集,使用群体识别准确率作为评估指标。首先,选择一个群体预测,然后将预测的边界框与真实边界框进行比较。如果预测的活动正确且预测的边界框与相应的真实边界框的IoU大于0.5,则选择的预测结果是正确的。对于CollectiveActivity数据集,使用mAP作为评估指标。如果预测的活动正确且所有群体成员的预测边界框与相应的真实边界框的IoU大于0.5,则判断预测结果为真正例。04.2 实现细节0我们使用I3D的RGB流[7]作为骨干特征提取器,并将Mixed 3c、Mixed 4f和Mixed5c层的输入特征输入到可变形Transformer中。可变形Transformer的超参数设置与Deformable DETR [45]的设置一致,其中L f = 3,D p = 256,N q =300。我们使用在Kinetics数据集[19]上训练的参数初始化I3D,并使用在COCO数据集[29]上训练的参数初始化可变形Transformer。我们使用AdamW[30]优化器,批量大小为16,初始学习率为10^-4,权重衰减为10^-4。训练时期设置为120个,学习率在100个时期后衰减。我们将序列长度T设置为9。使用中心帧的真实标签来计算损失。为了增加训练数据,我们随机在时间方向上移动帧,并在中心帧为非注释帧时使用视觉跟踪器的边界框作为真实边界框。我们还通过随机水平翻转、缩放和裁剪来增加训练数据。按照DETR的训练方法[6],使用辅助损失来提高性能。最大群体大小M设置为12。超参数设置为η v = λ v = 2,η s = λ s = 1,η u = λ u =5。在使用CollectiveActivity数据集进行性能评估时,使用一些特定的设置。对于群体活动识别的评估,训练时期设置为10个,学习率在5个时期后衰减,因为10M. Tamura et al.SSU [5]86.2(90.6)–(81.8)–( – )–( – )stagNet [33]87.6(89.3)–( – )87.9(89.1)–( – )ARG [41]91.5(92.5)39.8(83.0)86.1(88.1)49.6(77.3)CRM [4]–(93.0)–( – )–(85.8)–( – )PRL [16]–(91.4)–( – )–( – )–( – )Actor-Transformers [14]–(94.4)–(85.9)–(92.8)–( – )Ehsanpour et al. [13]93.0(93.1)41.8(83.3)89.4(89.4)55.9(78.3)Pramono et al. [32]–(95.0)–(83.1)–(95.2)–( – )DIN [42]–(93.6)–( – )–(95.9)–( – )GroupFormer [26]95.0* (95.7)–(85.6)85.2* (87.5†/96.3)–( – )+v:mala2255获取更多论文0表1:与最先进方法在团体活动识别上的比较。带括号和不带括号的值分别表示基于真实数据和基于检测的性能。个体动作识别的性能供未来参考。0排球 集体活动0方法 活动 动作 活动 动作0我们的方法 96.0 ( – ) 65.0 ( – ) 96.5 ( – ) 64.9 ( – )0* 我们使用公开可用的源代码评估了性能。†我们评估了但无法复现报告的准确性,因为集体活动数据集的配置文件不公开。0由于数据集中场景的有限多样性,损失在几个时期内收敛。对于社交团体活动识别的评估,序列长度T设置为17,遵循Ehsanpour等人的设置。04.3 团体活动识别0与最先进方法的比较。我们在团体活动识别上将我们的方法与最先进的方法进行了比较。表1显示了比较结果。没有括号的值表示基于检测的性能,括号内的值表示使用真实边界框的性能。我们展示了未来参考的个体动作识别的性能。由于现有的工作通常使用真实边界框进行评估,因此没有报告几个基于检测的性能。为了与这些方法比较效果,我们使用预测的Deformable DETR[45]的边界框评估了团体活动识别的最强基线Group-Former[26]。请注意,为了公平比较,DeformableDETR在每个数据集上进行了微调,分别在排球和集体活动数据集上展示了90.8和90.2的mAP。从表中可以看出,我们的方法在基于检测的设置中优于最先进的方法。我们确认当使用预测的边界框时,GroupFormer显示了与之前的方法[5, 13, 33,41]一样的性能下降。这些结果表明,最新的基于区域特征的方法仍然存在不完整的人员定位问题,而我们的方法能够更好地解决这个问题。+v:mala2255获取更多论文0使用Transformer寻找SGAR 11中的狩猎团体线索0表2:使用排球数据集分析团体注释的效果。带括号和不带括号的值分别表示基于真实数据和基于检测的性能。0方法 注释类型 活动0GroupFormer [ 26 ] 原始 95.0 * (95.7) 团体 93.2 ‡ (96.1 * )0我们的原始方法 95.0 ( – ) Group 96.0 ( – )0* 我们使用公开可用的源代码评估了性能。‡我们训练了一个团体成员检测器,并使用公开可用的源代码评估了性能。0特征生成相对于这些方法具有优势。即使与基于真实数据的性能相比,我们的方法也显示出最佳性能。值得注意的是,我们的方法仅使用RGB图像作为输入,而Group-Former除了RGB数据外还利用了光流和姿势信息。这些结果表明,我们方法生成的特征比区域特征更有效,并且将特征限制在边界框内并不是最优的。0群体注释分析。如第4.1节所述,我们使用额外的群体注释充分利用我们的社交群体活动识别能力。我们通过研究GroupFormer[26]和我们的方法在有和没有群体注释的情况下的性能来分析群体注释对群体活动识别的影响。请注意,我们在此之后使用Volleyball数据集进行分析,因为CollectiveActivity数据集中场景的多样性有限。为了在基于检测的设置中评估带有群体注释的GroupFormer,我们使用仅包含群体成员边界框的Deformable DETR[45]进行训练,该检测器旨在仅检测参与活动的人员。检测器显示了87.1mAP的性能。在所有结果中,基于地面真值的带有群体注释的GroupFormer表现出最佳性能。然而,当使用预测的边界框时,性能会大幅下降。这可能是因为群体成员检测的性能不佳,从而降低了识别性能。由于我们的方法不依赖边界框来预测群体活动,即使无法正确识别群体成员,性能也不会下降。因此,在基于检测的设置中,我们的方法表现出最佳性能。04.4 社交群体活动识别0与最先进技术的比较。为了证明我们的方法在社交群体活动识别上的有效性,我们将我们的方法与12M. Tamura et al.Ehsanpour et al. [13]§44.517.2 74.0 49.029.919.7 79.6 25.028.4GroupFormer [26]‡48.825.056.659.051.731.555.358.851.0Ehsanpour et al. [13]51.3–––––0表3:与Volleyball数据集上最先进的社交群体活动识别方法的比较。0右 左0方法 准确率 集合 尖峰 通过 获胜点 集合 尖峰0我们的 60.6 35.9 68.2 81.9 50.6 50.6 53.6 74.3 56.90§ 由于源代码不公开,我们根据我们最好的理解实现了他们的算法并评估了性能。0‡ 我们训练了一个群体成员检测器,并使用公开可用的源代码评估了性能。0表4:与Collective Activity数据集上最先进的社交群体活动识别方法的比较。0方法 mAP 穿越 等待 排队 行走 交谈0我们的 46.0 49.2 64.5 54.1 55.6 6.560Ehsanpour et al.的方法[13]是一种解决社交群体活动识别的最先进方法,而GroupFormer[26]是群体活动识别中最强的基准方法。由于Ehsanpour et al.的源代码和他们在Volleyball数据集上的性能报告不可用,我们根据我们最好的理解实现了他们的算法并在数据集上评估了性能。对于GroupFormer的评估,我们以与群体注释分析部分中描述的相同方式训练了Deformable DETR[45],以检测群体成员。由于这种群体成员检测无法应用于多个社交群体,我们仅在Volleyball数据集上评估GroupFormer。表3显示了Volleyball数据集上的结果。从表中可以看出,我们的方法在其他方法上取得了显著的性能提升,这证明了在群体成员识别和活动识别方面的改进。我们的方法聚合了嵌入有关从特征图中对人群进行分组的线索的特征。很有可能这种特征聚合有助于在图像中识别具有不同群体成员分布的活动的高准确性。我们定性分析了特征如何根据群体成员的分布进行聚合,并在定性分析部分的最后讨论了分析结果。CollectiveActivity数据集上的比较结果列在表4中。从表中可以看出,Ehsanpour et al.的方法显示出比我们的方法更好的性能。我们发现我们的方法在活动“交谈”上的性能相对较低。这种低性能可能归因于训练数据中的样本数量。在测试数据中,86%的0+v:mala2255获取更多论文0使用Transformer寻找SGAR的群组线索130表5:使用排球数据集对群组大小进行分析。0群组大小(训练数据比例) 方法1(36%) 2(21%) 3(19%) 4(6%) 5(5%)6(12%)0Ehsanpour等人[13] 45.3 48.2 61.2 27.3 15.8 32.5 GroupFormer[26] 57.3 29.6 58.4 28.444.7 54.40我们的方法 83.6 42.9 52.4 26.1 39.5 63.80因为源代码不公开,我们根据我们最好的理解实现了他们的算法并评估了性能。0我们训练了一个群组成员检测器,并使用公开可用的源代码评估了性能。0表6:使用排球数据集对成员点顺序进行分析。0群组成员点的顺序 变化概率 准确性0按X坐标升序 7.4% 60.6 按Y坐标升序 13% 55.50具有“Talking”活动的样本的群组大小为四,而训练数据中只有57个样本的群组大小为四,占训练数据的0.8%。由于我们的方法学习预测群组大小,训练数据中每个群组大小的样本数量会影响性能。我们在后续章节中分析了这种影响。0群组大小分析。群组大小预测是识别群组成员的关键因素,因此影响社交群体活动识别的性能。为了分析这种影响,我们对每个群组大小进行了性能评估,并与Ehsanpour等人的方法[13]和GroupFormer[26]的结果进行了比较。表5显示了结果。从表中可以看出,我们的方法的性能与训练数据比例有适度的相关性,而其他两种方法则没有显示出相关性。这是我们的方法依赖于群组大小学习的缺点。然而,如果有一定数量的训练数据,我们的方法在小型和大型群组大小上都表现出竞争性能。相比之下,其他两种方法只在大型或小型群组大小上表现出竞争性能。这些结果表明,我们的方法不依赖于群组大小,并且可以通过大规模训练数据实现高性能。0群组成员点顺序分析。如第3.2节所述,地面真值点序列中的群组成员点按X坐标升序排列。为了确认这种排列的有效性,我们将其与两种排列方式进行了性能比较。表6显示了比较结果。从表中可以看出,当群组成员点按X坐标升序排列时,我们的方法表现出更好的性能。0+v:mala2255获取更多论文014 M. Tamura等人0右传球 右扣球0左扣球 左得分点0图3:变形Transformer解码器中注意力位置的可视化。我们展示了前四个注意力权重的位置。大圆圈表示位置在低分辨率特征图中。0与按Y坐标升序排列相比,按X坐标升序排列时,点的顺序更容易改变。表中的概率表示当对地面真值边界框位置添加小扰动时,点的顺序改变的比例。较高的概率意味着当群组成员移动时,群组成员点的顺序更频繁改变。这些结果表明,当群组成员点按Y坐标升序排列时,顺序更频繁改变,并且在盒子位置稍有差异时很难预测顺序。0定性分析。可变形注意力模块是聚合与社交群体活动识别相关特征并生成社交群体特征的关键组件。为了分析注意力模块如何聚合不同社交群体活动的特征,我们在图3中可视化了变形Transformer解码器的注意力位置。我们展示了解码器最后一层中前四个注意力权重的位置。紫色边界框表示群组成员,红色圆圈表示预测的群组成员点,黄色圆圈表示注意力位置。小黄圆圈和大黄圆圈分别表示位置在高分辨率和低分辨率特征图中,显示了影响生成特征的图像区域的大致范围。图中显示,如果群组成员位于广泛区域,则特征通常从低分辨率特征图聚合,反之亦然。这些结果表明,注意力模块能够根据群组成员的分布有效地聚合特征,并有助于提高社交群体活动识别的性能。0+v:mala2255获取更多论文0使用Transformers来寻找SGAR 15的狩猎群体线索05 结论0我们提出了一种新颖的社交群体活动识别方法,利用可变形transformers生成有效的社交群体特征。这种特征生成消除了对区域特征的需求,因此使得社交群体特征不依赖于个人定位。此外,从特征中提取的群组成员信息被表示得非常简洁,我们的方法可以通过简单的匈牙利匹配识别群组成员,从而实现高性能的社交群体活动识别。我们进行了大量实验,并展示了与现有方法相比的显著改进。0致谢0使用由国家高级工业科学技术研究所(AIST)提供的AI Bridging Cloud Infrastructure(ABCI)的计算资源。0参考文献01. Amer, M.R., Lei, P., Todorovic, S.:HiRF:用于视频中的集体活动识别的分层随机场。在:ECCV(2014年9月)02. Amer, M.R., Todorovic, S.: 活动识别的和积网络。IEEE TPAMI38(4),800-813(2016年4月)03. Amer, M.R., Todorovic, S., Fern, A., Zhu, S.C.: MonteCarlo树搜索用于调度活动识别。在:ICCV(2013年12月)04. Azar, S.M., Atigh, M.G., Nickabadi, A., Alahi, A.:用于群体活动识别的卷积关系机。在:CVPR(2019年6月)05. Bagautdinov, T.M., Alahi, A., Fleuret, F., Fua, P.V., Savarese, S.:社交场景理解:端到端的多人动作定位和集体活动识别。在:CVPR(2017年7月)06. Carion, N., Massa, F., Synnaeve, G., Usunier, N., Kirillov, A., Zagoruyko, S.:基于transformers的端到端目标检测。在:ECCV(2020年11月)07. Carreira, J., Zisserman, A.: Quovadis,动作识别?一种新模型和动力学数据集。在:CVPR(2017年7月)08. Cho, K., van Merrienboer, B., C¸aglar G¨ul¸cehre, Bahdanau, D., Bougares, F., Schwenk,H., Bengio, Y.:使用RNN编码器-解码器学习短语表示进行统计机器翻译。在:
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM Java项目:StudentInfo 数据管理与可视化分析
- pyedgar:Python库简化EDGAR数据交互与文档下载
- Node.js环境下wfdb文件解码与实时数据处理
- phpcms v2.2企业级网站管理系统发布
- 美团饿了么优惠券推广工具-uniapp源码
- 基于红外传感器的会议室实时占用率测量系统
- DenseNet-201预训练模型:图像分类的深度学习工具箱
- Java实现和弦移调工具:Transposer-java
- phpMyFAQ 2.5.1 Beta多国语言版:技术项目源码共享平台
- Python自动化源码实现便捷自动下单功能
- Android天气预报应用:查看多城市详细天气信息
- PHPTML类:简化HTML页面创建的PHP开源工具
- Biovec在蛋白质分析中的应用:预测、结构和可视化
- EfficientNet-b0深度学习工具箱模型在MATLAB中的应用
- 2024年河北省技能大赛数字化设计开发样题解析
- 笔记本USB加湿器:便携式设计解决方案
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功