没有合适的资源?快使用搜索试试~ 我知道了~
(a) l-spike(b) r-setAccuracy per CategoryTS PathST PathDual PathsDualTSSTDualTSST111222Temporal relation444111342123456112341234123456123456recognize individual action of each actor but also under-stand collective activity of multiple involved actors. Hence,it is vital to learn spatio-temporal actor relations for GAR.Several attempts have been proposed to model actor re-lations by building visual attention among actors [6,16,19,26,46,49,51]. However, it is often difficult for joint spatial-temporal optimization [8, 37]. For this reason, the recentapproaches in group activity recognition often decomposespatial-temporal attention separately for modeling actor in-teraction [16,26,49]. But single order of space and time isinsufficient to describe complex group activities, due to thefact that different group activities often exhibit diversifiedspatio-temporal interactions.29900双AI: 用于群体活动识别的双路径演员交互学习0Mingfei Han � 1 , David Junhao Zhang � 2 , Yali Wang � 3 , Rui Yan 2 , Lina Yao 5 , Xiaojun Chang 1 , 4 , YuQiao † 3 , 601 ReLER, AAII, UTS 2 新加坡国立大学 3 深圳高级技术研究院-商汤联合实验室 4 RMIT大学 5新南威尔士大学 6 上海人工智能实验室0https://mingfei.info/Dual-AI/0摘要0学习多个参与者之间的时空关系对于群体活动识别至关重要。不同的群体活动通常在视频中展示了参与者之间多样化的交互。因此,从单一的空间-时间演员演化视角建模复杂的群体活动通常是困难的。为了解决这个问题,我们提出了一种独特的双路径演员交互(Dual-AI)框架,该框架通过在两个互补的顺序中灵活安排空间和时间变换器,增强了演员之间的关系,融合了不同时空路径的优点。此外,我们引入了一种新颖的双AI互动路径之间的多尺度演员对比损失(MAC-Loss)。通过在帧和视频级别上进行自监督的演员一致性,MAC-Loss可以有效区分个体演员的表示,减少不同演员之间的动作混淆。因此,我们的双AI可以通过融合不同演员的这些有区别的特征来提升群体活动识别。为了评估所提出的方法,我们在广泛使用的基准数据集上进行了大量实验,包括Volleyball [ 21 ],Collective Activity [ 11]和NBA数据集 [ 49]。所提出的双AI在所有这些数据集上都取得了最先进的性能。值得注意的是,所提出的双AI在50%的训练数据上的表现优于一些最近的方法在100%的训练数据上的表现。这证实了双AI在群体活动识别中的泛化能力,即使在有限监督的挑战性场景下也是如此。01. 引言0� 相等贡献。 † 通讯作者。0r-set r-spike r-pass r-winpoint l-set l-spike l-pass l-winpoint0时间0时间0空间关系 时间关系 空间关系0图1.每个类别的准确率和左尖峰和右集合组活动示例。红色虚线和紫色虚线分别显示了空间和时间上的演员交互。通过在不同顺序中应用空间和时间建模,ST路径和TS路径学习了不同的时空模式,因此在不同的类别上具有不同的技能,这得到了准确率图的支持。919234959600.250.50.7511.2529910例如,图1(a)指的是排球比赛中的l-spike活动,其中击球的球员(actor 1)和防守的球员(actor4)快速移动以击球和封堵球,而其他陪伴的球员(例如,actor 2和actor3)则几乎不动。因此,对于这种群体活动,最好先了解每个参与者的时间动态,然后推理场景中参与者之间的空间相互作用。相反,图1(b)指的是排球比赛中的r-set活动,其中右侧团队的大多数球员合作移动以应对落在不同位置的球,例如,actor 1跳起来并设置球,而actor2一起跳起来进行假扣球动作。因此,对于这种群体活动,最好先推理空间参与者之间的相互作用,以了解动作场景,然后再建模每个参与者的时间演变。实际上,如图1的准确性图所示,对于不同的活动类别,空间和时间的交互顺序是不同的。基于这些观察,我们提出了一种独特的双路径参与者交互(Dual-AI)框架用于GAR,它可以有效地整合两种互补的时空视图,以学习视频中复杂的参与者关系。具体而言,Dual-AI包括空间-时间(ST)和时间-空间(TS)交互路径,辅以空间和时间变换器。ST路径首先采用空间变换器捕捉每帧中参与者之间的空间关系,然后利用时间变换器模拟每个参与者在帧间的时间演变。而TS路径则以相反的顺序安排空间和时间变换器,描述参与者交互的互补模式。在这种情况下,我们的Dual-AI可以全面利用两条路径生成强大的时空上下文,以提升GAR的性能。此外,我们引入了一种新颖的多尺度参与者对比损失(MAC-Loss),它是一种简洁而有效的自监督信号,用于增强两条路径之间的参与者一致性。通过在所有的帧-帧、帧-视频、视频-视频级别上进行这种参与者监督,我们可以进一步减少任意两个个体参与者之间的动作混淆,以提高GAR中参与者表示的区分能力。最后,我们在广泛使用的基准数据集上进行了大量实验来评估我们的设计。我们的Dual-AI在所有完全注释的数据集上都取得了最先进的性能,如排球、集体活动等。更有趣的是,我们的Dual-AI在50%的训练数据上与一些最近的100%训练数据的方法在排球数据集上相竞争,如图2所示,这清楚地证明了我们的Dual-AI的泛化能力。受此启发,我们进一步研究了有限参与者监督的挑战性设置[49],在这种情况下,Dual-AI在Weak-Volleyball-M和NBA数据集上也取得了SOTA的结果。所有这些结果表明,我们的Dual-AI对于学习GAR中的时空参与者关系是有效的。0识别准确率(%)0数据使用0数据-准确性比较图0Gformer-94.9ICCV20210Gformer-94.1ICCV20210Aformer-93.0CVPR20200DIN-93.1ICCV20210ARG-92.5CVPR20190Aformer-91.4CVPR20200ERN-94.1ECCV20200- 50%的数据0- 75%的数据0图2.在排球数据集上,不同百分比的数据准确性比较。我们的方法达到了SOTA性能,并且在50%的数据上达到了94.2%,与一些最近的方法[16, 30,46]在100%数据上训练的结果相竞争。实心点表示使用了额外的光流输入的结果。02. 相关工作0群组活动识别近年来因其广泛应用而受到广泛关注。早期的方法基于手工特征,通常使用概率图模型[1-3, 22, 23,45]和AND-OR语法方法[4, 33]。最近,结合卷积神经网络[7, 21]和循环神经网络[7, 12, 20, 21, 27, 31, 34, 41,47]的方法取得了显著的性能,这是由于学习了时间上下文和高层次信息。最近的群组活动识别方法[14, 16, 19, 26, 30,46, 49, 51]通常需要明确表示时空关系,专门应用基于注意力的方法来模拟个体关系以推断群组活动。[46,51]构建了演员的关系图,并探索了图卷积网络在同一时间内的空间和时间演员交互。这些方法以联合方式模拟了演员的时空交互。与之不同的是,[49]随后构建了单独的空间和时间关系图来模拟演员关系。[16]使用I3D[10]编码时间信息,并使用普通的Transformer构建演员的空间关系。[26]引入了一种聚类注意机制,以更好地使用Transformer提取群组信息特征。与以往的方法不同,我们提出在互补的时空和时间空间视图中学习演员的交互,并通过设计的自监督损失进一步促进演员交互学习,以实现有效的表示学习。VisionTransformer逐渐在计算机视觉任务中变得流行。在图像领域,ViT[13]首次引入了纯Transformer架构用于图像识别。随后的工作[25, 28, 43,52]在使Transformer架构成为各种下游计算机视觉任务的通用骨干方面取得了显著进展。在视频领域,许多工作[5, 8,15, 17, 24,29]探索了空间和时间自注意力机制,以学习高效的视频表示。TimeS-former[8]研究了不同的空间和时间注意机制,以高效地学习时空表示。MViT[15]利用多尺度特征聚合来增强时空表示。Motionformer[29]提出了一种以轨迹为焦点的自注意力块,从本质上跟踪视频Transformer的时空补丁。上述Transformer架构是为了一般的视频分类任务而设计的。使用Transformer构建双时空路径,灵活地学习群组活动识别中的演员交互。0ROI对齐………………………………………………………………………………Actor 1Actor 2Actor N29920ROI对齐0CNN0ROI对齐0CNNCNN0T-Trans0演员特征0T-Trans S-Trans0群组0个体分类器0分类器0分类器0群组0交叉熵损失0时空(ST)路径0帧20帧10帧10帧K0帧1帧2帧K0图3.我们的双路径演员交互(Dual-AI)学习框架,其中S-Trans和T-Trans分别表示空间变换器和时间变换器。它在两个互补的时空视图中有效地探索演员的演变,即ST路径和TS路径,详见第3.2节。此外,设计了多尺度演员对比损失,以实现两个路径的交互和合作,详见第3.3节。0引入了一种纯Transformer架构,无需卷积进行图像识别。随后的工作[25, 28, 43,52]在各种视频计算机视觉任务上使Transformer架构成为通用骨干的进展显著。在视频领域,许多工作[5, 8, 15, 17,24,29]探索了空间和时间自注意力机制,以学习高效的视频表示。TimeS-former[8]研究了不同的空间和时间注意机制,以高效地学习时空表示。MViT[15]利用多尺度特征聚合来增强时空表示。Motionformer[29]提出了一种以轨迹为焦点的自注意力块,从本质上跟踪视频Transformer的时空补丁。上述Transformer架构是为了一般的视频分类任务而设计的。尚未充分探索使用Transformer来解决具有挑战性的群组活动识别问题。我们提出使用Transformer构建双时空路径,灵活地学习群组活动识别中的演员交互。03. 方法0为了学习群体活动中复杂的演员关系,我们提出了一种独特的双路径演员交互(Dual-AI)框架用于GAR。在本节中,我们详细介绍了我们的Dual-AI。首先,我们描述了Dual-AI框架的概述。然后,我们解释了如何构建交互路径,借助空间和时间变换器的帮助。接下来,我们引入了一种多尺度演员对比损失(MAC-Loss),进一步提高路径之间的演员一致性。最后,我们描述了训练目标,以优化我们的Dual-AI框架。03.1. 框架概述0如图3所示,我们的Dual-AI框架包括三个重要步骤。首先,我们需要从骨干网络中提取演员特征。具体而言,我们从输入视频中采样K帧。为了与先前的GAR工作[7, 26, 46, 50,51]进行公平比较,我们选择ImageNet预训练的Inception-v3[35]作为骨干网络,提取每个采样帧的特征。然后,我们在帧特征上应用RoIAlign[18],可以从N个演员的边界框中生成该帧中的演员特征。之后,我们采用全连接层将每个演员特征进一步编码为C维向量。为方便起见,我们将所有演员向量表示为X∈RK×N×C。更多细节可以在第4.2节中找到。0在提取演员特征向量之后,我们接下来学习视频中这些演员之间的时空交互。与先前的方法[16, 46, 48, 49,51]不同,我们将时空建模分解为连续的空间和时间交互,并以不同的顺序进行排列。具体而言,我们设计了空间和时间变换器作为基本的演员关系模块。通过灵活地安排这些变换器的两个相反顺序,我们可以增强演员关系,实现空间-时间(ST)和时间-空间(TS)交互路径的互补整合。最后,我们设计了训练损失来优化我们的双路径演员交互框架。特别地,我们引入了一种新颖的多尺度演员对比损失(MAC-Loss),用于两个路径之间的演员一致性,可以通过帧-帧、帧-视频、视频-视频级别的演员一致性有效提高个体演员表示的区分能力。XST = T−Trans(X + MLP(S−Trans(X)))(4)XTS = S−Trans(X + MLP(T−Trans(X))),(5)29930随后,我们集成两个路径的演员表示以识别个体动作和群体活动。03.2. 双路径演员交互0为了捕捉多样化的群体活动的复杂关系,我们提出了一种新颖的双路径结构来描述演员之间的交互。首先,我们构建基本的空间和时间演员关系单元,借助变换器的帮助。然后,我们解释了如何构建用于时空演员交互的双路径。03.2.1 空间/时间演员关系单元0为了理解视频中的时空演员演变,我们首先构建基本单元来描述空间和时间演员关系。由于对演员关系没有先验知识,我们提出使用变换器通过强大的自注意机制来建模这种关系。空间演员变换器。为了模拟单帧中演员之间的空间关系,我们设计了一个简洁的空间演员变换器(S-Trans)。具体而言,我们将Xk∈RN×C表示为第k帧中N个演员的特征向量。这些演员之间的空间关系由ˆXk =S-Trans(Xk)建模,其中包括三个模块,如下所示,0X' = SPE(Xk) + Xk, (1)0X'' = LN(X' + MHSA(X')),(2) ˆXk = LN(X''+ FFN(X''))。 (3)0首先,我们使用空间位置编码(SPE)来添加场景中演员的空间结构信息,如公式(1)所示。我们用边界框的中心点表示每个演员的空间位置,并使用PE函数在[9,16]中对空间位置进行编码。其次,我们使用多头自注意力(MHSA)[39]模块来推理场景中演员的空间交互,如公式(2)所示。最后,我们使用前馈网络(FFN)[39]进一步提高空间演员关系单元的学习能力,如公式(3)所示。时间演员变换器。为了对单个演员在帧之间的时间演变进行建模,我们设计了一个时间演员变换器(T-Trans),遵循公式(1)到(3)的方式。不同的是,我们将输入作为第n个演员在K帧中的特征向量,即Xn∈RK×C。在这种情况下,MHSA模块可以推理演员n在不同时间步的演变。此外,为了添加演员n的时间序列信息,我们使用时间位置编码(TPE)代替SPE,它使用PE函数对帧索引{1, ...,K}进行编码[39]。最后,我们可以通过时间相互作用来增强演员特征,即ˆXn = T-Trans(Xn)。03.2.2 演员交互的双重时空路径0一旦建立了演员的空间和时间关系,我们可以进一步整合它们以构建演员演化的时空表示。正如在第1节中讨论的那样,单一的空间和时间顺序不足以理解复杂的演员相互作用,导致无法推断群体活动。因此,我们提出了一个双重时空路径框架用于GAR,以捕捉演员的复杂交互。它由两种互补的时空建模模式组成,即空间-时间(ST)和时间-空间(TS),通过改变空间和时间的顺序来切换:0其中,我们采用残差结构来增强演员的表示。MLP的参数形状为C×C,用于添加非线性。通过将帧和演员的维度重新调整为批处理维度,S−Trans和T−Trans分别推理空间和时间演员的交互。通过以不同顺序堆叠空间和时间变换器,演员的表示根据不同的时空上下文进行重新加权和聚合。ST路径首先推理每帧场景中不同演员的交互。然后,对建立的演员交互进行时间演化建模以进行重新加权。因此,ST路径擅长识别具有不同空间排列的活动,例如排球比赛中的“接球”。这种活动要求球员移动到新位置并接球,通常伴随其他球员移动或跳跃进行假扣球。相反,TS路径首先考虑演员的时间动态,然后推理空间演员交互以理解场景。因此,它擅长识别具有不同演员演化模式的活动,例如排球比赛中的“扣球”,这要求击球手跳起并迅速击球。随后,为了充分利用这种互补特性,我们将来自ST和TS路径的演员表示馈送到生成个体动作和群体活动预测,并将它们融合为双重时空路径的最终预测。03.3. 多尺度演员对比学习0演员的表示通过双重时空路径进行重新加权和聚合,然而建模过程是独立的。为了促进这两个互补路径的合作,我们设计了一个自监督的多尺度……………………………………………………………………Temporal Pooling………………………………AttractRepelActor 1Actor 2Actor N……Temporal PoolingFigure 4. Illustration of MAC-loss for Actor N. It consists of threelevels, i.e., frame-frame, frame-video and video-video. The blueblock means the source of negative pairs. For simplicity, we onlyshow the constraints from ST path to TS path. It is similar for theconstraints from TS path to ST path.Actor Contrastive loss (MAC-loss). As dual spatiotempo-ral paths model evolution of each actor in different patterns,we define a pretext task of actor consistency. Specifically,we design such constraints in multiple scales of frame andvideo levels.Frame-Frame Actor Contrastive Loss. The frame rep-resentation of the actor in one path should be similar with itscorresponding frame representation in the other path, whiledifferent from other frame representation of this actor in thepath. As shown in Fig. 4 (a), taking actor n in ST path asan example, we attract frame representation in k-th frame(Xn,kST ) to its corresponding representation from TS path(Xn,kTS ). Meanwhile, we repel the representation of actorn in other frames from TS path (Xn,tTS, where t̸=k),Lff(Xn,kST , Xn,kTS ) = − logh(Xn,kST , Xn,kTS )�Kt=1 h(Xn,kST , Xn,tTS),(6)where h(u, v) = exp(u⊤v||u||2||v||2 ) is the exponential of co-sine similarity measure. Vice versa, the loss for actor n inTS path can be obtained by Lff(Xn,kTS , Xn,kST ).Frame-Video Actor Contrastive Loss. The frame rep-resentation of the actor in one path should be consistent withits video representation in the other path, while differentfrom video representation of other actors in the path. Asshown in Fig. 4 (b), taking actor n in ST path as an example,we attract its frame representation Xn,kST to its video repre-sentation ˜XnTS from TS path, which is obtained by pool-ing frame representation Xn,1:KTS. Meanwhile, we repel thevideo representation of other actors in the minibatch fromTS path (˜XiTS, where i̸=n),Lfv(Xn,kST ,˜XnTS) = − logh(Xn,kST , ˜XnTS)�B×Ni=1h(Xn,kST , ˜XiTS),(7)where B denotes the minibatch size. Vice versa, the loss foractor n in TS path can be obtained by Lfv(Xn,kTS , ˜XnST).Video-Video Actor Contrastive Loss. Furthermore, weconstrain the consistency of video representation of eachactor across dual paths, as shown in Fig. 4 (c). We achievethis by minimizing cosine similarity measure Lvv of corre-sponding video representation (˜XnTS, ˜XnST). Our proposedMAC-loss is then formed asLMAC = λffLff + λfvLfv + λvvLvv,(8)where λ{·} denote weights for the different components.3.4. Training objectivesOur network can be trained in an end-to-end manner tosimultaneously predict individual actions of each actor andgroup activity. Combining with standard cross-entropy loss,the final loss for recognition is formed asLcls=LCE( ˆyGts+ˆyGst + ˆyGscene3, yG)+λLCE( ˆyIts+ˆyIst2, yI), (9)where ˆyI{ts,st} and ˆyG{ts,st} denote individual action andgroup activity predictions from TS and ST paths. yI andyG represent the ground truth labels for the target individ-ual actions and group activity. ˆyGscene denotes the scene pre-diction produced by separate group activity classifier, usingfeatures directly from backbone. λ is the hyper-parameterto balance the two items. Finally, we combine all the lossesto train our Dual-AI framework,L = Lcls + LMAC.(10)29940帧 10帧 20帧 K0帧 10帧 20帧 K0帧 10帧 20帧 K0帧 10帧 20帧 K0时0池化0ST-路径TS-路径0(a) 帧-帧演员0对比损失0(b) 帧-视频演员0对比损失0(c) 视频-视频演员0对比损失0吸引0排斥0演员 0演员 0演员 N0时0池化0吸引0排斥0演员 10演员 20演员 N0帧 10帧 20帧 K0帧 10帧 20帧 K0在推断过程中,我们通过对双重时空路径的预测结果进行平均来推断个体动作和群体活动。04. 实验04.1. 数据集0Volleyball数据集。该数据集 [ 21 ]包含来自55场排球比赛的4,830个标记剪辑(3493个用于训练,1337个用于测试)。每个剪辑都用8个群体活动类别之一进行注释。每个剪辑的中间帧都用9个个体动作标签及其边界框进行注释。Collective Activity数据集。该数据集 [11 ]包含44个短视频,每个视频的每十帧都进行了个体动作标签及其边界框的注释。剪辑的群体活动类别由最多个体动作类别的数量决定。HDTM [21]AlexNet100%-81.9CERN [32]VGG16100%-83.3StageNet [31]VGG16100%-89.3HRN [20]VGG19100%-89.5SSU [7]Inception-v3100%81.890.6AFormer [16]I3D100%-91.4ARG [46]Inception-v3100%83.092.5TCE+STBiP [50]Inception-v3100%-93.3DIN [51]ResNet-18100%-93.1GFormer [26]Inception-v3100%83.794.1SBGAR [27]Inception-v3100%✓-66.9CRM [6]I3D100%✓-93.0Aformer [16]I3D100%✓83.793.0JLSG [14]I3D100%✓83.393.1ERN [30]R50-FPN+I3D 100%✓81.994.1GFormer [26]I3D100%84.094.9HDTM [21]AlexNet89.7PCTDM [47]AlexNet92.2CERN-2 [32]VGG-1688.3Recurrent [42]VGG-1689.4stagNet [31]VGG-1689.1SPA+KD [36]VGG-1692.5PRL [19]VGG-1693.8CRM [6]I3D94.2ARG [46]ResNet-1892.3HiGCIN [48]ResNet-1893.0DIN [51]ResNet-1895.3TCE+STBiP [50]Inception-v395.1TSN* [40]Incep-v1RGB– / 37.8–I3D* [10]I3DRGB– / 32.7–Nlocal* [44] I3D-NLNRGB– / 32.3–ARG* [46]Incep-v3RGB– / –90.7SAM [49]Res-18RGB– / –93.1SAM [49]Incep-v3RGB49.1 / 47.594.0PCTDM [47]53.667.481.588.590.3AFormer [16]54.867.784.288.090.0HiGCIN [48]35.555.571.279.791.4ERN [30]41.252.573.175.490.7ARG [46]69.480.287.990.192.3DIN [51]58.371.784.189.993.129950方法 Backbone 数据比例 光流 个体动作 群体活动0我们的 Inception-v3 25% 82.1 89.7 Inception-v3 50% 83.0 92.7Inception-v3 100% 84.4 94.40我们的 Inception-v3 25% � 83.0 91.6 Inception-v3 50% � 84.0 94.2Inception-v3 100% � 85.3 95.40表1. 在Volleyball数据集上与最先进方法的准确率%进行比较。0方法 Backbone MPCA0我们的 ResNet-18 96.0 Inception-v3 96.50表2. 在Collective Activity数据集上与之前最先进方法的比较。0个体动作类别。我们按照[ 47 , 48 , 51]的方法将越过和行走合并为移动。0Weak-Volleyball-M 数据集。该数据集 [ 49 ]是从排球数据集中改编而来,将传球和设置类别合并为总共6个群体活动类别,并且舍弃了所有个体注释(包括个体动作标签和边界框),用于弱监督GAR。0NBA数据集。该数据集 [ 49 ]包含来自181场NBA比赛视频的9,172个注释剪辑(7624个用于训练和测试)。每个剪辑都属于9个群体活动类别之一。未提供个体注释,如个体动作标签和边界框。0方法 Backbone 模态 NBA 准确率/平均准确率 弱监督 Vlb. -M准确率0我们的 Incep-v3 RGB 51.5 / 44.8 95.8 Incep-v3 Flow56.8 / 49.1 96.1 Incep-v3 Fusion 58.1 / 50.2 96.50表3.在NBA和Weak-Volleyball-M数据集上与最先进方法的比较,采用[ 49 ]中采用的指标。*表示结果来自[ 49 ]。0方法 5% 10% 25% 50% 100%0我们的方法 76.2 85.5 89.7 92.7 94.40表4.使用不同数据比例的排球数据集训练的最先进方法在群体活动识别Acc.%方面的比较。04.2. 实现细节0我们选择Inception-v3模型作为CNN骨干,遵循GAR中广泛使用的设置[7, 26, 46, 50,51]。我们还使用ResNet-18模型作为CollectiveActivity数据集的骨干,遵循广泛使用的设置[48,51]。我们应用ROI-Align进行裁剪,裁剪尺寸为5×5,并使用线性嵌入获取维度为C =1024的演员特征。每个空间或时间变换器都有一个具有256嵌入维度的注意力层。MAC-Loss中的λff,λfv,λvv都设置为1。有关K和N的更多详细信息,请参见补充材料。04.3. SOTA对比0完整设置。这个设置允许我们使用完全注释了群体活动和个体注释的所有数据来训练我们的模型。我们在排球和CollectiveActivity数据集上将我们的方法与最先进的方法进行比较。如表1所示,我们的方法(94.4%)仅使用RGB帧和Inception骨干就已经超过了其他具有计算复杂度高的骨干(I3D,FPN)和额外光流输入的SOTA方法。此外,配备了RGB和光流的后期融合,我们的方法可以将SOTA结果大幅提高到95.4%。值得注意的是,即使只有50%的数据,我们的方法仍然超过了绝大多数具有100%数据的SOTA方法,例如Ours (50%) vs.Dual Spatial Temporal Paths. To validate the effec-tiveness of our Dual Spatiotemporal Paths, we investigatesix settings. Particularly, we experiment with 50% data forlimited Volleyball. In addition to T-S and S-T introducedin Section Sec. 3.2, other two paths, i.e., S-S and T-T areintroduced to validate in a broader range. S-S/T-T means0%29960双路径 弱排球-M 有限排球 完整排球0S-S 88.9 88.4 91.2 T-T 91.6 87.9 90.9 S-T 93.0 89.392.2 T-S 92.6 89.5 92.1 ST-TS融合 94.2 90.8 93.30表5. 我们的双路径演员交互的有效性。0MAC-loss的组件 数据比例0F-F F-V V-V 50% 100 %090.8 93.3 � 91.2 93.5 � 91.0 93.3 � 91.6 93.6 � � �92.1 94.00表6.我们的MAC-loss的有效性。在排球数据集上,通过Acc.%来消融不同组件。0SARF (100%): 94.2 vs. 93.1.如表2所示,我们的方法在CollectiveActivity数据集上也实现了最先进的性能。这些结果证明了我们方法的有效性。弱监督设置。在这个设置下,我们使用所有原始数据和群体活动注释,没有任何个体注释。我们按照[49]的方法报告Weak-Volleyball-M数据集和NBA数据集的结果。如表3所示,我们的方法在Acc.%方面大幅超过了所有现有方法,建立了新的最先进结果。具体而言,我们的方法在Weak-Volleyball-M上比之前的SOTA[49]提高了2.5%,在NBA数据集上提高了9%。这表明我们的双AI框架可以增强模型的学习能力,获得稳健的表示并取得有希望的性能,即使个体注释缺失。有限数据设置。在这个设置下,我们使用不同比例的随机采样数据来训练我们的方法,以展示我们方法的泛化能力。为了比较这个设置下的结果,我们实现了一些之前的SOTA方法,这些方法具有官方发布的可用代码。如表4所示,我们的方法在所有数据比例上都超过了之前的SOTA方法。此外,随着可用训练数据的减少,我们方法的性能仍然有保证,并且对其他方法的优势增大,这证明了我们方法的鲁棒性。04.4. 消融研究0场景融合数据比例0无 92.1 94.0 早期 92.0 93.9 中期92.2 94.0 晚期 92.7 94.40表7.场景信息的有效性。0特征经过两个连续的空时Transformer。如表5所示,我们的双重路径在不同设置下取得了最好的结果。原因是,双重路径TS和ST擅长推断不同的组活动,并且ST和TS学习到的表示可以互补,从而提高性能。这表明,我们的双重路径ST-TS是一种更全面地利用两个路径生成稳健的时空上下文来提升组活动识别的可取方式。多尺度演员对比损失。我们探索了网络在不同MAC损失组件下的性能。如表6所示,我们的网络在不同一致性损失(帧-帧、帧-视频、视频-视
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Fisher Iris Setosa数据的主成分分析及可视化- Matlab实现
- 深入理解JavaScript类与面向对象编程
- Argspect-0.0.1版本Python包发布与使用说明
- OpenNetAdmin v09.07.15 PHP项目源码下载
- 掌握Node.js: 构建高性能Web服务器与应用程序
- Matlab矢量绘图工具:polarG函数使用详解
- 实现Vue.js中PDF文件的签名显示功能
- 开源项目PSPSolver:资源约束调度问题求解器库
- 探索vwru系统:大众的虚拟现实招聘平台
- 深入理解cJSON:案例与源文件解析
- 多边形扩展算法在MATLAB中的应用与实现
- 用React类组件创建迷你待办事项列表指南
- Python库setuptools-58.5.3助力高效开发
- fmfiles工具:在MATLAB中查找丢失文件并列出错误
- 老枪二级域名系统PHP源码简易版发布
- 探索DOSGUI开源库:C/C++图形界面开发新篇章
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功