没有合适的资源?快使用搜索试试~ 我知道了~
基于聚类时空Transformer的群体活动识别
13668组成形器:基于聚类时空Transformer的群体活动识别李帅成1 *,曹强刚1 *,刘凌波2,杨昆林1†,刘世南1,侯军1,帅毅11商汤研究,2香港理工大学{李帅成,曹强刚,杨坤林,刘世南,侯军,一帅}@ sensetime.comliulingbo918@gmail.com摘要群体活动识别是一个关键而又具有挑战性的问题,其核心在于充分挖掘个体间的时空互动,生成合理的群体表征。然而,先前的方法或者单独地对空间和时间信息建模,或者直接地聚合个体特征以形成组特征。为了解决这些问题,我们提出了一种新的组活性识别网络称为GroupFormer。它捕捉时空上下文信息联 合 增 强 个 人 和 群 体 表 示 有 效 地 与 聚 类 时 空Transformer。具体来说,我们的GroupFormer有三个吸引人的优点:(1)一个定制修改的Transformer,聚类时空Transformer,提出了增强的个人表示和组表示。(2)对时空依赖性进行了整体建模,并利用解码器在时空信息之间搭建了桥梁。(3)一个集群的注意力机制,利用动态划分成多个集群的个人更好地学习活动感知的语义表示。在排球数据集和集体活动数据集上的实验结果表明,该框架的性能优于现有的方法代码可在https://github.com/xueyee/GroupFormer 上获得1. 介绍群体行为识别在监控系统、视频分析、社会行为分析等领域有着广泛的应用,是一个重要的研究课题。与传统的动作识别不同,群体活动识别集中在对多个个体的场景理解上。识别群体活动的直观策略是对个体之间的相关关系进行建模,并推断出他们的行为。*表示同等贡献。†表示通讯作者。加标图1.以注释帧为中心的剪辑示例。具有“扣球”、“阻挡”、“挖掘”动作的参与者在集体活动。然而,利用个体关系来推断集体活动是非常具有挑战性的,特别是由于在未修剪的场景中空间和时间过渡的复杂变化。已经做出了各种努力来捕获视频中的关系上下文,以便进行群组活动。早期的方法[6,25,31,37,34,15]利用回流神经网络(RNN)来对个体的动态进行建模,这需要大量的计算成本。最近的作品[20,47,18,33,23]应用基于注意力的方法来建模用于推断群体活动的个体关系。[47]建立了关系图,并考虑了几个框架中的演员交互。[33]分别捕获了空间和时间的自我注意力,它们被添加并用于加强平均场CRF[50]。[20]介绍了标准的Transformer编码器作为特征提取器,以选择性地利用空间作用者关系,而不考虑时间动态信息。[23]提出了一种关系学习网络来建模和提取两个代理的组相关动作和然而,在这方面, 上述方法面临两个问题阻挡挖左侧加标13669有待解决的挑战:1)建立一个桥梁,以建模的时空上下文信息的整体和2)分组的个体的基础上,他们的相互联系的关系,以更好地推断全球活动上下文。在前一种情况下,很少有以前的方法完全考虑联合模型中的空间和时间依赖性,而不同的时间序列信息具有很强的空间依赖性,如图1所示。因此,联合捕获空间-时间依赖性对于解释群体活动至关重要。在后一种情况下,由现有方法[47,20]引入的全连接关系是次优的,因为引入了不相关个体的干扰信息。直观地说,在多人场景中,并非所有个体的关系都对群体活动的推断产生关键影响。如图1所示,在排球场景中,具有“扣球”和“阻挡”的演员之间的相互作用比具有“扣球”和“站立”的演员之间的关系高得多,这对群体活动推断贡献更大。换句话说,群体活动通常是由具有潜在亲密关系的关键群体个体决定在本文中,我们提出了一个端到端的可训练框架,称为GroupFormer,它利用一个定制修改的Transformer来建模个人和群体表示,以进行群体活动识别。首先,我们开发了一个组表示生成器,通过合并个体上下文和场景上下文来生成初始组表示然后部署多个堆叠的时空变换器(STT)以增强和细化个体和组表示。具体地说,我们采用编码器嵌入时空特征,交叉应用解码器,搭建时空上下文信息一体化建模的桥梁解码器用于将个体表示上下文化以增强组表示。此外,在现有的全注意力的方式相比,在Trans-former,我们的STT进一步增强了集群的注意力机制,被称为集群时空Transformer(CSTT),建模组间关系和组内关系。更具体地说,我们动态地将所有个体划分为C集群,其中同一集群中的个体通常具有相关的语义信息。通过在每个簇内执行信息传播,我们可以生成个体的紧凑动作特征我们的组间注意力是充分建模集群之间的关系,以促进群体活动感知的表示学习。最后,实验结果表明,所提出的网络优于国家的最先进的方法上广泛采用的排球和集体活动数据集。简而言之,这项工作的贡献可以概括为三个方面:• 我们提出了一个新的群体活动识别框架,称为GroupFormer,它利用查询-键机制,以联合建模用于群体活动推断的时空上下文。• 通过引入集群注意机制,将个体划分为群体,建立群体间和群体内的关系,以丰富全局活动环境。• 我们广泛采用排球和集体数据集进行了广泛的实验。结果表明,我们的GroupFormer优于国家的最先进的方法的显着保证金。2. 相关作品2.1. 团体活动识别群体活动识别由于其广泛的应用而受到广泛的关注.传统方法通常提取手工制作的特征,然后通过概率图形模型[2,3,1,30,29,45]和AND-OR语法方法[4,38]进行处理。随着深度学习的快速发展,基于RNN的方法由于时间上下文和高级信息的学习而取得了显着的性能[6,15,24,25,31,39,37]。[25]提出了一个LSTM模型来捕获每个个体的时间演化,然后通过汇集演员离开特征来生成整体表示。[37]部署了两级LSTM层次结构,通过最小化预测的能量来更可靠地在[24]中,引入关系层以捕获每个人的空间关系[34]设计了一个语义图,并通过RNN将其扩展到时间维度,以整合空间和时间关系。在最近的工作中,[47]引入了图模型,并使用GCN构建了一个演员关系图来增强个体的表示,而构建的关系图仅限于少数框架,并且没有考虑潜在的时间个体关系。[18]采用自注意机制和图形注意模块对空间个体依赖关系进行建模,并利用I3D主干捕获时间上下文。它仅使用基于3D-CNN的主干捕获时间信息,并且[33]以叠加的方式利用时间和空间关系来加强平均场CRF,以学习行为体的空间关系 最相关的工作是[20],它还引入了Transformer来捕获语义表示。然而,该方法仅利用Vanilla Transformer编码器作为空间依赖建模的特征提取器,并更多地关注使用多个分支主干构建强活动表示,而没有综合考虑空间和时间依赖。为了更好地利用时空依赖性整体,我们提出CSTT不仅利用13670Xn我CSTTCSTTCSTTX&$个体分类组分类分簇时空Transformer...空间编码器空间解码器Xk()不我集群XK我不不时间编码器时间解码器不i-+Xk()$X$K组解码器X编我位置X编$X*骨干X不XRoIAlignGRG×+图2.我们建议的GroupFomer的插图它包含三个主要组件:1)CNN主干,提取视频剪辑的特征2)组表示生成器,其从个体和场景特征初始化组表示。3)一个聚类的时空Transformer,它对时空关系进行建模,并细化组表示和个体表示。编码器增强语义表示,而且还使用解码器在空间和时间关系之间建立桥梁。2.2. TransformerTransformer在[43]中首次提出用于序列到序列机器翻译任务,并且从那时起已被广泛采用于各种自然语言处理任务中。所采用的自注意机制特别适合于捕获长期依赖关系。基于Transformer,设计了一系列修改[16,13,36]来解决标准transformer中的限制,例如计算瓶颈。Transformer in Vision.注意机制在计算机视觉领域有着广泛的应用。由于Transformer对图像的朴素应用的二次成本,每个像素使用查询键机制来关注所有像素。因此,早期的方法[44,7]仅利用自我注意力来捕获长程上下文。[44]设计了一个非局部注意力模块来捕获计算机视觉任务中的长期依赖性。[7]采用2D自注意机制来选择性地替换2D卷积,并获得比原始2D卷积层 更 好 的 结 果 。最 近 , Vision Transformer ( ViT )[17],di-把一个图像分成16个小块,把这些小块作为输入并将它们馈送到标准Transformer中。这种简单性导致了极高的计算代价。DETR [10]在很大程度上简化了基于Transformers的检测管道,并且与之前基于CNN的检测器相比,实现了更强的性能与ViT不同 [17],DETR采用基于CNN的主干来提取低-级别特征和基于编码器-解码器的Transformer,用于利用高级概念。时空Transformer虽然还没有明确地说明,使用注意机制来建模时空上下文是安静的一般性,因此encom-passes许多以前的工作。[48]设计了一种图形神经网络的变体来建模时变空间依赖性。由[21]提出的基于注意力的时空GCN从图的消息传递中捕获动态相关性以学习空间和时间特征。[12]提出采用基于变换的编码器来分别构建空间和时间注意力,并将时间注意力直接索引到相应的空间[8]简单地将ViT [17]设计扩展到视频,提出了几个时空自注意力的可扩展方案先前的方法要么以堆叠方式捕获空间和时间上下文[8,48],要么利用并行模块来提取空间和时间特征,然后简单地融合它们[12]。与之不同的是,我们将时空上下文并行嵌入,并采用解码器互补地利用时空上下文信息。3. GroupFormer所提出的GroupFormer是量身定制的群体活动识别涉及多个人。GroupFormer的概述如图2所示。我们首先使用第节中的CNN主干处理输入图像3.1节中的组表示,然后初始化3.2. 接下来,在3.3节中,我们将详细介绍我们的时空Transformer和集群注意力机制13671∈∈∈∈∈∈我G×3.1. 特征提取器我们采用Kinetics [26]预训练的膨胀3D网络(I3D)[11]作为主干,并将RGB视频片段作为输入。首先,我们以注释帧为中心分割出一个T帧,表示为XimgRT×3×H×W(具有3个颜色通道)。在实践中,我们提取特征从最后一个卷积层映射并调整大小为Xg∈用于诸如语言翻译的序列到序列任务。它包含编码器和解码器,两者都应用堆叠的多头注意层和前馈网络。多头注意力通过比较一个和所有其他人之间的成对相似性来计算权重,这在捕获长期依赖性方面表现出显着的性能。简而言之,一个L向量序列-RT×Cg×H′×W ’,可视为场景特征维数为d的tors,表示为fRl×d,首先使用线性投影映射到查询、键和值整个视频剪辑。我们还从中间混合4f层生成更高分辨率的特征图Xd,并且将[43,17]中提到的可学习位置编码添加到特征图Xd。RoIAlign [22]被应用于在每个视频帧中给定N个边界框的情况下提取每个个体的特征。此外,每个演员的姿势信息由AlphaPose [19]获得,并与上述个体特征连接以提供最终的个体特征。最后采用全连接层将对齐的个体特征嵌入到每个演员的D维特征向量中,该D维特征向量可以打包成一起命名的个体表示XIRXNXD。此外,我们还在Inception-v3[41]主干上进行了实验,随后实施[47],以与以前的方法进行公平比较3.2. 组表示生成器群表示生成器(GRG)是一个预处理组件,用于初始化模型中的群表示受[44,49,46]的启发,视频帧可以通过一组称为视觉令牌的特征向量来总结因此,我们将场景特征和个体特征分别转换为若干个令牌,然后将它们聚合以生成组表示。对于场景特征Xg,我们将时间维度视为批次维度,并应用2D卷积将Cg通道总结为K。 我们将其重塑为一个扁平的特征X′gRT×K×(H′·W′),并执行softmax操作以生成空间-初始注意矩阵ART×K×(H′·W′)。在战争之后,我们采用2D卷积将场景特征嵌入到D个通道中,并计算每个像素与A的加权和,以生成K个视觉场景令牌,然后进行Avgpool操作,以实现形状为分别注意力矩阵是从查询和关键字的缩放点积中获得的。输出特征被计算为基于注意力权重的值的加权和。此外,前馈网络(FFN),由线性变换和非线性激活函数,被用来嵌入的功能。原始架构的更详细描述可以参考文献[43,32]。3.3.2 时空Transformer我们的时空Transformer(STT)专为群体活动识别精心设计,以增强个人代表性和群体代表性。它包括两个编码器(一个空间编码器和时间编码器)并行分别产生空间和时间特征。以交叉方式引入各个解码器最后,一个组解码器被应用于增强组表示。我们现在详细解释所提出的模型。编码器:尽管针对每个个体进行了本地化,但表示仍然缺乏对语义空间和时间上下文的强调,这在视频分析中起着重要作用。因此,部署两个并行编码器来嵌入上下文特征。在一个分支中,我们采用基于变换的空间编码器来学习个体上下文信息。给定输入个体表示X IRT×N ×D,我们将时间维度视为批次维度,并应用编码器来利用所有帧的空间上下文针对t帧嵌入空间上下文的过程可以被公式化为:T×D(我们将K设为8)。对于对齐的单个特征X0,(吨)(吨)(吨)(吨)(吨)(吨)我们输入一个形状为T×D的学习查询我和个人Q=XI Wtq,K=XIWtk,V=XIWtv(1)特征到解码器中以生成单独的令牌。最后,将个体令牌和场景令牌融合到10 -12-2013(Q(t)K(t)TDV(t)+V(t)(2)形成称为初始化组表示V′′(t)= FFN(V′(t))(3)0 ∈RT ×D。3.3. 分簇时空Transformer3.3.1标准Transformer在本节中,我们将简要回顾标准Transformer架构。提出了正则Transformer [43]其中,Wtq、Wtk、Wtv是可学习的参数,其形状为DD. X(t)表示第t帧中的个体特征图FFN是标准Transformer中的前馈网络所有时间步长{V′ ′ ( t ) |t=1, … , T}被包装在一起成为 Vs∈ RT×N×D。√X13672∈∈LL另一个并行时间编码器用于增加输入特征的时间动态演化线索,并通过突出每个个体的时间维度上的信息特征来时间编码器遵循空间编码器的操作。与上述空间编码器的不同之处在于时间编码器将空间维度视为批次维度。我们表示输出时间动态第n个个体的特征为V′′(n)∈ RT ×D,并将生成的特征图{V′′(n)|n=1,2,…N}和r,表示为Vt∈RN×T×D。个体解码器:个体解码器被部署为整体地考虑空间和时间上下文信息。遵循标准架构的Transformer的各个解码器通过交叉方案应用于互补地利用时空上下文。对于空间解码器,Vs被视为演员查询,每个帧的这N个单独的查询被解码器转换成输出嵌入,其中时间独立嵌入Vt被视为键和值。actor查询从关键词捕获时间动态,并输出更新的上下文特征。同时,我们也采用了其他的时间解码器的交叉方案。具体地,空间嵌入Vs将时间维度与空间维度转置,并且可以被视为解码器所使用的键和值解码器将时间上下文Vt视为时间查询,并将其作为输入并执行特征嵌入。在该过程期间,键表示空间特征Vs以及每个个体查找视频中的感兴趣帧的时间顺序和时间查询最后,融合这两个交叉解码器的输出嵌入,生成增强的个体表示XI. 这两种解码器的概念是利用基于空间上下文和时间上下文的语义关联来增强个体表征。组解码器:摘要在多人场景中个体的交互对于群体活动推断是至关重要的。我们引入了一个解码器,通过个人表示来增强群体表示。组解码器也遵循纯基于变换器的解码器。与原Transformer的不同之处在于,我们的群解码器只包含多头交叉注意机制和前馈网络。它将增强的个体表示XI和群表示XG作为输入。受[10]提出的学习对象查询的启发,我们采用组表示,称为组查询,从称为键的个体表示执行组活动上下文扩充。因此,组查询从增强的个体表示中总结整体上下文,并且通过更新的组查询来实现组活动预测。在实践中,我们的时空Transformer(STT)的输出,增强组表示和个体表示,可以用作后一个块的输入。我们可以重复地堆叠STT块,并有效地学习底层的语义表示。在第4.4节中进行消融研究,以评估堆叠架构方式的有效性。3.3.3集群注意机制基于全连接注意机制的时空Transformer(STT)虽然能够对个体间的关系进行建模,但它包含了许多不相关的关系。为了专注于关键的群体关系,我们用集群注意力块(称为集群时空Transformer(CSTT))替换它可以将个体分组,并利用组内和组间关系来捕获全局活动上下文。我们首先将个体分组到C个簇中,然后计算两种类型的注意力:(1)组内注意力,因为只考虑来自同一簇的查询和键(2)组间注意力作为成对加权连接的集群被认为是。详 细 地 , 我 们 将 质 心 向 量 的 集 合 定 义 为 M= ( m-1,…m C)RC×D。利用小批量k-均值聚类算法将查询自适应地划分为C类,并更新聚类中心向量遵循[9]中的实现我们的组内注意力是通过聚合同一集群中相对个体的信息来细化每个个体的动作感知特征。组间注意是为了充分模拟集群之间的关系,以促进群体活动感知的表征学习。具体地说,建立C类关系的直观策略是把类的质心向量看作我们首先使用线性函数将集群整体特征映射为查询、键和值。然后,通过点产生和逐行softmax来获得相互注意。聚类特征可以通过值的权重和来计算。每个集群的更新的质心向量可以被广播到属于同一集群的行动者/个体。3.4. 网络优化我们的网络以端到端的方式进行训练。在我们的框架中,我们通过从CST T获得的群体代表直接生成群体活动得分y'g。类似地,采用另一个分类器来使用由CSTT生成的个体表示来预测个体对于这两个任务,我们选择交叉熵损失来指导优化过程:L=L1(yg,y¯g)+λL2(ya,y¯a)(4)哪里1和2表示交叉进入损失。y'g和y'a是小组活动得分和个人行动得分,而y'g和y'a表示13673××××目标群体活动和个人行动。λ是平衡两项的超参数。4. 实验和分析在本节中,我们在两个广泛使用的数据集上对我们提出的网络进行了实验我们首先在第4.1节中介绍这两个可用的群体活动数据集,排球数据集[25]和集体数据集[14]。然后我们在4.2节中描述训练细节和参数设置。在第4.3节中,我们将我们的方法与最先进的方法进行了比较。最后,进行了大量消融研究,以验证第4.4节中建议的网络中每个部件的有效性。4.1. 数据集排球数据集。该数据集[25]包含55个排球视频,其中4,830个标记帧(3493/1337用于训练/测试)。每个片段都标注了8个组活动类别:右定位球,右扣球,右传球,右制胜点,左定位球,左扣球,左传球,左制胜点。此外,每个剪辑中的居中帧用9个单独的动作标签注释:等待,设置,挖掘,下降,扣球,阻挡,跳跃,移动和站立。集体活动数据集。该数据集[14]包含由手持摄像机在街道和室内场景中捕获的44个视频序列的2481个活动剪辑小组活动课程包括交叉、等待、排队、行走和交谈。每个剪辑的中心帧都标有个人的边界框和他们各自的动作类:NA,交叉,等待,排队,行走和交谈。组活动标签被签名为场景中个体动作的最大数量我们遵循与以前的作品相同的数据集分割[34,20]。4.2. 实现细节对于特征提取器,我们采用Kinetics [26]预训练的I3D [11]作为骨干,分别选择注释帧之前和之后的3个帧在两个数据集上进行训练和11卷积将Xg和Xd的信道维度减小到D=256。裁剪大小为7 7的RoIAlign被应用于使用由[ 6 ]提供的地面实况边界框来提取具有256维的个体对于排球数据集,我们将每帧的分辨率调整为720× 1280,对于集体数据集调整为480 × 720.对于CSTT,对于所有编码器和解码器,我们使用具有8个关注头的1个编码器/解码器层,并将丢失概率设置为0。1.一、我们选择簇的数目C=4。 我们的CSTTb=3块。对于排球数据集,我们使用16个样本的批量大小,对于集体数据集,我们使用8个样本的批量大小对于这两个数据集,我们采用ADAM[27]学习网络参数。 最初,我们将方法流主干组个人活动行动HDTM[25]AlexNet81.9-SBGAR[31]✓inception-V367.6-欧洲核子研究中心[37]VGG1683.369.1StagNet[35]VGG1689.3-[24]VGG1989.5-SSU [6]inception-V390.681.8阿根廷[47]inception-V392.583.0CRM [5]✓i3D93.0-Gavrilyuk等人[20个]✓i3D93.083.7Gavrilyuk等人[20个]✓I3D+HRnet94.485.9Ehsanpour等人[18个国家]✓i3D93.183.3Pramono等人[33个]✓i3D94.181.9Pramono等人[33个]✓I3D+姿势+FPN95.083.1我们的,不含GRGinception-V393.483.2我们inception-V394.183.7我们✓i3D94.984.0我们✓I3D+姿势95.785.6表1.与排球数据集上最先进的方法在Acc.%方面的比较“Flow” denotes additional optical flow学习率降低到0.0001,并且在50和100个时期之后降低10倍。我们设置权重项λ=1。我们的实验都在8个V100GPU上进行。4.3. 与最新技术我们将我们的方法与两个广泛采用的数据集,排球数据集和集体数据集的最先进的方法进行比较。为了与以前的方法进行公平的比较,我们不仅展示了具有Pose特征和具有RGB和光流的[40]功能,但也仅使用RGB功能报告Inception-v3的结果。排球数据集。结果列于表1中,我们的方法优于所有上述方法,具有相当大的活性准确度裕度。为了清楚地表明我们的CSTT的有效性,我们报告了实验结果的建议模型没有GRG,它放弃了GRG,并引入了一个学习的查询是初始化的组表示。值得注意的是,我们的仅具有RGB特征的模型优于许多以前的作品[18,20,33],尽管它们利用多步骨干(光流,姿态,FPN,空间位置),因为我们的Group-Former整体地利用了空间和时间依赖性此外,我们将姿态信息作为额外的输入,与以前的方法[20,33]相比,取得了最好的结果95.7% , 这 具 体 而 言 , 与 [20] 相 比 , 我 们 基 于Transformer 的 方 法 的 性 能 显 著 提 高 了 1.3% , 高 达95.7%,表明我们的CSTT可以预测交互的时空动态和更好的en-rich组上下文。13674活动方法流主干组群集组活动单个操作表4.排球数据集上不同聚类选择的比较。聚类设置为1表明我们采用了原始的时空Transformer。Ours P2I3D 94.7我们的✓ I3D+Pose96.3表2.在Acc.%方面与Collec- tive数据集上的最新方法进行比较。“Flow” denotes additional optical flow内部经办人内部经办人组个人行动方式小组活动个人行动基线91.082.1仅空间91.882.2堆叠92.682.8平行92.282.9我们94.183.7表3.不同变体架构的消融研究集合数据集。我们进一步提供了与Collective数据集上表2中列出的先前方法的详细比较。使用RGB特征的Inception-v3主干的结果可以达到93.6%,这优于使用附加光流特征的大多数先前方法考虑到96.3%的准确度,与之前的方法相比,我们的I3D+姿势骨架模型实现了相当大的改进[33,20,18]。值得注意的是[20]达到了92.8%,比我们的结果低1.9%,显示了时空Transformer优于基于空间变换器的方法。4.4. 消融研究为了验证GroupFormer不同部分的有效性,我们对排球数据集的验证集进行了消融研究,并使用群体活动准确性和个人动作准确性作为我们的评估指标。为了消除任何关于改进仅仅来自额外的光流和姿态信息的担忧,我们仅使用ImageNet [28]预训练的Inception-v3 [41]作为我们的骨干,以在我们的消融研究中从RGB剪辑中提取特征时空关系模型的变体。为了衡量CSTT收集的背景信息的重要性,我们使用以下变体进行消融研究(1)基线:我们用FC层替换CSTT,然后是组解码器(2)空间方式:该变型涉及空间编码器,随后是组解码器。(3)堆叠方式:此变体包含堆叠表5.不同集群注意组合的比较。Intra-Attn和Inter-Attn分别表示组内注意和组间注意。块小组活动个人行动091.082.1193.683.4293.883.7394.183.7493.983.6表6. CSTT块数量的不同设置选择的比较。空间和时间编码器以及组解码器。(4)并行方式:该变体由并行编码器组成,其分别处理空间和时间上下文并通过“和”聚合它们除了建筑风格外,其他布景都是一样的。表3示出了以并行方式采用空间和时间将性能从91.0%提高到92.2%。同时,堆叠方式的表现略好于并行方式的模型。而我们的CSTT使用个别解码器,它建立了一个桥梁,共同利用时空上下文信息的交叉方式,使一个显着的性能提升了3.1%的基线相比。强调了整体学习时空背景对于群体活动识别的重要性和有效性。集中注意力的方式。在这里,我们调查不同的集群选择的performances。Vol-排球数据集的结果显示在表4中。STT没有集群注意机制可以达到93.4%,表明我们提出的模型(时空转换器)已经能够学习丰富的时空背景下的群体活动识别。同时,我们将完全连接的注意力替换为称为CSTT的聚集注意力机制,从而使识别率从93.4%显著提高这表明了我们的注意力集中机制的有效性。此外,我们还将逐步...活动1(无群集)93.483.1HDTM[25]AlexNet81.5293.783.6欧洲核子研究中心[37]VGG1687.2393.883.8StagNet[35]VGG1687.7494.183.7阿根廷[47]inception-V391.0693.483.593.483.1✓93.883.4✓93.683.5✓ ✓94.183.7CRM [5]✓i3D85.8Gavrilyuk等人[20个]✓i3D92.8Ehsanpour等人[18个国家]Pramono等人[33]Pramonoet al. [33个]✓i3D✓i3D✓I3D+姿势+FPN89.493.995.213675图3.通过不同的模型变体使用t-SNE [42]对排球数据集的验证集进行特征嵌入可视化。每个剪辑都显示为一个点,属于同一组活动的剪辑具有相同的颜色。最好用彩色观看右传球站站站挖moving斯坦丁站站站立 ng站站右扣球左集站移动设置站站立塞蒂站立等待等待等待拦网扣球等待移动移动移动n.站立等待等待站(a)(b)第(1)款(c)第(1)款图4.一些有代表性的聚类个体的可视化。每个视频场景都包含活动和个人的地面实况标签。每个个体的颜色表示其所属的聚类。白线表示集群中的密切关系。对聚类数进行了优化,发现聚类数设置为4时,聚类效果最好。最后,我们还评估了我们的两个组内和组间注意力的有效性。表5报告了详细结果。正如我们所预期的,这两种注意方式都能对绩效产生一定的促进作用,并且两者的组合达到了最佳绩效。CSTT块数量的调查。我们的集群空间变换器可以堆叠几个块,以增强时空信息。因此,有必要对块号设置的影响进行评估。如表6所示,表的第一列列出了我们的Clustered Spatial-Transformer的相应编号。当块的数量设置为0时,采用FC层来代替我们的CSTT来嵌入特征。我们发现,一个单一的块超过基线2.6%,这表明CSTT的有效性。堆叠的3个CSTT块达到最佳结果,而使用4个块时性能略有下降。4.5. 可视化特征嵌入可视化。图3显示了通过我们的模型变体学习的视频表示的t-SNE [42]可视化:(1)基线:用简单的FC层代替CSTT。(2)叠层ST:使用叠层空间时间变 换 器 。 ( 3 ) STT : 无 重 复 注 意 机 制 的 时 空(4)CSTT:我们的超时空Transformer详细地说,我们使用t-SNE将排球数据集上的验证集的视频表示馈送到二维地图中我们可以发现,采用我们的STT表现得相当不错,与堆叠ST相比。值得注意的是,我们的CSTT使分离更好,达到最佳效果。这些可视化结果表明,我们的模型是有利于识别群体活动。集群可视化。我们在图4中可视化了聚类个体的几个示例。利用集群注意机制,个体被分组为节点集合,每个节点集合内部紧密相连。通过利用组内和组间关系,模型更容易捕获关键的交互信息并学习活动感知的5. 结论我 们 提 出 了 一 个 新 的 基 于 变 换 的 架 构 称 为GroupFormer,它的模型的时空上下文表示推断组活动。此外,我们引入了一个集群的注意力机制组的个人和利用组内和组间的关系,更好的组信息的功能。我们在两个基准上进行了大量的实验。结果表明,我们的GroupFormer优于大多数国家的最先进的方法相当大的保证金。13676引用[1] Mohamed Rabie Amer , Peng Lei , Sinisa Todorovic 。Hirf:用于视频中集体活动识别的分层随机场。在European Conference on ComputerVision , 第 572-585页,2014中。2[2] Mohamed R Amer和Sinisa Todorovic。和积网络-用于活动 识 别 。 IEEE Transactions on Pattern Analysis andMachine Intelligence,38(4):800-813,2015。2[3] 穆罕默德·R·阿梅尔,辛尼萨·托多罗维奇,艾伦·费恩,朱松春.用于调度活动识别的蒙特卡罗树搜索。在Proceedings of the IEEE international conference oncomputer vision,pages 1353-1360,2013中。2[4] Mohamed R Amer , Dan Xie , Mingtian Zhao , SinisaTodor- ovic,and Song-Chun Zhu.用于多尺度活动识别的成本敏感的自上而下/自下而上推理欧洲计算机视觉会议,第187-200页2[5] Sina Mokhtarzadeh Azar,Mina Ghadimi Atigh,AhmadNickabadi,and Alexandre Alahi.用于群体活动识别的卷积关系机。在IEEE/CVF计算机视觉和模式识别会议论文集,第7892-7901页,2019年。六、七[6] TimurBag autdinov,Ale xandreAlahi,FrancoisFleuret,Pas-cal Fua,and Silvio Savarese.社交场景理解:端到端多人动作定位和集体活动识别。在IEEE计算机视觉和模式识别会议论文集,第4315- 4324页,2017年。一、二、六[7] Irwan Bello ,Barret Zoph,Ashish Vaswani,JonathonShlens , and Quoc V Le. 注 意 力 增 强 卷 积 网 络 。 在IEEE/CVF计算机视觉国际会议论文集,第3286-3295页,2019年。3[8] Gedas Bertasius,Heng Wang,and Lorenzo Torresani.时空注意力是你理解视频所需要的全部吗?arXiv预印本arXiv:2102.05095,2021。3[9] 里昂·博图和约舒亚·本吉奥k-means算法的收敛性神经信息处理系统进展,第585-592页,1995年。5[10] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测在欧洲计算机视觉会议上,第213-229页三、五[11] Joao Carreira和Andrew Zisserman。什么是行动识别?新模型和动力学数据集。在IEEE计算机视觉和模式识别会议,2017年。四、六[12] Kai Chen,Guang Chen,Dan Xu,Lijun Zhang,YuyaoHuang , and Alois Knoll. Nast : Non-autoregressivespatial- temporal Transformer for time series forecasting.arXiv预印本arXiv:2102.05624,2021。3[13] Rewon Child , Scott Gray , Alec Radford , and IlyaSutskever. 用 稀 疏 变 换 器 生 成 长 序 列 。 arXiv 预 印 本arXiv:1904.10509,2019。3[14] Wongun Choi,Khuram Shahid,and Silvio Savarese.他们在干什么?:利用人与人之间的时空关系进行集体活动分类。2009年IEEE第12届计算机视觉工作室国际会议,ICCV工作室,第1282-1289页,2009年。6[15] Zhiwei Deng , Arash Vahdat , Hexiang Hu , and GregMori.结构推理机:用于分析群体活动识别关系的递归神经网络在IEEE计算机视觉和模式识别会议论文集,第4772-4781页,2016年一、二[16] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert:为语言理解而进行的深度双向转换器的预训练。arXiv预印本arXiv:1810.04805,2018。3[17] AlexeyDosovitskiy,LucasBeyer,AlexanderKolesnikov,Dirk Weissenborn,Xiaohua Zhai,ThomasUnterthiner , Mostafa Dehghani , Matthias Minderer ,Georg Heigold,Sylvain Gelly,et al.一张图片相当于16x16个单词:用于大规模图像识别的变换器. arXiv预印本arXiv:2010.11929,2020。三、四[18] Mahsa Ehsanpour 、 Alireza Abedin 、 Fatemeh Saleh 、Javen Shi、Ian Reid和Hamid Rezatofighi。在视频中共同学习社会团体、个人行动和小组活动。arXiv预印本arXiv:2007.02632,2020。一、二、六、七[19] 方浩树,谢淑琴,戴玉荣,陆策武。区域多人姿态估计。在IEEE计算机视觉国际会议论文集,第2334-2343页,2017年。4[20] Kirill Gavrilyuk、Ryan Sanford、Mehrsan Javan和CeesGM Snoek 。用于 群体活动 识别的演员 转换器。 在IEEE/CVF计算机视觉和模式识别会议论文集,第839-848页一、二、六、七[21] Shengnan Guo,Youfang Lin,Ning Feng,Chao Song,and Huayyu Wan.基于注意力的时空图卷积网络在交通流预测中的应用。在AAAI人工智能会议论文集,第33卷,第922-929页3[22] KaimingHe , GeorgiaGkioxari , PiotrDolla'r ,andRossGir-shick.面具R-CNN。在IEEE计算机视觉国际会议论文集,第2961-2969页4[23] 古月虎、伯翠、元禾、山雨。用于群体活动识别的渐进式在IEEE/CVF计算机视觉和模式识别会议论文集,第
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功