群体活动的时空动态推理网络

18 浏览量更新于2023-10-13 收藏 1.51MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

7476用于群体活动识别的时空动态推理网络杭街苑1董妮1，2* 王莽31浙江大学控制科学与工程学院，杭州，中国2浙江大学工业控制技术国家重点实验室杭州3DAMO Academy，阿里巴巴集团，中国{hj.yuan，dni} @ zju.edu.cn，wangmang. alibaba-inc.com摘要群体活动识别的目的是理解一群人所进行的活动。为了解决因此，对复杂的时空交互进行建模是关键。以前的方法局限于在预定义的图上进行推理，这忽略了固有的特定于人的交互上下文。此外，它们采用的推理方案在计算上是昂贵的，并且容易导致过度平滑的问题。本文通过提出动态推理网络（DIN）来实现时空个人特定推理，该网络由动态关系（DR）模块和动态行走（DW）模块组成。我们首先提出初始化的交互场上的一个主要时空图。在每个交互领域内，我们应用DR来预测关系矩阵和DW以联合处理的方式来预测动态步行偏移，从而形成个人特定的交互图。通过更新特定图上的特征，人可以拥有具有本地初始化的全局级交互字段。实验表明，两个模块都是有效的。此外，DIN1实现了显着的改善，与以前的国家的最先进的方法相比，在两个流行的数据集在相同的设置，同时成本更少的推理模块的计算开销。1. 介绍群体活动识别（GAR）旨在推断场景中一群人所执行的整体活动[9，22，4，45，32，43，15，48]。它已经引起了研究兴趣，由于各种应用，包括监视/体育视频分析，社会场景理解等，在GAR的关键问题是推断一个组级的活动表示给定的视频剪辑，这要求精心设计的推理模块。*通讯作者。1代码可从https://github.com/JacobYuan7/ DIN_GAR获得。图1. 右组和右传组活动示例。标有星号的红色边界框是执行活动关键操作的人员灰色箭头表示链接加星号的人和语义上重要的人的关键交互，其在空间或时间域中总是不对齐。人物索引不从1开始，因为我们仅示出图像的一部分。最近提出的推理模块主要包括时空交互因素，以获得一个精致的活动表示。智能体交互的建模已经得到了广泛的研究。主要采用的方法是回流神经网络[1，49]，注意力机制[41，19]和图形神经网络（GNNs）[38，13，44]。GNN是GAR [32，43，46，31]中经常采用的方法，它在构造的语义图上执行消息传递，并在公开可用的基准测试中获得有竞争力的结果然而，使用GNN的先前方法坚持在预定义的图上对个体之间的交互进行建模的范例，如图2所示。这是一种可行的方法，但有几个缺点：i）与给定的人交互的那些人应该是特定于人的，但不是预先定义的。如图1所示，一个人将根据自己的上下文与其他人进行交互：左视频中的第8人与即将扣球的第9人互动;右视频中的第10人与即将定位球的第9人互动。一个预定义的图不可能适合每个人的推理。ii）先前的预定义图模型推断全连接图[43]或十字形[46，31]图，如图7477图2. 三种推理方案在时空域中的可视化与GAR的GNNs绿色节点表示要更新的特征。紫色节点表示更新绿色节点所涉及的特征。(a)全连通图推理。(b) 交叉图推理。(c)提出了对每个绿色节点唯一的个人特定动态图推理虚线框是初始化的交互字段的示例。2（a）和（b）。它很容易导致过度平滑[27]，使特征无法区分并损害性能。此外，如果扩展到长视频剪辑或扩展到场景中有太多人的场景，则会花费过多的计算开销。针对上述缺点，受文献[11，50]的启发，我们提出了动态推理网络（DIN），它包含动态关系（DR）和动态游走（DW）。这两个模块结合起来可以预测一个特定于个人的交互图，以便更好地建模交互，如图2（c）所示对于时空图上的给定人员特征，我们在其周围设置时空交互场作为初始化，其在DR和DW之间共享。该交互字段确定要参与推断交互图的人员。当空间或时间轴扩展时，初始化的场大小不会增加，这减少了计算量。在这个初始化的交互场中，我们使用DR来预测特定于人的关系矩阵，表示人与人之间的交互关系。互动场的特征赋予了关系互动的语境。然后，为了便于模型从复杂的时空交互中学习，我们使用DW来预测字段内每个特征的动态行走允许本地初始化的交互字段形成启用全局级交互的图。所提出的模块很容易部署到任何广泛使用的主干上，形成一个名为DIN的管道此外，以往的方法很少进行计算复杂度分析，这是一个重要的评估设计的模块。在本文中，我们提出了计算复杂性分析，并表明我们的模块的成本更少的计算开销，同时表现更好。总结起来，我们的贡献如下：• 我们建议DIN在时空域中构建个人特定的交互图，这是没有预定义的，也可以作为一个通用的方法来建模的互动。• 我们提出DR预测人的具体关系矩阵和DW，其允许局部初始化的交互字段全局地更新特征。实验证明这两种方法都是有效的• 我们通过实验证明，一个小尺寸的初始化的相互作用领域是足够的现有数据集。我们使用的情况下可视化来举例说明，交互图可以捕捉关键的人和关键的交互，和本地初始化的交互字段可以覆盖全球级的交互字段与建议的模块。• DIN在两个广泛使用的基准测试中，在相同的主干和输入模态的设置下实现了最先进的性能，同时推理模块的计算开销要少得多。2. 相关工作群体活动识别是在文献[9]中首次提出的。以下工作[10，25，24，8，2]基本上是提取手工制作的特征（例如，，HOG [12]），并应用图形模型来推断组活动表示。随着深度学习的蓬勃发展，结合卷积神经网络（CNN）和递归神经网络（RNN）的方法已被证明是有效的。例如，[22，4]的工作设法通过CNN特征上的RNN在动作级别或组级别对时间动态进行建模。[42，45，32，36]的工作将RNN应用于人际交互的建模。注意机制在GAR中也证明了它的有效性。[45，32，39]的工作将RNN与注意力机制相结合，以捕获空间或时间域中的关键特征具体而言，引入自我注意机制来学习时间演化和空间相互作用[15，31]。GNN在图结构数据上进行推断，引起了GAR研究人员的注意。 ARG [43] 首先提出使用图卷积网络（GCN）来学习时空图上的人的交互。后来，一些作品[46，31，47]在建模关系和聚合特征时将先前的全连接图改进为十字交叉图。然而，他们都忽略了特定于个人的交互环境。我们的工作部分受到可变形卷积[11，51]的启发，其关系不依赖于人的特征。此外，像DGMN [50]这样的相关工作在隐式像素级空间特征增强中提到了交互的建模交互的建模对于理解具有多个对象/代理的复杂系统是重要的[5，6]。许多研究领域固有地涉及交互的建模，如轨迹预测[16，38，34]，人类对象交互[33，29，14]和场景图生成[44，49，7]。在GAR中，建模相互作用对于理解其整体活动至关重要[4]。之间7478×i=1{|}{∈--q=1×∈图3.动态推理网络的整体流水线。通常，它由两个阶段组成：i）时空特征提取，ii）推理模块。注意，将存在用于更新的T N个在我们的代码库中，第一阶段与以前的方法共享。主要的变化是在推理模块。为了清楚起见，我们在图像中仅示出4个边界框它们所采用的方法，GNN已经是经常选择的方法。一些相关的工作，如EvolveGCN [30]探索了一种更好的进化图表示学习策略，EvolveGraph [26]探索了一种调整图结构的预测然而，我们专注于探索构建动态代理特定的图形的基础上，他们的互动领域。所提出的模型是处理相关问题中相互作用建模的一般方法。3. 方法在本节中，我们首先概述了DIN的管道。然后，我们简要回顾了以前的GNN推理模块的GAR。最后，我们介绍的模块，我们提出了动态推断组活动。为了更好地表达这个想法，我们具体地提出了第i个人特征的特征3.1. 动态推理网络集成框架，我们表示为动态推理网络（DIN），如图3所示。DIN接收视频的短剪辑，将其馈送到选定的骨干网络中以提取视觉特征。对于骨干网，我们主要在ResNet-18上进行实验[18]和VGG-16 [37]，以证明我们提出的模块的有效性，并寻求与以前的方法进行公平比较然后应用RoIAlign [17]来提取人物特征与边界框对齐，在上述推断之后，我们可以执行全局池化以得到最终的组表示，其包含沿着空间维度的最大池化层和沿着时间维度的训练目标是群体活动的交叉熵损失。虽然许多以前的方法，如[32，43，3，15]，为单个动作使用了额外的交叉熵损失，但动作标签实际上是不明确的[47]，并且标签昂贵。我们使用廉价的团体活动标签，同时仍然取得有竞争力的结果。虽然第4节中的计算复杂性分析已经表明，DR和DW带来了有限的参数和FLOP，除了骨干和嵌入层，我们采取了进一步的措施，以寻求一个更轻的reasoning模块。在实践中，我们应用逐点卷积[20]在推理模块之前将X的维度从D减少到Dl。我们将此模型命名为Lite DIN。3.2. 回顾以往GNN推理我们通过在[43]中ARG的空间-时间特征提取阶段与DIN相同，如图1所示。3. 它使用如图2（a）所示的全连接图。人的特征X 的空间和时间维度被压缩为一，表示为X=xiTN，其中xiRD。它们的成对关系可以表示为R=ri，ji，j= 1，…其中ri，j，R1，其可以通过下式计算：θ（xi）T（xj）然后嵌入到D维空间。我们把每个-子特征以形成X∈RT×N ×D，其中T，N表示ri，j=√D（一）时间步长（即，时间维度）和数量r~=softmax（rexp（ri，j））=的（二）在每个帧中的注释的人（即，、空间维度）i、jj i，jΣTNexp（ri、q）分别请注意，空间维度是按照人的坐标排序然后将其布置成时空图（ST图）。所提出的DR和DW动态地预测一个特定的交互图为选定的功能（T N交互图的总）。因此，我们可以相应地操作特征更新。其中θ和是线性变换函数，即，θ（xi）=Wθxi，其中WθRDr× D和（xi）被类似地定义; D r是嵌入空间的维度; softmaxj定义沿着索引j的softmax函数以得到归一化关系r~i，j。为了清楚起见，我们在这里不制定距离掩码。R7479我J我∈×{|}{∈∈∈我KΣ我.Σ图4.关于为第i个人创建特定于人的交互图的DR和DW的详细信息。对于给定的人，DR预测一个关系矩阵，DW预测动态行走偏移量，以赋予交互图一个全局交互场，两者都基于初始化的交互场（我们将其设置为3×3作为示例）。我们执行一层ARG来更新人物特征作为依赖于初始化的交互字段中的特征，而不是在更新每个特征时坚持相同。x（l+1）=Ngg=1σTNj=1 r~i，jx（l）w（g）+x（l）（3）为了推断该领域内的动态关系，我们采用卷积[11，50]。对于原始ST图上选定的第i个特征，我们将ui∈ R（K× D）表示为其中，Ng，g，l分别表示一层中的图的数量、图索引和层索引;σ是动作函数（在我们的实现中是ReLU）;w（g）RD× D是特定于图的可训练变换矩阵。注意，w（g）和r~i，j也是层特定的，但是为了清楚起见，我们省略了这个上标l。对于以下等式中的可学习参数和关系也进行类似的操作。在特征更新之后，我们最后对整形的X（l+1）∈RT×N ×D执行全局池化操作以在其相互作用场内堆叠特征，并表示为K作为交互场大小，例如，如果相互作用场为3 3，则K= 9。我们将卷积以矩阵形式重写为Ai=Waui+ba⑷其中WaRK×（K× D）是用于推断关系的线性投影矩阵;baRK是偏置参数。Ai=a i，kk= 1，.，是第i个特征的关系矩阵，其中k枚举第i个特征的初始化字段中的K个特征。类似于Eq。2、a~是归一化的a得到最终的群表示zRD。十字架在[46]中提出的推理块改善了完全-沿着食指k，即、i，ka~i，k=softmaxk（ai，k）。i，k如图2（b）所示，通过交叉推理进行连接推理。我们不更新全连接图或交叉图中的特征，而是将初始化字段中的特征更新为3.3. 动态关系在我们深入研究所提出的模块之前，我们先给出交互字段的定义。的相互作用x（l+1）=σKk=1 a~i，kx（l）wΣ+x（l）（5）场是ST图上的一个区域，它参与了交互特征的推断在图10中的ST图上使用虚线框示出了交互场的一个示例。4. 我们提出的模块，即DR和DW，共同处理该领域内的特征，以推断人特定的相互作用图。初始化的交互场覆盖所选择的人的时空邻域，其提供直接交互线索。更复杂的初始化留待将来研究。我们提出了动态关系（DR）来推断特定于人的交互图的关系矩阵 DR 的图示在图 4 的上部分支中示出。’Dy- namic’请注意，由于其过多的参数和微不足道的改进[43]。3.4. 动态步行尽管DR已经成功地推断出它们与初始化的交互字段中的所有人特征的关系，但它仍然遵循预定义的消息传递路线，这缺乏针对特定于人的交互建模的能力。此外，先前的方法设法通过完全连接或交叉方案中的固定图来对长距离时空依赖性进行建模，这消耗了过多的计算资源。我们提出了一个动态步行（DW）模块，使功能的.Σ7480∈}{∈{|{|}{∈ΣΣi，k不××××3×我×i，k我字段以在主ST图上执行动态遍历。DW的图示在图4的下部分支中示出。通过数据仓库，我们希望使用一个大小有限的相互作用场来模拟复杂的时空依赖。’Dynamic’为了允许动态行走，我们需要预测它们的时空动态行走偏移。对于选定的第i个人特征，我们将交互场内所有特征的动态行走偏移表示为ΔPi= ΔPi，kk= 1，...，K，其中∆pi，kR2。我们预测动态行走偏移为∆Pi=Wpui+bp（6）其中WpR（K×2）×（K× D）是预测动态步行偏移的线性投影矩阵;bpR（K×2）是偏置项。与DR类似，它预测字段内所有特征的动态行走偏移，并通过卷积实例化使用预测的偏移量，我们可以通过对ST图执行动态行走来获得动态行走特征。请注意，动态行走特征被钳制在ST图的范围内由于动态行走偏移始终是分数，因此采用双耳采样器[23]对动态行走特征进行采样。我们将第i个相互作用场中的第k个特征的坐标表示为pi，kR2。动态行走特征Yi=yi，k，k= 1，…K与yi，kRD可以公式化为：4.1. 实验设置数据集到目前为止，在群体活动识别中有两个广泛使用的数据集，即排球数据集（Volleyball dataset，VD）[22]和集体活动数据集（CAD）[9]。Volleyball数据集由3，493个训练剪辑和1，337个测试剪辑组成，这些剪辑来自55个排球比赛视频。对于每个短剪辑，它提供三种注释：i）给定剪辑的中心帧中的玩家边界框的坐标; ii）用于注释的人的个体动作标签：拦网、挖、跌、跳、移动、摆、扣球、站立、等待，这些都是我们实验中没有用到的; iii）给定剪辑的组活动标签：右组、右扣球、右传球、右胜点、左组、左扣球、左传球和左胜点。为了对整个剪辑执行特征提取，我们使用[4]提供的tracklet。两个度量用于评估模型的性能，即 MCA （ % ）是 Multi-classClassification Accuracy的缩写，MPCA（%）是MeanPer Class Accuracy的缩写。Collective Activity数据集由44个视频组成，包含从194到1，814帧不等的帧数。与VD类似，它标记有三个级别的注释：i）每十个帧的中心帧上的人的边界框的坐标; ii）注释的人的个体动作标签：NA、横穿、等待、排队、行走和谈话，其在我们的实验中未使用;iii）每十个帧的组活动标签：跨TNing，waiting，queuing，walkingand talking. 我们遵循yi，k=x（m−1）N+nδ（m，n，pi，k，∆pi，k）（7）m=1n =1[42，45，46]合并类交叉和步行进入动了我们使用[4]中的tracklet。火车-δ（m，n，pi，k，∆pi，k）= max（0，1- 1）|m − pTN-∆pi，k|）N（八）测试分裂如下[32]。MPCA用于对此由于类的不平衡。？max（0，1 −|n−pi，k−∆pi，k|）其中上标基于动态行走的特征，我们可以将第i个特征更新为对于VD，我们使用分辨率为H W= 720 1280的视频图像。对于CAD，我们使用分辨率H W= 480的视频图像七百二十对于这两个数据集，我们使用包含T=10帧的视频剪辑，每个帧都跟随[43，46，32，21]。最大数量-x（l+1）=σ。ΣKa~y（l）wΣ+x（l）（九）场景中的人的ber对于VD是N= 12，并且对于VD是N=13。对于CAD。我们使用具有嵌入维数的人物特征注意，在上述公式中，我们将DR和DW组合以形成最终的动态更新函数。4. 实验在本节中，我们首先介绍GAR的数据集和实现细节接下来，我们进行定量分析，探索我们的模块和不同的相互作用场初始化的方差的贡献，并证明在计算复杂性方面的优越性然后，我们比较我们的方法与以前的国家的最先进的方法。最后，我们提供可视化来更好地理解DIN。D= 1024 。对于 Lite DIN ，我们使用嵌入维数 D1=128。DR和DW的卷积运算由零向量初始化[11]。当在图上应用卷积时，我们使用零填充来保持固定的交互字段大小。我们按照[43]使用基础模型的参数初始化DIN模型我们不使用任何行动标签监督。对于VD的训练，我们采用Adam优化器，其学习率从110−4，衰减率为每10个历元1。对于CAD的训练，我们使用相同的优化器，其学习率从5 10−5开始并保持不变。我们总共运行30个时期。亚当的超参数是β1= 0。9，β2= 0。999和ε= 10−8。i，kk=17481×××模型MCAMPCA基础模型87.888.4DIN带DR92.192.3DIN w/DW92.092.5DIN带DR+DW93.193.3DIN w/DR+DW*92.993.1表1.DR和DW使用的消融研究。实验在VD上进行。主干设置为ResNet-18。4.2. 定量分析在本小节中，我们对VD进行实验。我们将定量分析的主干设置为ResNet-18。DR和DW我们首先进行消融研究，以证明所提出的模块的有效性我们使用3×3的固定初始化相互作用场和以下模型：• 基本型号：它由骨干网、RoIAlign层、全局池化层和最终分类层。• DIN w/ DR：它包含主干、RoIAlign、DR模块、全局池化层和分类层。它允许在交互作用场内进行关系矩阵预测。• DIN w/ DW：它包含主干、RoIAlign、DW模块、全局池化层和分类层。它允许动态步行预测扩展其交互场。• DIN w/DR+DW：其定义与上述型号类似它允许基于如图4所示的字段中的原始特征的动态关系预测。• DIN w/DR+DW*：其定义类似于DINw/ DR+DW，除了它允许基于动态行走特征的动态关系预测，即，Yi.上述模型的结果示于表1中。该表表明，结合任何提出的模块可以显着提高性能。与ARG [43]相比，DIN w/DR的结果表明联合处理的优越性和小的相互作用场。DIN w/ DW的结果表明了特定于人的交互图的优越性。我们发现，DIN w/ DR和DIN w/ DW显示出类似的改进相比，基础模型。我们认为这是因为我们在图上执行动态行走之后这些权重由动态漫游偏移确定，这不像DR那样简单动态关系的部分能力和全局交互图使DIN w/DW能够与DIN w/DR类似地执行。将DR和DW相结合，使DIN模型具有更强的动态性和更大的相互作用场，从而实现了表2. 计算复杂性分析。它们的主干被设置为ResNet-18。#不包括主干和嵌入层的参数和FLOP。甚至更好。具体地， DIN w/ DR+DW 比 DIN w/DR+DW*执行得稍好，这指示初始化的交互字段提供用于预测关系的足够信息。计算复杂性分析在本小节中，我们提出的参数和FLOP的推理模块包含。注意，我们定义的推理模块不包括骨干和人物特征嵌入层，因为我们主要关注本文中的高效推理模块。由于以前的方法我们使用一个初始化的相互作用领域的3 - 3为我们所有的提议提出的模块。为了进行公平的比较，我们将它们的所有后台设置为ResNet-18。结果列于表2中。此外，我们还提供了骨干和人物特征嵌入的统计数据作为参考：24.8M#Params，674.6 GFLOPs（720 1280分辨率）和24.8M#Params，254.9 GFLOPs，分辨率为480 720。结果表明，单独使用DR或DW的模型比以前的方法具有通过结合DR和DW，我们的模型受益于特定于人的关系矩阵和动态步行偏移的动态性，从而实现更好的性能。请注意，与仅使用DR或DW的模型相比，使用DR+DW的模型增加的计算成本非常小。与基本模型相比，具有DR+DW的精简模型实现了令人印象深刻的结果，同时增加了非常少的计算开销。除了所提出的模型变体之外，我们还提供了另一个推理模块：• EDP：相应型号为DIN w/ EDP。它类似于DIN w/DR，除了它使用嵌入式点积（EDP，公式为Eq.1）在相互作用场内而不是DR内用于推断关系。推理模块#参数FLOPsMCAMPCAPCTDM [45]26.235M6.298G90.390.5阿根廷[43]25.182M5.436G91.191.4[15]5.245M1.260G90.090.2HiGCIN[46]1.051M184.992G91.492.0SACRF [31]29.422M76.757G90.791.0EDP3.146M0.755G91.691.6博士1.140M0.272G92.192.3DW1.222M0.291G92.092.5DR+DW1.305M0.311G93.193.3Lite DR+DW0.180M0.042G92.692.874828×××模块领域#参数复杂性FLOPs复杂性MCA MPCA3×31.305M0.311G93.193.3DR+DW5×57×72.976M8.432MΘ（D（3Κ2+D））0.712G2.021GΘ（TND（3K2+D））92.792.493.192.79×921.212M5.089G92.593.01×3、3×12.160M0.516G92.693.0ST分解DR+DW1×5、5×11×7、7×11×9、9×12.258M2.406M2.602MΘ（2D（3K+D））0.540G0.575G0.622GΘ（2TND（3K+D））92.392.892.192.893.092.53×30.180M0.042G92.692.8LiteDR+DW5×57×79×90.387M1.069M2.667MΘ（D1（3K2+Dl+D））0.092G0.256G0.639GΘ（TND1）（3K2+Dl+D））92.692.392.393.192.792.5表3.使用三种模型增加初始化交互作用场的结果。主干：ResNet-18。不包括骨干和嵌入层的计算成本对于4个相互作用场，K=9，25，49，81，D1=D。矩阵Ai.我们设Dr=D。我们可以观察到：i）先前的成对交互模型EDP（其仅使用两个人来预测关系）比DR表现稍差并且花费更高的计算开销; ii）如果将EDP与ARG进行比较，则表明小的初始化字段改善了ARG由于全连接推理而具有的过平滑，并且实现了更好的性能。DIN及其变体为了对人与人之间的时空交互进行建模，应该选择具有适当大小的交互场。我们主要提供DIN及其两种变体的实验，以选择合适的尺寸：i）被初始化以覆盖特定时空域的单个交互场，例如ii）堆叠分别覆盖空间域和时间域的层（ST分解模型），例如、iii）覆盖特定时空域的简化模型。增加相互作用场大小的结果示于表3中。这表明i）较大的相互作用场尺寸将不会导致良好的性能。ii）类似地，堆叠层以单独地对空间和时间交互进行建模也导致稍微更差的结果。我们认为它们是由于过度平滑问题[27]由堆叠层或过于密集的连接引起，这带来了人的特征之间的过度相似。iii）ST因子分解和lite模型都通过将K的指数和D的值降低到Dl而明显降低了成本，同时都保持了比先前方法更好的结果4.3. 与最新技术水平的在本小节中，我们将我们的模型与先前的最新模型进行比较。为了公平比较，我们只采用RGB图像作为模型输入，并采用单个主干。在排球数据集的表现结果在表4中示出。一般来说，我们的方法可以在这个数据集上取得令人印象深刻的结果。对于使用ResNet-18的方法，我们的方法可以超过它们1.7%。对于方法我们-表4.与排球数据集上以前的最先进方法的比较。如果未提供结果，则标记为*表示没有视觉背景的结果，用于公平比较。方法骨干MPCA[22]第二十二话AlexNet89.7CERN-2[35]VGG-1688.3循环建模[42]VGG-1689.4PCTDM[45]AlexNet92.2StagNet[32]VGG-1689.1SPA+KD[40]VGG-1692.5阿根廷[43]ResNet-1892.3催乳素[21]VGG-1693.8HiGCIN[46]ResNet-1893.0我们的DINVGG-1695.9ResNet-1895.3Ours-Lite DINVGG-1694.0ResNet-1893.8表5.与先前的最新方法的比较集体活动数据集。在VGG-16上，我们的方法可以超过它们2.2%。如果考虑DR和DW的计算开销，我们的模型显示出更大的优越性。我们的模型通常比基于RNN的模型（如[45，32，4，28，35]）花费更少的计算开销，并且表现更好，这是由于时空交互的联合建模的更我们的模型优于基于GNN的方法，如[43，46，15]，这归因于所提出的模块的动态性。方法[43]甚至使用16个图进行推理，但仍然落后于我们的模型。集体活动数据集上的性能结果如表5所示。使用我们提出的模块，具有VGG-16主干的模型比其他方法高出2.1%，ResNet-18主干高出2.3%。请注意，Lite DIN花费很少的额外计算已经可以方法骨干MCAMPCA[第28话]inception-V366.9 67.6SSU [4]inception-V389.9-CERN-2 [35]VGG-1683.3 83.6SPA+KD [40]VGG-1689.3 89.0PCTDM [45]ResNet-1890.3 90.5StagNet [32]VGG-1689.3-CRM [3]i3D92.1-阿根廷[43]ResNet-1891.1 91.4催乳素[21]VGG-1691.4 91.8[15]ResNet-1890.0 90.2SACRF [31]ResNet-1891.0STBiP* [48]inception-V391.3-HiGCIN [46]ResNet-1892.0我们的DINVGG-1693.693.8ResNet-1893.193.3Ours-Lite DINVGG-1693.293.4ResNet-1892.692.87483图5. (a)使用VGG-16作为主干的排球数据集的混淆矩阵。(b)使用VGG-16作为主干的Collective Activity数据集（c）左集合活动示例的可视化。左上图像是视频剪辑的起始图像。右上方是相应的组交互图。右下角是第5个人（关键人物，群交互图中的红框左下图示了第五人的关键交互中的两个（第五人的交互图中的达到与以前最好的方法相当的结果，从而揭示了引入动态性的优点。混淆矩阵VD和CAD上的VGG- 16模型的混淆矩阵分别如图5（a）和（b）所示。对于VD，动态空间长程相互作用的建模使得模型能够区分左活动与右活动。与方法[32，46]中的混淆矩阵相比，我们的方法在传递和集合活动中表现良好我们将其归结为时空人与人之间的动态交互建模，因为传球和接发球活动涉及到一个人传球和一个人接球。对于CAD，与方法[22，42，46]的混淆矩阵相比，我们的方法很好地区分了等待。以前的方法错误地等待移动了很多，因为它们无法区分人的时间变化，我们处理得很好。4.4. 定性分析首先，我们在图5（c）的右上角图像中可视化了一个示例的组交互图，该图汇总了所有特定于个人的交互图。它显示了与其他人互动更多的人，以形成活动。如果我们沿着时间轴求和，我们可以找到一个权重最高的关键人物（第五个人，组交互图中的红框）。在该示例中，是执行设置动作的人，这在左设置组活动中是重要的。我们通过在图5（c）的右下图像中可视化关键人的交互图这表明，我们的模块，使全球层面的互动，虽然我们在本地初始化的互动领域。如人员交互图所示，黄色框是与关键人员的两在这个例子中，他们可能会扣球设置从关键的人。5. 结论和未来工作在本文中，我们提出了动态推理网络，以解决问题的推理上的一个预定义的图和推理的计算昂贵的方式。在有限的计算开销下，我们的模型可以在公开的数据集上取得有竞争力的结果。实验表明，特定于个人的互动环境是有效的推断群体活动。更具有挑战性的任务和有效的推理模型留给未来的探索。此外，本文重点研究了人物特征的推理，而一个结合视觉上下文的体面的动态模型[48]则留给未来的探索。鸣谢：我们要感谢Jiayang Ren，Rong Jin和匿名评论者的宝贵反馈。本工作得到了国家自然科学基金项目No.U1609213.7484引用[1] Alexandre Alahi，Kratarth Goel，Vignesh Ramanathan，Alexandre Robicquet，Li Fei-Fei，and Silvio Savarese.社会lstm：人类在拥挤的空间轨迹预测在IEEE计算机视觉和模式识别会议论文集，第961-971页[2] Mohamed Rabie Amer ， Peng Lei ， Sinisa Todorovic 。Hirf：用于视频中集体活动识别的分层随机场。在欧洲计算机视觉会议上，第572-585页。Springer，2014.[3] Sina Mokhtarzadeh Azar，Mina Ghadimi Atigh，AhmadNickabadi，and Alexandre Alahi.用于群体活动识别的卷积关系机在IEEE计算机视觉和模式识别会议论文集，第7892-7901页[4] TimurBag autdinov，Ale xandreAlahi，Franco isFleuret，Pas-cal Fua，and Silvio Savarese.社交场景理解：端到端多人动作定位和集体活动识别。在IEEE计算机视觉和模式识别会议论文集，第4315- 4324页[5] 彼得巴塔利亚Razvan 帕斯卡努马修 Lai，DaniloJimenez Rezende，and Koray kavukcuoglu.交互网络用于学习物体、关系和物理。第30届神经信息处理系统国际会议论文集，第4509-4517页，2016年[6] Michael B Chang、Tomer Ullman、Antonio Torralba和Joshua B Tenenbaum。一个基于组合对象的方法来学习物理动力学。arXiv预印本arXiv：1612.00341，2016年。[7] 陈天水，于伟豪，陈日泉，林亮。用于场景图生成的知识嵌入路由网络在IEEE/CVF计算机视觉和模式识别会议论文集，第6163- 6171页[8] 崔元君和西尔维奥·萨瓦雷塞多目标跟踪和集体活动识别的统一框架欧洲计算机视觉会议，第215-230页。Springer，2012.[9] Wongun Choi，Khuram Shahid，and Silvio Savarese.他们在干什么？：利用人与人之间的时空关系进行集体活动分类。在2009年IEEE第12届计算机视觉工作室国际会议，ICCV工作室，第1282-1289页。IEEE，2009年。[10] Wongun Choi，Khuram Shahid，and Silvio Savarese.集体活动识别的学习环境。CVPR 2011，第3273-3280页。IEEE，2011年。[11] Jifeng Dai，Haozhi Qi，Yuwen Xiong，Yi Li，GuodongZhang，Han Hu，and Yichen Wei.可变形卷积网络。在Proceedings of the IEEE international conference oncomputer vision，第764-773页[12] Navneet Dalal和Bill Triggs。用于人体检测的定向梯度的直方图。在2005年IEEE计算机社会计算机视觉和模式识别会议（CVPRIEEE，2005年。[13] 傅军，刘静，田海杰，李勇，鲍勇军，方志伟，卢汉青.用于场景分割的双注意网络。在IEEE计算机视觉和模式识别会议论文集，第3146- 3154页[14] Chen Gao ， Jiarui Xu ， Yuliang Zou ， and Jia-BinHuang.Drg：用于人机交互检测的对偶关系图。欧洲计算机视觉会议，第696- 712页。Springer，2020年。[15] Kirill Gavrilyuk、Ryan Sanford、Mehrsan Javan和CeesGM Snoek 。用于群体活动识别的演员转换器。在IEEE/CVF计算机视觉和模式识别会议论文集，第839-848页[16] 阿格里姆·古普塔、贾斯汀·约翰逊、李飞飞、西尔维奥·萨瓦雷塞和亚历山大·阿拉希。社会性伙伴：具有生成对抗网络的社会可接受的投射物。在IEEE计算机视觉和模式识别会议论文集，第2255-2264页，2018年[17] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick.面具R-CNN。在IEEE计算机视觉国际会议论文集，第2961-2969页[18] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[19] Yedid Hoshen Vain ： Attentional Multi-Agent PredictiveModeling. arXiv预印本arXiv：1706.06122，2017。[20] Andrew G Howard，Menglong Zhu，Bo Chen，DmitryKalenichenko，Weijun Wang，Tobias Weyand，MarcoAn- dreetto，and Hartwig Adam. Mobilenets：用于移动视觉应用的高效卷积神经网络。arXiv预印本arXiv：1704.04861，2017。[21] 古月虎、伯翠、元禾、山雨。用于群体活动识别的渐进式在IEEE/CVF计算机视觉和模式识别会议论文集，第980-989页[22] Mostafa S Ibrahim ， Srikanth Muralidharan ， ZhiweiDeng，Arash Vahdat，and Greg Mori.一种用于群体活动识别的层次深时间模型。在IEEE计算机视觉和模式识别会议集，第1971-1980页[23] Max Jaderberg，Karen Simonyan，Andrew Zisserman，等.空间Transformer网络。神经信息处理系统的进展，第2017-2025页，2015年[24] Tian Lan，Leonid Sigal，and Greg Mori.人类活动识别的历史模型中的社会角色。在2012年IEEE计算机视觉和模式识别会议上，第1354-1361页。IEEE，2012。[25] Tian Lan，Yang Wang，Weil

下载后可阅读完整内容，剩余1页未读，立即下载