stagNet:一种用于群体活动识别的新型递归神经网络

10 浏览量更新于2023-10-13 收藏 1.87MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

stagNet：一种用于群体活动识别的齐梦诗1、秦杰2、 3、李安南1、王运红1、罗杰波4、吕克·范古尔21北京航空航天大学计算机科学与工程学院北京大数据与脑计算先进创新中心2瑞士苏黎世联邦理工学院计算机视觉实验室3阿联酋Inception人工智能研究所4美国罗切斯特大学计算机科学系抽象。群体活动识别在体育视频分析、智能监控等应用中发挥着重要作用。如何对场景中的时空上下文信息进行建模仍然是一个关键而又具有挑战性的问题。我们提出了一种新的attentive语义递归神经网络（RNN），称为stagNet，用于理解视频中的群体活动，基于时空attentive和语义图。语义图被显式地建模来描述整个场景的空间上下文，其通过结构化RNN进一步与时间因素集成。受益于“空间-时间特征”和“空间-时间估计”，可以实现提取有区别的空间-时间特征和捕获组间关系的一种或多种可能性。此外，我们采用了时空atten- tion模型参加关键人物/帧，以提高性能。两个广泛使用的数据集进行性能评估，广泛的结果证明了我们的方法的优越性关键词：群体活动识别·时空注意·语义图·场景理解1介绍了解运动和监控视频中的动态场景具有广泛的应用，如战术分析和异常行为检测。由于杂乱的背景和混乱的关系等，如何在场景中识别/发现和分组，例如在排球比赛中“被选中”[23]（参见图1），是一个重要但具有挑战性的问题。已经做出了广泛的努力[33，28，51，5，44，4，31，39，38]来解决计算机视觉社区中的上述问题从根本上说，人与人之间的时空关系[17，23，25]是群体活动识别的重要线索在表示这种信息时有两个主要问题。一个是视觉外观的表征，它在识别中起着重要的作用通讯作者：yhwang @buaa.edu.cn.2M. Qi，J.Qin，中国山核桃A.Li，Y.Wang，J.Luo和L.Van GoolFig. 1.基于语义图的群体活动识别流水线。从左至右：（a）通过区域建议网络从原始帧中提取对象建议[14];（b）从文本标签和视觉数据构建语义图;（c）利用结构化RNN将时间因子集成到图中，并通过消息传递和因子共享机制推断语义图;（d）最后，采用时空注意机制来检测关键人物/帧（用红星表示），以进一步提高性能。并描述他们的行为动力学。另一种是空间和时间运动的表征，描述人与人之间的互动在群体活动识别中，传统的时空信息建模方法可以概括为手工特征和概率图模型的组合。在组活动识别中使用的手工制作的特征包括运动边界直方图（MBH）[16]、梯度直方图（HOG）[15]、基数核[19]等。马尔可夫随机场（MRFs）[8]和条件随机场（CRF）[26]已被采用对对象间关系建模。上述方法的一个明显的局限性是，他们采用的低级别功能不足以表示复杂的群体活动和动态场景。随着卷积神经网络（ConvNets）的成功[27，42，20]，深度特征表示已经证明了它们在表示复杂视觉外观方面的能力，并在许多计算机视觉任务中取得了巨大成功然而，典型的ConvNets将视频的单个帧视为输入并输出整体特征向量。利用这样的架构，不能明确地辨别连续帧之间的空间和时间关系。人们之间的时空关系[17，23，25]是场景中群体活动识别的重要线索。它们包括个体的空间表现和时间行为以及它们之间的相互作用。递归神经网络（RNN）[22，11]能够从视频中捕获时间特征因此，非常希望探索一种能够捕获关键时空上下文信息的基于RNN的网络架构。此外，自动描述场景中的语义内容有助于用于更好地理解场景的整体分层结构（例如，s-用于群体活动识别stagNet3端口匹配和监控视频）。然而，这一任务是非常困难的，因为语义描述不仅捕捉个人行为，而且还表达了这些人如何相互关联以及整个群体事件如何发生。如果上述基于RNN的网络也可以描述场景中的语义，我们可以对动态场景有一个基本上更清晰的理解。针对上述问题，本文提出了一种新的基于语义的群体主动学习递归神经网络stagNet。基于时空意图和语义图的城市识别。特别是，个人活动和他们的空间关系推断和表示的一个明确的语义图，和他们的时间相互作用的结构RNN模型集成。该网络通过时空注意机制进一步增强，以重视各种级别的重要性到视频序列中的不同人/帧。更重要的是，语义图和时空注意力是以端到端的方式协作学习的。本文的主要贡献包括：– 我们采用结构化的数据管理方案，以快速地实现独立的访问、特定的相关性和分级访问，并采用了“共享”机制。据我们所知，我们是第一个输出用于理解群体活动的语义图的。– 我们扩展我们的语义图模型的时间维，通过一个结构化的RNN，通过调整的因素或S haring g' m echan是在R NN。– 为了更好的性能，进一步集成了时空注意力机制，该机制强调视频中的关键人物/帧。– 两个基准数据集上的实验表明，我们的框架的性能是具有竞争力的国家的最先进的2相关工作团体活动认可。传统的方法[28，51，5，44，41，35，3，2]通常提取手工制作的时空特征（例如，时间和空间）。 MBH和HOG），随后是用于组活动识别的图形模型。 Lan等人[28]介绍了一种自适应结构算法来模拟潜在结构。Amer等人。 [5]制定了分层随机场（HiRF）来对场景中的分组节点和隐藏变量进行 Shu等人[44]用时空与或图进行了群体、事件和人的角色的联合推理[4]。然而，这些方法采用不能编码更高级别信息的浅层特征，并且经常丢失时间关系信息。最近，已经提出了几个深度模型[23，17，43，50，6，30]用于群体活动识别。Deng等人。 [17]提出了一种通过边和节点之间的门 Wang等人[50]提出了一个循环交互语境框架，它统一了个体、群体内和群体间交互的特征。然而，这些作品中的大多数要么提取单独的功能，而不管场景的上下文或捕获的上下文中的一个隐含的方式没有任何语义信息。在本文中，我们试图通过一个直观的时空模型显式地建模场景上下文4M. Qi，J.Qin，中国山核桃A.Li，Y.Wang，J.Luo和L.Van Gool语义图[37]与RNN。此外，我们采用了时空注意力模型，参加到场景中的关键人物/帧，以获得更好的性能。深层结构模型已经进行了许多研究，通过集成图模型使深度神经网络更加强大 Chen等人[10]将马尔可夫随机场（MRF）与深度学习相结合，以估计复杂的表示。 Liu等人[32]通过使用深度解析网络解决MRF来解决语义图像分割。在[55，29，49]中，使用深度神经网络进行结构化输出学习以进行人体姿势估计。Zheng等人[57]将基于CRF的概率图形模型与用于语义分割的RNN集成。 Zhang等人[56]基于贝叶斯优化的深度ConvNets改进的对象检测[46]。这些工作大多是针对特定任务的，然而，他们可能无法处理时空建模和提取交互信息的动态场景。在[25]中，通过结合高级时空图和递归神经网络提出了结构RNN受[25]的启发，我们通过注入特定的语义信息（例如对象间和人内关系以及场景中的时空动态）来显式地利用语义时空结构图注意力机制。注意机制[24，34，7，9，53，54]已成功应用于视觉和语言领域早期的工作[24]介绍了用于场景识别的基于显着性的视觉注意力模型 Mnih等人[34]是第一个将RNN与视觉注意力整合在一起的人，他们的模型可以通过序列提取选定的区域。[9]提出的机制可以通过深度神经网络捕获图像中特殊对象的视觉注意力 Xu等人[53]介绍了图像字幕的两种注意机制。在[54]中提出了一种时间注意力机制，以基于文本生成RNN选择最相关的帧在这项工作中，我们将我们的时空语义图和时空注意力整合到一个联合框架中，该框架以端到端的方式进行协作训练，以关注视频中更相关的人/帧。3所提出的方法在图1和图2中示出了所提出的用于组活动识别的方法的框架我们利用两层RNN，并集成了两种RNN单元（即 nodeRNN和edgeRNN）到我们的框架中，它是以端到端的方式训练的。特别地，第一部分是从输入帧构造语义图，然后我们通过使用一个结构化的R NN来整合时间因素。该功能是一种虚拟存储空间，可作为存储和存储要素。最后，我们采用了一种新的算法来检测关键人物和帧，以进一步提高性能。3.1语义图在这一小节中，我们将介绍语义图以及从可视数据到语义图的映射。我们基于它们的位置和视觉外观来确定这些图像的几何图形以实现它们的关联如图1（b）所示用于群体活动识别stagNet5不不通过将具有多个人的场景解析成与相应空间位置相关联的一组边界框来构建语义图。特定人的每个边界框被定义为图的节点。描述成对关系的图边由空间距离和时间相关性确定，这将在3.2节中介绍。为了从视频I中的第t帧It生成一组人级建议（边界框），我们采用区域建议网络（RPN），它是基于区域的全卷积网络的一部分[14]。RPN输出位置敏感的分数图作为相对位置，并且将位置敏感的感兴趣区域（RoI）池化层连接在完全卷积层的顶部这些建议被视为输入的图形推理过程。在整个图形建模过程中，推断出三种类型的信息：1）每个人的个人动作标签，2）每个帧中的组间关系，以及3）整个场景的组活动标签。在帧I中，我们将K个边界框的集合表示为 Xt，K），并且人与人之间的关系被设置为R（例如，两个运动员是否属于排球数据集上的同一队）。给定组活动或场景标签集合Cscene，以及个人动作标签集合Caction，我们表示yt∈Cscene作为场景类标签，xact∈Caction作为第i个位置i人的建议，xi作为其空间坐标，xi→j∈R作为预测第i个和第j个建议框之间的关系同时，我们表示所有变量的集合为x ={xact，xpos，xi→j|i = 1，… K; j = l，… K; ji}。我我具体地说，语义图是通过寻找最佳的x和yt来建立的最大化以下概率函数：< x*，yt *>= arg max Pr（x，yt|I，BIt），x，yt Y Yt tt法位置t（一）Pr（x，y | I, BIt)=i，j∈K jPr（y，xi，xi，xi→j|I，BIt）。我在下文中，我们将详细介绍如何推断逐帧语义图结构。3.2图推理受[52]的启发，通过使用平均场并使用长短期记忆（LSTM）网络[22]计算隐藏状态来执行图推理，这是一种有效的递归神经网络。设语义图为G=（S，V，E），其中S是场景节点，V和E分别是对象节点和边。具体地，S表示视频帧中的全局场景信息，对象节点vi∈V（i= l，…K）指示人级提议，并且边E对应于框架中的对象n_odes_V的空间配置。在此字段中，我们应用ximatePr（x，yt|·）byQ（x，yt|·），其仅依赖于缓存和数据的过程状态。LSTM单元的隐藏状态是每个节点和边的当前状态在语义图中我们将ht定义为场景节点的当前隐藏状态6M. Qi，J.Qin，中国山核桃A.Li，Y.Wang，J.Luo和L.Van Gooltttt我图二.我们的nodeRNN和edgeRNN模型的插图。该模型首先从一组对象建议中提取节点和边缘的视觉特征，然后将视觉特征作为nodeRNN和edgeRNN的初始输入。我们引入节点/边消息池来更新nodeRNN和edgeRNN的隐藏状态nodeRNN的输入是edgeRNN的输出，nodeRNN还输出个人行为的标签随后执行最大池化此外，时空注意机制被纳入我们的架构。最后，最上面的节点RNN（即场景节点RNN）输出组活动的标签。并且具有i和 i j，因为相应地产生n个 i 和 i→j的隐藏状态。值得注意的是，所有nodeRNN共享相同的参数集，所有edgeRNN共享另一组参数。Q（x，y）的解 |可以通过如下计算平均场分布来获得：Q（x，y |I，BIt）YK=Q（xact，xpos，yt|hv，ht）Q（hi|fv）Q（ht|f t）我我我i=1Y（二）j/=iQ（xi→j|heij）Q（heij|feij），其中Ft是第t帧中场景的卷积特征，Fv是第i个节点的特征，并且Feij是连接第i个节点和第j个节点的边的特征，其是两个节点上的统一边界框。特征函数是通过计算B索引和索引向量来实现的，其中包括<|DX|、|dy|、|dx + dy|，（dx）2 +（dy）2，arctan（dy，dx），arctan2（dy，dx）>.用于群体活动识别stagNet7所有这些特征都由RoI池化层提取。然后，从其他先前的LSTM单元聚合的消息被馈送到下一个步骤。如图 2 所示， edgeRNN 为 nodeRNN 提供上下文信息，并且在nodeRNN上执行最大池化nodeRN-N相应地连接节点特征和边缘RNN的输出。edgeRNN传递连接到与消息相同的节点的所有边缘特征的总和。edgeRNN和nodeRNN将视觉特征作为初始输入，并产生一组隐藏状态。该模型迭代地更新RNN的隐藏状态。最后，使用RNN的隐藏状态来预测逐帧场景标签、个人动作标签、个人位置信息和组间关系。消息传递[52]可以迭代地提高语义图中的推理效率。在图拓扑中，egdeRNN的邻居是nodeRNN。通过整个图传递消息涉及两个子图：以节点为中心的子图和以边为中心的子图。对于以节点为中心的子图，nodeRNN从其相邻的edgeRNN接收消息。类似地，对于以边为中心的子图，edgeRNN从其相邻的nodeRNN获取消息。我们采用了一个聚合函数称为消息池学习自适应权重建模的重要性，通过消息。我们计算每个传入消息的权重因子，并通过表示的总权重聚合消息。证明了该方法比平均池化或最大池化更有效[52]。具体地，我们将输入到第i个节点vi的更新消息表示为mvi，并且将输入到第i个节点和第j个节点的数据分别表示为mij。然后，我们计算传递到节点的消息，该消息考虑其自身的隐藏状态和其连接的隐藏状态。并且获得传递到边缘中的关于其广告的隐藏状态的消息。通常，mviandmeijare构成为mv= Σ σ（UT[hv，he]）heΣ+σ（UT[hv，he]）he，我j：i→j1伊伊季IJj：j→i2伊吉吉（三）me=σ（WT[hv，he]）hv+σ（WT[hv，he]）hv，ij1伊济伊2j ij j其中，W1、W2、U1和U2是要学习的参数，σ是S形函数，并且d[·，·]是两个独立向量的连续性。最后，利用这些消息迭代地更新节点RNN和边RNN的隐状态。一旦完成更新，隐藏状态然后被用来预测个人动作类别、边界框偏移和关系类型。3.3整合时间因素利用框架的语义图，进一步整合时间因素以形成时空语义图（参见图1（c））。特别地，我们采用结构化RNN [25]来建模时空语义图。基于3.1节和3.2节中的图定义，我们添加时间边ET，使得G=（S，V，ES，ET），其中ES指的是空间边。节点8M. Qi，J.Qin，中国山核桃A.Li，Y.Wang，J.Luo和L.Van GoolvT-1TT+1图3.第三章。排球比赛的层次语义RNN结构给定所有播放器的对象proposals和tracklet，我们将它们馈送到空间CNN中，然后由RNN来表示chaplayer的act i o n和a p e a n c e f h h ol e c e e n e。该方法使用结构RNN来建立帧序列的时间链接。此外，我们将基于LSTM的时空注意力机制集成到模型中。最后，我们列出了一个增长速度最快的例子。vi∈V和边e∈ES∪ET在时空语义图中随时间进行注册。具体地，在相邻时间步处的节点，例如在时间t和时间t+1与时间边缘eii∈ET相连。表示标记为yt节点以及节点和边的对应特征向量没有被定义为ft，ftattimet，respectively。我们要把这件事处理好v e机制，其指示表示相同人的节点和表示相同关系的边倾向于共享因子（例如，参数，RNN的原始隐藏状态）。图3显示了排球比赛视频中三个时间步长的结构RNN的示例。有关结构化RNN的更多技术细节，请参阅[25]。我们在时空图中定义了两种边（edgeRNN）一种是表示空间关系的spatial-edgeRNN。它是由一个随机框架中的s-p平均值组成的，并使用欧氏距离从该随机框架的节点RNN中计算出来另一种是连接同一播放器的相邻帧以表示i 〇 n处的时间信息的时间边缘RNN。它是由在一个视频序列中的任意一个神经网络中的两个并行因子形成的我们将两个连续帧之间的空间edgeRNN的特征合并到时间edgeRNN中，从而产生12个额外的特征。在训练阶段，预测场景节点和对象节点的标签的误差通过sceneRNN、nodeRNN和edgeRNN反向传播。传递的消息表示nodeRNN和edgeRNN之间的交互nodeRNN连接到edgeRNN，并输出个人动作标签。每个edgeRNN同时对相邻节点之间的语义交互以及交互随时间的演化进行建模。场景节点RNN人节点RNN空间CNN时间链接空间链接视觉功能链接空间注意空间注意空间注意时间注意力时间注意力用于群体活动识别stagNet9t−1t−1t，kt−1t−13.4时空注意机制群体活动涉及多个人，但只有少数人在活动中起决定性作用。举例来说，在所有比赛中，通常发生特定运动员扣球而另一运动员未能接球的情况为了更好地了解小组活动，有必要参加对关键人物的更高级别的重要性。受[40，47]的启发，我们采用时空软注意机制，在每个时间步关注包含关键人物或物体的利用注意力模型，可以将注意力集中在特定帧中的特定人身上，提高群体活动的识别准确率。由于个人层面的注意力往往受到群体活动的演变和状态的影响，因此需要考虑上下文信息。特别是，我们将同一个人的建议与KLT跟踪器结合起来[36]。通过从帧序列中结合上下文信息，可以提取球员的整个表示。我们应用空间注意力模型，通过LSTM网络为不同的人分配权重具体地，给定涉及K个玩家的一个帧，Xt=（Xt，1，…xt，K），我们定义得分st=（st，1，…st，K）T作为一个框架中所有部件级别的影响：st=Ws tanh（Wxsxt+Uhshs+bs），（4）其中Ws、Wxs、Uhs是可学习的参数矩阵，bs是偏差vector.HS是来自LSTM单元的隐藏变量。对于第k个人，空间注意力权重被计算为分数的归一化：α=α exp（st，k）.（五）t，kKi=1 经验 t，i）随后，LSTM单元的输入被更新为x’=（x’）。、...、x′）T，t t，1t，K其中x′=αt，k×t，k。然后，可以使用参与的玩家的表示作为3.1节中描述的时空语义图中的RNN节点的输入。帧级时间注意我们采用时间注意模型来发现关键帧。对于视频中的T帧，时间注意力模型由LSTM层、全连接层和非线性ReLU单元组成第t帧的时间注意力权重可以被计算为βt= ReLU（Wxβxt+Uhβhβ+bβ），（6）其中xt是当前输入，hβ是时间步长t-1的隐变量时间注意力权重控制每个帧的多少信息可以用于最终识别。接收主LSTM的输出zt10M. Qi，J.Qin，中国山核桃A.Li，Y.Wang，J.Luo和L.Van Gool场景|e我场景网络和每个时间步t的时间注意力权重βt，C场景类的重要得分是w.r.t.所有时间步长：ΣTo=t=1βt·zt，（7）其中〇 =（〇1，〇2，···，〇C）T。视频I属于第i类是伊伊伊p（CsceneI）=ΣCsceneoj.（八）j=13.5联合目标函数最后，我们用正则化的交叉熵损失来制定总体目标函数，并将语义图建模和时空注意力网络学习结合为L=− CΣscene yilogyi−1ΣKxlogx+i=1ΣKΣTαKiii=1λΣT（九）λ（1 −t=1t，k）2+2ǁβǁ+λW，1Tk=1TT2 3 1t=1其中yi和x分别表示群体活动和个人行动的基础事实标签。如果视频序列被分类为第i个类别，则yi= 1并且dyj=0或ji=i。 i=p（Ci|I）在以下条件下可实现icl与所述内容一样。xi =p（Caction）|BIt）是一个很好的机会，个人行为属于第i类。对于分类，我们对隐藏的表示进行最大池化，然后进行softmax分类。λ1、λ2和λ3表示正则化项。第三正则化项确保在空间空间中关注更多的人，并且第四项通过2归一化来正则化最后一项正则化时空注意力机制的所有参数[47]。4实验我们评估我们的框架上两个广泛采用的基准，即。用于群体活动识别的集体活动数据集，以及用于群体活动识别和个人动作识别的排球数据集。集体活动[13]包含44个视频剪辑（约2，500帧，由低分辨率摄像机捕获），其中有五个群体活动：交叉，等待，排队，行走和交谈，以及六个个体动作：N/A，交叉，等待，排队，行走和交谈。组活动标签基于个人活动的平均值来提供。根据[28]中的模拟实验设置，我们使用[12]中提供的轨迹片段数据场面用于群体活动识别stagNet11我们将其建模为一袋单独的动作上下文特征描述符，并且我们选择1/3的视频剪辑用于测试，其余的用于训练。排球[23]包含55个排球视频，其中有4，830个注释帧。每个球员都有一个边界框和九个个人动作标签之一：等待，设置，挖掘，下降，扣球，阻挡，跳跃，移动和站立。整个帧用八个组活动标签中的一个来注释：右组、右扣球、右通过、右赢点、左赢点、左通过、左扣球和左组。在[23]之后，我们选择23的视频用于训练，剩下的1/ 3用于测试。特别地，我们使用[23]中的策略将每个帧中的所有玩家分成两组，并定义了四个额外的团队级别活动：攻击，防御，赢和输。标记的数据有利于训练我们的语义RNN模型。4.1实现细节我们的模型使用TensorFlow [1]库实现我们采用在ImageNet上预训练的VGG- 16模型[45]，然后分别在Collective Activity和Volleyball数据集上进行微调基于[14]，我们只使用VGG-16的卷积层并连接1024-d 1× 1卷积层。因此，每个帧由1024-d特征向量表示具体地，人边界框被表示为2805-d特征向量，其包括1365-d外观信息和1440-d空间信息。基于RPN检测器[14]，可以通过骨干网络馈送裁剪和调整大小的边界框来提取外观特征，并利用空间池化从下层获得响应图。为了在多个尺度上表示边界框，我们遵循[14]并使用空间金字塔池[14]，相对于32× 32的空间直方图。用作节点和边的LSTM层包含1024-d隐藏单元，并且通过在每个时间步的输出上添加softmax loss来训练我们使用softmax层来生成组活动类和动作类的得分图。用于训练LSTM底层和RPN全连接层的批量大小为8，并且训练在20，000次LSTM的顶层在10，000次迭代中进行训练，批量大小为32. 为了优化，我们采用RMSprop [21]，学习率范围从0.00001到0.001，用于小批量梯度下降。实际上，我们将{λ1，λ2，λ3}设置为{0.001，0.0001，0.0001}用于集体活动，{0.01，0.001，0.00001}用于卷-排球此外，本文中的训练和输出语义图被记录为JavaScript对象表示法（JSON）文件，这是用于提取结构数据的流行工具4.2比较方法我们将我们的方法与VGG-16网络[45]，LRCN [18]，HDTM [23]，上下文模型[28]，深层结构模型[17]，基数核[19]，12M. Qi，J.Qin，中国山核桃A.Li，Y.Wang，J.Luo和L.Van Gool表1.我们的方法和国家的最先进的方法的性能比较。方法语义？精度集体活动排球（集团）排球（个人）VGG-16-图像[45]×××××××××××××√×68.371.7-VGG-16-人[45]71.273.5-[18]第十八话64.263.1-[18]第十八话64.067.6-HDTM（1组）[23]81.570.375.9HDTM（2组）[23]-81.9-[28]第二十八话79.1--深层结构模型[17]80.6--Kernel [19]83.4--欧洲核子研究组织（CERN-1）[43]84.834.469.0欧洲核子研究组织（CERN-2）[43]87.273.5-欧洲核子研究组织（CERN-2）[43]-83.3-SSU-颞叶（MRF）[6]-87.1-SSU-颞叶（GT）[6]-89.982.4Ours w/o attention（PRO）Oursw/attention（PRO）Ours w/o attention（GT）Ours w/attention（GT）√√√85.687.987.789.185.787.687.989.379.6-81.9-“P R O”和“G T”分别表示两种使用的基于p r o p os a l - b a s ed和g r o und - t r u t h b o und i ng b o x es [ 23 ]。最佳性能以红色突出显示，第二佳性能以蓝色突出显示。CERN[43] 和 SSU[6] 。特别地，在表 1 中， “VGG-16- I mage”和“LRCN-I m age”利用了在用于重新生成的结构中的所述holeis i c i c i m age f e ate。“V GG - 16- P e r s on”和“LR C N- P e r s on”使用具有不同固定大小和不同级别的应用程序提供了一个组。“HD T M”和“C E R N”使用分组策略在排球数据集上进行了测试，该分组策略将所有的数据划分为一个或两个组。SSU- t em p or al 'model在排球数据集上采用了两种检测方法，其中一种使用地面真值（GT）边界框，以及另一种使用马尔可夫随机场（MRF）b作为检测器。不是' LR C N'、' HD T M '和' D ee p S t r u c t ur e M o d e l '将Al ex Ne t [ 27]作为备份，而是' SS U'从RAM k中执行I ce p t i o n - V3 [ 48]，其中' C E RN'和我们的M o ded e u t i l i l iti t i t e V GG - 16存档。4.3结果和分析集体活动数据集上的结果。组活动识别的实验结果示于表1中。可以看出，我们的模型与注意力模型相比，在最先进的方法中实现了最佳性能，无论使用基于建议的边界框还是地面实况边界框。例如，我们的模型比图像级和人级分类方法的准确率高出约15%，这主要是因为我们基于RNN的语义图和迭代消息传递方案。同时，用于群体活动识别stagNet130.650.04 0.01 0.300.090.710.00 0.190.00 0.000.98 0.020.15 0.03 0.000.820.00 0.00 0.00 0.010.99穿越等待LpassRpassLset排队RsetLspike步行Rspike说话交叉口等候排队步行交谈(a) 集体活动伦·伦LpassRpassLsetRset尔斯派克 RspikeLwinRWIN(b) 排球图4.第一章两组活动数据集的混淆矩阵我们的方法是唯一将语义结合到模型中的方法。改进的性能也表明时空语义图有利于提高识别性能。注意，基数核方法[19]在非深度学习方法中实现了最佳性能。这种方法通过直接计数来预测组活动标签基于手工制作的特征的个体动作的数量。此外，我们基于我们的模型绘制混淆矩阵，其中时空注意力在图4（a）中。我们可以观察到，可以获得接近100%的识别准确率，从而提高了我们的框架的效率然而，也存在一些失效情况，这可能是由于某些机械元件具有高度的相似性，例如“行走”和“旋转”。需要更多的训练数据来区分这些动作类别。排球数据集上的结果。我们的方法和最先进的方法的识别结果如表1所示。可以看出，我们的模型在群体活动和个人行为识别准确率上优于大多数人，也优于最好的SS U met h o d。它不是由“SSU”通过更复杂的多尺度方法获得的，并采用更先进的Inception- V3作为主干。相比之下，我们仅采用基本的VGG-16模型，并且通过[23]提供的一种相对简单的策略，我们可以使用一种新的方法来构建块。因此，可以预期，我们的表现可以通过采用更先进的骨干网络进一步改善此外，我们的模型优于其他基于RNN的方法约5〜 8% w.r. t。组活动识别，因为我们的语义图与结构RNN可以捕捉时空关系。结合注意力模型可以进一步提高识别的准确性，因为视觉特征上的关键点是识别整个场景标签的关键。还值得注意的是，包括“SSU”在内的所有其他方法都不可能提取描述场景上下文的结构信息。相反，由于我们的语义图模型，我们的方法可以输出场景的语义描述我们在图5中直观地描绘了识别结果，包括语义0.790.050.100.000.030.020.000.010.030.830.000.100.020.020.00零点0.070.010.870.010.020.010.01零点0.040.180.010.700.000.050.02零点0.030.020.040.000.900.010.00零点0.010.020.020.050.020.870.01零点0.020.020.020.000.000.000.890.050.020.010.010.000.000.000.060.9014M. Qi，J.Qin，中国山核桃A.Li，Y.Wang，J.Luo和L.Van Gool(a)（b）第（1）款图五、排球数据集上结果的可视化（a）通过我们的方法获得的语义图（b）从上到下：群体活动和个人行动识别结果;使用基于提议的边界框的注意力热图;使用地面实况边界框的注意力热图重要人物用红星表示注意权重随着颜色从红色到蓝色的变化而减小。图表和注意力热图。此外，使用我们的方法的混淆矩阵如图4（b）所示。从图中可以看出，我们的方法可以在大多数群体活动方面实现有希望的识别准确率（≥87%）。5结论在本文中，我们提出了一种新的RNN框架（即stagNet）与语义图和时空注意力的群体活动识别。stagNet可以显式地提取时空对象间的关系，在一个动态的场景与语义图。通过nodeRNN和edgeRNN的推理过程，我们的模型可以同时预测场景的标签和人与人之间的关系。通过进一步整合时空注意机制，我们的框架出席了重要的人或帧的视频，从而提高识别性能。两个广泛采用的基准测试的广泛结果表明，我们的框架取得了竞争力的结果，以国家的最先进的方法，同时唯一输出的场景的语义描述。鸣谢本论文部分得到了国家自然科学基金（No.61573045）和创新研究群体基金通过国家自然科学基金（No.61421003）。Jiebo Luo感谢纽约州通过 GoergenInstituteforDataScience 和 NSFAward（No.1722847）。齐孟诗感谢国家留学基金管理委员会的资助。用于群体活动识别stagNet15引用1. Abadi，M.，Agarwal，A.，Barham，P.，Brevdo，E.，陈志，西特罗角科罗拉多州科拉多戴维斯，A.，迪恩J Devin，M.：Tensorflow：异构分布式系统上的大规模机器学习。2016年《ArXiv2. Amer ， M.R. ， Todorovic ， S. ：用于活动识别的和积网络。IEEETransactionPater nAnalysisandMachineIntelligence38（4），8003. Amer，M.R.，Todorovic，S.，Fern，A.，Zhu，S.C.：基于蒙特卡罗树搜索的活动识别方法。In：ICCV. IEEE（2013）4. Amer，M.R.，Xie，D.，赵，M.，Todorovic，S.，Zhu，S.C.：用于多尺度活动识别的成本敏感的自顶向下/自底向上推理。In：ECCV. SpringerInternational Publishing（2012）5. Amer，M.R.，Lei，P.，Todorovic，S.：Hirf：用于视频中集体活动识别的In：ECCV.Springer International Publishing（2014）6. Bagautdinov，T.，Alahi，A.，Fleuret，F.，Fua，P.，Savarese，S.：社会场景理解：端到端多人动作定位和集体活动识别。在：CVPR中。IEEE（2017）7. Bahdanau，D.，周，K.，Bengio，Y.：通过联合学习对齐和翻译的神经机器翻译。载于：ICLR（2015）8. Bengio，Y.，LeCun，Y.，亨德森，D.：使用空间表示、卷积神经网络和隐马尔可夫模型进行全局训练的手写单词识别器。在：NIPS。Mrs. Putter（1994）9. Cao，C.，Liu，X.，中国科学院院士，杨，Y.，Yu，Y.：仔细看，三思而后行：用反馈卷积神经网络捕获自上而下的视觉注意力。In：ICCV. IEEE（2015）10. Chen，L.C.，Schwing，A.G.，尤伊尔，A.L.，乌尔塔松河：学习深度结构化模型。ICLR（2014）11. Cho，K.， VanMerrr riénboer，B.， Bahdanau，D. ，Bengio，Y. ：在神经机器翻译的过程中：编码器-解码器方法。02 The Dog（2014）12. Choi，W.Savarese ，S.：多目标跟踪和集体活动识别的统一框架In：ECCV.Springer International Publishing（2012）13. Choi，W.Shahid，K.，Savarese，S.：他们在干什么：使用人与人之间的时空关系的集体活动分类在：ICCV研讨会。IEEE（2009）14. Dai，J.，李，Y.，他，K.，孙杰：R-fcn：通过基于区域的全卷积网络的目标检测。在：NIPS。MIT Press（2016）15. Dalal，N.，Triggs，B.：用于人体检测的定向梯度直方图。在：CVPR中。IEEE（2005年）16. Dalal，N.，Triggs，B.，Schmid，C.：使用流量和外观的定向直方图进行人体检测。In：ECCV.Springer International Publishing（2006）17. 邓志，Vahdat，A.，Hu，H.，Mori，G.：结构推理机：用于分析群体活动识别关系的递归神经网络。在：CVPR中。IEEE（2016）18. Donahue，J.，洛杉矶的亨德里克斯Guadarrama，S.，Rohrbach，M.：用于视觉识别和描述的长期递归卷积网络。在：CVPR中。IEEE（2015）19. Hajimirsadeghi，H.，Yan，W.，Vahdat，A.，Mori，G.：Visual recognitionby counting instances：A multi-instance cardinality potential kernel.在：CVPR中。IEEE（2015）20. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习。在：CVPR中。IEEE（2016）16M. Qi，J.Qin，中国山核桃A.Li，Y.Wang，J.Luo和L.Van Gool21. Hinton，G. Srivastava，N.，Swersky，K.：机器学习的神经网络.第6a讲.小批量梯度下降22. Hochreiter，S.，Schmidhuber，J.：长短期记忆。神经计算9（8），173523. Ibrahim，M.S.，Muralidharan，S.，邓志，Vahdat，A.，Mori，G.：一种用于群体活动识别的层次深时间模型在：CVPR中。IEEE（2016）24. 伊蒂湖Koch，C.，尼布尔，E.：基于显著性的快速场景分析视觉注意模型。IEEE Transactions on Pattern Analysis and Machine Intelligence20（11），125425. Jain，A.，Zamir，A.R.，Sav

下载后可阅读完整内容，剩余1页未读，立即下载