群体活动识别的卷积关系机模型及其表征空间关系的活动图

67 浏览量更新于2023-10-19 收藏 691KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7892用于群体活动识别的Sina Mokhtarzadeh Azar1岁，Mina Ghadimi Atigh1岁，Ahmad Nickabadi1岁，Alexandre Alahi2岁 Amirkabir科技大学（AUT），SML实验室424 Hafez Ave，德黑兰，伊朗{sinamokhtarzadeh，minaghadimi}@ aut.ac.ir2洛桑理工学院（EPFL），VIT A实验室CH-1015Lausanne，Switzerland摘要我们提出了一种称为卷积关系机（CRM）的端到端深度卷积神经网络，用于识别群体活动，该群体活动利用图像或视频中个人之间的空间关系信息。它学会根据个人和团体活动生成中间空间表示（活动图）。多阶段细化组件负责减少活动图中的错误预测最后，聚合组件使用精炼的信息来识别组活动。实验结果表明，建设性的贡献的信息提取和活动地图的形式表示。CRM在排球和集体活动数据集上显示出优于最先进模型的优势。1. 介绍人类活动可分为两类：或者涉及单个人的单独动作例如，跑步/跳跃，或涉及多人的集体活动，聊天/聊天。识别群体活动需要理解个体行为以及群体个体的联合建模。这在诸如体育视频分析、监视、甚至需要以社会感知方式围绕人类操作的社交机器人（例如，两个人互相交谈在这项工作中，我们提出了一个场景的单个或几个连续的图像进行分类的群体活动。我们不会明确检测或跟踪任何个人。有多种信息来源可以帮助识别活动。来源之一是个体的外表特征。许多活动都可以通过了解人的长相来进行。时间信息-*同等贡献活动图个人活动地图团体活动地图右侧加标图1.使用建议的空间表示（活动图）进行群体活动识别。我们的模型学习以活动地图的形式编码空间关系，并使用它来识别群体活动（本例中的“右尖峰”）。不同的个人和团体活动领域显示不同的颜色。视频的连续帧之间的信息在理解复杂活动中也起着重要作用另一个最近探索的信息来源，在推理的群体活动是个人之间的关系，在一个场景。一些现有的方法使用各种池化策略来提取关系线索的一部分[2，20，13]。在[12]中，使用更复杂的方法从相邻个体中提取关系信息。然而，现有的方法没有充分利用所有可用的信息来建模人与人之间的空间关系人们可能期望卷积神经网络（CNN）来提取这些关系。我们的实验表明，CNN很难学习高级关系。因此，我们引入了一种机制来共同考虑个人之间的关系。在本文中，我们提出了一种用于群体活动识别的卷积神经网络模型，称为卷积关系机（CRM），其中我们引入了一种基于活动的中间表示-活动7893人之间的活动。除了这个表示方案之外，我们还使用类似于[27]的多阶段方法来训练我们的架构我们的方法从输入图像或视频生成初始活动图，然后通过几个步骤对其进行细化的活动图与图像或视频特征相结合，最终的聚合模块负责对组活动进行分类（见图1）。我们的实验表明，我们优于以前的作品在两个公开的数据集。2. 相关作品首先，我们提出了一个概述的作品在行动识别。然后，对群体活动识别的一些关键工作进行了综述。2.1. 动作识别动作识别中的许多最近的工作都利用了双流CNN模型，输入RGB和从视频的连续帧中提取的手工光流特征[22，9，25，3]。双流方法首先在[22]中使用，在单个RGB帧上训练CNN以提取外观线索，在堆叠的光流场上训练另一个CNN这些流使用简单的融合方法组合费希特-恩霍夫等。[9]研究更复杂的融合策略，将两个流结合起来。在[25]中，提出了时间段网络，通过将视频划分为段并对从这些段采样的片段应用多流模型来在另一种方法中，[3]将现有的2D CNN转换为具有3D滤波器的CNN，以便能够一起处理多个RGB帧。有趣的是，他们仍然发现将他们的模型应用于多个光流场并将结果与RGB流融合是有用的。其他一些作品使用递归方法来对视频[8，18，19，17]或甚至单个CNN[11]中的动作进行Donahue等人[8]提出了长期递归卷积网络模型，该模型使用LSTM将来自多个帧的CNN特征结合起来以识别动作。在另一项工作 [17]中，VideoL-STM被开发用于动作分类和定位。该模型采用空间注意机制，利用帧间2.2. 团体活动识别最初的群体活动识别方法是基于概率图形模型。[15]在图形模型中对人与人以及人与组的关系进行建模。在这种方法中，最佳的图形连接和最佳的个人行动和组活动标签的集合被推断。在[4]中提出了一个联合概率框架，用于跟踪个体并推断其群体活动。考虑到深度神经网络最近在计算机视觉领域的成功，各种工作研究了使用深度学习的群体活动识别。Deng等[7]使用CNN分类器产生一元电位，并开发一个神经网络，执行消息传递以细化初始预测。在[6]中，通过递归神经网络（RNN）在具有人和组节点的图中执行消息传递。该图的连接由一些门控函数控制。最近许多基于深度学习的群体活动识别工作利用RNN的能力来建模考虑时间域的活动识别[13，20，24，26，21，2，16，12]。使用RNN进行群体活动识别的想法始于[13]，该想法使用长短期记忆（LSTM）网络来对个体进行建模，并将其表示汇集到一个特定的LSTM中，用于对群体活动进行建模。在[20]中，注意力集中被用来赋予关键参与者更高的重要性。在[24]中引入了以人为中心的特征作为分层LSTM的输入Wang等人[26]介绍了一种基于人、组和场景表示的三级模型。LSTM对每个人的建模都类似于以前的模型。这些LSTMS的输出表示被时空分组和处理，以形成组表示，然后用于进行场景级预测。在[21]中，使用了一个新的能量层来代替softmax层，softmax层也考虑了预测的p值。Bagautdinov等人[2]介绍了一种用于联合检测、个体动作分类和群体活动识别的端到端框架在另一项工作中，作者在[16]开发一个模型，该模型基于自动生成的标题形式的语义信息来识别组活动。最近，Ibrahimet al. [12]提出了一种分层关系网络，以基于人的关系产生表示。我们的工作目标与[12]相似。3. 该模型我们的方法的目标是通过引入一个中间的基于活动的表示，我们称之为活动地图作为一种手段，提取活动之间的空间关系的人，以提高群体活动的识别性能。与这种表示方案一起，提出了一种多级神经网络模型，用于从输入图像或视频生成初始活动图，然后在后续步骤中对其进行细化。最终的活动图用于进行更高层次的推理，以预测群体活动。在下面的小节中，我们首先重新查看模型的总体轮廓，然后更详细地讨论模型的重要组件。78941不∈联系我们M11M′′′′′′M2MMmM2m myMm输入K× H× W× CpCNN（2D或LA1LA2LATLG特征图′ ′高×宽×D的Tζp一个2T−1ψ1ϕ的1一A我的G图2.我们提出的模型的概述输入图像或视频由2D或3D CNN处理以产生初步特征图F，其然后用于活动图预测和组活动识别步骤两者。初始活动图A包含空间表示中的个体和群体活动图由φ生成。接下来，使用以下方法分多个阶段细化活动图：不客气。最后，聚集组件将来自F的信息与精细化的活性图A的信息相结合，以预测最终的组活性标记为p。 LAt是阶段t中预测的和真实的活动图之间的欧几里得损失，并且LG是组活动的交叉条目损失。地面实况活动图A由群体活动图AG和个体活动图AI组成。3.1. 概述我们的模型概述如图2所示将X∈RK×H×W×C定义为CRM的输入，其中H在具有特定个人操作或组活动标签的人员的边界框内具有更高的值活动图使模型从人与人之间的空间关系中提取信息成为可能。在那里-和W是输入的高度和宽度，K和C′ ′分别是帧数和通道数。当K=1时，在压缩第一维之后，输入与4维输入帧序列上的3D CNN和3维RGB单帧上的常规CNN兼容。特征图由因此，地面实况活动图A∈RH×W×N被生成为个体活动图AI∈RH×W×NI和基团活度图AGRH×W×NG。特别地，基于人的边界框及其内部，使用2D高斯概率密度函数′CNN和空间大小调整为H′×W. 3维个人活动和小组活动，以构建活动地图。在这项工作中使用了特征图。因此，在使用3D CNN，计算来自不同时间维度的特征图的平均值以形成输入特征图F 对于模型的其余部分，∈RH×W×DD在训练过程中，考虑输入中的M人活动图是通过获取每个边界框B∈RM×4，它们各自的动作类I∈ {1，. . .，N I}，以及组活动类是CNN所选层中的过滤器数量。给定特征图F作为CRM的输入，它支持G1、. . .，NG . 对于每个人m，边界框Bm=（x1，y1，x2，y2），个体作用i，群"活动g，产生人的特定活动图Am在每一个阶段引入了活动映射A_t∈RH×W×N其中N=NI+NG，其中NI和NG分别是个体和组活动类这些细化阶段将产生最终细化的活动图其中T是级数。纠正的行为如：fm（z）=1√exp.−1（z−µ2）T−1（z−µΣ）、（一）地图A与特征图F一起被作为输入给出，嗯嗯2 π 代特姆CRM的聚合组件（aggregation component，CRM）进行最后的定义，基于场景中所有人的活动之间µm=（µx，µy），µxx1+x2=，µy1+y2（2）嗯嗯2m23.2. 活动图Σm=σx20 Σ2，σx=m−xm，σy=m−ym，活动地图被定义为一组2D字段，表示-个人和团体的活动，考虑到约束-0σy m4米4（三）人的盒子。这意味着在活动地图中有一个针对每个个人和团体活动的每个地图Xy7895其中fm（z）是对域i中的每个点z和人特异性活动图Am的NI+g。μm是7896∈）的情况下，人m的边界框的中间。BWM是基于边界框的宽度和高度为边界框计算的协方差矩阵。边界框沿着垂直线和水平线，这使得协方差矩阵对角化。将在人员特定活动图的个体动作和组活动字段中的人员边界框的位置上创建双变量高斯图每个字段通过将值除以字段中的最大值最后，通过取对准点的最大值来对准和组合所有个人特定活动图（Ams），以形成最终活动图A。结果，对于单个输入，取决于每个人的个体活动标签，人将在活动图中的各种个体活动字段中具有2D高斯图，但是在组活动图中，只有一个字段将具有针对所有人的2D高斯图，并且其他组活动字段将为零。在测试时，模型必须根据输入特征图F生成活动图。应该注意的是，在人的分割掩模可用的情况3.3. 卷积关系机卷积关系机有两个主要部分：精化和聚集。在细化部分，类似于卷积姿态机[27]，CRM在第一阶段产生初始预测，并在接下来的阶段对其进行细化。在细化之后，聚合组件负责聚合来自整个场景的信息和细化的活动图以产生组活动标签。3.3.2聚集考虑到细化的活动图A_T作为人的活动之间的空间关系的丰富表示以及特征图F，聚集部分旨在聚集来自所有人的信息以产生最终的组活动标签。通过联合处理输入特征和最终活动图来预测群体活动，如下所示：p=（FAT），（5）其中pRNG是群体活动类别的预测概率向量。在特征图和活动图的连接上使用卷积和池化层来产生最终的组活动预测。如果我们将内核大小为x且步幅为2的池化层表示为pool（x），它由一系列层conv（7）、pool（2）、conv（7）、pool（2）、conv（7）、pool（2）、conv（1）组成，后面是一个全局平均池化层。通过这种方式，模型将能够全局地提取线索并预测群体活动。对于机器学习来说，联合推理特征图和活动图是很重要的。如果活动图是唯一的输入到活动图，它3.3.3培训CRM具有多任务目标。它必须学会尽可能准确地预测阶段t的活动图At此外，它还需要产生正确的组活动标签。具有用于个体和群体活动的基础事实活动图A，损失函数被定义为：L=wALA+wGLG，（6）3.3.1细化给定输入特征图F，函数φ在其上工作以1LG=−NJiangGpilog（pi），（7）产生初始活度图A在第一阶段。在Gi=1接下来的步骤，另一个函数101在组合上工作，LA=LA1+LAt+···+LAT，（8）将F和A1进行比较，以产生精确的活度图A2。CRM的细化组件可以写为′ΣHLA=′ΣW ΣN （Ah，w，n−Ah，w，n2（9）如下所示：tt th=1w=1n =1A1=φ（F），其中LA是总活动图损失，LAt是阿勒特 =0.0000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000（FAt−17897⊕（四）），1t =T， <阶段t的活动图，LG是组活动损失，L是模型的总多任务损失。所以，P其中，T是级数，表示级联。第φ和φs由一系列卷积层组成。将conv（x）表示为内核大小为x且步幅为1的卷积层。φ由三个conv（3）和两个conv（1）组成。所有的层都有相同的层，这与φ中的层不同。使用三个conv（7）和两个conv（1）来构造最优解。有关这些层的详细信息，请参见补充表示独热编码的组活动标签。 wA和wG分别控制总活动图和组活动损失的重要性为了使模型在训练多任务损失方面的工作更容易，使用了两步训练策略。在第一步中，将wG设置为0。因此，该模型专注于学习以产生真正的活动图。在第一步之后，wG和wA都被赋予非零值，以使所有的7898××权重一起优化。由于主要目标是预测群体活动，因此应将wA设置为小于wG，以便更加强调准确的群体活动类别预测。4. 实验在本节中，我们将介绍两个最重要的群体活动数据集的实验：[13]集体活动[5]。与基线和国家的最先进的集团活动识别方法的比较，提供了显示的模型的不同组件的作用，其优于现有的模型。4.1. 数据集排球数据集。在这个数据集中，有55个排球比赛的视频。在每个视频中标记了一些短长度的剪辑39个视频用于训练，另外16个视频用于测试。所有的剪辑由41个帧组成，其中只有中间帧被标记有边界框和人的动作以及组活动标签。可能的个人动作标签是扣球，阻挡，设置，跳跃，挖掘，站立，跌倒，等待和移动。组活动标签是右扣球、左扣球、右套球、左套球、右传球、左传球、右赢点和左赢点。集体活动数据集。该数据集由44个视频组成，每个视频中有不同数量的帧。的为训练集和测试集选择的视频数量分别为31和13。所有视频的每第10帧都标记有人物及其个人动作的边界框。最频繁的个体动作标签被认为是标记帧中的组活动标签。可能的个人行动和群体活动标签是谈话、排队、等待、穿越和步行。4.2. 基线我们在不同的基线上进行实验，以显示我们模型的每个部分的影响。在这里，报告的结果是在排球数据集上。评估的基线5. 阶段3-活动图：与前面的基线相同，只是使用了第3阶段活动图和特征图的连接。6. 阶段4-活动图：我们针对单帧情况的完整模型，类似于前三个基线，但具有来自第4阶段输出的精细活动图。7. 阶段4-组-活动-映射：类似于先前的基线，但没有个别活动的地图。8. 阶段4-活动地图-池：在该基线中，聚集组件被简单的池机制替换，其中在组活动字段中的人的框上具有最高总和的组活动被选择为最终的组活动标签。9. 阶段4-活动-地图-I3 D-RGB：在此基线中，RGB视频帧被提供给I3 D CNN主干。此外，第4阶段细化的活动图被用作对活动图的输入。10. 阶段4-活动-地图-I3 D-流程：该基线类似于先前基线，除了帧之间的光流场的堆叠是I3 D的输入。11. 第4阶段-活动图-I3 D融合：这是我们最终的多帧输入模型，它是两个先前基线结果的平均融合。4.3. 实现细节我们使用Tensorflow [1]来实现我们的模型。使用具有不同学习率的Adam优化器[14]来训练我们的模型。Inception-V3 [23]和I3 D [3]分别是用于单帧和多帧情况的骨干CNN架构为了使用Inception-V3提取特征图，使用了Mixed 7 c层的输出。Mixed 4f层是I3D的特征图提取层。提取的Inception-V3和如下：第′调整I3D的大小以形成H′×W×D特征图。Addi-1. 仅地图地图：只有特征图被馈送到聚合组件（aggregation component，简写为EJB）中。2. 仅活动地图：用户可以看到阶段4活动图，但无法访问特征图。3. 阶段1-活动图：在该基线中，由φ提取的初始活动图在没有进一步细化的情况下与特征图级联以形成φ的输入。4. 阶段2-活动图：阶段2活动图和特征图的级联被用作搜索引擎的输入。针对I3D的RGB码流，我们采用了叠加光流场作为多帧设置中的另一I3D流的输入，并使用预测的简单平均将组活动概率的结果与RGB I3D流我们使用TVL1算法[28]来计算这些光流场。在多帧场景中，我们使用中间帧，它之前的5帧和之后的4帧作为两个数据集中模型的输入。排球数据集。输入帧的大小调整为720 1280。我们还考虑活动图的大小为43 78，因此将特征图调整为该大小。在训练的第一步中，我们使用w G= 0和w A= 1训练模型10个epoch，学习率为0.000017899×××方法精度仅地图75.99仅活动地图82.72阶段1-活动地图89.82阶段2-活动地图90.72阶段3-活动地图90.42阶段4-活动地图90.80阶段4-组-活动-地图88.85阶段4-活动地图-游泳池87.80阶段4-活动-地图-I3 D-RGB92.07阶段4-活动-地图-I3 D-流程91.47阶段4-活动-地图-I3 D-融合93.04表1.单帧和多帧设置中的各种基线和最终模型在这些实验中使用排球数据集另外10个时期的学习率下降为0.000001。在联合训练步骤中，w G=1且w A=0。0001，使模型集中于群体活动识别。这一次，模型以0.00005的学习率训练了10个epoch ，然后以 0.000005 的学习率训练了另外 10 个epoch。集体活动数据集。调整大小的图像是240 360的RGB输入和480 720的光流场。调整大小的特征图为30 45。对于这两种模式，训练的第一步（前20个时期）与上述排球数据集的训练过程相同。在第二步中，分别以0.00001和0.000001的学习率训练用于光学流动模态的模型两个连续的10个时期。RGB模态的第二步训练包括3个和2个训练阶段，学习率分别为0.00005和0.000005。在两种模式的模型的训练过程中，我们设置w G=1和w A=0。001第二步4.4. 分析为了充分了解我们提出的模型的每个模块的影响，将上面列出的该模型的不同变体作为基线应用于排球数据集。所有基线的结果见表1。正如预期的那样，仅活动地图基线具有最低的准确性，因为它不能以任何形式访问活动地图的附加信息仅访问活动图的仅活动图基线比仅活动图基线表现得更好，这表明活动图是比特征图更丰富的群体活动识别表示。然而，如以下所示，两个映射的组合提供了更好的结果。为了考虑特征和活动图的联合使用，我们比较了它们在两种设置中的组合效果。首先，我们观察到，使用阶段1活动地图亲，引入φ而不进行进一步的细化，使模型的性能从仅限映射模型中的75.99%提高到89.82%。这表明，即使没有细化阶段，活动地图的存在也大大提高了所提出的模型在识别群体活动方面的性能。这是因为在我们的模型中，机器学习将来自特征图的视觉和时间信息与活动图所呈现的人的活动之间的空间关系进行聚合。第二，在多个连续阶段中细化阶段1活动图。细化阶段（t）将通过应用附加卷积层来校正φ的预测，附加卷积层的有效感受野随t增加。这使得模型能够考虑更大邻域中的空间信息，并提供更准确的活动地图。如表1的结果所示，对于排球数据集的情况，阶段2-Activity-Map的性能与阶段1-Activity-Map相比具有1%的一致性改进。阶段3-活动图和阶段4-活动图模型的绩效虽然我们使用4个阶段，但在计算效率很重要的情况下，也可以只考虑两个阶段，成本约为0.1%的精度为场景中的每个人标记单个动作是一项耗时的任务，并且可能无法在每个数据集中使用。因此，在Stage 4-Group-Activity- Map基线中，我们通过仅使用组活动字段构建活动映射来达到88.85%的准确率表明，即使没有个别活动，活动地图表示仍然提供有价值的然而，在Stage 4-Activity-Map模型中包含单个活动，与Stage 4- Group-Activity-Map相比，准确性提高了2%。可以从活动图中提取组活动，而不使用聚合组件XML。在阶段4-活动图-池基线中，为了推断组活动标签，针对活动图内的所有组活动字段计算所有人的绑定框的位置内的值的总和。这导致每个小组活动类的得分，并且具有最高得分的类被选择作为最终预测。该基线的准确率为87.80%，低于具有聚集部分的完整模型。如果没有这个模型，就无法对场景特征和其中发生的活动因此，有必要在活动图上使用另一个推理组件，以便能够进行稳健的预测。可以以类似于阶段4-活动-地图-池的方法从活动地图中提取单个活动。在以这种方式推断个体活动之后，实现了78.59%的准确性。更好的性能可以通过以下方式实现-7900为人们的活动提供单独的聚合组件，但这不是我们工作的重点。时间信息在活动识别中是非常重要的I3D CNN能够提取其中一些信息。将主干更改为I3 D CNN，并在Stage 4-Activity-Map-I3 D-RGB中输入多个帧，从而获得更好的模型，准确率为92.07%。运动特征是一种特殊的时间信息。3D CNN还可以在堆叠的光流场上工作，以提取运动特定信息。阶段4-活动图-I3 D-Flow是另一种基线模型，其中将I3 D应用于光流场而不是RGB帧，从而导致91.47%的准确度。堆叠RGB和光流模型的预测可以被融合以形成更强的模型（阶段4 -5）。11010090807060阶段1阶段2阶段3阶段40 5 10 15 20 25 30 35 40时代Activity-Map-I3D-Fusion）。在这里，我们简单地取模型预测概率的平均值来产生最终的概率向量。融合模型的准确率为93.04%，显示了融合步骤的积极效果为了分析细化阶段的影响，图3显示了在使用RGB输入的I3D的不同训练时期期间，不同阶段对测试数据的在训练的第一步中，模型只专注于最小化活动图损失的任务，每个阶段都减少了损失，并制作了更好的活动图。然而，在从第21个时期开始的训练的第二步骤中，所有阶段的损失都优于第一阶段活动图，但是由于模型在最小化与活动图和组活动相关的两个损失方面的困难，损失的行为变得不太稳定。然而，可以保证第2、3和4级的损失优于第1级，但在精炼级的损失之间可能存在小的意外差异。wA的小值是这个小问题的原因之一，因为不太重视精确的活性图预测，而重点是预测基团活性。因此，梯度的活动地图预测的任务可能是有害的。从精馏塔到精炼阶段的梯度流动对最终阶段的影响更大。到达较早的阶段，这种影响略有减少。这就解释了为什么中间阶段的损失更接近第4阶段的损失。这个问题是不可避免的，它可以发生在更少或更多的阶段。在这里，最终目标是尽可能准确地预测群体活动标签，在第一阶段之后，可以忽略小的不一致。图4提供了不同阶段生成的活动图的可视化。活动图的第一阶段个体活动域和群体活动域都存在明显的误差。从第二阶段开始，细化阶段的效果是可见的。例如，第一阶段中的模型考虑了两个人的错误群体活动，但细化阶段能够在观察对图3.在阶段4-Activity-Map-I3 D-RGB基线的两步训练过程中，阶段1至4的活动图损失。其他邻居。基于层的感受野，个体和组活动字段对于特定局部区域中的细化阶段都是可见的，这有助于它们基于其他局部预测来细化预测。4.5. 与最新技术水平的比较排球数据集。我们的模型在多帧和单帧情况下的结果与表2中的其他方法进行了比较单帧CRM不仅在单帧情况下以较大幅度优于先前的方法，而且还实现了比这些方法的时间版本更好的结果。在单帧场景中，CRM比[12]好约2.5%。虽然他们的模型包含了个体之间的关系信息，但它并没有利用空间关系中的所有信息，包括个体之间的相对空间位置。因此，我们的模型能够超越它。考虑到我们的模型的时间版本的准确度为93.04%，与[2]的先前最佳性能模型相比，实现了约2.4%的显著改进（约26%的可能改进以实现100%的准确度）。在[2]中，群体活动表示是由一个简单的池化策略生成的，该策略忽略了大多数关系线索。然而，我们的模型试图提取场景中的所有关系信息。集体活动数据集。对于集体活动数据集，CRM的组活动性能是评估的-在两种不同的环境下进行。首先，将我们的模型在集体活动数据集上的多类分类准确度（MCA）与表3中的其他方法进行比较。如该表的报告结果所示，所提出的模型具有与[21]和[16]的最佳执行方法竞争的结果，并且优于其他方法。虽然[21]比我们的好大约1.5%，损失7901阶段1阶段2阶段3阶段4地面实况图4.不同细化阶段中生成的活动图的示例顶行包括组合的个体活动图，每个个体活动类别具有不同的颜色（9种不同的颜色）。此外，考虑到组活动类的不同颜色，分离的组活动图在底行中可视化顶行和底行中的相似颜色不代表同一个类。最好用彩色观看。方法多个帧单个帧HDTM [13]81.90-欧洲核子研究中心[21]83.30-社交场景[2]90.6083.80[第12话]89.5088.30CRM93.0490.80表2.比较我们的结果与最先进的方法在多帧或单帧的情况下。在Collective Activity数据集上，它远远落后于排球数据集上的CRM，约为10%。集体活动数据集中的步行和穿越活动只是在不同位置执行的相同活动。因此，类似于[26]，我们将他们的预测结合到移动的新活动中。表4报告了新设置的平均每类准确度（MPCA）计算新的4个类别的MPCA需要混淆矩阵。因此，由于[21]中缺乏混淆，我们无法在本部分报告他们的结果。根据结果，CRM优于其他方法，包括[16]在此设置中考虑MPCA作为评估指标。这是因为它的大多数不正确的预测是因为步行和穿越活动之间的自然混淆。因此，很明显，CRM能够在集体活动数据集中取得显着的表现5. 结论我们提出了一个卷积关系机的群体活动识别提取人之间的关系。我们表明，活动图是一个有用的表示，有效地编码的空间关系。我们还表明，一个聚合方法是必要的细化活动地图，以产生可靠的集团活动表3. CRM的MCA与其他方法在Collective Activity数据集上的比较。方法MWQ不MPCA[4]美国90.082.995.494.990.8[10个国家]87.075.092.099.088.3[第十五条]92.069.076.099.084.0HDTM [13]95.966.496.899.589.7SBGAR [16]90.881.499.284.689.0[26日]94.463.6100.099.589.4CRM91.786.3100.098.9194.2表4.我们的模型的平均每类准确度（MPCA）和每类准确度与其他方法在集体活动数据集上的比较。M、W、Q、T分别是移动、等待、等待和说话的缩写标签未来的工作可以使该模型适用于提取人-物场景中的空间关系。方法精度[4]美国80.40[10个国家]83.40[第十五条]79.70HDTM [13]81.50SBGAR [16]86.10欧洲核子研究中心[21]87.20CRM-RGB83.41CRM流程85.44CRM85.757902引用[1] Mart´ın Abadi， Paul Barham ， Jianmin Chen ， ZhifengChen ， Andy Davis ， Jeffrey Dean ， Matthieu Devin ，Sanjay Ghe-mawat，Geoffrey Irving，Michael Isard，etal. Tensorflow：一个大规模机器学习系统。在OSDI，第16卷，第265-283页[2] TimurBag autdinov，Ale xandreAlahi，Franco isFleuret，Pas-cal Fua，and Silvio Savarese.社交场景理解：端到端多人动作定位和集体活动识别。在计算机视觉和模式识别上，第2卷，2017年。[3] Joao Carreira和Andrew Zisserman。你好，动作识别？新模型和动力学数据集。在2017年IEEE计算机视觉和模式识别会议，第4724-4733页。IEEE，2017年。[4] 崔元君和西尔维奥·萨瓦雷塞多目标跟踪和集体活动识别的统一框架欧洲计算机视觉会议，第215-230页。Springer，2012.[5] Wongun Choi，Khuram Shahid，and Silvio Savarese.他们在干什么？：利用人与人之间的时空关系进行在计算机视觉研讨会（ICCV研讨会），2009年IEEE第12届国际会议上，第1282-1289页IEEE，2009年。[6] Zhiwei Deng ， Arash Vahdat ， Hexiang Hu ， and GregMori.结构推理机：用于分析群体活动识别关系的递归神经网络在IEEE计算机视觉和模式识别会议论文集，第4772-4781页，2016年[7] Zhiwei Deng ， Zhuhai Zhai ， Lei Chen ， Yuhao Liu ，Srikanth Muralidharan，Mehrsan Javan Roshtkhari，andGreg Mori.群体活动识别的深层结构化模型arXiv预印本arXiv：1506.04191，2015年。[8] JeffreyDonahue 、 LisaAnneHendricks 、 SergioGuadarrama、MarcusRohrbach、SubhashiniVenugopalan、Kate Saenko和Trevor Darrell。用于视觉识别和描述的长期递归卷积网络。在Proceedings of theIEEEconferenceoncomputervisionandpatternrecognition，pages 2625[9] Christoph Feichtenhofer，Axel Pinz和AP Zisserman。卷积双流网络融合视频动作识别。2016年。[10] Hossein Hajimirsadeghi，Wang Yan，Arash Vahdat，andGreg Mori.通过计数实例进行视觉识别：一种多实例势核.在2015年IEEE计算机视觉和模式识别会议集，第2596-2605页中[11] Albert Haque，Michelle Guo，Alexandre Alahi，SerenaYe-ung ， Zelun Luo ， Alisha Rege ， Jeffrey Jopling ，LanceDown- ing，William Beninati，Amit Singh，et al.迈向基于视觉的智能医院：一个跟踪和监测手部卫生合规性的系统。 Machine Learning for Healthcare（MLHC），2017年。[12] Mostafa S Ibrahim and Greg Mori.群体活动识别与检索的层次关系网络在欧洲计算机视觉会议（ECCV）的Proceedings中，第721-736页[13] Mostafa S Ibrahim ， Srikanth Muralidharan ， ZhiweiDeng，Arash Vahdat，and Greg Mori.一种用于群体活动识别的层次深时间模型计算机视觉和模式识别（CVPR），2016年IEEE会议，第1971-1980页IEEE，2016.[14] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。[15] Tian Lan，Yang Wang，Weilong Yang，Stephen N Robi-novitch，and Greg Mori.用于识别上下文群体活动的判别潜在模型。IEEE Transactions on Pattern Analysis andMachine Intelligence，34（8）：1549[16] 李欣和Mooi Choo Chuah Sbgar：基于语义的群体活动识别。在IEEE计算机视觉和模式识别会议集，第2876-2885页[17] Zhenyang Li，Kirill Gavrilyuk，Efstratios Gavves，MihirJain，and Cees GM Snoek.Videolstm卷积，参加和流动的行动识别。计算机视觉与图像理解，166：41[18] Zelun Luo ， Boya Peng ， De-An Huang ， AlexandreAlahi，and Li Fei-Fei.视频长期运动动力学的无监督学习。在IEEE计算机视觉和模式识别会议（CVPR），2017年7月。[19] Katsuyuki Nakamura，Serena Yeung，Alexandre Alahi，and Li Fei-Fei.使用自我中心的多模态信号联合学习能量消耗和活动。在IEEE计算机视觉和模式识别会议（CVPR），2017年7月。[20] Vignesh Ramanathan ， Jonathan Huang ， Sami Abu-El-Haija，Alexander Gorban，Kevin Murphy，and Li Fei-Fei.在多人视频中检测事件和关键演员。在IEEE计算机视觉和模式识别会议的Proceedings中，第3043-3053页[21] Tianmin Shu，Sinisa Todorovic，and Song-Chun Zhu.用于群体活动识别的信心 - 能量循环网络。 Proc. ofCVPR，Honolulu，Hawaii，2017.[22] Karen Simonyan和Andrew Zisserman双流卷积网络用于视频中的动作识别。在Advances in neural informationprocessing systems，第568[23] Christian Szegedy、Vincent Vanhoucke、Sergey Ioffe、Jon Shlens和Zbigniew Wojna。重新思考计算机视觉的初始架构在 Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition，pages 2818[24] Takamasa Tsunoda ， Yasuhiro Komori ， MasakazuMatsugu，and Tatsuya Harada.基于分层最小二乘模型的足球动作识别。在计算机视觉和模式识别研讨会（CVPRW），2017年IEEE会议上，第155-163页IEEE，2017年。[25] Limin Wang，Yuanjun Xiong，Zheng Wang，Yu Qiao，Dahua Lin，Xiaoou Tang，and Luc Van Gool.时间段网络：深入行动识别的良好实践。欧洲计算机视觉会议，第20-36页。施普林格，2016年。7903[26] Minsi Wang，Bingbing Ni，and Xiaokang Yang.集体活动识别的交互环境的循环建模在计算机视觉和模式识别会议（CVPR）的会议记录中，第8页，2

下载后可阅读完整内容，剩余1页未读，立即下载