学习行动者关系图用于群体活动识别

176 浏览量更新于2023-10-18 收藏 1.27MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

9964学习行动者关系图用于群体活动识别吴建超吴利民王晓莉王杰郭岗山吴南京大学软件新技术国家重点实验室摘要在多人场景中，角色之间的关系建模对于识别群体活动非常重要。本文旨在利用深度模型有效地学习行为体之间的判别关系。为此，我们建议建立一个灵活有效的演员关系图（ARG），同时捕捉外观和位置。左侧加标动作者关系图演员之间的关系。由于图卷积网络，ARG中的连接可以以端到端的方式从群体活动视频中自动学习，并且可以使用标准矩阵运算高效地执行ARG上的推理。此外，在实践中，我们提出了两种变体来稀疏ARG，以便在视频中进行更有效的建模：空间定位ARG和时间随机化ARG。我们在两个标准的群体活动识别数据集上进行了广泛的实验：排球数据集和集体活动数据集，在这两个数据集上都实现了最先进的性能。我们还可视化了学习的演员图和关系特征，这表明所提出的ARG能够捕获群体活动识别的判别关系1. 介绍群体活动识别是视频理解中的一个重要问题[56，47，52，14]，并且具有许多实际应用，例如监控、体育视频分析和社会行为理解。为了理解多个人的场景，模型不仅需要描述每个演员在上下文中的个人行为，而且还需要推断他们的集体活动。准确捕捉参与者之间的相关关系并执行关系推理的能力对于理解多人的群体活动至关重要[30，1，7，23，39，12，24，59]。然而，对参与者之间的关系进行建模是具有挑战性的，因为我们只能访问个体动作标签和集体活动标签，而不知道底层的交互信息。期望从其他方面推断演员之间的关系，例如外貌相似性和*通讯作者。图1：了解多人场景需要准确地确定演员之间的相关关系。我们的模型学习用演员关系图来表示场景，并根据图的结构和节点特征对群体活动（每个节点表示一个参与者，每条边表示两个参与者之间的关系相对位置因此，在设计有效的群体活动理解深度模型时，需要对这两个重要线索进行建模。最近的深度学习方法在视频中的群体活动识别方面显示出了有希望的结果[3，24，45，12，32、59、23、39]。通常，这些方法遵循两阶段识别流水线。首先，通过卷积神经网络（CNN）来表示人级特征。然后，全局模块被设计为聚集这些人级表示以产生场景级特征。现有方法使用不灵活的图形模型[23]（其结构预先手动指定）或使用复杂但不直观的消息传递机制[12，39]对这些参与者之间的关系进行建模。为了捕获时间动态，通常使用递归神经网络（RNN）对密集采样帧的时间演变进行建模[3，24]。这些模型通常在计算成本上是昂贵的，并且有时缺乏处理群体活动变化的灵活性。在这项工作中，我们解决的问题，捕捉的appe-perpetuity和位置关系的行动者之间的群体活动识别。我们的基本目标是以一种更灵活和有效的方式对演员关系进行建模，其中演员之间的图形连接可以从视频数据中自动学习，并且可以有效地进行群体活动识别的推理。具体来说，我们支持-3pjk@blockjµg3$pµdjµg9965通过构建图1中所示的演员关系图（ARG）来对演员-演员关系进行建模，其中图中的节点表示演员ARG可以很容易地放置在任何现有的2D CNN的顶部，以形成统一的群体活动识别框架。由于图卷积的操作[29]，ARG中的连接可以以端到端的方式自动优化因此，我们的模型可以更灵活地发现和学习参与者之间的潜在经过训练后，我们的网络不仅可以识别多人场景中的个人动作和集体活动，还可以实时生成特定于视频的演员关系图，从而进一步了解群体活动。为了进一步提高ARG在视频中进行长距离时间建模的效率具体来说，在空间域中，我们设计了一个本地化的ARG，通过强制演员之间的连接，只有在一个本地的邻居。对于时间信息，我们观察到，缓慢自然是视频先验，其中帧被密集捕获，但语义变化非常缓慢。而不是连接任何一对帧，我们提出了一个随机的ARG随机丢弃几个帧，只保留几个。这种随机丢弃操作不仅可以大大提高建模效率，而且可以大大增加训练样本的多样性，降低ARG的过拟合风险。在实验中，为了充分利用视觉内容，我们实证研究了不同的方法来计算两两之间的关系，从演员的外观特征。然后，我们介绍了构造多个关系图上的演员集，使模型能够专注于更多样化的关系信息之间的演员。我们报告了两个组活动识别基准的性能：排球数据集[25]和集体活动数据集[7]。我们的实验结果表明，我们的ARG是能够获得优越的性能，现有的国家的最先进的方法。本文的主要贡献概括如下：我们构造灵活高效的角色关系图，同时捕捉角色之间的外观和位置关系，用于群体活动识别。它提供了一种可解释的机制来明确地建模场景中人与人之间的相关关系，从而具有区分不同群体活动的能力。我们引入了一个有效的推理计划，演员关系图应用GCN稀疏时间采样策略。建议的网络是能够进行关系推理的演员互动的目的，群体活动识别。所提出的方法在两个具有挑战性的基准上实现了最先进的结果：排球数据集[25]和集体活动数据集[7]。可视化的学习演员图和关系的功能表明，我们的方法有能力参加的关系信息的群体活动识别。2. 相关工作团体活动认可。群体活动识别已经从研究界得到了广泛的研究。早期的方法主要基于手工制作的视觉特征与概率图形模型[1，31，30，43，6，8，17]或AND-OR语法模型[2，46]的组合。最近，深度卷积神经网络（CNN）的广泛采用已经证明了群体活动识别的显著性能改进[3，24，41，45，12，32，59，23，39]。Ibrahim等人[24日]设计了一个两阶段的深度时态模型，该模型建立一个LSTM模型来表示个体的动作动态，另一个LSTM模型来聚合人级信息。Bagautdinov等人[3]提出了一个统一的多人联合检测和活动识别框架。Ibrahim等人[23]提出了一种层次关系网络，为每个人建立一个关系表示也有人尝试通过结构化递归神经网络[12，59，39]或生成字幕[32]来探索场景上下文的建模。我们的工作不同于这些方法，因为它通过构建灵活和可解释的ARG来显式地建模交互信息。此外，我们采用GCN与稀疏时间采样策略，而不是使用RNN进行信息融合，从而以有效的方式实现关系推理。视觉关系。对象或实体之间的建模或学习关系是计算机视觉中的一个重要问题[35，9，22，68，57]。最近的几项工作集中在检测和识别人-物体交互（HOI）[66，16，67，5，40]上，这通常需要对交互进行额外的注释。在场景理解中，已经对用于场景图生成的成对关系建模进行了大量努力[26，34，63，65，33，62]。Santoro等人[44]提出了一种用于对象间关系推理的关系网络模型，在可视化问答中实现了Hu等人[21]将对象关系模型应用于对象检测，并验证了在基于CNN的检测中建模对象关系的有效性。此外，许多工作表明，建模交互信息可以帮助动作识别[60，36，15，37，50]。我们表明，明确利用的关系信息，可以实现显着的收益群体活动识别的准确性。···9966R×GCN罗亚利根足球俱乐部罗亚利根足球俱乐部罗亚利根足球俱乐部N× d原始特征建筑执行者图表GCNGCNGCN+N× d关系特征团体活动分类个人行动分类图2：我们用于群体活动识别的网络框架概述。我们首先从采样的视频帧中提取演员的特征向量。我们使用一个d维向量来表示演员边界框.并且采样帧中的边界框的总数等于N。构建多个角色关系图来捕获角色之间的关系信息。然后，使用图卷积网络来执行图上的关系推理。然后融合所有图的输出以产生演员的关系特征向量。最后，原始特征和关系特征被聚合并馈送到群体活动和个人行为的分类器。图上的神经网络。最近，将图形模型与深度神经网络集成是深度学习研究中的一个新兴课题。已经出现了大量的模型用于在各种任务中对图结构数据进行推理，例如图的分类[13，10，38，11，27]，图中节点的分类[29，18，55]，以及对多代理交互物理系统进行建模[28，49，4，20]。在我们的工作中，我们应用了图卷积网络（GCN）[29]，它最初是针对图中节点分类问题的半监督学习提出的。GCN也可以应用于单个人类动作识别问题[64，61]。然而，计算跨所有视频帧的所有成对关系以将视频构建为全连接图将是低效的因此，我们根据相对位置将多人场景构建为稀疏图。同时，我们建议将GCN与稀疏时间采样策略[58]相结合，以提高学习效率。3. 方法我们的目标是通过明确地利用关系信息来识别多人场景中的群体活动。为此，我们建立了演员关系图（ARG）来表示多人场景，并对其进行关系推理，用于群体活动识别。在本节中，我们将详细描述我们的方法。首先，我们介绍了我们的框架的概述。然后，我们介绍了如何建立ARG。最后，我们描述了有效的训练和推理算法的ARG。3.1. 团体活动识别框架整个网络框架如图2所示。给定视频序列和边界框我们的框架采取了三个关键步骤。首先，我们从视频中均匀采样一组K帧，并从采样帧中提取演员的特征向量。我们遵循[3]中使用的特征提取策略，该策略采用Inception-v3 [51]为每帧提取多尺度特征图此外，我们还在其他骨干模型上进行了实验，以验证我们的方法的通用性和有效性。我们应用RoIAlign [19]从帧特征图中提取每个演员边界框的特征。之后，对对齐的特征执行fc层，以获得每个演员的d维外观特征向量。K帧中的边界框的总数表示为N。我们使用一个N×d矩阵X表示演员的特征向量。然后，根据这些角色的原始特征，我们构建了角色关系图，其中每个节点表示一个角色。图中的每条边是一个标量权重，该权重是根据两个演员的外观特征及其相对位置计算的为了表示不同的关系信息，我们从一组相同的演员特征构造多个关系图。最后，我们进行学习和推理，以识别个人行动和群体活动。我们应用GCN进行基于ARG的关系推理。在图卷积之后，ARG被融合在一起以生成用于演员的关系表示，其也是在N d维中。然后，分别识别个体行为和群体行为的两个分类器将被应用于池化行动者CNNCNNCNN9967∈ ∈∈∈··我我我 JS我 J我 J我IjJSIjsijs怨恨我们应用一个完全连接层的个人表示个人的行动分类。演员表示被最大池化在一起以生成场景级表示，该场景级表示通过另一个完全连接的层用于组活动（2）嵌入式点积：受缩放点积注意力机制[54]的启发，我们可以扩展点积运算来计算嵌入空间中的相似度，相应的函数可以表示为：θ（xa）Tφ（xa）阿阿伊杰3.2. 构建参与者关系图fa（xi，xj）=dK、（四）如上所述，ARG是我们的其中θ（xa）=Wθxa+bθ和φ（xa）=Wφxa+bφi i j j框架. 我们利用图形结构显式地模型成对关系信息，用于组活动理解。我们的设计灵感来自于最近成功的关系推理和图神经网络[44，29]。图形定义。形式上，我们图中的节点对应于一组参与者A ={（xa，xs）|i = 1，···，N}，其中N是参与者的数量，xa∈Rd是参与者i是两个可学习的线性变换 WθR dk× d和WφR dk× d 是权矩阵，bθR dk和bφR dk是权向量。通过对原始特征的可学习变换，我们可以学习子空间中两个演员之间的关系值。（3）关系网络：我们还评估了关系网络在[44]中提出的网络模块。它可以写为：西伊特征，并且Xi =（tx，t）是中心ω-我我啊啊。一个一个演员i的边界框的坐标我们构造图G∈RN×N表示行动者之间的成对关系，fa（xi，xi）= ReLUW[θ（xi），φ（xi）]+b，（5）其中，关系值Gij指示参与者的重要性，j为了获得足够的表征能力来捕捉两个行动者之间的潜在关系，需要考虑表观特征和位置信息。此外，我们注意到，出现关系和位置关系具有不同的语义属性。为此，我们在一个单独的和明确的方式建模的外观关系和位置关系值被定义为下面的复合函数：其中[，]是级联运算，W和b是将级联向量投影到标量的可学习权重，后跟ReLU非线性。位置关系。为了在角色图中加入空间结构信息，需要考虑角色之间的位置关系。为此，我们研究了在我们的工作中使用空间特征的两种方法：(1) 距离掩码：通常，来自本地实体的信号比来自远程实体的信号更重要。并且局部范围中的关系信息具有Gij=h.Σfa（xa，xa），fs（xs，xs）、（1）比全局关系更重要的是，团体活动根据这些观察，我们可以i j i j其中，fa（xa，xa）表示两个演员之间的外观关系，并且位置关系由fs（xs，xs）计算。函数h融合了外观和位置Gij为零的两个演员的距离是在一定的阈值以上。我们称之为本地化的ARG。fs形成为：.Σf（xs，xs）=I d（xs，xs）≤µ、（6）在我们的实验中，我们采用以下函数来计算关系值：其中I（·）是指示函数，d（xs，xs）表示s s 。一个一个两个演员的中心点之间的欧氏距离边界框，μ作为距离阈值，fs（xi，xj）expG=fa（xi，xj）我的朋友.s saΣ，（2）一是一个超参数j=1fs（xi，xj）expfa（xi，xj）(2) 距离编码：或者，我们可以使用重-其中，我们使用softmax函数对每个演员节点执行归一化，以便所有关系值的总和[54]学习位置关系的方法。具体地，位置关系值被计算为一个参与者节点i的值为1。外貌关系。在这里我们讨论不同的选择f（xs，xs）=ReLU。WE（xs，xs）+b、（7）用于计算演员之间的外观关系值：(1)点积：表观特征的点积相似度可以看作是关系值与标量权重的关系。9968E√的一种简单形式计算如下：（xa）Txa两个行动者之间的相对距离被嵌入到通过使用不同波长的余弦和正弦函数来进行高维表示。嵌入后的特征维数为ds。然后，我们通过权重向量Ws和bs将嵌入的特征转换为标量，然后进行ReLU激活。阿阿伊杰哪里fa（xi，xj）=，（3）DRND充当归一化因子。多个图表。单个ARGG通常关注于演员之间的特定关系信号，因此丢弃-获取大量的上下文信息。为了9969LLG G II·∈∈∈为了捕获不同类型的关系信号，我们可以将单个参与者关系图扩展为多个图。也就是说，我们在同一个演员集上建立了一组图G=（G1，G2，···，GNg），其中Ng是图的个数Ev-每一个图Gi是以相同的方式计算根据方程。（2），但不共享权重。建筑物多重-原始的GCN在单个图结构上操作。在GCN之后，如何将一组图融合在一起仍然是一个悬而未决的问题。在这项工作中，我们采用后期融合方案，即在GCN之后融合不同图中相同演员的特征：关系图允许模型共同关注参与者之间的不同类型的关系。因此，该模型可以在图上进行更健壮的关系推理。Z（l+1）=越南gi=1.σGiZ（l）W（l，i）Σ、（9）时间建模。时间背景信息是活动识别的关键线索。不同于以往的工作，采用递归神经网络，在密集帧上聚集时间信息，我们的模型通过稀疏时间采样策略合并时间域中的信息[58]。在训练期间，我们从整个视频中随机采样一组K=3帧，并在这些帧中的演员上构建时间图。我们称之为随机ARG。在测试时，我们可以使用滑动窗口方法，并且来自所有窗口的活动分数被平均汇集以形成全局活动预测。根据经验，我们发现，稀疏采样帧训练时产生显着的提高识别准确率。一个关键原因是，现有的群体活动识别数据集（例如，集体活动数据集和排球数据集）在规模和多样性方面仍然有限。因此，随机采样视频帧导致训练期间的更大多样性，并降低过度拟合的风险。此外，这种稀疏采样策略以显著较低的成本保留时间信息，从而在时间和计算资源的合理预算下实现端到端学习。3.3. 图的推理和训练一旦ARG被构建，我们就可以对它们进行关系推理，以识别个人行为和群体活动。我们首先回顾一个图推理模块，称为图卷积网络（GCN）[29]。GCN将一个图作为输入，在结构上执行计算，并返回一个图作为输出，这可以被认为是一个“图到图”块。对于目标节点i，在图中，它根据它们之间的边权重聚合来自所有邻居节点的特征。形式上，GCN的一层可以写为：其中我们采用元素求和作为融合函数。我们还评估了作为融合函数的连接或者，一组图也可以通过早期融合来融合，即，在GCN之前通过求和来融合到一个图。我们在实验中比较了不同的方法融合一组图。最后将GCN输出的关系特征与原始特征进行求和融合，形成场景表示。如图2所示，场景表示被馈送到两个分类器以生成个体动作和组活动预测。整个模型可以通过反向传播以端到端的方式进行训练。结合标准交叉熵损失，最终损失函数形成为L=L1（y，y≠）+λL2（y，y≠），（10）其中，1和2是交叉熵损失，yG和yI表示群体活动和个体行动的地面真值标签，yG和yI是对群体活动和个体行动的预测第一项对应于组活动分类损失，并且第二项是个体动作分类的损失。权重λ用于平衡这两个任务。4. 实验在本节中，我们首先介绍两个广泛采用的数据集和我们的方法的实现细节。然后，我们进行了一些消融研究，以了解我们的模型中提出的组件的影响我们还比较了我们的模型与最先进的方法的性能。最后，我们可视化我们学习的演员关系图和特征。4.1. 数据集和实施详细信息Z（l+1）=σ.ΣGZ（l）W（l）、（8）数据集。我们在两个公开的群体活动识别数据集上进行实验，即其中GRN×N是图的矩阵表示。Z（1）R N× d是第l层节点的特征表示，Z（0）=X. W（l）Rd×d是层特定的可学习权重矩阵。σ（）表示一个激活函数，我们在这项工作中采用了ReLU这种逐层传播可以堆叠成多层。为了简单起见，我们在这项工作中只使用一层GCN排球数据集和集体活动数据集。排球数据集[25]由从55场排球比赛中收集的4830个片段组成，其中3493个训练片段和1337个用于测试。每个片段都标有8个组活动标签之一（右组，右扣球，右传球，右赢点，左组，左扣球，左传球和左赢点）。只有每个剪辑的中间帧使用9970方法精度基础模型89.8%点积91.3%嵌入点积91.3%关系网络百分之九十点七(a) 探索不同的外观关系函数。方法精度无位置关系91.3%距离掩模百分之九十一点六距离编码91.5%(b) 探索不同的位置关系函数。Number1481632精度百分之九十一点六百分之九十二百分之九十二92.1%百分之九十二(c) 探索图的数量。方法精度早期融合百分之九十点八晚期融合（总和）92.1%后期融合（串联）91.9%(d) 多图融合的不同方法探索。方法精度单个帧92.1%TSN（3帧）92.3%时间图（3帧）92.5%(e) 时态建模方法的探索。表1：排球数据集上群体活动识别准确性的消融研究。球员的边界框和他们的个人行动，从9个个人行动标签（等待，设置，挖掘，失败，扣球，阻止，跳跃，移动和站立）。接下来[24]，我们使用10帧来训练和测试我们的模型，这对应于注释帧之前的5帧和之后的4帧。为了获得未注释帧的真实边界框，我们使用[3]提供的tracklet数据。集体活动数据集[7]包含来自5个群体活动（交叉，等待，排队，行走和交谈）和6个个体动作（NA，交叉，等待，排队，行走和交谈）的44个短视频序列（约2500帧）。帧的组活动标签由大多数人参与的活动定义我们遵循[39]的相同评估方案，选择1/3的视频序列用于测试，其余用于训练。实作详细数据。我们为每个演员提取1024维特征向量，并使用地面实况边界使用第3.1节中提到的方法。在消融研究期间，我们采用Inception-v3作为主干网络。我们还使用VGG [48]网络进行实验，以与先前的方法进行公平比较。由于内存限制，我们分两个阶段训练模型：首先，我们在不使用GCN的情况下，对从每个视频中随机选择的单个帧微调Ima-geNet预训练模型。在整个实验中，我们将上述微调模型作为我们的基础模型基模型不需要关系推理，只根据行为者的原始特征进行群体活动和个体行为分类。然后确定网络特征提取部分的权值，并进一步用GCN训练网络。我们采用ADAM的随机梯度下降来学习具有固定超参数的网络参数，使 β1=0 。 9 ， β2=0 。 999 ，=10−8。对于排球数据集，我们在150个epoch中训练网络，使用32的迷你批量大小和0。0002到0。00001对于Collective Activity数据集，我们使用16的小批量，学习率为0。0001，并在80个时期内训练网络使用单个动作损失权重λ=1。此外，GCN的参数设置为 dk=256， ds=32，距离掩模阈值μ取图像宽度的1/5。我们的实现基于PyTorch深度学习框架。在单个TITAN-XP GPU上，推断视频的运行时间约为0.2秒。4.2. 消融研究在本小节中，我们对排球数据集进行了详细的消融研究，以了解所提出的模型组件对使用群体活动识别准确性作为评估指标的关系建模的贡献。结果示于表1中。外貌关系。我们从研究演员和不同功能之间的外观关系建模对计算外观关系值的影响开始我们的实验。在单帧的基础上，不利用位置关系，构造单帧ARG.结果列于表1a中。我们首先观察到，明确建模演员之间的关系带来了显着的性能改善。所有具有GCN的模型都优于基本模型。结果表明，点积和嵌入点积的识别准确率相同，均为91。3%，表现优于关系网络。我们推测点积运算在表示关系信息时更稳定。在接下来的实验中，我们使用嵌入式点积来计算外观关系值。位置关系。我们进一步将空间结构信息加入到ARG中。在第3.2节中，我们提出了两种使用空间特征的方法：距离掩码和距离编码。这两种方法的性能比较结果见表1b。我们可以看到这两个9971这两种方法都比不使用空间特征的方法获得了更好的性能，证明了位置关系建模的有效性。距离掩码产生的精度略高于距离编码。在本文的其余部分，我们选择距离掩码来表示位置关系。多个图表。我们还研究了建立一组图来捕获不同类型的关系信息的有效性。首先，我们比较了使用不同数量的图的性能。如表1c所示，我们观察到，与仅构建单个图相比，构建多个图导致一致和显著的增益，并且能够将准确度从91. 6%至92。百分之一。然后，我们评估了三种方法来融合一组图：（1）早期融合，（2）通过求和的晚期融合，（3）通过连接的晚期融合。使用16张图的实验结果总结在表1d中。我们看到，通过求和的后期融合实现了最佳性能。我们注意到，早期的融合方案，它聚集了一组图的总和之前GCN，结果在性能急剧下降这一观察表明，由不同图学习的关系值编码不同的语义信息，如果在图卷积之前将它们融合，则会导致关系推理的混乱在下面的实验中，我们采用Ng=16时间建模。设置了所有的设计选择后，我们现在将我们的模型扩展到时域。如第3.2节所述，我们采用稀疏时间采样策略[58]，并在训练期间从整个视频中均匀采样一组K=3帧。在最简单的设置中，我们可以单独处理输入帧，然后将不同帧的预测得分融合为时间段网络（TSN）[58]。或者，我们可以建立节奏-利用GCN对输入帧中的演员进行图形化处理，并融合了时间信息。我们在表1e中报告了这两种时间建模方法的准确性。我们看到，TSN建模有助于提高我们的模型的性能此外，构建时间图进一步将准确率提高到92。5%，这表明时间的真实性。声波有助于区分群体活动类别，血淋淋的4.3. 与最新技术水平的比较现在，我们将我们的最佳模型与表2中的最先进方法进行比较。为了与以前的方法进行公平的比较，我们报告了Inception-v3和VGG骨干网络的结果。同时，我们进行了基于命题的实验。我们用训练数据训练Faster-RCNN [42]。在测试时使用Faster-RCNN的边界框，我们的模型仍然可以达到有希望的准确性。表2a显示了与排球数据集上团体活动和个人活动的先前结果的比较。方法骨干组活动个人行动[24]第二十四话AlexNet百分之八十一点九-欧洲核子研究中心[45]VGG16百分之八十三点三-[39]第39话VGG1689.3%-[39]第39话VGG16百分之八十七点六-[23]第二十三话VGG1989.5%-SSU（GT）[3]inception-V3百分之九十点六百分之八十一点八SSU（PRO）[3]inception-V3百分之八十六点二77.4%OURS（GT）inception-V392.5%83.0%我们（PRO）inception-V391.5%-OURS（GT）VGG1691.9%百分之八十三点一OURS（GT）VGG19百分之九十二点六百分之八十二点六(a) 与排球数据集上的最新技术进行比较方法骨干小组活动SIM卡[12]AlexNet81.2%[24]第二十四话AlexNet百分之八十一点五[17]第十七话没有一百分之八十三点四SBGAR [32]inception-V386.1%欧洲核子研究中心[45]VGG16百分之八十七点二[39]第39话VGG16百分之八十九点一[39]第39话VGG1687.9%OURS（GT）inception-V391.0%我们（PRO）inception-V3百分之九十点二OURS（GT）VGG1690.1%(b) 与Collective数据集上的最新技术水平进行比较。表2：与现有技术方法的比较。GT和PRO分别表示使用地面实况和基于提议的边界框。动作识别我们的方法超越了所有现有的方法，建立了新的国家的最先进的。我们的Inception-v3模型使用与[ 3 ]相同的特征提取策略，并且在群体活动识别准确率上优于它约2%，因为我们的模型可以捕获和利用行为者之间的关系信息。并且，我们在个体动作识别任务上也取得了更好的成绩。同时，我们的方法优于最近使用层次关系网络[23]或语义RNN [39]的方法，主要是因为我们解释了外观和位置关系图的建模，并采9972用了更有效的时间建模方法。我们进一步评估所提出的模型上的集体活动数据集。结果和与先前方法的比较列于表2b中。我们的时态多图模型再次达到了最先进的性能，91。0%的群体活动识别准确率。这一出色的表现显示了建议的ARG的有效性和通用性，在多人场景中捕捉关系信息。9973图3：学习的参与者关系图的可视化每行显示两个示例。对于每个例子，我们绘制：（1）输入帧与组真值边界框和组活动标签;（2）具有真实个体动作标签的学习关系图的矩阵G。在每帧中具有G的最大列和的演员用红星表示。基本模型单图多图时态多图r_setr_spiker_passr_winpointl_setl_spikel_passl_winpoint图4：t-SNE [53]通过不同模型变体学习的排球数据集上的视频表示嵌入的可视化：基本模型、单图、多图、时态多图。每个视频都被可视化为一个点，颜色表示不同的组活动（彩色版本更好）。4.4. 模型可视化参与者关系图可视化我们在图3中可视化了我们的模型生成的关系图的几个示例。我们在单帧上使用单图模型可视化结果有助于我们理解ARG是如何工作的。我们可以看到，我们的模型是能够捕获的关系信息的群体活动识别，和生成的ARG可以自动发现的关键演员，以确定在场景中的群体活动。学习表示的t-SNE可视化。图4显示了用于嵌入通过不同模型变体学习的视频表示的t-SNE [53]可视化具体来说，我们使用t-SNE将排球数据集验证集上的视频表示投影到二维空间中我们可以观察到，通过使用ARG学习的场景级此外，构建多个图和聚合时间信息可以更好地区分群体活动.这些可视化结果表明，我们的ARG模型是更有效的，对群体活动识别有效。5. 结论本文提出了一种灵活有效的多人场景中演员之间相关关系的确定方法。我们学习Actor Relation Graph（ARG）来对图进行关系推理，以进行群体活动识别。我们还在两个数据集上评估了所提出的模型，并建立了新的最先进的结果。对比性消融实验和可视化结果表明，该模型能够学习群体活动的关系信息。在未来，我们计划进一步了解ARG的工作原理，并将更多的全球场景信息用于群体活动识别。确认本文的研究得到了国家自然科学基金项目（编号：61321491）和软件新技术与产业化协同创新中心的资助9974引用[1] Mohamed Rabie Amer ， Peng Lei ， Sinisa Todorovic 。Hirf：用于视频中集体活动识别的分层随机场。在ECCV中，第572-585页，2014年。一、二[2] 穆罕默德河 Amer ， Dan Xie ， Mingtian Zhao， SinisaTodor- ovic，and Song Chun Zhu.用于多尺度活动识别的成本敏感的自上而下/自下而上推理。在ECCV，第187-200页，2012年。2[3] 提木尔湾 Bagg autdinov ， Ale xandreAlahi ， FranczuoisFleuret，Pascal Fua，and Silvio Savarese.社交场景理解：端到端多人动作定位和集体活动识别。在CVPR中，第3425-3434页，2017年。一二三六七[4] Peter W. Battaglia ， Razvan Pascanu ， Matthew Lai ，Danilo Jimenez Rezegli，and Koray Kavukcuoglu.学习物体、关系和物理的互动网络。在NIPS，第4502-4510页，2016年。3[5] Yu-Wei Chao，Yunfan Liu，Xieyang Liu，Huayi Zeng，and Jia Deng.学习检测人机交互。在WACV，第381-389页，2018年。2[6] 崔元君和西尔维奥·萨瓦雷塞从视频中了解IEEE传输模式分析马赫内特尔，36（6）：1242-1257，2014. 2[7] Wongun Choi，Khuram Shahid，and Silvio Savarese.他们在干什么？利用人与人之间的时空关系对集体活动进行分类。在ICCV Work-shops，第1282-1289页，2009年。一、二、六[8] Wongun Choi，Khuram Shahid，and Silvio Savarese.集体活动识别的学习环境。在CVPR，第3273-3280页，2011年。2[9] Bo Dai，Yuqi Zhang，and Dahua Lin.用深层关系网络检测视觉关系。在CVPR中，第3298-3308页，2017年。2[10] 汉军岱、伯岱、乐颂。结构化数据潜变量模型的判别嵌入。在ICML，第2702-2711页3[11] 我的朋友德夫费拉尔， XavierBresson 和PierreVandergheynst。具有快速局部谱滤波的图上卷积神经网络。NIPS，第3837-3845页，2016年。3[12] Zhiwei Deng ， Arash Vahdat ， Hexiang Hu ， and GregMori.结构推理机：用于分析群体活动识别关系的递归神经网络在CVPR，第4772-4781页，2016年。一、二、七[13] David K. Duvenaud，Dougal Maclaurin，Jorge Aguilera-Iparraguirre ， Ra f aelG o'mez-Bombarelli ， Timot hyHirzel，Al a' nAspuru-Guzik和RyanP. 亚当斯基于图的进化在NIPS，第2224-2232页，2015年。3[14] Chuang Gan ， Naiyan Wang ， Yi Yang ， Dit-YanYeung，and Alex G Hauptmann. Devnet：一个用于多媒体事件检测和证据重新描述的深度事件网络。在CVPR，第2568-2577页，2015年。1[15] 作者： Georgia Gkioxari ， Ross B.Girshick 和 JitendraMalik整体和部分的动作和属性。在ICCV，第2470-2478页，2015中。2[16] Abhinav Gupta，Aniruddha Kembhavi和Larry S.戴维斯观察人与物体的相互作用：使用空间和功能兼容性进行识别。 IEEE Trans. Pattern Anal. 马赫内特尔， 31（10）：1775-1789，2009. 2[17] Hossein Hajimirsadeghi，Wang Yan，Arash Vahdat，andGreg Mori.通过计数实例进行视觉识别：一种多实例势核.在CVPR，第2596- 2605页，2015年。二、七[18] William L. Hamilton，Zhitao Ying，and Jure Leskovec.大图上的归纳表示学习。在NIPS，第1025-1035页，2017年。3[19] Kai m ingHe ， Geo r giaGkioxari ， PiotrDol la'r ，andRossB. 娘娘腔。面罩R-CNN。在ICCV，第2980-2988页，2017年。3[20] Yedid Hoshen 注意力多智能体预测模型（attentionalmulti-agent predictive modeling）在NIPS，第2698-2708页，2017年。3[21] Han Hu，Jiayuan Gu，Zheng Zhang，Jifeng Dai，andYichen Wei. 用于对象检测的关系网络在CVPR中，第3588-3597页2[22] Ronghang Hu ， Marcus Rohrbach ， Jacob Andreas ，Trevor Darrell，and Kate Saenko.使用组合模块网络对指称表达式中的关系进行建模。在CVPR中，第4418-4427页，2017年。2[23] 穆斯塔法·S.易卜拉欣和格雷格·莫里。群体活动识别与检索的层次关系网络。在ECCV，第742-758页，2018年。一、二、七[24] 穆斯塔法·S. Ibrahim， Srikanth Muralidharan ， ZhiweiDeng，Arash Vahdat，and Greg Mori.一种用于群体活动识别的层次深时间模型在CVPR中，第1971一、二、六、七[25] 穆斯塔法·S. Ibrahim， Srikanth Muralidharan ， ZhiweiDeng，Arash Vahdat，and Greg Mori.一种用于群体活动识别的层次深时间模型在CVPR中，第1971二、五[26] 作者：Justin Johnson，Ranjay Krishna，Michael Stark，Li-Jia Li，David A.作者：Michael S.伯恩斯坦和李飞飞。使用场景图进行图像检索。在CVPR，第3668-3678页，2015年。2[27] Steven M.放大图片创作者：John W.潘德和帕特里克·莱利分子图卷积：超越指纹计算机学报Aided Molecular Design，30（8）：595-608，2016。3[28] 托马斯·N Kipf，Ethan Fetaya，Kuan-Chieh Wang，MaxWelling，and Richard S.泽梅尔交互系统的神经关系推理。在ICML，第2693-2702页，2018年。3[29] 托马斯·N Kipf和Max Welling。基于图卷积网络的半监督分类。CoRR，abs/1609.02907，2016。二三四五[30] Tian Lan，Leonid Sigal，and Greg Mori.人类活动识别的历史模型中的社会角色。在CVPR，第1354-1361页，2012年。一、二[31] 杨伟龙，王洋，田兰，Stephen N.罗比诺维奇和格雷格莫里。用于识别上下文群体活动的判别潜在模型。IEEE Trans.模式分析马赫内特尔，34（8）：1549-1562，2012. 2[32] 李欣和Mooi Choo Chuah SBGAR：基于语义的群体活动识别。在ICCV，第2895-2904页，2017年。一、二、七9975[33] Yikang Li，Wanli Ouyang，Bolei Zhou，Jianping Shi，Chao Zhang，and Xiaogang Wang.可因式分解净值：一个有效的基于子图的场景图生成框架。在E

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

学习行动者关系图用于群体活动识别

人类行为活动识别

图像识别强化学习模型

解释软件建模术语行动者

讨论机器学习、模式识别与人工智能的关系

强化学习和有监督学习的区别？

强化学习手写数字识别与眼动实验的联系

机器学习中什么是监督学习、 无监督学习和强化学习。他们的区别是什么？

ESP32 人脸识别

强化学习和深度学习区别

机器学习深度学习和强化学习

机器学习 tom 答案

深度强化学习是不是概率图模型

q学习与马尔可夫的关系

openmv识别复杂物体

深度学习和强化学习的区别

机器学习在日常生活中的应用

机器学习，深度学习和强化学习的区别

深度学习和强化学习区别

机器学习原理及应用分类机械工业出版社答案csdn

1. 图像增强在实际生活中可用于哪些场景？

最新资源

机器学习中什么是监督学习、无监督学习和强化学习。他们的区别是什么？