面向集体活动的高阶上下文建模方案

93 浏览量更新于2023-10-16 收藏 825KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3048面向集体活动识别王敏思，倪冰冰，杨小康上海交通大学mswang1994@gmail.com，{nibingbing，xkyang}@ sjtu.edu.cn摘要高阶干扰上下文建模，群体互动是集体/群体活动认知的核心。然而，大多数以前的活动识别方法没有提供一个灵活的和可扩展的方案来处理高阶上下文建模问题。为了明确解决这个根本瓶颈，我们提出了一种基于LSTM网络的递归interpretation上下文建模方案。通过利用LSTM的信息传播/聚合能力，所提出的方案统一了单人动态、组内（例如，组内的人）和组间（例如，组对组）的交互。所提出的它非常灵活地处理不同数量的输入实例（例如，组中不同数量的人或不同数量的组）并且线性可缩放到高阶上下文建模问题。在两个基准集体/群体活动数据集上的实验证明了该方法的有效性。1. 介绍集体活动组的分析为几个现实世界的应用提供了有用的集体活动识别的主要挑战是对人与人之间的干扰上下文信息进行建模。这是因为参与互动的人数总是变化的。此外，在大多数情况下，一个集体活动与几个子组的相互作用，如何建模组到组的相互作用是更具挑战性的。以前的活动识别方法主要集中在对一元特征建模，单个人出现或动态信息[21，26]和人与人交互（例如，pairwise features）[22].然而，这些上下文信息建模方案不适合集体活动识别。这是因为，人员级别上下文组级上下文场景级上下文图1.拟议框架概述。提出了一种层次化的递归交互上下文建模框架，用于组内和组间交互上下文的建模。集体活动不同的活动类别可以共享相同类型的一元或成对特征（例如， “stand- ing alone” in the cases ofqueueing or discussion, “facing to same direction” in thecase of 换句话说，除了对组内交互（例如，由于群体中的人与人之间的相互作用是一个复杂的概念，因此如何有效地描述群体与群体之间的相互作用就显得尤为重要。低阶上下文特征不能提供足够的线索来识别这些活动。为了解决这个基本问题，大多数先前的方法都试图通过推断潜在的图形结构来对场景中的人之间的高阶关系进行编码[9，8]。然而，在树结构模型的情况下，这些方法在推理和学习过程中往往需要很高的计算代价，因此将这些方法应用于集体活动识别是不可行的此外，它是非常困难的推广方法的基础上的图形模型来处理高阶interferencepcontext。Ni等人[24]提出了一个因果关系分析框架来编码一元、成对和组交互特征。然而，该方法仅能够对人体轨迹级信息进行建模，这不足以识别更细粒度的动作，这些只能通过人的外观或局部身体部分动态来识别。一个基本的问题是：如何系统地编码高阶人类干扰上下文，即，输入图像序列LSTM LSTM LSTMLSTM LSTM LSTMLSTM LSTM LSTM不t-1t-23049目标方法对于表示任意数量的交互的人或组之间的上下文特征为此，我们提出了一种基于长短期记忆（LSTM）的递归交互上下文编码方案[16]。更具体地说，我们提出了一个分层的经常性interesting上下文编码框架来处理三个层次的相互作用，即单一的人类动态，在组内的人类互动和组到组的互动。首先，时空图分割执行为- m人类干扰子组。此外，我们提出了一个统一的网络架构，模型的单人动态，组内（人在一个international子组）和组间（组到组）的上下文特征，基于子动作编码器和长短期记忆（L-STM）网络。此外，我们还建议输入由子动作编码的一元特征（例如，移动或姿势）到我们的分层L-STM上下文编码网络中。以下是该方案的优点首先，通过子动作对每个人的动态进行编码足以区分不同的动作。S.其次，使用递归上下文信息累积/建模方案，因此统一了上下文信息的不同顺序的建模，因为LSTM节点共享参数，因此可以通过添加另一个LSTM节点来简单地处理增加顺序。第三，所提出的方案的模型复杂度是线性可伸缩的上下文顺序。在两个基准集体/群体活动数据集上的大量实验结果通过与最先进的群体活动识别方法进行比较，很好地证明了区分能力，建模高阶干扰上下文的灵活性和对噪声人类检测的鲁棒性本文的其余部分组织如下。我们在第2节回顾了一些相关的工作。在第3节中，我们介绍了所提出的循环干扰上下文编码框架和实现细节。广泛的实验结果和讨论在第4节。第五节给出了结论。2. 相关工作集体/团体活动认可。许多关于集体活动识别的深入研究都集中在情境学习上[6，7]，其中原子活动的空间分布被应用于描述群体活动。Amer等人[2]检测集体活动发生的视频部分，并利用检测部分中的这些局部视觉线索进行识别。Lan等人[22]提出了一种自适应的潜在结构学习，它代表了从较低的个人级别信息到较高的群体级别交互的层次关系。在[21]和[26]中，社会角色的概念，在完全监督和弱监督框架中，分别利用了个体在群体背景下的预期行为。Choi和Savarese [5]统一跟踪多个人，在联合框架中识别个人行动，互动和集体活动。在[7]中，随机森林结构用于从馈送到3D马尔可夫随机场的输入视频中采样有区别的时空区域Shu等人[30]使用与或图形式主义从空中视频检测群体活动。最近，在[15]中引入了基于多实例基数模型构造的概率结构化核方法。此外，Denget al. [9]介绍了一种基于神经网络分层图形模型，可以同时预测群体活动在[17]中，提出了一种基于LSTM的分层深度时间模型，用于对群体活动识别的时间动态进行建模。复发性神经网络和 LSTM。递归神经网络，特别是长短期记忆模型[16]，在各种各样的应用中取得了巨大的成功，包括自然语言处理[33，34]和语音识别[14，13]等时间建模，以及图像字幕生成[19，37]等非时间建模。已经提出了几项工作来使用RNN/LSTM模型对动作图像序列进行建模。Veeriah等人[36]提出了LSTM神经网络的差分门控方案，该方案强调了连续帧之间的显著运动引起的信息增益变化。Donahue等人[10]开发了一种用于大规模视觉学习的新型递归卷积架构。他们将该模型应用于几个任务，包括基准视频识别，图像描述和视频叙述。Karpathy等人[19]描述了一种多模态RNN架构来生成图像描述。Wu等[38]通过两个CNN提取空间和短期运动特征，以进一步模拟长期时间线索。这两种基于CNN的特征进一步结合在正则化特征融合网络中用于视频事件分类。最近，LSTM网络也被应用于细粒度动作检测[25]，人类轨迹预测[1]以及复发视觉注意力背景下的对象识别 [3] [23] [29] 。对于集体活动识别， Ibrahim 和Muralidharan [17]引入了一个分层结构模型，它包含了一个深度的LSTM框架来识别个人行为和群体活动。他们利用基于LSTM的时间建模来从随时间变化的体育活动数据中学习判别信息然而，人员池无法对组到组的上下文进行建模。为了解决这个问题，我们提出了一个基于递归的交互上下文编码框架，用于对组内和组间交互上下文进行建模。3050人员级别LSTM空间CNN组级LSTM运动CNN场景级LSTM上下文编码器小组活动子动作信息（姿势）子动作信息（移动）流动图像流动图像流动图像流量流量流量图像图像流图像流图片图片图片个人级别集团级场景层级图2.用于集体/群体活动识别的分层递归干扰上下文编码框架给定Ni个人的tracklet，我们将每个tracklet分别馈送到空间CNN和运动CNN中，并连接它们的输出，然后是一个人级LSTM网络来表示人的动态。然后，我们利用上下文编码器模型组级和场景级的交互上下文。最后，将编码结果输入LSTM网络，以识别整个活动。3. 方法与传统的活动认识相比，集体活动有其独特的性质。特别是人类群体之间的相互作用在集体中起着更重要的作用（例如，两组在活动讨论中面对面）。为了扩大组动作之间的差异并更好地表示它们，我们在分层组活动识别方案中部署了上下文二进制编码器，该编码器对子动作（例如，移动和姿态）信息转化为人的动态，以丰富人的层次特征，并使人的动作具有唯一性。为了对组与组之间的交互进行建模，提出了一个管道，如下所示（如图1所示）。2）的情况。首先，我们执行人体检测和跟踪以生成人体轨迹（例如，一系列被跟踪的人类边界框）。然后，我们应用聚类/分割方法将所有人体轨迹分割成时空一致的组。在此之后，我们训练所提出的分层递归上下文编码网络来学习1）单个人类动态，2）组内人机交互和3）组间交互的交互3.1. 交互体积生成生成人类轨迹。为了公平比较，我们方法的输入是Choi等人提供的场景中的人的一组轨迹。[5，6]。生成人类组。识别集体/群体活动的关键步骤是对人类群体之间的交互以及每个群体之间的交互我们基于[27]中使用的图分区算法执行tracklet分组/分区。根据轨迹线之间的相对空间距离和速度构造邻接图。3.2. 群体互动的语境编码这项工作的目标是在集体活动中建立群体互动模型。如上所述，我们的组交互建模框架的输入是视频中的一组人类轨迹以及这些轨迹的分组。S.为此，我们建立了一个层次化的计划，models- els单个人的外观动态，编码子动作信息，以获得组内的人类互动和组对组的互动，在一个自下而上的方式。对于交互建模的每个级别，子动作编码器和RN- N（例如，LSTM）被用于将不同数量的实体级特征以及实体之间的关系聚集到统一的上下文特征表示，即，实体对应于用于组内上下文建模的个人详情如下。3051我3.2.1单人交互上下文单人交互情境包括两个线索：1）人的外观随时间的变化，以及2）人的动作的节奏动态，其提供用于识别集体/群体活动的重要线索。例如，为了区分步行和排队，无论人是站着不动还是移动都是有区别的。更具体地，给定人的轨迹（跟踪的时空体积）（Ii用于原始图像中的轨迹，If用于对应的流图像中的轨迹），我们采用长短期记忆（LSTM）模型来编码个体人的时间演变受深度卷积神经网络特征（DCNN）在表示图像块/区域级视觉特征和光流算法在表示对象运动方面的成功启发，在这项工作中，类似于[31，12]，我们使用Flownet [11]为每帧生成流图像，并从沿着轨迹的每个人类边界框中提取DCNN特征（原始图像和流图像），作为LSTM模型的输入序列。我们用X={x1，x2，· · ·，xT}表示输入特征的序列，即，xt是由concate融合的特征向量，将原始特征和流特征输入到第t个LSTM节点。每个LSTM节点的相应状态和输出分别由ht和ot表示。每个LSTM n节点包括三个门，（即，输入门I，输出门O并且忘记栅极F）以及存储器单元。在每个时间步t，给定输入xt和前一个隐藏状态ht−1，LSTM更新如下：it=σ（Wixt+Uiht−1+Vict−1+bi）（1）ft=σ（Wfxt+Ufht−1+Vfct−1+bf）（2 ） ct=ftct−1+ittanh （ Wc xt+Uc ht−1+bc ）（ 3 ） ot=σ （ Wo xt+Uo ht−1+Vo ct+bo ）（4）ht=ottanh（ct）（5）其中σ是sigmoid函数，并且σ表示逐元素乘法运算符。W、U和V是权重矩阵，b是偏置向量。存储单元ct是前一个存储单元ct−1与当前输入的函数的加权和。重量是活动的-分别为遗忘门和输入门。一方面，隐藏状态ht可以用于表示人在时间t正在执行的特定原子动作，例如，行走或站立。另一方面，ht还包含从第一时间戳到t的那个人的聚集动作信息，人的动力学3.2.2组内和组间互动情境如上所述，场景中的人根据他们的时空接近度被划分为若干组imity。因此，重要的是要对每个组内的相互作用进行建模，即，人与人之间的互动。大多数交互建模方法都是基于两两特征的，人与人之间的相对距离或相对速度，并且这些方法难以推广以处理更高阶的干扰背景，即，当组中的人多于两个时。为了解决这个问题，我们提出了一个基于LSTM的上下文编码框架来建模intermittent上下文。即，我们首先基于他们的子动作（例如，moveandpose），然后根据图像中人物中心的x或y坐标对人物级别特征进行排序，并将其输入到另一个LSTM网络中。这个LSTM网络的聚合输出充当组内人与人之间的交互上下文。换句话说，编码器丰富了每个人的水平动态，并在组中的所有人上收集，使得它可以用于描述组内的组干扰活动。注意，该方案是灵活的，以编码组中任意数量的人之间的上下文我们将首先介绍上下文编码，然后说明其在组间和组内交互上下文建模中的应用。上下文编码。单个人水平的建模已经认识到整体的人的动态和组内和组间的互动环境的模型，需要更多已经发现了一些图形结构[5，22，26]来建模成对交互上下文，但是它们不能充分有效地表示整个交互上下文在这里，上下文编码被提出来对图像中所有人之间的w- hole交互上下文进行建模，并且它将随着上下文中涉及的实体数量的增加（即，上下文顺序）。受[6]的启发，我们使用时空信息来编码上下文。在图中。3、给定每个人的子动作信息，我们的上下文编码器旨在将子动作信息编码到人动态中以丰富人级别特征。两种类型的子动作（例如，move和pose）在编码器中部署，这足以描述我们实验中个体的动作（第4节）。根据传统的二进制代码，通常有编码后{0，1}。但对于神经网络，输入{0}通常意味着没有输入。因此，我们定义{-1，0，1}来表示代码，其中{0}表示元素没有意义。对于编码子动作移动，有三个元素{-1，0，1}要表示，其中{-1，0，+1}音符分别向左移动，静止不动和向右移动（点-图中的线（3）第三章。我们通过计算x坐标中的运动来编码子动作移动，如等式：（六）、30523【-1，+1，+1】2 [-1，+1，-1]1 [-1，-1，+1]4 [+1，-1，-1]0 [-1，-1，-1]5 [+1，-1，+1]6【+1，+1，-1】七【+1，+1，+1】c[1，1，1]c[1，1，1]c3[1，1，1]c[1，1，1]我我IbIb IbIb我我移动姿势组级LSTM上下文编码器X在执行上下文编码之后，编码的特征yp可以被直接馈送到组内或组间LSTM网络中用于训练（图1中的组级或场景级）。2）的情况。给定帧的注释，LSTM可以学习编码规则，并能够在预测阶段解码代码。值得注意的是，一个问题是包括LSTM的递归网络只接受有序输入序列，即，时间序列然而，在我们的例子中，人级特征的集合是无序的。因此，一个基本的处理步骤是执行一些排序/对齐方案，以促进后续处理。为此，我们使用空间线索来排序一个组中编码的人的水平特征，以输入到LSTM网络。更具体地说，我们通过相应tracklet的x或y坐标对人级特征进行排序，并形成两个LSTM。图3.上下文编码器。主持人的动作分为-分成两个方向（例如，左和右）。锚人物的姿势被分成八个方向，由圆圈周围的数字编码。上下文编码器的输入是子动作信息ck和人动态Op，并且其输出是等式中的yp（七）、输入序列（在我们的作品中，x坐标更好）。对于每个方向，我们获得空间聚集的交互上下文表示，其指示沿着该方向的人与人交互（例如，由x坐标排序我我我yp被馈送到遵循x坐标顺序的组LSTM中。−1,△xIb<µC（△xIb）为0，|△xIb|≤µ+1，△x> µ（六）在图中从左到右。（3）第三章。组到组（组间）交互上下文的建模与组内上下文建模类似。也就是说，组级表示首先由公共子动作信息（通常与组内不同）编码，按每个组的几何中心的x或y坐标排序，并输入到另一个LSTM其中△xIb=. X t −x t−1和x t 表示x坐标-网络和聚合的网络输出用作场景级（组到组）交互表示。对应的边界框Ib的中心的坐标时间戳t中的人。μ表示用于确定人是否移动的阈值（例如，如果人的运动小于μ像素，则该人被视为静止）。此外，为了表示八种类型的动作姿势的子动作（例如，8个方向），我们利用3位代码（范围从0到7）来表示姿态的8个方向，并且编码姿态的方式在图中以实线示出。3 .第三章。而且，为了更好地表示人移动和姿势）根据等式（1）被编码到（7）、y p=[c1× O p，c2× O p，.， c k× O p]（7）3.3. 实现细节我们通过三个步骤训练我们的模型（个人级别，团队级别，场景级别）。此外，当对组内和组间上下文建模时，存在上下文编码步骤。我们提出的分层模型的网络结构和参数定义如下：1. 第一级网络（人员背景）。我们基于在Ima-geNet上预训练的模型提取D-CNN特征[28]。应用了两个CNN网络，空间CNN（AlexNet [20]）用于原始图像，运动CNN（GoogleNet [35]）用于流图像。通常，在以下情况下不需要训练运动CNN：其中ck表示组中第i个人的代码的第kpi执行人员水平培训。更具体地称为Oi是人级别LSTM的输出（p表示每-在Op中的子水平），并且[]表示向量con-单层LSTM网络放置在级联之后，填充层。因此，LSTM的维度在Eq.（七）、（例如，假设Oi的维数为1×1024，[ck]是4位码，则yp的维数为单元格输入为4096 + 1024 = 5120。每个LSTM层i i包含1024个隐藏单元。输出u的数量1×4096）。我们使用二进制代码，因为它的性质，每一位都有两种相反的值，子动作中的相反方向（例如，移动或摆姿势）。在我们的论文中，强烈建议执行子动作增强以提高模型的鲁棒性（第3.3节）。组间和集团内部相互作用Contex-t建模。接下来，对于组内交互建模，尼特被设置为类的数目（例如，动作标签或场景标签）。2. 上下文编码。人的水平的特点是trans-formed以下方程。编码后的特征按x坐标排序后作为下一个网络的输入3053228◦◦3. 2级网络（组上下文）。这个LSTM网络的输入是人级上下文网络在上下文编码后的输出。空间CNN、运动CNN和人级LSTM的输出是级联的，因此如果上下文编码步骤不改变其维度，则每个LSTM 单元的输入向量的维度为 4096+ 1024+1024= 6144采用单层LSTM网络，每个LSTM层包含1024个隐藏单元。4. 3级网络（场景上下文）。输入到这个5 [+1，-1，+1]6【+1，+1，-1】1 [-1，-1，+1]0 [-1，-1，-1]旋转前LSTM网络是组级上下文网络经过上下文编码后的输出，结构与组级网络相似组级网络和场景级网络的区别在于输入的维数取决于编码结果。训练过程在Caffe上执行[18]。所有输入图像块的大小调整为227×227像素，并减去图像平均值。我们的培训程序遵循自下而上的方式。也就是说，我们首先训练个人层次的上下文网络.1级网络的输出作为上下文编码后的第二级网络的输入，以训练组上下文网络。最后，利用二级网络的输出训练三级场景上下文，在上下文编码后的t网络（图。2）的情况。对于1级网络，输入DCNN特征由ImageNet预训练模型提取。为了训练所有网络，人级网络的学习率为固定值0。00001 LSTM网络的初始学习率为0。0001，并且在每两个epoch之后，学习速率减小到原始值的 1所有LSTM网络都使用[10]的实现进行训练/测试。为了表示视频样本的人级上下文，我们将所有的人轨迹输入到1级网络中，并选择最后一个输出作为特征向量。类似地，为了表示视频样本的组级上下文，选择第2级网络输出中的最后一个作为下一级网络的输入。子操作的数据扩充。由于训练数据的缺乏以及训练数据和测试数据之间的差异，我们的模型不能编码所有的运动方向和姿态方向。为了提高模型的鲁棒性，采用了一种新颖的数据增强方法来避免上下文编码的弱点。我们进行的数据扩充不仅增加了输入图像的多样性，而且也增加了二进制码组成的多样性。子操作的数据扩充方法如所示图. 4.第一章假设组中有两个人，对应的姿势标签为{0，5}（图中的蓝线）。4）. 对于图像中的每个人，我们通过旋转360=180°一次移动或360=45°七次姿势来进行增强（图中的红线）。4）. 二进制代码发生了变化，但它们之间的交互环境图4. 子动作的数据扩充方法保留（组活动不变）。我们的目标是通过进行拟议的子行动数据扩充来涵盖所有情况。4. 实验我们在集体活动数据集[6]和Choi的新数据集[ 5 ]上进行了广泛的实验，以验证学习上下文信息的能力，并将我们的结果与最先进的方法进行并进行了深入的讨论。由于[6]和[5]中介绍的流行数据集缺乏足够的背景多样性和足够大的训练数据，有时可以通过对图像的背景进行分类来推断图像中发生了什么。为了避免背景的影响，并专注于相互作用的分析，该方法忽略了背景的信息，并没有使用它在任何步骤。4.1. 集体活动数据集集体活动数据集已被广泛用于评估群体活动识别性能。该数据集包含使用低分辨率手持摄像机采集的44个视频片段。在这个数据集中有八个人级别的姿势标签，五个人级别的动作标签和五个组级别的活动。一个场景只是简单地分配了大多数人在做什么。我们遵循[22]中建议的训练/测试分割，使用[5]中提供的tracklet数据，仅使用五个组级活动进行训练。未应用上下文编码器。集体活动数据集包括集体活动、穿越、站立、行走和交谈。根据[6]，步行类定义不清，因为它更像是一个单人活动，而不是集体活动。当然，步行和过街的区别只是人与街道的关系.因此，我们将类Walking和Crossing合并为类Moving，并将Walking和Crossing的平均每类准确度（MPCA）报告为Moving的准确度。由于不平衡的测试集，我们报告MPCA。对于人级网络，所提出的方法使用空间3054表1.集体活动数据集的结果（%）[6]。类Walking和Crossing的结果合并为Moving。Pooling去注释Pooling-SVM方法。显示平均每类准确度（MPCA）以供比较。[22]第17话：我的世界移动92 90.095.987 94.2 94.4等候6982.966.4 75 50.3 63.6排队 76 95.4 96.8 92 100.0100.0说话99 94.999.599 99.599.5移动等待排队说话95.88%3.68%0.42%0.00%的百分比33.56%66.44%0.00%的百分比0.00%的百分比3.23%0.00%的百分比96.77%0.00%的百分比0.55%0.00%的百分比0.00%的百分比百分之九十九点四五移动等待排队说话(a) 基线移动等待排队说话94.39%4.90%0.71%0.00%的百分比36.36%63.64%0.00%的百分比0.00%的百分比0.00%的百分比0.00%的百分比百分之一百0.00%的百分比0.55%0.00%的百分比0.00%的百分比百分之九十九点四五移动等待排队说话(b) 我们MPCA 8490.889.7 88.3 85.8 89.4和运动CNN识别动作的灵感来自[31，12]，它与工作[17]最相似因此，我们通过执行具有运动特征且没有人级别注释的池化SVM结构来实现[17]的模型（表1，池化）。我们的方法的结果示于表1中，并与以下方法进行比较：（1）Lanet al. [22]，（2）Choiet al. [5]，（3）易卜拉欣等。[17]，（4）Hajimirsadeghiet al.[15 ]第10段。请注意，其他人的结果是从[22，5，17，15]中相应的原始混淆矩阵计算的。如表1和图5所示，我们的方法的性能与最先进的方法处于同一水平。我们的所有结果都与基线相当[17]。[17]和我们的模型之间的区别在于，我们不使用人动作标签，而是利用光流信息进行训练和测试。很明显，与池化SVM方法相比，我们的模型具有更好的性能（即，方法[17]具有运动特征并且没有人级别注释）。它证明了LSTM可以聚合上下文信息，其特征聚合能力可以用于特征池。池支持向量机的结果比我们的方法有一个较低的准确性。这部分是由于池化方法不能很好地区分具有几乎相同运动特征的类Waiting和Waiting。此外，与池化SVM和我们的模型与其他人相比，它表明，分类性能的行动类等待是不令人满意的。请注意，我们没有使用人级别的姿势标签和人级别的动作标签，并且类等待总是与类交叉和行走同时发生，这可能是混淆预测的一个因素。从这个实验中，我们验证了LSTM学习上下文信息的能力，并通过使用LSTM聚合特征，展示了一种在没有人级别注释的情况下识别群体活动的新方法4.2. ChoiChoi的新数据集[ 5 ]由32个视频片段和6个集体活动组成：聚、谈、散、走、追、赶。有9个交互标签，3个原子动作标签，8个姿势标签和6个组级活动。我们使用除9个交互标签之外的所有标签进行训练。原子的作用被标记为图5.集体活动数据集上的混淆矩阵[6]（将行走和交叉视为同一类移动）。(a)基线的混淆矩阵[17];（b）我们方法的混淆矩阵。如行走、站立和跑步。整个集合被分成3个子集1，我们按照[5]中的建议在实验中，我们使用[6]作者网站上提供的我们采用层次递归的interactioncontext-t编码框架来识别该数据集上的群体活动。首先，利用人级网络确定图像中每个人的原子行为.我们根据3.1节中的方法生成的组信息对每个特征进行编码。最后，将编码后的特征输入到组级或场景级网络中，以确定最终类别。注意，我们使用各种阈值来编码子动作移动（例如，Th0、Th1和Th2表示模型- s，在表2中阈值μ分别等于0、1、2），这是我们定义的向左或向右移动和s-t静止的边界（例如，如果人的运动小于2个像素，则在Th2模型中将人视为静止）。我们还将我们的活动识别结果与最先进的方法进行了比较。比较方法包括：1）Chang等人。[4]，2）Choiet al. [6]和3）Choiet al. [5]的文件。我们用运动特征（即，光流图像）用于比较。如表2所示，我们的方法在识别Choi的新数据集中的群体活动方面取得了显着突破我们的模型，即Th0进一步提高了多类精度（MCA）的性能为89。4%，Th1的MPCA最好，为85。百分之二。这表明我们的上下文建模方案是有效的。实际上，在第二个数据集中，每个人都有原子标签（移动，静止和运行）而不是活动标签。因此，在表2中，方法[17]在没有上下文编码器的情况下不能很好地工作。与其结果相比，我们的方法在MCA和MPCA中的性能都有很大的提高。我们的方法的混淆矩阵也如图所示。六、我们注意到，分类性能的类解雇是相对较低的，而分类-1个测试集1：[1、2、7、12、13、19、20、21、26、27、30];测试集2：[3，5，10，11，15，16，17，18，24，25，31];测试集3：[4，6，8，9，14，22，23，28，29，32];305513X表2. Choi新数据集的结果（%多类精度（MCA）和MPCA的显示，因为类大小的不平衡。T h0表示阈值μ为零，而T h1和T h2表示阈值μ分别等于1和2个像素[4][6][5][17]T h0T h1T h2收集59.9 50.0 43.5 30.7 71.9 71.9 72.8说话97.0 72.7 82.2 91.4 95.9 95.9 95.9解雇人物观点移动241 3 2 4查看4231X视图b1234X视图c步行94.3 83.2 87.4 82.4 86.6 85.2 78.9追逐电话：+86-555 - 8555555马可-77.4 83.0 78.189.489.2 87.3MPCA 80.3 74.3 79.2 64.7 84.685.284.5图7.随着视图的变化而排序我们将向左和向右移动分别定义为-1，+1，并希望识别活动，解雇。绝对顺序并不重要（视图ab）。重要的是，解雇必须表示为序列{−1，−1，+1，+1}在x坐标中。对于视图c，它可能会混淆，但随着人的移动，它将具有与视图ab相同的模式收集说话解雇步行追逐排队聚会聊天解雇行走追逐通常情况下，监控视频中的视图我们在集体活动数据集上执行的方法也有一些局限性[6]。其中一些是由于数据集。在数据集中，数据量小，多样性差。也有一些不准确的注释（例如，在两种类型的动作转换中注释混乱），容易引起误解。我们使用子动作数据增强来补偿它，但不能完全避免它。此外，对于原子行为分类，其性能主要受到跟踪算法和光流算法的限制.当人们在被阴影覆盖的建筑物附近行走时，很难生成此外，还讨论了编码器中使用的阈值。图6.Choi的新数据集上的混淆矩阵通过使用我们的分层递归interpretation上下文编码模型。类集合的分类精度更高。一方面，这是由于上下文编码器不能区分“移入图像平面”与“移出图像平面”的原因另一方面，在同一个视频中，动作聚集、说话和解散是时间上连续的过程，因此，在从聚集到说话的过渡和从说话到解散的过渡中，很难确定是哪一个类。4.3. 讨论综上所述，基于LSTM的群体活动识别递归干扰上下文编码方案在特征聚合方面是可行的，可以预见，它将在未来处理大型数据库中取得在未来，我们试图通过在我们的模型中应用VGGnet [32此外，所提出的模型在建模由各种子行动组成的群体行动时表现良好对于视点变异，排序是对人与人之间相对空间信息的一种间接建模，并不倾向于获得绝对排序。因此，一般来说，无论视角如何变化都无关紧要。人们在相应的顺序中做什么很重要（见图）。（七）.需要通过交叉验证来设置文本。5. 结论在本文中，我们专注于学习多层次的交互上下文，并开发了一个层次递归交互上下文编码框架的集体活动识别。采用基于LSTM的特征聚合方法对多数和上下文的行为进行建模，测试编码器用于生成多级交互上下文。实验结果表明，基于弱标记的LSTM成功地学习了上下文信息，验证了LSTM的编解码能力。此外，所提出的方法是强大的识别群体活动，鲁棒性的噪声人类检测和灵活的建模高阶干扰上下文。6. 确认本课题得到了国家重点研究发展计划（2016YFB1001003）的资助本课题得到了国家自然科学基金（61502301）、国家青年千人计划、国家自然科学基金（61521062）、111计划（B07022）和上海市数字媒体处理与传输重点实验室的部分资助。71.93%20.18% 0.00% 7.02% 0.00% 0.88%0.46%95.87%0.92% 1.83% 0.00% 0.92%0.00% 12.63%68.42%13.68% 0.00% 5.26%4.18% 0.00% 2.61%86.59%3.48% 3.14%3.85% 0.00% 0.00% 6.92%89.23%0.00%3.18% 0.00% 0.45% 0.91% 0.00%95.45%1B一3056引用[1] A. Alahi，K. Goel，V. Ramanathan，A. Robicquet，F. Li和S. Savarese社交LSTM：拥挤空间中的人体轨迹预测。在CVPR，2016年。[2] M. R. Amer和S.托多洛维奇视频中群体活动参与者定位的链式模型见ICCV，2011年。[3] J. Ba、V. Mnih和K. Kavukcuoglu多目标识别与视觉注意。CoRR，abs/1412.7755，2014年。[4] X.张，W。S. Zheng和J.张某集体活动认知中的学习者个体互动. TIP，24（6），2015.[5] W. Choi和S. Savarese多目标跟踪和集体活动识别的统一框架。ECCV，2012年。[6] W.崔，K. Shahid和S. Savarese他们在做什么？：利用人与人之间的时空关系进行集体活动分类。ICCV，2009年。[7] W.崔，K. Shahid和S. Savarese集体活动识别的学习情境。CVPR，2011。[8] Z. Deng、A.瓦赫达特湾Hu和G.森结构推理机：用于分析群体活动识别关系的递归神经网络在CVPR，2016年。[9] Z.邓，M.翟湖Chen，Y. Liu，S. Muralidharan，M. J.Roshtkhari和G.森群体活动识别的深层结构化模型。在BMVC，2015年。[10] J.多纳休L.安妮亨德里克斯S. 瓜达拉马M. Rohrbach，S. Venugopalan湾Saenko和T. 达雷尔。用于视觉识别和描述的长期递归卷积网络。CVPR，2015。[11] A.多索维茨基山口Fischery，E.伊尔格角哈兹尔巴斯河谷戈尔科夫，P. van der Smagt，D.Cremers，T.Brox等人Flownet：使用卷积网络学习光流在ICCV，2015年。[12] G. Gkioxari和J.马利克找活动管。CVPR，2015。[13] A. Graves和N.贾特利用递归神经网络实现端到端语音识别。InICML，2014.[14] A.格雷夫斯，A. R. Mohamed和G.辛顿使用深度递归神经网络进行语音识别。载于ICASSP，2013年。[15] H. Hajimirsadeghi，W. Yan，中国山核桃A. Vahdat和G.森通过计数实例进行视觉识别：多实例基数势核。CVPR，2015。[16] S. Hochreiter和J.施密特胡博长短期记忆。神经计算，9（8），1997。[17] M.易卜拉欣， S 。Muralidharan ， Z.Deng 、 A.Vahdat，以及G.森一种用于群体活动识别的层次深时态模型。在CVPR，2016年。[18] Y. Jia、E.Shelhamer，J.多纳休S.Karayev，J.隆河，西-地Gir- shick，S. Guadarrama和T.达雷尔。Caffe：用于快速特征嵌入的卷积架构。 arXiv 预印本 arX-iv ：1408.5093，2014年。[19] A. Karpathy和L.飞飞用于生成图像描述的深度视觉语义对齐。CVPR，2015。[20] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。NIPS，2012年。3057[21] T.兰湖，澳-地Sigal和G.森人类活动识别分层模型中的社会角色。CVPR，2012。[22] T. 兰岛，澳-地Wang，W.Yang，S.N. Robinovitch和G.森用于识别上下文群体活动的判别潜在模型。PAMI，34（8），2012.[23] V.Mnih，N. Heess，A. Graves和K. Kavukcuoglu 视觉注意的再现模型。在NIPS，2014。[24] B. Ni、S. Yan，和A.卡西姆识别具有局部伤亡的人类群体活动。CVPR，2009。[25] B. Ni、X. Yang和S.高.渐进式解析交互对象，以实现细粒度动作检测。在CVPR，2016年。[26] 诉拉马纳坦湾Yao和L.飞飞人类事件中的社会角色发现InICCV，2013.[27] M.拉普蒂斯岛Kokkinos和S.索阿托从中级视频表示中发现有区别的动作部分。CVPR，2012。[28] O. 鲁萨科夫斯基Deng，H.Su，J.Krause，S.萨蒂希S.妈Z。Huang，黄背天蛾A.卡帕西A.科斯拉，M。Bernstein等人图像网大规模视觉识别挑战。I-JCV，115（3），2015.[29] P. Sermanet，A. Frome和E.真的注意细粒度分类。CoRR，abs/1412.7054，2014年。[30] T. Shu、黄花蒿D.谢湾，加-地Rothrock，S. Todorovic和S.- C.竹空中视频中群体、事件和人的角色的联合推断。CVPR，2015。[31] K. Simonyan和A.齐瑟曼。用于视频中动作识别的双流卷积网络。在NIPS，2014。[32] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。arXiv预印本arXiv：1409.1556，2014。[33] M. 松德梅河 Schl ué te r和H.

下载后可阅读完整内容，剩余1页未读，立即下载