视频异常检测中的动态骨架轨迹建模

196 浏览量更新于2023-10-18 收藏 1.05MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11996视频异常检测中骨架轨迹的学习规律Romero Morais1岁，Vuong Le1岁，Truyen Tran1岁，Budhaditya Saha1岁，Moussa Mansour2岁，Svetha Venkatesh1岁，澳大利亚迪肯大学应用人工智能研究所2iCetana，Inc. |3 University of Western Australia, Australia1{ralmeidabaratad，vuong.le，truyen.tran，budhaditya.saha，svetha.venkatesh}@deakin.edu.au2moussa@icetana.com.au摘要尽管视频异常检测中存在复杂的纠缠因素，但外观特征在视频异常检测中得到了广泛的应用.我们提出了一种新的方法来建模的正常模式的人的运动在监控视频的异常检测使用动态骨架特征。我们将骨骼运动分解为两个子组件：整体身体运动和局部身体姿势。我们在我们的新的消息传递编码器-解码器递归网络的耦合功能的动力学和相互作用的模型。我们观察到，解耦的功能协同互动，在我们的时空模型，以准确地识别人类相关的不规则事件从监控视频序列。与传统的基于外观的模型相比，我们的方法实现了优越的离群检测性能。我们的模型还提供了1. 介绍视频异常检测是非监督视频建模的核心问题.一个有效的解决方案是学习正常训练视频序列中的规则模式在一个无监督设置的基础上，测试视频中的不规则事件可以被检测为离群值。该问题是具有挑战性的，由于缺乏人的监督和模糊的定义，人类可感知的视频事件中的异常。目前大多数方法都是基于像素的外观和运动特征。这些特征通常从整个帧中提取[5，13，18，20，25]，局部化在图像块的网格上[24]，或集中在预先识别的区域上[6，14]。不幸的是，基于像素的特征是对噪声敏感的高维非结构化信号此外，这些特征中存在的冗余信息增加了训练模型的负担图1.我们通过学习骨骼特征的规律时空模式来检测视频中与人类相关的异常。在这个例子中，我们检测到一个人抓住一个背包的异常事件。这种异常是通过使用他不寻常的骨骼姿势和运动相比，正常活动检测。红色的骨架表示高异常分数，而绿色的骨架表示低异常分数。帧的顺序由蓝色箭头指定。来区分信号和噪声。当前方法的另一个关键限制是由于视觉特征和事件的真实含义这种限制可以通过深度神经网络中的处理来放大[3]。这种缺乏理解阻止了从业人员使用领域知识来定制模型架构，并阻碍了错误分析。在本文中，我们提出利用2D人体骨架，用于检测监控视频中与人类行为相关的异常事件的轨迹。骨架轨迹包含视频序列的时空域中的身体关节集合的位置，如图1所示。通过使用骨架特征，我们明确地利用了监控视频的常见结构，该结构由在静态背景上移动的人和附着在他们身上的物体与基于外观的代表相比11997骨架特征具有结构紧凑、语义丰富、描述性强等特点，是异常检测的关键。通过研究人体骨骼在大山坳中的动力学通过对监控录像的分析，我们发现人体运动的不规则性可以分解为位置、速度、方向、姿势和动作等几个与人体运动和姿势有关的受这种自然因子化的启发，我们提出将动态骨骼运动分解为两个子过程，一个描述全局身体运动，另一个描述局部身体姿势。全局运动跟踪场景中整个身体的动态，而局部姿态描述身体边界框的规范坐标系中的骨架配置我们在一个新的模型中联合建模这两个子过程称为消息传递编码器-解码器递归神经网络（MPED-RNN）。该网络由两个RNN分支组成，分别用于全局和局部特征分量。分支分别处理其数据，并在每个时间步通过跨分支消息传递进行该模型是端到端训练和正则化的，因此它提取了训练数据的正常模式的最紧凑的轮廓，并有效地检测异常事件。除了异常检测之外，MPED-RNN还通过提供决策的贡献因素的权重和这些因素的可视化来支持我们在两个最具挑战性的视频异常数据集上试用我们的方法结果表明，我们提出的方法是有竞争力的检测性能和更容易分析的故障模式。2. 相关工作2.1. 视频异常检测无监督视频异常检测方法一直是视频处理和计算机视觉领域的一个老话题。传统方法将视频帧视为单独的数据样本，并使用单类分类方法对其进行建模，例如单类SVM [25]和概率PCA [15]的混合。这些方法在处理具有各种异常类型的大规模数据时通常达到次优性能。最近的方法通过使用convo-传统神经网络（CNN）从视频帧强度中提取高级特征并实现改进的结果。这些方法中的一些包括卷积自动编码器[13]、时空自动编码器[5]、3D Convnet AE [27]和时间相干稀疏编码堆叠RNN [20]。承认强度的局限性基于特征，如对外观噪声的敏感性，Liuet al. [18]提出利用光流预测其在时间上的相干损失，有效滤除像素外观中的部分噪声。然而，光流是昂贵的提取和仍然远离事件的语义性质结构化表征最近吸引了-增加了对它的潜在关注，以更接近异常中存在的在[26]中，使用对象轨迹来引导视觉特征的汇集，以便更加关注感兴趣的区域。对于模型的可解释性，Hinamietal。[14]建议使用对象、属性和动作检测标签来理解异常分数的原因。虽然它适用于许多事件，但由于标签集的不完整性和标签中不相关信息的分散，他们的方法在许多情况下失败了。我们使用骨架特征的方法是另一个步骤使用低维语义丰富的特征进行异常检测。我们还通过提供在我们的分解语义空间中解释每个异常事件的能力，2.2. 人体轨迹建模视频场景中的人体运动是研究社会行为的重要因素。它已被应用于多个计算机视觉应用，主要是监督学习任务，如动作识别[7]和人员重新识别[8]。最近，更多的努力已经投入到社会环境[1，12，23]和单一姿势配置[10]中人体运动的无监督学习中。在这项工作中，我们建议将骨架运动特征的应用在MPED-RNN中，我们与大多数无监督预测模型共享编码器-解码器结构。然而，我们的目标不是完美地生成预期的特征，而是只提取主要的特征模式，从而排除异常。这涉及到建立一个高度管制的自动编码器。关于特征表示和建模，除了从依赖于手工制作的局部特征和状态机的传统方法在这些方法中，输入数据是以全身xy位置序列的形式，而忽略局部姿势。为了弥合这一差距，在[10，23]中，RNN的输入扩展到骨架关节位置。最近，Duet al.[7]提出了将弹性铰分为五个部分，用一个五分支双向神经网络对这五个部分进行联合建模。与以前的方法不同，我们基于人体运动的自然分解，将骨架运动分解为全局运动/局部变形，并在一个交互式模型中对它们进行联合建模。11998tt不活跃的循环网络。3. 方法监控视频场景中的异常人体事件可以通过视频中观察到的不规则人体运动模式来识别我们的方法通过学习训练视频中发现的动态骨架特征的规律性模型来检测这些异常。我们认为骨架轨迹已经从视频中提取出来了。在每个时间步t，骨架由图像坐标中的一组关节位置受人体骨骼运动的自然组成的启发和广泛用于统计建模的因子分解模型的激励，我们建议将骨骼运动分解为“全局”和“局部”分量。全局组件携带关于人体边界框的形状、大小和刚性移动的信息。局部组件对骨架的内部变形进行建模，并忽略骨架几何学上，我们设定一个标准参照系-附着在人体上（称为局部框架），F=. xi，yii =1..K，其中k是骨架的数量以骨架边界框的中心为根。的全局组件定义为接头. 这组时间序列是我们的异常检测算法3.1. 骨架运动分解原始图像帧内的局部帧中心。另一方面，局部分量被定义为从原始运动中减去全局分量后的余数它表示骨架关节相对于边界框的相对位置。这种分解在图2中示出，并且可以在2D向量空间中写为：fi=fg+fl，i（一）t t t在2D图像空间中，仅xy坐标不能很好地表示场景中的真实位置，因为缺少深度。然而，骨架的边界框的大小为了弥合这一差距，我们用骨架的边界框的宽度和高度f g =（x g，y g，w，h）来增加全局分量这些特征可以从输入特征计算为：图2.框架中骨架的全局和局部分解xg=max（xi）+min（xi）;yg=2max（yi）+min（yi）2基于由格林函数定义的正则局部参考系，在边界框中，左膝关节的位置向量ft（虚线红色）被分解为全局fg（虚线蓝色）和局部flw=max（xi）−min（xi）;h=max（yi）−min（yi）（二）tt（绿色虚线）组件。边界框xl，i=xi−xg;yWl，i=yi−yg（三）H自然，人体运动包括两个因素：全身刚性运动和骨骼关节非刚性变形。使用递归网络对人体运动建模的最简单方法是将r a w s e。图像坐标系中sk eleton轨迹的猝灭f t=x i，y i [10，23]，隐式地合并全局和全局和局部动态可以单独建模，作为两个并发的子进程。在一般的视频中，这两个过程甚至可以独立出现。例如，一个人可以移动她的四肢，同时保持她的全球位置相对静止。类似地，骑摩托车的人可以在具有相对固定的姿势的同时四处移动。然而，在特定的背景下，不不地方因素结合在一起。该解决方案在具有统一骨架尺度和活动类型的视频中表现良好，其中两个因素的贡献是一致的。然而，在现实的监控视频中，人类骨架的比例在对于近场骨架，观测到的运动主要受局部因素的影响。同时，对于远场的骨架，运动主要是全局运动，而局部变形几乎被忽略。人类活动在这些方面有很强的相关性，两个组成部分。因此，打破交叉分量相关性也是异常的标志。在前面的示例中，如果这些动作发生在人们正常行走的场景在下一节中，我们将介绍如何在我们的MPED-RNN模型中对各个动态模式以及这两个组件之间的关系11999不p不不mg→lg→lgt−1r t−1tt图3. MPED-RNN由两个骨架特征组件的两个交互分支组成。本地分支用绿色绘制，带有阴影的GRU块，全局分支用蓝色绘制，带有透明的GRU块。这两个组件通过在分支之间交换的消息（紫色虚线）进行交互。输出由一组MLP生成，由黑色矩形表示。3.2. MPED RNN架构MPED-RNN将全局和局部组件建模为两个相互作用的子过程，其中一个过程的内部状态用作另一个过程的输入的额外特征fl（使用等式（1）、（2）和（3）），它们分别被输入到全局编码器（Eg）和局部编码器（El在全局分支和局部分支之间交换的消息按公式计算4和5在下面。cess.更具体地说，该模型包括两个经常性的ml→g.l→g ll→gt=σ W ht−1+b（四）编码器-解码器网络分支，每个分支专用于其中一个组件。模型的每个分支都有.t=σ W ht−1+bg→l（五）单编码器-双解码器架构，具有三个RNN：编码器，重构解码器和预测解码器。对于t= 1，2，. . .，T，全局和局部段是使用Eqs. 6和7：这种结构类似于复合LSTM autoen。格格. Σ ΣΣg le→ge geSrivastava等人的LSTM AE。[22]第20段。但不同于E：ht=GRUft，mt，ht−1（六）LSTM AE，MPED-RNN不仅对动力学建模，乐乐. Σ ΣΣlge→lele每一个独立的组成部分，但也相互依赖，E：ht =GRUft，mt，ht−1（七）通过跨分支的消息传递机制在它们之间进行切换我们使用门控递归单元（GRU）[4]，在对输入段进行编码之后，全局和局部重构解码器初始化它们的隐藏状态MPED-RNN的每一段都是简单和相似的，分别为hgr=hge和hlr=hle，对于t=T T T TLSTM的最大性能[11]。在每个时间步，GRUT，T-1，.，1、我们有：一个分支的单元从另一个分支接收消息通知其在前一时间步的内部状态这D g：h gr=GRU（mlr→gr，hgr）（8）信息通过处理Dl ：hlr=GRU（mgr→lr，hlr）（9）r t−1t t作为额外的输入。相同的过程适用于另一个分支。 MPED-RNN类似地，全局和局部预测解码器将它们的隐藏状态初始化为hgp=hge和hlp=hle，图3.给定长度为T的输入骨架段，我们首先将所有GRU的隐藏状态初始化为空。那么对于对于t = T +1，T +2，. . . ，T + P，我们有：Dg：hgp=GRU（mlp-gp，hgp）（10）12000每个时间步t，骨架ft被分解成fg，Dl：hlp=GRU（mgp→lp，hlp）（十一）tptt t−112001不我在训练中，MPED-RNN体系结构中的双解码器共同强制编码器学习足够丰富的紧凑表示，以重建自己的输入并预测看不见的未来。同时，在测试中，异常模式不能被正确地预测，因为它们既没有被看到，也没有遵循正常的动态。在每个解码器网络中，相应的解码器f_g和f_l独立地生成。其中，P表示预测长度，并且m表示l、g或p中的一个。在p的情况下，注意它使fp等于第3.1节的ft预测损失被截断，如果在预测长度内到达轨迹。三项亏损按加权总和计入合并亏损：L（segi）=λg Lg（ segi）+λl Ll（ segi）+λp Lp（ segi）（15）t t通过全连接从隐藏状态HG和HL中其中{λg，λl，λp} ≥0是对应于层。这两个投影特征被连接在一起，输入到另一个全连接层，该层在原始图像空间中生成投影感知特征f_t理想情况下，ft可以通过以下方式从fg和fl计算：损失在训练中，我们最小化等式中的组合损失。(15)通过优化RNN网络的GRU单元的参数t t工作，等式中的消息构建转换4和5，等式(2)（3）. 然而，通过预测低-在一维子空间中，直接计算不太可能是最优的。因此，使用全连接层来学习逆映射允许计算对噪声具有鲁棒性。这些投影特征用于评估输入骨架序列与学习到的正常行为的一致性，因此用于构建用于训练的损失函数和用于测试的评分函数下面将详细介绍这些3.3. 训练MPED RNN训练设置一个人的轨迹可以跨越视频中的许多帧。然而，递归网络是在固定大小的序列上训练的。为了解决这个问题，我们使用滑动窗口策略从每个骨架的轨迹中提取固定大小的片段因此，每个段计算为：段i ={f t}t=bi.. ei（12）其中，bi和ei是根据所选择的滑动步幅s和段长度T计算的第i个段的开始和结束索引：bi=s×i;ei=s×i+T（13）在训练过程中，批量的训练段被分解成全局和局部特征，这些特征被输入到MPED-RNN。损失函数我们考虑定义三个损失函数在三个相关的坐标系中。感知损失Lp约束MPED-RNN在图像坐标系中产生正常序列全局损失Lg和局部损失Lp充当正则化项，其强制MPED-RNN的每个编码器-解码器分支按设计工作。每个损失包括由重建和预测解码器产生的均方误差：和输出MLP。模型正则化在训练自动编码器类型的模型进行异常检测时，一个主要的挑战是，即使模型学习完美地生成正常数据，仍然不能保证模型会对异常序列产生高错误[18]。在训练MPED-RNN时，我们通过经验搜索仍然充分覆盖正常模式的最小潜在空间来解决这一挑战，以便离群值落在该子空间所表示的流形之外。我们通过分裂正常的trans-to-trans-to-trans-to来实现这种直觉。将这些参数转换为训练和验证子集，并使用它们来正则化控制模型容量的网络隐藏单位数）。更具体地说，我们训练一个高容量的网络，并在验证集上记录最低的损失。验证集也用于提前停止。然后，我们训练一个容量较低的网络，并再次记录验证集上的最低损失。我们重复这个过程，直到我们找到具有最小容量的网络，该网络仍然在高容量网络所获得的初始验证损失的5%以内3.4. 检测视频异常为了估计视频中每帧的异常分数，我们遵循四步算法：1. 提取片段：对于每个轨迹，我们通过在轨迹上使用大小为T和步幅为s的滑动窗口来选择重叠的骨架片段(12)和（13）。2. 估计分部损失：我们使用等式分解分部。(1)并将所有片段特征馈送到训练的MPED-RNN，其输出如等式（1）中的正态性（15）、.埃雷岛 ¨e ¨3. 收集骨骼异常评分：为了测量L（seg）=11ff序列与模型的一致性，∗¨t2Tt=bit-2P¨tt=ei+1té2（十四）和未来的背景下，我们提出了一个投票计划，收集相关段的损失到一个异常12002每个骨架实例的得分：Σ表1.MPED-RNN和其他最先进方法在ShanghaiTech数据集上的帧级ROC AUC性能及其αft=u∈StLp（u）|S t|（十六）人类相关的子集。我们使用上海科技大学的参考方法的报告结果，并尽可能在HR-上海科技大学进行相同的实验。其中，St表示包含来自重构和预测两者的ft的解码片段的集合对于这些段u中的每一个，对应的感知损耗Lp（u）由等式（1）计算。（14）。4. 计算帧异常评分：视频帧v t的异常分数是通过最大池化算子从出现在该帧中的所有骨架实例的分数计算的：αvt=max（αft）ft∈Skel（vt）（17）其中Skel（vt）代表出现在帧中的骨架实例的集合。选择max pool- 优于其他聚合函数的目的是抑制场景中存在的正常轨迹的影响，因为正常轨迹的数量在实际监控视频中可能然后，我们使用αvt作为vt的帧级异常分数，并使用它来计算所有准确性测量。3.5. 实现细节为了检测视频中的骨架，我们使用了Alpha Pose[9]以独立地检测每个视频帧中的骨架。为了跟踪视频中的骨架，我们将稀疏光流与检测到的骨架相结合，以在相邻帧中的骨架对之间分配相似性得分，并使用匈牙利算法解决分配问题[16]。骨架轨迹的全局和局部分量通过减去每个特征的中间值并相对于10%-90%分位数范围缩放每个特征来标准化所有递归编码器-解码器网络都具有类似的架构，但使用独立权重进行训练。MPED-RNN的超参数的正则化4. 实验我们在两个视频异常检测数据集上评估了我们的方法：上海科技大学校园[20]和中大大道[19]。这些数据集中的每一个在数据源、视频质量和异常类型方面具有特定的特征。因此，我们为他们每个人设置了定制的实验。4.1. 上海理工大学校园数据集上海科技大学校园数据集[20]被认为是目前可用的视频异常检测最全面和最真实的数据集之一。它结合了上海科技园周围13个不同摄像头的公司简介上海科技Conv-AE [13]0.6980.704TSC sRNN [20]N/A0.680Liu等[18个国家]0.7270.728MPED-RNN0.7540.734有很多异常类型的大学校园由于异常语义的复杂性，目前的方法很难得到足够的性能。ShanghaiTech数据集中的大多数异常事件与人类有关，人类是我们方法的目标。我们排除了107个测试视频中的6个，其异常事件与人类无关，并保留了其他 101 个视频作为一个子集，称为人类相关（HR）上海科技。本节讨论的大多数实验都是在HR-ShanghaiTech数据集上进行的。1.与基于外观的方法的比较我们在所有训练视频上训练MPED-RNN，这是以前作品中采用的做法。表1比较了MPED-RNN与三种现有技术方法的帧级ROC AUC 。我们观察到，在 HR-ShanghaiTech上，MPED-RNN优于所有比较方法。为了完整性，我们还在存在非人类相关异常的原始数据集上评估MPED-RNN，MPED-RNN仍然达到最高的帧级ROC AUC。了解异常检测是如何进行的通过所有模型，我们在图4中直观地比较了由MPED-RNN产生的异常分数图与由Conv-AE [13]和Liu等人产生的异常分数图。[18]第10段。正如我们可以观察到的，我们的方法避免了许多不相关的方面，因为我们专注于骨骼。另一方面，其他两种方法试图预测整个场景，更容易受到噪声的影响。2.解释开盒MPED-RNN为了更深入地了解MPED-RNN如何在后台工作，我们将全局和局部预测解码器生成的特征以及图像空间中的预测骨架可视化。为了比较，我们还绘制了输入序列的相应特征。图5显示了来自同一场景的两个示例序列，12003图4. Conv-AE的异常评分图[13]，Liuet al. [18]和MPED-RNN在颜色映射中的应用。较高的分数表示为更接近红色，而较低的分数表示为更接近蓝色。第一行显示原始输入帧，随后的行显示每种方法的得分图。由于MPED-RNN专注于骨架，因此它不会对背景像素产生任何分数。一个正常的例子和一个异常的例子。这一幕是校园里的散步区，那里的日常活动包括人们随意地站立和散步。在正常序列中，预测在所有三个域中都紧密地跟随输入，这表明MPED-RNN编码了足够的信息来预测正常序列。另一方面，异常事件包含人跑步。其预测的全局边界框滞后于输入边界框，表明预期的移动比观察到的移动慢。本地预测还努力再现跑步姿势，并最终预测远程模仿原始姿势的步行步态。3.消融研究表2报告了MPED-RNN的简化变体的结果。它证实了这个问题需要RNN，并且当全局和局部子过程都建模时，子过程之间的消息传递是必要的。这也表明双译码器对于正则化模型和检测异常是有价值的。4.错误模式分析尽管MPED-RNN的性能优于相关方法，但它仍然会做出错误的决策。为了理解MPED-RNN的弱点，我们通过降低MPED-RNN产生的错误水平来对测试序列进行排序，并寻找表 2.MPED-RNN 各组分的烧蚀研究我们展示了在 HR-ShanghaiTech数据集上组成MPED-RNN的简单模型的帧级ROC AUC。AE：帧级自动编码器，ED：编码器-解码器，G+L：全局和本地功能，没有消息传递。这些列代表计算损失的不同方法; Rec：仅重建，Pred：预测值，Rec+Pred：重建和预测相结合。公司简介Rec.Pred.推荐值+预测值AE/图像0.674N/AN/AED-RNN/全局0.6800.6880.689ED-RNN/本地0.7000.7140.715ED-RNN/G+L0.6990.7220.713MPED-RNN0.7440.7450.754主要错误的根源。最突出的误差来源是来自骨架检测和跟踪的不准确。我们尝试的所有骨架检测方法在几种常见的困难情况下产生不准确的骨架，例如人体区域的低分辨率或不需要的照明，对比度或阴影。此外，当存在遮挡或多个人彼此交叉时，跟踪ID可能丢失或交换，并混淆MPED-RNN。图6.a显示了一个示例帧，其中包含一个检测不佳的骨架。除了输入噪声外，来自一个更有趣的现象，即受试者的异常行为会产生与正常行为相似的骨骼。图6.b显示了一个人慢慢骑自行车的情况，其运动和姿势类似于步行，这使我们的模型陷入了假阴性。这个问题是几何骨架特征的预测缺点，其中所有外观特征都已被过滤掉。用视觉特征增强骨架结构是解决这个问题的未来工作。4.2. 中大大道数据集我们还在 CUHK Avenue 数据集上测试了 MPED-RNN，该数据集是视频异常检测的另一个代表性数据集。它包含从单个摄像头捕获的16个训练视频和21个测试视频基于ShanghaiTech数据集的早期误差分析，我们认识到不稳定的骨架输入是最重要的不准确性来源。为了避免这个问题，我们手动地忽略了一组视频帧，其中主要的异常事件与人类无关，或者所涉及的人是不可见的（例如，人在视野之外，将物体扔到场景中），或者主要对象不能被检测和跟踪。补充材料中详细说明了这一选择。我们12004图5.在正常轨迹和异常轨迹的样本情况下，将预测特征（红色）与输入特征（黑色）进行比较。图6.：错误模式示例。(a)骨架检测不准确：对玻璃中反射的人的不良检测导致MPED-RNN的不良预测。(b)特征空间中的混淆：骑自行车的人（红色）有一个移动模式“类似”的人走。将剩下的数据集称为HR大道。在HR-Avenue上，我们实现了0.863的帧级ROC AUC，而Liu等人实现了0.862和0.848。[18]”[13]《礼记》云：“礼，礼也。5. 讨论平均每帧不到100个维度，相当于用于异常检测的流行视觉特征的一小部分（2048的ResNet特征[13]，4096的AlexNet fc 7 [14]），骨架特征仍然提供与当前最先进的方法相同或更好的性能。这重新燃起了在端到端图像处理深度网络趋势中使用语义引导的逐阶段方法进行异常检测的希望。它还反映了当前架构模块化的趋势，具有多个独立模块[2，17]。显然，MPED-RNN这个问题在低质量视频的情况下更加重要。它阻止我们在UCSD Ped 1/Ped 2 [21]上尝试我们的方法，这是另一个流行的数据集，其视频质量太低，无法检测骨骼。此外，对于骨架不可用的情况，基于外观的特征可以提供补充信息以提供帮助。这将打开一个将这些特征结合在一个cas-caded模型中是一个很有前途的方向，在这个模型中，它们可以覆盖彼此的弱点。我们的消息传递方案可以自然地扩展到包含非骨架特征的子进程。虽然动态运动和姿势的单一每-在大多数情况下，Son能够反映异常，但它们不包含事件中多人之间以及人与物之间的交互信息。在我们的方法中使用的全局-局部分解可以扩展到对象，通过探索每种类型的基于部件的配置。对于多人/对象异常，MPED-RNN中的消息传递框架准备通过扩展到实体间消息来扩展对它们的支持。6. 结论通过实验，我们了解到骨架运动序列可以有效地识别与人类相关的视频异常事件。我们观察到，骨架序列分解为全局运动和局部变形-MPED-RNN简单，具有竞争力的性能，并且具有高度的可解释性。未来的工作包括研究人与人之间交互的规律性，将骨架特征与外观特征相结合，并将基于组件的模型扩展到非人类对象。引用[1] Alexandre Alahi，Kratarth Goel，Vignesh Ramanathan，Alexandre Robicquet，Li Fei-Fei，and Silvio Savarese.社会LSTM：拥挤空间中的人体轨迹预测。在IEEE计算机视觉和模式识别会议上，第961-971页二、二[2] Jacob Andreas Marcus Rohrbach Trevor Darrell和Dan12005克莱恩神经模块网络。在IEEE计算机视觉和模式识别会议上，第39-48页，2016年。5[3] David Bau，Bolei Zhou，Aditya Khosla，Aude Oliva，and Antonio Torralba.网络解剖：量化深层视觉表征的可解释性。在IEEE计算机视觉和模式识别会议上，第3319-3327页，2017年。1[4] KyunghyunCho ， BartvanMerrienboer ， CaglarGulcehre，Dzmitry Bahdanau，Fethi Bougares，HolgerSchwenk，and Yoonge Bengio.使用RNN编码器-解码器学习短语表示，在自然语言处理中的经验方法会议上，第1724-1734页第3.2节[5] 杨善忠和杨浩泰。使用时空自动编码器的视频中的异常事件检测。在神经网络国际研讨会上，第189Springer，2017. 1、2.1[6] 塞尔汉·科斯·巴亚尔、朱塞佩·多纳蒂洛、瓦尼亚·博戈尼、卡-奥利纳·加拉特、路易斯·奥特·维奥·阿尔·瓦雷斯和弗朗索瓦·布雷蒙。视频监控中的异常轨迹和事件检测。IEEE Transactions on Circuits and Systems for VideoTechnology，27（3）：683-695，2017。1[7] 雍都、云浮、梁王。基于时间动态的动作识别表示IEEE Transactions on Image Processing ， 25 （ 7 ）：3010-3022，2016。二、二[8] 阿曼尼·伊拉乌德，瓦利德·巴胡米，哈森·德里拉，和埃兹丁·扎格鲁巴.骨骼形状轨迹分析用于人的再识别。在智能视觉系统先进概念国际会议上，第138149. Springer，2017. 二、二[9] 方浩树，谢淑琴，戴玉荣，陆策武。RMPE：区域多人姿势估计。在IEEE计算机视觉国际会议上，第2353-2362页，2017年。第3.5节[10] 卡特琳娜·弗拉基亚达基，谢尔盖·莱文，潘纳·费尔森，和吉坦德拉·马利克.用于人体动力学的循环网络模型。IEEEInternational Conference on Computer Vision ，第4346-4354页，2015年。2.2、3.1[11] Klaus Greff，Rupesh K Srivastava，Jan Koutnik，Bas RSte- unebrink，and Jurgen Schmidhuber. LSTM：搜索空间奥德赛。 IEEE transactions on neural networks andlearning systems，28（10）：2222-2232，2017。第3.2节[12] 阿格里姆·古普塔、贾斯汀·约翰逊、李飞飞、西尔维奥·萨瓦雷塞和亚历山大·阿拉希。社交伙伴：具有生成对抗网络的社会可接受的轨迹。在IEEE计算机视觉和模式识别会议上，2018年。2.2[13] Mahmudul Hasan ， Jongghyun Choi ， Jan Neumann ，Amit K Roy-Chowdhury，and Larry S Davis.学习视频序列中的时间规则性IEEE计算机视觉和模式识别会议，第733-742页，2016年1、2.1、1、4.1.1、4、4.2、5[14] 日南亮太桃美佐藤真通过学习深度通用知识联合在IEEE计算机视觉国际会议上，第3639-3647页，2017年。1、2.1、5[15] Jaechul Kim和Kristen Grauman。局部观察，全局推断：用于检测具有增量更新的异常活动的时空MRF。在IEEE计算机视觉和模式识别会议上，第29212.1[16] 哈罗德·库恩。指派问题的匈牙利方法。海军研究后勤季刊，2（1-2）：83-97，1955年。第3.5节[17] Bingbin Liu ， Serena Yeung ， Edward Chou ， De-AnHuang，Li Fei-Fei，and Juan Carlos Niebles.用于检索视频中复杂合成活动的时间模块化网络。欧洲计算机视觉会议，第569-586页Springer，2018. 5[18] Wen Liu ， Weixin Luo ， Dongze Lian ， and ShenghuaGao.用于异常检测的未来帧预测在IEEE计算机视觉和模式识别会议上，2018年。1、2.1、3.3、1、4.1.1、4、4.2[19] 策武路、建平石、贾佳雅。MATLAB中150 FPS下的异常事件检测在IEEE International Conference on ComputerVision，第2720-2727页4[20] Weixin Luo，Wen Liu，and Shenghua Gao.基于稀疏编码的堆叠RNN框架中的异常检测研究.在IEEE计算机视觉国际会议上，第341-349页，2017年。1、2.1、4、4.1、1[21] Vijay Mahadevan，Weixin Li，Viral Bhalodia，and NunoVas-concelos.拥挤场景中的异常检测。在IEEE计算机视觉和模式识别会议上，第1975-1981页，2010年。5[22] NitishSrivastava，ElmanMansimov，andRuslanSalakhudi-nov.使用LSTM的视频表示的无监督学习。国际机器学习会议，第843-852页，2015年。第3.2节[23] Ruben Villegas ，Jimei Yang，Yuliang Zou，SungryullSohn，Xunyu Lin，and Honglak Lee.学习通过分层预测生成长期未来在机器学习国际上，第3560-3569页2.2、3.1[24] Hung Vu、Tu Dinh Nguyen、Anthony Travers、SvethaVenkatesh和Dinh Phung。视频监控中基于能量的局部异常检测。太平洋亚洲知识发现和数据挖掘会议，第641-653页。Springer，2017. 1[25] Dan Xu，Yan Yan，Elisa Ricci，and Nicu Sebe.通过学习外观和运动的深度表示来检测视频中的异常事件Computer Vision and Image Understanding，156：117-127，2017。1、2.1[26] 圆圆，方建武，齐王。基于结构分析的人群场景在线异常IEEE Trans- actions on Cybernetics，45（3）：548-561，2015。2.1[27] Yiru Zhao，Bing Deng，Chen Shen，Yao Liu，HongtaoLu，and Xian-Sheng Hua.用于视频异常检测的时空自动编码器在2017年ACM多媒体会议论文集，第1933-1941页ACM，2017。2.1[28] Arthur Zimek，Erich Schubert，and Hans-Peter Kriegel.高维数值数据无监督离群点检测研究综述统计分析和数据挖掘：The ASA Data Science Journal，5（5）：363-387，2012. 1

下载后可阅读完整内容，剩余1页未读，立即下载