视频中以对象为中心的自动编码器和虚拟异常用于视频中的异常事件检测

143 浏览量更新于2023-10-17 收藏 2.63MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7842以对象为中心的自动编码器和虚拟异常用于视频Radu Tudor Ionescu1，2，3，Fahad Shahbaz Khan1，Mariana-Iuliana Georgescu2，3，LingShao11 Inception Institute of Artificial Intelligence（IIAI），阿布扎比，阿联酋2University of Bucharest，14 Academiei，布加勒斯特，罗马尼亚3SecurifAI，21 MirceaVoda，布加勒斯特，罗马尼亚摘要视频中的异常事件检测是一个具有挑战性的视觉问题。由于训练过程中异常数据的缺乏，大多数现有的方法将异常事件检测制定为离群值检测任务。由于缺乏关于异常事件的先验信息，这些方法不能完全区分正常事件和异常事件。在这项工作中，我们为- malize异常事件检测作为一个与休息二元分类问题。我们的贡献是双重的。首先，我们引入了一个基于以对象为中心的卷积自动编码器的无监督特征学习其次，我们提出了一种基于训练样本聚类成正态聚类的监督分类方法然后，采用一个对其余异常事件分类器来将每个正常性聚类与其余聚类分开。出于训练分类器的目的，其他聚类充当虚拟异常。在推断期间，如果由一对其余分类器分配的最高分类分数为负，则对象被标记为异常。在四个基准上进行综合实验：上海科技大学UCSD和UMN。我们的方法在所有四个数据集上都提供了优异的结果。在大规模的ShanghaiTech数据集上，我们的方法提供了8的绝对增益。帧级AUC为4%，最先进的方法[34]。1. 介绍视频中的异常事件检测在过去的几年中引起了很多关注[7，11，12，13，14，21，22，24，27，28，31，33，34，36，37，38]，也许是因为它被认为是一个具有挑战性的任务，由于普遍接受的定义的异常事件，这依赖于上下文。示出上下文的重要性的示例是卡车在街道上行驶的场景（正常事件）与卡车在行人区域中行驶的场景（异常事件）。除了依赖于上下文，异常事件很少发生，通常由更熟悉的（正常）事件主导。因此，很难获得一个足够有代表性的异常集，使得很难采用传统的监督学习方法。大多数现有的异常检测方法[2，5，15，18，23，25，26，37，39]基于离群值检测，并从仅包含熟悉事件的训练视频中学习正态模型。在推断期间，如果事件偏离正态模型，则将其标记为异常。与这些方法不同，我们通过将任务制定为多类分类问题而不是离群值检测问题来解决异常事件检测。由于训练数据只包含正常事件，我们首先应用k均值聚类，以找到代表各种类型的正常性的聚类（见图1）。接下来，我们训练一个二元分类器，遵循一对休息方案，以便将每个正态性聚类与其他聚类分开。在训练过程中，正态聚类被视为不同的类别，导致异常训练数据的合成生成。在推断期间，对应于给定测试样本的最高分类得分表示相应样本的正态性得分。如果评分为负，则将样本标记为异常（因为其不属于任何正态性类别）。据我们所知，我们是第一个对待异常事件检测任务作为一个有区别的多类分类问题。一般而言，现有的异常事件检测框架在局部水平提取特征[7，9，15，22，23，24，25，31，32，38]、全局（帧）级[21，26，27，28，33]或两者[5，6，11]。所有这些方法提取的特点没有明确考虑到感兴趣的对象。在本文中，我们提出了一种以对象为中心的方法，在每帧上应用快速而强大的单次检测器（SSD）[19]，并在检测到的对象上使用卷积自动编码器（CAE）学习深度无监督特征，如图1所示。这使我们能够明确地只关注场景中存在的对象此外，它允许我们准确地定位每帧中的异常尽管自动编码器之前已用于异常事件检测[11，31，37]，但据我们所知，我们是第一个训练以对象为中心的自动编码器的人。7843图1.我们的异常检测框架基于在对象检测之上训练卷积自动编码器在训练阶段（用虚线表示），对级联的运动和外观潜在表示进行聚类，并且训练一个一对多分类器来区分所形成的聚类。在推理阶段，如果最高分类得分为负，即，我们将测试样本标记为异常。该样本不属于任何类。最好用彩色观看。总之，本文的新颖性是双重的。首先，我们为运动和外观训练以对象为中心的卷积自动编码器其次，我们提出了一种监督学习方法，制定异常事件检测任务作为一个多类问题。我们在 Avenue [23] ，ShanghaiTech [24]，UCSD [25]和UMN [26]数据集上进行了实验，并将我们的方法与最先进的异常事件检测方法[6，7，9，11，12，13，14，15，21，22，23，24，25，26，27、28、31、32、33、34、36、37、38]。实证结果清楚地表明，我们的方法实现了优越的性能相比，国家的最先进的方法对所有数据集。此外，在Avenue和ShanghaiTech数据集上，我们的方法提供了相当大的绝对增益1。5%和8. 4%，分别超过最先进的方法[14，34]。我们组织的文件如下。我们在第2节中介绍了异常事件检测的相关工作。我们在第3节中描述了我们的方法。我们在第4节中介绍了异常事件检测实验。我们在第5节中得出最后的结论。2. 相关工作异常事件检测通常形式化为离群值检测任务[2，5，6，9，14，15，18，23，25，26，29，36，37，38，39]，其中主要的方法是从训练视频中学习熟悉度模型，并标记去熟悉度。将离群值视为异常。几种异常事件检测方法[5，6，9，23，29]在训练期间学习表示正常事件的原子字典，然后将字典中未表示的事件标记为异常。最近的一些方法采用了局部敏感哈希[38]和深度学习[11，12，21，24，27，28，31，33，36，37]来实现更好的结果。例如， Smeureanu et al.[33] 采用了基于在ILSVRC基准[ 30 ]上预训练的卷积神经网络（CNN）提供的深度特征的一类支持向量机（SVM）模型，而Ravanbakhsh等人。[27]将预训练的CNN模型与低级光流图相结合。类似于我们自己的方法，它以无监督的方式学习特征，有一些作品采用无监督步骤进行异常事件检测[9，11，29，31，36，37]。有趣的是，最近的一些工作根本不需要训练数据，以检测异常事件[7，13，22]。与我们的工作更密切相关的是采用自动编码器[11，31，36，37]学习或从Fast R-CNN [12]的分类分支中提取的为了在没有监督的情况下学习深度特征，Xu等人。[36，37]在多尺度贴片上使用堆叠式Denois- ing自动编码器为了检测异常事件，Xu et al.[36，37]在深层特征之上使用单类SVM。哈桑等人[11]采用了两个自动编码器，一个是在传统的手工制作上学习的。7844特征，另一个是使用完全卷积前馈网络以端到端的方式学习的。另一方面，Sabokrou et al.[31]将3D深度自动编码器和3D卷积神经网络结合到级联框架中。我们的方法不同。与这些最近的相关工作[11，31，36，37]不同，我们提出在由最先进的检测器[19]提供的对象检测上训练自动编码器。与我们最相似的工作是Hinami等人的工作。[12 ]第10段。他们还提出了一种以对象为中心的方法，但我们的检测，特征提取和训练阶段是不同的。虽然Hinami et al.[12]使用测地线[17]和移动对象建议[10]，我们采用基于特征金字塔网络（FPN）的单次检测器[19]。在特征提取阶段，Hinami et al.[12]对多个视觉任务的Fast R-CNN模型的分类分支进行了微调，以利用对检测和叙述异常事件有用的语义信息。相比之下，我们使用卷积自动编码器学习无监督的深度特征。也不同于Hinami et al.[12]和所有其他工作，我们将异常事件检测任务形式化为多类问题，并提出在k均值聚类之上训练一个一对多SVM。Caron等人采用了类似的方法。[4]为了以无监督的方式训练深度通用视觉特征。3. 方法动机由于训练数据仅包含正常事件，因此需要阳性（正常）和阴性（异常）样本的监督学习方法不能直接应用于异常事件检测任务。然而，我们认为，包括任何形式的监督是在实践中取得更好业绩的重要一步。基于这种直觉，我们设想了一个框架，它包含了两种方法来包含超视.第一种方法包括采用以监督方式训练的单次对象检测器[19]，以便获得随后在整个处理管道的其余部分中使用的对象检测。第二种方法包括在人工生成的类上训练有监督的一对多分类器，这些类代表不同的正态性。类是通过先前聚类的训练样本生成的。我们的整个框架由四个连续的阶段组成，详细描述如下。它们是对象检测阶段、特征学习阶段、模型训练阶段和推理阶段。目标检测。我们建议使用基于FPN [19]的单次物体检测器来检测物体，这是准确性和速度之间的最佳权衡。特别选择该对象检测器是因为（i）由于FPN架构，它可以准确地检测较小的对象图2.正常和异常对象（左）和梯度（右），由外观（左）和运动（右）卷积自动编码器提供重建。样本选自Avenue[23]、ShanghaiTech [24]、UCSD Ped2 [25]和UMN [26]测试视频，在训练自动编码器期间看不到。以及（ii）它可以在GPU上每秒处理大约13帧。这些优点对于开发一个实用的异常事件检测框架是非常重要的。逐帧地应用对象检测器，以便获得每个帧t中的对象的一组边界框。我们使用边界框来裁剪对象。生成的图像将转换为灰度。接下来，图像被直接传递到特征学习阶段，以便学习以对象为中心的外观特征。同时，我们使用包含对象的图像来计算表示运动的梯度。对于这一步，我们还考虑了从先前和后续帧。如图1所示，我们选择相对于当前帧t的索引t-3和t+3处的帧。由于帧之间的时间距离并不重要，因此我们不需要跟踪对象。相反，我们简单地考虑在帧t处确定的边界框，以便在帧t-3处裁剪对象，t+3。对于每个对象，我们获得两个图像梯度，一个表示从帧t-3到帧t-3的运动变化。一个表示从帧t开始的运动变化到帧t+3。最后，图像梯度也被传递到特征学习阶段，以学习以对象为中心的运动特征。特征学习。为了获得每个对象检测的特征向量，我们训练了三个卷积自动7845编码器一种自动编码器将包含对象的裁剪图像作为输入，并且它固有地学习潜在的外观特征。另外两个自动转换器分别将捕获对象在检测时刻之前和之后如何移动的梯度作为输入这些自动编码器学习潜在的运动特征。所有三个自动编码器都基于相同的轻量级架构，该架构由具有3个卷积和最大池化块的编码器和具有3个上采样和卷积块的解码器以及用于最终处理的附加卷积层组成。输出.对于每个CAE，输入的大小为64×64 ×1，输出的大小相同。所有卷积层都基于3×3滤波器。除了最后一个卷积层之外，每个卷积层后面都有ReLU激活。编码器的前两个卷积层各包含32个滤波器，而第三个卷积层包含16个滤波器。编码器的最大池化层基于步幅为2的2×2滤波器。每个CAE的潜在特征表示由16个大小为8×8的激活图组成。在解码器中，每个调整大小层都使用最近的相邻值，将输入激活的值上采样为2倍bor方法。解码器中的第一卷积层包含16个滤波器。解码器的以下两个卷积层各包含32个滤波器。解码器的第四（也是最后一个）卷积层包含一个大小为3×3的滤波器。最后一个卷积的主要目的是层是将输出深度从64×64×32减少到64×64×1。自动编码器使用Adam优化器[16]使用像素均方误差进行训练，损失函数：以通过构建一个上下文来补偿真正异常训练样本的缺乏，在该上下文中，正常训练样本的一个子集可以相对于正常训练样本的另一个子集扮演虚拟异常样本的角色。这是通过使用k-means将正常训练样本聚类到k个聚类中来实现的。我们认为，每个集群代表某种正态性，不同于其他集群。从给定聚类i的角度来看，属于其他聚类（来自可以将集合{1，2，，k}|i）视为（伪）abnor。mal样本。因此，我们可以训练一个二元分类器gi，在我们的SVM情况下，将聚类i中的正标记数据点与聚类{1，2，k} \i中的负标记数据点分离，如下所示：Σmgi（x）= wj·xj+b，（2）j=1其中x∈Rm是必须分类为正常或异常的测试样本，w是权重向量，b是偏差项。我们注意到，阴性样本可以-通常被认为比真正异常的样品与聚类I中的样品更密切相关因此，识别任务更加困难，并且它可以帮助SVM选择更好的支持向量。对于每个聚类i，我们训练一个独立的二元分类器gi。一个数据样本的最终分类得分是由k个分类器返回换句话说，一个数据样本的分类分数是根据一对多方案选择的，通常在二进制L（I，O）= 1h·w2012年2月（Iij−Oij）、（1）分类器用于解决多类问题。推理。在推理阶段，每个测试样本x由k个二进制SVM模型分类。最高级别-i=1j =1其中I和O是输入和输出图像，每个图像的大小为h×w像素（在我们的例子中，h=w=64）。自动编码器学习表示检测到的对象，训练视频只包含正常行为。当我们提供具有异常行为的输入对象时，预期自动编码器的重构误差更高。此外，潜在特征应该以与未知（异常）对象不同且更好的方式表示已知（正常）对象。图2显示了从评估中考虑的每个数据集中的测试视频中选择的一些输入-输出CAE对。我们注意到自动编码器通常为正常对象提供更好的重建，这证实了我们的直觉。每个对象检测样本的最终特征向量是潜在外观特征和潜在运动特征的级联。由于每个CAE的潜在激活图是8×8×16，最终的特征向量有3072个维度。模特训练我们提出了一种新的训练方法，将异常事件检测任务形式化为一个多目标的训练任务。类分类问题拟议办法旨在使用（改变符号）变异分数作为相应测试样品x的异常分数s：s（x）= − max{g i（x）}，i ∈ {1，2，.，k}。（三）我通过将从给定帧裁剪的对象的分数放在一起，我们获得相应帧的像素级异常预测图。如果两个对象的边界框重叠，则保留重叠区域的最大异常分数。为了获得帧级预测，我们将预测图中的最高分数作为相应帧的异常分数。最后，我们应用高斯滤波器对帧级异常分数进行时间平滑。4. 实验4.1. 数据集大道Avenue数据集[23]由16个训练视频（共15328帧）和21个测试视频（共15324帧）组成。每个视频帧的分辨率为360×640像素。对于每个测试帧，使用像素级掩模提供异常的地面实况位置。H7846上海科技上海科技大学校园数据集[24]是异常事件检测的最大数据集之一。与其他数据集不同，它包含13个不同的场景，具有各种照明条件和摄像机角度。有330个培训视频和107个测试视频。测试集包含总共130个在像素级注释的异常事件。在整个数据集中有316154帧。的每个视频帧的分辨率为480×856像素。UCSD UCSD行人数据集[25]由两个子集组成，即Ped1和Ped2。如Hinami et al. [12]，我们将Ped1从评估中排除，因为它的帧分辨率明显较低，为158×238。Ped1的另一个问题是，一些最近的作品只报告了16个视频的子集的结果[27，28，36]，而其他ers [13，25，21，22]报告了所有36个测试视频的结果。因此，我们只考虑UCSD Ped2，它包含16个训练视频和12个测试视频。每帧的分辨率为240×360像素。有2550帧用于培训，2010帧用于测试。这些视频展示了各种拥挤的场景和异常包括自行车，车辆，滑板和轮椅穿越行人区。嗯。UMN异常人群活动数据集[26]由三个不同长度的独立拥挤场景组成。这三个场景分别由1453帧、4144帧和2144帧组成。每个视频帧的分辨率为240 ×320像素。正常的行为表现为人们四处走动，而异常的行为表现为人们四处走动。人们朝不同的方向奔跑是不正常行为的表现。4.2. 评价作为评估指标，我们采用在帧级别上关于地面实况注释计算的曲线下面积（AUC）在大多数以前的作品中使用的帧级AUC度量[6，7，13，14，21，22，23，24，25，34，36]认为帧是正确的检测，如果它包含至少一个异常像素。我们采用了与这些先前工作相同为了获得最终的异常图，我们的像素级检测图使用与[7，13，23]类似的技术进行平滑4.3. 参数和实现细节在对象检测阶段，我们采用基于FPN [19]的单次检测器，该检测器在COCO数据集[20]上进行了预训练。该检测器是从Tensor-Flow检测模型动物园下载的。对于训练集，我们保持检测的置信水平高于0。对于测试集，我们保留置信水平高于0的那些。4.第一章特征学习阶段使用的卷积自动编码器在TensorFlow中实现[1]。我们将自动编码器训练100个epoch，学习率设置为10−3，再训练100个epoch，学习率设置为10−4。我们使用64个样品的小批次。我们为四个数据中的每一个训练独立的自动编码器方法大道上海科技UCSDPED2UMNKim等人[第十五条]--69岁。3-Mehran等人[26日]--55. 6九十六。0Mahadevan等人[25日]--82岁9-Cong等人[6]美国---九十七8Saligrama等人[32个]---九十八5Lu等人[23日]八十9---Dutta等人[9]第一章---九十九。5Xu等[36，37]--九十8-哈桑等人[第十一届]七十2六十岁。9九十0-Del Giorno等人[七]《中国日报》78岁3--91. 0Zhang等人[38个]--91. 0九十八7Smeureanu等人[33个]84. 6--九十七1Ionescu等人[13个国家] 八十6-82岁2九十五1Luo等人[24日]81. 768岁092. 2-Hinami等人[12个]--92. 2-拉万巴赫什等[28日]--九十三5九十九。0Sabokrou等人[三十一]---九十九。6拉万巴赫什等[27日]--88岁4九十八8Liu等人[21日]八十五1七十二8九十五4-Liu等人[22日]84. 4-87岁5九十六。1Sultani等人[34个]-七十六。5--Ionescu等人[14个]88岁9--九十九。3我们九十484. 9九十七8九十九。6表 1.Avenue [23] 、 ShanghaiTech [24] 、 UCSD Ped2 [25] 和UMN [26]数据集上帧级AUC的异常事件检测结果（%）我们的框架与几种最先进的方法相一致[6，7，9，11，12，13，14、15、21、22、23、24、25、26、27、28、31、32、33、34、36、37、38]，它们按时间顺序列出Sultani et al.[34]基于他们预先训练的模型。在评估中考虑的设置。为了使用k均值对训练样本进行聚类，我们采用了VLFeat [35]实现，该实现基于Lloyd算法[8]。我们采用k-means++[3]初始化。我们重复聚7847类10次，选择具有最小能量的分区。在所有实验中，我们将k-means聚类的数量设置为k=10。我们将线性SVM的正则化参数（在VLFeat [35]中实现）设置为C=1。4.4. 结果我们将我们的方法与一系列最先进的方法进行比较[6，7，9，11，12，13，15，21，22，23，24，25，26，27，28，31，32，33，36，37，38]在大道上上海理工大学，UCSD Ped2和UMN数据集。相应结果见表1。大道在大道数据集上，我们能够超越所有以前的作品中报告与大多数最近的作品[13，21，22，24，33]相比，我们的方法在帧级AUC方面提供了超过5%帧级AUC为88。9%，Ionescu等人。[14]是最好的和最新的基线。我们比他们多得一分。百分之五值得注意的是，帧级AUC为90. 4%，我们的方法是唯一超过阈值的方法7848图3.由我们的方法提供的帧级异常检测分数在0和1之间（在水平轴上），用于从 Avenue [23] ， ShanghaiTech [24] ，UCSD Ped2 [25]和UMN [26]数据集中选择的各种测试视频地面实况异常事件用青色表示，我们的分数用红色表示。最好用彩色观看。在大道数据集上的90%值得注意的是，Hinami et al.[12]没有与官方Avenue测试集上的其他方法进行比较，认为有五个测试视频（01，02，08，09和10）包含未正确标记的静态异常对象。因此，他们只在Avenue17上评估了他们的方法，这是一个子集，排除了各自的五个视频。我们还比较了我们的性能与Hinami等人的报告[12]，确保排除相同的五个测试视频进行公平的比较。我们在Avenue17子集上的帧级AUC得分为91。6%，比帧级AUC 89. 8%的报告[12]。关于完整的Av-enue测试集，我们注意到我们的框架在Avenue 17子集上获得了更好的帧级AUC分数，这表明删除的测试视频确实比留在Avenue 17中的视频更有问题。如Hinami et al.[12]，删除的视频包括一些未相应标记的异常对象。将这些对象检测为异常的方法注定会达到更高的假阳性率，这是不公平的。在图3（a）中，我们呈现了由我们的方法在来自Avenue的测试视频06上提供的帧级异常分数。根据图3（a）中所示的地面实况标签，我们注意到有四个ab-正常事件在各自的测试视频。我们的方法似乎能够识别四个事件中的三个，而不包括任何假阳性检测。图4（顶行）示出了真阳性和假阳性异常事件检测的几个示例。从左到右，真正的阳性检测是一个人在跑步，一个人走在错误的方向，一个人拿起一个物体和一个人扔一个物体。第一个假阳性示例包括对象检测器在同一边界框中检测到的两个人。另一个假阳性检测是人走错方向，过早地被标记为异常。上海科技由于ShanghaiTech是异常事件检测的最新数据集，因此只有少数最近的方法报告了该数据集的结果[21，24]。除此之外，Luo et al.[24]当他们引入数据集时，还评估了一种错误发表的方法 [11] 。在ShanghaiTech数据集上，72. Liu et al.报道了8%。[21 ]第20段。我们比他们高出12倍。百分之一。为了与Sultani et al.[34]在异常事件检测任务的标准公式中，我们使用了Sultani等人提供的开放源代码。[34]计算大规模ShanghaiTech数据集的异常分数。如表1所示，Sultani et al. [34]获得76的帧级AUC。5%，优于现有的最佳方法[21]。我们的方法显著优于Sultani等人。[34]和Liu et al.[21]，实现帧级AUC为84。9%。帧级AUC为84。9%，我们的做法是唯一一个超过80%的门槛，在上海科技。在图3（b）中，我们显示了我们的帧级异常分数与上海理工大学测试视频上的地面实况标签，其中有三个异常事件。在这个视频中，我们可以清楚地观察到异常分数和地面实况标签之间的强烈相关性。图4的第二行显示了来自上海科技数据集中不同场景的一些定位结果。我们的框架检测到的真正的正异常事件是（从左到右）两个骑自行车的人在行人区，一个人抢劫另一个人，一个人跳和两个人打架。触发假阳性异常事件是因为在每种情况下，在同一个边界框中有两个人，并且我们的系统将两个对象产生的异常外观和运动标记为异常。UCSD Ped2. 虽然较旧的方法[15，26]报告帧级AUC评分低于70%，但在过去三年中提出的大多数方法[11，12，21，22，24，27，28，37，38]在UCSD Ped2上达到了87%至94%的帧级AUC评分。例如，基于自动编码器的框架[11，36，37]达到了大约90%的结果。Liu等人。[21]最近优于以前的工作，报告帧级AUC为95。百分之四我们进一步超越了他们7849图4.我们框架的真阳性（左）与假阳性（右）检测。示例选自Avenue [23]（第一行）、ShanghaiTech [24]（第二行）、UCSDPed2 [25]（第三行）和UMN [26]（第四行）数据集。最好用彩色观看最先进的结果，达到97的最高帧级AUC。8%在UCSDPed2。我们的比分是2. 比Liu等人报告的评分高4%。[21]，4. 比Ravanbakhsh等人报告的第二好分数高3%。[28]，比其他基于自动编码器的框架报告的分数高出7%以上[11，36，37]。至于其他数据集，我们将帧级异常分数与图3（c）中UCSD Ped2测试视频上的地面实况标签进行比较。在这个特殊的视频中，我们的帧级AUC超过99%，表明我们的方法可以精确地检测到异常事件。此外，图4的第三行中呈现的定性结果表明，我们的方法也可以定位UCSD Ped2的异常事件。从左到右，真正的阳性检测是行人区域中的骑自行车者、行人区域中的两个骑自行车者、行人区域中的两个骑自行车者和一个溜冰者以及行人区域中的一个骑自行车者和一个溜冰者。上海科技的误报异常检测是由同一个边界框中的两个人引起的。嗯。UMN似乎是最容易的异常事件检测数据集，因为几乎所有作品报告帧级AUC分数高于95%，其中一些作品[9，28，31]甚至超过99%。最高分99分。Sabokrou等人报告了6%。[31]，我们在UMN数据集上达到了相同的性能。我们注意到，第二场景似乎比其他两个场景稍微更困难，因为我们在该场景上的帧级AUC得分是99。1%，而帧级AUC得分在另一个场景99 9%，99。8%，分别。出于这个原因，我们选择在图3（d）中针对来自UMN的第二场景的地面实况标签来说明帧级异常分数。总的来说，我们的异常分数与地面实况标签很好地相关，但是就在场景中的第三个异常事件在图4的第四行中，我们展示了我们的框架提供的一些本地化结果。真阳性示例表示在不同方向上跑来跑去的人，而假阳性检测是由同一边界框中的两个人和弯腰捡起物体的人触发的。我们注意到，假阳性的例子是从第二个场景中选择的，因为我们在其他两个场景中没有发现假阳性检测。4.5. 讨论虽然表1中给出的结果表明，我们的方法可以在四个评估集上优于最先进的方法，但我们还旨在解决有关我们的特征和参数选择的鲁棒性的问题，并讨论我们的框架的运行时间。参数选择。我们本结果与在最大、最困难的评价集上海理工大学上进行了各种参数的选择。我们首先通过选择#21519;，15，20，25，30相应的帧级AUC评分见图5。图5所示的结果表明，聚类数确实7850图5.获得了ShanghaiTech上的帧级AUC评分通过从该集合中选择簇的数目k的{5，10，15，20，25，30}。图6.通过从集合{0. 1， 1， 10， 100}。在我们的多类分类框架中没有发挥重要作用，因为准确度变化低于1。百分之一。只有一个例外（k=25），我们的结果总是高于84%。我们还通过考虑集合{ 0}中的值来改变SVM的正则化参数。1，1，10，100}。对应的帧级AUC评分见图6。中呈现的结果图6显示性能变化低于0。3%，帧级AUC得分始终高于84。百分之六。我们认为这是因为类是线性可分的，因为它们是通过将样本用k-means聚类成不相交的聚类而生成的。总的来说，我们得出结论，我们的高改进（12。1%）超过最先进的方法[21]，不能通过方便的参数选择来消融结果。在表2中，我们展示了特征消融结果，以及基于我们完整的以对象为中心的特征集集当我们移除对象检测器并在帧级训练自动编码器时，我们获得72的帧级AUC。4%，这表明了提取以对象为中心的特征和使用one-versus-rest SVM的重要性。我们注意到，帧级自动编码器有一个额外的卷积层，输入分辨率增加到192 ×192。当我们把单类SVM我们的多类方法基于k-means和one-相对于剩余SVM，在保持在全帧上计算的特征的同时，帧级AUC增长到78。百分之七。这表明我们基于k-means和one-versus-rest SVM的方法确实有帮助。当我们用预先训练的SSD特征（在SSD类预测器之前提取）替换以对象为中心的CAE特征时，表2.ShanghaiTech [24]上的帧级AUC分数（%）是通过从我们的框架中删除各种组件而获得的，而不是基于帧级特征和一类SVM的基线AUC只有81。3%，这表明了使用自动编码器学习特征的重要性。通过从我们的模型中删除外观或运动对象为中心的CAE功能，结果下降不到3%。这表明外观和运动特征都与异常事件检测任务相关。通过将我们基于k-means和one-versus- rest SVM的多类方法替换为一类SVM，同时保持组合的以对象为中心的CAE功能，性能下降了5。百分之七。这一结果表明，将异常事件检测任务形式化为多类问题确实是有用的。我们的结论是，我们的贡献是至关重要的，以获得更好的结果。运行时间。单次拍摄对象检测器[19]需要大约74毫秒来处理单个帧。因此，它可以运行在大约13。每秒5帧（FPS）。合理的平均每帧5个对象，我们的特征提取和推理阶段每帧需要约16毫秒。因此，我们可以处理大约62个。每秒5帧。然而，整个流水线需要大约90毫秒来推断单个帧的异常分数，其转换为11FPS。我们注意到，超过80%的处理时间花费在逐帧检测对象上。运行时间可以是IM-通过用更快的物体探测器替换当前的物体探测器来证明我们注意到，所有运行时间都是在具有12 GB RAM的Nvidia Titan Xp GPU上测量的。5. 结论和未来工作我们介绍了一种用于视频中异常事件检测的新方法，该方法基于（i）训练以对象为中心的卷积自动编码器和（ii）将异常事件检测形式化为多类问题。在四个数据集上获得的实证结果表明，我们的方法优于一系列最先进的方法[6，7，9，11，12，13，14，15，21，22，23，24，25，26、27、28、31、32、33、34、36、37、38]。在未来的工作中，我们旨在通过分割和跟踪对象来改进我们的框架。致谢。Radu Tudor Ionescu的工作得到了PN-III-P1-1.1-PD-2016- 0787 和 PN-III-P2-2.1-PED-2016-1842 赠款的部分支持。方法评分框架级CAE功能+单类SVM（基线）七十二4框架级CAE功能+ one-versus-rest SVM78岁7预训练SSD特征+ one-versus-rest SVM81. 3CAE外观特征+ one-versus-rest SVM82岁2CAE运动特征+ one-versus-rest SVM83岁07851引用[1] M. 阿巴迪山口Barham，J.Chen，Z.Chen，中国山核桃A.Davis，J.迪恩M. Devin，S.盖马瓦特湾Irving，M. Isard，M. 库德鲁，J. 莱文贝格河Monga、S.穆尔，D.G. 默里湾斯坦纳P. Tucker，V.Vasudevan，P.Warden，M.Wicke，Y.Yu和X.郑TensorFlow：一个大规模机器学习系统。在OSDI的会议记录中，第265-283页[2] B. Antic和B.奥默用于异常检测的视频解析。在ICCV会议记录中，第2415-2422页[3] D. Arthur和S.瓦西里茨基k-means++：谨慎播种的优势。在SODA的Proceedings，第1027- 1035页[4] M. Caron，P. Bojanowski，A. Joulin和M.杜兹深度聚类用于视觉特征的无监督学习。在ECCV会议记录，第11218卷，第139[5] K.- W.郑，Y.- T. Chen和W.- H.房.基于分层特征表示和高斯过程回归的视频异常检测与定位。在CVPR的会议记录中，第2909-2917页[6] Y. Cong，J. Yuan，and J.刘某用于异常事件检测的稀疏重建成本。在CVPR的Proceedings，第3449-3456页[7] A. Del Giorno，J. Bagnell和M.赫伯特一种用于大视频中异常检测的判别框架。在ECCV会议记录中，第334-349页[8] Q. Du，V. Faber，and M.冈兹伯格质心Voronoi镶嵌：应用程序和算法。SIAM Review，41（4）：637[9] J. K. Dutta和B.班纳吉基于增量编码长度的异常事件在线检测在AAAI的会议记录中，第3755-3761页[10] K. Fragkiadaki，P. Arbelaez，P. Felsen和J.马利克学习-ing分割视频中的移动对象。在CVPR会议记录中，第4083-4090页[11] M. Hasan，J. Choi，J. Neumann，A. K. Roy-Chowdhury和L. S.戴维斯学习视频序列中的时间规律。在CVPR会议记录中，第733-742页[12] R. Hinami，T. Mei和S.佐藤通过学习深层类属知识实现异常事件的联合检测和重计数。在ICCV会议记录中，第3639-3647页，2017年。[13] R. T. 约内斯库斯梅雷亚努湾Alexe和M.波佩斯库揭示视频中的异常事件。在ICCV会议记录中，第2895-2903页[14] R. T. 约内斯库斯梅雷亚努湾Popescu，和B.阿丽克西使用窄化正态性聚类检测视频中的异常事件。在WACV会议记录中，第1951[15] J.Kim和K.格劳曼局部观察，全局推断：用于检测具有递增更新的异常活动的时空MRF。在CVPR的会议记录中，第2921[16] D. P. Kingma和J. BA. Adam：随机最佳化的方法。ICLR会议记录，2015年。[17] P. Kr aühenb uühl和V.科尔顿测地线对象建议。在ECCV会议记录，第8693卷，第725[18] W. Li，V. Mahadevan，and N.瓦斯康塞洛斯拥挤场景中的异常 IEEE Transactions on Pattern Analysis andMachine Intelligence，36（1）：18[19] T.- Y. Lin，P.多尔河格希克角他，B.Hariharan和S.贝隆吉用于对象检测的特征金字塔网络。在CVPR会议记录中，第2117-2125页[20] T.- Y. 林，M。迈尔，S。贝隆吉，J.Hays，P.Perona，D.Ra-manan ， P.Doll a'r 和 C. L.Zi t nick 。MicrosoftCOCO：上下文中的通用对象.在ECCV会议记录中，第740-755页[21] W. Liu，W. Luo，L. Lian和S.高.用于异常检测的未来帧预测-新基线。在CVPR程序中，第6536-6545页[22] Y. 刘角L. Li和B. Po'czos。用于视频异常检测的分类器双样本测试在BMVC会议记录中，2018年。[23] C. Lu，J. Shi，and J.贾MATLAB中150 FPS下的异常事件检测。在ICCV的会议记录中，第2720- 2727页[24] W.罗，W. Liu和S.高.堆叠式RNN框架中基于稀疏编码的异常检测研究。在ICCV会议记录中，第341-349页[25] V. Mahadevan，W.- X. LI、V.Bhalodia和N. 瓦斯康塞洛斯拥挤场景中的异常检测。在CVPR的会议记录中，第1975-1981页[26] R. Meiden，A. Oyama和M. Shah.基于社会力模型的异常人群行为检测。在CVPR的会议记录中，第935-942页[27] M. Ravanbakhsh，M. Nabi，H. Mousavi、E.桑吉内托，N. Sebe用于人群运动分析的即插即用CNN：在异常事件检测中的应用。在WACV程序中，第1689-1698页[28] M. Ravanbakhsh，M. Nabi，E. 桑吉内托湖Marcenaro，C. Regazzoni和N. Sebe使用生成对抗网络检测视频中的异常事件。在ICIP会议记录中，第1577-1581页[29] H.任，W。Liu，S. I. Olsen，S. Escalera和T. B.莫斯隆德。用于异常事件检测的无监督行为特定字典学习。在BMVC的会议记录中，第28

下载后可阅读完整内容，剩余1页未读，立即下载