基于内存增强流重构和流引导帧预测的视频异常检测方法

2 浏览量更新于2023-10-13 收藏 1.61MB PDF 举报

混合框架

有效性验证

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

13588基于内存增强流重构和流引导帧预测华南理工大学计算机科学与工程学院2JD Finance America Corporation，Mountain View，CA，USA3中山大学计算机科学与工程学院摘要在本文中，我们提出了HF2-VAD，一个混合框架，集成流重建和帧预测无缝处理视频异常检测。首先，我们设计了 ML-MemAE-SC （ Multi-Level Memorymodules in an Autoencoder with Skip Connections）网络来存储用于光流重建的正常模式，以便在较大的流重建误差下能够灵敏地识别异常事件。更重要的是，条件下的重建流，我们然后采用一个条件变分自动编码器（CVAE），它捕捉视频帧和光流之间的高度相关性，预测下一帧给定的几个先前的帧。通过CVAE，流重建的质量本质上影响帧预测的质量。因此，异常事件的不良重构光流进一步恶化了最终预测的未来帧的质量，使得异常更可检测。通过仿真和实测数据处理验证了所提方法的有效性代码可在https://github.com/LiUzHiAn/hf2vad上获得。1. 介绍视频异常检测（VAD）是指识别视频中不符合预期行为[3]的事件，图1中显示了一个示例。这是一项开放且极具挑战性的任务，因为异常事件通常比正常事件少得多，并且异常事件的形式在实际应用中是无限的[25]。显然，不可能提前收集到各种异常数据。因此，视频异常检测的典型解决方案是在正常数据上训练无监督学习模型，然后将被训练模型识别为异常值的那些事件或活动视为异常。*通讯作者：nieyongwei@scut.edu.cn.........流程再造AUROC：99.66%帧预测AUROC：96.24%HF2-VAD（混合）AUROC：99.90%图1.来自CUHK Avenue [29]数据集的异常示例。这里，蓝色曲线是HF2-VAD的结果，红色曲线是仅具有流重构的结果，并且绿色曲线是具有以原始流为条件的基于CVAE的帧预测模型的结果计算受试者操作特征下的面积（AUROC）可以看出，组合了流重建和重建流引导的未来预测的HF2-VAD表现最好。如今，深度学习在许多现实世界的任务中取得了巨大的成功，例如视觉识别[13，12，14，26]，物体检测[19，28，27，15]，阴影检测[ 19，28，27，28]，阴影检测[19，28，27，29和移除[4，44，49，48，18]、轨迹预测[41]和图像字幕[5]。而不是传统的手工制作的基于特征的方法[1，20，2，34]，许多现代的方法。基于深度神经网络的方法[11，45，50，31，25，30，8、36、38、47、43、24]已被提议用于VAD。在深度学习时代，重构和未来预测是两种流行的VAD范式。基于重建的方法[11，31，8，36，7，38]通常在正常数据上训练自动编码器。在测试时，异常数据往往导致较大的重建误差，使得它们可从正常数据中检测。利用视频帧的时间特性，基于预测的方法[25，30，47]训练一个网络，异常分数13589工作以基于给定的先前帧来预测下一帧并且使用预测误差来进行异常测量。最近，提出了几项工作[50，46，35]，以混合方式结合这两种范式。尽管这些最先进的方法在大多数情况下都能够检测到异常，但结果仍然远非完美。在本文中，我们提出了一种新的混合框架相结合的流重建和流引导的帧预测，命名为如图2所示，基于条件VAE（CVAE）的未来帧预测模型接受先前视频帧和光流两者作为输入。但我们事先对原始流进行重构，然后将重构后的流输入到CVAE模型中受[8，38]的启发，我们设计了具有跳过连接的多级存储器增强自动编码器（ML-MemAE-SC）用于光流重建。采用多个存储器模块存储不同特征层次的正常模式，同时在编码器和解码器之间增加跳跃连接，以补偿存储器对信息的强烈压缩。我们观察到，这样一个设计良好的流动重建网络可以更清楚地重建正常的流动，而产生的异常输入的重建误差较大。我们使用CVAE [42]模型进行未来帧预测。一方面，它将重构的流以ML-MemAE-SC为条件，将重构模块自然地统一到预测流水线中。另一方面，通过最大化从观察到的视频帧和重建的光流的变量引起的证据量下限（ELBO），CVAE模块在将输入帧和流用于未来帧预测时基本上对它们之间的一致性进行上述设计有助于利用重构的正常流和异常流之间的质量差距来提高基于CVAE的预测模块的VAD准确性。也就是说，重建的正常流通常具有较高的质量，预测模块可以利用该质量以较小的预测误差成功地预测未来帧。相反，重构的异常流通常具有较低的质量，从而导致具有较大的预测误差的未来帧我们使用的流量recruitric- tion和帧预测误差作为我们的最终异常检测线索。总之，以下方面将我们的工作与以前的工作区分开来[25，8，7，47，36，30，47]：• 首先，在具有跳跃连接的编码器-解码器结构中利用多级存储器模块，这保证了正常模式被很好地存储，使得异常事件或活动被灵敏地识别。• 其次，我们设计了HF2-VAD混合方法根据先前视频帧和对应的光流预测未来帧，但是流被预先重构。重建误差扩大了预测误差，使得异常可以更容易地被检测。• 最后，我们在三个公开数据集上进行了大量的实验，结果表明，我们提出的HF2- VAD比最先进的方法实现了更好的异常检测性能。2. 相关工作视频异常检测。特征提取之后的正态建模是早期作品中流行的范例[40，1，20]。随着CNN强大的特征表示能力，近年来已经提出了许多基于深度学习的VAD方法。基于重建和基于预测的方法是VAD社区中的两个在重建阵营中，自动编码器（AE）被广泛用于重建训练数据，例如Conv-AE [11]，ConvLSTM-AE [31]和GMFC-VAE [7]。他们认为，异常是很难重建良好的AE只在正常的数据训练。但这个假设并不总是成立，因为AE有时推广得很好[8]。在预测阵营，刘等。[25]首先提出预测未来帧并使用预测误差作为异常指示符。Lu等人[30]然后引入变分Conv-LSTM进行预测。Yu等人[47]借用语言学中完形填空的概念，将其应用于视频事件补全，即建立多个模型分别预测一个片段中的每一帧或流程。然而，这些方法简单地将先前帧作为输入来预测未来，忽略了光流与视频帧之间的相关性。此外，一些作品将这两种范式结合在一起以开发混合方法。例如，在[36]中提出了包括共享编码器和两个单独的解码器的AE，以单独地重构帧和预测流。Ye等人[46]将重构分解为预测和细化，提出了一种预测编码网络。在我们的工作中，我们集成流重建和帧预测无缝，使流重建的质量本质上影响帧预测。记忆网络。神经网络中的记忆模块近年来引起了广泛的关注。格雷夫斯等人[10]介绍了一种可微神经计算机模型，该模型由神经网络提取特征和外部存储模块显式存储信息组成。为了抑制AE的泛化能力，Gong等。[8]提出了一种用于异常检测的内存增强自动编码器（MemAE）。MemAE从编码器接收信息，然后将其用作查询来检索一些类似的存储槽，然后将其组合以产生新的编码特征，供解码器重构。MemAE13590|||||图2.概述了所提出的HF2-VAD，其将流重建和帧预测集成到统一的框架中。我们首先通过具有多级存储器模块和跳过连接的自动编码器来重构光流y ^：t以获得y^：t。然后，CVAE模型使用重建的光流与视频帧x1：t来预测下一个未来帧。如果发生异常事件，（1）重建的光流y（1：t）将显示出与其基础真值y（1：t）显著的重建误差，（2）使用y（1：t）作为指导未来帧预测的条件，预测误差（即，x（t+1和xt+1之间的差）将进一步增大。是在正常数据上训练的，因此鼓励在存储器中存储正常模式。Park等人[38]遵循这一趋势，并提出一个更紧凑的存储器，可以在测试过程中更新。在他们的作品中，内存模块只放在瓶颈处。我们扩展了它，并提出了一个多层次的内存增强的自动编码器与跳过连接，捕获正常模式在不同的功能级别，并训练它的光流。3. 方法如图2所示，我们的框架HF2-VAD由两部分组成：具有跳过连接的多级存储器增强自动编码器（ML-MemAE-SC）用于流重建，随后是用于帧预测的条件变分自动编码器（CVAE）。整个框架是在正常数据上训练的。在测试时间，重建和预测误差，即，VAE和CVAE。随着识别技术的进步-创新模型，生成模型也取得了很大的成就y之间的差1：ty=1：t和x电话+1和x 电话+1，are[22 ]如：[23]如：[24]如：[25]如：[26]如：[27]如：[28]如：[29特别地，VAE是具有潜变量的有向图模型，其包括识别过程和生成过程。在生成过程中（即，解码），当给定潜在变量z时，数据x由分布pθ（x z）生成。Kingma和Welling [22]然后引入识别过程q（z x）来近似难以处理的真实后验。识别和生成分布都可以通过替代证据下限（ELBO）目标函数最大化p（x）的对数似然来学习。为了解决结构化预测问题，Sohnet al. [42]对输入观测的输出空间条件分布进行建模，并提出CVAE。用x，y和z表示输出数据、观测条件和潜变量，CVAE由识别网络q（zx，y）、条件先验网络pθ（zy）和生成网络pθ（xy，z）组成.Esser等人[6]遵循CVAE框架，设计了一个变分的UNet，它可以将图像的外观和形状信息分离出来，通过它可以很好地控制图像生成过程。与之不同的是，我们提出了以光流为条件的CVAE预测未来帧。用于异常检测。在以下部分中，我们首先介绍ML-MemAE- SC，然后介绍基于CVAE的未来帧预测模型。最后，我们将展示如何使用我们的模型进行异常检测。3.1. 具有跳跃连接的多级存储器增强在AE的瓶颈处放置存储器模块是VAD社区的最新发展[8，38]。图3(a) 显示了这种内存增强的自动编码器（MemAE）。然而，我们观察到，仅使用一个存储器不能保证所有的正常模式被记住，并且异常输入仍然有一定的机会被很好地重构。MemAE的一个自然扩展是将更多的存储器模块放置在其他级别的AE中，如图3（b）所示，但过多的存储器会导致过度的信息过滤，降低网络的记忆能力，使其只能记住最具代表性的正常模式，而不能记住所有需要的模式。我们通过在编码器和解码器之间添加跳过连接来解决这个问题，从而获得具有跳过连接的多级存储器增强自动编码器（ML-MemAE-SC），如图3（c）所示。一方面先前的t帧未来帧~C记忆相似性0.60.10.3KL发散ML-MemAE-SC条件性VAE存储器模块~采样c特征级联加权汇总对应测试光流.........13591ΣΣ|||2MMMMM(a) MemAE组件(b) ML-MemAE(c) ML-MemAE-SC图3. (a)MemAE的结构，其中存储器模块被放置在瓶颈处。(b)在解码器的其他级别中使用更多的存储器模块来扩展MemAE（c）在（b）的基础上，增加跳过连接，但不应增加黑色虚线跳过连接，否则将覆盖所有存储器模块的功能。跳过连接直接将每个存储器模块的编码信息概率w（i）传递为：到解码器，为M中的存储器提供更多信息N不同的层次来发现正常的模式。另一方面，利用更高级别的编码特征，尽管被存储器过滤，网络可以更容易地解码输入。在测试时，建议的ML-MemAE-SC可以重建正常的数据清楚，而表现不佳的异常数据。为了使读者易于验证这一点，我们进行了一个玩具示例来探索许多存储器增强的自动编码器变体，并证明了所提出的ML-MemAE-SC的有效性。参见图4。值得注意的是，最外面的跳过连接，即，图3（c）中的黑色虚线部分不应被添加。否则重建可能会被完成通过最高级别的编码-解码信息，使得所有其它较低级别的编码、解码和存储块不工作。本文设计了一个四层ML-MemAE-SC，包括三个编解码层次和瓶颈。在编码器的每个级别中，我们堆叠两个卷积块，然后是下采样层。在解码器的每个级别中，我们首先从编码器复制特征图，然后将其与较低级别的上采样特征图级联。然后，级联顺序地通过两个卷积块、存储器模块和上采样层。在我们的实现中，卷积块包含三层：卷积层、批量归一化层[17]和ReLU激活层[33]。下采样和上采样层通过卷积和解卷积实现[37]。对于存储器模块，我们采用与[8]类似的每个存储器模块实际上是一个矩阵M∈RN×C。矩阵的每一行称为一个槽miLent=−wi，klog（wi，k），（2）i=1k =1其中，M是存储器模块的数量，w（i，k）是存储器模块的数量。第i个存储器中第k个槽的匹配概率module.我们平衡上述两个损失函数以获得以下损失函数来训练ML-MemAE-SC：LML − MemAE − SC=λreconLrecon + λentLent。（三）3.2. 用于未来帧预测的未来帧预测是另一种流行的VAD范例，通常比基于重建的方法获得更好的异常检测准确性[47，38]。未来帧预测尝试对p（xt+1x1：t）进行建模，使得在给定x 1：t的情况下可以生成下一帧xt+1。许多工作已经探索了使用光流作为辅助信息来提高预测精度[25，36]，但是据我们所知，没有直接建模p（xt+1x1：t，y1：t）的工作，其中y1：t表示先前的t个流。注意，在给定光流yt的情况下，xt可以被扭曲到xt+1，因此直接将x1：t和y1：t映射到xt+1的虚拟网络工作可以学习试验映射。我们观察到x1：t和xt+1来自视频中的非常短的持续时间，并且它们在内容上彼此非常相似。假设x1：t和xt+1由控制内容信息的相同隐变量z确定是合理的我们因此，采用条件变分自动编码器（CVAE）作为用于建模p（xt+1x1：t，y1：t）的生成模型，其中，我们从x1：t计算z，然后从z生成x1：t +1，其中y1：t作为条件。正式地，我们有以下ELBO：其中i = 1，2，3，…，N. 内存模块的作用是以通过以下项的log p（x电话+1|y1:t）≥Eqlogp（xt+1|z，y1：t）p（z|y1：t）。（四）q（z|xt+1，y1：t）类似的记忆槽，因此具有记忆的能力。在正常数据上训练时使用正常模式。为了训练ML-MemAE-SC，我们可以馈送正常视频，im-替换q（z|xt+1，y1：t）在等式 4由q（z|x1：t，y1：t）得到：年龄或光流进入其中，并尝试重建输入数据。设y为输入数据，y为重建结果，我们最小化y和y之间的距离作为重建损失：log p（x电话+1|y1:t）≥Eq≈Eqlogp（xt+1|z，y1：t）p（z|y1：t）q（z|xt+1，y1：t）logp（xt+1|z，y1：t）p（z|y1：t）q（z|x1：t，y1：t）Lrecon=||y−y||二、（1）在[8]之后，我们在匹配上添加熵损失MM13592=−KL[q（z|x1：t，y1：t）||p（z|y1：t）]+Eq[logp（xt+1|z，y1：t）]，（5）13593|||||2|2..2Lgd（X，X）=. |−|Xi，j − X i − 1，j|.|.p其中KL表示Kullback-Leibler散度。以EQ为导向5，我们设计我们的未来预测模型如图2所示。我们有两个编码器Eθ和F，以及一个解码器Dψ 。 Eθ对光流 y1 ： t进行编码，得到Eθ （y1：t），由Eθ（y1：t）可得到先验分布p（zy1：t）。 F允许x1：t和y1：t的级联，并输出特征F（x1：t，y1：t），从中可以获得后验分布q（zx1：t，y1：t）。在训练期间，我们从后验分布中对z进行采样，并将z与条件Eθ（yi：t）相关联，其最终被发送到解码器DΦ以生成未来帧x（t+1）。受[6]中提出的变分UNet的启发，我们在F和Dψ之间添加跳跃连接以帮助生成xt+1。我们假设p（xt+1z，y1：t），p（zy1：t）和q（zx1：t，y1：t）由方程式5都是参数高斯分布。因此如根据VAE [22]中的常见做法，我们得出以下包含两部分的L CVAE=KL[q（z|x1：t，y1：t）||p（z|y1：t）]+的||xt+1−xt+1||第二条第六款其中Xt+1是地面真实未来帧。关注-（a）（b）（c）（d）（e）（f）图4.用于MNIST [23]数据集上的重建任务的存储器增强的自动编码器变体的可视化示例。使用加权和策略的误差如下：在[25]中，我们还定义了梯度损失：S=wr ·Sr−µr+w·Sp−µp，（9）好吧i、j.σrσpµr，σr，µp，σp是平均值和标准差，|−|Xi，j − X i，j −1|、（7）|,(7)其中i，j表示图像中的空间像素位置。组合等式6以及预测的未来帧与其地面实况之间的梯度损失，我们通过以下损失函数训练我们的CVAEL=λCVAELCVAE+λgdLgd（x（t+1，xt+1），（8）其中λCVAE和λgd是平衡超参数。确定性vs.测试期间的随机未来预测。在测试时，我们可以在- der中对z随机采样以生成未来帧。但这将在不同的时间合成稍微不同的未来框架。为了确定性地预测未来帧，我们使用后验分布q（zx1：t，y1：t）的平均值作为采样z在测试时间，和我们的方法在本文中得到的这种抽样策略下。但注意这两种采样策略具有相似的异常检测性能。更多详情，请参阅参考资料。3.3. 异常检测在测试时，我们的异常分数由两部分组成（1）流重构误差为||y1：t−y1：t||（2）未来帧预测误差为Sp=||xt+1−xt+1||二、我们通过融合两个wo来获得异常分数模型输入重建正常异常13594所有训练样本的重构误差和预测误差，wr和wp是这两个得分的权重。4. 实验4.1. MNIST上的玩具实验我们在MNIST [23]数据集上进行玩具异常检测实验，以探索记忆增强自动编码器的变化。我们使用MNIST的训练集的“2”作为正常数据来训练我们的模型，并使用MNIST的测试集作为我们的测试数据，其中除了“2”之外的数字是异常的。我们在6个变体之间进行比较，其架构在图4的顶行中从（a）到（f）示出(a)是原始的MemAE。(b)通过在解码器的所有其它级添加存储器模块，是（a）的变体。(c)是（a）的另一个变体，通过在所有级别的编码器和解码器之间添加跳跃连接。(d)是（b）和（c）的组合。在（e）中，我们在瓶颈之后的下一个级别中向MemAE添加一个内存，并且还为该级别添加一个跳过连接在（f）中，我们通过在下一级中进一步添加另一对存储器和跳过连接来扩展（e），这是所提出的ML-MemAE-SC。如图4所示，MemAE非常好地重建了正常的通过在（b）中简单地添加哪里13595↑过于激进，无法过滤掉所有有用的信息。（c）和（d）中的在（e）和（f）中，成对地添加跳过连接和存储器，其中跳过连接为相应的存储器提供额外的特征以学习更多的正常模式。可以看出，（e）和（f）中的正常数据的重建输出比（a）中的那些更清楚，而对于除了“2”之外的由于（f）多了一对跳跃连接和存储器，（f）的结果甚至比（e）的结果更好。4.2. 视频异常检测实验数据集。为了评估所提出的HF2-VAD的定性和定量结果，并将其与最先进的算法进行比较，我们在三个公开的视频异常检测数据集上进行实验，即：、UCSD Ped2 [34] 、中大道 [29] 及上海科技 [32] 。(a)UCSD Ped2由16个训练视频和12个测试视频组成，使用固定摄像机采集。训练正常数据仅包含步行的行人，而异常事件是由于非行人实体（例如，行人）的循环。汽车）或异常的行人运动模式（例如，滑板）。(b)中大大道包括16个培训和21个测试视频，从固定的场景中收集跑步、扔包等异常事件共计47起(c)ShanghaiTech非常具有挑战性，包含来自13个场景的视频，具有复杂的光线条件和摄像机角度。用于训练和测试的总帧数分别达到274K和42K。在测试集中存在130个异常事件，分散在17K帧中。评价标准。遵循VAD文献[34，29，25，8，47]中流行的评估度量，我们通过改变异常评分上的阈值来测量受试者操作特征下的面积（ AU-ROC ）较高的AUROC指示较好的VAD准确性。实作详细数据。我们不训练我们的模型在整个视频帧，但前景对象。接下来[47]，我们为训练和测试视频提取所有前景对象。每个对象由RoI边界框标识。对于每个RoI，我们建立了一个时空立方体（STC），它不仅包含当前帧中的对象，还包含前t帧的相同边界框中的内容，其中t=4。STC的宽度和高度均调整为32。类似地，我们提取光流的相应STC，其由FlowNet2.0[16]估计。提取的对象和光学流的STC是用于训练我们的模型的构建块。在测试期间，帧的异常分数是其中所有对象的最大分数考虑到连续性表1.帧级异常检测性能与最先进方法的比较。我们在UCSDPed2 [34]、CUHK Avenue [29]和ShanghaiTech [32]上计算AUROC（%）。粗体数字表示最佳结果。方法UCSD Ped2中大道SHTechConv-AE [11]90.070.2-ConvLSTM-AE [31]88.177.0-GMFC-VAE92.283.4-MemAE [8]94.183.371.2MNAD-R [38]90.282.869.8框架预测。[25日]95.485.172.8Conv-VRNN [30]96.185.8-MNAD-P [38]97.088.570.5VEC [47]97.390.274.8ST-AE [50]91.280.9-AMC [36]96.286.9-AnoPCN [46]96.886.273.6HF2-VAD，不含FP98.886.873.1HF2-VAD，不带FR94.590.276.0HF2-VAD99.391.176.2的活动，视频的异常分数平滑的中值滤波器，其窗口大小为17。我们使用PyTorch [39]来实现HF2-VAD，并采用Adam优化器[21]，β1= 0。9，β2= 0。第999章优化一下学习率初始化为1e−4，每50个epoch后衰减0.8对于所有三个数据集，时隙号 N 被设置为2KPed2 、Avenue和ShanghaiTech的内存模块编号分别为3、3和2。我们首先训练ML-MemAE-SC，然后用重构的流训练CVAE模型，最后对整个框架进行微调。λrecon、λent、λCVAE和λgd为1。0，2e−4，1. 0和1。0，分别。Ped2、Avenue和ShanghaiTech的批量大小和历元数分别设置为（128，80）、（128，80 ）和（ 256 ， 50 ）。 Ped2 、 Avenue 和ShanghaiTech的误差融合权重（wr，wp）分别设置为（1.0，0.1）、（0.05，1.0）和（0.02，1.0）。4.3. 结果定量结果。我们将我们提出的HF2-VAD与最先进的方法进行比较，包括（1）基于重建的方法：Conv-AE[11]，ConvLSTM-AE [31]，GMFC-VAE [7]，[8]与MNAD-R [38];（2）基于预测的方法：框架预测。[25]，MNAD-P [38]、VEC [47]和Conv-VRNN [30];以及⑶混合方法包括ST-AE [50]、AMC [36]和AnoPCN [46]。此外，我们比较了我们的方法的两个变体，结果总结在表1中，并且其他方法的性能从它们的原始论文获得。13596%帧.........AUROC：99.95%AUROC：99.66%AUROC：100.00AUROC：96.86%时间(a) 一个Ped2的视频与异常事件：滑板和骑自行车。(b) 一个大道视频与异常事件：孩子跑。时间图5. USCD Ped2 [34]和CUHK Avenue [29]的两个异常检测比较示例。从上到下，我们显示了采样的视频帧，地面实况异常部分（绿色区域异常），MNAD-R的结果[38]，MNAD-P的结果[38]，VEC-VAD的结果[47]和HF2-VAD的结果曲线中的值越大，表明异常的可能性越大最好用彩色观看如可以观察到的，HF2-VAD模型在所有这三个基准测试上实现了比现有技术方法更好的结果，这证明了我们的方法的有效性。特别是，HF2-VAD的性能明显优于其他混合方法.例如，HF2-VAD在CUHK Avenue数据集上实现了91.1%的准确度，但AMC的先前混合方法的最佳准确度为86.9%[36]。非常有趣的是，这是因为光流为Ped2数据集提供了更多的判别线索，这也已经被Yu等人观察到。[47 ]第47段。相反，我们的完整模型结合了两者的优点，实现了最佳效果。定性结果。示例在图 5示出（一）（b）第（1）款(c)（d）（e）MNAD-R [38]、MNAD-P [38]、VEC [47]和HF2-VAD之间比较的两个测试视频的异常曲线。异常曲线示出了所有帧的视频序列，通过它我们可以更直观地比较不同的方法的性能。如可以可以看出，VEC和HF2-VAD在正常切片中的表现比MNAD-R和MNAD-P好得多，产生更低和更稳定的异常评分。HF2-VAD甚至比VEC更好，因为它可以更好地识别异常事件，如异常持续时间所示，其中HF2-VAD计算的异常评分高于VEC计算的异常评分。这些图中的AUROC值与这些直觉一致。在图6中，我们展示了几个正常和异常图像，在第一列中示出了地面实况，在第二列中示出了通过HF2-VAD预测的帧。为了节省空间，我们不显示VEC和MNAD-P的预测帧，而是显示差异图图6.不同方法帧预测比较的可视化实例。从上到下，我们显示正常和异常数据。从左到右，我们展示了（a）地面事实，(b)HF2-VAD的预测结果，（c）HF2- VAD的差异图，（d）VEC的差异图[47]，和（e）MNAD-P的差异图[38]。每个错误映射中的数字表示相应的响应地面实况与预测帧之间的平方和误差误差图中较浅的颜色表示较大的预测误差。最好用彩色观看。分别在最后三列中的地面实况与由HF2- VAD、VEC和MNAD-P预测的帧之间的比较。还示出了这些差异图的和方误差。我们可以看到，HF2-VAD对正常图像产生较小的差异，而对异常图像产生较大的以第三排跑步的人为例，原始异常光流经ML-MemAE-SC处理后，进入CVAE的光流与输入图像不一致，.........AUROC：98.44%AUROC：98.16%AUROC：97.57%AUROC：96.34%0.61.11.00.51.60.673.420.430.833.715.312.9正常异常MNAD-RGTMNAD-PVECHF2-VADGTMNAD-RMNAD-PVECHF2-VAD13597↑HF2-VADAUROC：92.70%表2. UCSD Ped2 [34]数据集上的消融研究结果。异常检测性能以AUROC（%）报告。粗体数字表示最佳结果。产生出现在预测的未来帧中的像素移位和颜色混淆。4.4. 讨论消融研究。为了分析HF2-VAD的不同组分的作用，我们对UCSD Ped 2数据集[34]进行消融研究，并在表2中报告了AUROC方面的异常检测性能。对于流重建部分，我们考虑MemAE、具有2个存储器的ML-MemAE-SC和具有3个存储器的ML-MemAE-SC。对于预测部分，除了CVAE之外，我们还研究了仅基于先前帧的用于未来帧预测的VAE然后，我们缝合三个重建模型与CVAE，以获得我们所提出的方法的三个混合变体。从表中可以看出，仅通过重构，具有3个存储器的ML-MemAE-SC的异常检测准确率最高，其次是具有2个存储器的ML-MemAE-SC，最后是MemAE，分别为98.81% 、 97.75% 和 96.27% 。仅从预测结果来看，CVAE 的预测精度明显高于 VAE ，从 89.96% 到94.48%，这表明光流作为附加信息对提高预测精度是非常必要的。通过整合重建和预测，所有的混合模型都优于其相应的仅重建或仅预测模型，其中包括具有3个存储器的ML-MemAE-SC和CVAE的混合方法在所有比较的变体中获得最高得分，为99.31%。计算时间。实验在NVIDIA RTX 3090 GPU和IntelCore（TM）i9- 7920 X CPU@2.90GHz上执行。如[47]所述，我们需要预处理输入视频以提取所有前景对象并为帧和光流上的对象构建STC。对于我们当前的实现，预处理阶段平均每帧花费约0.092s。在异常检测阶段，模型推理和异常评分计算是异常检测阶段的关键。图7.所提出的HF2-VAD的失败案例红色虚线圆圈表示VAD性能不佳的视频部分最好用彩色观看。计算在一起每帧花费大约0.015s。总体而言，HF2-VAD的运行速度约为10 fps。失败案例。图7显示了我们的在上海科技大学的一个测试视频中，一个人正在跑步。HF2-VAD可以在人进入摄像机的视野后轻松检测到它。但是随着对象远离相机，异常分数变得越来越小。我们的方法失败的异常对象是遥远的，因为一个非常远的对象，即使它是运行，绝对光流值是类似的，甚至小于那些正常的对象附近的相机。我们推测，场景深度是一个非常重要的变量，应考虑进一步提高VAD的准确性为ShanghaiTech数据集，这将在未来的工作中进行调查。5. 结论在本文中，我们已经探讨了结合重建和预测，这是两个最流行的VAD范式，现在，以获得一个混合VAD方法的高精度视频异常检测的可能性实验结果表明，该方法优于以往的重建或预测的方法，也是最优越的混合方法阵营。本文提出的融合策略是新颖的，它利用CVAE算法预测未来帧，同时将先前的视频帧和光流作为输入，并提出了一种有效的重构方法，即基于CVAE的重构方法。ML-MemAE-SC，以预先预处理流。这意味着我们的混合方法不是重建和预测的简单组合，但重建可以有效地影响预测质量。这是强大的和固有的纠缠之间的重建和预测，使我们的方法比国家的最先进的方法表现得更好。确认本研究得到国家自然科学基金部分资助（62072191、61802453、61972160），部分由广东省自然科学基金资助（ 2019A1515010860 ，2021A1515012301），部分由中央大学基础研究基金（D2190670）资助。.........GT记忆增强的重建模型预测模型AUROCVAECVAE流✓✓✓96.2797.7598.81帧✓✓89.9694.48混合✓✓✓✓✓✓96.9198.2899.3113598引用[1] Amit Adam，Ehud Rivlin，Ilan Shimshoni，and DavivReinitz.使用多个固定位置监视器的鲁棒实时异常事件检测IEEE Transactions on Pattern Analysis and MachineIntelligence，30（3）：555-560，2008。一、二[2] Yannick Benezeth、P-M Jodoin、Venkatesh Saligrama和Christophe Rosenberger。基于时空共现的异常事件检测。2009年IEEE计算机视觉和模式识别会议，第2458-2465页IEEE，2009年。1[3] Varun Chandola、Arindam Banerjee和Vipin Kumar。异常检测：一个调查。ACM computing survey，41（3）：1-58，2009. 1[4] 丁斌，龙承江，张玲，肖春霞。Argan：用于阴影检测和去除的注意递归生成对抗网络。在IEEE国际计算机视觉会议集，2019。1[5] Xinzhi Dong ， Chengjiang Long ， Wenju Xu ， andChunxia Xiao.双图卷积网络与Transformer和课程学习的图像字幕。ACM多媒体国际会议，2021年。1[6] PatrickEsse r，EkaterinaSutte r，andBjoürnOmme r. 用于条件外观和形状生成的可变u-网在IEEE计算机视觉和模式识别会议论文集，第8857-8866页三、五[7] Yaxiang Fan，Gongjian Wen，Deren Li，Shaohua Qiu，Martin D Levine，and Fei Xiao.基于高斯混合全卷积变分自动编码器的视频异常检测和定位。计算机视觉和图像理解，第102920页，2020年。一、二、六[8] Dong Gong ， Lingqiao Liu ， Vuong Le ， BudhadityaSaha，Moussa Reda Mansour，Svetha Venkatesh ，andAnton van den Hengel.记忆正态性以检测异常：用于无监督异常检测的存储器增强深度自动编码器。在IEEE计算机视觉国际会议论文集，第1705一二三四六[9] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。《神经信息处理系统进展》，2014年第27期。3[10] Alex Graves ， Greg Wayne ， Malcolm Reynolds ， TimHarl ey ， I v oDanihelka ， AgnieszkaGrabska-Barw in´ska ， Ser-gioGo´mezColmenarejo ， EdwardGrefenstette，TiagoRa-malho，John Agapiou，et al.使用具有动态外部存储器的神经网络的混合计算。Nature，538（7626）：471-476，2016. 2[11] Mahmudul Hasan ， Jongghyun Choi ， Jan Neumann ，Amit K Roy-Chowdhury，and Larry S Davis.学习视频序列中的时间在 Proceedings of the IEEE conference oncomputer vision and pattern recognition，pages 733-742，2016中。一、二、六[12] 胡涛，龙成江，肖春霞。Crd-cgan：不同的类别一致性和相对论性约束文本到图像生成。arXiv预印本arXiv：2107.13516，2021。1[13] 胡涛，龙成江，肖春霞。一种新颖的视觉表示文本使用不同的条件根视觉识别。IEEE Transactions on ImageProcessing，30：3499-3512，2021。1[14] 刚华，龙澄江，杨明，高彦用于识别的核机器集成的协同主动学习。IEEE国际计算机视觉会议。 IEEE，2013。1[15] 刚华，龙澄江，杨明，高彦。来自人群的协作主动视觉识别：分布式集成方法。IEEE Transactions on PatternAnalysis and Machine Intelligence，40（3）：582-594，2018。1[16] Eddy Ilg ， Nikolaus Mayer ， Tonmoy Saikia ， MargretKeuper，Alexey Dosovitskiy，and Thomas Brox.Flownet2.0：深度网络光流估计的演变。在IEEE计算机视觉和模式识别会议的论文集，第2462-2470页，2017年。6[17] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。arXiv预印本arXiv：1502.03167，2015。4[18] 作者： Ashraful Islam ， Chengjiang Long ， ArslanBasharat，and Anthony Hoogs.Doa-gan：用于图

下载后可阅读完整内容，剩余1页未读，立即下载