无监督视频异常检测的双向帧内插算法

53 浏览量更新于2023-10-16 收藏 1.19MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2634无监督视频异常检测的双向帧内插算法邓汉秋，张兆祥，邹世豪，李星宇阿尔伯塔大学{hanqiu1，zhaoxia2，szou2，xingyu} @ ualberta.ca摘要视频监控中的异常检测旨在检测其属性与正常模式显著不同的异常帧视频中的异常可以在空间外观和时间运动中发生，使得无监督视频异常检测具有挑战性。为了解决这个问题，我们研究了相邻帧之间的向前和向后运动连续性，并提出了一种新的基于双向帧插值的视频异常检测范式。所提出的框架包括一个光学流估计网络和一个插值网络联合优化的端到端合成一个中间帧从它最近的两个帧。我们进一步引入了一种新的动态记忆机制，以平衡内存稀疏性和正常表示的多样性，在不影响正常原型的情况下，衰减帧内插中的异常特征。在推理过程中，将插值误差和动态记忆误差作为异常值进行所提出的双向插值设计改进了正常帧的合成，降低了异常出现的误报率;同时，光流估计中隐含的在公共基准点上的大量实验证明了所提出的框架相对于现有技术的优越性。1. 介绍无监督异常检测是一项具有挑战性的任务，具有广泛的现实应用，例如工业缺陷检测[2]，医疗诊断[40]和视频监控[27，21，17]。特别是无监督的异常检测在智能视频监控系统中发挥着越来越重要的作用。视频是高维时空数据.从如此庞大的数据量中检测异常模式是具有挑战性的。在文献中，无监督视频异常检测原理遵循帧重建图1.左：传统的基于帧预测的方法的概念演示，其中当前帧（橙色）是从先前的连续序列（蓝色）预测的。右：建议的双向插值方法，仅使用最近的两帧（蓝色）来插值中间帧（或- ange）。这样的设计利用了相邻帧之间的空间相似性和时间连续性，并且表现出两个益处。首先，前向和后向信息有利于正常帧内插，降低了异常出现时的误检率第二，最小化数据量（即两个帧）补救了传统的基于预测的方法中的异常运动泄漏问题。或未来帧预测。空间外观和节奏运动模式通常被用作解决该问题的互补线索[17，3]。由于这两种范式都依赖于帧合成，因此生成模型（如自动编码器[11，14]）自然会用作骨干架构。具体来说，基于重建的方法独立地处理视频帧，并以合成输入图片为目标[8]。它假设一个异常的帧会导致一个无异常的训练模型产生很大的重建误差然而，这一假设并不总是正确的。相反，视频帧中的异常外观可以部分地或甚至完全地重建[9，32]。另外，基于帧重构的方法通常不考虑视频帧之间的时间连续性。因此，它是弱检测异常运动模式。为了解决这些问题，提出了未来基于帧预测的方法[17]。在假设异常事件从先前序列不可预测的情况下[29]，这些方法的目标是从先前序列生成未来帧，并将预测误差作为异常的指示符。由于目标未来帧没有被馈送到生成模型中，因此异常帧2635···减轻了基于帧重构的方法中的外观残留。为了进一步提高性能，SIGnet合作两个独立的U-Net来预测训练中具有双向一致性项的向前和向后帧[8]。尽管有特定的设计，但传统的基于帧预测的方法采用短序列作为输入，这可能会将这些序列中出现的异常运动模式泄漏到合成的未来帧[17，10，4，26，32，8]，从而损害异常运动模式的检测为了便于检测视频中的异常外观和运动模式，我们探索相邻帧之间的空间相似性和时间连续性，并提出使用双向帧插值作为一种新的无监督视频异常检测的范例。我们概念性地展示了所提出的基于帧一方面，代替将视频序列作为输入，我们的插值方法最小化输入数据量（即，仅两个帧），这纠正了传统的基于预测的方法中的异常运动模式泄漏问题。另一方面，值得注意的是，我们的方法结合了来自相邻帧的前向和后向知识，以更好地内插正常帧，降低异常检测中的误报具体来说，我们的框架包括一个光流估计网络和一个插值网络共同训练从头开始正常的视频序列。前者学习估计仅对应于正常运动的规则光流，倾向于为看不见的异常运动模式生成差的光流后者从相邻帧和对应的“规则”光流回归目标帧。在推断中，大的内插误差指示异常帧。我们还设计了一种新的动态记忆机制，它存储与规则运动和外观相关的嵌入，并在帧插值中稀疏地处理这些正常原型，从而增加了异常样本的生成误差总之，在我们的双向光流估计中的隐式我们的贡献总结如下：本文提出了一种简单有效的双向帧内插框架作为无监督视频异常检测的新范例。利用相邻视频帧之间的空间相似性和时间连续性.这种新的设计大大减少了输入数据量以及模型的复杂性。我们通过动态选择Top-K代表性记忆项来表示，正常的特征。它很好地平衡了正常表示中的存储稀疏性和原型多样性。对公共视频异常检测基准的广泛实验证明了我们的方法优于现有技术。2. 相关工作无监督视频异常检测。解决这个问题的最有效方法是部署生成模型用于帧重建或未来帧预测。基于重建的方法旨在训练模型以保留原型正常模式，根据该原型正常模式可以很好地重建正常样本，而异常样本则不能。这些模型包括稀疏编码[24，9]，自动编码[11，39]等。后来，未来帧预测，一个特定于任务的范例，被引入视频异常检测[17]。这些方法将预测误差作为异常线索，并展示了有前途的性能[4，32，10]。意识到视频序列的高维时空属性，许多研究利用各种复杂度模型，例如3D卷积[39]、递归神经网络[24]和长短期记忆[23]来估计用于视频异常检测的时空依赖性和外观运动关联[30，4]。提出了一种基于帧内插的视频异常检测方法。与之前的作品[30，38，4，19，10，8]不同，这些作品要么使用预先训练的FlowNet来估计光流，要么设计两个独立的生成模型进行前向和后向预测，我们的方法从头开始训练一个模型，而没有任何性能下降。尽管简单的架构，我们证明了它的有效性和优越的性能在公共视频异常检测基准。帧插值。视频帧内插通常基于光流中的时变信息，以产生连续的最近，卷积神经网络使光流估计能够以端到端的方式进行训练，并且大多数视频帧插值方法将这种方法纳入帧合成过程[12，13，37]。可选的，无流方法尝试精确的帧内插，而无需显式的光流估计。这些方法包括但不限于 PixelShuffle [35] 、PhaseNet [28]和channel attention [6]。虽然一些方法[38，8，7，31]建议从连续序列中插入一个帧，但我们遵循基于帧的范例，即从最近的两个帧双向预测中间帧。记忆机制记忆机制被广泛用于约束异常检测的生成模型的泛化能力。在内存增强的自动编码器中，无异常特征根据相似加权内存在内存库中重新组织2636--−--��t"1➝t“1”最多1美元��“t普雷特$t→��→→价格$100→��1美元→��价格$1��不需要1美元图2.拟定方法的系统图。我们的端到端训练模型由光流估计和帧优化与动态内存模块增强。假设当前帧It是插值目标，我们将It-1和It+1馈送到光流估计网络中。然后，计算前向/后向光流并合成插值候选项It− 1 →t和It +1 →t分别来自It− 1/It +1。细化网络被部署为从那些粗插值回归目标帧It，并生成最终结果It。在推理中，It和It之间的插值误差表示异常程度.重建项目[9]。Park等人[32]分别提出了压缩损失和分离损失来减少最近特征的距离和增强记忆模式的多样性此外，记忆模块仍然有效，并且优于预测模型的重建结果[32]。Cai等人[4]从预先训练的流量估计网络信号中引入运动信息为了应对看不见的测试场景，提出了一种动态注意力机制来编码正常模式[26]。Liu等人[19]提出了一种与跳跃连接相结合的多级存储器在这项研究中，我们采用了一种新的动态记忆机制来平衡正常表示的记忆稀疏性和原型类型多样性，这有助于内插正常帧，而内插异常帧较差，从而促进异常的歧视3. 方法该方法充分利用视频帧间的空间相似性和时间连续性进行帧内插和异常检测。如图2.对于帧I t的异常检测，我们提出的方法以其前一帧It-1和未来帧It+1作为输入，并推断这两个帧之间的前向和后向光流。然后光流一起与这两个帧一起，被连接并馈送到插值网络中，以合成当前的框架，我不知道。之间的插值误差它的“正常”变化是一个强有力的异常的。此外，我们在插值网络中引入了动态记忆机制，增强了正态性的表示，但削弱了异常的表示。3.1. 帧插值给定视频序列I0，.，It−1，It，It+1，.，在N+1个帧中的N个帧中，我们的目标是预测序列I=1，...，It−1，It，It+1，.，I<$N-1，通过对每个时间步长t的相邻两帧进行插值。更具体地，在时间t，我们使用帧It-1和It+1作为输入来推断当前帧It，其与给定帧It的差异被认为是异常检测的标准。根据先前的工作[4，19，38]，通过用估计的流扭曲输入的两个帧，经由无监督学习来训练用于光学流预测的模型由于光流解释帧之间的运动，因此可以采用光流来内插中间帧。设Ft−1→t+1和Ft+1 →t−1分别表示从It−1到It+1和It+1到It−1的光流。给定帧t 1和t +1之间的流，可以通过利用插值光流进行扭曲来获得中间帧。由于t处的帧位于t-1处的两个帧的中心，2637×R64 128 256512256 128 642 2 L图3.我们框架中使用的U-Net架构。2D卷积层由步长为1的3 ×3卷积内核、批量归一化和ReLU激活组成。我们使用最大池层进行下采样，转置卷积进行上采样。输出层也是2D卷积，但使用Tanh激活。和t+1，我们有从It到It−1的光流为图4.动态内存机制概述。给定一个特征图作为查询，我们计算它和内存项之间的相似度。对于每个查询，我们根据相似性选择前K个项目。最后，我们计算加权平均值11的值作为所选图像的匹配概率，Ft→t−1=2Ft+1 →t−1= −2Ft−1→t+1，（1）从It到It+1的光流为地址输出。11模型，其被示出为产生高质量图像。Ft→t+1=2Ft−1→t+1= −2 Ft+1 →t−1。（二）然后光流从It到It−1和从It到It+1如下线性内插但是，它会导致异常信息泄漏到恢复图像中，削弱异常的插值差异因此，我们使用直接生成路径，而不需要输出图像上的残留连接。Ft→t−11=−4F1t−1→t+1+4Ft +1 →t−1、（3）3.2. 动态记忆机制Ft→t+11=4Ft−1→t+11-4F t+1→t−1.（四）生成式U-Net模型本身无法学习正常和异常之间的不同表现-当异常运动进入网络时，双向光流估计产生有助于检测异常的更多在这项研究中，我们使用U-Net[34]来预测双向光信号。推杆因此，我们在精化中引入了存储模块如图所示的部分模型。4.直觉上，无监督异常检测中的记忆模块能够记住具有不同表示的正常模式校准流量Ft−1→t+1 和Ft+1→t−1. 详细的architec-有异常现象此模块插入到细化中模型位于输出层之前，如图所示二、我们工作中使用的U-Net [34]的真实性如图所示。3.第三章。利用这些内插流，我们可以通过反向扭曲操作分别得到时间t处的帧It−1→t和It+1 →t，其表示为It−1→t=<$（It −1，F<$t→t −1），（5）It+1→t=f（It +1，Fft→t+1），（6）其中，f（I，F）是反向扭曲操作。由于It−1→t和It+1→t是通过时间连续性粗略估计的，因此另一个插值模型被应用于在t处的帧的细化，其输出是最终插值结果Itt：It=R（Ft→t−1;It−1→t;Ft→t+1;It+1→t）.（七）请注意，以前的视频插值方法[13]在细化中使用到输出图像的残差连接m#m（$y）0.50.4→qu#$y0.4sof$m/（013889%百分之三十一va+u#百分之三十一2638∈∈这避免了异常信息泄漏到所恢复的图像中。在本文中，我们提出了一种动态记忆机制，其中前K个记忆键根据余弦相似性的秩来寻址。这与以前的作品[9，32，26，4，19]不同，后者使用硬阈值来选择记忆键，仅选择最相似的记忆键或线性组合所有键。我们的动态策略平衡了内存容量和正常原型的多样性，从而提高了异常检测的性能（见第二节）。4.3）。具体地，存储池MRN×C定义为N个键组成的矩阵，每个键的维数为C.内存池是可学习的，并且期望在训练时学习无异常特征的典型模式。给定从帧中提取的特征映射QRHW×C，从内存池中线性查询其映射到正规空间上的特征正如我们上面所讨论的2639∈Σ美国||LN2n2存储模块位于输出层之前，因此特征图的高度H和宽度W与帧一致。对于特征图Q中的每个输入特征向量qijRC，我们使用余弦相似度来表示匹配程度，此外，我们使用一个功能约束损失，以尽量减少查询和寻址键之间的差异。因此，正常查询仅用前K个存储键就可以充分重构，而对于未知的异常查询，这些K个存储键不足以表示它，并且给出较大的重构误差。约束损失定义为：ω（k ，q）=km<$q，（8）H W哪里米伊杰||k||q i j||qij||Lcon=1μ mvij− qij<$2.（十五）km是内存池中的第m个内存寻址的目标是在内存中找到原型正常模式，并执行能够呈现异常查询和正常查询之间的差异的重建。对于给定的特征向量qij，我们根据相似性排名动态地选择N个存储器键中的前K个作为寻址目标，因为这些键是最具代表性的是正常特征。然后，qij和前K个所选键之间的匹配exp（ω（km，qij））i=1j=1动态寻址仅涉及每个查询的一些存储器键，并且特征约束丢失强制查询和聚合的存储器键彼此接近。为了防止所有记忆键彼此接近，我们施加了多样性损失[26]作为记忆规则化，这增加了记忆特征之间的区别目标函数是最大化内存项之间的均方误差，p=Kn=1 exp（ω（kn、q（ij））.（九）N N1 Σ ΣLdiv= −||Kn=1n′=1-k′||.（十六）在所有选择的键中，Kvij=pn·kn。（十）n=1请注意，λ1、λ2和λ3是超参数，用于平衡训练期间的每次损失。3.4.异常分数然后，我们将值vij作为残差项添加到查询qij，作为内存模块的输出最后，我们通过帧内插将输出作为时间t处的重构帧I_t3.3.联合训练我们根据下面定义的损失对模型进行端到端训练，帧插值模型是在正常帧的视频序列上训练的，而对于未知的异常样本，它会产生更高的插值误差。因此，异常分数由插值误差表示如下，Sint=Lframe=||It−It||二、（十七）由于异常查询在内存池中寻址时会引发错误，因此我们也将Lcon称为异常分数：H WL=Lwarp+L frame+λ1L SSIM+λ2L con+λ3L div，（11）其中，Lwarp是帧con=con=1vHWi=1j =1-qij||2.（十八）It−1和It+1，定义为总体异常评分定义为2Lwarp=<$It−1−<$（It+1，Ft−1→t+1）<$+<$It+1−<$（It−1，Ft+1→t−1）<$2.（十二）它被用作正则化项来联合训练流S=α（Sint）+（1−α）（Scon），（19）其中，（）表示最小-最大归一化，α是估计网络L帧指的是超参数来平衡Sint和Scon。预测帧It和地面实况帧It，L帧=It−It2，（13）SSIM是结构相似性（SSIM）损失[36]，用于测量It和It之间的感知差异，LSSIM=SSIM（It，It）.（十四）HWΣ以匹配概率作为寻址权值，通过加权平均得到寻址结果vijnIJ26404. 实验4.1. 设置数据集。三个基准数据集被用来评估我们提出的方法。1) UCSD Ped2 [15]数据集由16个训练视频和12个描述行人移动的测试视频2641×××−×平行于照相机平面，样本的分辨率为240 × 360像素。人群密度随自然起伏变化，由稀疏到拥挤。异常的行人运动和非行人实体（包括骑自行车的人、滑冰的人和走过人行道的人）被认为是异常情况。2) CUHK Avenue[22]数据集包含16个训练视频和21个测试视频，这些视频来自俯瞰繁忙人行道的摄像机。它包括47个异常事件，如投掷物体，游荡，运行，每帧的空间分辨率为600 360。3) ShanghaiTech Campus [18]数据集由274k训练和42k测试帧，包含130个不规则事件，覆盖13个不同场景，大小为856 480。与其他数据集相比，ShanghaiTech具有更大的挑战性，因为场景的多样性，多视角，复杂的光线条件，以及追逐和争吵等突然运动的引入。实施详情。我们使用PyTorch [33]来实现所提出的方法。帧的大小调整为256256，并将像素值归一化到[1，1]对于所有三个数据集。内存大小与MNAD [32]和MPN [26]相同，为10。本文还探讨了约束损失中动态选择数K的取值范围（从1到9）。目标函数中的平衡权重根据经验设置为λ1=0。0001，λ2=1，λ3=0。0001 模型采用Adam优化器进行优化。学习率初始化为0。0002，并在余弦退火[20]调度器监控的最后一个历元中衰减为0。Ped2、Avenue和ShanghaiTech的训练epoch分别设置为100、50和20我们将所有数据集的批量大小设置为8 实验是用双NvidiaRTX-3090 GPU以并行训练的形式，在Ped 2、Avenue和Shanghai Tech上的训练阶段分别需要大约8、12和40小时。对于推论，我们选择α = 0。3.平衡插值误差和特征约束误差之间的异常分数一旦论文被接受，我们的代码将被评价我们使用AUC（曲线下面积）作为帧级分数的测量。它4.2. 定量比较如表1所示，我们比较了UCSD Ped2 [27]、CUHKAvenue [21]和Shanghai Tech Campus [17]上最先进的帧级无监督视频异常检测方法，包括基于重建和基于预测的方法。主要比较方法是记忆增强模型，包括MemAE [9]、MNAD [32]、AMMC[4] MPN[26]第10段。在部分-乌拉尔， MemAE组件 [9]是一种基于重建的模型，AMMC[4]是一个基于预测的模型，而MNAD方法\数据集Ped2 Avenue Campus对象Rec.HF-R [19]百分之九十八点八百分之八十六点八73.1%Pre.VEC [38]HF-P [19]97.3%94.5%89.6%百分之九十点二74.8%百分之七十六点二帧2DAE [11]百分之八十五百分之八十百分之六十点九3DAE [39]91.2%百分之七十七点一-MNAD-R [32]百分之九十点二82.8%69.8%[第24话]91.0%百分之八十点六67.9%Rec.sRNN [25]百分之九十二点二81.7%68.0%MemAE [9]94.1%百分之八十三点三71.2%STCEN [10]96.9%86.6%百分之七十三点八AMC [30]百分之九十六点二86.9%-MPN-R [26]百分之九十六点二87.1%71.9%MPN-P [26]百分之九十二点六85.2%71.1%VPC [16]93.6%85.4%-Pre.[17]第十七话标准[5]百分之九十五点四96.7%百分之八十四点九87.1%百分之七十二点八百分之七十三点七MNAD-P [32]97.0%百分之八十八点五百分之七十点五AMMC [4]百分之九十六点六86.6%百分之七十三点七SIGnet [8].百分之九十六点二百分之八十六点八-Int.我们的，没有备忘录。我们的w/Mem.98.2%百分之九十八点九86.9%百分之八十九点七百分之七十三点四百分之七十五点零表1.在AUC评分方面，与UCSD Ped2 [27]、中大大道[21]和2642−上海科技园区[17]的最新方法进行比较。粗体的结果表示帧级异常检测的最佳性能。Rec. 、Pre. 和Int.分别表示基于重构的方法、基于预测的方法和基于帧内插的方法[32]和MPN[26]提供了两者的结果。此外，我们还将所提出的模型与其他基于重建和基于预测的方法进行了比较，包括2D自动编码器（2DAE）[11]，3D自动编码器（3DAE）[39]，时间相干稀疏编码（TSC）[24]，堆栈递归神经网络（sRNN）[25]，时空一致性增强网络（STCEN）[10]，表观运动对应（AMC）[30]、帧预测（Frame Pred）[17]、视频预测和压缩（VPC）[16]和时空分离（STD）[5]。注意，基于预测的方法通常比基于重建的方法更好。特别是在相同设置中为COM设置的MNAD[32]和MPN[26]也显示了这种趋势。此外，我们提出了与基于序列的插值方法，暹罗生成网络（SIGnet）[8]的比较。我们所提出的基于帧的插值方法，通过避免直接输入的外观和运动信息，整体上取得了更好的效果。此外，对象级方法V EC[38]和HF[19]也被示出作为参考。与帧级设置[9]相比，对象级方法使用额外的对象检测模型来提取视频中的对象。尽管与帧级方法[38，19]的比较是不公平的，因为它们使用了先验知识模型，但我们的方法仍然获得了可比较的结果。2643LLLLSSSSSS表2.与AUROC最新技术中使用的无内存模块的基线进行比较基线比较。我们比较了记忆增强方法的基线，如MemAE[9]，MNAD[32]，AMMC[4]和MPN[26]。的表2中示出了详细的比较，其示出了没有存储器模块的方法的结果。我们的方法和AMMC[4]在所有三个数据集上都取得了令人满意的结果，因为两者都涉及对运动异常的关注。然而，对于运动异常的检测，AMMC[4]利用额外的网络来预测光流。作为一个基线，我们提出的帧内插方法是优越的无监督视频异常检测。成分分析。为评估建议架构各组成部分的成效，我们在中大道[21]数据集如表所示。3.除了像素级插值损失帧，我们还实现了结构相似性损失SSIM，以改善感知效果，从而获得较小的增益。由于跳过连接可能导致异常泄漏并降低异常分数[19]，我们在最后一层插入内存模块以防止这种情况。从两个方面对动态记忆机制进行了阐述.首先，我们实现了一个特征约束con，使动态寻址的内存表示正常的查询，并增加了多样性div损失，以扩大内存项目之间的距离。通过这样做，在不影响存储器容量的情况下形成紧凑的正常其次，特征约束可以被看作是特征级的重构，其可以用作唯一的异常分数约束。特征级异常评分con达到85的AUROC。5%，并改善基于插值的异常分数int稍微。与基线相比，vanilla内存模块，所提出的方法改进了二、8%和2。2%AUROC评分。内存数量的影响动态量K对存储器寻址的影响如图所示。5.异常分数int、con和被表示为int。，con.和mix。分别我们还探讨了不同记忆的评价结果大道上的AUROC。容量N相对于K的比率当K=5，N=10时，记忆效率达到正常和异常事件的最佳区分，同时获得最佳的AUROC结果。图5.中大大道AUROC记忆容量N和动态记忆项目数K[21]数据集可视化。图6中分别显示了UCSD Ped2 [27]、中大大道[21]和上海科技园区[17]序列中所有帧随时间变化的异常分数的三个示例。折线图显示了视频序列中所有帧的异常分数，通过该曲线图可以直观地观察正常事件和异常事件的时间变化。我们在图中发布了一个更清晰的可视化。图7示出了帧内插对异常事件的影响，其中异常图表示像素级内插误差。为了更好的视觉表达，我们应用高斯平滑的异常地图。UCSD Ped2 [27]上的插值结果代表了对异常运动的双向插值的方法\数据集PED2大道校园Rec.MemAE [9]百分之九十一点七81.0%69.7%MNAD-R [32]百分之八十六点四百分之八十点六百分之六十五点八MNAD-P [32]94.3%84.5%66.8%4.3.消融研究网络损失评分AUROC存储器LSSIMLdivLconSconSint✗✗✓✓-✓-✓✗✓ ✓--✗✗--✗✗✓百分之八十六点二✓86.9%✓87.5%✓百分之八十七点七✓✓✓✓ ✓✓ ✓✓ ✓✓✓✓✗✓✓✓89.5%88.5%✓百分之八十九点七2644异常分布图中的电流分布图为16t→t#16t→t%$��UCSD Ped2中大道图7. UCSD Ped2 [27]、中大大道[21]和上海科技园[17]上的插值帧、异常图和光流前两列表示当前帧和插值帧。上述三个数据集的异常事件分别是异常区域通过第三列中的热图可视化。最后两列显示了从时刻t到时刻t−1和t+1的估计光流。光流估计网络和内插网络在正常视频序列上联合训练。在推理阶段，通过插值误差反映异常与以往的方法不同，我们的管道阻止了异常外观和异常运动模式的直接输入，扩大了异常事件的累积误差。此外，我们引入了动态记忆机制，以增强正常和异常之间的差异的特征空间。我们的动态记忆上海理工大学校园图6.正常和异常事件的异常分数变化的可视化。正常事件的异常分数以蓝色突出显示，而异常事件则为红色。热图显示异常定位，蓝色到红色表示异常分数的上升。在自行车出现重叠的插值列中可以看到显著的插值误差。重叠的出现是因为在两个相对方向上都发生了运动延迟来自香港中文大学Av- enue [21]数据集的例子显示了异常的行为“奔跑”，注意力集中在物体的“腿”上。上海理工大学校园出现了异常事件“fig ht“[17]，我们的模型关注点是“a r m“。5. 结论提出了一种基于中间帧插值的视频监控异常检测方法。该框架包括机制约束了异常特征的表示，而不损害正常特征的存储容量。在公开基准测试中的帧级视频异常检测结果验证了该框架的有效性。局限性。该方法的关键是内插误差较小或无误差的正常帧和误差较大的异常帧。由于只有两个帧被送入模型，视频内容与障碍视图或遮挡构成了挑战，我们的方法。我们在补充文件中列举了一些失败的例子。潜在的负面社会影响。虽然视频异常检测是为了解决现实生活中的问题，如交通控制和城市警务。然而，仍有一些因素使这项技术对社会造成潜在危害。例如，帧内插可以用作视频伪造的手段，以制造虚假证据和逃避监控等。我们呼吁关注这些问题，并鼓励研究人员在未来开发更有利于社会的技术。校园大道PED22645引用[1] Simon Baker 、 Daniel Scharstein 、 JP Lewis 、 StefanRoth、Michael J Black和Richard Szeliski。光流数据库和评价方法。International Journal of Computer Vision，92（1）：1[2] Paul Bergmann，Michael Fauser，David Sattlegger，andCarsten Steger. Mvtec ad-一个用于无监督异常检测的综合真实世界数据集。在IEEE/CVF计算机视觉和模式识别会议论文集，第9592-9600页[3] Sovan Biswas和R Venkatesh Babu。实时异常检测。264个压缩视频2013年第四届全国计算机视觉、模式识别、图像处理和图形会议（ NCVPRIPG ），第 1-4 页。IEEE，2013。[4] Ruichu Cai，Hao Zhang，Wen Liu，Shenghua Gao，andZhifeng Hao.视频异常检测的外观-运动记忆一致性网络。在Proc. AAAI，第938-946页[5] Yunpeng Chang，Zhigang Tu，Wei Xie，Bin Luo，ShifuZhang，Haigang Sui，and Junsong Yuan.具有时空分离的视频异常模式识别，122：108213，2022。[6] Myungsub Choi ， Heewon Kim ， Bohyung Han ， NingXu，and Kyoung Mu Lee.通道注意力是视频帧插值所需的全部在AAAI人工智能会议，第34卷，第10663-10671页，2020年。[7] ValentinDurandDeGe vignney，Pierre-Franc oisMarteau，Ar-naud Delhay，and Damien Lolive.用于异常行为检测的视频潜码内插。2020年IEEE International Conferenceon Systems，Man，and Cybernetics（SMC），第3037-3044页。IEEE，2020年。[8] 方志文，梁家飞，周天一，杨潇，杨峰。视频中具有双向一致性的异常检测。 IEEE Transactions on NeuralNetworks and Learning Systems，2020。[9] Dong Gong ， Lingqiao Liu ， Vuong Le ， BudhadityaSaha，Moussa Reda Mansour，Svetha Venkatesh ，andAnton van den Hengel.记忆正态性以检测异常：用于无监督异常检测的存储器增强深度自动编码器。IEEE/CVF国际计算机视觉会议（ICCV）论文集，2019年10月。[10] Yi Hao ， Jie Li ， Nannan Wang ， Xiaoyu Wang ， andXinbo Gao.时空一致性增强网络用于视频异常检测。模式识别，121：108232，2022。[11] Mahmudul Hasan ， Jongghyun Choi ， Jan Neumann ，Amit K Roy-Chowdhury，and Larry S Davis.学习视频序列中的时间在 Proceedings of the IEEE conference oncomputer vision and pattern recognition，pages 733[12] Eddy Ilg ， Nikolaus Mayer ， Tonmoy Saikia ， MargretKeuper，Alexey Dosovitskiy，and Thomas Brox.Flownet2.0：深度网络光流估计的演变。在Pro-IEEE计算机视觉和模式识别会议的会议论文集，第2462-2470页，2017年。[13] Huaiizu Jiang ， Deqing Sun ， Varun Jampani ， Ming-Hsuan Yang，Erik Learned-Miller，and Jan Kautz.超级斯洛莫：用于视频内插的多个中间帧的高质量估计。在IEEE计算机视觉和模式识别会议论文集，第9000- 9008页[14] Diederik P Kingma和Max Welling。自动编码变分贝叶斯。arXiv预印本arXiv：1312.6114，2013。[15] Weixin Li，Vijay Mahadevan，and Nuno Vasconcelos.拥挤场景中的异常检测与定位 IEEE Transactions onPattern Analysis and Machine Intelligence，36（1）：18[16] Bowen Liu，Yu Chen，Shiyu Liu，and Hun-Seok Kim.用于视频预测和压缩的潜在空间深度学习。在IEEE/CVF计算机视觉和模式识别集，第701[17] W. Liu，L. Lian W. Luo和S.高.未来帧预测异常检测-一个新的基线. 2018年IEEE计算机视觉和模式识别会议（CVPR），2018年。[18] W. Liu，L. Lian W. Luo和S.高.未来帧预测异常检测-一个新的基线. 2018年IEEE计算机视觉和模式识别会议（CVPR），2018年。[19] Zhian Liu ， Yongwei Nie ， Chengjiang Long ， QingZhang，and Guiqing Li.一种基于内存增强流重构和流引导帧预测的混合视频异常检测框架。在IEEE/CVF计算机视觉国际会议（ICCV）的会议中，第13588-13597页[20] 伊利亚·罗希洛夫和弗兰克·哈特。Sgdr：Stochas-tic 梯度下降与热重启。 arXiv 预印本 arXiv ：1608.03983，2016。[21] 策武路、建平石、贾佳雅。matlab中150 fps下的异常事件在Proceedings of the IEEE international conference oncomputer vision，第2720-2727页，2013年。[22] 策武路、建平石、贾佳雅。matlab中150 fps下的异常事件在Proceedings of the IEEE international conference oncomputer vision，第2720-2727页，2013年。[23] Weixin Luo，Wen Liu，and Shenghua Gao. 使用卷积lstm进行异常检测以记住历史记录。在2017年IEEE多媒体和博览会国际会议（ICME），第439-444页。IEEE，2017年。[24] Weixin Luo，Wen Liu，and Shenghua Gao.堆叠式rnn架构中以在IEEE计算机视觉国际会议论文集，第341-349页[25] Weixin Luo ， Wen Liu ， Dongze Lian ， Jinhui Tang ，Lixin Duan，Xi Peng，and Shenghua Gao.基于稀疏编码的视频异常检测启发了深度神经网络。 IEEEtransactionsonpatternanalysisandmachineintelligence，43（3）：1070[26] Hui Lv ，Chen Chen，Zhen Cui，Chunyan Xu，YongLi，and Jian Yang.学习视频中的正常动态与Meta2646原型网络在IEEE/CVF计算机视觉和模式识别会议论文集中，第15425-15434页[27] Vijay Mahadevan，Weixin Li，Viral Bhalodia，and NunoVas-concelos.拥挤场景中的异常检测。2010年IEEE计算机学会计算机视觉和模式识别会议，第1975-1981页。IEEE，2010。[28] SimoneMeyer、AbdelazizDjelouah、BrianMcWilliams、Alexander Sorkine-Hornung、Markus Gross和Christo-pher Schroers。用于视频帧插值的相位网。在IEEE计算机视觉和模式识别会议论文集，第498-507页[29] Rashmiranjan Nayak，Umesh C Pati和Santos K Das。基于深度学习的视频异常检测方法综述。图像和视觉计算，106，2011。[30] Trong Nguyen Nguyen和Jean Meunier。基于外观-运动相关的视频序列异常检测在IEEE/CVF计算机视觉国际会议论文集，第1273-1283页[31] 乔纳森·潘基于深度学习的视频帧内插的监控摄像机物理完整性攻击检测。2019年IEEE物联网和智能系统国际会议（IoTaIS），第79IEEE，2019。[32] Hyunjong Park，Jongyoun Noh，and Bumsub Ham.学习记忆引导的常态异常检测。在IEEE/CVF计算机视觉和模式识别会议（CVPR）上，2020年6月。[33] Adam Paszke、Sam Gross、Soumith Chintala、GregoryChanan、Edward Yang、Zachary DeVito、Zeming Lin、Alban Desmaison、Luca Antiga和Adam Lerer。pytorch中的自动微分，2017。[34] Olaf Ron

下载后可阅读完整内容，剩余1页未读，立即下载