无监督视频异常检测中的常态优势与自同步细化

155 浏览量更新于2023-10-25 收藏 921KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

13987通过正态性优势和自同步细化GuangYu*，SiqiWang*<$，ZhipingCai<$，Xin wangLiu，ChuanfuXu，ChengkunWu国防科技大学{光宇，wangsiqi10c，zpcai，xinwangliu，xuchuanfu，chengkun wu}@ nudt.edu.cn摘要经典的视频异常检测（VAD）需要标记正常视频进行训练，而新兴的无监督VAD（UVAD）旨在直接从完全未标记的视频中发现异常然而，现有的UVAD方法仍然依赖于浅层模型来进行检测或初始化，明显不如经典的VAD方法。本文提出了一种全深度神经网络（DNN）火车培训视频（正常）模型测试视频推断常态异常的解决方案，可以实现高效的UVAD。首先，我们首次指出，深度重建对于UVAD可以是令人惊讶的有效的，这启发我们揭示了一个名为“常态优势”的属性，即，当DNN学习重建未标记的视频时，正常事件将享受较低的重建损失。有了这个道具，我们提出了基于本地化的重建（LBR）作为一个强大的UVAD基线和我们的解决方案的坚实基础。其次，我们提出了一种新的自调步细化（SPR）方案，将其综合到LBR中进行UVAD。与普通的自定进度学习不同，它以从容易到困难的方式注入更多的样本，所提出的SPR方案逐渐丢弃样本，以便可以从学习过程中去除可疑的通过这种方式，SPR巩固了常态优势，并以更主动的方式实现更好的UVAD。最后，我们进一步设计了一个变体的解决方案，明确考虑到运动线索。该方法明显提高了UVAD的性能，有时甚至超过了最好的经典VAD方法。实验表明，我们的解决方案不仅显着优于现有的UVAD方法的大幅利润（5%至9% AUROC），但也使UVAD赶上经典VAD的主流性能1. 介绍视频异常检测（VAD）[29，58]一直是计算机视觉中的一个有价值的话题，因为它旨在*同等贡献。†通讯作者。(a) 经典的视频异常检测推断常态模型测试视频异常(b) 无监督视频异常检测（UVAD）。图1.经典VAD和UVAD的比较自动地发现异常事件（即，异常）偏离监控视频中常见的正常程序VAD在公共安全和城市管理等领域具有巨大的应用潜力[53，90]，因此一直受到学术界和工业界的关注但心室辅助诊断仍然悬而未决。潜在的原因是异常通常是罕见的和新颖的，并且这些特征使得异常在实践中难以预见或再现。结果，异常数据的充分和强制收集可能特别困难或甚至不可能，这使得完全监督的分类范例不能直接应用于VAD。因此，经典VAD遵循半监督设置，其标记仅包含正常视频的训练集以训练正态模型（参见图11）。1a）。在推断期间，不符合该正态模型的视频事件被视为异常。虽然这种经典的半监督13988VAD范式避免了收集异常数据的棘手问题，它仍然需要人工努力用纯正常事件标记训练集。标记过程也可能特别繁琐和劳动密集型，特别是在面对激增的监控视频时。为了缓解这个问题，一个自然的想法是执行无监督VAD（UVAD），其目的是以无监督的方式直接从完全未标记的视频中发现异常（见图2）。（见第1b段）。通过这种方式，UVAD不再需要标记正常视频来构建训练集，这可以显著降低时间和劳动力成本。因此，最近的一些作品[8，39，53，74]已经探索了这个话题，作为一个有前途的替代经典VAD（在第二节审查。2.1）。尽管取得了一些进展，但我们注意到现有的UVAD解决方案存在两个突出的局限性：（1）现有的UVAD方法通常依赖于浅层模型来执行检测或初始化，并且大多数仍然涉及手工制作的特征描述符。更具体地说，代表性UVAD方法[8，39，74]的核心思想是将剧烈变化检测为异常，这通常涉及学习浅检测模型（例如，逻辑回归）与描述符（例如，3D梯度）的视频表示。然而，浅模型和手工制作的描述符的表达能力可能是有限的。最新的工作[53]首次引入了深度神经网络（DNN），以避免手工制作的描述符，但它必须采取涉及隔离森林[36]模型的初始化步骤才能获得初始结果。（2）现有UVAD方法的性能明显低于经典VAD方法。以常用的UCSDped1和UCSDped2数据集为例，最近的经典VAD方法通常领先现有的UVAD方法约10%的AUROC。同时，现有的UVAD方法通常报告其在早期数据集上的性能，而其在最近的基准数据集（如ShanghaiTech [38]）上的适用性和有效性也是未知的。为了超越上述限制，我们提出了一种新的基于DNN的解决方案，可以以高效和完全端到端的方式执行UVAD。具体而言，本文从三个方面对UVAD做出了贡献• 我们首次指出，深度重构对于UVAD实际上是令人惊讶的有效的，而这种有效性进一步促使我们揭示了名为“常态优势”的道具基于这样一个属性，我们设计了基于局部化的重建（LBR），它作为一个强大的深UVAD基线和我们的深UVAD解决方案的坚实基础• 我们设计了一种新的自定步精化（SPR）方案，将其合成到LBR中，以巩固正态性优势并实现更主动的UVAD。与普通的自定进度学习（SPL）从易到难逐渐注入训练样本所提出的SPR方案旨在丢弃可疑样本，以便去除异常并集中于正常的学习据我们所知，这也是第一次尝试定制SPL来解决VAD。• 我们进一步设计了一个运动增强的解决方案，explanatory考虑到运动线索。变体解决方案可以持续增强检测能力，有时甚至允许我们的UVAD解决方案优于最先进的经典VAD方法。实验表明，我们的解决方案相对于UVAD的显着优势。此外，它第一次在主流基准测试中实现了与最近经典VAD方法2. 相关工作2.1. 视频异常检测（VAD）典型的心室辅助装置早期的经典VAD方法通常包括两个步骤：首先，它们利用手工制作的特征描述器（例如，轨迹[56]，动态纹理[48]，光流的直方图[7]，3D梯度[41]）来表示原始训练视频。然后，将提取的特征馈送到用于训练和推理的浅层正态模型中，例如稀疏重建模型[7，41，98]，概率模型[6，48]，一类分类器[77]和自然启发模型[50，70]。由于手动描述符设计可能很麻烦且不灵活，因此最近的工作自然会引入DNN用于自动表示学习和端到端VAD。因此，基于DNN的经典VAD方法受到了极大的关注和探索性的发展[26，31，49，51，59由于训练中没有异常，他们通常通过训练DNN执行一些替代学习任务（如重建）来构建DNN正态模型[73，82，87，88][5，9，35，42，63，97]。为了改进表示学习和正态建模，已经探索了各种DNN模型，例如递归神经网络[45，46]和生成对抗网络[62，64，92]。关于经典VAD的更详细综述见[58]。此外，请注意，本文中的深度VAD是指通过用于VAD的DNN直接从像素级视频数据UVAD。与研究透彻的经典VAD相比，只有有限的作品探讨了这个新兴的话题：Del等人[8]通过检测异常的剧烈变化来探索UVAD。具体来说，他们通过手工制作的描述符来描述每个视频帧，然后训练一个浅层分类器来区分两个时间上连续的特征集。之后，一个简单的分类指示一个剧烈的变化，而洗牌是用来使分类顺序独立; Ionescu et al.[74]遵循[8]的方向，但通过13989Σ|··· ·|UCSD ped1111098760 10 20时代UCSD ped211109870 10 20时代0.70.60.50.4UCSD ped10 10 20时代0.60.50.40.3UCSD ped20 10 20时代(a) 正常帧和异常帧的平均重建损失（RL）。（b）训练期间的框架水平ROC曲线下面积（AUROC）图2.在UCSDped1和UCSDped2数据集的测试集上通过FBR证明正态性优势更复杂的解蔽方案：通过手工制作的描述符和预先训练的DNN计算的特征，它们迭代地删除分类中最具鉴别力的特征。经过几轮删除后仍然容易分类的帧被视为异常; Liu等人[39]研究了去掩蔽和统计学习之间的联系，并通过历史采样方法和新的帧级运动特征进一步增强了性能。与上述基本上基于变化检测范式的方法不同，Pang et al.[53]首先通过利用预先训练的DNN和隔离森林获得初步检测结果[36]。然后通过以自我训练的方式执行两类有序回归来改进结果。弱监督VAD（WVAD）。WVAD是当前研究中的另一个热门话题[12，32，37，57，68，72，81，93，101]。与经典VAD或UVAD不同，WVAD利用视频级注释进行训练，以降低标记成本[68]。由于WVAD通常采用与大多数经典VAD和UVAD作品不同的设置和基准，因此本文将不讨论WVAD2.2. 自定进度的学习自定进度学习（SPL）是课程学习（CL）的一个分支[67，79]。受人类课程中有益的学习顺序的启发，CL引入了一种学习策略，该学习策略以从易到难的方式用样本训练模型[2]。为了避免经典CL中手动设计难度测量，SPL被提出来基于训练损失自动测量样本的难度[30]。具体来说，给定学习目标，SPL将可学习的样本权重和自定进度（SP）正则化器嵌入到目标中。SP正则化器启用SPL 学习每个样本的适当权重，以便控制学习的进程。作为SPL的中心问题，SP正则化器的设计已经被广泛研究[10，20，27，28，30，34，86，99]，SPL的即插即用性质使其能够广泛应用于各种任务，例如分类[71，85]，对象分割[95]，域自适应[96]，对象检测[65，94]，聚类[18，21]，对象重新识别[15]。然而，据我们所知，没有现有的工作已经探讨声压级的VAD。3. 建议的UVAD解决方案3.1. 经典VAD中的重建虽然我们的目标是开发一个深度UVAD解决方案，但回想一下DNN最初是如何解决经典VAD的，这将是很有帮助的。由于在训练中缺乏异常相反，重建一直是经典VAD的常用深度学习范式典型地，重构范例学习通过编码器网络fe（）将正常训练视频x嵌入到低维嵌入中，并且然后通过解码器网络fd（）从嵌入重构输入视频。这个目标通常是通过解决以下目标来实现的：minLR（fd（fe（x）），xθ）+R（θ）（1）θX其中，θ表示编码器和解码器的所有可学习参数，并且LR（，θ）是测量参数θ下的重构损失（RL）的损失函数。R（θ）是防止过拟合的正则化项。由等式（1），DNN有望学习正常模式并很好地重建正常事件，而对于不可见的异常则会产生较大的RL。作为一种简单的深度学习范式，重建被广泛应用于经典VAD[58]。3.2. UVAD中的常态优势尽管基于DNN的重建在经典VAD中很受欢迎，但它尚未被探索为UVAD的深层解决方案。看起来，通过与异常混合的未标记视频进行学习也使DNN能够重建异常，这使其无法区分异常。然而，我们认为这可能不是真的：在大多数情况下，异常是以低概率发生的不寻常事件，而视频中的大多数事件仍然是正常的。当DNN常态异常平均RL常态异常平均RLAUROCAUROC1399086420 1020时代0.90.80.70.60 10 20时代图3.局部化前景构建时空立方体。学习重建包含异常的未标记视频，正常/异常的不平衡性质倾向于使DNN模型偏向多数类（正常），这为我们提供了区分正常和异常的机会。此外，我们还注意到在模拟离群图像去除实验中报告了这种偏差[76，84]。出于这样的直觉，我们进行了一些基本实验来测试基于DNN的重建是否可以成为UVAD的可行深度解决方案：遵循大多数UVAD作品[8，39，74]，我们直接使用VAD基准数据集的测试集作为具有异常的未标记视频，而在训练DNN时，训练集和测试集标签都严格未使用。为了执行重建，我们训练了一个多层全卷积自动编码器（CAE）网络来重建未标记视频的帧为了评价正常帧和异常帧的重建效果作为一个例子，我们在图1中显示了UCSDped1和UCSDped2数据集上的平均RL的对数。2a，可以得出一些有趣的观察结果：最初，正常和异常事件的平均RL非常接近。之后，正常帧和异常帧之间逐渐出现丢失间隙，这表明DNN优先考虑正常帧的重建。此外，随着培训的继续，差距仍然存在。这样的观察导致了一个有趣的结论：常态倾向于扮演更有利的角色（即，当DNN学习在未标记的视频中重建正常和异常时，具有较低的重建损失，这被称为UVAD的正常优势。为了进一步验证是否可以利用正态性优势来区分异常，我们简单地使用RL作为每个视频帧的异常分数，并计算帧级AUROC [48]以定量评估学习过程中的VAD百分比：如图所示2b，虽然VAD性能在开始时很差，但在3-5个启动时期内会迅速改善。之后，AUROC趋于缓慢增加并逐渐趋于平稳。因此，这些观测结果表明，有可能利用深UVAD的正态性优势。此外，我们要发表以下意见：（1）常态优势源于图4. UCSDped 2数据集上正常/异常STC的平均RL（左）和视频中的正常事件。这种作用基本上是由异常的性质决定的，这些异常被认为是偏离大多数的罕见事件。实际上，当某种异常现象变得频繁时，它们应该被视为新的常态。因此，我们简单地假设正常优势通常在UVAD的背景下成立。（2）在SEC. 4.3，我们将展示其他深度学习范式（例如，预测）也可以利用该属性来执行UVAD。本文将重点讨论重建，因为它是VAD中最常用的深度范例之一。3.3. 基于定位的重建（LBR）基于帧的重建（FBR）的正态性优势使其成为解决UVAD问题的一种可行的例如，UCSDped2数据集上FBR的RL间隙相对较小（见图1）。2a），而它的AUROC也是不满意的工厂。实际上，它的表现不理想有一个重要原因：在许多情况下，只有视频帧的一小部分是异常的，而其余部分仍然是正常的。因此，FBR显然不是表现正常性优势的最佳方式，因为视频事件不能在每帧的基础上精确地表示。受最近探索经典VAD本地化的作品[23，25，90]的虽然局部化是由经典VAD首先引入的，但我们必须指出，局部化给UVAD带来了一个独特的好处：在执行UVAD时，局部化能够。一个例子如图所示图3：考虑一个视频帧，其中有四个步行的行人（正常）和一个跳栅栏者（异常）。对于基于帧的分析，整个帧将被视为一个异常事件。相比之下，本地化使我们能够提取四个正常事件和一个异常事件。以这种方式，更多的正常事件将在重建中相对于异常表现出更大的优势根据这个想法，我们提出了基于本地化的重建（LBR）作为UVAD的新的深度基线：至于定位，我们遵循[ 90 ]中提出的定位方案，该方案显示出既精确又一致。STC调整大小和堆叠常态异常平均RLAUROC13991i=1D{}θ×××−|∈N|i=1ΣΣθ，v|我我Σ我1.00.80.60.40.20.0UCSD ped1DF UM CTS或FBR LBR1.00.80.60.40.20.0UCSD ped2DF UM CTS或FBR LBR1.00.80.60.40.20.0大道DF嗯CTSFBR LBR最后，设=（xi，yi）N表示训练集，其中xi和yi表示第i个样本及其学习目标的恢复。由θ参数化的模型f将样本xi映射到预测f（xi），而训练损失L（f（xi），y i）由某个损失函数L计算。学习目标通常写为以下目标：N图5. FBR/LBR和现有UVAD方法之间的AUROC比较（DF[8]，UM [74]，CTS [39]，OR [53]）。扩张定位（该程序在补充材料中详细说明对于帧上的每个局部对象，我们从当前帧和相邻（D1）帧中提取D块。提取的补丁被调整大小为H W，然后堆叠成HW D时空立方体（STC），其用于表示视频事件（如图1所示）。（3）第三章。然后训练DNN以重建提取的STC，而STC的RL也被用作异常分数。为了执行帧级评估，所有STCminL（f（xi），yi|θ）（2）i=1注意，为了简单，我们省略了正则化项R。对于SPL，它嵌入了可学习的样本权重v=[vi，. . .，v N][0 ， 1]N 和自定步调（ self-paced ， SP ）正则化器 g（vλ）到上述学习目标中，其中λ是用于控制学习步调的年龄参数。具体来说，SPL的目标是解决以下优化问题：最小值f（x），y |θ）+g（v|λ）（3）i=1帧上的分数被认为是该帧的分数。为了说明LBR如何放大正态性优势，我们在UCSDped 2数据集上对LBR如图4，LBR比FBR具有显著更大的RL间隙，而帧级AUROC也增长到90%以上。在图5中，我们进一步比较帧-FBR和LBR的AUROC水平（详见第 4.1）与现有的UVAD方法在几个常用的VAD基准上，发现LBR是令人惊讶的有效：作为一个简单的基线，LBR已经能够在这些基准上胜过所有现有的UVAD方法。同时，LBR与FBR相比，在性能上有很大的提高，验证了定位对UVAD的重要性因此，所提出的LBR能够为我们的深度UVAD解决方案奠定坚实的基础3.4. 自定进度优化（SPR）虽然LBR被证明是一个强UVAD基线，但它被动地依赖于正态性优势来检测异常，并且异常在训练中不断保留然而，主动消除异常现象显然更可取。更具体地说，我们打算通过RL来筛选可疑异常，并主动减少异常为此，我们注意到自定进度学习（SPL）[30]提供了一种优雅的策略来调整学习中每个样本的影响然而，传统的SPL通常以增量的方式向训练注入更难的样本，但我们的目标是从给定的数据中逐渐删除可疑的异常。为了弥补这一差距，我们为UVAD设计了一种新的自同步细化（SPR）方案，详细介绍如下：我们首先将普通SPL作为一个特例来考察。为了-当量（3）可以通过替代搜索策略（ASS）[30]来解决，该策略交替优化θ或v，同时保持另一个固定。为了便于v的优化，SP正则化子g（vλ）通常被设计为凸的，所以当固定θ时，容易得到全局最小值v将偏导数设为0。可以表明，vi通常由训练损失L（f（xi），yi）和年龄参数λ确定。为了启用SPL，λ通常由一个小值初始化，这会产生在早期训练阶段仅涉及少量简单样本且损失很小的然后，逐渐增加λ，将较难的样本引入训练，直到最终考虑所有样本。如上所示，SPL可以通过考虑样本的硬度和当前学习阶段来调整样本的权重。这种理想的能力使SPL完全有资格扩大正态性优势，这可以通过将较小的权重分配给具有较大RL. 因此，我们从SPL开发SPR：具体地，给定STC{ci}n的采样批次（ci表示第i个STC），SPR最小化目标LSPRw.r.t. DNN参数θ和样本权重v，而LSPR由下式定义：nLSPR=v i L i（θ）+g（v|λ）（4）i=1其中Li（θ）=LR（ fd（fe（ci ）），ciθ）表示ci的RL，为了简单起见，正则化项R（θ）也被省略. 如上所述，Eq. （4）通过ASS优化：当v固定时，目标可以转化为：nminvi Li（θ）（5）θi=1在EQ中的目标（5）可以通过梯度下降来优化。事实上，当DNN学习时，它会为每个STC分配权重AUROC13992C≤Σλ∈−××以重建STC，这鼓励DNN将更多的重点放在重建具有较大权重vi的STC上。当θ固定时，可以通过求解来获得最佳viθn算法1自同步优化输入：具有参数θ的DNNf，从未标记视频收集的N个STC的集合，批量大小n，训练时期T，预热时期T′输出：更新后的参数θ1：初始化θ，t= 0minvi∈[0，1]θv iLi（θ）+g（v|λ）（6）2：对于i= 1→T，3：对于j= 1→ N →N→Di=1n4：从C中随机抽取一批n个质量方面，我们的SPR期望最佳的样品重量vi由Eq.（6）符合下列要求：当STC的损失在其对等体中非常大/小时，它很可能是异常/正常的。因此，其样本权重vi应直接设置为0/1。否则，样本权重应该与其异常的可能性负相关，这体现在其RL。这些要求促使我们利用混合物SP调节剂[27]进行SPR，其形式如下：5：如果i T′，则6：通过等式更新θ（一）7：其他8：计算λ′=μ（t）+σ（t）和λ，公式如下：（10）9：t=t+ 110：通过等式更新v。（九）11：通过等式更新（五）12：如果结束13：结束14：结束ng（v|λ，λ′）= −ρln（v ii=1ρ+）（7）λλ=max{µ（t）+（4−t·r）·σ（t），λ′}（10）其中λ′是满足λ> λ′>0的附加参数，且ρ=λλ′。由于混合SP正则化子是凸的，其中r是通常取较小值的收缩率。λ背后的直觉也很简单：在-λ−λ′iginning，我们只看到具有非常高的RL（Li（θ）≥等式（6）可以通过设置以下偏导数来导出：LSPRw.r.tvi为零，其产生：SRLSPR =L（θ）−ρ = 0，i = 1，···，n（8）μ（t）+4σ（t））作为某些异常。随着学习的继续，正态性优势变得更加明显，并允许我们排除更多的异常。当t增加时，Eq。（10）使我们能够逐渐缩小系数，第一次世界大战ivi+ρσ（t），直到λ减小到λ′，以便排除较大部分的可疑异常。由于初始RL不在-基于等式（8）和约束vi[0，1]，方程（8）的封闭形式的解。（6）可以推导如下：Li（θ）≥λ我形成性，SPR在几个预热时期后引入，这允许正常建立初步优势。整个SPR方案在算法1中给出。3.5. 运动增强型UVAD解决方案v=ρ−λ′，λ′

下载后可阅读完整内容，剩余1页未读，立即下载