自监督预测卷积注意块异常检测

40 浏览量更新于2023-10-25 收藏 1.05MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

13576自监督预测卷积注意块异常检测Nicolae-CalaughtalaughlinRistea1，2，NeeluMadan3，RaduTudorIonescu4，5，Nederlands，KamalNasrollahi3，6，Fahad Shahbaz Khan2，7，Thomas B.Moeslund3，MubarakShah81罗马尼亚布加勒斯特理工大学，2阿联酋MBZ人工智能大学，3丹麦奥尔堡大学，4罗马尼亚布加勒斯特大学，5罗马尼亚SecurifAI，6丹麦里程碑系统，7瑞典Linko？pingUniversity，8美国佛罗里达州中部大学摘要异常检测通常被追求为一类分类问题，其中模型只能从正常训练样本中学习，同时在正常和异常测试样本上进行评估。在异常检测的成功方法中，一个杰出的方法类别依赖于预测屏蔽信息（例如，补丁、未来帧等）以及利用相对于屏蔽信息的与相关方法不同，我们提出将基于重构的功能集成到一个新的自监督预测建筑构建块中。所提出的自监督块是通用的，可以很容易地被纳入到各种国家的最先进的异常检测方法。我们的块从具有扩张滤波器的卷积层开始，其中感受野的中心区域被掩蔽。所得到的激活图通过信道注意模块。我们的块配备了一个损失，最大限度地减少repercation- tion误差相对于掩蔽区在receptive- tive领域。我们通过将其集成到几个最先进的图像和视频异常检测框架中来展示我们的块的通用性，提供了在MVTec AD，Avenue和ShanghaiTech上显示出相当大的性能改进的实证证据我们将我们的代码作为开放源代码重新出租：https://github.com/ristea/sspcab。1. 介绍异常检测是一项重要的任务，具有广泛的应用范围，从工业检测（发现工业生产线上物体或材料的缺陷）[5，7，10，15，36，56，62，76]到公共安全（检测异常事件，如交通事故，打架，爆炸等）。[12，13，1752、67、72、73、77、78]。该任务通常被框定为一类分类（离群值检测）问题，其中方法[2，8，12，21，25，27，29，33，35，37，40，43电子邮件：raducu. gmail.com51，53，54，57，69，73，75，81，82]从正常训练样本中学习熟悉度模型，在推理时将不熟悉的样本（离群值）标记为异常。由于异常样本仅在测试时可用，因此监督学习方法不能直接应用于异常检测。为此，研究人员将注意力转向其他方向，如基于重建的方法[15，19，21，36，37，43，47，49，54，62，69，71]，字典学习方法[7-[6、10、25、27、50、51、53、57、58、63、65、68、70]，修改[11，26，38，48]和概率模型。els [1，2，16，23，29，44，45，56，61，74]。重构方法的一个区别性的子类依赖于预测掩蔽信息，利用关于掩蔽信息的重构误差作为异常性分数。被屏蔽的信息可以以不同的形式出现，例如超像素[36]、未来帧[37]、中间边界框[17]等。这个子类别中的方法屏蔽了部分输入，并采用深度神经网络来预测丢失的输入信息。与这些方法不同，我们建议整合到神经块的掩蔽信息重建的能力在核心体系结构级别引入重建任务具有两个重要优点：（i）它允许我们在神经网络的任何层（不仅在输入端）屏蔽信息，以及（ii）它可以集成到广泛的神经架构中，因此非常通用。我们将重建块设计为由膨胀卷积层和通道注意机制形成的自监督预测块扩张滤波器基于自定义感受野，其中内核的中心区域然后将所得的卷积激活图通过信道注意模块[24]。注意力模块确保块不会简单地学习基于线性内插上下文信息来重建被掩蔽的区域我们的块配备了一个损失，最大限度地减少最终激活地图和掩蔽信息之间的重建误差。换句话说，我们的块被训练成以自我监督的方式预测被屏蔽的信息。我们的自我监督13577掩蔽卷积FC+ReLU全球集中共用FC+乙状结肠关注模块✕繁殖LSSPCAB地面实况图1.我们的自我监督预测卷积注意块（SSPCAB）。对于应用扩张卷积滤波器的每个位置，块学习使用上下文信息来重建掩蔽区域。信道注意模块通过使用全局信息来选择性地强调或抑制重建图来执行特征重新校准。最好用彩色观看。预测卷积注意块（SSPCAB）在图1中示出。对于应用扩张卷积滤波器的每个位置，块学习使用上下文信息来重建掩蔽区域。同时，根据特定应用的需要，膨胀率成为控制上下文级别（从局部到全局）的自然方式。我们将SSPCAB集成到各种最先进的异常检测框架中[18，34，37，39，49，79]，并在MVTec AD [5]，Avenue [40]和ShanghaiTech [43]数据集上进行全面实验实验结果表明，SSPCAB能显著提高系统的性能.基于区域的检测标准（RBDC）的刘等。[39]通过增加SSPCAB，大道上的比例从41%增加到62%此外，在帮助我们能够报告新的最先进的每-在大道和上海科技大道交界处。此外，我们在Avenue数据集上显示了额外的结果，表明掩蔽卷积层本身也可以提高性能水平。总之，我们的贡献是双重的：我们引入了一种新的自我监督预测卷积注意块，它本质上能够执行异常检测。我们将该块集成到几个最先进的神经模型中[18，34，37，39，49，79]用于异常检测，在多个模型和基准测试中显示出显着的性能改进2. 相关工作由于异常很难预测，方法通常只在正常数据上训练，而在正常和异常数据上进行测试[21，49]。因此，离群值检测[25，27，50，51，53]和自我监督学习-[17用于解决异常检测任务。异常检测方法可分为：字典学习方法[7- 9，14，40，55 ]，变化检测框架[11，26，38，48]，基于概率的方法[1，2，16，23，29，44，45，56，61，74]，基于距离的模型[6，10，25，27，50，51，53，57，58，63，65，68，70]，和基于重建的甲基-ods [15、19、21、36、37、43、47、49、54、62、69、71、79]。基于字典的方法通过构造字典来学习正常行为，其中字典中的每个条目表示正常模式。Ren等人[55]通过考虑不同词条之间的关系，扩展了词典学习方法。变化检测框架通过量化视频帧之间的变化来检测异常，即。与紧接在前的事件的显著偏离标志着异常事件的开始。在量化变化后，可以使用诸如解蔽[26]或有序回归[48]等方法来分离异常。基于概率的方法建立在异常发生在低概率区域的假设这些方法估计正态数据的概率密度函数（PDF），并根据PDF对测试样本进行评价。例如，Mahadevanet al.[44]使用动态纹理混合（MDT）来模拟时空域的分布，而Rudolph等人。[56]采用归一化流来表示正态分布。基于距离的方法基于以下假设来学习距离函数：正常事件发生在所学习的特征空间的附近，而异常事件远离正常数据。例如，Ramachandraet al. [51]使用了一个Siamese网络来学习距离函数。基于重构的方法依赖于这样的假设，即正常的例子可以更忠实地从隐流形重构。我们的新块属于基于重建的异常检测方法的类别，特别是与方法，··13578预测或重建缺失（或掩蔽）信息的ODS [17，36，37]。基于重建的方法。在过去的几年中，基于重构的方法在异常检测中变得流行这些方法通常使用自动编码器[21]和生成对抗网络（GAN）[37]，因为这些神经模型仅使用正常数据来学习强大的反射流形。然而，神经网络的泛化能力有时会导致重建具有低误差的异常帧[12，18]，影响异常帧和正常帧之间的区分为了解决这个问题，研究人员试图通过多样化的架构和训练方法来改善潜在流形。一些专注于转换架构的工作包括基于存储器的自动编码器[12，39，49]，其存储训练数据中的正常原型类型，从而增加正常和异常样本之间的其他工作通过用伪异常样本训练模型来重新建模重建流形[4，18，79]。[17]中提出的逆向训练对域外伪异常样本应用梯度上升Zavrtanik et al. [79]通过在正常图像上添加随机噪声块来创建伪异常样本，用于图像异常检测。在[39，83]中已经提出了自动编码器的一些变体，例如变分自动编码器（VAE），用于异常检测任务。这些工作是基于VAE只能重建正常图像的假设。Liu等[39]使用条件VAE，将图像预测调节为光流重建，从而将来自光流重建任务的误差与图像预测累加。然而，由于光流形式的运动信息的存在，这种方法只能应用于视频异常检测被屏蔽信息的重建。许多异常检测方法的替代任务[15，22，37，42，77]是从输入中删除一些信息，同时使神经网络预测删除的信息。Hasel- mann等[22]作为修补问题的帧异常检测，其中来自图像的块被随机地掩蔽Fei等人[15]提出了属性恢复网络（ARNet），它包括一个属性擦除模块（AEM），通过从图像中擦除某些属性（如颜色和方向）来扰乱反过来，ARNet学习恢复原始图像，并根据正常图像可以正确恢复的假设检测异常。完形填空任务[42]是关于学习在删除某些帧时完成视频，最近由Yu等人采用。[77]这是一个异常检测。在一个类似的方向-Tion，Georgescuet al. [17]提出了中间帧掩蔽作为视频异常检测的辅助任务之一。这两种方法都是基于这样的假设，即擦除帧可以更准确地重建规则的运动。未来帧预测[34]利用过去的帧来预测视频中的下一帧。在这种情况下，通过预测误差来检测异常。另一种基于GAN的方法[59]学习从图像中擦除补丁，而GAN识别补丁是正常还是不规则。与现有的方法不同，我们是第一个引入基于重建的功能作为神经架构的基本构建块。更具体地说，我们设计了一个新的块的基础上掩蔽卷积和通道at-tension重建卷积感受野的掩蔽部分。如实验所示，我们的块可以集成到众多现有的异常检测框架中[18，34，37，39，49，79]，几乎总是带来显着的性能改进。3. 方法卷积神经网络（CNN）[30，31]广泛用于广泛的计算机视觉任务，在异常检测中也很流行[18，20，34，39，49]。CNN由配备有内核的卷积层形成，内核学习激活区分性局部模式，以解决所需任务。由卷积层提取的局部特征由后续卷积层组合成更复杂的特征。从这个学习过程中，出现了一个层次结构的特征到高级特征（汽车车轮、鸟头等）[80]。虽然这种特征层次结构非常强大，但CNN缺乏理解这种局部特征的全局排列的能力，正如Sabour等人所指出的那样。[60]第一章。在本文中，我们介绍了一种新的自监督预测卷积注意块（SSPCAB），其目的是学习使用上下文信息预测（或重建）掩蔽信息。为了实现高度准确的重建结果，我们的块被迫学习所发现的局部模式的全局结构。因此，它解决了[60]中指出的问题，即CNN没有掌握局部特征的全局排列，因为它们没有推广到新的观点或仿射变换。为了实现这种行为，我们将我们的块设计为具有扩张掩码滤波器的卷积层，然后是信道注意模块。该块配备有其自己的损失函数，其目的是最小化掩蔽输入和预测输出之间的重构误差。我们强调，我们的设计是通用的，因为SSPCAB可以集成到几乎任何CNN架构中，能够学习重建掩蔽的信息，同时提供-13579∈{∈∈∈Cc×cRK1DDK2DMDK3K4图2.我们的掩蔽卷积核。感受野的可见区域由区域Ki，i1，2，3，4表示，而掩蔽区域由M表示。膨胀因子d控制关于M的可见信息的局部或全局性质。最好用彩色观看。为后续神经层提取有用的特征。虽然学习和使用全局结构的能力可能使SSPCAB适用于广泛的任务，但我们认为我们的块在异常检测中具有自然和直接的适用性，如下所述当集成到在正常训练数据上训练的CNN中时，SSPCAB将仅学习正常示例的全局结构。当在推理时呈现异常数据样本时，我们的块可能会提供较差的重建。因此，我们可以测量重建的质量，并将结果作为区分正常和异常样本的一种方式。在第4节中，我们提供了经验证据来支持我们的主张。SSPCAB由整流线性单元（ReLU）[46]激活的掩蔽卷积层组成，然后是挤压和激励（SE）模块[24]。接下来，我们将更详细地介绍其组件。掩蔽卷积。我们的卷积滤波器的感受野如图2所示。我们的掩蔽卷积的可学习参数位于感受野的角落，由子核表示Ki∈Rk'×k'×c，n∈{1，2，3，4}，其中k'∈N+是a内尔所得值表示位于与M相同位置处的预测。自然地，利用一个滤波器应用卷积产生单个激活图。因此，我们将仅能够在当前位置处从掩码向量M为了预测M中每个通道的值，我们引入了许多c个掩码卷积滤波器，每个滤波器预测来自不同通道的掩码信息。由于我们的目标是学习和预测输入的每个空间位置的重建，我们在输入周围添加了k′+d个像素的零填充，并将步幅设置为1，这样输入中的每个像素都用作掩码信息。因此，输出张量Z的空间维度与输入张量X的空间维度相同。最后，输出张量通过ReLU激活。我们强调，我们自定义卷积层的唯一可配置超参数是k′和d。频道注意模块。接下来，掩蔽卷积的输出由信道注意力模块处理，信道注意力模块计算每个信道的注意力分数。我们知道Z中的每个激活图都是在存在掩蔽信息的情况下由单独的滤波器预测的，因此我们推断掩蔽卷积可能最终产生包含跨通道的不成比例（未校准）值的激活图因此，我们的目标是利用通道之间的关系，目标是根据掩码卷积层产生的表示的质量来缩放Z中的每个通道为此，我们采用了胡等人提出的通道注意力模块。[24]第10段。SE模块[24]提供了一种机制，可对通道特征响应进行自适应重新校准。通过这种机制，它可以学习使用全局信息来根据需要选择性地强调或使用注意力的另一个动机是增加SSP-CAB的建模能力，并在我们的块的输入和输出之间实现非线性处理。形式上，通道注意力块将Z简化为向量，torz∈Rc通过对每个超参数定义子核大小，c是输入通道的数量。每个内核Ki位于a距离（膨胀率）dN+从我们的感受野中心的掩蔽区，这是由MR1×1×c表示。因此，我们的接收场的空间大小k可以计算如下：k=2k′+2d+1。频道随后，比例因子sRc的向量计算如下：s=σ（W2·δ（W1·z）），（1）其中σ是S形激活，δ是ReLU激活，设X∈Rh×w×c是我们的掩码的输入张量，W1∈Rr×c和W2∈Rr表示权卷积层，其中c是通道的数量，h和w分别是高度和宽度。在输入X的某个位置中利用我们的定制内核执行的卷积运算仅考虑来自子内核Ki所在位置的输入值，忽略其他信息。的结果矩阵的两个连续的全连接（FC）层，re-crossing。第一个FC层由c个神经元组成，通过r的减少比率挤压信息。接下来，在空间维度中复制向量s生成一个和Z大小相同的张量S。我们的最后一步是S和Z之间的元素乘法，produc-每个Ki和相应输入之间的卷积运算被求和为单个数，就好像将最终的张量X映射为特征映射。∈Rh×w ×c含有重校准的子核Ki属于单个卷积核-重构损失。我们增加一个自我监督的任务-13580L联系我们L∈对于应用掩蔽滤波器的每个位置，在卷积感受野内重建掩蔽区域。为此，我们的块应该学会提供相应的重建作为输出X。设G表示SSPCAB函数。我们将自监督重建损失定义为输入和输出之间的均方误差（MSE），如下所示：对于定位（分割）任务，TPR是被正确分类的异常像素的百分比，而FPR是被错误地分类为异常的正常像素的百分比。为了确定每种方法的分割阈值，我们遵循[5]中描述的方法。视频异常检测。我们根据曲线下面积（AUC）来评估异常事件检测方法，该曲线下面积通过将帧标记为异常来计算，如果LSSPCAB （G，X）=（G（X）−X）2=.X-X2.（二）帧内的至少一个像素是异常的。[18]后当将SSPCAB集成到具有其自己的损失函数F的神经模型F中时，我们的损失可以简单地添加到相应的损失中，从而产生包括两项的新损失函数：Ltotal=LF+λ·LSSPCAB，（3）其中λ R+是一个超参数，它控制了我们的损失对F. 我们采用这种亲-当将SSPCAB整合到各种神经元中时，在我们的实验过程中。4. 实验和结果4.1. 数据集MVTec AD. MVTec AD [5]数据集是评估工业检测图像异常检测方法的标准基准。它包含来自10个对象类别和5个纹理类别的图像，总共有15个类别。有3629个无缺陷训练图像和1725个有或无异常的测试图像。大道CHUK Avenue [40]数据集是视频异常检测的流行基准。它包含16个培训视频和21个测试视频。这些异常仅在推理时出现，包括人们扔纸、跑步、跳舞、闲逛和走错方向。上海科技ShanghaiTech [43]基准测试是视频异常检测的最大数据集之一。它由330个培训视频和107个测试视频组成。对于Avenue，训练视频仅包含正常样本，但测试视频可以包含正常和异常事件。异常的一些示例是：在行人专用区打架、偷窃、追逐、跳跃、骑自行车或滑冰的人。4.2. 评估指标图像异常检测。在MVTec AD上，我们根据平均精确度（AP）和受试者工作特征曲线下面积（AUROC）评估方法。ROC曲线通过绘制真阳性率（TPR）与假阳性率（FPR）来获得我们考虑本地化和检测性能率。对于检测任务，TPR和FPR值是在图像级别计算的，即。TPR是被正确分类的异常图像的百分比，而FPR是被错误分类为异常的正常图像的百分比。我们报告宏观和微观AUC分数。米-cro AUC是在连接来自整个测试集的所有帧之后计算的，而宏AUC是各个视频的AUC分数的平均值帧级AUC可能是一种不可靠的评估措施，因为它可能无法评估异常的定位[50]。因此，我们也评估模型的区域为基础的检测标准（RBDC）和基于轨迹的检测标准（TBDC），提出了Ramachandra等人。[50 ]第50段。RBDC考虑每个检测到的区域，如果与地面实况区域的交集大于阈值α，则将检测到的区域标记为真阳性。TBDC测量异常区域是否在时间上被准确跟踪。如果轨迹中的检测次数大于阈值β，则其将检测到的轨迹视为真阳性。在[18，50]之后，我们设置α=0。1且β= 0。1.一、4.3. 实施选择和调优对于选择作为SSPCAB底层模型的方法[18，34，37，39，49，79]，我们使用来自相应作者提供的存储库的官方代码，继承超参数，例如。每种方法的epoch数和学习率。除非另有说明，否则我们在所有底层模型中将倒数第二个卷积层替换为SSPCAB。在Avenue上使用基本自动编码器的一组初步试验中，我们调整了来自Eq.表示SSPCAB重构误差的权重，考虑0. 1和1，在步骤0的情况。1.一、基于这些初步试验，我们决定使用λ=0。1在所有模型和数据集上。然而，我们观察到λ =0。1给出了高于必要的幅度我们对刘等人的框架的损失。[39 ]第39段。因此，对于Liuet al. [39]，我们将λ降为0。01.4.4. 初步结果我们在Avenue上进行了初步的实验，以确定我们的掩蔽卷积的超参数，即。核大小k′和膨胀率d。我们考虑k′的值为1、2、3，d的值为0、1、2。此外，我们考虑了两种替代损失函数，即平均绝对误差（MAE）和均方误差（MSE），以及在掩蔽卷积之后添加的几种类型的注意力，即通道注意力（CA），空间注意力（ MSE ），空间注意力（ CA ）和空间注意力（MSE）。13581图3. MVTec AD上DRAEM [79]（蓝色）与DRAEM+SSPCAB（绿色）的异常定位示例。地面实况异常点用红色的遮罩标记最好用彩色观看表1. 微AUC、宏AUC、RBDC和TBDC评分（以%），在不同超参数配置的Avenue数据集上得到，即核大小（k′）、膨胀率（d）、减少率（r）、损失类型和注意类型。结果通过将SSPCAB引入到遵循由Georgescu等人设计的基本架构的普通自动编码器中来获得。[18 ]第10段。最佳结果以粗体突出显示。注意力（SA）和两者（CA+SA）。对于初步实验，我们将[18]中的外观卷积自动编码器作为我们的基线，剥离出其他组件，如光流，跳过连接，对抗训练，掩码重建和二进制分类器。我们的目标是测试各种SSPCAB配置上的基本架构，而不是试图过拟合的配置，以一个特定的框架，如Georgescu等人。[18 ]第10段。为此，我们决定移除上述组件，因此在初步实验中仅使用普通自动编码器。初步结果见表1。在基本架构之上添加基于MAE损失的掩蔽卷积层后，我们观察到显着的性能提升，特别是对于k′=1和d=1。当我们用MSE代替MAE损失函数时，性能进一步提高。我们对k′和d的不同组合进行了广泛的实验，在k′=1和d=1的情况下获得了更好的结果。因此，我们决定在所有后续实验中将损失固定为MSE，子核大小k′固定为1，膨胀率d固定为1。接下来，我们在掩码卷积之后引入了各种注意力模块。在所考虑的注意力模块中，我们观察到信道注意力是更好地补充我们的掩蔽卷积层的模块，为三个指标提供最高的性能增益：五、9%，微AUC，2. 2%的宏观AUC，和4. 6%的TBDC。因此，我们选择了信道注意模块进行剩余的实验。在选择使用通道注意力时，我们测试了额外的减少率（r=4和r=16 ），没有观察到任何改善。因此，当我们将SSPCAB集成到神经模型中时，我们将SE模块的减少率保持为r=84.5. 图像异常检测基线。我们选择了两个最新的图像异常检测模型，即。[34]和DRAEM[79]。Li等[34]提出了CutPaste，一种简单的数据增强技术，从图像中剪切一个补丁并将其粘贴到随机位置。CutPaste架构建立在GradCAM之上[64]。该模型基于自监督的 3 向分类任务，学习将样本分类为正常，CutPaste和CutPaste-Scar，其中疤痕是随机颜色的细长标记。 Li et al. [34]还使用了五个3路CutPaste模型的集合，这些模型使用不同的随机种子进行训练以改善结果。Zavrtanik等人[79]介绍了DRAEM，一种基于双自动编码器的方法，我们将SSPCAB引入定位和检测网络。结果我们在表2中呈现了关于MVTec AD的结果。考虑到检测结果，我们观察到SSPCAB为CutPaste [34]和DRAEM [79]的大多数类别此外，在检测AUROC方面的整体性能增益接近1%，无论基础模型如何。鉴于基线已经非常好，我们认为SSPCAB带来的改进值得注意。考虑到定位结果，SSP-CAB似乎无法改善DRAEM的总体AUROC评分[79]。然而，更具挑战性的AP指标讲述了不同的故事。的确，SSPCAB将DRAEM [ 79 ]的整体AP增加了1. 5%，从68。4%至69。9%。在图3中，我们举例说明了一些异常定位，SSPCAB对DRAEM [79]的异常定位等值线引入显著变化的样本，显示与地面实况异常的较高重叠。我们相信这些改善是直接的效果方法损失类型D k′ R注意类型AUCRBDC TBDC微宏观普通自动编码器-----80.083.449.9851.6901--83.384.147.4652.11Mae11--83.984.649.0552.2121--83.284.348.5652.0301--83.684.247.8652.21MSE 11--84.284.949.2252.2921--83.684.348.4451.9802--83.784.047.4153.02MSE 12--84.085.148.2251.8422--82.783.146.9450.2203--82.683.748.2851.91MSE 13--82.984.748.1352.0723--83.183.847.1349.96118CA85.985.653.8156.33MSE 11-SA84.384.453.3153.41118CA+SA85.785.653.9854.11MSE 114CA85.685.353.8355.991116CA84.484.953.2854.3713582类定位检测[79]第十九话[79]第十九话剪切粘贴[34]+SSPCAB+SSPCAB+SSPCAB+SSPCAB+SSPCABAUROCAUROCAPAPAUROCAUROCAUROCAUROCAUROCAUROC纹理地毯95.595.053.559.497.098.293.190.793.996.8网格99.799.565.761.199.9100.099.999.9100.099.9皮革98.699.575.376.0100.0100.0100.0100.0100.0100.0瓷砖99.299.392.395.099.6100.093.494.094.695.0木材96.496.877.777.199.199.598.699.299.199.1对象瓶99.198.886.587.999.298.498.398.698.299.1电缆94.796.052.457.291.896.980.682.981.283.6胶囊94.393.149.450.298.599.396.298.198.297.6榛子99.799.892.992.6100.0100.097.398.398.398.4金属螺母99.598.996.398.198.7100.099.399.699.999.9丹97.697.548.552.498.999.892.495.394.996.6螺钉97.699.858.272.093.997.986.390.888.790.8牙刷98.198.144.751.0100.0100.098.398.899.499.6晶体管90.987.050.748.093.192.995.596.596.197.3拉链98.899.081.577.1100.0100.099.499.199.999.9整体97.397.268.469.998.098.995.296.196.196.9表2.在添加SSPCAB之前和之后，MVTec AD上最先进方法的定位AUROC/AP和检测AUROC（%）。每一个前与后对的最佳结果以粗体突出显示。图 4. Liu 等人 [37]之前（基线）和之后（我们的）集成SSPCAB，用于测试视频大道18号异常定位结果与基于SSPCAB的模型一致。最好用彩色观看。由我们的新模块产生的重建误差。我们在补充中提供了更多的异常检测示例。4.6. 视频异常事件检测基线。我们选择了四种最近引入的方法[18，37，39，49]，这些方法在视频异常检测中达到了最先进的性能水平，作为集成SSPCAB的候选方法。我们首先使用相应作者提供的可扩展实现重现结果[18，37，39，49]。我们不做任何修改-阳离子到所选基线的超参数。尽管使用了来自官方仓库的未修改的代码，我们还是不能准确地再现Liu等人的结果。[39] Parket al.[49]但我们的数字非常接近。当我们将SSPCAB添加到再现模型中时，我们认为再现结果作为参考。我们强调，对于Georgescuet al. [18]，我们将SSPCAB集成到自动编码器中，而不是二进制分类器中。我们尽可能报告RBDC和TBDC结果，使用Georgescu等人提供的实现计算分数。[18 ]第10段。结果我们在表3中报告了Avenue和Shanghai Tech的结果。首先，我们观察到，列入SSPCAB的框架刘等。[37]在两个基准测试的所有指标同样，我们观察到一致的性能增益时，将SSPCAB到模型的公园等。[49]。我们注意到，Park等人的方法。[49]不产生异常局部化结果，这使我们无法计算其方法的RBDC和TBDC分数。SSPCAB也为Liu等人带来了持续的改进。[39]，唯一的例外是大道上的宏AUC。对于这个基线[39]，我们观察到21的显著增加。22%的RBDC得分在大道。最后，我们注意到，SSPCAB也提高了性能的方法提出的Georgescu等人。[18]对于几乎所有指标，Avenue上的TBDC和上海科技上的RBDC都是例外。总之，我们得出的结论是，集成SSPCAB是有益的，无论底层模型。此外，由于SSPCAB的集成，我们能够13583会场方法大道上海科技AUCRBDC TBDCAUCRBDC TBDC微宏观微宏观BMVC 2018Liu等[38个]84.4-------CVPR 2018Sultani等人[第六十六话]-----76.5--ICASSP 2018Lee等[32个]----87.276.2WACV2019Ionescu等人[27日]88.9-------ICCV 2019Nguyen等人[47个]86.9-------CVPR 2019Ionescu等人[25日]87.490.415.7727.0178.784.920.6544.54------TNNLS 2019Wu等[73个国家]86.6TIP 2019Lee等[33个]90.0------ACMMM 2020 Yu等人[77个国家]89.6---74.8---WACV2020Ramachandra等人[50个]72.035.8080.90----WACV2020Ramachandra等人[五十一]87.241.2078.60----85.1--PRL 2020Tang等人[第六十九话]--73.0访问2020Dong等人[12个]84.9--73.7--CVPRW 2020Doshi等人[13个国家]86.4--71.6--ACMMM 2020 Sun等人[67个]89.6--74.7--ACMMM 2020 Wang等人[72个]87.0--79.3--ICCVW 2021Astrid等人[4]美国84.7---73.7---BMVC 2021Astrid等人[3]第一章87.1---75.9---CVPR 2021Georgescu等人[17个]91.592.857.0058.3082.490.242.8083.90CVPR 2018Liu等[37]第三十七届85.181.719.5956.0172.880.617.0354.23CVPR 2022Liu等[37] + SSPCAB87.384.520.1362.3074.582.918.5160.22CVPR 2020Park等人[49个]82.886.8--68.379.7--CVPR 2022Park等人[49] + SSPCAB84.888.6--69.880.2--ICCV 2021Liu等[39]第三十九届89.993.541.0586.1874.283.244.4183.86CVPR 2022Liu等[39] + SSPCAB90.992.262.2789.2875.583.745.4584.50TPAMI 2021Georgescu等人[18个国家]92.390.465.0566.8582.789.341.3478.79CVPR 2022Georgescu等人[18] + SSPCAB92.991.965.9964.9183.689.540.5583.46表3.Avenue和ShanghaiTech各种最先进方法的微平均帧级AUC、宏平均帧级AUC、RBDC和TBDC评分（%）在现有模型中，我们选择了四个模型[18，37，39，49]来显示包括SSPCAB之前和之后的结果每一个前与后对的最佳结果以粗体突出显示每个指标的最高分数以红色显示报告大道和上海科技的新的最先进的结果，为几个指标。在图4中，我们比较了在将SSPCAB集成到Liu等人的方法之前和之后，来自Avenue的测试视频18上的帧级异常分数。[37 ]第37段。在这个视频中，SSPCAB使AUC增加了5%以上。我们观察到，基于SSPCAB的方法可以精确地定位和检测异常事件（人走错方向）。我们在补充中提供了更多的异常检测示例。5. 结论本文介绍了一种新型的神经网络--SSPCAB。由掩蔽卷积层组成的ral块，通道注意模块，其预测卷积感受场中的掩蔽区域。我们的神经块是以自我监督的方式训练的，通过自己的反射损失。为了显示使用SSP-CAB在异常检测中的好处，我们将我们的块集成到一系列图像和视频异常检测方法中[18、34、37、39、49、79]。我们的实证结果表明，SSPCAB带来的性能改善几乎在所有情况下。初步结果表明，掩蔽卷积和信道注意力都对性能增益有贡献。此外，在SSPCAB的帮助下，我们能够在Avenue和ShanghaiTech上获得新的最先进水平我们认为这是一项重大成就。在未来的工作中，我们的目标是扩展SSPCAB取代掩蔽卷积与掩蔽的3D卷积。此外，我们的目标是考虑其他应用领域，除了异常检测。致谢导致这些结果的研究已经获得了2014-2021年EEA赠款的资助，项目合同编号为。 EEA-RO-NO-2018-0496。这项工作也得到了AAU，SecurifAI和罗马尼亚青年学院的里程碑研究计划的资助，该计划由墨卡托基金会和亚历山大·冯·德波特基金会资助，为期2020-2022年。13584引用[1] Amit Adam，Ehud Rivlin，Ilan Shimshoni，and DavivReinitz.鲁棒的实时异常事件检测使用多个固定位置的递归。 IEEE Transactions on Pattern Analysis andMachine Intelligence，30（3）：555-560，2008. 一、二[2] Borislav Antic和Bjorn Ommer。用于异常检测的视频解析。在ICCV会议记录中，第2415一、二[3] Marcella Astrid ， Muhammad Zaigham Zaheer ， Jae-Yeong Lee，and Seung-Ik Lee.学会不去重构畸形的谎言。在BMVC的诉讼，2021。8[4] 玛塞拉·阿斯特丽德，穆罕默德·扎伊坎·扎希尔，还有李承益.合成时间异常引导的端到端视频异常检测。在ICCVW会议记录中，第207-214页三、八[5] Paul Bergmann，Michael Fauser，David Sattlegger，andCarsten Steger.MVTec AD-用于无监督异常检测的在CVPR程序中，第9592-9600页，2019年。一、二、五[6] Paul Bergmann，Michael Fauser，David Sattlegger，andCarsten Steger.不知情的学生：学生-教师异常检测与歧视性潜在嵌入。在CVPR的诉讼，第4183-4192页，2020年。一、二[7] 迭戈·卡雷拉，法比奥·曼加尼尼，贾科莫·博拉基，还有埃托雷·兰扎隆.纳米纤维材料SEM图像中的缺陷检测IEEE Transactions on Industrial Informatics，13（2）：551-561，2017。一、二[8] 程凯文，陈益堂，方文贤。基于分层特征表示和高斯过程回归的视频异常检测与定位。在CVPR的会议记录中，第2909-2917页，2015年。一、二[9] Y. Cong，J. Yuan，and J.刘某用于异常事件检测的稀疏重建成本。在CVPR的Proceedings，第3449-3456页，2011年。一、二[10] Thomas Defard、Aleksandr Setkov、Angelique Loesch和Romaric Audigier。PaDiM：用于异常检测和定位的补丁分布建模框架。在ICPR的Pro-ceedings，第475-489页，2021年。一、二[11] Allison Del Giorno，J.安德鲁·巴格内尔和马夏尔·赫伯特。一种用于大视频中异常检测的判别框架。在ECCV会议记录中，第334-349页，2016年。一、二[12] 费东，张宇，聂秀山。用于视频异常检测的双鉴别器生成对抗网络。IEEE Access，8：88170-88176，2020。一、三、八[13] Keval Doshi和Yasin Yilmaz。监控视频中的任意镜头序列异常检测。在CV

下载后可阅读完整内容，剩余1页未读，立即下载