无监督记忆增强深度自编码器用于异常检测

172 浏览量更新于2023-10-13 收藏 758KB PDF 举报

无监督异常检测

泛化能力

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1705记忆常态以检测异常：用于无监督异常检测的记忆增强深度自编码器Dong Gong1，Lingqiao Liu1，Vuong Le2，Budhaditya Saha2，Moussa Reda Mansour3，Svetha Venkatesh2，Anton van denHengel11阿德莱德大学2A2I2迪肯大学3西澳大学https://donggong1.github.io/anomdec-memae摘要深度自动编码器已广泛用于异常检测。在正常数据的训练，autoencoder预计将产生更高的重建错误的异常输入比正常的，这是作为一个标准，用于识别异常。然而，这种假设在实践中并不总是成立的.已经观察到，有时自动编码器正常输入编码异常输入编码内存插槽中的原型正常模式寻址存储器异常点？重要的侦察。异常样本误差小侦察。正态样本误差导致对异常现象的检测失误敬米提-针对基于自动编码器的异常检测器的这一缺点，我们提出用存储器模块来增强自动编码器，并开发称为存储器增强的自动编码器的改进的自动编码器，即，MemAE。给定输入，MemAE首先从编码器获得编码，然后将其用作查询以检索用于重建的最相关的存储器项。在训练阶段，记忆内容被更新，并被鼓励代表正常数据的原型元素在测试阶段，学习记忆将被固定，并且从正常数据的几个选定的记忆记录中获得重构。因此，重建将趋向于接近正常样本。从而加强了异常点上的重构误差，以利于异常点的检测。MemAE不需要对数据类型进行假设，因此一般适用于不同的任务。在不同数据集上的实验证明了该算法的良好泛化能力和高效性。1. 介绍异常检测是一项重要任务，在视频监控等各个领域都有重要应用[26]。无监督异常检测[47，43，48，32，7]是学习仅给定正常数据示例的正常曲线，然后将不符合正常曲线的样本识别为异常，这是具有挑战性的，因为图1.通过拟定MemAE进行异常检测。在仅使用正常样本对数据集进行训练后，MemAE中的内存记录了原型正常模式。给定异常输入，MemAE检索存储器中最相关的正常为了简化可视化，我们假设这里只处理一个内存项。缺乏人的监督。值得注意的是，当数据点位于高维空间（即视频）时，问题变得更加困难，因为对高维数据进行建模是非常具有挑战性的[47]。深度自动编码器（AE）[2，18]是在无监督集合中对高维数据建模的强大工具。它包括一个编码器，以获得一个压缩的编码从输入和解码器，可以重建的数据从编码。编码本质上是一个信息瓶颈，迫使网络提取高维数据的典型模式在异常检测的背景下，AE通常通过最小化正常数据上的重建误差来训练，然后使用重建误差作为异常的指示符。通常假设[48，11，45]，正常输入的重建误差将较低，因为它们接近训练数据，而异常输入的重建误差变得较高。然而，这种假设可能并不总是成立，有时AE可以“概括”得如此之好，以至于它也可以很好地重建异常输入。此观察结果异常输入异常输入侦察的异常正常侦察的输入法线正常输入重建误差编码器解码器1706在现有文献[48，图1]和本文中（见图4和6）。异常引起更高的重建误差的假设可能是有问题的，因为不存在异常的训练样本，并且异常输入的重建行为应该是不可预测的。如果一些异常与正常训练数据共享共同的组成模式（例如，图像中的局部边缘），或者解码器对于解码一些异常编码“太强”，则AE很可能很为了减轻AE的缺点，我们提出了一个内存模块，并引入一个新的模型内存增强的自动编码器，即MemAE。给定一个输入，MemAE不会直接将其编码输入解码器，而是将其用作查询来检索内存中最相关的项。然后，这些项被聚合并被递送到解码器。具体地，上述过程通过使用基于注意力的分类寻址来实现我们进一步建议使用可微的硬收缩算子来诱导存储器寻址权重的稀疏性，这隐含地鼓励分类项在特征空间中接近查询。在MemAE的训练阶段，我们与编码器和解码器一起更新由于稀疏寻址策略，鼓励MemAE模型优化和高效地使用有限数量的内存插槽，使内存记录正常训练数据中的原型正常模式，以获得较低的平均重建误差（见图3）。在测试阶段，学习记忆内容是固定的，通过选择少量的正常记忆项作为输入编码的邻域来由于rebraction c- tion是在内存中获得的正常模式，因此它往往接近正常数据。因此，如果输入与正常数据不相似，即异常，则重建误差倾向于被突出显示。示意图如图1所示。所提出的MemAE不需要对数据类型进行假设，因此可以普遍应用于解决不同的任务。我们将所提出的MemAE应用于来自不同应用的各种公共异常检测数据集大量的实验证明了MemAE的良好的推广性和高效性。2. 相关工作在无监督异常检测中，只有正常样本可用作训练数据[4]。因此，处理该问题的自然选择是单类分类方法，例如单类SVM [5，34]和深度单类网络[31，3]，其试图学习围绕正常样本的判别超平面。无监督聚类方法，如k均值方法和高斯混合模型（GMM）[47，40]，也被应用于建立一个详细的剖面的正常数据识别异常。这些方法在处理高维数据时通常会遇到性能不佳的问题。基于重建的方法的提出依赖于一个假设，即异常不能被仅在正常数据上学习的模型准确地表示不同的技术，如PCA方法[14，15]和稀疏表示[25，45]，已用于学习正常模式的表示。具体而言，稀疏表示方法[25，45]联合学习字典和正常数据的稀疏表示以检测异常。受限的特征表示限制了性能。一些最近的作品[43，46，48，6]训练深度自动编码器用于异常检测。例如，基于结构化能量的深度神经网络[43]用于对训练样本进行建模。Zong等人。 [48]提出在深度自动编码器中联合建模编码特征和重建误差虽然基于重构的方法已经取得了丰硕的成果，但它们的性能受到潜在空间表示设计不足的限制由于关键的应用场景，一系列方法被专门设计用于视频异常检测[24，44，11，21]。Kim和Grauman [15]使用概率PCA（MPPCA）的混合来对光流特征进行建模。 Mahadevan 等人。 [27] 通过混合动态纹理（MDT）对视频进行建模。Lu等人。 [25]提出了一种有效的基于稀疏编码的多字典方法。 Zhao等人[44]以联机方式更新词典。提出了基于深度学习的方法[11，26，24，32]来使用空间域和时间域中的信息Hasan等人。 [11]根据卷积AE的重建误差检测异常。Zhao等人。 [45]提出使用基于3D卷积的重建和预测。Luo等人。 [26]通过堆叠RNN迭代更新稀疏系数以检测视频中的异常Liu等人 [24]通过结合不同的技术来训练帧预测网络，包括梯度损失，光流和对抗训练。然而，这些方法缺乏一个可靠的机制，以鼓励该模型，以诱导大的重建误差的异常。记忆网络记忆增强网络已经吸引了越来越多的兴趣来解决不同的问题[10，39，33]。Graves等人。 [10]使用外部存储器来扩展神经网络的能力，其中基于内容的注意力用于寻址存储器。考虑到存储器可以稳定地记录信息，Santoro等人[33]使用记忆网络来处理一次性学习问题。外部存储器还用于多模态数据生成[16，22]，以避免模式崩溃问题并保留详细的数据结构。1707zX^^^^d^d存储器模块xfe（·）z基于注意力的硬收缩寻址^fd（·）^图2.拟定MemAE示意图。存储器寻址单元将编码z作为查询以获得软寻址权重。存储器槽可用于对整个编码或编码的一个像素上的特征建模（如图所示注意，在硬收缩操作之后，W^被归一化3. 记忆增强型自动编码器3.1. 概述所提出的MemAE模型由三个主要组件组成-编码器（用于编码输入和生成表示解码器。给定样本x∈X，编码器将其转换为z∈Z的编码表示;并且解码器被训练为将潜在表示z∈Z反向映射到域X，如下所示z=f（x;θ），（1）查询）、解码器（用于重建）和存储器模块ule（带有内存和相关的内存寻址操作符）。如图2所示，给定输入，编码器首先获得输入的编码。通过使用编码表示作为查询，存储器模块经由基于注意力的寻址运算符检索存储器中最相关的项，然后将其递送到解码器以进行重构。在训练期间，编码器和解码器被优化以最小化重构误差。同时更新存储器内容以记录编码正常数据的原型元素。给定一个测试样本，该模型执行x=f（z;θ），（2）其中θe和θd表示编码器fe（·）和解码器fd（·）的参数。在所提出的MemAE中，z用于检索相关的存储项;并且Z是0 b-使用检索到的项目。对于标准AE模型，存在z=z。我们的方法是不可知的编码器和解码器的结构，这可以专门选择用于不同的应用程序。在测试中，给定样本x，我们使用基于均方误差（MSE），即 e = x− x2，以测量仅使用有限数量的nor-^2记忆中记录的模式因此，重建往往接近正常样本，导致正常样本的重建误差较小，异常样本的重建误差较大，这将被用作检测异常的标准。3.2. 编码器和解码器编码器用于表示在一个informa- tive潜在域的输入编码表示作为查询执行以检索存储器中的相关项。在我们的模型中，编码器可以被看作是一个查询生成器。解码器被训练为通过将检索到的存储器作为输入来重构样本。我们首先定义X表示数据样本的域，Z表示编码的域。设fe（·）：X-Z表示编码器，并且fd（·）：Z-X表示编码器。重建质量，其被用作异常检测3.3. 具有基于注意的稀疏寻址的存储器模块所提出的记忆模块包括一个存储器来记录原型编码模式和一个基于注意的寻址操作访问的内存。3.3.1基于记忆的表征该存储器被设计成一个矩阵M ∈RN×C，它包含N个固定维数C的实值向量。为了方便起见，我们假定C与z的维数相同，令Z=RC.设行向量mi，n∈[N]表示M的第i行，其中[N]表示从1到N的整数集合.每个mi表示一个存储器项。给定查询（即，WW^存储器M输入存储器寻址Rec.…编码器解码器1708^^^^Σ^^^t=1^^ ^您的位置：i=1我^我^^^2编码）z∈RC，存储器网络根据如下软寻址向量w∈R1×N获得zz=wM=ΣN（3）3.3.3稀疏寻址的硬收缩如上所述，利用存储器中有限数量的法线模式执行重建有助于从而在异常上引起大的重建误差。的其中w是具有总和为1的非负条目的行向量，并且表示w的第i个条目。根据z计算权重向量w。如等式1所示。(3)，访问存储器需要寻址权重w超参数N定义了记忆虽然找到最优的N对于不同的数据集，MemAE对设置不敏感基于注意力的寻址倾向于自然地接近这一点[10]。然而，一些异常可能仍然有机会通过包含许多小元素的密集w用存储器项的复杂组合很好地重建为了缓解这个问题，我们应用硬收缩操作来提升w的稀疏性：. 如果wi> λ，幸运的是，N（见第4.2节）。一个足够大的N可以对每个数据集都很好。wi=h（wi;λ）=0，否则，（六）其中wi表示存储器寻址的第i个条目3.3.2内存寻址在MemAE中，记忆M被设计为在训练期间明确地记录原型正常模式。我们将存储器定义为具有寻址方案的内容可寻址存储器[39，30]，该寻址方案基于存储器项和查询的相似性来计算注意力权重w收缩后的权重向量w，λ表示收缩阈值。直接实现方程中的间断函数的向后是不容易的（六）、为了简单起见，考虑到w中的所有条目都是非负的，我们使用连续的ReLU激活函数重写硬收缩操作为z.如图1所示，我们计算每个权重wisoftmax操作：经由wi=max（wi−λ，0）·wi|+|+ ǫ、（7）exp（d（z，mi））w=、（四）其中，max（·，0）也被称为ReLU动作，并且INj=1 exp（d（z，mj））一个非常小的正标量。在实践中，设置阈值，其中d（·，·）表示相似的测量。类似于[33]，我们定义d（·，·）为余弦相似度：zmT作为区间[1/N，3/N]中的值的旧λ可以呈现去可预期的结果。在收缩之后，我们通过令w i=w i/wi =1，i来重新归一化w。潜在表示z将通过z=wM得到。d（z，mi）=i.（5）^^伊兹密尔如等式1所示。(3)、（4）和（5）中，存储器模块检索与z最相似的存储器项以获得表示z。由于有限的内存大小和稀疏寻址技术（在第3.3.3节中介绍），只有少量的内存项可以被寻址。每一次。因此，可以如下解释所述存储模块的有益行为在训练阶段，MemAE中的解码器被限制为仅使用非常少的被寻址的存储器项来执行重建，从而提出了对存储器项的有效利用的要求。因此，记忆监督迫使记忆记录输入正常模式中最具代表性的原型模式稀疏寻址鼓励模型使用更少但更相关的存储器项来表示示例，从而在存储器中学习更多信息表示。此外，类似于稀疏表示方法[44]，鼓励寻址权重的稀疏性在测试中是有益的，因为存储器M被训练为适应稀疏w。鼓励w中的稀疏性还将缓解异常样本可以利用密集寻址权重被相当好地重构的问题。与稀疏表示方法[44，26]相比，所提出的方法通过一次有效的前向操作而不是迭代更新来获得期望的稀疏w3.4. 培训燕鸥在图3中，我们可视化了经过训练的单个记忆给定数据集{xt}T包含T个样本，令xt去-插槽，这表明每个单个内存插槽记录训练数据中的原型正常模式。在测试阶段，给定训练过的记忆，只有记忆中的正常模式可以被检索用于重构。因此，正常样品可以自然地被很好地重构。相反，异常输入的编码将被检索到的正常模式所取代，导致异常上的显著重建错误（见图4中的可视化示例）。注意对应于每个训练的重构样本样品xt.我们首先对每个样品进行最小化重建误差：R（xt，xt）=<$xt−xt<$2，（8）其中，使用N2令wt表示每个样本xt的存储器寻址权1709重。为了进一步促进w的稀疏性，除了等式（1）中的收缩操作之外，(7)，我们最小化1710^^^^^ii=1eD不t=1^在训练期间w上的稀疏正则化器考虑到w的所有条目都是非负的，并且n=1，而不是最小化W1[8，9]，我们最小化Wt的熵：频道，分别。对于MNIST，我们使用三个卷积层来实现编码器：Conv2（3，2，32）- Conv2（3，2，16）-Conv2（3，3，8）。解码器简单-E^（wt）=ΣT（九）表示为Dconv 2（3，3，16）-Dconv 2（3，2，32）-Dconv 2（3，2，1），其中Dconv 2表示2D去卷积层。前-− w·log（w）。我等式中的硬收缩操作(7)和熵损失Eq. (9)共同促进所生成的寻址权重的稀疏性。更详细的消融研究和讨论见第4.4节。通过在等式中组合损失函数(8)和（9），我们将MemAE的训练目标构造为：L（θ，θ，M）=1ΣT . R（xt，x^t）+αE（w^t），（10）除了最后一个Dconv2之外，每一层后面都有一个批量归一化（BN）[13]和一个泄漏的ReLU激活。这种设计应用于以下所有数据集考虑到CIFAR-10的数据复杂度较高，我们使用容量较大的编码器和解码器：Conv2（3，2，64）-Conv2（3，2，128）-Conv2（3，2，128）-Conv2（3，2，256）和Dconv 2（3，2，128）-Dconv 2（3，2，128）-Dconv 2（3，2，64）-Dconv 2（3，2，3）。我们处理MNIST和CIFAR-10个数据集分别作为灰度图像和RGB图像。MNIST和CIFAR-10的存储器大小N被设置为100其中α是训练中的超参数。实际上α=0。0002在我们所有的实验中得到了理想的结果。在训练期间，通过经由反向传播和梯度下降的优化来更新存储器M在后向传递中，仅具有非零寻址权重的存储器项的梯度可以是非零的。4. 实验在本节中，我们验证了所提出的用于异常检测的MemAE。为了证明该模型的通用性和适用性，我们对三个不同任务的五个数据集进行了实验。结果与不同的基线模型和最先进的技术相一致。拟定的MemAE适用于前面章节之后的所有 MemAE 及其变体使用PyTorch [29]实现，并使用优化器Adam [17]进行训练，学习率为0.0001。我们使他们和其他编码器-解码器模型，如VAE具有类似的模型容量。4.1. 图像数据实验我们首先进行实验，以检测离群图像[32] 并在两个图像数据集上评估性能：MNIST [20]和CIFAR-10 [19]，两者都包含属于10类的图像。对于每个数据集，我们构建了10个异常检测（即一类分类）数据集，通过从每个类中采样图像作为正常样本，并从其余类中采样异常。将正常数据以2：1的比例分成训练集和测试集根据[43，48]中使用的设置，训练集仅由正常样本组成，并且与测试集没有重叠异常命题控制在30%左右。10%的原始训练数据用于验证。在这个实验中，我们专注于验证所提出的存储器模块，并将编码器和解码器实现为普通的卷积神经网络。我们首先定义Conv2（k，s，c）表示2D卷积层，其中k、s和c是内核大小、步幅大小和卷积层的数目。和500个。我们将所提出的模型与用于一般异常检测的几种常规和基于深度学习的方法具体地，对于密度估计方法（例如，KDE和PixCNN）和基于重建的方法（例如，VAE和DSEBM），对数似然和重建误差分别用于计算规律性得分。请注意，为了与其他方法进行公平比较，我们仅基于重建误差计算VAE的规则性分数。我们还与MemAE的一些基线变体进行比较，以显示主要组件的重要性，包括没有记忆模块（ AE ）的antueocoder和没有稀疏收缩和熵损失的MemAE变体（ MemAE-nonSpar ）。在所有的实验中， AE ，MemAE-nonSpar，和VAE通过使用相同的编码器和解码器与完整的MemAE模型在测试中，我们将重建误差缩放到范围[0，1]作为识别异常的标准。在[27，26，1]之后，我们使用AUC（曲线下面积）作为性能评估的测量，其通过计算具有变化阈值的受试者操作特征（ROC）表1显示了10个采样数据集的平均AUC值如表1所示，提出的MemAE一般优于比较方法。记忆增强的模型显著优于无记忆的AE模型稀疏寻址的MemAE模型产生更好的结果。MNIST中的图像仅包含简单的模式，即数字，这很容易建模。因此，VAE可以用一个简单的高斯分布来模拟潜空间，从而得到满意的结果.所有方法在MNIST上的表现都优于CIFAR-10，因为CIFAR-10中的图像具有更复杂的内容并且表现出更大的^1711表1.图像数据上的实验结果。显示了从MNIST和CIFAR-10采样的10个异常检测数据集的平均AUC值(a) （b）关于正常“2”的培训图4. MNIST上AE和MemAE重建结果的可视化（a）模型在“5”上训练输入是“9”的图像（b）在“2”上训练模型输入是“4”的图像MemAE检索用于重建的正常记忆项，并获得与输入异常显著不同的结果。几个类的类内方差，导致平均ACU不饱和。然而，在具有类似容量的比较模型中，MemAE实现了优于竞争对手的性能，这证明了所提出的存储器模块的有效性。(a) UCSD-Ped2(b) 上海科技4.1.1想象记忆是如何工作的考虑到MNIST中的图像包含易于识别的模式，我们使用它来展示所提出的模型模块是如何进行异常检测的。记忆学到了什么我们首先可视化内存从MNIST随机采样一个单一的内存插槽和执行解码。图3通过以下方式可视化了在MNIST数字“9”上学习的存储器：将其视为正常样本。由于MemAE通常通过几个广告项目的组合来执行重建，因此解码的单个时隙看起来模糊且有噪声。然而，如图3（b）所示，存储器槽记录了正常训练样本的不同原型模式（即数字(a) 训练样本（b）解码的单个存储器项图3.通过将数字“9”视为正常数据，在MNIST上学习的内存插槽的可视化我们随机选择一个单一的记忆项目，并执行解码。（b）中的解码的单个存储器槽表现为正常样本的原型模式记忆如何增强重建。在图4中，我们可视化了在概率增强下的图像重建过程。由于训练过的记忆只记录正常的原型模式，给定异常输入注意，MemAE的重建的“5”具有与输入“9”相似的形状，因为存储器模块检索最相似的正常模式。没有记忆的AE模型倾向于更局部地学习一些表示。因此，也可以很好地重建异常样本。图5.通过MemAE获得的视频帧的正态性评分当视频帧中出现一些异常时，分数立即降低。4.2. 视频异常检测视频异常检测的目的是识别视频中的异常内容和运动模式，是视频监控中一项重要任务。我们在三个真实世界的视频异常检测数据集上进行实验，即UCSD-Ped 2 [27]，CUHK Avenue [25]和ShanghaiTech[26]。具体而言，最新的基准数据集ShanghaiTech包含超过270，000个训练帧和超过42，000个用于测试的帧（约17，000个异常帧），其覆盖13个不同的场景。在数据集中，除了行人（例如车辆）和剧烈运动（例如打架和追逐）之外的对象被视为异常。为了保留视频时间信息，我们使用3D卷积来实现编码器和解码器，以提取视频中的时空特征[36]。相应地，网络的输入是通过以灰度堆叠16个相邻帧而构造的长方体。编码器和解码器的结构设计为：Conv 3（3，2，96）-Conv 3（3，2，128）-Conv 3（3，2，256）-Conv 3（3，2，256）和Dconv3（3，2，256）-Dconv3（3，2，128）-Dconv3（3，2，96）-Dconv3（3，2，1），其中Conv3和Dconv3分别表示3D卷积和去卷积。BN和泄漏的ReLU激活跟随每一层（除了最后一层）。我们设定N=2000。考虑到视频数据的复杂性，我们让每个存储槽记录特征图中一个像素上的特征，对应于视频剪辑。因此，存储器是一个2000×256的矩阵。在测试中，每个帧的正态性通过重新计算来评估。以其为中心的长方体的结构误差。在[11，26]之后，我们通过将误差归一化到范围[0，1]来获得第u帧的正态性得分p u：输入AEMemAE组件输入AEMemAE组件异常：循环正常行人异常：追逐正常行人数据集MNISTCIFAR-10OC-SVM [35]0.94990.5619KDE0.81160.5756VAE [18]0.96430.5725[38]第三十八话0.61410.5450DSEBM [43]0.95540.5725AE0.96190.5706MemAE-非Spar0.97250.6058MemAE组件0.97510.60881712表2.不同方法在视频数据集UCSD-Ped 2，CUHK Avenue和ShanghaiTech上的AUCeu−minu（ eu）（a）框架（b）AE（c）MemAE图6.AE和MemAE对异常的重建错误UCSD-Ped 2的框架MemAE可以显著地突出场景中的异常部分（在红色对于视频数据，例如光流，帧预测和对抗性损失，所提出的MemAE的性能仍然是相当的。注意，我们实验的目的不是追求某些应用的最高精度，而是为了证明所提出的AE改进的优点，即，MemAE，用于一般异常检测问题。我们的研究与[24]中的研究正交，并且可以很容易地纳入他们的系统中以进一步提高性能。另一方面，[24]pu=1 −max（eu）−minu（eu、（11））也可用于拟定的MemAE。对内存大小的鲁棒性我们使用UCSD-Ped 2来其中表示第u帧中一集录像pu的值越接近0，则表示该帧越可能是异常帧。图5示出了当视频帧中出现一些异常时，通过MemAE获得的正态性分数立即降低。由于视频数据的复杂性，许多没有特定设计的一般异常检测方法[28，18，48]不能很好地在视频上工作。为了显示所提出的存储器模块的有效性，我们将所提出的MemAE与许多设计良好的基于卷积的最先进方法进行了比较，包括具有2D [11]和3D卷积的AE方法[45]（AE-Conv 2D和AE-Conv 3D），时间相干稀疏编码方法（TST）[26]，堆叠递归神经网络（StackRNN）[26]以及许多视频异常检测基线。MemAE的变量也作为基线进行比较。表2显示了视频数据集上的AUC值。MemAE产生比TSC 和Stack-RNN [26]好得多的结果，TSC和 Stack-RNN也应用稀疏正则化。与AE和MemAE-nonSpar的比较表明，稀疏寻址存储模块具有稳定的性能。图6显示了UCSD-Ped 2中一个异常帧上的重建误差。MemAE的错误图显著突出了异常事件（即，在人行道上移动的车辆和自行车），导致低正常性评分。然而，AE很好地重建了异常，并引入了一些随机误差。所提出的MemAE获得了比其他方法更好的性能，而我们的模型解决了一个更一般的该方法仅利用重构误差，可以在对具体应用了解最少的情况下获得较好的结果。即使与使用许多非重建技术的方法[24]（即，表2中的Frame-Pred）相比，也可以使用特定的非重建技术。研究所提出的MemAE对存储器大小N的鲁棒性。我们通过使用不同的内存大小设置进行实验，并在图中显示AUC值7.给定足够大的内存大小，MemAE可以可靠地产生合理的结果。0.950.940.930.920.910.9500 1000 1500 2000 2500 3000内存大小图7.对内存大小设置的鲁棒性。显示了UCSD-Ped 2上具有不同存储器大小的MemAE运行时间我们实证研究的视频数据集UCSD-Ped 2与NVIDIA GeForce 1080 Ti显卡的计算复杂度所提出的方法所提出的MemAE平均花费0.0262秒进行一帧（即38fps）的视频异常检测，这与先前最先进的基于深度学习的方法（例如[24]使用0.04s，[26]使用0.02s和[37]使用0.05s1）相当或更快。此外，与我们的基线AE模型相比，每帧需要0.0266s，我们的记忆模块（在MemAE中）导致很少的额外计算时间（即每帧4×10−44.3. 网络安全数据实验为了进一步验证所提出的方法的通用性，我们在计算机视觉应用之外的广泛使用的网络安全数据集上进行了实验，即来自UCI存储库的KD-DCUP 99 10%数据集[23]。1比较方法的运行时间引用自[24]以供参考，它是使用比我们更快的图形卡制作的。AUC方法\数据集UCSD-Ped2中大SH.Tech非侦察MPPCA [15]0.693--MPPCA+SFA [27]0.613--MDT [27]0.829--AMDN [41]0.908--[37]第三十七话0.8220.806-MT-FRCN [12]0.922--[26]第二十六话0.9540.8490.728侦察AE-Conv2D [1]0.8500.8000.609AE-Conv3D [45]0.9120.771-TSC [26]0.9100.8060.679StackRNN [26]0.9220.8170.680AE0.9170.8100.697MemAE-非Spar0.9290.8210.688MemAE组件0.9410.8330.712u1713表3.不同方法在网络安全数据集KDDCUP上的实验结果方法\指标精度召回F1OC-SVM [35]0.74570.85230.7954DCN [42]0.76960.78290.7762DSEBM [43]0.86190.64460.7399DAGMM [48]0.92970.94420.9369AE0.93280.93560.9342MemAE-非Spar0.93410.93680.9355MemAE组件0.96270.96550.9641根据[48]中的设置，原始数据集中标记为“攻击”的样本中有80%每个样本可以被组织为具有120个维度的向量[48]。我们使用全连接层（记为FC）来实现编码器和解码器，如FC（120，60）- FC（60，30）-FC（30，10）-FC（10，3）和FC（3，10）-FC（10，30）-FC（30，60）-FC（60，120），其中FC（i，o）表示具有输入和输出大小i和o的FC层。期待最后表4.基于UCSD-Ped 2数据集的消融研究方法AUCAE0.9170AE-10.9286MemAE-非Spar0.9293MemAE，无收缩0.9324MemAE w/o熵损失0.9372MemAE组件0.9410测试中的稀疏性，这可能导致具有太多噪声的非稀疏存储器分配权重。当训练不足的模型在训练的早期产生未优化的寻址权重时，熵损失起着至关重要的作用。4.4.2与稀疏正则化AE的比较MemAE中的稀疏存储器寻址导出了引起编码器输出（激活）的稀疏性的自动编码器的风格。因此，我们进行了一个简单的实验，第一，每个FC层之后是Tanh激活。的结构与[48]中的模型具有相似的能力。我们设置N=50，因此有一个大小为50×3的内存。正如[43，48]所建议的，我们随机抽取50%的数据用于训练，其余的用于测试。只有数据sam-来自正常类的样本用于训练。我们将所提出的方法与KDDCUP数据集上的先前最先进的方法进行了比较，包括OC-SVM [35]，深度聚类网络（DCN ）[42]，DSEBM [43]，DAGMM[48]以及MemAE的基线变异。按照标准方案[48]，在20次运行后使用平均精确度、召回率和F1得分来评估方法。DAGMM和所提出的模型表现得非常好，因为更有效的数据建模。由于该方法能够明确地记忆“攻击”样本的行为模式，因此4.4. 消融研究在前面的章节中， MemAE 及其变体，即 AE 和MemAE-nonSpar之间的广泛比较已经证明了所提出的方法的主要组成部分的重要性在本节中，我们将进行几项进一步的消融研究，以详细研究其他不同的组件。4.4.1致稀组分的研究如上所述，我们使用两个分量来引起存储器寻址权重的稀疏性，即等式（1）中定义的硬阈值收缩。(6)和方程中的熵损失E（·）。（十）、我们通过实验研究了去除另一个组分后，每个组分的重要性。表4记录数据集UCSD-Ped 2上的AUC。如表4所示，去除收缩算子或熵损失将使性能退化。没有硬收缩，模型不能直接鼓励spar-将MemAE与在编码特征上具有稀疏正则化的自动编码器进行比较，这是通过在训练期间最小化潜在压缩特征（即，EZ 1）的EZ1范数（称为AE-EZ1）来直接实现的，其与MemAE共享相同的编码器和解码器。MemAE。如表4所示，由于稀疏诱导正则化，AE-1然而，AE-α1仍然缺乏一个明确的机制，以鼓励大的重建错误的异常或一个强大的模块，以建模的原型模式的正常样品，导致更差的性能比MemAE和其他MemAE变体。5. 结论本文提出了一种内存增强的自动编码器（MemAE）来提高基于自动编码器的无监督异常检测方法的性能。给定输入，所提出的MemAE首先使用编码器来获得编码的表示，然后使用编码作为查询来检索存储器中最相关的pat-terns以进行重建。由于MemAE算法训练的样本是典型的正常模式，因此MemAE算法能够很好地重建正常样本，并扩大异常样本的重建误差，从而增强了重建误差作为异常检测准则的能力。在不同应用的数据集上的实验证明了该方法的通用性和有效性。在未来，我们将研究使用寻址权重进行异常检测。考虑到所提出的存储器模块是通用的，并且与编码器和解码器的结构无关，我们将把它集成到更复杂的基础模型中，并将其应用于更具挑战性的应用中。致谢本工作得到iCetana Pty Ltd.的部分支持。1714引用[1] Davide Abati、Angelo Porrello、Simone Calderara和RitaCucchiara 。和：自回归新奇检测器。 arXiv 预印本arXiv：1807.01653，2018。[2] Yoshua Bengio、Pascal Lamblin、Dan Popovici和HugoLarochelle。贪婪的深度网络分层训练。神经信息处理系统进展，第153-160页，2007年[3] 拉哈文德拉·查拉帕蒂，阿迪蒂亚·克里希纳·梅农，和圣杰·舒拉。使用单类神经网络的异常检测。arXiv预印本arXiv：1802.06360，2018。[4] Varun Chandola、Arindam Banerjee和Vipin Kumar。异常检测：一个调查。ACM计算调查（CSUR），41（3）：15，2009。[5] Yunqiang Chen，Xiang Sean Zhou，and Thomas S Huang.用于图像检索学习的单类支持向量机。IEEEInternational Conference on Image Processing，第1卷，第34-37页。IEEE，2001年。[6] 杨善忠和杨浩泰。使用时空自动编码器的视频中的异常事件检测。在神经网络国际研讨会上，第189Springer，2017.[7] 伊扎克·戈兰和兰·亚尼夫。使用几何变换的深部异常检测神经信息处理系统，第9758-9769页，2018年[8] 龚东，谭明奎，石勤峰，安东范登亨格尔，张燕宁.MPTV：基于匹配追踪的图像去卷积总变差最小化。IEEE Transactions on Image Processing，28（4）：1851[9] Dong Gong，Mingkui Tan，Yanning Zhang，Anton Vanden Hengel，and Qinfeng Shi.自动梯度激活的盲图像反卷积。在IEEE计算机视觉和模式识别会议（CVPR）中，第1827-1836页[10] Alex Graves Greg Wayne和Ivo Danihelka神经图灵机。arXiv预印本arXiv：1410.5401，2014。[11] Mahmudul Hasan ， Jongghyun Choi ， Jan Neumann ，Amit K Roy-Chowdhury，and Larry S Davis.学习视频序列中的时间规则性在IEEE计算机视觉和模式识别会议中，第733- 742页[12] 日南亮太桃美佐藤真通过学习深度通用知识联合在IEEEInternationalConferenceonComputerVision（ICCV）中，第3639-3647页[13] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。arXiv预印本arXiv：1502.03167，2015。[14] 伊恩·乔利夫主成分分析国际统计科学百科全书，第1094-1096页。Springer，2011.[15] Jaechul Kim和Kristen Grauman。局部观察，全局推断：用于检测具有增量更新的异常活动的时空MRF。在IEEE计算机视觉和模式识别会议（CVPR）中，2009年。[16] Youngjin Kim Minjung Kim和Gunhee Kim 在生成之前先进行纯化：学习无监督gans记忆网络国际学习代表大会（ICLR），2018。[17] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。[18] Diederik P Kingma和Max Welling。自动编码变分贝叶斯。 2014 年国际学习表征会议（ InternationalConference on Learning Representations，ICLR）[19] 亚历克斯·克列日夫斯基和杰弗里·辛顿从微小的图像中学习多层特征。技术报告，Cite- seer，2009年。[20] 杨乐存。mnist手写数字数据库。http：//yann. 乐村1998年。[21] Roberto Leyva，Victor Sanchez，和Chang-Tsun Li。lv数据集：用于异常事件检测的真实监控视频数据集。在生物识别和法医学国际研讨会（IWBF），第1-6页。IEEE，2017年。[22] 李崇轩，朱俊，张波。学会用记忆来生成。国际机器学习会议（ICML），第1177-1186页，2016年[23] Moshe

下载后可阅读完整内容，剩余1页未读，立即下载