对抗学习的单类分类器训练范式及其在异常检测中的应用

60 浏览量更新于2023-10-25 收藏 12.35MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

141830老是金：重新定义对抗学习的单类分类器训练范式0Muhammad Zaigham Zaheer 1 , 2 , Jin-ha Lee 1 , 2 , Marcella Astrid 1 , 2 , Seung-Ik Lee 1 , 201 科学技术大学，2 电子与通信研究院，韩国大田0{ mzz, jhlee, marcella.astrid } @ust.ac.kr, the silee@etri.re.kr0摘要0使用对抗网络的生成器来制定输入的重建损失的异常分数是一种流行的异常检测方法。由于异常情况的罕见发生，优化这样的网络可能是一项繁琐的任务。另一种可能的方法是同时使用生成器和鉴别器进行异常检测。然而，由于涉及对抗训练，这种模型通常不稳定，性能在每个训练步骤中剧烈波动。在本研究中，我们提出了一个框架，可以在广泛的训练步骤范围内有效生成稳定的结果，并允许我们同时使用对抗模型的生成器和鉴别器进行高效和稳健的异常检测。我们的方法将鉴别器的基本作用从识别真实和假数据转变为区分好和坏质量的重建。为此，我们使用当前生成器准备好质量重建的训练样本，而使用同一生成器的旧状态获得质量较差的样本。这样，鉴别器学习检测通常出现在异常输入的重建中的细微扭曲。在Caltech-256和MNIST图像数据集上进行的大量实验用于新颖性检测显示出优越的结果。此外，在UCSDPed2视频数据集上进行的异常检测中，我们的模型实现了98.1％的帧级AUC，超过了最新的最先进方法。01. 引言0由于异常场景的罕见发生，异常检测问题通常被视为单类分类（OCC），其中仅使用正常数据来学习新颖性检测模型[22, 57, 25, 51, 11, 45, 40, 10, 44, 34,35]。最近的一种学习单类数据的趋势是使用编码器-解码器架构，如de-0噪声自编码器[41, 52, 53,49]。通常，在这种方案中，训练会一直进行，直到模型开始产生高质量的重建[41,43]。在测试时，预期异常数据的重建损失较高，对应于较高的异常分数。随着生成对抗网络（GANs）[8]的最新发展，一些研究人员还探索了使用对抗训练改进生成结果的可能性[43, 32]。这种训练方式大大提高了数据再生质量[30, 8,43]。在测试时，训练好的生成器G从鉴别器D中分离出来，用作重建模型。正如[41, 35,36]所报道的，由于对抗训练，正常数据和异常数据之间的重建损失存在很大差异，从而实现了更好的异常检测系统。然而，仅依靠生成器的重建能力通常效果不佳，因为通常的编码器-解码器风格生成器可能会意外地很好地重建未见过的数据，从而严重降低异常检测性能。在这个领域，自然而然的发展方向是使用D与传统的G的结合来进行异常检测。这样做的直觉是通过同时利用G和D而不仅仅是G来获得单类对抗训练的最大好处。然而，这也带来了与此类架构常见的问题。例如，定义何时停止训练仍然是一个具有挑战性的问题[8,30]。正如Sabokrou等人[41]所讨论的，这种对抗学习的单类分类架构的性能高度依赖于何时停止训练的标准。如果过早停止训练，G将训练不足；如果过度训练，D可能会因为真实的假数据而感到困惑。我们的实验证明，将G +D训练为用于异常检测的集合模型（称为基线）不能确保在任意训练步骤上比其前身实现更高的收敛性。图1显示了基线在UCSDPed2数据集[4]上进行多个训练时期的帧级AUC性能。75808590951002021222324252627282930141840AUC%0训练时期0我们的方法基准0图1：AUC性能在训练时期的动态：基准显示高度波动，而我们的方法不仅在各个时期都表现出稳定性，而且AUC更高。0尽管我们有时会获得高性能峰值，但可以看出性能在任意连续的两个时期之间也会大幅波动。基于这些发现，可以认为我们所知的D在单类分类问题（如异常检测）中可能不是一个合适的选择。基于这种直觉，我们设计了一种用于训练对抗网络以实现异常检测的方法，通过将D的基本角色从区分真假转变为识别好坏质量的重构。这种D的特性在异常检测中非常理想，因为训练好的G对于异常数据的重构不会像对于符合学习表示的正常数据那样好。为此，我们提出了一个两阶段的训练过程。第一阶段与训练对抗去噪自编码器的常见做法完全相同[30, 53,49]。一旦G达到一个合理训练的状态（即显示出较低的重构损失），我们开始第二阶段，其中通过训练各种好质量和坏质量的重构示例来优化D。好质量的重构示例来自真实数据以及由G重新生成的数据，而坏重构示例则是利用生成器的旧状态（Gold）以及使用我们提出的伪异常模块获得的。如图3所示，该伪异常模块利用训练数据创建了类似异常的示例。通过这个两阶段的训练过程，我们期望D能够被训练成能够稳健地区分来自正常和异常数据的重构。如图1所示，我们的模型不仅提供了优越的性能，而且在多个训练时期都表现出稳定性。总之，本文的贡献如下：1）这项工作是在测试时首次使用D和G进行异常检测的几项工作之一。此外，据我们所知，这是第一个对其进行广泛报告的工作0使用传统的G +D公式及其相关的不稳定性的影响。2）我们的方法通过利用生成器的旧状态G old和提出的伪异常模块，将鉴别器的角色转化为异常检测问题，从而大大提高了系统的稳定性。本文提供的详细分析表明，我们的模型不依赖于硬性停止标准，在各个训练时期都能取得一致的结果。3）我们的方法在MNIST[18]和Caltech-256[9]数据集上进行的新颖性检测实验以及在UCSD Ped2[4]视频数据集上进行的异常检测实验中，优于现有技术[41,13, 37, 27, 7, 48, 25, 28, 11, 23, 35, 24, 34, 46, 10, 22,52, 57,58]。此外，在后者数据集上，我们的方法相对于基准方法实现了5.2%的绝对增益，达到了98.1%的帧级AUC。02. 相关工作0异常检测通常被视为一种新颖性检测问题[22, 57, 25, 11,51, 45, 40, 2, 10, 44, 34, 34,35]，其中模型是基于已知的正常类进行训练，最终检测未知的异常值。为了简化任务，一些研究提出使用对象跟踪[50, 1, 26, 31, 56]或运动[16, 12,5]。以这种方式手动选择特征往往会显著降低性能。随着深度学习的普及，一些研究者[44,35]还提出使用基于预训练卷积网络的特征来训练单类分类器。这种方法的成功很大程度上依赖于基础模型，该模型通常在一些不相关的数据集上进行训练。基于图像重建的方法[7, 37, 52, 13, 27, 28, 53,40]是一种相对较新的方法，它们利用生成网络以无监督的方式学习特征。Ionescu等人在[13]中提出使用卷积自编码器在目标检测之上学习运动和外观表示。Xu等人[52,53]使用堆叠自编码器的特征来训练一个单类支持向量机。Ravanbakhsh等人[35]使用生成器作为重构器来检测异常事件，假设生成器无法重构不符合正常训练数据的输入。在[27,28]中，作者建议使用级联解码器从正常视频中学习运动和外观。然而，在所有这些方案中，只有一个生成器用于执行检测。Pathak等人[30]提出了对抗训练来提高重建质量。然而，他们在训练结束后也丢弃了鉴别器。Sabokrou等人[41]提出了一种用于异常检测的统一生成器和鉴别器模型。该模型显示出有希望的结果，但往往不稳定，性能严重依赖于停止训练的标准。最近，Shama等人[43]提出了利用输出的想法̂̂̂+ E ˜X∼pt+Nσ,(1)141850伪异常模块0良好质量示例路径坏质量示例路径0正常 /异常0仅正常类训练数据集0阶段一 / 基线训练0测试高质量重构图像 X0生成器 G0G 的旧状态 G old0低质量重构图像 X low0鉴别器 D0图像 X0伪异常重构图像 X pseudo0图2：我们提出的OGNet框架。第一阶段是基线训练，旨在获得合理训练的 G 和 D的状态。在此训练过程中，生成器的冻结低时期状态（G old）被存储。在第二阶段，只有 D被更新以区分好和坏质量的重构。良好质量的示例对应于真实的训练图像以及使用 G 重构的图像，而坏质量的示例则使用 Gold 以及提出的伪异常模块获得。该模块帮助 D 学习异常输入重构的潜在模式。在测试期间，只通过 G 和 D 进行推理，并将D 的输出视为异常分数。最佳效果以彩色显示。0通过对抗性鉴别器来提高生成图像的质量。虽然与异常检测无关，但它提供了一个有趣的直觉，即利用两个对抗性组件来提高性能。我们的工作虽然建立在无监督生成网络的基础上，但与[7, 13, 27, 28, 53,40]中的方法不同，因为我们探索利用统一的生成器和鉴别器模型进行异常检测。与我们最相似的工作是Sabokrou等人的[41]和Lee等人的[19]，他们也探索了使用鉴别器与传统的生成器一起用于异常检测的可能性。然而，我们的方法与这些方法有很大的不同。在[41]中，基于停止训练的标准训练传统的对抗网络，而在[19]中，使用基于LSTM的方法进行训练。相反，我们利用一个伪异常模块和生成器的旧状态，将鉴别器的最终角色从区分真假转变为检测好和坏质量的重构。这样，我们的整体框架虽然在开始时通过对抗性训练，但最终使生成器和鉴别器相互补充，以实现异常检测。03. 方法0在本节中，我们介绍了我们的OGNet框架。如第1节所述，大多数现有的基于GAN的0在异常检测方法中，完全丢弃鉴别器并仅使用生成器。此外，即使使用了两个模型，由于缺乏停止训练的标准以及对手引起的训练周期不稳定性，使得收敛性不确定。我们的目标是通过重新定义鉴别器的角色，使其更适用于异常检测问题。我们的解决方案是通用的，因此可以与任何现有的单类对抗网络集成。03.1. 架构概述0为了保持一致性和公正比较，我们将基线架构与Sabokrou等人提出的架构[41]保持相似。生成器 G是一个典型的去噪自编码器，与鉴别器 D耦合，以无监督的对抗方式学习单类数据。该模型的目标是进行最小最大博弈，优化以下目标函数：0最小化 G最大化 D0最小化 G 最大化 D0其中˜X是输入图像X加上噪声Nσ，就像典型的去噪自编码器一样。我们的模型在基线模型的基础上构建，利用一个旧的冻结生成器（Gold）创建低质量的重建示例。我们还提出了一个伪异常模块。G𝑋𝑗𝑙𝑜𝑤̂𝑋𝑖𝑙𝑜𝑤̂𝑋𝑖𝑋𝑗𝑋𝑝𝑠𝑒𝑢𝑑𝑜̂X̄̂+ˆ lowˆ low̸ˆXpseudo = G( ˆ¯X).(4)maxD141860Gold0Gold0像素级均值 +0图3：我们提出的伪异常模块。通过Gold对两个任意的训练图像进行再生，然后进行像素级均值操作，创建一个伪异常ˆ¯X。最后，通过G(ˆ¯X)创建ˆXpseudo，以模拟G对异常输入的再生行为。0我们提出了一个伪异常模块，以帮助D学习G在异常或异常输入情况下的行为，我们发现这对我们的方法的鲁棒性非常有用（表4）。我们提出的框架的总体目标是改变D的学习范式，使其从区分真实和伪造转变为区分好和坏的重建。这样，判别器与生成式单类学习模型的传统理念保持一致，即已知类别的数据的重建质量优于未知或异常类别的数据。03.2. 训练0我们的模型的训练分为两个阶段（见图2）。第一阶段类似于训练对抗式单类分类器的常见做法[G 41, 17, 42, 36]。G尝试再生看起来真实的伪造数据，然后将其与真实数据一起输入D。D学习区分真实数据和伪造数据，其成功或失败成为G的监督信号。这种训练持续进行，直到G开始创建具有相对较低重建损失的真实图像。总体而言，第一阶段最小化以下损失函数：0L = L G + D + λ L R，(2)0其中，L G + D是我们联合训练目标中的损失函数，定义如方程1所示，L R= || X - G(˜X) || 2 是重建损失，λ是权重超参数。此外，随着第一阶段的进行，我们保存一个低时期的生成器模型（Gold），以便在训练的第二阶段使用。选择使用哪个低时期可以根据再生质量进行直观选择。显然，我们希望G old生成的图像质量低于经过训练的G。然而，对于这个生成器，没有必要选择任何特定的时期数。我们将在第4节通过实验证明，我们模型的最终收敛不依赖于严格的选择。0关于时期数的选择以及可以获得G old的各种通用设置并不依赖于模型的最终收敛。训练的第二阶段是使用冻结的模型G old 和G来更新D。这样，D开始学习区分好和坏质量的重建，从而适用于单类分类问题，如异常检测。下面讨论第二阶段训练的细节：目标。第二阶段训练的核心是向D提供好质量和坏质量的重建示例，目的是使其了解G在异常输入情况下会产生的输出。训练只进行了几次迭代，因为已经训练好的D收敛得很快。关于此的详细研究将在第4节中添加。好质量示例。D提供真实数据（X），这是重建的最佳情况，以及由训练好的G生成的实际高质量重建数据（ˆX =G(X)）作为好质量示例。坏质量示例。使用G old生成低质量重建示例（ˆXlow）。此外，我们提出了一个伪异常模块，如图3所示，它由G old和训练好的G组合而成，模拟重建的伪异常示例（ˆXpseudo）。伪异常的创建。给定训练数据集中的两个任意图像Xi和Xj，生成一个伪异常图像ˆ¯X：02，其中i≠j。（3）这样，生成的图像可以包含各种变化，如阴影和不寻常的形状，这些变化对于G和D模型来说完全是未知的。最后，在我们的伪异常模块的最后一步中，为了模拟G在输入异常数据时的行为，使用G对ˆ¯X进行重构以获得ˆXpseudo：0可以在图3和图4中看到每个中间步骤的示例图像。调整目标函数。训练的第二阶段模型采用以下形式：0αEX [ log (1 − D ( X0（1 − α ）E ˆX [ log (1 − D ( ˆX ))] + β E ˆX low [ log ( D ( ˆX low ))]+0（1 − β ）E ˆX pseudo [ log ( D ( ˆX pseudo))]，其中α和β是权衡超参数。（5）GTphase one =GTphase two =OCC =XX̂XloŵX̂̄X 𝑝𝑠𝑒𝑢𝑑𝑜̂XG (X)141870第一阶段训练中鉴别器的准确地准则定义为：0如果输入是X，则为0，如果输入是ˆX，则为1。（6）0然而，对于第二阶段的训练，它采用以下形式：0如果输入是X或ˆX，则为0，如果输入是ˆX low或ˆX pseudo，则为1。（7）03.3. 测试0在测试时，如图2所示，只使用G和D进行单类分类（OCC）。对于输入图像X的最终分类决策如下：0如果D（G（X））<τ，则为正常类，否则为异常类。（8）0其中τ是预定义的阈值。04. 实验0本节报告了我们的OGNet框架在三个不同数据集上的评估结果。还报告了性能的详细分析及其与最先进方法的比较。此外，我们提供了广泛的讨论和消融研究，以展示我们提出的方案的稳定性和重要性。为了保持实验设置与现有工作[22,57, 25, 51, 11, 45, 40, 10, 44, 34, 35, 41, 13, 7,0（b）测试图像（a）训练图像0UCSDPed2MNISTCaltech0图4：我们框架不同阶段的示例图像。（a）从左到右：原始图像（X），高质量重构（ˆX），低质量重构（ˆXlow），伪异常（ˆ¯X），伪异常重构（ˆX pseudo）。（b）左列显示异常示例，右列显示相应的重建输出G（X）。028,27]，我们测试了我们的方法来检测异常图像和视频异常。评估标准。大部分结果都是基于曲线下面积（AUC）在帧级别计算的，因为在相关工作中很受欢迎[48, 25, 28, 11, 23, 35,24, 7, 34, 46, 10, 22, 52, 27, 57, 13, 58, 41]。然而，根据[47, 20, 54, 33, 21, 55, 41, 38,35, 36, 52, 39,40]中采用的评估方法，我们还报告了我们方法的F1分数和等误差率（EER）。参数和实现细节。我们的实现是在PyTorch[29]中完成的，源代码在https://github.com/xaggi/OGNet中提供。我们报告的训练第一阶段是从20到30个时期进行的。选择这些数字是因为基线在这个范围内显示出高性能峰值（图1）。我们使用Adam[15]进行训练，这些时期中生成器和判别器的学习率分别设置为10^-3和10^-4。训练的第二阶段是进行75次迭代，判别器的学习率减半。λ，α和β分别设置为0.2，0.1和0.001。除非另有说明，我们实验的默认设置都是上述值。然而，在本节的后面部分提供的详细评估中，我们还进行了一系列时期和迭代的实验并报告了结果。此外，除非另有说明，我们选择第1个时期后的生成器并将其冻结为Gold。这种选择是任意的，仅基于第3节中解释的直觉。此外，在本节的后面部分，我们还提供了一种稳健且通用的方法来构建G old。0无需手动选择时期。04.1. 数据集0Caltech-256。该数据集[9]包含256个对象类别和一个“杂乱”类别的共30607张图像。每个类别的图像数量不同，最低为80，最高为827。为了进行实验，我们使用了与之前的工作[47, 20, 54, 33, 21, 55,41]相同的设置。在一系列的三个实验中，最多150张图像属于1、3和5个随机选择的类别，被定义为训练（内点）数据。测试的异常图像来自“杂乱”类别，以使每个实验的异常值和内点的比例都为50%。MNIST。该数据集[18]包含60000个手写数字，从0到9。我们在该数据集上评估我们的方法的设置也与之前的工作[51, 3,41]保持一致。在一系列实验中，每个数字类别都被单独作为内点。而其他类别的随机抽样图像作为异常值，比例为10%至50%。USCDPed2。该数据集[4]包含16个训练视频中的2550帧和12个测试视频中的2010帧。每帧的分辨率为240×360像素。行人占据了大多数帧，而异常包括滑板、车辆、自行车等。与[48, 25, 28, 11, 23, 35, 24, 7, 34, 46, 10, 22, 52, 27, 57, 13,58,41]类似，该数据集采用了帧级AUC和EER指标来评估性能。0.50.6.7.80.91102030405000.10.20.30.40.50.60.70.80.91020406080100141880DPCP[47] REAPER[20] OutlierPersuit[54] CoP[33] LRR[21] R-graph[55] ALOCC[41] 我们的方法0AUC 78.3% 81.6% 83.7% 90.5% 90.7% 94.8% 94.2% 98.2% F1 78.5% 80.8% 82.3% 88.0% 89.3% 91.4% 92.8%95.1%0AUC 79.8% 79.6% 78.8% 67.6% 47.9% 92.9% 93.8% 97.7% F1 77.7% 78.4% 77.9% 71.8% 67.1% 88.0% 91.3%91.5%0AUC 67.6% 65.7% 62.9% 48.7% 33.7% 91.3% 92.3% 98.1% F1 71.5% 71.6% 71.1% 67.2% 66.7% 85.8% 90.5%92.8%0表1：我们的框架在Caltech-256[9]数据集上与其他最先进方法的AUC和F1得分性能比较。按照现有工作[55]的做法，从上到下的每个子组显示了来自1、3和5个不同随机类别的内点的评估分数（最佳性能为粗体，次佳性能为下划线）。0帧的异常包括滑板、车辆、自行车等。与[48, 25, 28, 11,23, 35, 24, 7, 34, 46, 10, 22, 52, 27, 57, 13, 58,41]类似，该数据集采用了帧级AUC和EER指标来评估性能。04.2. 图像中的异常检测0一类学习算法的一个重要应用是异常检测。在这个问题中，属于已知类别的对象被视为内点，基于这些内点训练模型。不属于这些类别的其他对象被视为异常值，模型应该能够根据其训练来检测到这些异常值。我们报告了在Caltech-256[9]和MNIST[18]数据集上进行的实验结果，并与最先进的异常检测模型[14, 55, 51, 41, 47, 20, 54, 33,21]进行了比较。Caltech-256的结果。图4b显示了使用G重建的异常示例。有趣的是，尽管生成的图像质量相当不错，但我们的模型在F1得分和曲线下面积（AUC）方面仍然表现出优越的结果，如表1所列，这表明我们的模型对于G的过度训练是鲁棒的。MNIST的结果。由于这是一个经过深入研究的数据集，各种与异常检测相关的工作都使用MNIST作为评估方法的基准。与[51, 3,41]一样，我们还报告了F1得分作为对我们方法在该数据集上的评估指标。图5中的比较显示，我们的方法在增加异常值百分比时仍然能够稳健地检测到异常值。图6显示了我们的方法改进性能的洞察。可以观察到，随着第二阶段的训练继续进行，我们网络输出的内点和异常值的分数分布逐渐扩展到更广泛的范围。04.3. 视频中的异常检测0一类分类器在监控目的的异常检测领域找到了它们最好的应用0[45, 48, 6, 57, 36,35]。然而，由于涉及到移动物体，这个任务比异常值检测更加复杂，这些移动物体会导致外观上的变化。实验设置。Ped2数据集的每个帧I被划分为大小为45×45像素的灰度块XI = {X1，X2，...，Xn}。只包含正常场景的正常视频0F 1得分0异常值的百分比0DARE[51] LOF[3]0ALOCC[41] 我们的0图5：MNIST数据集上的F 1得分结果。与最先进的方法相比，我们的方法在测试时即使有更高比例的异常值，仍然保持着卓越的性能。0D(G(X))0第二阶段的训练迭代0异常值内点0图6：我们的框架在MNIST数据集上的各个训练迭代中的异常分数分布。随着第二阶段的训练的进行，内点和异常值的可分性显著提高。15%13%14%17%19%9%13%7%88909294969803060901201501.294.02141890RE[38] AbnormalGAN[35] Ravanbakhsh[36] Dan Xu[52]0Sabokrou[39] Deep-cascade[40] ALOCC[41] 我们的0表2：UCSDPed2数据集上与现有工作的EER结果比较。较低的数字意味着更好的结果。0从行人行走的场景中提取训练块，用于提取训练块。测试块是从包含异常场景和正常场景的异常视频中提取的。为了去除无关的块的推断，基于帧差异的运动检测标准被设置为丢弃没有运动的块。所有块级异常分数的最大值被声明为该特定帧的帧级异常分数，如下所示：0A I = max X D ( G ( X )) , 其中 X ∈ X I (9)0性能评估。帧级AUC和EER是用来将我们的方法与一系列最近5年内发表的现有工作[48, 25, 28, 11, 23, 35, 24, 7, 34,46, 10, 22, 52, 27, 57, 13, 58,41]进行比较的两个评估指标。表2和表3中提供的相应结果显示，我们的方法在异常检测任务中优于最新的最先进方法。与基线相比，我们的方法在AUC方面实现了5.2%的绝对增益。图4中提供了重建块的示例。如图4b所示，尽管G明显地生成了异常输入的良好重建，但由于我们提出的伪异常模块的存在，D得以学习重建异常图像的潜在模式。这就是为什么，与基线相比，我们的框架在各种训练时期都提供了一致的性能（图1）。0方法AUC 方法AUC0Unmasking[48] 82.2% TSC[25] 92.2% HybridDN[28] 84.3%FRCN action[11] 92.2% Liu et al[23] 87.5%AbnormalGAN[35] 93.5% ConvLSTM-AE[24] 88.1%MemAE[7] 94.1% Ravanbakhsh et al[34] 88.4%GrowingGas[46] 94.1% ConvAE[10] 90% FFP[22] 95.4%AMDN[52] 90.8% ConvAE+UNet[27] 96.2% HashingFilters[57] 91% STAN[19] 96.5% AE Conv3D[58] 91.2%Object-centric[13] 97.8%0基线92.9% 我们的98.1%0表3：UCSDPed2数据集上与最新5年内发表的最先进工作的帧级AUC比较。最佳和次佳性能分别以粗体和下划线表示。0AUC%0迭代0第21个时期第23个时期0第25个时期第27个时期0第29个时期0图7：绘制了我们的第二阶段训练的帧级AUC性能，从第一阶段（基线）训练的不同时期开始。第二阶段训练后的模型显示出比基线/第一阶段更小的方差。04.4. 讨论0何时停止第一阶段训练？我们的框架的收敛不严格依赖于第一阶段的训练。图7显示了在Ped2数据集[4]上进行了各种epoch的第一阶段训练后应用第二阶段训练的AUC性能。在迭代次数=0时绘制的值表示基线的性能，显示出很高的方差。有趣的是，可以看到在我们提出的方法的第二阶段训练的几次迭代后，模型开始更好地收敛。无论第一阶段训练的初始epoch是什么，模型都成功收敛，表现出一致的AUC性能。何时停止第二阶段训练？如图7和图8所示，可以观察到一旦特定模型收敛，进一步的迭代不会降低其性能。因此，可以根据需要对模型进行任意次数的训练。哪个低epoch生成器更好？对于Gold的选择，如前所述，在我们的实验中是任意选择了训练的第一个epoch之后的生成器。这种选择是直观的，主要基于生成器已经看到了整个数据集一次的事实。此外，我们观察到，第一次epoch之后，虽然生成器能够重构其输入，但质量还不够好，这是我们模型中G old的一个合适属性。然而，这种选择方式并不适用于各种数据集。因此，为了进一步研究这个问题，我们评估了一系列低epoch数作为G old的候选。基线的G的epoch被固定在整个实验中。图8a的结果显示，无论选择哪个低epoch数作为Gold，模型都收敛并达到了最先进或可比较的AUC。为了寻找另一种更系统的获得G old的方法，我们还探索了使用所有先前G模型的平均参数的可能性。因此，对于我们选择为G的每个给定epoch，都会通过取所有先前G模型的平均值来得到一个Gold。图8b中的结果显示，这样的G old也显示出了可比较的性能。注意，这种形式完全消除了手动选择G old的需要，从而使我们的公式适用于训练数据集的大小。1.35889092949698030609012015088909294969803060901201504.021.04AUC92.9%94.4%95.1%95.9%88.5%98.1%141900AUC%0迭代次数0第1个epoch 第2个epoch0第3个epoch 第4个epoch0第5个epoch 第6个epoch0第7个epoch 第8个epoch0第9个epoch 第10个epoch0(a) 对G old在前10个epoch中进行的实验，其中G保持不变。0AUC%0迭代次数0第21个epoch 第23个epoch0第25个epoch 第27个epoch0(b)对通过对所有先前epoch的生成器参数取平均值得到的Gold 在不同任意epoch上进行的实验。0图8：在UCSDPed2数据集上进行的一系列实验结果表明，我们的框架不依赖于对Gold的严格选择的epoch数。在(a)中，对在不同范围的epoch上选择的各种G old进行了实验，G保持不变。在(b)中，将所有过去生成器的参数取平均作为G old。0通过对到目前为止的所有先前G模型的平均参数进行计算得到这样的G old。图8b中的结果显示，这样的G old也显示出了可比较的性能。注意，这种形式完全消除了手动选择G old的需要，从而使我们的公式适用于训练数据集的大小。04.5. 消融实验0我们在UCSDPed2数据集[4]上对我们的框架进行了消融实验，结果总结如表4所示。如表所示，尽管我们训练模型的每个输入组件（即真实图像X、高质量重构ˆX、低质量重构ˆXlow和伪异常重构ˆXpseudo）都对于稳健的训练有所贡献，但一次移除其中任何一个仍然比基线表现更好。在第二阶段训练结果的第四列中可以看到一个有趣的观察结果。在这种情况下，我们在方程4中通过G提供再生的伪异常（ˆXpseudo）的最后一步被移除后进行了性能测量。因此，通过移除这部分，0X � - � � � � ˆ X � � � � � � ˆ X low - � � - � � ˆ X pseudo - - - � - � ˆ¯ X 作为 ˆ X pseudo - -- - � -0表4：UCSD Ped2数据集上我们框架的帧级AUC性能消融。0使用公式3获得的伪异常（ˆ¯X）直接传递给鉴别器作为两组坏重构示例之一。在这种配置下，性能显著下降（即AUC下降9.6%）。该模型在第一阶段训练后甚至比基线表现更差。这表明我们提出的伪异常模块的重要性。一旦在模块内创建了伪异常，就需要通过推断G来获得这些的再生结果。这有助于D学习重构异常图像的潜在模式，从而得到更强大的异常检测模型。05. 结论0本文提出了一种对抗性学习方法，其中生成器（G）和鉴别器（D）都被用于执行稳定和鲁棒的异常检测。统一的G和D模型对这类问题的应用通常会产生不稳定的结果，原因是对手的存在。然而，我们试图调整鉴别器的基本角色，从区分真实和伪造转变为区分好和坏质量的重构，这种表述与使用生成网络进行传统异常检测的哲学相吻合。我们还提出了一个伪异常模块，用于从正常训练数据中创建伪造的异常示例。这些伪造的异常示例有助于D学习G在异常输入数据情况下的行为。我们广泛的实验表明，这种方法不仅在各种训练时期产生稳定的结果，而且在离群值和异常检测方面优于一系列最先进的方法[48, 25, 28, 11, 23, 35, 24, 7, 34, 46, 10,22, 52, 27, 57, 13, 58, 41]。06. 致谢0这项工作得到了MSIP/IITP的ICT研发计划的支持。[2017-0-00306，用于室外监视机器人的多模态传感器智能系统的开发]。此外，我们感谢HoChul Shin，Ki-In Na，HamzaSaleem，Ayesha Zaheer，Arif Mahmood和ShahNawaz对改进我们的工作的讨论和支持。141910参考文献0[1] Arslan Basharat, Alexei Gritai, and Mubarak Shah.学习物体运动模式以进行异常检测和改进的物体检测.在2008年IEEE计算机视觉和模式识别会议上，第1-8页。IEEE，2008年。 [2] Francesco Bergadano.键入学习：对抗性学习框架-形式化，挑战和异常检测应用。ETRIJournal，41（5）：608-618，2019年。 [3] Markus MBreunig，Hans-Peter Kriegel，Raymond T Ng和J¨orgSander。 Lof：识别基于密度的局部异常值。在ACM sigmodrecord，卷29，第93-104页。ACM，2000年。 [4] AntoniChan和Nuno Vasconcelos。 UCSD行人数据集。IEEE模式分析与机器智能（TPAMI），30（5）：909-926，2008年。 [5] Xinyi Cui，Qingshan Liu，Mingchen Gao和Dimitris NMetaxas。使用交互能量潜力进行异常检测。在CVPR2011，第3161-3167页。IEEE，2011年。 [6] Jayanta KumarDutta和Bonny Banerjee。使用增量编码长度在线检测异常事件。在第二十九届AAAI人工智能大会上，2015年。 [7] Dong Gong，Lingqiao Liu，VuongLe，Budhaditya Saha，Moussa Reda Mansour，SvethaVenkatesh和Anton van den Hengel。记忆正常以检测异常：用于无监督异常检测的记忆增强深度自动编码器。在2019年计算机视觉国际会议（ICCV）上，10月。 [8] IanGoodfellow，Jean Pouget-Abadie，Mehdi Mirza，BingXu，David Warde-Farley，Sherjil Ozair，AaronCourville和Yoshua Bengio。生成对抗网络。在神经信息处理系统的进展中，第2672-2680页，2014年。 [9] Gregory Griffin，Alex Holub和Pietro Perona。Caltech-256对象类别数据集。2007年。 [10] MahmudulHasan，Jonghyun Choi，Jan Neumann，Amit KRoy-Chowdhury和Larry S Davis。在视频序列中学习时间规律性。在2016年IEEE计算机视觉和模式识别会议上，第733-742页。 [11] Ryota Hinami，TaoMei和Shin'ichi Satoh。通过学习深度通用知识联合检测和重述异常事件。在2017年IEEE国际计算机视觉会议上，第3619-3627页。 [12] Rui Hou，ChenChen和Mubarak Shah。用于视频中动作检测的管卷积神经网络（t-cnn）。在2017年IEEE国际计算机视觉会议上，第5822-5831页。 [13] Radu TudorIonescu，Fahad Shahbaz Khan，Mariana-IulianaGeorgescu和Ling Shao。面向对象的自动编码器和虚拟异常用于视频中的异常事件检测。在2019年计算机视觉和模式识别会议上，第7842-7851页。 [14]Jaechul Kim和Kristen Grauman。局部观察，全局推断：用于检测异常活动的时空MRF与增量更新。在2009年IEEE计算机视觉和模式识别会议上，第2921-2928页。IEEE，2009年。0[15] Diederik P Kingma and Jimmy Ba. Adam:一种随机优化方法. arXiv preprint arXiv:1412.6980 , 2014. [16]Louis Kratz and Ko Nishino. 极度拥挤场景中的异常检测:时空运动模式模型. In 2009 IEEE Conference on ComputerVision and Pattern Recognition , pages 1446–1453. IEEE,2009. [17] Wallace Lawson, Esube Bekele, and Keith Sullivan.使用生成对抗网络进行巡逻机器人的异常检测. In Proceedings ofthe IEEE Conference on Computer Vision and PatternRecognition Workshops , pages 12– 13, 2017. [18] YannLeCun, Corinna Cortes, and Christopher J.C. Burges.Mnist手写数字数据库. ATT Labs [On- line].Available:http://yann. lecun. com/exdb/mnist , 2010. [19] Sangmin Lee,Hak Gu Kim, and Yong Man Ro. Stan:用于异常事件检测的时空对抗网络. In 2018 IEEE InternationalConference on Acoustics, Speech

下载后可阅读完整内容，剩余1页未读，立即下载