新颖性检测的潜空间自回归

191 浏览量更新于2023-10-18 收藏 1.35MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1用于新颖性检测的潜空间自回归Davide Abati Angelo Porrello Simone Calderara Rita Cucchiara摩德纳和雷焦艾米利亚{name.surname}@ unimore.it摘要新颖性检测通常被称为不符合规律性的学习模型的观察的辨别。尽管其在不同应用环境中的重要性，但由于新颖性的不可预测性质及其在训练过程期间的不可访问性，设计新颖性检测器是完全复杂的，这些因素暴露了问题的无监督性质。在我们的程序中，我们设计了一个通用框架，在该框架中，我们为深度自动编码器配备了参数密度估计器，该参数密度估计器通过自回归过程学习其潜在表示的概率分布我们表明，一个最大似然目标，优化结合正常样本的重建，有效地作为一个正则化的任务在手，通过最小化的微分熵的分布所涵盖的潜在向量。除了提供一个非常通用的公式，我们的模型在公开可用的数据集上的广泛实验提供了同等或优越的性能，如果与最先进的方法相比，在一类和视频异常检测设置。与以前的工作不同，我们的建议没有对新奇事物的本质做出任何假设，使我们的工作易于适用于不同的背景。1. 介绍新颖性检测被定义为从一组正常样本中识别出相对于潜在的规律性模型表现出显著不同特征的样本自主系统识别未知事件的意识使其能够应用于多个领域，从视频监控[7，11]到缺陷检测[19]再到医学成像[35]。此外，由看不见的事件引发的惊喜正在成为强化学习环境中的一个关键方面，作为好奇心驱动的探索的一个促成因素[31]。然而，在这种情况下，新的例子的定义和标签是不可能的。因此，文献同意通过模拟前者的内在特征来近似分离正常样品和新样品的边界的理想形状。因此，先前的工作通过遵循来自无监督学习范式的原则来解决这样的问题[9，34，11，23，27]。由于缺乏监督信号，特征提取的过程及其正态性评估的规则只能由代理目标指导，假设后者将为手头的应用定义适当的边界。根据认知心理学[4]，新颖性可以用记忆一个事件的能力来表达，也可以用观察到的事件所引起的兴奋后者在数学上根据在预期模型下发生的低概率或通过降低变分自由能来建模[15]。在这个框架中，先验模型利用参数[46]或非参数[13]密度估计。显然，记住一个事件意味着采用由正常原型字典表示的记忆-如稀疏编码方法[9]-或由输入空间的低维表示表示，如自组织映射[18]或最近的深度自动编码器。因此，在新颖性检测中，通过测量重构误差[11，23]或通过执行区分性分布内测试[34]来评估给定样本的记忆能力我们的建议通过将记忆和记忆方面合并到一个独特的框架中来为该领域做出贡献：我们设计了生成无监督模型（即，一个自动编码器，在图中表示。1i）利用端到端训练，以最大限度地提高正常样本的记忆效果，同时最大限度地减少其潜在代表的重复。后一点是通过自回归密度估计器使潜在表示的可能性最大化来实现的，该自回归密度估计器结合重构误差最小化来我们表明，通过联合优化这两项，该模型隐含地寻求最小熵表示，保持其记忆/重建能力。虽然熵最小化方法已被用于深度神经压缩[3]，但据我们所知，这是第一个建议481482专为新奇检测而设计在内存方面，我们的程序类似于使用尽可能少的模板原型的正常性的概念。此外，评估估计器的输出使得能够评估给定样本引起的误差。2. 相关工作基于重建的方法。一方面，许多作品倾向于学习参数投影和重建正常数据，假设离群值将产生更高的残差。传统的稀疏编码算法[45，9，24]坚持这样的框架，并将正常模式表示为几个基本分量的线性组合，假设新的示例将在学习的子空间中表现出非稀疏表示。在最近的作品中，投影步骤通常来自深度自动编码器[11]。在[27]中，作者通过在学习的表示上施加稀疏正则化来恢复稀疏编码原则，而而不是针对似然值。因此，基于GAN的模型采用不同的算法来评估新颖性。例如，在[35]中，利用引导的潜在空间搜索来推断它，而[32]直接查询正态性得分。3. 该模型最大化潜在表示的概率与降低正常配置模型的概率相似，定义为潜在变量实例的负对数密度[39]。相反，记忆能力可以通过给定样本在其潜在表征下的重构准确度来评估。我们在潜变量模型设置中对上述方面进行建模，其中训练样本p（x）的密度函数通过辅助随机变量建模z，描述了所有观测结果背后的因果因素集，vations.通过因式分解∫递归神经网络加强了它们沿时间维度的平滑性。在[34]中，作者采用了p（x）=p（x|z）p（z）dz，（1）对抗性框架的优点，其中采用判别器网络作为实际的新颖性检测器，通过执行离散分布内测试来发现异常。相反，未来帧预测[23]利用其对过去帧的知识最大化下一帧的期望;在测试时，观察到的与预测含量的偏差提示异常。与上述工作相类似，我们的建议依赖于对潜在表征的先验分布进行建模。这种选择与密度估计社区最近的工作是一致的[38，6]。然而，据我们所知，我们的工作是第一次倡导这种设计选择的重要性，新颖性检测。可能的方法。一个补充线的研究调查不同的策略，以近似正常的外观和运动特征的密度函数在这个领域提出的主要问题是如何估计这样的密度在一个高维和复杂的特征空间。在这方面，现有技术涉及手工制作的特征，例如光流或轨迹分析，并且在此之上，采用非参数[1]和参数[5，28，22]估计器以及图形建模[16，20]。现代方法依赖于深度表示（例如，自动编码器捕获），如高斯分类器[33]和高斯混合[46]。在[13]中，作者涉及到一个核密度估计（KDE）模型，从一个辅助对象检测网络中激活。最近的研究趋势考虑在正常样本上训练生成对抗网络（GAN）。然而，由于这些模型近似于隐式密度函数，因此可以查询它们以获得新的样本其中p（x|z）是观测的条件似然，给定具有先验分布p（z）的潜在表示z，我们可以明确记忆和对新颖性的认知一致性。我们近似边缘化借助于负责识别潜在空间向量的推理模型，|z）是最大的。形式上，我们采用深度自动编码器，其中重建误差扮演p（x）的负对数的角色|z），假设p（x|z）=N（x|其中，Rax表示输出参考值。第此外，在该过程中，通过以下方式注入三氯乙醛：为自动编码器配备一个辅助深度参数估计器，学习潜在向量的先验分布p（z），并通过最大似然估计（MLE）对其进行训练。因此，我们的架构由三个建筑块组成（图1）。1i）：编码器f（x;θf）、解码器g（z;θg）和概率模型h（z;θh）：f（x;θf）：Rm→Rd，g（z;θg）：Rd→Rm，（二）h（z; θ h）：Rd→ [0，1].编码器处理输入 x 并将其映射为压缩表示 z=f（ x;θf ），而解码器提供输入 x 的重构版本 x=g（z;θg）。概率模型h（z;θh）通过自回归过程估计z中的密度，允许避免采用特定的分布族（即，高斯），可能是手头的任务没有回报关于后一点，请参阅补充材料，以与。变分自动编码器[17]。有了这样的模块，在测试时，我们可以评估两个新颖的来源：观察不良的元素483Cout=Cstride=sK=5Cout=Cstride=sK=5Cout=C步幅=1K=5BNcout=cstride=sk_size=3BNCout=Cstride=sK=5BNBNBNCout=c C out=cstride=1 stride=1K=3 K=3Cout= C步幅=1K=3BN BN BN图像输入：2D tr.卷积2D卷积视频输入：3D tr. 卷积3D卷积SSDownsamplingDc上采样Uc剩余Rc（一）潜向量z存储器重建||2||2误差输入样本重建（b）第（1）款定位映射z0zp（z0）p新奇评分1z2新颖度评分zd-1zd可能性潜在向量-logP（z）巴西棕榈属范进入p（zd-1|z j，则为0。类型A强制严格依赖于先前的元素（并且仅用作第一估计器层），而类型B仅屏蔽后续元素。假设每个CPD建模为多项式，最后一个自回归层的输出（以Rd×B为单位）提供了构成空间量化的B个bin的概率估计另一方面，视频剪辑的压缩表示具有维度t×d，t是时间步长的数量，d是代码的长度。相应地，估计网络被设计为捕获代码的观察元素内的二维模式。然而，单纯地插入2D卷积层将假设输入映射的两个轴上的平移不变性为了解决这个问题，我们沿着代码轴应用d个不同的卷积核，允许在前一个时间步中观察整个特征向量，当前的一部分。每个卷积都可以沿着时间轴自由移动，并捕获时间模式。在这种操作中，称为掩蔽堆叠卷积（MSC，图1）。3-（b）），第i个卷积配备了一个核w（i）∈R3×d核，乘以二进制掩码M（i），定义为1如果j=0（i）（i）1ifj=1andk i and type=A输入特征图），从而产生特征向量的时间序列。通过这种方式，编码过程不会在时间步长之间混洗信息，从而确保时间顺序。j，k如果j=1且k≤i且type=B，则为1否则，（七）自回归层。为了保证每个输出CPD的自回归性质，我们需要确保适当的其中j索引时间轴，k索引代码轴。每一个卷积都产生一个列向量，这是它沿着时间的步幅的结果。产生的列向量集我们的VAE估计微分熵W486输入CID输入DDtMSc…输出D奇错(a)（b）第（1）款图3：提出的自回归层，即掩蔽全连接（a，等式6）和掩蔽堆叠卷积（b，等式6）。（七）.对于这两个层，我们表示A型结构。不同的内核颜色表示不同的参数化。从d卷积到输入张量h∈Rt×d×ci的应用水平堆叠以构建输出张量o∈Rt×d×co，如下所示：Do=||[(M(i)⊙w(i))∗h],(8)i=1哪里||表示水平级联操作。4. 实验1我们在三种不同的设置中测试我们的解决方案：图像、视频和认知数据。在所有实验中，对第i个示例的新颖性评估是通过对等式中的重建项（RECi）和对数似然项（LLKi）求和来进行的。在单个新颖性得分NSi中为4：NS i= norm S（REC i）+norm S（LLKi）。（九）使用一组参考实施例S（每个实验不同）对各个分数进行归一化，norm（L）=Li− maxj∈S Lj。（十）S i maxj∈SLj− minj∈SLj更多的实现细节和架构超级参数在补充材料中。4.1. 一类图像新颖性检测为了评估模型在测试阶段，我们提出了相应的测试集，这是由10000个例子的所有类，并期望我们的模型分配一个较低的新颖性得分的图像共享的标签与训练样本。我们使用标准的训练/测试分割，并隔离10%的训练样本，1在github.com/aimagelab/novelty-detection上发布了重现本节结果的代码。MFC输出co487验证目的，并将其用作归一化集（等式中的S）。9）用于计算新颖性分数。关于基线，我们考虑以下几点：- 标准方法，如 OC-SVM [36] 和核密度估计（KDE），采用PCA白化提取的特征;- 一个去噪自动编码器（DAE）共享相同的architecture作为我们的建议，但缺陷的密度估计模块。重建误差被用作正态性与新颖性;- 变分自动编码器（VAE）[17]，也与我们的模型共享相同的架构，其中采用证据下限（ELBO）作为评分;- Pix-CNN [42]，通过直接在图像空间中应用自回归来建模密度;- 基于GAN的方法在[35]中说明。我们在Tab中报告比较。1，其中性能通过受试者工作特征下的面积（AUROC）来衡量，这是任务的标准度量。如表所示，我们的建议在两种设置下都优于所有基线。考虑到MNIST，大多数方法都表现良好。值得注意的是，Pix-CNN无法对除一位以外的所有数字的分布进行建模，这可能是由于直接在像素空间上建模密度并遵循固定的自回归顺序的复杂性。尽管我们在训练过程中观察到了高质量的样本，但仍然记录了如此糟糕的测试性能：实际上，在[ 37 ]中已经激发了样本质量和模型的测试对数似然之间的弱相关性。令人惊讶的是，OC-SVM在这种情况下优于大多数基于深度学习的模型。相反，CIFAR10代表了一个更重要的挑战，正如大多数模型的低性能所证明的那样，这可能是由于图像分辨率差和类别之间的视觉混乱具体来说，我们观察到488MNIST CIFAR10OCSVMKDE DAE VAEPixCNNGAN我们的OCSVMKDE DAE VAEPixCNNGAN我们的0.988 0.885 0.991 0.998 0.531 0.926 0.993 0.630 0.658 0.718 0.688 0.788 0.708 0.7350.999 0.996 0.999 0.995 0.999 0.440 0.520 0.401 0.403 0.428 0.458 0.5800.962 0.476 0.805 0.959 0.649 0.657 0.685 0.679 0.617 0.664 0.6900.950 0.693 0.935 0.947 0.517 0.818 0.966 0.487 0.497 0.556 0.528 0.574 0.510 0.5420.955 0.844 0.921 0.965 0.739 0.823 0.956 0.735 0.727 0.740 0.748 0.511 0.722 0.7610.968 0.776 0.937 0.963 0.542 0.803 0.964 0.496 0.547 0.519 0.571 0.505 0.5460.978 0.861 0.981 0.995 0.592 0.890 0.994 0.725 0.758 0.642 0.695 0.422 0.707 0.7510.965 0.884 0.964 0.974 0.789 0.898 0.980 0.533 0.564 0.497 0.500 0.454 0.471 0.5350.853 0.669 0.841 0.905 0.340 0.817 0.953 0.649 0.680 0.724 0.700 0.715 0.713 0.7170.955 0.825 0.960 0.978 0.662 0.887 0.981 0.508 0.540 0.398 0.426 0.458 0.548平均值0.951 0.814 0.942 0.969 0.618 0.8660.9750.586 0.610 0.590 0.586 0.551 0.5920.641表1：MNIST和CIFAR10上新颖性检测的AUROC结果。每一行都代表一个不同的类，基线和模型都是在这个类上训练的。我们的提议是唯一一个优于简单KDE基线的模型;然而，应通过考虑非参数估计量的性质来正确看待这一发现。事实上，允许非参数模型访问整个训练集，以评估每个样本。因此，尽管它们在密度建模方面有利于大样本集，但随着数据集大小的增加，它们会导致不可行的推断。性能差异背后的可能原因w.r.t. DAE是双重的。首先，DAE可以仅基于重构误差识别新样本，因此依赖于其记忆能力，而我们的pro-bodies还考虑了它们在学习先验下表示的可能性，因此也利用了先验知识。其次，通过最小化潜在分布的微分熵，我们的建议增加了重建的鉴别能力。直觉上，最后一种说法可以被激发，观察到新奇样本被迫驻留在潜在空间的高概率区域中，后者仅限于捕获由训练集产生的不令人另一方面，差距w.r.t. VAE建议，对于手头的任务，应该预先设置一个更灵活的自回归先验在各向同性多变量高斯分布上。在这最后一点上，VAE寻求其平均值收敛于固定和期望值的表示（即，其先验的微分熵），而我们的解决方案在其MLE目标内最小化了这样的量。这种灵活性允许调节潜在表示的丰富性与模型的重构能力。相反，在VAE中，固定先验充当盲正则化器，可能导致过平滑表示;当从补充材料中所示的模型中取样时，这方面也是明显的。图4报告了一项消融研究，该研究质疑等式中给出的损失函数聚合。9 .第九条。图中显示了三种不同新颖性评分下的ROC曲线：i）对数似然项，ii）重建项，以及iii）考虑两者的建议方案。如图所示，在每个数据集中，考虑记忆和记忆方面都是有利的。其他证据请参见补充材料4.2. 视频异常检测在视频监控环境中，新颖性通常被认为是异常的人类行为。因此，我们评估我们的建议对国家的最先进的异常检测，0.90.60.30ROC曲线-MNIST00.3 FPR0.6 0.90.90.60.30ROC曲线-CIFARLLKRECNS00.3 FPR0.6 0.9模型。为此，我们考虑了文献中的两个标准基准，即UCSD Ped2 [8]和ShanghaiTech [27]。尽管视频的数量和分辨率不同，但它们都包含通常在监控场景中出现的异常（例如，行人通道上的车辆、扒窃、斗殴）。对于UCSD Ped，我们预处理了16帧的输入剪辑以提取较小的补丁（我们参考补充材料以了解详细信息），并使用随机高斯扰动这些输入图4：MNIST和CIFAR-10测试集上不同评分策略提供的ROC曲线。每一条曲线都是对十个类的插值。噪声σ = 0。025 我们计算每个输入剪辑的新颖性得分作为所有补丁之间的平均新颖性得分关于上海科技，我们消除了对TPRLLKRECNSTPR489UCSD Ped2上海科技MPPCA [16]0.693-MPPC+SFA [28]0.613-[28]第二十八话0.829-ConvAE [11]0.8500.609ConvLSTM-AE [26]0.881-[第14话]0.822-Hinami等人[13个国家]0.922-[第27话]0.9100.679Stacked RNN [27]0.9220.680FFP [23]0.935-FFP+MC [23]0.9540.728我们0.9540.725图5：在左边，我们的模型的AUROC性能w.r.t.最先进的竞争对手右边是来自UCSD Ped2和上海科技大学的样本的新颖性得分和本地化地图对于每个示例，我们报告评估分数的趋势，用不同的颜色突出显示异常主体进入场景的时间范围通过使用标准的基于MOG的方法估计剪辑的每帧的前景并去除背景来实现该场景我们为模型提供了16帧的剪辑，但地面实况异常是在帧级别标记的。为了恢复每个帧的新颖性得分，我们计算它出现的所有剪辑的平均得分。然后，我们按照等式中所示的相同策略合并损失函数的两项。9，然而，按照异常检测文献中的标准方法，在每个序列的基础上计算归一化系数。然后将每个序列的分数连接起来以计算模型的总体AUROC此外，我们设想这两个数据集的本地化策略。为了这个目的，对于UCSD，我们将帧中表现出最高nov-11分数的块表示为异常。随后，在上海科技，我们采用了滑动窗口方法[44]：正如预期的那样，当用矩形块遮挡异常源时，新颖性得分显著下降。图5报告结果与以前的作品相比，以及关于新颖性得分和本地化能力的定性评估尽管有更一般的公式，灰，我们的建议分数与目前的国家的最先进的解决方案，专门为视频应用设计，并利用光流估计和运动约束。事实上，在没有这样的假设（FFP条目图。5），我们的方法优于UCSD Ped2上的未来帧预测。4.3. 模型分析具有语义特征的CIFAR-10。我们调查的行为，我们的模型中存在不同的假设，关于预期性质的新样本。我们预计，随着这些假设的正确性增加，新颖性检测性能将相应地扩展。这样的特性对于那些先前对新例子的信念可以想象。为此，我们利用了CIFAR-10基准，如第4.1并更改作为输入提供的信息类型。具体来说，我们用ResNet-50提取的语义表示来代替原始图像 [12]，要么在Imagenet上预先训练假定语义新颖性）或CIFAR-10本身（即，假设数据特定的新颖性）。这两个模型在各自的测试集上分别达到了79.26和95.4的top-1分类准确率。尽管这个过程在新颖性检测中被认为是不公平的，但它可以作为一种健全性检查，提供我们的模型在应用于更好的功能时可以实现为了处理密集的输入，我们在估计网络中采用了一个完全连接的自动编码器和MFC层。图6-（a）示出了得到的ROC曲线，其中语义描述符改善了AUROC w.r.t.原始图像输入（条目“无监督”）。这样的结果表明，我们的模型有利地利用了正常和异常输入表示之间的分离，并相应地缩放，甚至达到最佳性能，的正在考虑的任务然而，值得注意的是，不同程度的监督如何产生显著不同的绩效。正如预期的那样，特定于区块链的监管将AUROC从0.64 0.99（满分）。令人惊讶的是，在Imagenet（包含所有CIFAR类）上训练的语义特征向量提供的提升要低得多，AUROC为0.72。这样的结果表明，即使在可以预先知道新颖性的语义的罕见情况下，它的贡献在建模正常性方面的影响也是有限的，主要是因为新颖性可以取决于其他线索（例如，低级统计）。自回归经由复发性层。到测量建议的MFC和MSC层的贡献在第二节中描述。3、对CIFAR-10和UCSD进行4900.90.6ROC曲线-CIFARCIFAR-10LSTM[100]0.623LSTM[32，32，32，100]0.622MFC[100]0.625MFC[32，32，32，100] 0.641UCSD Ped2LSTM[100]0.849100806040DR（眼）VE新颖性评分分布0.3LSTM[4，4，4，100]0.84520MSC[100]0.8490MSC0.954000.3FPR0.6 0.9（一）[四、一百](b)0.000.250.500.751.001.251.501.75新颖度评分图7：左，分配的新颖性分数的分布图6：（a）具有语义输入向量的CIFAR-10 ROC曲线.每一条曲线都是十类中的一个插值。(b)特征空间自回归密度估计的不同结构比较。我们在-用LSTM [F1，F2，.，FN]-同样适用于MFC和MSC-N层中的每一层的输出形状，估计器。结果以测试AUROC报告。自回归密度估计。具体来说，我们研究了递归网络，因为它们代表了具有自回归特性的最自然的替代方案。我们将所提出的构建块与由LSTM层组成的估计器进行基准测试，该估计器旨在顺序观察潜在符号z

下载后可阅读完整内容，剩余1页未读，立即下载