学生网络：无监督异常检测方法的改进及应用

115 浏览量更新于2023-10-23 收藏 1.2MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4183不知情的学生：Paul Bergmann Michael Fauser David Sattlegger Carsten Steger MVTec SoftwareGmbHwww.mvtec.com{paul.bergmann，fauser，sattlegger，steger}@ mvtec.com摘要我们引入了一个强大的学生网络被训练为回归描述性教师网络的输出，该描述性教师网络是在来自自然图像的补丁的大数据集上预训练的这就需要事先进行数据注释。当学生网络的输出不同于教师网络的输出时，检测到异常。当他们无法在无异常训练数据的流形之外进行泛化时，就会发生这种情况。学生网络中固有的不确定性被用作指示异常的附加评分函数。我们将我们的方法与大量现有的基于深度学习的无监督异常检测方法进行了比较。我们的实验证明了在许多真实世界数据集上的最先进方法的改进，包括最近引入的MVTec异常检测数据集，该数据集专门设计用于基准异常分割算法。1. 介绍在计算机视觉的许多领域中，对机器学习模型中出现异常或新颖的区域进行无监督像素精确分割是一项重要且具有挑战性的任务在自动化工业检测场景中，通常期望仅在单类无异常图像上训练模型以在推断期间分割缺陷区域在主动学习设置中，可以将当前模型检测为先前未知的区域包括在训练集中，以提高模型的性能。最近，已经做出努力来改进单类或多类分类的异常检测[2，3，10，11，21，28，29]。然而，这些算法假设异常以图像的形式表现出来。图1：我们的异常检测方法在MVTec异常检测数据集上的定性结果。顶行：包含缺陷的输入图像。中间行：红色的缺陷的地面实况区域。底行：由我们的算法预测的每个图像像素的异常分数。必须进行完全不同的分类和简单的二进制图像级判定图像是否异常很少有工作已经针对的方法，可以分割异常区域，只有在一个非常微妙的方式从训练数据的发展。Bergmann等人[7]为几种最先进的出租方式提供基准，并确定改进的大空间。现有的工作主要集中在生成算法上，如生成对抗网络（GAN）[31，32]或变分自编码器（VAE）[5，36]。这些使用每像素重建误差或通过评估从模型的概率分布获得的密度来检测异常由于重建不准确或校准不良，这已被证明是有问题的[8，22]。许多监督式计算机视觉算法[16，34]的性能通过迁移学习得到改善，即通过使用预训练网络的区分嵌入对于无监督异常检测，这种方法到目前为止还没有被彻底探索。最近的工作表明，这些特征空间推广以及异常检测。4184图2：我们方法的示意图。输入图像通过教师网络提供，该网络密集地提取局部图像区域的特征。训练M个学生网络的集合，以回归教师在无异常数据上的输出。在推理过程中，学生将产生增加的回归误差e和预测不确定性v的像素，其中的感受野覆盖异常区域。利用不同感受野生成的异常图可以被组合用于多尺度的异常分割甚至简单的基线都优于生成式深度学习方法[10，26]。然而，现有方法在大型高分辨率图像数据集上的性能受到阻碍的浅机器学习管道的使用，需要降维所使用的特征空间。此外，它们依赖于大量的训练数据子采样，因为它们的能力不足以用大量的训练样本来建模高度复杂的数据分布。我们建议通过隐式地用学生-教师方法对训练特征的分布进行建模来规避浅层模型的这些限制。这利用了深度神经网络的高容量，并将异常检测框架作为特征回归问题。给定一个描述性特征提取器，在一个来自自然图像的大数据集在推理过程中，学生的预测不确定性与他们相对于教师的回归误差相结合，为每个输入像素产生密集的异常分数。我们的直觉是，学生在无异常训练数据的流形之外的泛化能力很差，并开始做出错误的预测。图1显示了我们方法应用于从MVTec异常检测数据集[7]中选择的图像图2给出了整个异常检测过程的示意图。我们的主要贡献是：• 我们提出了一个新的框架，无监督异常检测的基础上，学生-教师学习。来自预训练教师网络的局部描述符作为学生群体的替代标签。我们的模型可以在大型未标记图像数据集上进行端到端训练，并利用所有可用的训练数据。• 我们引入评分函数的基础上学生自然图像中的gions。我们描述了如何通过调整学生和教师的感受野来扩展我们的方法，以在多个• 我们在三个真实世界的计算机视觉数据集上展示了最先进的性能。我们将我们的方法与一些浅层机器学习类进行比较，筛选器和深度生成模型，直接适合教师的特征分布。我们还将其与最近引入的基于深度学习的无监督异常分割方法进行了比较。2. 相关工作存在大量关于异常检测的文献[27]。用于异常分割的基于深度学习的方法主要集中在生成模型上，例如自动编码器[1，8]或GAN [32]。这些尝试从头开始学习表示，不利用关于自然图像性质的先验知识，并通过将输入图像与像素空间中的重建进行比较来分割异常由于简单的逐像素比较或不完善的重建，这可能导致异常检测性能较差[8]。2.1. 使用预训练网络进行异常检测通过将浅层机器学习模型拟合到无异常训练数据的特征，将预训练网络的区分嵌入向量转移到异常检测任务中，取得了令人满意的结果Andrews等人[3]使用来自预训练VGG网络的不同层的激活，并使用ν -SVM对无异常训练分布进行建模。然而，它们只适用于4185他们的方法对图像分类，不考虑分割的异常区域。Burlina等人已经进行了类似的实验。[10]第10段。他们报告了与从生成模型获得的特征空间相比，判别嵌入的优越性能Nazare等人[24]研究在图像分类任务上预训练的不同现成特征提取器的性能，用于分割监控视频中的异常。他们的方法在从大量无异常训练补丁中提取的嵌入向量上训练1-最近邻（1-NN）分类器在训练浅层分类器之前，使用主成分分析（PCA）来减少网络激活的维度。为了在推理过程中获得空间异常图，必须针对大量重叠的补丁对分类器进行评估，这很快成为性能瓶颈并导致相当粗糙的异常图。类似地，Napoletanoet al.[23]从预先训练的ResNet-18中提取大量裁剪训练补丁的激活，并在使用PCA进行先验降维后使用K-Means聚类对其分布进行建模。他们还在推理过程中执行测试图像的跨越评估这两种方法都从输入图像中采样训练块，因此没有利用所有可能的训练特征。这是必要的，因为在他们的框架中，由于使用非常深的网络，每个补丁只输出一个描述符，特征提取在计算上是昂贵的。此外，由于浅层模型用于学习无异常斑块的特征分布，因此必须大大减少可用的训练为了避免需要裁剪补丁和加快特征提取，Sabokrou等人。[30]以完全卷积的方式从预训练的AlexNet的早期特征图中提取描述符，并将单峰高斯分布拟合到无异常图像的所有可用训练向量即使在它们的框架中更有效地实现了特征提取，池化层也会导致输入图像的下采样。这大大降低了最终异常图的分辨率，特别是在使用具有较大接收场的较深网络层的描述性特征此外，一旦问题复杂度上升，单峰高斯分布将无法对训练特征分布进行建模2.2. 具有不确定性估计的开集识别我们的工作从最近在监督环境中的开集识别的成功中汲取了一些灵感，例如图像分类或语义分割，其中深度神经网络的不确定性估计已被利用来使用MCDropout [14] 或深度集成 [19] 检测分布外的输入。Seeboeck等人[33]证明，来自用MC Dropout训练的分割网络的不确定性可用于检测视网膜OCT图像中的异常Beluch等人[6]表明，在图像分类任务上训练的网络集合的方差作为主动学习的有效获取函数。将对当前模型表现出异常的输入添加到训练集中，以快速提高其性能。然而，这样的算法需要由领域专家对图像进行先验标记以用于监督任务，这并不总是可能的或期望的。在我们的工作中，我们利用预训练网络的特征向量作为代理标签，用于训练学生网络的集合预测方差与系统输出混合分布的回归误差一起被用作评分函数来分割测试图像中的3. Student–Teacher本节介绍了我们建议的核心原则法给定一培训数据集 D={I 1，I 2，. - 是的- 是的，N}的无异常图像，我们的目标是创建-吃了一个学生网络Si的测试图像中的异常J.这意味着它们可以为每个像素分配一个分数，指示它偏离训练数据流形的程度。为此，学生模型针对从描述性教师网络T获得的回归目标进行训练，该描述性教师网络T在自然图像的大数据集上进行预训练。在训练之后，可以从学生的回归误差和预测方差中导出每个图像像素的异常分数给定输入图像I∈Rw×h ×C，宽度为w，高度为h，通道数为C，集合中的每个学生Si输出一个特征图Si（I）∈Rw×h ×d。它包含用于行r和列的每个输入图像像素的尺寸为d的描述符y（r，c）∈RdC.通过设计，我们限制了学生老师T有与学生网络相同的网络架构怎么-它始终保持恒定，并为输入图像I的每个像素提取描述性嵌入向量，其在学生训练期间用作确定性回归目标。3.1. 学习本地补丁描述符我们首先描述如何使用度量学习和知识蒸馏技术有效地构建描述性教师网络T。在使用预训练网络进行异常检测的现有工作中，特征提取器仅输出用于补丁大小的输入或空间上高度下采样的特征图的单个特征向量相比之下，我们的教师网络T有效地输出输入图像内边长为pT是通过首先训练网络来获得的将块大小的图像p∈Rp×p ×C嵌入到一个网格中，仅使用卷积和最大值的d维ric空间4186图3：教师网络T的预训练，以输出补丁大小输入的描述性嵌入向量。一个强大但计算效率低下的网络P的知识通过解码潜在向量来匹配描述，的P。我们还实验了使用基于三元组学习的自监督度量学习技术获得的嵌入。每个特征维度内的信息通过在小批量内对特征维度解相关来最大化。池化层。然后，可以通过如[4]中所述的T到T这产生了显着的加速比以前介绍的方法，执行基于补丁的跨越评估。为了让T输出语义强的描述符，我们研究了自监督度量学习技术以及从描述性但计算效率低下的预训练网络中提取知识。大量的训练块p可以通过从任何图像数据库中随机裁剪来获得这里，我们使用ImageNet[18]。从图像分类任务训练的CNN深层获得的知识蒸馏补丁描述符在使用浅层机器学习模型对其分布进行建模时，对于异常检测表现良好[23，24]。然而，这种CNN的架构通常非常复杂，并且对于局部补丁描述符的提取计算效率低下。因此，我们通过将P的输出与从T获得的描述符的解码版本进行匹配，将强大的预训练网络P的知识提取到T中：Lk（T）=||D（T（p））−P（p）||二、（一）D表示解码d的全连接网络，图4：MNIST数据集的10个样本的嵌入向量可视化。学生平均预测值周围的圆圈越大仅在单一类别的训练图像上进行训练，学生们能够准确地回归仅用于此类（绿色）的特征。对于其他类别的图像（红色），它们会产生较大的回归误差和预测不确定性。整个数据集的异常分数显示在底部直方图中。高斯噪声。负补片p-是通过从随机选择的不同图像中随机裁剪来创建的。使用锚交换的三重硬否定挖掘[37]用作学习对R12度量敏感的嵌入的损失函数Lm（T）=max{0，δ+δ+−δ−}，（2）其中，δ >0表示裕度参数，并且三元组内距离δ+和δ-被定义为：δ+=||T（p）−T（p+）||第二章（三）δ−=min{||二、||T（p +）− T（p −）||（4）||2}(4)描述符紧性Vassileios等人提出。[35]，我们最小化一个小批量输入p内的描述符之间的相关性，以增加描述符的紧凑性并去除不必要的冗余：输出尺寸的T到输出尺寸的预-ΣLc（T）=cij 、（五）训练网络I j度量学习如果由于某种原因预训练的网络不可用，也可以以完全自我监督的方式学习局部图像描述符[12]。在这里，我们研究了使用三元组学习获得的判别嵌入的性能对于每一个随机裁剪的面片p，三个面片（p，p+，p−）被增广。通过在p周围进行小的随机平移、图像亮度的变化以及其中c ij表示在当前小批量中的所有描述符Ti（p）上计算的相关矩阵的条目。然后，T的最终训练损失被给出为：L（T）=λkLk（T）+λmLm（T）+λcLc（T），（6）其中λk，λm，λc≥0为各损失项的加权因子。图3总结了教师判别式嵌入的整个学习过程4187（r，c）（r，c）（r，c）2（r，c）=....（r，c）（r，c）2 23.2. 用于深度异常检测接下来，我们描述如何训练学生网络Si来预测教师在无异常训练数据上的输出。然后，我们从学生的预测不确定性和推理过程中的回归误差中推导出异常分数一是计算所有训练描述符上的分量均值μ∈Rd和标准差σ∈Rd仅分别通过学生和教师网络进行单次前向传递。作为异常的第二个措施，我们计算每个像素的预测不确定性的高斯混合定义的肯德尔等人。[14]，假设学生网络对无异常区域的泛化相似，而对包含训练期间未见过的新信息的区域的泛化不同：用于数据归一化。通过将T应用于数据集D中的每个图像来提取描述符。然后，我们训练一个M≥1个随机初始化学生网络的集合Si，i ∈ {1，. - 是的- 是的，M}，具有相同的网络架构。v（r，c）=1ΣMMi=1||µSi||2−||µ（r，c）||二、（十）真如老师T。对于输入图像I，每个学生输出其在以行r和列c为中心的每个局部图像区域P（r，c）的可能回归目标的空间上的预测分布。请注意，学生具有有限的p型感受野的结构允许我们为了结合两个分数，我们计算平均值eµ，vµ以及在无异常图像的验证集上所有e（r，c）和v（r，c）的标准差e σ，v σ。然后，归一化分数的总和产生最终异常分数：以仅用单个前向传递来获得针对每个图像像素的密集预测，而不必实际裁剪块P（r，c）。学生e（r，c）+v（r，c）=e（r，c）−eµeσv（r，c）−vµ+vσ.（十一）高斯分布Pr（y|p（r，c））=N（y|µSi，s），图4说明了我们的异常的基本原理常数协方差s∈R，其中µS为表示predic-MNIST数据集上的检测方法，其中具有由Si对（r，c）处的像素进行的计算。让yT表示要由学生预测的教师的相应描述符。每个学生网络的对数似然训练准则L（Si）然后简化为特征空间中的平方π 2距离：标签0被视为正常类别，所有其他类别被视为异常。因为这个数据集是非常小的，我们提取了一个单一的特征向量，为每个图像使用T和训练的合奏M=5补丁大小的学生回归教师这导致在每个输入图像的单个异常分数特征L（S）=1Σ ||µSi-（yT-µ）dia g（σ）−1||第二条第七款描述符被嵌入到二维使用多维国际妇女联合会（r，c）（r，c）（r，c）2缩放[9]以保持它们的相对距离。其中diag（σ）−1表示用σ中的值填充的对角矩阵的逆。异常检测的评分函数在训练每个学生收敛之后，可以通过相等地加权集合的预测分布来在每个图像像素处获得高斯混合由此，可以通过两种方式获得异常的度量：首先，我们建议计算混合均值µ（r，c）相对于教师代理标签的回归误差：3.3. 多尺度异常分割如果异常仅覆盖教师的大小为p的感受野的一小部分因此，描述符可以很好地预测的学生和异常检测性能将下降。人们可以通过对输入图像进行下采样来解决这个问题然而，这将导致输出异常图的分辨率的不期望的损失。我们的框架允许明确控制学生和教师的感受野p的大小因此，我们认为，e（r，c）= ||µ（r，c）−（yT-µ）dia g（σ）−1||2（八）我们可以在不同的尺度上检测异常，..1..MΣMi=1SI（r，c）不（r，c）.. 2-µ）dia g（σ）−1..-是的（九）2三个p.在每个尺度下，计算具有与输入图像相同大小的异常图。鉴于L这个分数背后的直觉是，具有不同感受野的神经元对，在推理过程中，异常评分e（l）通过简单平均结合：（l）（r，c）每一个尺度L可以是COM-在训练中没有被发现。请注意，即使对于M=1，e（ r，c）也是非常数，其µ-（yve~4188中仅训练单个学生，并且可以使用1 ΣL -是的Ll=1（l）（r，c）Σ（l）（r，c）.（十二）+v4189类别我们的p=651-NN OC-SVM K-Means神经网络2-AE VAE SSIM-AE AnoganCNN特征字典地毯0.6950.512 0.355 0.253 0.456 0.647 0.204 0.469网格0.819 0.228 0.125 0.107 0.582 0.2240.8490.226 0.183皮革0.8190.446 0.306 0.3080.8190.635 0.561 0.378 0.641瓦0.9120.822 0.722 0.779 0.897 0.870 0.175 0.177 0.797木材0.725 0.502 0.336 0.4110.7270.628 0.605 0.386 0.621瓶0.9180.898 0.850 0.495 0.910 0.897 0.834 0.620 0.742电缆0.865 0.806 0.431 0.513 0.825 0.654 0.478 0.383 0.558胶囊0.9160.631 0.554 0.387 0.862 0.526 0.860 0.306 0.306坚果0.9370.861 0.616 0.698 0.917 0.878 0.916 0.698 0.844金属螺母0.8950.705 0.319 0.351 0.830 0.576 0.603 0.320 0.3580.725 0.544 0.514 0.893 0.769 0.830 0.776 0.460螺杆0.928 0.604 0.644 0.550 0.754 0.559 0.887 0.466 0.277牙刷0.8630.675 0.538 0.337 0.822 0.693 0.784 0.749 0.151晶体管0.701 0.680 0.496 0.3990.7280.626 0.725 0.549 0.628拉链0.9330.512 0.355 0.253 0.839 0.549 0.665 0.467 0.703平均值0.8570.640 0.479 0.423 0.790 0.639 0.694 0.443 0.515表1：MVTec异常检测数据集的结果。对于每个数据集类别，给出了PRO曲线下的归一化面积，最高为每像素30%的平均假阳性率。它测量每个地面实况区域与多个阈值的预测异常区域的平均重叠。每个数据集类别的最佳性能方法以粗体突出显示。4. 实验为了证明我们的方法的有效性，大量的数据集上进行了广泛的评估。我们测量了我们的学生-教师框架与现有管道的性能，为此，我们比较了K-Means分类器、单类SVM（OC-SVM）和1-NN分类器。他们拟合教师的描述符的分布后，事先使用PCA降维。我们还实验确定性和变分自动编码器作为深度分布模型在教师的判别嵌入。重建误差[13]和重建概率[2]分别用作异常分数。我们进一步将我们的方法与最近引入的基于生成和判别式深度学习的异常检测模型进行比较，并报告了比现有技术更好的性能。我们要强调的是，教师没有观察到被评估者的形象，在我们的多尺度方法中，对MVTec AD进行了额外的消融研究，该研究调查了不同感受野对异常检测性能的影响在我们的实验中，我们对学生和教师网络使用相同的网络架构，感受野大小p∈ {17，33，65}。所有架构都是简单的CNN，只有卷积层和最大池层，我们将斜率为5×10−3的泄漏整流线性单元作为激活函数。表4示出了用于p=65的特定架构。对于p=17和p=33，在我们的补充材料中给出对于教师网络工作的预训练，使用从ImageNet数据集增强的三元组图像缩放到相等的宽度和高度，从{4p，4p +1，. . .，16p}，并且在随机位置处裁剪边长为p的补片。然后，通过随机平移裁剪位置来构建每个三元组的正补丁p+在区间{-p-1，. - 是的- 是的，p−1}。高斯噪声，在预训练过程中使用数据集，以避免不公平的偏见。4个4+将标准偏差0.1加到p上。内的所有图像作为第一个实验，我们进行了消融研究，找到合适的超参数我们的算法应用于MNIST [20]和CIFAR-10 [17]数据集上的一类分类设置。然后，我们对更具挑战性的MVTec异常检测（MVTec AD）数据集进行评估，该数据集专门设计用于对异常区域分割的基准评估。它提供了超过5000个高分辨率图像，分为10个对象和5个纹理类别。为了强调一个三元组被随机转换为灰度级，能力0.1为了进行知识提取，我们从ResNet-18的全连接层中提取了512维特征向量，该层已在ImageNet数据集上进行了分类预训练。对于网络优化，我们使用Adam优化器[15]，初始学习率为2 ×10−4，重量衰减为10−5，批量大小为64. 每个教师网络输出维度d=128，训练5×104次迭代。对象纹理4190图5：多尺度下的异常检测：具有大小p = 17的感受野的架构设法准确地分割胶囊上的小划痕（顶行）。然而，更大规模的缺陷，例如缺失的印记（底行）变得有问题。对于越来越大的感受野，较大的异常的分割性能增加，而较小的一个降低。我们的多尺度架构通过结合多个感受野来缓解这个问题。4.1. MNIST和CIFAR-10在考虑异常分割问题之前，我们在MNIST和CIFAR-10数据集上评估了我们的方法，适用于一类分类。五个学生只在数据集的一个类上训练，而在推理过程中，其他类的图像必须被检测为异常。每个图像都被缩放到学生和教师的输入大小p，并且通过将单个特征向量传递到补丁大小的网络T和T来是的我们检查不同的教师网络工作的变化，在教师损失函数L（T）中加权λk，λm，λc。本小节中实验的补丁大小设置为p=33。作为异常检测性能的度量，评估ROC曲线下的面积。浅分布和深分布模型在所有可用分布样本的教师描述器上进行训练。我们为OCGAN [25]（一种最近提出的直接在输入图像上训练的生成模型）有关此数据集上所有方法的训练参数的详细信息，请参阅我们的补充材料。方法MNISTCIFAR-10OCGAN [25]0.97500.65661-NN0.97530.8189KMeans0.94570.7592OC-SVM0.94630.73882-AE0.98320.7898VAE0.95350.7502我们Lk✓LmLc✓0.99350.8196我们✓✓✓0.99260.8035我们✓✓0.99350.7940我们✓0.99170.8021表2：MNIST和CIFAR-10的结果。对于每种方法，给出了在每个数据集类别中计算的ROC曲线下的平均面积对于我们的算法，我们评估了用不同损失函数训练的教师网络。“0”对应于将相应的损失权重设置为1，否则将其设置为0。表2显示了我们的结果。我们的方法优于其他方法的各种超参数设置。将预先训练的ResNet-18的知识提取到教师的描述符中，比使用三元组学习以完全自我监督的方式训练教师产生更好的性能。通过最小化相关矩阵来减少描述符冗余产生改进的结果。平均而言，适合我们老师特征分布的浅层模型和自动编码器的性能由于1-NN可以存储每个训练向量，因此它在这些小数据集上表现出色。平均而言，我们的方法仍然优于所有评估的方法。4.2. MVTec异常检测数据集对于我们在MVTec AD上的所有实验，输入图像被缩放到w = h = 256像素。我们在无异常图像上训练100个epoch，批量大小为1。由于网络的感受野的有限大小，这相当于每批在大量补丁上进行训练我们使用Adam，初始学习率为10−4，权重衰减为10−5。教师网络使用λ k=λ c=1和λ m= 0进行训练，因为这种配置在MNIST和CIFAR-10上表现最好。学生人数M = 3人。根据教师的输出训练浅分类器脚本程序，从教师的特征图中随机抽取向量子集。然后通过PCA降低它们的维数，保留95%的方差。变量和确定性的自动编码器实现使用一个简单的全连接架构，并在所有可用的描述符上进行训练。除了将模型直接拟合到教师[7]在这个数据集上。这些方法包括CNN特征词典[23]，SSIM自动编码器[8]和AnoGAN[32]。所有的超参数都在我们的教程材料中详细列出。4191表3：我们的算法在MVTec AD数据集上针对不同感受野大小p的性能。组合跨多个感受野的异常分数示出了针对许多数据集的类别的提高的性能。我们报告了PRO曲线下面积的标准化，平均假阳性率为30%。我们计算了一个阈值独立的评价metric的基础上每区域重叠（PRO），它的权重不同大小的地面实况区域相等。这与简单的每像素测量（例如ROC）形成对比，对于ROC，正确分割的单个大区域可以弥补许多不正确分割的小区域。它也被Bergmann等人使用。[7]。为了计算PRO度量，首先对异常分数进行阈值化，以针对每个像素做出是否存在异常的二元判定。对于地面实况内的每个连接分量，计算与阈值化异常区域的相对重叠。我们评估了大量增加阈值的PRO值，直到整个数据集的平均每像素假阳性率达到30%，并使用PRO曲线下面积作为异常检测性能的衡量标准。注意，对于高假阳性率，输入图像的大部分将被错误地标记为异常，甚至完美的PRO值将不再有意义。我们将积分面积归一化为最大可实现值1。表1显示了我们的结果，训练每个算法，具有p=65的可比较性的感受野。我们的方法始终优于几乎每个数据集类别的所有其他评估算法。在应用PCA之后直接拟合到教师的描述符的浅层机器学习算法不能对大多数数据集类别执行令人满意的处理。这表明它们的能力不足以准确地对大量可用的训练样本进行建模。对于CNN特征字典可以观察到相同的情况。正如我们之前在MNIST和CIFAR上的实验解码1×1×512 1×1 1表4：我们的网络架构的一般轮廓培训教师T与感受野大小p= 65。斜率为5×10−3的泄漏整流线性单元被用作每个卷积层之后的激活函数。p= 17和p= 33的结构在我们的补充材料中给出。10，1-NN在浅模型中产生最好的结果。利用大量的训练特征和确定性自动编码器提高了性能，但仍然不匹配我们的方法的性能。当前用于异常分割的生成方法（诸如Ano-GAN和SSIM自动编码器）执行类似于适合于教师的判别嵌入的浅层方法这表明，从零开始学习异常检测表示的方法与利用判别嵌入作为先验知识的方法之间确实存在差距。表3显示了我们的算法在不同感受野大小p∈ {17，33，65}和组合多尺度时的性能。对于一些物体，如瓶子和电缆，较大的感受野会产生更好的结果。对于其他的，比如木头和牙刷，相反的行为可以被观察。组合多个尺度增强了许多数据集类别的性能。图5中显示了一个定性示例，突出了我们的多尺度异常分割的好处5. 结论我们提出了一个新的框架，在自然图像中的无监督异常分割的建模问题异常分数来自学生网络集合的预测方差和回归误差，针对来自描述性教师网络的嵌入向量进行训练可以端到端地并且纯粹地在无异常的训练数据上执行包围训练，而不需要先前的数据注释。我们的方法可以很容易地扩展到检测异常在多个尺度。我们展示了对许多真实世界计算机视觉数据集的当前最先进方法的改进，用于一类分类和异常分割。类别p= 17p= 33p= 65多尺度es地毯0.7950.8930.6950.879ur网格0.9200.9490.8190.952XT皮革0.9350.9560.8190.945Te瓷砖0.9360.9500.9120.946木材0.9430.9290.7250.911瓶0.8140.8900.9180.931电缆0.6710.7640.8650.818胶囊0.9350.9630.9160.968CTS榛子0.9710.9650.9370.965比耶金属螺母0.8910.9280.8950.942O丹0.9310.9590.9350.961螺钉0.9150.9370.9280.942牙刷0.9460.9440.8630.933晶体管0.5400.6110.7010.666拉链0.8480.9420.9330.951是说0.8660.9000.8570.914层输出大小参数内核步幅输入65×65×3Conv161×61×1285×5 1MaxPool30×30×1282×2 2Conv226×26×1285×5 1MaxPool13×13×1282×2 2Conv39×9×1285×5 1MaxPool4×4×2562×2 2Conv41×1×2564×4 1Conv51×1×1283×3 14192引用[1] D. Abati、A. Porrello，S. Calderara和R.库奇亚拉用于新颖性检测的潜空间自回归。2019年IEEE/CVF计算机视觉和模式识别会议（CVPR），第481-490页[2] 安镇元和赵成俊基于变分自编码器的重构概率异常检测。新加坡国立大学数据挖掘中心，技术。众议员，2015年。[3] Jerone TA Andrews，Thomas Tanay，Edward J Morton，and Lewis D Griffin.迁移表征-学习异常检测。在ICML2016的异常检测研讨会上，2016年。[4] Christian Bailer ， Tewodros A Habtegebrial ， KiranVaranasi，and Didier Stricker.使用具有池化或跨越层的CNN进行快速密集特征提取。2017年英国机械视觉会议（BMVC）[5] Christoph Baur，Benedikt Wiestler，Shadi Albarqouni，and Nassir Navab.用于脑MR图像中无监督异常分割的深度自动编码模型 arXiv 预印本 arXiv ： 1804.04488 ，2018。[6] 威廉 ·H Beluch ， TimGen e wein ， AndreasNürnberge r ，andJanM. 科勒河集成在行为学习图像分类中的作用在IEEE计算机视觉和模式识别会议上，2018年6月。[7] Paul Bergmann，Michael Fauser，David Sattlegger，andCarsten Steger.MVTec AD-用于无监督异常检测的在IEEE计算机视觉和模式识别会议（CVPR），第9592-9600页[8] 保罗·贝尔格曼、辛迪·洛威、迈克尔·福斯、大卫·萨特莱格和卡斯滕·斯蒂格。将结构相似性应用于自动编码器以改进无监督缺陷分割。第14届计算机视觉、成像和计算机图形学理论与应用国际联合会议论文集，2019年2月。[9] 英格沃·博格和帕特里克·格罗宁现代多维尺度：理论与应用。Journal of Educational Measurement，40（3）：277[10] Philippe Burlina、Neil Joshi和I-Jeng Wang。沃利现在在哪深度生成和判别式嵌入，用于新颖性检测。IEEE计算机视觉与模式识别会议（CVPR），2019年6月[11] 拉哈文德拉·查拉帕蒂，阿迪蒂亚·克里希纳·梅农，和圣杰·舒拉。使用单类神经网络的异常检测。arXiv预印本arXiv：1802.06360，2018。[12] Dov Danon ， Hadar Averbuch-Elor ， Ohad Fried ， andDaniel Cohen-Or. 无监督自然图像补丁学习。计算视觉媒体，5（3）：229[13] Raia Hadsell，Sumit Chopra，and Yann LeCun.通过学习一个不变映射来降低维数.在IEEE计算机视觉和模式识别会议（CVPR），第2卷，第1735-1742页。IEEE，2006年。[14] 亚历克斯·肯德尔和亚林·加尔贝叶斯深度学习在计算机视觉中需要哪些不确定性？神经信息处理系统进展30，第5574-5584页，2017年[15] Diederik P Kingma和Jimmy Ba。亚当：一种随机优化方法。2015年第三届国际学习表征会议[16] Simon Kornblith，Jonathon Shlens和Quoc V.乐更好的imagenet模型传输更好吗在IEEE计算机视觉和模式识别会议（CVPR）上，2019年6月。[17] 亚历克斯·克列日夫斯基和杰弗里·辛顿从微小的图像中学习多层特征。技术报告，Cite- seer，2009年。[18] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的ImageNet分类神经信息处理系统进展，第1097-1105页，2012年[19] Balaji Lakshminarayanan，Alexander Pritzel，and CharlesBlundell.使用深度集成的简单和可扩展的预测不确定性估计。神经信息处理系统进展30，第6402-6413页，2017年[20] 扬·勒昆和科琳娜·科尔特斯MNIST手写数字数据库。2010年。[21] Marc Masana ， Idoia Ruiz ， Joan Serrat ， Joost van deWei-jer，and Antonio M Lopez.度量学习用于新奇和异常检测。英国机器视觉会议（BMVC），2018年。[22] Eric Nalisnick、Akihiro Matsukawa 、Yee Whye Teh、Dilan Gorur和Balaji Lakshminarayanan。深度生成模型知道他们不知道的吗？ arXiv 预印本 arXiv ：1810.09136，2018。[23] 保罗·纳波利塔诺，弗拉维奥·皮科利，雷蒙多·舍特蒂尼.基于CNN的自相似性的纳米纤维材料异常检测。传感器，18（1）：209，2018。[24] Tiago S Nazare，Rodrigo F de Mello，and Moacir A Ponti.预训练的cnns是监控视频异常检测的好特征提取器吗？arXiv预印本arXiv：1811.08495，2018。[25] Pramuditha Perera、Ramesh Nallapati和Bing Xiang。OC-GAN：使用具有约束潜在表示的GAN进行单类新颖性检测。IEEE计算机视觉与模式识别会议（CVPR），2019年6月[26] Pramuditha Perera和Vishal M.帕特尔用于多类新颖性检测的深度转移学习在IEEE计算机视觉和模式识别会议（CVPR）上，2019年6月。[27] Marco AF Pimentel，David A Clifton，Lei Clifton，andLi- onel Tarassenko.新颖性检测综述。信号处理，99：215[28] Alina Roitberg，Ziad Al-Halah，and Rainer Stiefeldings.信息民主：用于动作识别的基于投票的新颖性检测。第29届英国机器视觉会议：BMVC 2018，诺森比亚大学，纽卡斯尔，英国，2018年9月3日至6日。BMVA Press，Durham，2019.[29] Lukas Ruff ， Robert Vandermeulen ， Nico Goernitz ，Lucas Deecke ， Shoaib Ahmed Siddiqui ， AlexanderBinder，Em-manuelMüller，andMariusKloft. 深度一级分类。在Jennifer Dy和Andreas Krause的编辑，第35届机器学习国际会议主席，机器学习第80卷4193Researc h，pages4393PMLR。[30] Mohammad Sabokrou ， Mohsen Fayyaz ， MahmoodFathy，Zahra Moayed，and Reinhard Klette.深部异常：全卷积神经网络用于拥挤场景中的快速异常检测。计算机视觉和图像理解，172：88[31] ThomasSchle gl ， PhilippSeebo¨ck ， SebastianMWaldstein ，Georg Langs ，and Ursula Schmidt-Erfurth.f-Ano

下载后可阅读完整内容，剩余1页未读，立即下载