GLAD:全局到局部的无监督异常检测

96 浏览量更新于2023-10-16 收藏 17.28MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

55010GLAD: 一个全局到局部的异常检测器0Aitor Artola 1 , 2 , Yannis Kolodziej 2 , Jean-Michel Morel 1 , Thibaud Ehret 101 Universit´e Paris-Saclay, CNRS, ENS Paris-Saclay, Centre Borelli,France 2 Visionairy0aitor.artola@ens-paris-saclay.fr0摘要0学习如何检测生产工厂中的自动异常仍然是一个机器学习挑战。由于异常定义上无法学习，它们的检测必须依赖于非常准确的"正常模型"。为此，我们在这里介绍了一种用于神经网络特征的全局到局部高斯模型，该模型是从一组正常图像中学习得到的。这种概率模型实现了无监督的异常检测。首先，使用来自正常数据的所有可用特征学习特征的全局高斯混合模型。然后，通过K-MLE算法的适应性来定位这个全局高斯混合模型，该算法为每个高斯学习一个空间权重图。然后使用这些权重而不是混合权重来检测异常。这种方法能够精确建模复杂数据，即使数据有限。在WideResnet50-2特征上应用我们的方法，在MVTec数据集上的表现优于先前的最先进水平，特别是在对象类别上。它对生产线上常见的扰动（如不完美对齐）具有鲁棒性，并且在内存和计算时间方面与先前的最先进水平相当。01. 引言0图像中的异常检测是找到与其他数据不符合的图像或图像区域。这是许多工业、医学或生物应用中的一个重要问题。对于人类来说，异常检测是一项轻松自然的任务，即使只有一个参考，人类也能达到非常好的检测率。这就解释了为什么质量控制在生产线上历来是由人工操作员负责的。然而，自动化这个过程可以加快、降低生产成本，并消除操作员疲劳引起的性能变化。然而，对于计算机视觉来说，这个问题仍然是一个挑战，因为在任意数据中没有明确和直接的正常性定义。0最近，针对工业应用的无监督异常检测受到了广泛关注，尤其是在MvTec发布了一个新的参考数据集之后[3]。"无监督"的要求是具有挑战性的，但可能会导致真正的通用解决方案。普遍认为，异常检测不是一个经典的分类问题[34]。事实上，异常不会形成明确定义的类别。它们可能是罕见的，也可能没有明确的模式。新的异常类型实际上可能会在以后出现，但应该根据正常数据的过去经验进行正确处理。这使得注释相关数据本质上是不可能的。相反，正常数据是丰富的，可以用来创建准确的模型。这导致将异常检测视为一种超出分布检测问题。在这项工作中，我们因此专注于对正常数据的建模。我们提出了一个全局-局部模型，它扩展了Padim[12]，将精确局部建模的灵活性与全局高斯混合模型的鲁棒性相结合。我们的模型在每个位置上模拟一个高斯混合模型，即使只有少量数据可用时也不会受到维度灾难的影响。由于模型的稀疏性，它与先前提出的简单模型一样高效，并在MVTec数据集[3]上取得了新的最先进水平。02. 相关工作0异常检测在文献中得到了广泛的研究[15, 26,33]。方法可以分为三大类：深度学习之前的方法，基于预训练网络的方法，以及纯粹基于神经网络的方法。0深度学习之前的方法。它们专注于对正常数据进行建模，也称为背景模型。均匀和随机方法[14, 41, 38,39]假设背景模型遵循已知分布。中心-周围方法[19, 18,28]将异常建模为与其周围环境对比的局部事件。zt+1i= arg mink∈�1,K�(ui−µtk)T Σtk−1(ui−µtk)+log |Σtk|+2 log πtk.(1)55020基于稀疏性的方法[24, 4, 7,8]学习表示正常数据的稀疏字典。异常被定义为不满足稀疏条件的数据。非局部方法[47,11]假设正常数据中的每个图像补丁属于图像补丁空间中的一个密集簇。而异常则远离其最近邻。通过对图像补丁进行聚类来测量异常，这直接导致了稀有度的测量。Davy等人的方法[11]弥合了使用预训练网络的方法与使用图像补丁或神经网络特征的方法之间的差距。0使用预训练网络。这些方法使用神经网络将语义信息整合到检测过程中。SPADE[10]使用预训练神经网络和参考图像创建特征库，并使用图像的特征与参考库中的kNN之间的L2范数作为得分。它使用不同层次的特征进行多尺度分析。PatchCore[30]通过添加核心集子采样和特征库的预处理来改进这种方法。MahaAD[29]将每个层次建模为单个全局高斯模型。然后通过计算和阈值化到该高斯模型的马氏距离来检测异常。PaDim[12]扩展了MahaAD[29]，通过在每个位置学习一个高斯模型而不是全局模型。0基于深度学习。使用变分自编码器（VAE），[40]学习正常数据的表示。为了定位异常，使用Grad-cam注意力技术[36]：当图像不是异常时，注意力应该在整个图像上均匀分布，而当图像包含异常时，注意力会发生变化。还提出了一种弱监督版本。在[20]中，根据梯度的分布来发现异常。Liu等人[23]提出了一种类似的注意力技术来检测和定位异常。在[32]中，通过最小化包围数据的超球体的体积来训练深度神经网络的表示。Yi和Yoon[42]建议使用图像的补丁。异常分数仅为编码补丁与其最近邻之间的距离。在[46]中训练了一个P-style网络。它学习从图像中产生结构信息。作者表明，这些信息通常包含异常，并且在重构图像时有助于训练。Li等人[21]使用神经架构搜索来找到更好的深度学习架构。DRÆM[44]使用模拟异常来同时学习重构模型和判别模型。最新的方法[31,16]基于归一化流。归一化流是可逆的神经网络，它学习将数据转换为更简单的分布，通常是高斯分布。03.对神经网络特征进行全局-局部高斯建模进行异常检测0使用Padim[12]，Defard等人提出在神经网络特征空间中为每个像素学习一个多元高斯模型。尽管他们提出使用PCA或随机选择来降低特征的维度，但问题在于对于大多数使用情况来说，维度仍然太大。事实上，他们提出的维度d = 100或d =550仍然需要至少那么多的样本来估计一个非约束的协方差矩阵。在MVTec数据集[3]中，这并不总是可能的。此外，通过降维可能会丢失宝贵的信息。该模型的另一个局限性是在给定位置使用单个高斯模型。事实上，这样的模型可能过于限制性，因为它无法建模多模态分布。受到图像去噪的启发，我们建议利用物体冗余性来学习比单个高斯模型更准确和更具表达力的模型，即使在数据约束下也是如此。事实上，为了弥补数据不足，非局部方法（如[6]）利用自然图像中的冗余性，也称为自相似性，来估计干净数据的模型。这就是为什么我们提出了在图1中总结的全局-局部模型，接下来我们将介绍该模型。03.1. 学习鲁棒的全局模型0Zoran和Weiss[48]已经证明，高斯混合可以忠实地表示自然图像中的所有补丁空间。在这项工作中，我们开发了使用高斯混合作为从应用于一组样本图像的神经网络提取的特征集的全局模型。在下文中，Θ = ( π k , µ k , Σ k ) k =1 , ∙∙∙ K用于表示具有K个分量的高斯混合模型，其中对于给定的k，( µ k , Σ k )定义了一个均值为µ k，协方差为Σk的高斯函数。该高斯函数在模型中的权重由πk表示。传统上，高斯混合是使用期望最大化算法（EM）进行学习的。不幸的是，当应用于高维样本的许多高斯函数时，该算法变得非常缓慢。这就是为什么我们选择了替代算法K-MLE[25]，它适用于指数分布的混合。该算法类似于K-means，并通过使用指数分布的特性进行推广。它更快，因为它将每个样本u i分配给具有索引zi的单个高斯函数，因此不涉及所有样本在每个参数计算中的计算。这导致K-MLE的内存复杂度为O(N)，而EM的内存复杂度为O(KN)。给定一组数据(u i) i =1 , ∙∙∙,N，其迭代归属步骤如下TRAINTESTGMMCNN MASKREFOKNOKGMMπt+1k= |Ct+1k|N, µt+1k=�u∈Ct+1ku|Ck|(2)and Σt+1k=�u∈Ct+1k(u − µt+1k)(u − µt+1k)T|Ct+1k|.(3)ally leads to adding ϵId with ϵ > 0 to the estimated covari-ance to ensure its positive-definiteness. This regularization,however, is not sufficient to stabilize the covariances whenN ≪ d. Hence, we opted for a shrinkage regularizer [9]which takes the form of a convex combination of the em-pirical covariance of the samples ˆS and of the average of itseigenvalues multiplied by the identity ˆF =Tr( ˆS)dId. Theconvex coefficient ρ is chosen to minimize the expectationof the MSE between the theoretical covariance Σ and theregularized estimator ˆΣ:minρ E�∥Σ − ˆΣ∥2F�such that ˆΣ = (1 − ρ) ˆS + ρ ˆF.(4)The optimal solution of the problem is the oracle ρo. How-ever, it requires the knowledge of the theoretical covarianceΣ being estimated,ρo =E�(Σ − ˆS)( ˆF − ˆS)�E�∥ˆΣ − ˆF∥2F�(5)=(1 − 2d) Tr(Σ2) + Tr2(Σ)(N + 1 − 2d) Tr(Σ2) + (1 − Nd ) Tr2(Σ).(6)We use the Oracle Approximating Shrinkage (OAS) [9] es-timator which is better in terms of MSE when N ≪ d. This55030对齐0训练全局0本地0权重映射0q分位数0评分0预训练0概率0图1.无监督异常检测的提出流程。在参考图像上对齐后，将该类别的所有图像输入预训练网络，提取不同层级的特征。这样就创建了每个图像的嵌入。然后，从这些特征中训练一个由全局高斯混合和本地权重映射组成的全局-局部模型。在测试过程中，使用全局-局部模型估计特定位置上特征出现的概率。从概率图中得出全局得分和决策。0然后，考虑集合C t +1 k = { u i | z i = k}，该算法分别计算每个高斯聚类的经验参数，方法是0没有样本的高斯函数被丢弃。我们观察到，与EM相比，这个算法产生的高斯函数更不模糊。直觉上讲，由于EM对每个样本执行加权平均，所有高斯函数都会参与估计，因此所有样本（即使是远离特定高斯函数的样本）都会对估计产生影响。这个好的特性本身就是建模分布尾部时的障碍。事实上，用于建模尾部的数据本来就很少。因此，在EM中，高斯函数，特别是它们的协方差矩阵，很容易过度拟合尾部的数据，从而阻碍异常值检测。传统上，协方差矩阵是使用样本协方差估计器来估计的，该估计器最大化似然。然而，对于大维度d和少量样本N，这个估计器非常不稳定，往往会高估大的特征值和低估小的特征值。产生的协方差矩阵也可能是退化的。这个传统的...iterative estimator is defined byρj =�1 − 2d�Tr(ˆΣj ˆS) + Tr2(ˆΣj)�N + 1 − 2d�Tr(ˆΣj ˆS) +�1 − Nd�Tr2(ˆΣj),(7)ˆΣj = (1 − ρj) ˆS + ρj ˆF.(8)and is shown to converge to an equivalent ρOAS defined byρOAS = min�1 − 2d�Tr( ˆS2) + Tr2( ˆS)�N + 1 − 2d� �Tr( ˆS2) − Tr2( ˆS)d�, 1 .(9)3.2. Back to a local modelAt this stage, the Gaussian mixture model is global, andthe probability of appearance of each feature does not de-pend on its position. This simplification is excessive. Obvi-ously, a feature can be normal at a position and anomalousat another. This is why we propose a method to add backlocalization information to the model, by taking advantageof a preliminary alignment of the tested objects.We have already seen that it is not possible to learn a spe-cific Gaussian mixture per position due to lack of data. Thiswould anyway lead to exceedingly big and slow models.Another option could be to learn a local mixture in a win-dow instead of a specific position. However, this raises theimpractical issue of fixing the size of the window and a vari-able number K of Gaussians at each position, dependingon whether the image contains varying details or is merelyuniform at the considered position. To avoid an excessivelylocal analysis, we therefore opted to keep the (global) pa-rameters (µk, Σk) but to deduce position dependent mixingweights πk(x) from the Gaussian mixture.We chose to adapt the K-MLE algorithm to learn the lo-cal weight map while keeping covariances matrices fixed.Let um(x) denote the feature sample vector of image m atposition x, this yieldszt+1m (x) = arg mink∈�1,N�(um(x) − µk)T Σ−1k (um(x) − µk)+ log |Σk| + 2 log πtk(x),(10)Ct+1k(x) = {um(x)|zt+1m (x) = k, ∀m},(11)πt+1k(x) = |Ct+1k(x)|N.(12)To obtain more samples per position and reduce the numberof false alarms caused by small deformations or slight posi-tional variations of the objects, we perform the computationof the weights at x by using the samples in a small circle ofradius r centered at x.This local weight map has two interesting properties.Firstly, it models each position with a different mixture. Thesecond one is that it turns out to be mostly sparse. This is55040因为K-MLE仅使用相关样本来估计权重，而不像EM一样使用所有可用样本。这种稀疏性的优势是更快的概率推断。03.3. 全局-局部模型的异常检测0传统上，样本被分配给最近的高斯分布以检测异常。然后测量到该高斯分布的马氏距离。然而，这种归属性忽略了高斯分布之间的相互作用。然而，混合中的多元高斯分布可能具有强烈的相互作用和与高斯分布中心不同的局部极大值。因此，在分析新样本时，将混合作为一个整体似乎更合适。使用全局-局部模型，我们使用混合模型计算图像的每个特征向量的概率，从而形成概率图。最先进的方法通常使用该图中的最差值（即最小概率）对图像进行评分，但我们发现q-分位数对于假警报更具鲁棒性。该提出的方法还可以通过在网络的不同层中获取特征来进行多尺度处理。为此，我们对每个选择的层拟合了一个高斯混合模型。然后通过取它们的乘积来聚合概率图，这相当于假设层之间是独立的。04. 实验04.1. 实现和训练细节0与之前的方法（如[29]和[12]）类似，我们使用预训练的网络来提取特征。在ImageNet [13]或Coco[22]上训练的分类和分割网络确实能够学习到包含任务的相关语义信息的通用特征。我们选择了Resnet18[17]和WideResenet50-2[43]作为本节实验中展示的主干。我们使用Zhang[45]提出的实现，因为它被证明比传统版本更稳健。在应用网络之前，所有样本图像都被调整为256×256。用于学习模型的特征从这些网络的三个不同层中提取。以下分别称为第1层、第2层或第3层的层，分别对应网络内部的第一、第二和第三个池化之后的层。它们在不同尺度上提取相关特征。全局混合模型的训练初始化为K =1000个高斯分布。然而，最终模型通常包含较少的高斯分布。如第3.1节所述，OAS正则化导致许多高斯分布被删除。当两次迭代之间的对数似然相对变化小于10^-6，或者迭代次数超过100时，我们停止训练。在训练本地模型时，我们使用相同的停止条件。123ResNet18K-MLE✓✓✓✓0.251.0796.1ResNet18K-MLE✓✓✓✓✓0.280.2998.1WideResnet50K-MLE✓✓✓✓0.750.3497.1WideResnet50K-MLE✓✓✓✓2.900.4398.9WideResnet50K-MLE✓✓✓✓2.500.4498.5WideResnet50EM✓✓✓✓✓3.481.6598.9WideResnet50K-MLE✓✓✓✓3.013.3397.0WideResnet50K-MLE✓✓✓✓5.240.9298.1WideResnet50K-MLE✓✓✓✓✓3.040.6199.1bottlecablecapsulecarpetgridhazelnutleatherMetal_nutpillscrewtiletoothbrushtransistorwoodzipper010203040506070% of nonzero weights in weight maplayer 1layer 2layer 3We present in Table 1 an ablative study of most methodparameters.We first looked at the backbone pre-trainednetwork.Overall, we found out that Wide-ResNet50-2performed better than ResNet18 by 1% but produced alarger model, requiring about ten times more memory andlonger computation time. Indeed, WideResNet50-2 featureshave a larger dimension for each respective layer. Takingthat into account, our model using a ResNet18 backbonebrings a good compromise between performance and effi-ciency. We also compared with various combinations ofWideResnet50-2 layers. There is no gain taking only 1+2and 2+3 compared to ResNet18. The performances usinglayers 2+3 are almost the same as using 1+2+3, but theweight of the model is almost the same because the covari-ances of the last layer occupy the majority of the model’sspace.However, removing the first layer also removesits probability calculations, which decreases the inferencetime. Nevertheless, using all three layers (1+2+3) yieldedthe best results. It also shows that the model trained usingK-MLE is more efficient than the one trained with EM.55050主干混合训练本地加权使用的层 OAS 收缩内存（GB）计算时间（s） AUROC0表1.对提出模型的主要参数进行剥离研究。其他参数在第4.2节中讨论。内存消耗和计算时间是对所有MVTec对象进行平均。报告的时间不包括对齐（约0.2秒）。0图2.WideResNet50-2特征学习的局部权重图的稀疏性，对应于第1层、第2层和第3层。平均而言，全局模型中只需要少数高斯分布来很好地建模给定位置。这个观察结果不适用于纹理。0权重图；根据经验，它从不超过10次迭代。全局模型的训练通常在达到最大迭代次数之前就已经收敛。全局方法的训练时间根据层和对象的不同，通常需要20分钟到2小时。我们还指出，使用EM训练模型比使用K-MLE在相同条件下要慢2.5倍以上。我们在图3中展示了WideResnet50-2第1层特征学习的权重和局部稀疏图的示例。权重图和局部稀疏图都能够识别出对象的一般结构。在MVTec数据集的其他对象和一些纹理图上也可以得出类似的观察结果。这证实了每个高斯函数描述了图像的一个特定结构元素，可以在多个不同位置找到。相反，局部稀疏图突出了每个位置可能存在多个相关高斯函数的事实。对于MVTec数据集的所有对象，我们选择了一个单一的参考对象，用于对该类别的所有图像进行对齐。与[2]一样，我们使用[5]对图像进行对齐。与数据集中的对象不同，纹理没有进行对齐。这是因为这可能会在对齐的纹理超出参考对象边界时产生边界问题。对于可能的异常，我们必须避免错误的检测，因为背景没有进行注释。为此，我们对模型的输出进行了粗略的掩蔽处理。这意味着异常只在相关区域中被检测到。对于对象，我们的掩蔽大致对应于对象所占据的区域（示例见图1）。对于纹理，我们从每个异常图中移除了图像大小的1/16的边缘。权重图的模糊参数使用了半径r =1，并使用0.5%的分位数来评分异常。有关分位数影响的研究，请参见补充材料。0我们在表1中展示了大多数方法参数的消融研究结果。首先，我们研究了预训练网络的主干部分。总体而言，我们发现Wide-ResNet50-2的性能比ResNet18提高了1%，但模型更大，需要大约十倍的内存和更长的计算时间。实际上，WideResNet50-2的每个层的特征维度都更大。考虑到这一点，我们使用ResNet18作为主干部分的模型在性能和效率之间取得了良好的平衡。我们还与各种WideResnet50-2层的组合进行了比较。与ResNet18相比，只取1+2和2+3没有任何收益。使用2+3层的性能几乎与使用1+2+3层的性能相同，但模型的权重几乎相同，因为最后一层的协方差占据了模型的大部分空间。然而，删除第一层也会删除其概率计算，这会降低推理时间。然而，使用所有三层（1+2+3）的效果最好。这也表明使用K-MLE训练的模型比使用EM训练的模型更高效。04.2.消融研究103102101100010203040500200400600800rank k106105104103102101100weight kbottle, K = 623cable, K = 492capsule, K = 458carpet, K = 432grid, K = 912hazelnut, K = 451leather, K = 388Metal_nut, K = 448pill, K = 318screw, K = 332tile, K = 409toothbrush, K = 349transistor, K = 479wood, K = 379zipper, K = 344not limiting the modeling power of our method by learninga model initialized with K = 2000 on the grid class. Thismodel converged to K = 1506 Gaussians, so more than theinitial model allowed for, but this increase did not translateinto better detection: the larger model yielded an AUROCof 98.8% compared the 98.7% of the original model.We studied the impact of the OAS regularization. With-out it, we observed that the number of Gaussians remainedclose to the initial number, thus requiring longer computa-tion times and more memory. Moreover, as can be seen inTable 1, the performance dropped by 1%. This leads us tobelieve that the proposed regularization, which depends ond and |Ctk|, avoids overfitting and generalizes better.We present additional ablation studies, such as morestudies on the impact of the initial K, the impact of thealignment step on MVtech and the histogram of likelihoodusing either EM or K-MLE to train the mixture.55060图3. WideResnet50-2第1层胶囊的局部权重图示例。从左到右：胶囊的图像，对应于单个高斯函数的局部权重图，以及高斯混合模型中每个位置的非零权重数量为458。0我们还测量了我们的定位步骤与仅使用全局高斯混合模型相比的影响。定位有两个好处：一是在性能方面，另一个是在效率方面。我们观察到全局模型和我们的全局-局部模型之间的AUROC差异约为2%。这表明定位信息可以更好地区分异常和正常数据。从逻辑上说，一个特征在某个空间位置上可能是正常的，而在另一个位置上可能是异常的。在效率方面，定位可以将计算时间减少三到四倍，而内存成本非常小。内存成本来自局部权重图，其存储空间与图像大小乘以需要存储的高斯函数数量成正比。实际上，该图是稀疏的，因为每个位置只有少数非零权重。这意味着在给定位置评估概率时，不需要使用模型的所有高斯函数。由于从高斯函数估计概率是模型的瓶颈，每个样本考虑的高斯函数数量的减少会显著加快速度。我们在图2中展示了这种稀疏性。它显示了平均上只有约10%的高斯函数用于给定位置。这个观察结果不适用于纹理，因为相同的特征可以在图像的任何位置以相同的概率找到。因此，我们预计我们的模型在纹理上的性能稍微下降。0然后，我们研究了在随机初始化变化时训练过程的稳定性。这样做不会改变特定层的给定对象的学习到的Gaussian数量K的数量级。最终的Gaussian数量似乎与对象的复杂性相匹配。纹理（除了网格）、药片或拉链都具有较低数量的Gaussian，而瓶子由于其变异性需要更高数量的Gaussian。图4显示了在WideResnet50-2的第1层特征上训练的全局模型的权重πk的衰减情况，该模型针对MVTec数据集的所有类别。除了网格外，所有模型都收敛到比初始K =1000更小的Gaussian数量。然后，我们验证了初始Gaussian数量没有限制我们的方法的建模能力，通过使用K = 2000在网格类上初始化模型。该模型收敛到K =1506个Gaussian，比初始模型允许的数量更多，但是这种增加并没有转化为更好的检测结果：较大的模型的AUROC为98.8%，而原始模型为98.7%。我们研究了OAS正则化的影响。没有OAS正则化，我们观察到Gaussian的数量保持接近初始数量，因此需要更长的计算时间和更多的内存。此外，如表1所示，性能下降了1%。这使我们相信所提出的正则化，它取决于d和|Ctk|，可以避免过拟合并具有更好的泛化能力。我们还提供了其他消融研究，例如关于初始K的影响、MVtech上对齐步骤的影响以及使用EM或K-MLE训练混合模型的似然直方图等。0图4. WideResNet50-2第一层（d =256）全局混合权重πk的衰减。点表示Gaussian满足πk < (d + 1)/|Ck|的位置。从那一点开始，Gaussian的协方差矩阵退化。右上角显示每个类别保留的Gaussian数量。其他层的衰减情况请参见补充材料。BackboneEfficientNetResNet-18WideResNet-50-2OtherCarpet93.7-98.498.297.698.498.799.097.099.0Grid100-89.899.098.289.899.698.799.9100Leather100-98.810010098.8100100100100Tile99.6-95.998.498.895.999.999.699.6100Wood99.3-99.098.697.199.099.198.999.1100Textures98.599.096.498.898.496.499.599.299.199.8Bottle99.0-99.610010099.610010099.299.8Cable96.3-85.597.699.692.297.699.891.897.1Capsule91.4-87.093.295.591.597.797.898.598.6Hazelnut98.2-84.199.999.893.310099.810099.3Metal nut98.8-97.498.599.199.299.399.498.799.7Pill99.1-86.993.096.994.496.896.398.999.1Screw100-74.585.990.084.491.997.993.999.6Toothbrush97.4-94.799.910097.299.710010099.1Transistor94.5-92.593.099.897.895.299.693.197.6Zipper94.1-74.196.299.190.998.599.910091.9Objects96.997.287.695.798.094.197.799.097.498.2All97.497.990.596.798.195.598.399.198.098.7AUROC95.098.099.055070MahaAD [29] PaDim [12] PaDim [12] CFlow-ad [16] 我们的方法 PaDim [12] CFlow-ad [16] 我们的方法 DRAEM [44]CS-Flow [31]0表2. 在MVtec上使用AUROC比较最先进的方法。PaDim与EfficientNet的详细结果不可用。0PaDim [12] 我们的方法 DRAEM [44]0表3. 在DAGM [1] 上使用AUROC比较最先进的方法。04.3. 与现有技术的比较0我们在MVTec数据集[3]上与现有技术进行了比较，结果如表2所示。结果使用ROC曲线下的面积（AUROC）指标进行评估。使用WideResNet-50作为骨干网络，我们的方法改进了现有技术0.4%。尽管在纹理方面稍微落后，这是可以预料的，如4.2节所解释的，但在物体类别上表现特别好，相比之前的最佳方法提高了0.8%。该表还显示，我们模型的ResNet-18变体在更轻量级的情况下仍然具有很强的竞争力。当内存和/或计算能力有限时，它是一个很好的选择。我们还在DAGM[1]上展示了结果，如表3所示。虽然我们的模型的目标是在图像级别检测异常，但可以从我们模型估计的概率中估计出粗略的热图。我们将它们与其他方法在表6中进行了质量比较。虽然CFlow-ad[16]仍然是最好的方法，但我们提出的方法仍然是第二好的，具有竞争力的性能。MVTec数据集的不同类别的一些热图如图5所示。更多热图示例请参见补充材料。我们还与PaDim[12]在表5中进行了内存需求和计算时间的比较。总体而言，我们的方法在内存和计算时间方面具有竞争力，尤其是使用ResNet18时。请注意，我们的模型的大小0MVTec MahaAD [29] PaDim [12] CFlow-ad [16] DRAEM [44]我们0正常 92.8 94.0 99.0 97.3 98.90随机 73.8 82.7 93.3 94.6 97.70差异 ↓ 19.0 11.3 5.7 2.4 1.20表4.使用AUROC指标对随机版本的MVtec进行的最新方法比较。正常版本和随机版本之间的性能差距越小，越好。0PaDim 我们 CFlow-ad DRAEM CS-Flow0内存（GB）3.8 3.04 0.64 0.36 1.03 计算时间（s）0.63 0.61 0.98 0.94 0.390表5. 在Intel Core i7-10700KCPU上进行的

下载后可阅读完整内容，剩余1页未读，立即下载