无监督纹理异常检测的Zero-shot与Many-shot方法

151 浏览量更新于2023-10-15 收藏 1.02MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5564Zero-shot与Many-shot：无监督纹理异常检测青田佐野利通工业公司公司t.aota@ sanoh.com德慈堂实业有限公司公司t. sanoh.com冈谷孝之东北大学/理化学研究所okatani@vision.is.tohoku.ac.jp摘要无监督异常检测（AD）的研究最近取得了进展，显着提高检测精度。本文重点研究纹理图像，并考虑如何少正常样本需要准确的AD。我们首先强调的关键性质的问题，以往的研究都忽略了：准确的检测变得更加困难的各向异性纹理时，图像方向之间的输入和正常的样本不对齐。然后，我们提出了一个零杆的方法，检测异常，而不使用正常的样本。该方法不存在输入图像与正常图像方向不一致它假设输入纹理是均匀的，检测图像区域，打破了均匀异常。我们提出了一个定量的标准来判断是否这个假设成立的输入纹理。实验结果表明，广泛的适用性所提出的零拍方法和其良好的性能相媲美，甚至高于国家的最先进的方法，使用数百个正常的样本。代码和数据可从https://drive.google.com/drive/folders/100yPzvI3H611CZBxKxFlKWtlPwltkMKl获得。1. 介绍在本文中，我们考虑的问题，检测异常的纹理从其图像。由于这是工业中经常发生的重要问题，计算机视觉方面已经有了许多研究[19，15]。最近的研究将其制定为一个基于现实世界需求的无监督学习问题具体地说，假设一定量的正常图像的可用性，我们希望检测以前看不到的异常。在进行了一些试验之后[19，14]，最近发现使用在ImageNet上预训练的CNN（或ViT [10]）的中间特征是有效的。将它们与简单的基于距离的分类器[6，16，7，17]一起使用比其他方法大的优势，例如，使用自动编码器等的基于重建的方法。[1，3，8]。这种图1. MVTec AD数据集[1]的纹理图像示例及其通过建议的零拍摄方法计算的异常评分。tures将MVTec AD [1]（异常检测的标准基准数据集）的检测性能推向了近乎完美的检测精度。因此，异常检测（AD）研究的目标将转向更具挑战性的问题.可能的研究方向之一是少射AD，即，在仅有少量正常图像可用的情况下检测异常。在本文中，我们考虑如何很少的正常样本需要准确的纹理AD。我们首先强调了先前的研究所忽略的问题的关键性。即，当输入纹理是各向异性的（即，具有定向图案）以及当输入图像和正常图像的定向不对准时。它的影响在较少的镜头设置中更为显著。存在多种解决方案，例如，增加正常样本的数量或对准图像方向。后一种策略被用于最近的一项关于少射AD的研究[12];然而，这增加了对准图像取向的另一个困难。接下来，我们提出了一种零拍摄方法，该方法在不使用正常样本的情况下检测纹理异常由于它不将输入与任何正常样本进行比较，因此它不存在上述图像取向问题。该方法使用与上述现有异常检测方法相同的预训练CNN特征。为什么零拍广告是可行的？考虑到AD是为了找到与正常样本不同的图像/区域，在不知道什么是正常的情况下似乎不可能做到这一点。答案是，我们的方法解决了它，通过con-5565把它变成另一个问题。即，检测破坏输入图像的均匀性的图像区域这一原理可能类似于人类如何检测异常-谎言只从一个单一的图像没有太多的努力;参见图的图像。1.一个基本的假设是，输入的纹理，如果异常自由，有一定程度的同质性在他们的本地外观。我们提出了一个定量的标准，以检查如果这个假设成立的输入纹理。它使我们能够提前判断所提出的零拍AD方法的有效性我们报告的实验结果进行验证我们的方法。他们表明，提出的零拍摄方法实现了平均图像级AUROC为99 。 MVTec AD 中五种纹理的 6% 。这种性能与PatchCore [17]相当， PatchCore是数据集的 SOTA方法，达到99。0%（AUROC）在相同的五个纹理时，使用数百个正常的图像;在五次发射设置中，其性能下降到93.0%。为更详细的分析，我们创建了一个数据集命名为DTD-合成通过借用不同的纹理图像从DTD（可描述纹理数据集）[5]和合成不同的异常模式。结果验证了上述关于织构取向的观点。它们表明，我们的零次发射方法在100次发射设置中实现了与补丁核心相当的检测精度，即，图像级AUROC 98.9% vs. 98.0%。我们还展示了Aitex织物数据集[21]和DAGM2007 [22]的结果，这也验证了我们方法的有效性。2. 相关工作从图像中检测异常的问题有很长的研究历史[4，19，14]。由于空间有限，我们在这里只考虑最近的无监督AD研究。最近的研究可以分为两个因素。一是如何从输入图像中提取特征另一个问题是如何将正态样本表示在异常特征空间中，以识别异常。有两种方法来处理第一个因素，特征提取。一个是学习提取适合AD的特征。它可以进一步分为基于重建的方法[20，3，8]和基于自监督和/或度量学习的方法[2，13]。这些方法通常需要一定数量的正态样本进行训练。另一种方法采用预训练网络的特征[6，16，7，17]。它不需要在正常样本上进行训练，因此更适合于少镜头AD。对于第二个因素也有几种方法，即，如何表示正常样本。最简单的是基于图库的方法，其在特征空间中构造正常样本的图库，并计算从每个输入到图库中其最近邻的另一种方法使用类似高斯分布的参数分布来模拟分布，特征空间中的正态样本[7]。一些研究使用更灵活的模型，如归一化流来表示正态样本这些方法使用该分布来检测异常，通过计算和阈值化输入是正常的概率其他人采用教师-学生框架[2，9]，其中教师网络被提炼为学生网络，并对正常样本做出响应。他们通过检查老师和学生之间行为的一致性来判断输入是否正常。虽然所有这些方法在标准基准（如MVTec AD [1]）中均达到了良好的准确性，但基于图库的方法最适合于少数拍摄设置。另一类则需要一定数量的正态样本来准确地表示正态样本基于图库的方法的代表性方法是SPADE [6]和Patch- Core [17]。他们采用预先训练的CNN特征（或ViT [10]）进行特征提取。因此，它们是免训练的，并且准备好应用于少数拍摄设置。我们将考虑PatchCore，它在MVTec AD数据集上实现了最先进的性能，与我们的零激发方法进行比较。据作者所知，只有少数研究在少数镜头设置中考虑了无监督AD [12，17]。[12]是为少数AD设计的;它将输入图像几何地变换成规范姿态，以应对少数镜头AD所特有的困难。我们可以把它看作是一种解决方案，以应付上述问题的不对齐的图像方向。本研究提出了一种零炮法作为另一种解决方案。值得注意的是，RegAD在少数拍摄设置中的表现不一定比PatchCore更好，稍后将看到。3. 各向异性纹理的异常检测如上所述，基于图库的方法原则上准备好应用于少镜头AD。事实上，它们实现了相当好的性能，特别是对于纹理。然而，它们的结构也有一些复杂性表1示出了PatchCore针对五种MVTec AD纹理的少量激发AD的结果。我们可以看到，这些纹理之间的少镜头检测精度差异很大与使用所有可用样本的情况下相比，少数拍摄的精度显着恶化的网格和适度的木材，分别。另一方面，对于地毯和瓷砖，它仅略微减小;甚至没有变化（即，100%用于1次注射）用于皮革。是什么导致了这种差异？有几个因素导致了这些差异。最重要的一个是纹理的各向同性，即，无论纹理是否具有取向。对于MVTec AD纹理，地毯、网格和木材是各向异性的，而皮革和5566DD{}IJ×××DIJ∥ −∥--表1.PatchCore [17]在五个纹理上的性能（图像级AUROC）（参见图1）。1）MVTec AD [1]在少发射设置中。[17] 假设一组正常图像，=x nn=1，.，N，这些方法使用在特征空间中测量的到每个样本的距离来判断输入x是否包括异常。对于图像特征，它们中的大多数采用使用预先训练的网络从x提取的局部图像特征（例如，ResNet-50或ViT[10]）。L详情如下。设f l∈ RC做一个瓷砖是各向同性或仅略微各向异性。见图1为五种纹理的示例。这种各向同性的差异导致了上述少数发射性能的差异。例如，假设网格等各向异性纹理。如果它的输入图像具有与正常样本不同的方向，则它的局部区域将具有与图库中任何存储的区域不同的特征。然后，基于图库的方法将每个局部区域错误地分类为异常，即使它不是异常。即使在这种情况下，当正常样本具有不同的取向时，其中一个可能碰巧具有与输入相似的取向。如果是这样，基于图库的方法可以正确地对输入进行分类。假设正常样本该分析与网格的结果非常一致;准确度随着射击次数的增加而增加（即，正常样品）。这也适用于木材，但它不太重要。然而，这种解释并不适用于地毯;虽然它是各向异性纹理，但很少拍摄的情况下达到了与所有样本的情况相似的精度。为什么？为什么？这是因为数据集中地毯由于测试样本具有与正常样本相似的特征，因此少次（甚至一次）检测的准确性良好。注意，以上是无监督AD的基本问题;当我们使用基于图库的方法进行演示时，它将类似地影响其它类型的方法。此外，尽管它在少镜头设置中更明显，但它可能会影响多镜头设置中的性能，这纹理各向异性的强度、图像取向的平均差异和正常样本的数目）。4. 零炮异常检测接下来，我们提出了一种用于纹理AD的零拍摄方法。由于它不使用正常样品，因此不存在上述纹理取向的问题。4.1. 重温最先进的AD方法在解释我们的方法之前，我们回顾了无监督AD的基于图库的方法，包括SPADE [6]包括在其空间坐标（i，j）（i = 1，. . . ，W1，j= 1。. . ，Hl）。现有方法使用不同层特征的级联来形成特征向量fijat（i，j）。 PatchCore进一步采用本地感知补丁功能，而不是原来的层功能。选择相对较低的层来提取特征fij，对它们进行平均池化，以获得池化特征，这些池化特征被用作fij。然后，它们创建正常图像特征的图库G正常图像的F1的集合。SPADE通过找到几个最接近x的图像，为输入图像x按需创建G。PatchCore以离线方式找到正常图像特征的核心集，并创建G。为了检测给定图像x的异常，SPADE和PatchCore提取x的f ij，并在G中的每个（i，j）处搜索f到f ij的最近邻居。如果距离ff ij2高于判断预定义阈值x包含异常在（i，j）处。4.2. 拟定的零激发方法现在，我们考虑从纹理图像以零拍摄方式检测异常。正如在第二节中所解释的。1，我们将问题重新表述为：如果有任何区域看起来与其它区域不同，则我们认为该图像是异常的，否则是正常的。这也被重述为：图像中的纹理是否均匀。严格地说，该公式仅对图像级异常检测有效，即，检测所述输入图像是否异常，因为其包含异常区域。然而，这将在温和的假设下适用于像素级检测，如稍后将讨论的。为了对输入图像x执行上述判断，我们使用如上述方法中的预训练CNN从其提取特征f ij;细节将在后面给出。然后，我们考虑评估不同图像点（i，j）处的特征fij的相似在用于这样做的几种候选方法中，我们考虑判断每个图像点（i，j）处的特征fij是否在其他图像点处具有许多相似特征。为此，我们创建了一个要素库G作为G={f ij|i = 1，. . . ，W1，j = 1，. . . ，Hl}。（一）注意，与上述不同，G在这里可以包含异常向量现在，为了进行上述判断，我们计算从fij到其最近的K的平均距离dijNum. 镜头1510100所有地毯98.698.798.698.898.6网格52.369.582.796.697.3皮革100100100100100瓷砖98.498.598.698.698.9木材98.398.698.698.899.45567××≤W，1≤Σ--≡G的邻居4.3. 预测方法国际新闻报1= Kf∈Np（fij）dist（fij（f）、（2）如上所述，我们的方法判断输入纹理的同质性。一个基本的假设是，输入纹理是均匀的，如果它是无异常的。在其中Np（fij）是K 个最近邻。然后，如果存在e（i，j）使得dij较大，则图像x是异常的;否则，它是无异常的（即，均质）。像素级异常检测上述方法是为图像级异常检测而设计的，这足以满足大多数现实世界的应用。然而，在一个温和的假设下，同样的方法也可以用于像素级的异常检测。假设正常区域占大多数，异常区域占少数。正如我们的实验所示，它在大多数实际情况下都成立。然后，我们可以使用上面定义的dij直接作为在（i，j）处的局部区域的“异常得分”，从而立即请注意，即使假设不成立，我们的方法仍然可以正确地执行图像级检测;即使异常区域占主导地位的图像，因为我们的方法判断输入图像的纹理均匀性，情况也是从x中提取f ij的细节如下。选择单个层l，我们提取其大小为Wl Hl Cl的激活。在PatchCore之后，我们对其应用本地平均池化然后，我们获得特征向量f ij（i = 1，. . . ，W1，j = 1，. . . ，Hl）。应该注意的是，与上述方法不同，我们不对特征向量应用任何降维在我们的情况下，这是不必要的，因为图库G的大小很小，因此在G上搜索的计算成本也很小。与其他标准CNN一样，所采用的CNN在每个卷积层执行零填充。这使得图像边界处的特征向量fij这可能导致即使图像周边不是异常的也判断为异常。为了解决这一问题，我们遵循现有的方法，并将中心裁剪应用于异常分数图。我们可以基于层l处卷积滤波器的感受野的大小来指定其大小。注意，现有方法也采用中心裁剪。由于零拍摄检测的性质，我们的方法往往需要一个略小的中心区域的作物。还请注意，当我们采用ViT时，可能不需要此过程然后，我们使用双线性插值来调整dij的大小以匹配输入图像x的原始分辨率我们可以选择将高斯滤波应用于调整大小的地图，以移除噪音设d¯ij（i=1. . . ，W，j=1，. . . （二）是重--搜索地图我们通过简单地将d′ij与阈值进行比较来判断像素（i，j）是否异常。张--通过该阈值，我们获得ROC曲线，从该曲线我们计算图像级和像素级AUROC。换句话说，我们的方法只适用于满足假设的纹理。因此，如果我们能够预先判断该方法对单个纹理的适用性，那将是理想的。我们建议使用为每个图像计算的异常分数的最大值，即，<$α（I）maxdij，（3）1≤i j≤H其中I是输入图像。具体地说，假设我们给出了感兴趣的纹理的无异常图像I，我们计算α（I）并将其与预定义的阈值进行比较。当α（I）小于阈值时，我们判断该方法能够可靠地检测出异常我们将在第二节中说明这一标准的有效性五点五量α（I）捕捉了I的亮度结构的一种均匀性。粗略地说，如果α（I）很小，那么我在任何图像位置上看起来都是局部相似的，反之亦然。然后，α（I）对于对象的图像（诸如包含在MVTec AD 中的那些）将是大的，并且对于许多纹理图像将是小的更确切地说，α（I）对于具有均匀随机结构或具有小尺度重复结构的纹理将是小的。对于后者，即使纹理具有精确的重复结构，当I是纹理的特写时，换句话说，当结构在I中仅重复几次时，α（I）将很大。这些与所提出的方法如何以及为什么起作用非常一致，从而保证了α（I）的有效性。但是，我们必须在使用上述标准时进行一些考虑。首先，由于我们使用ReLU网络进行特征提取，当我们将图像亮度I乘以标量a时，所有特征向量及其距离将自动乘以a，假设网络是无偏的。这突出了输入图像的归一化的重要性我们采用与先前研究相同的归一化方法，该方法使用亮度在训练分割上的均值和方差，数据集。此外，虽然我们的方法通过阈值化异常得分d′ij来检测异常，但我们通过阈值化最大值α（I）来判断该方法这意味着该标准隐含地假设异常的分数应该位于特定的范围内。我们把这些验证留给第二节的实验五点五5. 实验结果5.1. 实验设置网络和超参数根据以前的研究[6，7，17]，我们选择WideResnet-50-2 [24]预处理，5568××××××××××××××××××在ImageNet上进行特征提取训练。在PatchCore的基础上，我们选择了一个相对较低的层来提取特征;具体地，我们选择总共四个块中的第二个块的输出。在前面的研究之后，我们首先将输入图像调整到固定的分辨率。考虑到图像边界处的零填充的上述效果，我们将图像调整为略高的分辨率（即， 320320）比以前的研究（即，256 256）。然后，所选图层的分辨率为4040结果，特征图库G包含大小为512的1,600个向量。它们是局部平均汇集的补丁大小3 - 3（S=3）。然后，我们计算该图层的异常得分图根据等式（二）、对于图库中最近邻居的数量K，我们设置K=400。只要K很大，结果对它的选择就不敏感。详细分析见补充资料。我们将所计算的异常分数图调整为输入大小，即，320三百二十在应用具有σ=4的高斯滤波器之后，我们将大小为256 256的异常分数图居中裁剪，我们方法的最终输出。值得注意的是，以前的研究选择256 256的输入大小和224 224的中心作物，而我们的是320 320和256 256，分别。如上所述，我们选择配置来应对在零激发设置下更严重与以前的研究一样，我们将相同的调整大小和中心裁剪应用于地面实况检测掩模，这使得我们的评估与以前的研究略有不同。为了进行公平的比较，我们在实验中评估了SPADE和PatchCore在相同设置我们遵循原始论文的超参数。在整个实验中，我们选择25%作为PatchCore中的内存组子采样水平。检测精度的评估我们遵循先前的研究来评估图像级和像素级检测精度。它们分别通过异常图像和像素的检测的AUROC来测量。我们考虑将图像级AUROC作为评估方法的主要指标，因为从实用的角度来看，它将更加重要考虑到输入图像的尺寸相对较小，从业者将发现能够准确地检测包含异常的图像比分割图像内的异常像素更重要。5.2. 数据集现有的数据集我们使用MVTec AD数据集中的五个纹理类[1]（Sec.5.3）。每类约有240幅正常样本图像，其分辨率从700700比10241024像素。我们调整每个im-年龄为320 320像素，并将其中心裁剪为256 256用于异常检测及其评估的像素，如所解释的以上我们还在Aitex织物数据集[21]和DAGM 2007数据集[22]（Sec.5.6）。DTD-Synthetic为了验证我们在第二节中的论点。3并在更多样化的数据上测试所提出的零射击方法，我们创建了一个新的数据集。我们选择了DTD（可描述纹理数据集）[5]，这是为了研究纹理分类而创建的，因为它具有纹理的多样性。借用DTD的图像，合成了具有异常的纹理图像。我们将数据集称为 DTD-Synthetic，如下所示。DTD由47个纹理类组成，每个纹理类包括120个不同的纹理图像，因此总共有5，640个不同的纹理图像。我们从中选择了12幅适合这里目的的它们的分辨率范围从300 300到640 640像素。为了证实我们关于纹理方向的论点，我们从原始图像中裁剪出一个宽度和高度为60%的正方形区域，并以随机的方向和位置生成多幅图像;参见图2。这也模拟了在工厂等处的图像获取。好.因此，每个纹理的结果图像的大小范围从180 180到384 384取决于它们的原始图像。然后，我们合成这些图像中的异常图案，如图所示。2.我们考虑五种类型的异常模式，即，线、颜色、大小、弯曲和形状，以模拟MVTec AD之后的工业检测场景。对于每个图像，随机选择五个类别中的一个，我们将合成异常的单个实例绘制到如上1所生成的正常图像的随机位置中。我们将所选的12种纹理分为以下三类。每个类别包含四种不同的纹理。类别-1：各向异性纹理，具有完全规则的重复结构。它们类似于MVTec AD中的网格，并且经常在由硬质材料制成的人造物体的表面上发现。第2类：各向异性纹理，具有一些不规则的重复结构。它们类似于MVTec AD中的汽车宠物和木材，通常存在于纺织品和自然物体的表面。3类：各向同性结构，无明显重复图案。它们类似于MVTec AD的瓷砖和皮革;它们没有明确的重复结构。它们的局部结构在任何位置和方向上都是相同的总共有12个纹理。对于它们中的每一个，我们生成100列（即，无异常）图像和超过100个测试图像。后者包含约80个异常图像和20个或更多个正常样本图像。详情见1数据集可从以下网址下载：https://drive.google.com/drive/folders/10OyPzvI3H6llCZBxKxFlKWt1Pw1tkMK1.5569≤图2.创建DTD-Synthetic的正常和异常纹理图像的方法。对于从DTD中选择的图像，以随机位置和方向裁剪具有其60%大小然后，将五类合成的异常图案（即，线、颜色、大小、弯曲和形状）被绘制到裁剪图像的随机位置。补充材料。注意，所提出的零拍摄方法不需要训练图像。5.3. 关于MVTec AD我们首先展示了我们的零拍摄方法在MVTec AD的五个纹理表2显示了其图像级AUROC以及SPADE、PatchCore和RegAD的图像级AUROC。可以看出，我们的方法实现了良好的性能，任何纹理，这是SOTA方法相媲美值得注意的是，RegAD是一种专用于少数镜头设置的方法，在类似设置中不一定比PatchCore表现更好。(It应该注意，我们的、SPADE和Patchcore的结果是在相同的实验设置中获得的，而RegAD的结果是在稍微不同的设置中获得的。）如第3，PatchCore（和SPADE）在少数镜头设置中显示出较低的网格和木材使用更多的镜头会带来更好的性能。有趣的是，RegAD显示了网格的类似行为。如前所述，该行为归因于输入和正常图像之间的方向不对齐。我们的方法没有这种错位问题，从而获得更好的性能。5.4. 关于DTD-Synthetic为了进一步验证，我们在DTD-Synthetic上测试了我们的方法和其他方法。（我们选择PatchCore进行比较。）表3显示了图像级和像素级AUROC的检测精度图3示出了输入图像及其用于十二个纹理的异常分数图的示例对。该方法实现了超过97.2%的图像级AU-ROC的所有12个纹理和100%的5个纹理。然后，我们比较了我们的zero-shot方法与SPADE和PatchCore。为了测试它们在少数镜头设置中的性能，我们将正常样本图像的数量从1改为100。图4显示了PatchCore请注意，我们的方法是零炮法，因此其精度在水平轴上是恒定的。总的来说，即使使用100张正常图像，我们的方法也比PatchCore表现得更好;具体来说，平均12 种纹理的图像级 AUROC 为 98.9% （我们的），98.0%（100次注射的PatchCore）。更详细的观察如下.首先，第一类纹理是这两种方法的三个类别中最困难的。我们的方法在 - tains AUROC 之间的 97.2 和98.9%。这比PatchCore在少数（5）次拍摄设置中要好得多，PatchCore的准确率低于80%，除了穿孔的037。对于四分之三的纹理，具有 100 个正常图像的PatchCore仍然比我们的零拍摄方法差我们可以看到，PatchCore与网格一样，这类纹理都是各向异性的，它们的图像具有随机方向。这些结果很好地同意我们的论点的纹理取向。3.第三章。该方法具有较高的精度（> 98。6%）也适用于2类纹理。PatchCore在少数镜头设置上比我们的差;其准确度较低（<90%），特别是对于编织068和编织104。与Category- 1一样，具有100个正常图像的PatchCore也比我们的零拍摄方法差，除了编织125，其中两种方法都产生100%的AUROC与类别1一样，该类别中的纹理是各向异性的，并且具有随机方向。另一方面，所提出的方法和PatchCore都达到了高精度的第3类纹理。（请注意图的垂直轴的范围。值得注意的是，PatchCore在blotcy 099的1次拍摄设置中达到了100%的准确率，这与我们的方法相同。这些结果进一步验证了我们的论点。这类织构是各向同性的（或不显示明显的各向异性）.因此，纹理取向无关紧要，因为没有取向。这些结果进一步支持了我们的论点。另一个值得注意的是，我们的方法对纤维183的性能比其他三种纹理差，但在少数镜头设置中仍然优于PatchCore。这将是因为纹理的相对较高的不规则性。从图中的例子可以看出。3，纤维硼183比其它的均匀性差。我们将讨论我们的方法的适用性。5570≤×表2.我们提出的零拍摄方法，SPADE [6]，PatchCore[17]和RegAD[12]的MVTec AD的五种纹理上的性能（图像级AUROC）†表示论文中报告的准确性。方法我们黑桃PatchCoreRegADNum. 镜头01510100所有所有†1510100所有所有†2†4†8†平均99.679.079.881.083.285.4-89.593.095.798.598.899.094.796.697.4地毯99.982.685.785.586.787.3-98.698.798.698.898.698.796.597.998.5网格10040.943.545.248.856.9-52.369.582.796.697.398.284.091.291.5皮革10086.383.186.388.690.3-10010010010010010099.4100100瓷砖99.191.093.492.494.995.5-98.498.598.698.698.998.794.395.597.4木材98.994.193.295.497.297.0-98.398.698.698.899.499.299.298.699.4图3. DTD-Synthetic数据集上所提出的零激发方法的示例结果。每一对显示输入图像和异常分数图。表3.在DTD-Synthetic数据集上提出的零炮方法的检测精度（AUROC）。目录类图片AUROC像素AUROC所有类98.998.0目录平均98.096.8网格11498.097.31穿孔03798.997.4编织00197.999.5编织12797.293.0目录平均99.398.4分层15410099.22编织06898.698.3编织10498.697.1编织12510098.9目录平均99.598.9肮脏的09910099.23纤维18397.898.3无毛069100.099.3大理石078100.098.95.5. 预测方法正如在第二节中所解释的4.3，我们建议使用方程的α（I）(3)用于预测所提出的零射击的适用性用于目标纹理的无异常图像I的方法为了测试其有效性，我们将该方法应用于MVTec AD和DTD的图像对于MVTec AD，我们从所有类别中的每个类别的训练分割中选择第一个图像对于DTD，我们使用十二个纹理，包括DTD合成和从其余的DTD纹理中提取额外的纹理。图5显示了每个纹理的数量α（I）与图像级AUROC的关系。观察到两个轴之间存在相当强的相关性。如上所述，MVTec AD的所有五种纹理的准确度非常高，而所有十种对象纹理的准确度非常低。对于DTD纹理，α（I）的分布范围较宽，与其检测精度的分布范围相匹配。我们给出了一些在补充材料中精度低而α（I）高的DTD织构。虽然它们被称为纹理，但它们具有与异常检测场景中考虑的亮度结构不同的我们也可以从图中观察到。5，对于α（I）小于1.5的纹理，检测准确率接近100%.因此，用阈值的大小来判断该方法的适用性是合理的5.6. 其他数据集我们在其他数据集上展示了更多结果，以展示上述策略是如何工作的。我们选择Aitex面料im-ages [21]和DAGM 2007 [22]。前者由七种织物的245幅图像组成。根据以前的研究，我们将每个图像与一个长水平分割成多个图像，然后将它们调整为320 320。我们使用所有的纹理，因为它们满足标准α（I）1。五、后者（即，DAGM 2007）包含十类纹理图像，5571××图4.通过所提出的方法（实线）和PatchCore（虚线）在具有不同数量N的正常图像的DTD-Synthetic上的检测精度（图像级AUROC）由于我们的方法不使用正态图像，因此精度不随N而变化。所提出的方法的一些结果（实线）彼此重叠，因为所实现的AUROC接近100%。图5.图像级AUROC与MVTec AD和DTD-合成数据集上异常评分α（I）的最大值人工合成异常的年龄。我们将原始图像从512 512调整为320 320。我们选择了七个纹理，满足标准;值得注意的是，其中六个的α（I）约为1.5。表4显示了Aitex的结果，表5显示了DAGM 2007的结果。我们的zero-shot方法工作得相当好;它在Aitex的几次拍摄设置和DAGM2007的100次拍摄设置中优于PatchCore表4.Aitex上的结果（图像水平AUROC（%））方法00010203040506我们93.910096.396.1100100100PC-1shot90.210085.491.793.310097.7PC-5shot91.710091.392.697.810099.4表5.DAGM 2007上的结果（图像水平AUROC（%））方法C2C3C5C6C7C8C9我们99.996.295.798.298.979.497.1PC-100shot97.188.789.496.995.378.484.56. 总结和结论我们已经考虑了纹理图像的无监督异常检测我们首先指出了一个至关重要的性质，这个问题在文献中被忽略了：当图像方向未对准时，对于各向异性纹理，准确检测变得更困难。然后我们提出了一个零拍的方法来解决这个问题.由于它不需要正常的样品，所以它没有取向问题。提出的方法假设输入纹理是均匀的，检测图像区域，打破均匀性异常。我们提出了一个定量的标准来判断是否假设成立的输入纹理，这使得预测所提出的方法的有效性为每个纹理。实验结果表明了该方法的有效性。具体而言，零激发方法在MVTec AD的五个纹理上达到99.6%的平均图像级AU-ROC，这优于PatchCore（99.0%），PatchCore是当前最先进的方法。请注意，PatchCore在使用数百张正常图像时会产生最佳结果;由于上述各向异性纹理的取向问题，其精度在少数拍摄设置中恶化。为了进行更详细的分析，我们使用来自DTD（可描述纹理数据集）的纹理图像并添加模拟自然纹理缺陷的合成异常来创建合成数据集，命名为 DTD-Synthetic。使用数据集的结果表明，即使在各向异性纹理的多镜头设置中，所提出的方法也优于PatchCore，并且对于各向同性纹理显示出相当的结果。致谢：这项工作得到了 JSPS KAKENHI 资助号20H05952和19H01110的部分支持。引用[1] Paul Bergmann，Michael Fauser，David Sattlegger，andCarsten Steger. MVTec AD-用于无监督异常检测的全面真实世界数据集。IEEE/CVF计算机视觉和模式识别会议（CVPR），2019年。[2] Paul Bergmann，Michael Fauser，David Sattlegger，andCarsten Steger.不知情的学生：学生-教师5572具有区别性潜在嵌入的异常检测在IEEE/CVF计算机视觉和模式识别会议论文集，第4183-4192页[3] PaulBer gmann ， SindyL ？we ， MichaelFauser ， DavidSat tleg-ger，and Carsten Steger.通过将结构相似性应用于自动编码器来改进无监督缺陷在proc 计算机视觉，成像和计算机图形学理论与应用国际联合会议（VISIGRAPP），2019年。[4] Varun Chandola、Arindam Banerjee和Vipin Kumar。异常检测：一个调查。ACM计算调查（CSUR），2009年。[5] M. Cimpoi，S.马吉岛Kokkinos，S. Mohamed，和A.维达尔迪描述野外的纹理。IEEE计算机视觉和模式识别会议（CVPR），2014年。[6] Niv Cohen和Yedid Hoshen。利用深金字塔对应关系的子图像异常CoRR，2020年。[7] Thomas Defard、Aleksandr Setkov、Angelique Loesch和Romaric Audigier。Padim：一个用于异常检测和定位的补丁分布建模框架。国际模式识别会议（ICPR），2021年。[8] 德阿纳、奥里尔·弗里戈、塞巴斯蒂安·科姆莱和皮埃尔·埃兰。基于迭代能量的投影在正常数据流形上的异常定位。国际学习表征会议（ICLR），2020年。[9] 邓汉秋和李星宇基于单类嵌入反蒸馏的异常检测IEEE/CVF计算机视觉和模式识别会议论文集，第9737-9746页，2022年[10] AlexeyDosovitskiy，LucasBeyer，AlexanderKolesnikov，Dirk Weissenborn，Xiaohua Zhai，ThomasUnterthiner ， Mostafa Dehghani ， Matthias Minderer ，Georg Heigold，Sylvain Gelly，et al.一张图片相当于16x16个单词：用于大规模图像识别的变换器. 2021年国际学习代表会议集[11] Denis Gudovskiy ， Shun Ishizaka ，和 Kazuki Kozuka.Cflow-ad：通过条件规范化流进行本地化的实时无监督异常检测。在IEEE/CVF计算机视觉应用冬季会议上，第98-107页，2022年[12] Chaoqin Huang ， Haoyan Guan ， Aofan Jiang ， YaZhang，Michael Spratling，and Yan-Feng Wang.基于配准的少拍异常检测。欧洲计算机视觉会议（ECCV），2022。[13] Chun-Liang Li ， Kihyuk Sohn ， Jinsung Yoon ， andTomas Pfister. Cutpaste：用于异常检测和定位的自监督学习。在IEEE/CVF计算机视觉和模式识别会议论文集，第9664-9674页[14] Guansong Pang ， Chunhua Shen ， Longbing Cao ， andAnton Van Den Hengel.用于异常检测的深度学习：审查.ACM计算调查（CSUR），2021年。[15] Marco AF Pimentel，David A Clifton，Lei Clifton，andLi- onel Tarassenko.新颖性检测综述。信号处理，99：215[16] Oliver Rippel Patrick Mertens和Dorit Merhof在预训练的深度特征中对正常数据的分布进行建模以用于异常检测。在proc 国际模式识别会议（ICPR），2021年。[17] Karsten Roth，Latha Pemula，Joaquin Zepeda，BernhardSc ho？ l k opf，ThomasBrox，andPeterGehle r. 为了在工业异常检测中实现完全IEEE/CVF计算机视觉和模式识别会议（CVPR），第14318-14328页，2022年[18] 马可·鲁道夫，汤姆·韦尔拜因，博多·罗森哈恩，还有巴斯蒂安·旺特.用于基于图像的缺陷检测的完全卷积交叉尺度流在IEEE/CVF计算机视觉应用冬季会议论文集，第1088-1097页[19] Lukas Ruff ， Jacob R Kauffmann ， Robert A Vander-meulen ， Gr e'goireMont av on

下载后可阅读完整内容，剩余1页未读，立即下载