非对称师生网络用于工业异常检测

200 浏览量更新于2023-10-16 收藏 920KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

2592用于工业异常检测的非对称师生网络Marco Rudolph1 Tom Wehrbein1 Bodo Rosenhahn1 BastianWandt21L3S/LeibnizUni versityHannnov er，German y2 Linko¨ pingUni versity，Swedenrudolph@tnt.uni-hannover.de摘要工业缺陷检测通常用异常检测（AD）方法来解决，其中没有或只有潜在发生的缺陷的不完整数据可用。这项工作发现了AD的学生-教师方法的先前未知问题，并提出了一种解决方案，其中两个神经网络被训练为无缺陷训练示例产生相同的学生-教师网络的核心假设是，两个网络的输出之间的距离然而，以前的方法受到学生和教师架构的相似性，使得距离对于异常是不期望的小。为此，我们提出了不对称的学生-教师网络（AST）。我们训练一个用于密度估计的归一化流作为教师，并训练一个传统的前馈网络作为学生，以触发异常的大距离：与正常数据相比，规范化流的双射性强制异常教师输出的发散。在培训分布之外，由于其根本不同的架构，学生无法模仿这种差异。我们的AST网络补偿错误估计的可能性通过归一化流，这是替代地用于异常检测在以前的工作。我们表明，我们的方法在两个目前最相关的缺陷检测数据集MVTec AD和MVTec 3D-AD上产生了最先进的结果，这些数据集涉及RGB和3D数据的图像级异常检测。1. 介绍为了确保工业制造过程中的产品质量和安全标准，传统上由人来检查产品，这在实践中是昂贵且不可靠的。出于这个原因，最近已经使用深度学习中的先进技术开发了用于自动检查的基于图像的方法[9，18，29，38，39]。由于没有或只有很少的反面例子，即。错误的产品，特别是在生产开始时，以及在该过程中重复出现新的错误，传统的监督算法不能应用于该任务。RGB 3D GT PRED.图1. MVTec 3D-AD的定性结果[8]。左边两列显示输入，第三列显示地面实况，第四列显示异常检测。图像被前景提取掩盖。我们的方法能够成功地结合RGB和3D数据来检测缺陷，即使只存在于一个数据域中。相反，它被假设，只有一个正常类的无缺陷示例的数据是可用的训练，这被称为半监督异常检测。这项工作和其他人[9，22，36，38，39]专门用于工业异常检测。这一领域的不同之处在于，正常的例子彼此相似，并且与缺陷产品相似。在这项工作中，我们不仅展示了我们的方法对常见RGB图像的有效性，而且在3D数据及其组合上，如图1所示。有几种方法试图通过所谓的学生-教师网络来解决这个问题[5，7，19，51，53]。首先，教师接受一个任务训练，学习语义嵌入。在第二步中，训练学生以匹配教师的输出动机是学生可以2593老师学生常态对称师生对输入非对称师生对输入图2.使用mini-MLP的玩具示例：学生们被优化以匹配灰色区域的输出。虽然对称学生-教师对（顶部）无意地概括并且非常类似地映射异常数据，但是学生和教师输出之间的距离可以用于非对称学生-教师对（底部）中的异常检测。仅在正常数据上匹配教师的输出，因为它仅在正常数据上训练。学生和教师的输出之间的距离被用作在测试时的异常的指标。它是假设，这个距离是更大的有缺陷的例子相比，无缺陷的例子。然而，在以前的研究中，情况并不一定如此，因为我们发现教师和学生都是传统的（即，e.非内射）神经网络。具有类似架构的学生倾向于不期望的泛化，使得其针对训练分布之外的输入外推与教师类似的输出，这进而给出不期望的低异常分数。图2使用一维数据的解释性实验显示了这种效应：如果将具有一个隐藏层的相同神经网络用于学生和教师，则对于上部图的黄色区域中的异常数据，输出仍然相似。相比之下，如果使用具有3个隐藏层的MLP作为学生，则异常的输出发散。一般来说，不能保证一个分布外的输入将导致一个足够大的变化，在两个输出，由于共同的神经网络的缺失注入。与标准化流相反，传统网络不能保证为分布外输入提供这些问题促使我们使用不对称的学生-教师对（AST）：双射规范化流[34]充当教师，传统的顺序模型充当学生。以这种方式，教师保证对异常引起的输入变化敏感。此外，不同架构的使用以及因此不同的可学习函数集合的使用加强了分布外样本的远距离输出的效果作为老师的一个借口任务类似于密度估计的似然训练[15]。这种优化本身在先前的工作[22，38，39]中用于通过利用似然性作为异常得分来进行异常检测：正常的可能性低应该是异常的指标。然而，Le和Dinh [28]已经表明，即使是完美的密度估计器也不能保证异常检测。例如，仅仅重新参数化数据就会改变样本的可能性。此外，不稳定的训练会导致错误估计的可能性。我们表明，我们的学生-教师的距离是一个更好的措施异常检测相比，由教师获得的可能性。使用标准化流程本身进行异常检测的优点在于，可以补偿可能性中的可能错误估计：如果正常的低可能性被错误地分配给正常数据，则该输出可以由学生预测，因此仍然导致小的异常分数。如果正常的高可能性被不正确地分配给异常数据，则该输出不能被学生预测，再次导致高异常分数。通过这种方式，我们将学生-教师网络和密度估计的好处与规范化流相结合。我们进一步增强了检测的位置编码和掩模，ING使用3D图像的前景。我们的贡献总结如下：• 我们的方法避免了不希望的泛化，从教师到学生，具有高度不对称的网络作为一个学生-教师对。• 我们通过将双射归一化流作为教师来改进学生-教师网络。• 我们的AST优于教师的密度估计能力，利用学生教师的距离。• 代码在GitHub1上可用。2. 相关工作2.1. 学生-教师网络最初，拥有学习回归教师网络输出的学生网络的动机是提取知识并保存模型参数[23，31，48]。在这种情况下，一个学生与老师的参数明显较少，几乎匹配的表现。以前的一些工作利用学生-教师的想法通过使用他们的输出之间的距离来进行异常检测：距离越大，样品越有可能是异常的。Bergmann等人[7]提出了一个学生的集合，这些学生被训练为针对图像补丁回归教师的输出。这个老师要么是ImageNet预训练网络的蒸馏版本，要么是通过度量学习训练的。异常分数由学生不确定性（通过总体方差测量）和我们优化变换图像特征和/或深度映射到正态分布1https://github.com/marco-rudolph/ast老师学生常态输出输出异常分数2594N∈回归误差Wang等人[51]通过回归特征金字塔而不是预训练网络的单个输出来扩展学生任务 Bergmann 和Sattlegger [5]将学生-教师的概念适应于点云。局部几何描述符以自我监督的方式学习以训练教师。Xiao etal. [53]让教师学习分类应用图像变换。异常分数是回归误差和全体学生的类分数熵的加权和相比之下，我们的方法只需要一个学生和回归误差作为唯一的标准来检测异常。所有现有的工作都是基于相同的和传统的（非内射）网络的学生和教师，这导致不希望的generalization的学生解释在第1节。2.2. 密度估计异常检测可以从统计学角度进行观察：通过估计正常样本的密度，通过低可能性识别异常。异常检测的密度估计的概念可以通过假设多元正态分布来简单地实现例如，预提取特征的Mahalanobis距离可以作为异常分数[12，35]，等效于计算多变量高斯分布的负对数似然。然而，这种方法对于训练分布是非常不适用的，因为高斯分布的假设是一种很强的简化。为此，许多工作尝试使用归一化流（NF）更灵活地估计密度[14，22，38，39，41，44]。NormalizingFlows是一系列生成模型，与传统的神经网络相反，它们通过构造进行双射映射[3，15，34，52]。与其他生成模型（如GAN [21]或VAE [27]）相比，该属性可以实现精确的密度估计。Rudolph等人[38]通过对由预训练的网络获得的多尺度特征向量的密度进行建模来利用该概念。随后，他们将其扩展到多尺度特征图而不是矢量，以避免平均导致的信息丢失[39]。为了处理不同大小的特征图，集成了所谓的交叉卷积。Gudovskiy et al.[22]计算具有条件归一化流的特征图上的密度，其中相似性在局部位置的水平上估计，该局部位置作为NF的条件。归一化流的一个常见问题是不稳定的训练，这在密度估计的灵活性上有折衷[4]。然而，即使地面实况密度估计也不能提供完美的异常检测，因为密度强烈依赖于参数化[28]。2.3. 其他方法生成模型许多方法试图解决基于其他生成模型，而不是将流归一化为自动编码器[9，18，20，37，55，57]或GAN [1，11，42]。这是由于这些模型无法产生异常数据。通常，重建误差用于异常评分。由于该误差的大小高度依赖于异常的大小和结构，因此这些方法在工业检测设置中表现不佳这些方法的缺点是合成异常不能模拟许多真实异常。异常合成一些工作通过综合生成异常将半监督异常检测重新表述为监督问题。训练图像[29，43，46]或随机图像[54]的任一部分被修补成正常图像。创建合成掩模以训练监督分割。传统方法除了基于深度学习的方法之外，还有经典的异常检测方法。单类SVM [45]是一种最大余量方法，它优化了一个函数，该函数为高密度区域分配的值高于为低密度区域分配的值。隔离森林[30]基于决策树，其中样本被视为异常如果它可以通过一些约束与其余数据分离。局部离群值因子[10]比较一个点与其相邻点的密度。相对低的点密度识别异常。由于数据的高维性和复杂性，传统的视觉异常检测方法往往失效。这可以通过将它们与其他技术相结合来规避：例如，如Amer和Goldstein [ 2 ]首次提出的，到最近邻居的距离在通过预先训练的网络提取特征后被用作异常分数[32，36]。或者，点云特征[24]或基于密度的聚类[16，17]可以用于表征点邻域并相应地对其进行标记。但是，运行时与数据集大小呈线性关系。3. 方法我们的目标是训练两个模型，一个学生模型fs和一个教师模型ft，这样学生就学会了只在无缺陷的图像数据上回归教师输出培训过程分为两个阶段：首先，优化教师模型以将训练分布p X双射地转换为具有正态化流的正态分布（0，I）。第二，通过最小化训练样本x X的fs（x）和ft（x）之间的距离来优化学生以匹配教师输出。我们在测试时应用距离进行异常评分，在第3.2节中进一步描述。我们遵循[7，22，39]，并使用ImageNet [13]上的预训练网络获得的提取特征，而不是RGB图像作为我们模型的直接输入。这样的网络已经被证明是通用的特征提取器，其输出2595××⊙··伊茨..成像特征和/或深度位置编码图3.我们的管道概述：教师和学生接收图像特征和/或深度图作为由位置编码调节的输入。首先，由归一化流表示的教师被优化以减少可能被来自3D的前景图掩盖的负对数似然损失。第二，训练学生通过最小化教师输出之间的（掩蔽）距离来匹配教师输出。为工业异常检测提供相关语义。除了RGB数据，我们的方法很容易扩展-能够进行包括3D数据在内的多模式输入如果3D数据可用时，我们将深度图连接到通道上的这些特征。由于与深度图分辨率相比，特征图在高度和宽度上减小了因子d，因此我们通过将dd个像素的深度图像块分组为具有d2个通道的一个像素来应用像素解混洗[56]，以匹配特征图的尺寸。可能存在的任何3D数据用于提取前景。当背景是静态或平面时，这是直接和合理的，这是几乎所有实际应用的情况。当通过屏蔽距离和负对数似然损失来优化教师和学生时，将忽略背景中的像素，这将在第3.1节和第3.2节中介绍。如果没有3D数据可用，则整个图像被认为是前地。前景提取的细节在第4.2.1节中给出。与[22]类似，我们对输入映射的空间维度使用正弦位置编码[50]，用于归一化流的条件Ft.以这种方式，特征的出现与其位置相关，以检测诸如放错位置的对象的异常。图3给出了我们的管道的概述。3.1. 老师与[22，38，39]类似，我们基于Real-NVP [15]训练一个归一化流来转换训练分布图4.教师（左侧）和学生（右侧）的模型架构。虽然教师是基于Real-NVP的[15]条件归一化流[4]，但学生是传统的卷积神经网络。具有n个feat特征的特征图，大小为w h。在这些块内，在随机选择保持固定的排列之后，输入x的通道沿着通道均匀地分成部分x1和x2。这些部分各自与作为静态条件的位置编码c连接。两者都用于通过为每个部分具有子网络si和ti来计算对应物的仿射变换的缩放和移位参数：y2=x2es1（[x1，c]）+t1（[x1，c]）y1=x1es2（[x2，c]）+t2（[x2，c]），其中，是逐元素乘积，[，]表示连接。一个耦合块的输出是y1和y2沿通道的级联。注意，输入和输出的维数不会由于可逆性而改变。为了稳定训练，我们应用标量系数的alpha箝位，如[4]中所示，并应用伽马技巧，如[39]中所示。使用变量变化公式，z作为我们的最终输出正态分布N（0，I）。对比以前p（x）= p（z）。det.、（二）工作，我们不使用输出来计算似然性，从而直接获得异常分数。相反，我们解释为借口任务，为我们的学生网络创建目标的培训。XZ x我们通过优化以下平均值来最小化负对数似然，其中pZ为正态分布N（0，I）规范化流程由多个后续的不伊日河2.谢谢仿射耦合块设输入x∈Rw×h×n壮举是Lij =−logpX（xij）=2−log detIJ阿克斯岛（三）特征提取器NF老师cond.RGB图像任择像素去混洗POS. 桨编码器学生Dist.损前景提取器负对数掩模似然损失深度图像X⸱C通道浓缩固定置换Conv2D（nfeat→nhidden）LeakyReLU偶信道分裂x1x2⸱⸱⸱+y1⸱S1t1e（e（S2t2⸱+⸱⸱⸱⸱Conv2D（nhidden→nhidden）BatchNorm⸱y2通道浓缩ft（x）n型联轴器⸱Lt（阴性）对数似然）Conv2D（nfeat→nhidden）BatchNormLeakyReLU+Bohnst_blocksConv2D（n隐藏 →n专长）fs（x）Ls（距离损失）concatconcat（一）2.2596×∈IJL×IJ0其他L数据集别名MVTec AD（MVT2D）MVTec 3D-AD（MVT3D）RGB图像3D扫描✓1×5✓✓10400-800210-300100-1593-5#类别像边长700-1024每只猫的训练样本数量。60-320每只猫的试验样品数量。42-160每只猫的缺陷类型数量。1-7表1.所用数据集的概述在像素位置（i，j）处的所有（前景）像素上。3.2. 学生与教师相反，学生是一个传统的前馈网络，它不以注入或注入方式映射。我们提出了一个简单的全卷积网络，具有剩余块，如图4所示。每个残差块由3个卷积层的两个序列组成，批量归一化[25]和泄漏ReLU激活。我们添加卷积作为第一层和最后一层，以增加和减少特征维度。与教师类似，学生将图像特征作为输入，如果可用，则与3D数据连接。另外，位置编码c被级联。输出尺寸与教师匹配，以启用像素级距离计算给定训练集X，在输出的像素位置（i，j），我们在训练样本x X上最小化学生输出fs（x）和教师输出ft（x）之间的平方π2距离10个对象和5个纹理类别。测试集中总共有73种缺陷类型，例如，以各种尺寸和形状的位移、裂纹或划痕图像具有700至1024像素的边长。MVTec 3D-AD，我们称之为MVT 3D，是一个非常新的3D数据集，包含2D RGB图像与10个类别的3D扫描配对。这些类别包括可变形和不可变形对象，部分具有自然变化（例如，桃子和胡萝卜）。除了在MVT2D中的缺陷类型之外，还存在仅可从深度图中识别的缺陷，例如压痕。另一方面，存在只能从RGB数据中感知的诸如变色的异常。RGB图像具有每边400至800像素的分辨率，与相同分辨率的光栅化3D点云配对。4.2. 实现细节4.2.1图像预处理在[12，39]之后，我们使用在ImageNet [13]上预训练的EfficientNet-B5[47]的第36层输出作为特征提取器。此特征提取器在培训学生和教师网络。图像的大小被调整为768×768像素的分辨率，从而产生具有304个通道的24×24的4.2.2三维预处理我们放弃了x和y坐标，因为信息量很小S2Lij=<$f s（x）ij− f t（x）ij<$2。（四）对所有（前景）像素的s求平均值可以得到最终的损失。距离s也用于测试以获得图像级别的异常分数：忽略背景像素的异常分数，我们通过计算像素的最大值或平均值来聚合一个样本的像素距离。4. 实验4.1. 数据集为了证明我们的方法在广泛的工业检测场景中的优势，我们总共评估了25种场景，包括2D和3D的自然物体，工业部件和纹理表1显示了所用基准数据集MVTecAD [6]和MVTec 3D-AD [8]的概述。对于这两个数据集，训练集仅包含无缺陷数据，测试集包含无缺陷和有缺陷的示例。除了图像级标签，数据集还提供了关于缺陷区域的像素级注释，我们使用这些注释来评估缺陷的分割。MVTec AD，以下将称为MVT 2D-ing，是一个高分辨率的2D RGB图像数据集，包含肯定的内容，并且在厘米中仅使用深度分量Z缺失的深度值重复填充使用，ING有效像素的平均值从一个8连接的邻域为3次迭代。我们通过插值4个角点的深度将背景建模为2D平面如果像素的深度距离背景平面超过7mm，则假设像素为前景作为对我们模型的输入，我们首先通过双线性下采样将掩码大小调整为192 192像素，然后如第3节所述使用d = 8执行像素解混洗[56]以匹配特征图分辨率。为了检测异常-谎言在边缘的对象和填补缺失值的漏洞，前景掩模使用大小为8的正方形结构元素膨胀我们从每个深度图中减去平均前景深度，并将其背景像素设置为0。具有1作为前景和0作为背景的二元前景掩模M被下采样到特征图分辨率，以掩盖学生和教师的损失这是通过双线性插值f↓，然后进行二进制化来完成的，其中所有大于零的条目都被假定为前景以掩盖位置（i，j）处的损失：Lmas ked=.如果f↓（M）ij>0，则为L ij。（五）2597·类别ARNet[18个国家]德拉姆[五十四]GAN[1]第一章Rippel[35]第三十五届PatchCore[36个]DifferNet[38个]PaDiM[12个]CFlow[22日]CS-流量[39]第三十九届Uninf.种马。[七]《中国日报》STFPM[五十一]AST（我们的）网格88.386.273.570.692.399.910099.697.899.170.884.279.469.983.493.710010099.699.298.210098.798.798.884.097.199.492.999.8-----99.610099.998.799.199.099.910010010098.194.794.799.999.110010095.598.999.299.1±0.2100±0.0100±0.097.5±0.4100±0.0皮革瓷砖地毯木材Avg. 短信了82.299.377.598.598.394.699.099.599.897.398.799.3± 0.08瓶94.168.178.684.387.683.285.566.710010099.298.598.993.110091.810098.793.910089.273.274.379.274.575.778.570.074.665.399.096.391.498.298.899.110097.494.594.110098.196.610099.499.510010098.110099.086.988.891.195.195.999.396.196.398.6----------10097.796.895.298.597.610099.391.999.799.897.198.699.399.799.199.699.197.691.999.092.592.279.494.478.799.189.186.010010088.093.893.793.692.310010088.287.8100±0.099.7±0.199.1±0.199.3±0.199.1±0.198.5±0.2100±0.098.5±0.299.7±0.196.6±0.1胶囊丹晶体管拉链电缆榛子金属螺母螺钉牙刷Avg. 物镜84.897.475.596.999.294.797.297.798.291.093.799.1± 0.03平均83.998.076.297.599.194.797.998.398.793.295.499.2±0.04表2.AUROC（%），用于在图像级检测所有类别MVT2D [6]的缺陷，分为纹理和对象。我们报告了我们的方法在5次运行中的平均值和标准偏差最佳结果以粗体显示除平均值外，作者未提供PaDiM [12]的详细结果STFPM* [51]的数量通过重新实现获得。4.2.3老师对于教师的规范化流架构，我们使用4个耦合块，其以具有32个通道的位置编码为条件每对内部子网络si和ti被设计为具有一个隐藏层的一个浅卷积网络ri，其输出被分成缩放和移位分量。在ri内部，我们使用ReLU 激活，并且对于 MVT2D隐藏通道大小为1024，对于MVT3D隐藏通道大小为64。我们选择α 箝位参数 α = 3 用于 MVT 2D ， α = 1 。 9 为MVT3D。使用Adam优化器[26]，使用作者给定的动量参数β1= 0，分别针对MVT2D和MVT3D训练教师网络240个历元和72个历元。9和β2= 0。999，学习率为2 10−4，权重衰减为10−5。4.2.4学生对于学生网络工作，我们使用n个stblocks=4个残差卷积块，如第3.2节所述。Leaky-ReLU-activations使用0.2的斜率表示负值。我们为残差块选择隐藏通道大小nhidden=1024。同样，我们从教师那里接管epoch和优化器参数的数量。如果前景蒙版可用，则通过最大距离聚合特征图分辨率的分数，以在图像级别进行评估，否则通过平均距离（仅RGB）进行评估。4.3. 评估指标作为常见的异常检测，我们评估我们的方法在图像级的性能，通过计算接收器工作特性（AUROC）下ROC测量取决于假阳性率。对于异常分数的变化阈值的阳性率。因此，它与阈值的选择无关，并且与测试集中的类平衡无关。为了在像素级测量异常的分割，我们在给定数据集中的地面真实掩模的情况下计算像素级的AUROC。4.4. 结果4.4.1检测表2示出了我们的方法的AUROC和用于检测MVT2D的15个类别上的异常的先前工作以及纹理、对象和所有类别的平均值。我们在所有类别的平均检测AUROC上设置了新的最先进性能，将其略微提高到99.2%。这主要是由于在更具挑战性的对象上的良好性能，除了PatchCore [36] 之外，我们的表现优于之前的工作0.9%。CS-Flow [39]几乎已经解决了纹理异常检测问题，平均AUROC为99.8%，在99.3%时仍然非常可靠特别是与两种学生-教师方法[7，51]相比，分别实现了6%和3.6%的显著改善。此外，与当前最先进的密度估计[22，39]的可能性相比，我们的学生-教师尽管MVT2D在过去已将其自身确立为标准基准，但该数据集（尤其是纹理）对于最近的方法来说是容易求解的，并且差异主要在亚百分比范围内，就相对较小的数据集大小而言，这只是微小的差异。在下文中，我们将重点关注更新、更具挑战性的MVT3D数据集，其中正常数据显示对象纹理2598表3. AUROC（%），用于检测3D数据、RGB数据和两者组合的图像级MVT3D [8]所有类别的缺陷。我们报告了我们的方法在5次运行中的平均值和标准偏差。每个数据域的最佳结果以粗体显示。所列方法的编号后接a是通讯作者根据要求获得的未发表结果。A * 表示我们使用了重新实现。从PatchCore的数字取自[24]。方法MVT2DMVT3D（RGB+3D）AE-SSIM [9]87.0-PatchCore [36]98.4-PatchCore+FPFH [24]-99.2AST（我们的）95.0± 0.0397.6± 0.02表4.通过所有类别的平均像素-AUROC及其在5次运行期间的标准差测量的异常分割结果。尽管图像级检测是这项工作的重点，我们的方法是能够定位缺陷的实际目的与AUROC为95%或97.6%。更多的变化和异常仅部分地出现在两种数据模态RGB和3D中的一种中表3中给出了按数据模态分组的MVT3D各个类别的结果。我们能够超越所有以前的方法，考虑到所有类别的平均值为5.1%的3D，5%的RGB和7.2%的组合。面对各个类和数据域，我们在30个案例中的21个案例中设置了一个新的最新技术水平。请注意，该数据集当比较以前工作的最佳结果时，更具挑战性（MVT2D为99.1%，MVT3D的AUROC为86.5%然而，我们在至少93%的AUROC下检测到RGB+3D的10个案例中的7个中的缺陷相比之下，最近邻方法PatchCore [36]在MVT2D上提供了与我们相当的性能，但却难以满足数据集不断增长的需求，并且在RGB上的表现优于这同样适用于使用FPFH [40]的3D扩展[24]，尽管也使用了前景遮罩。图1示出了给定输入和地面实况注释的RGB+3D情况的定性结果。更前-可以在补充材料中找到实例。尽管分辨率较低，但出于实际目的，仍然可以很好地定位异常区域。表4报告了我们的方法和先前工作的像素-AUROC。对于RGB+3D设置中的peach类，图5的顶部比较了异常区域和正常区域的学生-教师距离分布。异常样本的分布显示出明显的向更大距离的偏移。在图5的底部，学生和教师的输出请注意，通过t-SNE [49]或PCA[33]等技术进行的可视化在这里没有因此，不同的随机投影在性质上几乎没有区别4.4.2消融研究我们证明了我们的贡献和设计决策的有效性与几个消融研究。表5比较了学生的变体与教师的变体的性能，其可以用作密度估计器本身，用于通过使用其似然性进行异常检测，由等式2给出。2，作为异常评分。相比之下，对称的学生-教师对将结果降低1%至2%，RGB情况除外。然而，对于RGB和3D+RGB，通过将耦合块的数量加倍到8，通过创建具有比教师更深的版本的学生的不对称性，已经改善了性能。这种影响进一步方法面包3D-ST [5]128AST（我们的）[39]第36话：我的世界，我的世界[39]STFPM [51]*AST（我们的）Voxel GAN [8][8]第十八话[8]第八话深度增益[8]深度AE [8]深度VM [8]PatchCore+FPFH [24]AST（我们的）电缆压盖62.342.574.737.673.154.255.148.457.6±6.988.070.377.593.084.792.8±1.232.454.077.237.250.255.174.887.3±3.3胡萝曲奇钉泡沫桃马铃绳轮是说Voxel GAN [8] 38.3Voxel AE [8] 69.3Voxel VM [8] 75.0[8]第八话深度AE [8] 46.8深度VM [8] 51.0美国（公告牌百强单曲榜）[24]86.288.1±2.087.685.997.594.193.094.7±0.768.051.055.353.864.851.391.898.3±0.447.451.561.360.749.746.995.283.296.5±1.079.164.369.882.789.085.1±1.256.538.448.458.065.047.796.797.6±0.563.979.073.860.367.357.679.789.495.7±0.668.243.558.279.557.582.5±0.839.969.370.160.348.858.188.397.1±0.356.449.482.349.753.460.988.384.867.9±1.191.279.795.999.094.798.1±0.449.744.675.143.080.561.793.293.2±2.140.955.869.348.441.769.958.266.379.7±1.270.179.066.388.676.695.1±0.648.263.257.853.452.271.658.288.5±1.461.753.767.959.548.545.075.876.399.0±0.969.578.785.873.171.089.5±1.156.655.048.064.271.245.089.697.4±1.442.748.465.248.954.941.988.968.791.5±2.161.864.353.547.159.861.3±2.457.949.446.660.152.942.191.298.1±1.266.363.960.953.656.466.892.995.895.6±0.784.171.583.298.696.599.2±0.260.172.168.944.354.059.892.1100±0.057.758.369.052.154.652.065.348.661.1±3.470.259.076.074.570.182.1±0.948.241.361.157.755.262.388.679.7±1.053.757.169.952.354.654.678.274.883.3±0.877.069.676.483.079.388.0±0.651.753.860.953.259.555.586.593.7±0.23D + RGBRGB3D2599师生距离1.751.501.251.000.750.500.250.00方法3DRGB3D+RGB老师只82.269.890.9NF student（symm.）81.876.088.9NF学生（更深）81.876.792.7AST（我们的）83.388.093.7表5.在对称和非对称设置中，教师和学生-教师在MVT 3D上的AUROC百分比的平均检测性能比较我们提出的不对称学生-教师配对在所有情况下都优于所有基线。5 6 7 8 9 10log（学生-教师距离）非缺陷42024异常42024表6. MVT3D的3D+RGB数据的性能和计算工作量之间的权衡。使用NVIDIA RTX 1080 Ti测量推断时间。图5.上图：MVT3D中桃类的正常和异常区域的AST距离的直方图。底部：学生和教师输出的随机正交投影，分组在类桃子的无缺陷（左图）异常区域（右图表示异常分数的绘制的学生-教师距离对于异常区域明显更高，因为学生不能匹配教师输出，因为它仅在非缺陷区域上训练。如果NF-老师的架构被我们建议的传统前馈网络取代，则可以增强。我们还改变了学生网络的深度，并在表6中分析了它与性能、模型大小和推理时间的关系。随着剩余块nst_bloc_k的数量增加，我们观察到在4个块之后几乎饱和的增加的性能由于检测性能的剩余潜力与每个块的线性增加的额外计算工作量无关，因此我们建议选择4个块以具有良好的权衡。在表7中，我们研究了位置编码和前景掩模的影响对于MVT3D，当以3D数据作为唯一输入进行训练时，位置编码将检测提高了1.4%的AST对。即使在组合两种数据模式时不存在这种效应，我们认为使用位置编码通常是合理的，因为仅使用32个附加通道的集成不会显著增加计算工作量。为了掩盖火车的损失表7.位置编码和前景掩模对MVT3D上学生和教师检测性能的影响。数字以AUROC百分比表示由于掩模是从3D数据中获得的，因此不存在用于RGB的掩模。背景分数被消除。5. 结论我们发现了以往学生教师对AD的泛化问题，并介绍了一种替代的学生教师方法，通过使用一个高度不同的学生和教师的架构来防止这个问题。我们能够通过额外使用一个学生来补偿基于正常流的教师的偏斜可能性，该教师在以前的工作中直接用于检测。未来的工作可以将该方法扩展到更多的数据域，并提高本地化分辨率。鸣谢。这项工作得到了德国联邦教育和研究部（BMBF）的支持，测试和异常评分也是非常有效的。由于图像区域的大部分通常由背景组成掩蔽允许教师和学生专注于基本结构。而且，吵LeibnizKILabor项目（批准号：01DD 20003）、数字创新中心（ZDIN）和德国研究机构（DFG），这些机构都是卓越集群PhoenixD（EXC 2122）内德国卓越战略的一部分。正常异常学生老师42024学生老师42024密度n个st块AUROC[%]↑#参数。[M]↓注射时间[ms]↓192.826.03.4293.344.86.1493.782.610.4893.7151.119.81293.8233.629.4老师90.93.84.5输入POS. 桨编码器掩模老师AST3D✗ ✓✓✗✓ ✓78.459.482.281.967.283.3RGB✗ ✗✓✗✓ ✓69.369.8n. a.87.888.0n. a.3D+RGB✗ ✓✓✗✓ ✓90.966.290.993.884.093.72600引用[1] Samet Akcay、Amir Atapour-Abarghouei和Toby P.我猜Ganomaly：通过对抗训练进行半监督异常检测。在计算机视觉施普林格国际出版社。[2] Mennatallah Amer和Markus Goldstein。基于最近邻和聚类的rapid-miner异常检测算法在第三届RapidMiner社区会议和大会（RCOMM 2012）的会议记录中，第1-12页[3] Lynton Ardizzone 、 Jakob Kruse 、 Sebastian Wirkert 、Daniel Rahner、Eric W Pellegrini、Ralf S Klessence 、Lena Maier-Hein、CarstenRothe r和UllrichK？the。用可逆神经网络分析逆问题2019年，在ICLR[4] LyntonArdizzone ， CarstenL üth ， Ja k obKruse ，CarstenRothe r，andUllrichKüthe.使用条件可逆神经网络的引导图像生成arXiv预印本arXiv：1907.02392，2019。[5] 保罗·伯格曼，基利安·巴茨纳，迈克尔·福泽，大卫·萨特莱格和卡斯滕·斯蒂格。除了凹痕和划痕：无监督异常检测和定位中的逻辑约束。国际计算机目视，130（4）：947[6] Paul Bergmann，Michael Fauser，David Sattlegger，andCarsten Steger. Mvtec ad-一个用于无监督异常检测的综合真实世界数据集。在IEEE计算机视觉和模式识别会议论文集，第9592-9600页，2019年[7] Paul Bergmann，Michael Fauser，David Sattlegger，andCarsten Steger.不知情的学生：学生-教师异常检测与鉴别潜在嵌入。在IEEE/CVF计算机视觉和模式识别会议论文集，第4183-4192页[8] 保罗·伯格曼，金鑫，大卫·萨特勒格，卡斯滕·斯特格尔.用于无监督3d异常检测和定位的mvtec 3d-ad数据集。2022年第17届计算机视觉理论与应用国际会议[9] PaulBer gmann ， SindyL ？we ， MichaelFauser ， DavidSattleg-ger和C.斯蒂格通过将结构相似性应用于自动编码器来改进无监督缺陷分割。在VISIGRAPP，2019年。[10] MarkusM Breunig ， Hans-Peter Kriegel ， Raymond TNg，and J？r gSande r. LOF：识别基于密度的局部离群值。在 Proceedingsofthe2000ACMSIGMODinternational conference

下载后可阅读完整内容，剩余1页未读，立即下载