基于配准的少样本异常检测方法研究及实验结果对比分析

63 浏览量更新于2023-11-30 收藏 2.47MB PDF 举报

异常检测

少样本学习

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2255获取更多论文基于配准的少镜头异常检测Huang Chaochin Huang1， 3， 4，Haoyan Guan2，AofanJiang1，Ya Zhang1， 3，Michael Spratling2，and Yan-FengWang1， 31上海交通大学合作媒体创新中心黄朝琴，仍然没有名字，张雅，王艳峰}@ sjtu.edu.cn伦敦国王{haoyan.guan，michael.spratling} @ kcl.ac.uk上海人工智能实验室4新加坡国立大学抽象的。本文考虑了少量异常检测（FSAD），这是一种实用但研究不足的异常检测（AD）设置，其中在训练时为每个类别仅提供有限数量的正常图像。迄今为止，已有的FSAD研究遵循标准AD的一个模型一类别的学习范式，没有探讨类别间的共同性。受人类如何检测anoma的启发-谎言，即，将所讨论的图像与正常图像进行比较，我们在此利用年龄配准（一种固有地可跨类别推广的图像对准任务）作为代理任务来训练类别无关的异常检测模型。在测试期间，通过比较测试图像及其对应的支持（正常）图像的配准特征来识别异常据我们所知，这是第一个训练单个可推广模型的FSAD方法，并且不需要重新训练或对新类别进行参数微调实验结果表明，该方法优于国家的最先进的FSAD方法的3%-8%的AUC上MVTec和MPDD 基准。源代码可从以下网址获得：https://github.com/MediaBrain-SJTU/RegAD关键词：异常检测，少样本学习，配准1介绍异常检测（AD）具有广泛的应用，如缺陷检测[24]，医疗诊断[44]和自动驾驶[10]，在过去的几十年中在计算机视觉界受到了相当大的关注。与“异常”的模糊定义，即，由于不符合“正常”的样本，因此不可能用一组详尽的异常样本进行训练。因此，最近关于异常检测的研究主要致力于无监督学习，即，只使用“正常”样本学习。通过使用一类分类[35，30，43]、重构[47，13，39，18]或自我监督学习任务[12，42，33，45]对正态分布建模，许多ADarXiv：2207.07361v1 [cs.CV] 2022年723+v：mala2255获取更多论文一类一模型学习范式M1M2MN(a)Vanilla异常检测M1M2MN(b)少数异常检测[33，26]ImageNet预训练ImageNet预训练ImageNet预训练ImageNet预训练ImageNet预训练ImageNet预训练一模多类学习范式汇总培训类别ImageNet预训练功能注册聚合训练M目标类别支持集正态分布估计测试图像比较正态分布(c)基于配准的少镜头异常检测2C. Huang等人Fig. 1. 不同于（a）vanilla AD和（b）每个类别一个模型学习范式下的现有FSAD方法，所提出的方法（c）在一个模型所有类别学习范式下利用特征注册作为FSAD的类别不可知方法。该模型使用多个类别的聚合数据进行训练，直接适用于新类别，无需任何参数微调，只需估计相应支持集的正态特征分布方法通过识别具有与模型不同的分布的样本来检测异常。大多数现有的AD方法都专注于为每个类别训练专用模型（图1（a））。然而，在诸如缺陷检测的现实场景中，给定要处理的数百个工业产品，为每个产品收集大型训练集是不划算的，更不用说需要许多时间敏感的应用。一些研究[36，29]最近探索了一种特殊但实用的AD设置，即，少数异常检测（FSAD），其中在训练时仅为每个类别提供有限数量的正常图像（图1（b））。异常检测的少次学习已经通过减少对训练样本的需求的策略来实现，例如使用多个变换的激进数据增强[36]或用于正态分布估计的更轻的估计器[29]。然而，这些方法仍然遵循一个模型一个类别的学习范式，并未能利用类别间共性。本文旨在探索一种新的范式FSAD，通过学习一个共同的模型之间共享的多个类别，也可推广到新的类别，并启发人类如何检测异常。事实上，当要求人类在图像中搜索异常时，可以采用的简单策略是将样本与正常样本进行只要知道如何比较两个图像，图像的实际语义就不再重要了。为了实现这样一个类似人类的比较过程，我们求助于注册，一个将不同图像转换为一个共同的过程+v：mala2255获取更多论文基于配准的少拍异常检测3坐标系，以便更好地进行比较[4，46，25]。配准特别适用于FSAD，因为配准预计是类别不可知的，因此可跨类别推广，允许模型适应新类别，而无需参数微调。图 1 （ c ）提供了所提出的基于配准的少数镜头 A 正常检测（RegAD）框架的概述。为了训练一个与类别无关的异常检测模型，我们利用注册，一个本质上可跨类别推广的任务具有三个空间Transformer网络[19]块的连体网络[5]被用作配准网络（见图2）。2）。为了更好的鲁棒性，而不是像典型的配准方法[25]那样逐像素地配准图像，在这里，我们通过最大化来自同一类别的特征的余弦相似性来提出特征级配准来自不同类别的正常图像被一起用于聚合训练模型，来自同一类别的两个图像被随机选择作为训练对。采用这种聚合训练过程，以便使训练的配准模型能够是类别不可知的。在测试时，为目标类别提供几个正态样本的支持集通过比较测试图像和对应的支持（正常）图像的配准特征来识别异常是直接给定支持集，目标类别的注册特征的正态分布通过基于概率的分布估计器进行估计[8]。超出统计正态分布的测试样本被视为异常。通过这种方式，该模型通过简单地估计其正态特征分布而无需任何参数微调来快速适应新类别。为了验证RegAD的有效性，我们使用两个用于工业缺陷检测的验证基准数据集MVTec AD [2]和MFDD [20]进行了实验。我们的实验结果表明，RegAD优于最先进的FSAD方法[36，29]，对于2次激发、4次激发和8次激发场景，MVTec的AUC分别提高了5.1%、6.9%和8.0%，MFDD的AUC分别提高了3.2%、5.0%和3.4%。该文件的主要贡献概述如下：– 我们引入特征配准作为用于少数异常检测（FSAD）的类别不可知方法。据我们所知，它是第一个训练单个可推广模型的FSAD方法，并且不需要重新训练或对新类别进行参数微调。– 在最近的基准数据集上进行的大量实验表明，所提出的RegAD在异常检测和异常定位任务上都优于最先进的FSAD方法。2相关工作2.1异常检测AD是训练数据集仅包含正常数据的任务。为了更好地估计正态分布，基于一类分类的方法倾向于+v：mala2255获取更多论文4杯Huang等人用统计方法直接描述正常数据[9，35，26，30]。基于自监督的方法仅使用正常数据进行训练，然后通过假设异常数据表现不同来进行推断。在这个领域，重建[40，34，47，32，1，13，39，17]是最流行的自我监督。一些方法[12，42，33]引入了其他的自我监督，例如。，[12]应用数十种图像几何变换进行变换分类; [42]提出一种用于属性恢复的恢复框架。最近的AD方法通常使用从预先训练的深度神经网络中提取的特征嵌入。特征嵌入主要用作传统机器学习算法或统计度量（如马氏距离[8]）的输入。用作特征提取器的网络可以从头开始训练[43]，而几种方法[21，8，45，28，14]也使用在ImageNet数据集上预训练的模型实现了最先进的结果[31]。本文不同于这些以前的作品，专注于FSAD，只有少数正常的图像。2.2少数学习少镜头学习（FSL）的目的是适应新的类与一些注释的例子。典型的FSL方法可以分为度量学习、生成和优化。度量学习方法[37，38，15]学习计算一个特征空间，该特征空间基于其最近的示例类别对未见过的样本进行分类。生成方法[22，41，6]通过生成其图像或特征来增强新的类性能。优化方法[27，11]学习不同类别之间的共性，并根据这些共性为新类别探索有效的优化策略。在本文中，所提出的方法预测“正常”或“异常”的一个新的类别。与以往的FSL工作相比，训练数据和支持集都只有正（正常）样本，没有任何负（异常）样本。2.3少数异常检测FSAD的目标是用少量的正常样本作为目标类别的支持图像来指示异常TDG [36]提出了一种分层生成模型，该模型捕获每个支持图像的多尺度补丁分布。他们使用多个图像变换和优化鉴别器来区分真实和假补丁之间，以及应用于补丁的不同变换之间异常分数通过聚合正确变换的基于补丁的投票来DiffNet [29]利用卷积神经网络提取的特征的连续性，使用归一化流来估计它们的密度，这是一种非常适合从一些支持样本中估计分布的工具Metaformer [39]可以应用于FSAD，尽管在其整个元训练过程中（除了参数预训练之外）应使用额外的大规模数据集MSRA 10K [7]在本文中，我们设计了基于配准的FSAD来学习与类别无关的特征配准，使模型能够在给定一些正常图像的情况下检测新类别中的异常，而无需进行微调。+v：mala2255获取更多论文i=1···不基于配准的少拍异常检测5C1S1C2S2C3S3EP共享E特征配准丢失停止梯度卷积块空间Transformer网络编码器预测器图二. 建议RegAD的模型架构。给定来自相同类别的成对图像，通过三个卷积残差块提取特征，每个卷积残差块后面跟着空间Transformer网络。一个连体网络作为特征编码器，由特征相似性最大化的注册损失监督3问题设置我们首先正式定义的问题设置建议的少数镜头异常检测。给定一个只包含n个类别的正常样本的训练集也就是说，Ttrain=SnTi，其中子集Ti由来自类别ci，（i= 1， 2，，n），我们想要训练一个类别不可知的异常检测模型在测试时，给定目标的正常或异常图像，范畴ct（t∈/{1，2，···，n}）及其关联支撑集St，来自目标类别的k个正态样本，训练的类别不可知的异常检测模型应该预测图像是否异常。对于FSAD，我们尝试使用仅几个正常图像作为支持集来从未见过/新类别的测试样本中检测异常。关键的挑战在于：（i）train只能访问来自多个已知类别（例如，不同的对象或纹理），而没有任何图像级或像素级注释，（ii）测试数据来自看不见的/新的类别，以及（iii）只有来自目标类别的几个正常样本可用，使得难以估计目标类别ct的正态分布。4方法出于人类如何检测异常的动机，特征配准被用作FSAD的泛化范例。在训练过程中，我们利用无异常特征配准网络来学习与类别无关的特征配准。在测试过程中，给定一些正常图像的支持集，用基于概率的分布估计器估计目标类别的注册特征的正态分布。超出学习的统计正态分布的测试样本被视为异常。4.1功能注册网络给定从训练集Ttrain中的相同类别中随机选择的一对图像Ia和Ib，ResNet型卷积网络[16]被用作+v：mala2255获取更多论文我我我我yn= S（f）= A=iii（1）我第3条b3，a一|| ·||B. ΣΣ6摄氏度。Huang等人特征提取器具体来说，如图2所示，采用ResNet的前三个卷积残差块C1、C2和C3，并丢弃ResNet原始设计中的最后一个卷积块，以确保最终特征仍然保留空间信息。空间 Transformer 网络（英语： Spacetransformer network）[19]作为特征变换模块插入到每个块中，以便使该模型可以灵活地学习特征配准，灵感来自[45]。具体地，将变换函数Si（i=1，2，3）应用于输入特征fs：Xt我不是XsSI1θ11θ 12θ13θ 21θ 22θ23XsSI1其中，（xt，yt）是输出特征ft的目标坐标，（xs，ys）是我我输入特征fs和A i的源坐标中的相同点是仿射变换矩阵。模块Si用于从具有与[19]中使用的相同的微小架构的卷积块Ci的给定成对提取的特征ftft作为最终的转变-提出，我们将特征编码器设计为暹罗网络[3]。Siamese网络是应用于多个输入的参数共享神经网络。为了避免在没有负对的情况下优化时的崩溃问题，受到Sim-Siam [5]的启发，特征由相同的编码器网络E处理，然后在一个分支上应用预测头P。停止梯度操作应用于另一个分支，如图2所示，这对于防止这种崩溃解决方案至关重要。表示pa<$P（E（f3，a））和zb<$E（f3，b），应用负余弦相似性损失：paD（pa，zb）=−||p||个zlb· ||z||、（二）哪里2是L2范数。代替逐像素地配准图像，在这里我们使用特征级配准损失，其可以被认为是逐像素配准约束的放松版本，以获得更好的鲁棒性。最后，根据SimSiam [5]，对称化特征配准损失定义为：1L= 2（D（pa，zb）+D（pb，za））.（三）讨论所提出的方法的特征保留了相对完整的空间信息，因为我们采用ResNet的前三个卷积块作为骨干，而没有全局平均池化，其次是卷积编码器和预测器架构，但不是SimSiam中的MLP架构[5]。因此，Eq.（3）应该通过对每个空间像素处的余弦相似性得分求平均来计算包含空间信息的特征对于AD任务是有益的，AD任务需要提供异常分数图作为预测结果。与SimSiam [ 5 ]不同，SimSiam [5]将输入定义为一个图像的两个增强并最大化其相似性以增强模型表示，所提出的特征配准利用两个不同的图像作为输入并最大化特征之间的相似性以学习配准。2S2Σ+v：mala2255获取更多论文SIJ∈ ××SIJIJN−1IJIJIJIJk=1基于配准的少拍异常检测74.2正态分布估计为了执行测试，假设特征配准能力可以推广到目标类别，并且将学习的特征配准模型应用于目标类别的支持集t，而无需参数微调。多个数据增强应用于支持图像，与[36]一致。由于暹罗网络的两个分支完全相同，因此仅使用一个分支特征进行正态分布估计。在获得注册的特征之后，使用基于概率的估计器[8]来估计目标类别特征的正态分布，该估计器使用多元高斯分布来获得正态类的概率表示。假设一幅图像被划分为（i，j）[1，W]的网格[1，H]位置，其中W H是用于估计正态分布的特征的分辨率。在每个块位置（i，j）处，设Fij={fk，k∈[1，N]}是来自N个增强支持图像的配准特征。fij是在片位置（i，j）处的聚合特征，其通过在相应位置处用上采样操作级联三个SNR输出以匹配它们的大小来实现。假设Fij由N（µij，ij）生成，则样本协方差为：N=1 fk− µ m。fk− μ πT + μ π I，（4）其中μij是Fij的样本均值，正则化项I使样本协方差矩阵满秩且可逆。最后，每个可能的贴片位置与多变量高斯分布相关联。讨论数据扩充在AD中被广泛采用，尤其是在FSAD中，包括TDG[36]和DiffNet [29]。然而，大多数方法只是简单地将数据增强应用于支持图像和测试图像，而没有对影响进行任何探索。本文强调了数据增广在扩充支持集方面的重要作用，这有利于正态分布的估计。具体地说，我们对支持集t中的每个图像采用增强，包括旋转、平移、翻转和灰度化。其他增强，如mixup和cutpaste没有考虑，因为它们似乎更适合模拟异常[21]。我们对支持集中的每个样本进行所有这些增强的可能我们在这样的增广支持集上进行正态分布估计。我们研究了补充材料中不同扩增的影响4.3推理在推断过程中，超出正态分布的测试样本被视为异常。对于T测试中的每个测试图像，我们使用Mahalanobis距离M（fij）来对位置（i，j）处的补丁给出异常得分，其中M（fi j）=.（fij−µi j）T−1（fij−µi j）。（五）+v：mala2255获取更多论文MMMM××8摄氏度。Huang等人马氏距离矩阵=（（fij））1 <$i<$W，1 <$j<$H形成异常图。将对应于三个预处理模块的三个逆仿射变换应用于该异常图，以得到最终与原始图像对准的最终异常分数图。此地图中的高分表示异常区域整个图像的最终异常分数是异常图最终的最大值。与[36，29]相比，RegAD取消了测试图像的数据增强，从而降低了推理计算成本。5实验5.1实验设置数据集。我们在AD的两个具有挑战性的真实世界基准数据集上进行了实验 [2，20]，这两个数据集都与工业缺陷检测有关– MVTec[2]：MVTec包含15个类别，3629张图像用于训练和验证，1725张图像用于测试。训练集只包含没有缺陷的正常图像。测试集包含具有各种缺陷的图像（异常）和无缺陷图像（正常）。平均每个类别5个，给出了73种不同的缺陷类型。所有图像的分辨率范围在700 700和1024 1024像素之间。提供了每个缺陷图像区域的逐像素地面实况标签– MPDD[20]：MPDD是一个新提出的数据集，专门关注喷漆金属部件制造过程中的缺陷检测，包含6个类别金属零件。图像是在多个物体的各种空间方向、位置和距离的条件下捕获的，涉及不同的光强度和非均匀背景。对于每个数据集，我们在两个不同的实验设置上进行实验（i）对多个类别进行聚合训练，然后适应看不见的类别，以及（ii）仅使用每个类别的支持集进行单独训练竞争方法。我们考虑两种最先进的FSAD方法，TDG [36]和DiffNet[29]。这两种方法都为每个类别单独训练模型（设置（ii））。使用官方源代码复制结果考虑到我们的方法使用来自多个类别的数据，为了比较的公平性，我们将它们扩展为利用相同数量的数据（设置（i））。预训练过程被添加到这些方法中，其中来自多个类别的数据被用于预训练TDG的变换分类器或初始化DiffNet的归一化基于流的估计器对应的方法是TDG+和DiffNet+。我们还在个体训练设置下评估RegAD，并将相应的方法表示为RegAD-L。我们比较了一些最先进的普通 AD 方法，如 GANomaly [1] ， ARNet [42] ， MKD [33]， CutPaste[21]，FYD [45]，PaDiM [8]，PatchCore [28]和CflowAD [14]。这些方法使用整个正常数据集进行训练，因此它们可以被视为FSAD性能的上限。+v：mala2255获取更多论文×××基于配准的少拍异常检测9表1. MVTec数据集上的k-shot异常检测结果，与最先进的方法进行比较。结果以10次运行的平均AUC（%）列出，每个类别都有单独标记。最后一行还报告表现最好的方法是粗体。k=2 k=4 k=8类别TDG+DiffNet+ RegADTDG+DiffNet+ RegADTDG+DiffNet+ RegAD[三十六][29日]（我们的）[三十六][29日]（我们的）[三十六][29日]（我们的）瓶69.399.399.469.699.399.470.399.499.8电缆68.385.365.170.385.276.174.787.980.6胶囊55.173.067.547.680.372.444.778.676.3地毯66.278.496.568.778.697.978.278.598.5网格83.862.184.086.260.591.287.678.591.5榛子67.294.996.071.295.895.882.897.996.5皮革93.690.799.493.291.210093.592.2100金属螺母67.161.991.469.267.394.668.767.698.3丹69.283.281.364.784.080.867.982.180.6螺钉98.873.452.598.872.556.699.075.063.4瓷砖86.397.094.387.298.095.587.499.697.4牙刷54.460.886.657.862.590.957.660.898.5晶体管55.961.886.067.762.285.271.563.393.4木材98.498.199.298.396.498.698.499.499.4拉链64.489.286.365.384.888.566.387.394.0平均73.280.685.774.481.388.276.683.291.2评价方案。我们使用受试者工作特征（ROC）曲线度量（AUC）下的面积来量化模型性能，该指标通常被用作AD任务的性能测量。图像级AUC和像素级AUC分别用于异常检测和异常定位模型配置和培训详细信息。ImageNet预训练的ResNet-18 [16]被用作主干，然后是基于卷积的编码器和预测器。为了保留空间信息，编码器包含三个11卷积层，而预测器包含两个11卷积层，而没有任何池化操作。我们在一台NVIDIA GTX 3090上训练224 224张图像的模型。我们使用动量SGD更新参数，学习率为0.0001，持续50个epoch，批量大小为32。使用余弦学习率的单个周期作为衰减时间表。5.2与最先进方法的比较与少数异常检测方法的比较。使用留一法设置进行实验，即，，选择一个目标类别进行测试，而数据集中的其他类别用于训练。表1和表2分别示出了在实验设置（i）下关于MVTec和MFDD的比较结果。与DiffNet+[29]相比，RegAD在MVTec上的平均AUC分别提高了5.1%、6.9%和8.0%，在MFDD上的平均AUC分别提高了3.2%、5.0%和3.4%，其中2次注射、4次注射和+v：mala2255获取更多论文≈10 ℃。Huang等人表2. MPDD数据集上的k-shot异常检测结果，与最先进的方法进行比较。结果以10次运行的平均AUC（%）列出，每个类别都有单独标记。最后一行还报告表现最好的方法是粗体。k=2 k=4 k=8类别TDG+DiffNet+RegADTDG+DiffNet+RegADTDG+DiffNet+ RegAD[三十六][29日]（我们的）[三十六][29日]（我们的）[三十六][29日]（我们的）方黑46.456.763.348.859.963.851.069.767.3棕褐色54.961.359.457.564.266.165.466.369.6括号白64.042.255.665.451.859.366.869.161.4连接器53.154.173.055.854.877.262.954.584.9金属板91.896.861.795.198.278.698.498.880.2管51.849.867.158.550.767.564.952.667.9平均60.360.263.463.563.368.368.268.571.9表3.在两种不同的实验设置（i）和（ii）下，MVTec和MPDD数据集上的异常检测结果，与k = 2，4，8的最新少数异常检测方法进行比较。结果以10次运行的每个数据集中所有类别的宏观平均AUC（%）每个实验设置的最佳执行方法以粗体显示。MVTec MPDD的ImageNet聚集时间方法[29]第二十九话80.882.958.461.2六十六点五RegAD-L（我们的）白蛋白-81.584.987.450.854.261.1TDG+[36]积分1559.76s73.274.476.660.363.5 68.2DiffNet+[29]网络357.75s80.681.383.260.263.368.5RegAD（我们的）价格4.47s85.788.291.263.468.3七十一点九8个场景，分别。此外，在一次注射的情况下，RegAD在MVtec和MFDD上分别达到82.4%RegAD在没有任何参数微调的情况下进行测试，这可能无法保证每个类别的最佳性能，而其他基线具有不公平的优势，因为它们调整了每个类别的参数在15个类别中的9个类别中，RegAD的表现优于所有其他基线。与TDG+（15.20）和DiffNet+（13.11）相比，当k=8时，RegAD还实现了15个类别的最小标准差（10.94），表明其在不同类别中具有更好的泛化能力此外，尽管使用不同的训练设置，但对于MVTec（k=8），RegAD实现了91.2%的AUC，与Metaformer [ 39 ]相比提高了3%，Metaformer[ 39]在其整个训练过程中使用了额外的大规模数据集MSRA10K [7]。讨论适应时间对于FSAD的实际应用很重要。TDG+和DiffNet+两者的微调过程都是耗时的，因为它们针对许多时期更新模型，而RegAD具有最快的自适应速度，因为它基于统计估计器，其对于每个支持图像仅需要一个推断。在表3中，我们报告了适配器-通过对两种方法上k=2、4、 8的结果进行平均，预训练培训适应K=2K=4K=8K=2K=4K=8[36]第三十✓✗-71.272.775.257.360.464.4+v：mala2255获取更多论文基于配准的少拍异常检测11表4.MVTec和MFDD数据集上的异常检测和异常定位结果，与最先进的常规AD方法进行比较。结果以AUC（%）列出，作为每个数据集中所有类别的宏观平均评分。方法数据ImageNetBackboneMVTec MPDD预训练图像像素RegAD（k=4）4张图像Res 18 88.2 95.8 68.8 93.9RegAD（k=8）8张图像Res 18 91.2 96.7 71.9 95.1RegAD（k=16）16张图像，平均Res18 92.7 96.6 75.3 96.3RegAD（k=32）32张图像，平均Res18 94.6 96.9 76.8 96.3GANomaly[1]完整数据UNet80.5-64.8-ARNet [42]完整数据UNet83.9-69.7-MKD [33]完整数据Res1887.790.7--CutPaste [21]完整数据Res1895.296.0--FYD [45]完整数据Res1897.397.4-- -一种PaDiM [8]完整数据WRN 50 97.9 97.5 74.8 96.7PatchCore [28]完整数据补丁WRN 50 99.1 98.1 82.1 95.7CflowAD [14]完整数据WRN 50 98.3 98.6 86.1 97.7MVTec和MPDD数据集。与TDG+（1559.76s）和DiffNet+（357.75s）相比，所提出的RegAD具有最快的自适应速度（4.47s）。表3还比较了实验设置（ii）下的这些方法，其中我们使用每个类别的支持图像单独训练模型。RegAD-L是指仅在一个类别上进行单独培训的RegAD假设ImageNet预训练的特征具有充分的代表性，我们只需使用有限的支持图像来微调特征。因此，我们直接在ImageNet预训练骨干下为所有方法进行微调。所有方法都使用相同的ImageNet预训练骨干，公平的比较。在此设置下，RegAD-L在MVTec数据集上的性能优于TDG和DiffNet在MPDD数据集上的性能优于所提出的方法。然而，与RegAD-L相比，所提出的RegAD改进了很多，显示了所提出的特征配准聚合训练过程在多个类别上的有效性。与Vanilla异常检测方法的比较。最先进的vanilla AD方法使用整个正常数据集进行训练，并为每个类别训练单独的模型，因此可以看到它们的性能作为FSAD的上限。我们考虑的方法包括GANomaly [1]，ARNet[42]，MKD [33]，CutPaste [21]，FYD [45]，PaDiM [8]，PatchCore [28]”[14]《说文》：“也。表4中的结果表明，即使与基于大量正态数据的普通AD方法相比，所提出的RegAD也达到了有竞争力的性能例如，在只有4个支持图像的情况下，所提出的方法（88.2%AUC）优于具有相同ImageNet预训练骨干的MKD（87.7%），并且在32个支持图像的情况下，其AUC增加到94.6%。5.3消融研究进行实验，以评估所提出的方法的k-shot的消融研究结果+v：mala2255获取更多论文----12摄氏度。Huang等人表5. MVTec和MFDD数据集上k-shot异常检测和定位的消融研究。模块“A”、“F”和“S”分别结果列出为相对于100 mg/kg的以%计的宏观平均AUC。每个数据集中的所有类别均为10次运行。表现最好的方法是粗体。模块MVTec MPDD图像像素阿、法、斯、克=2、克=4K=8K=2K=4K=8K=2K=4K=8K=2K=4K=874.778.080.588.690.592.149.653.755.589.591.2九十二点零✓81.5 84.9 87.4 93.3 94.7 95.5 50.8 54.2 61.1 92.4 93.3 93.9✓78.080.9 83.1 90.8 92.5 94.0 53.9 55.5 57.2 91.5 92.2 93.0电话：+86-021 - 88888888传真：+86-021 - 8888888中国83.086.489.394.795.996.652.857.764.893.394.1九十四点四中国85.788.291.294.695.896.763.468.871.993.293.995.1表6. 在MVTec和MPDD上对不同转换版本的MPDD模块进行消融研究，用于k= 2的异常检测。T、R分别表示平移和旋转。结果以10次运行的每个数据集中表现最好的方法是粗体。数据编号：T R刻度剪切力R+规模不+规模T+RT+R+规模仿射MVTec83.084.585.0 84.9 84.985.784.9 84.2 84.9 84.5MPDD57.7 59.2 59.0 61.5 61.8 61.763.4MVTec和MFDD数据集上的异常检测和定位如表5所示。“A”、“F”和“S”模块表5中的结果显示：(i) 隆乳。所提出的支持集增强被证明是必不可少的检测和定位。当k=2、4、8时，MVTec的AUC分别提高了6.8%、6.9%、6.9%，MFDD的AUC分别提高了1.2%、0.5%、0.6%。我们进一步介绍了比较不同增强方法的消融研究，以支持补充材料中的图像(ii) 功能注册聚合训练。多个类别的特征配准聚合训练在有和没有支持图像增强的情况下都是有效的。这表明，所提出的特征配准有利于估计正态分布。如表5所示，在k= 2、 4、 8的情况下，所提出的无异常特征配准可以分别将MVTec上的AUC提高3.3%、2.9%、2.6%。(iii) 空间Transformer模块。该模型有利于提高特征配准的能力，从而有利于AD。例如，如表5所示，当k=8时，MPDD模块可以进一步将MVTec上的性能从89.3%提高到91.2%，并将MPDD上的性能从64.8%提高到71.9%。然而，具有可重构模块的模型显示出与不具有可重构模块的模型相似的像素级本地化性能。其原因是由于逆变换运算的信息丢失及其影响。+v：mala2255获取更多论文基于配准的少拍异常检测13(a) 输入（b）热图（c）结果（d）热图（e）结果(f)地面实况个人培训汇总培训图三. 在MVTec数据集（顶部三行）和MFDD数据集（底部两行）上，几种情况下RegAD异常定位的定性结果，包括单独训练和聚合训练的定位结果。结果(e)示出了比来自（c）的结果更好的性能，示出了所提出的特征配准聚集训练过程的有效性。决定。这些逆变换被设计为后处理操作，以重新匹配变换特征和原始图像的空间位置。如表6所示，我们进一步对MVTec和MPDD上AD的不同转换版本的EQUIPMENT模块进行消融研究。性能最好的旋转版本是MVTec上的旋转+缩放，这与该数据集中的样本都与中心对齐的观察结果相匹配，因此不需要平移。而对于MPDD数据集，由于样本没有很好地居中，因此仿射变换的版本具有最好的性能。该模型被用作特征变换模块，使模型能够隐式地变换图像以便于特征配准。MPDD中的图像是在各种空间方向和位置下捕获的，因此对齐特征预计是有帮助的。对于MVTec来说，对象很好中心化，并且具有相似的方向，因此，对MVTec的帮助较小5.4可视化分析为了定性分析所提出的特征配准方法如何提高异常定位性能，我们将一些结果可视化。+v：mala2255获取更多论文方格榛子革螺旋形瓦片晶体管木质拉链14摄氏度。Huang等人(a) 无特征配准（b）有特征配准图四、使用t-SNE对从MVTec数据集学习的特征进行可视化，使用（a）没有特征配准的基线，以及（b）具有特征配准的所提出的方法。在每种情况下使用相同的t-SNE优化迭代。结果表明，配准后的特征在每个类别内更加紧凑，并且与不同类别更加分离。来自MVTec和MPDD数据集的病例。从结果可以看出在图3中，由RegAD使用聚合训练产生的定位（列e）比由个体训练基线产生的定位（列c）更接近地面实况（列f）。这说明了所提出的特征配准训练过程对多个类别的有效性。我们还使用t-SNE [23]来可视化在MVTec数据集上学习的特征，如图4所示。这里的每个点代表来自测试集的一个增广正态样本。可以看出，所提出的特征配准使得每个类别内的特征更紧凑，并且推开不同类别的特征，这对于估计每个类别的正态分布的益处是期望的。6结论本文提出了一种FSAD方法，利用注册，一个任务本质上概括跨类别，作为代理任务。对于每个类别，我们只给出几个正常样本，用聚合数据训练了一个与类别无关的特征配准网络。该模型被证明是直接推广到新的类别，不需要重新训练或参数微调。通过比较测试图像及其对应的支持（正常）图像的配准特征来识别异常。对于异常检测和异常定位，该方法被证明是有竞争力的，即使与香草AD方法相比，更大量的数据进行训练。令人印象深刻的结果表明，所提出的方法是适用于现实世界的异常检测环境中的高潜力。致谢。本课题得到了国家重点研究发展计划（No.2020YFB1406801）、111计划（No.BP0719010）、国家科技攻关计划（No.18DZ2270700）和超高清音视频制作与呈现国家重点实验室的支持。+v：mala2255获取更多论文基于配准的少拍异常检测15引用1. 我也是S.， Atap pour-Abarghouei，A.，加油，T。P.：Ganomaly：半支持是通过对抗训练进行异常检测。亚洲计算机视觉会议（ACCV）pp. 622-637.Springer（2018）4，8，112. Bergmann，P.，Fauser，M.，Sattlegger，D.，Steger，C.：用于无监督异常检测的综合真实世界数据集。IEEE/CVF计算机视觉和模式识别会议（CVPR）。pp. 95923. Bromle y，J.，古永，我，LeCun，Y.， Séac kinger，E.，Shah，R.：利用一个连体时延神经网络进行签名验证。神经信息处理系统的进展（NeurIPS）6（1993）64. 布朗，L.G.：图像配准技术综述。ACM计算调查（CSUR）24（4），3255. 陈旭，他，K.：探索简单的连体表征学习。IEEE/CVF计算机视觉和模式识别会议（CVPR）。pp. 157506. 陈志，傅，Y.，张玉，蒋永国，Xue，X.，中国科学院，Sigal，L.：用于一次性学习的多层次语义特征增强。IEEE Transactions on Image Processing-ing28（9），45947. 程，M.M.，新泽西州米特拉市，黄，X.，Torr，P.H.，Hu，S.M.：基于全局对比度的显著区域检测。IEEE transactions on pattern analysis and machineintelligence37（8），5698. Defard，T.，Setkov，A.，Loesch，A.，Audigier，R.：Padim：一个用于异常检测和定位的补丁分布建模框架。IEEE/CVF International Conference onPattern Recognition（ICPR）pp. 475 Springer（2021）3，4，7，8，119. Eskin，E.：使用学习的概率分布对噪声数据进行异常检测。机器学习国际会议（ICML）（2000）10. Eykholt

下载后可阅读完整内容，剩余1页未读，立即下载