没有合适的资源?快使用搜索试试~ 我知道了~
学习无监督Metaformer用于异常检测
4369- -用于异常检测的学习无监督Metaformer吴志强1,2,陈定杰1,傅秋山2,刘廷禄11,中央研究院信息科学研究所,台湾2台湾国立台湾大学计算机科学与信息工程系摘要异常检测(AD)旨在解决图像异常的分类或定位任务本文讨论了基于重建的图像AD方法的两个关键问题,即模型自适应和重建间隙。前者将AD模型推广到处理广泛的对象类别,而后者为定位异常区域提供了有用的线索。我们的方法的核心是一个无监督的通用模型,称为Metaformer,它利用元学习模型参数来实现高模型适应能力和实例感知注意力,以强调用于定位异常区域的焦点区域,即,以探索在那些感兴趣区域处的重建间隙。我们用工业图像MVTec AD数据集上的SOTA结果证明了我们的方法的有效性,并突出了具有多类和少镜头场景的通用Metaformer的适应灵活性。1. 介绍图像异常检测(AD)的主要目的是对图像中的目标物体是否存在异常进行分类,如果存在异常,则对异常区域进行定位。检测各种感兴趣的异常的技术对于工业检查至关重要,以确保所得产品符合所需标准[15]。然而,由于异常(或缺陷)可以以多种方式偏离正常的异常,因此难以明确地预先定义异常先验并收集足够的异常数据用于训练异常检测模型。相反,大多数以前的方法使用无异常数据来构造其代表性分布,以间接地将偏离的数据识别为异常。因此,AD任务也被称为分布外检测。在对无异常数据的单类分布进行建模的尝试的驱动下,基于嵌入的方法[5,28]和基于重建的方法[24,35,39]包括用于解决AD问题的两个主要趋势。前者寻求学习用于使梅塔福尔 儿元测试图1.模型自适应和重构间隙是基于重构的异常检测的两个核心问题。上图:大多数AD技术为每个类别训练特定的模型。随着类别数目的增加,这种办法的要求会越来越高。下图:相反,我们建议训练一个通用模型,具有实例感知能力的Metaformer,以同时解决两个问题。注意我IandII-表示具有或不具有实例感知注意的重构误差。无异常数据在嵌入空间中彼此接近,后者旨在利用神经网络来重建正常类的每个样本。为了确定异常,基于嵌入的方法利用所得到的学习度量,而基于重建的方法通过对比采用重建误差。我们从基于重构的角度解决AD问题.我们的提法特别注重探讨两个关键因素,重建差距和模型适应,在设计一个有效的AD框架。(See图1.)大多数基于重建的AD技术包括自动编码器组件。由于训练数据通常是足够的,并且全部来自“正常”类,因此期望经过良好训练的自动编码器能够令人满意地元训练4370不仅在训练中而且在推断中构造这样的样本该假设意味着,如果给定的图像在正态类的分布之外,则可以使用重建间隙来检测异常。与大多数现有的基于重建的AD方法仅预测图像级异常不同,我们的方法引入了实例感知注意力来进一步调节重建间隙,以精确定位像素级异常区域。关于模型自适应的问题,我们观察到关于AD的现有技术通常需要收集大量无异常的示例来训练用于对新对象类别进行分类的附加AD模型。在现实世界的应用中,AD系统可以部署在计算能力有限的边缘设备上,并且这样的数据渴望训练策略可能不实用。为了克服这个问题,我们设计了一个元学习策略,使我们的通用AD模型进行微调,只有几个无异常支持的例子处理一个新的类别。我们的方法的基石是Metaformer,它利用元学习的模型参数来有效地执行用于执行新对象类别的AD的少量微调,并采用实例感知注意力来强调异常焦点区域。简而言之,所提出的Metaformer是基于变换器的实例感知自动编码器,其使用无监督元学习策略来学习其模型参数。图1概述了所提出的AD模型。图2展示了我们的元训练、元测试和推理的步骤。图3描绘了我们的Metaformer的关键组件。为了使Metaformer能够进行有效的模型自适应,我们使用无监督的元训练策略来学习其模型参数。也就是说,训练包括许多少数拍摄的图像重建任务,以获得通用模型的参数,其可以使用来自元测试中的每个底层新类别的几个无异常的示例来快速由此可见,微调后的Metaformer准备好执行针对新对象类别的AD推断。我们注意到,元训练阶段不能访问元测试阶段和新类别的测试/推理阶段中使用的任何图像。此外,为了使Metaformer能够更精确地发现异常区域,我们引入实例感知注意力来正则化自动编码器(AE),以在重建图像时专注于实例区域在我们的公式中,我们首先建立基于显着性预测的实例先验,然后通过注意力机制进行AE据我们所知,该方法是第一个解决图像AD任务,采用自适应实例感知重建方法。我们的主要贡献如下:我们引入了无监督的少量元训练来学习表现出有效性的通用Metaformer模型适应任意感兴趣的对象类别的高效灵活性我们将实例感知注意机制与自动编码器相结合,使得基于重建间隙的异常检测可以强调目标对象的区域,而不是分散注意力的背景。我们提供了大量的实验结果和比较,以证明我们的方法实现了整体SOTA性能的异常分类和异常定位。2. 相关工作在本节中,我们简要回顾了最近与异常检测、Meta学习和实例感知注意力任务相关的研究工作。异常检测异常检测的任务涉及图像级异常分类,其对图像是否异常进行分类[2,5,13,28,35,36],或像素级异常定位,其进一步定位异常区域[4,5,32]。由于异常样本的稀缺性,以前的异常检测方法大多被视为一类问题[1,29]例如,[14]引入了强制重建图像的内存块,更像给定的正则类。还有几种基于GAN的方法[2,3,7,24,25,30]应用对抗训练来增强AD的性能。MVTec AD数据集最近在[4]中引入,其包括用于评估关于工业检测的AD任务的异常区域的注释。从方法论上讲,处理AD问题的技术可以分为几种基本类型。最流行的一种是基于重建的方法,其通常基于自动编码器建立。MVTec AD中提出的基准测试包括分别命名为2-AE和SSIM-AE的具有2GANomaly [2]扩展了一般的自动编码器架构,并提出了一种编码器-解码器-编码器网络,该网络使用对抗训练技术重建输入图像和瓶颈。AD [36]的另一个自动编码器变体采用基于能量的模型(EBM),并使用能量分数和重建误差作为评分函数。修复异常检测重建(RIAD)[35]将AD视为一个自监督任务,随机为每个实例裁剪补丁并通过自动编码器进行修复。类似的工作[13]利用几何变换并训练多类模型。即使这些基于自动编码器的模型实现了良好的AD精度,但是它们的重构图像通常倾向于不精确。···4371zzzzMSRA10k变形器适应MVTec AD训练分割SMM模糊该缺点可能导致检测到许多异常区域,但它们中的大多数与AD任务无关。在[32]中,作者采用了注意机制,并设计了注意扩展损失来保存空间信息。在这项工作的比较,我们解决这个问题,通过集成的实例感知的注意力机制与自动编码器,以提高AD本地化。最近,DifferNet [28]采用归一化流[26]作为卷积神经网络提取的图像特征的密度估计。然后,基于每个图像的多个变换的似然性来计算异常分数使用师生知识提取方法,US [5]学习判别嵌入,使学生网络产生回归误差和不确定性。为了比较异常定位的特征分布的有效性,通过将不同的算法(诸如K-Means、OC-SVM和1-NN)拟合到教师网络中来进一步评估US模型观察到现有方法执行数据扩充或模型集成,这导致相对高的成本。此外,它们通常在数据集中训练每个类别的单个模型。我们通过应用Meta学习来训练一个适应的通用模型来解决这个问题。为了解决视网膜图像上的AD任务,P-Net [39]采用外部边缘结构信息来编码结构和纹理之间的关系,以用于后续图像重建来检测异常区域。他们使用现成的边缘检测器获得结构信息相比之下,我们以无监督的方 式 使 用 相 同 的 数 据 集 学 习 实 例 先 验 生 成 器 和Metaformer,这将在后面解释。这一优势为实际应用带来了更大的灵活性和更低的成本。元学习元学习的目标是通过在各种学习任务上训练模型来实现快速适应性。因此,学习的模型能够适应新的任务与一些支持的例子。为此,一种元学习方法[11,12,19,22]旨在显式地最大化关于新任务损失对模型参数的模型灵敏度。为了借用快速模型适应性来解决AD任务中的模型适应性问题,我们采用模型不可知Meta学习(MAML)[11]来训练Metaforer的参数,以获得对给定任务分布的敏感性。请注意,我们以无监督的方式显式地训练Metaformer。确切地说,在没有任何附加注释或属性的情况下定义用于使用的任务分布实例感知注意力为了解决精确定位像素级异常区域的重建间隙,我们引入实例感知注意力来调节聚焦在实例区域上的重建图像。在实践中,我们将实例感知注意力纳入一个元学习测试拆分图2.模型学习管道。 我们首先在元训练阶段使用来自MSRA10K的各种任务Ti来训练Metaformer。学习的通用模型Mθ有效地更新参数以获得元测试阶段的θ ′。微调模型θ’使用MVTec AD中的原始测试分割c测量性能。绿框和红框分别指示无异常示例和异常示例实例感知生成器和注意力机制。前者描绘了感兴趣的区域,后者使我们的图像重建集中在这些实例区域。我们的实例感知生成器考虑显著性检测方法[8,18,20,37,38]来描绘用于异常检测的感兴趣区域。显著性检测方法旨在发现图像中的显著对象。对于无监督学习,我们使用Visual-Effect GAN [8]中的生成器作为我们的实例感知生成器,该生成器通过使用无注释的Flickr图像进行训练虽然其他方法[18,20,37]是无监督的方法,但手工制作的方法[18,20]会生成噪声结果,并且深度检测[37]需要集成从其他方法检索到的多个显著性检测结果。我们的注意力机制旨在利用实例感知的先验知识,使自动编码器注意重建感兴趣区域。为此,我们通过Transformer [31]形成实例感知先验和AE输出之间的依赖关系,该变换器被设计用于解决机器翻译任务,但在各种任务上显示出其convincing改进,例如图像caption [10],实例分割[21],草图分类[27]和图像超分辨率[34]。推理元测试无监督元训练4372DMDSL- Li=1G{G}D{MG D}MMx y xy∈G3. 方法我们引入了Metaformer,其目的是解决模型自适应和重建间隙的问题,以分类图像级异常和定位像素级异常区域。为了处理模型自适应问题,我们通过利用元学习策略来学习一个单一的Metaformer模型,该策略包括元训练和元测试的步骤。对于重建间隙问题,我们提出了一种在Metaformer中实现的实例感知图像重建。为了说明我们的方法,我们首先阐述了我们的模型学习策略,然后显示的元成形器的组件。算法1Metaformer的无监督元学习超参数:α,β输入:野生数据集Meta,训练分割AD数据集的c1:经由将Meta中的图像分组为N来构造Ti集群第二章: 初始化θ并构建Metaformerθ/* Metaformer的无监督元训练 */3:对于i=l至N,do4:评估θ(Ti)5:利用优化器计算自适应参数的梯度:第六章: 端7:更新θ←θ−βθΣN L({Mθ′,Gi})我3.1. 模型学习策略我们的模型学习策略包括元训练步骤和元测试步骤。然后,学习的模型可用于在推理步骤中处理AD任务。图2显示了这些步骤中的管道和所需数据简而言之,无监督元训练用于学习通用元成形器,以捕获一般类别独立的实例感知图像重建的概念。当处理依赖于类别的AD任务时,对于一个特定的新图像类别,元训练模型因此,微调模型准备好在推断步骤中执行来自AD数据集的该图像类别的异常检测。3.1.1无监督元训练元测试在元学习中,元任务意味着需要通过学习模型实现的应用,并且我们将元任务定义为少量图像重建。我们使用MAML算法进行元训练步骤和元测试步骤,但考虑在元学习步骤中学习通用Metaformer时对元任务进行无监督元任务在我们的元学习中,每个元任务模拟一个几次图像重建,即,每次重构只允许几个标准AD数据集通常通过逐个类别测试来评估AD在不失一般性的情况下,我们假设一个元任务是定义在一组结构相似的图像。我们的无监督元训练使用大量少量图像重建元任务来训练模型,以捕获一般类别独立的图像重建概念。准确地说,给定元训练数据集元,我们首先使用ResNet 18 [16]提取特征,并在特征空间上执行k-means算法,将DMeta划分为N/* 任务适应的元测试 */8:更新θ′←θ−αθL(Tc)粗糙的组。然后,我们根据与中心特征的结构相似性修剪组,并形成精细图像组i。对于处理一个特定图像类别的元任务Ti,我们正式定义元任务 Ti=θ,iMeta包括AD模型θ和精细图像组i。从[33]导出的图像x和y之间的结构相似性被定义为4µx µy σxy+slim(x,y)=(μ2+μ2)(σ2+σ2)+ μ,(1)其中μ、σ是给定图像的平均强度和标准偏差。是一个小常数,防止零除法。注意,基于结构的聚类是根据图像之间的结构相似性来执行的,并且每个重建图像的地面实况基本上是因此,给定图像Ii,我们的元训练步骤旨在学习用于将图像I为θ(I),其中θ表示模型参数。为了捕获类别相关的图像重建,对于AD数据集中的特定图像类别c的概念,通用模型Mθ简单地用AD数据集的训练分裂ScDAD微调其参数(参见图2)。我们定义元任务Tc={Mθ′,ScDAD}包含一个微调的AD模型Mθ′,该模型是用子群Sc训练的。元训练元训练旨在学习具有高适应能力的通用AD模型。为此,我们的无监督元训练采用许多少数拍摄图像重建作为元任务来捕获重建的一般概念,其中对应元任务的每个图像组来自无监督图像聚类。给定元形成器Mθ,元训练过程关于多个元任务Ti调整Mθ。直观地,M4373变形器编码器解码器Autoencoder重建缺口重建前馈Self-AttentionzSelf-Attention编码器-解码器注意前馈发生器Transformer实例感知编辑器ΣMSΣL{MG}iMCθθcC我θ我Σz鉴 别器NFlickr在线图片输入视觉效果图像图3.我们的Metaformer概述Metaformer由三个模块组成:生成器,自动编码器和Transformer。我们使用MSRA10K和Flickr在线图像训练GAN(绿色虚线框),具有特定的视觉效果(黑色虚线框)。生成器的所有参数都是固定的,并在训练后输入Metaformer接下来,我们开始训练剩余的模块(蓝色虚线框)。图像重建损失由重建图像I= Mθ(I)和输入图像I之间的差导出。然后,我们将元任务损失L(Ti)定义为L(Ti)=L(Mθ(I);I),(2)I∈Gi其中损失函数L(a;b)测量a和b之间的差。在损失的情况下,关于元任务Ti的模型参数因此可以从θ更新到θi元测试在元测试步骤中,预期元训练的Metaformerθ在利用几个支持示例执行快速自适应之后从类别相关的AD任务重建给定图像。在本文中,每个新的元任务被定义在MVTec AD数据集中的无异常训练图像的特定类别集合上。类似于(3)中的更新函数,关于MVTecAD数据集中的图像组c,经由一个梯度更新来更新模型参数:θ′=θ−αL({M,S})。(六)θ′=θ−α<$L(T),(3)我们在算法1中总结了元学习过程。其中α是学习率。由于元训练旨在学习鲁棒模型参数θ以形成通用模型θ,因此(3)中的任务适应参数θ’将经由损失计算在所有元任务中最小化其重建损失以检索最佳θ。因此,客观元训练的函数被公式化为Nmin(θ′,i).(四)θi=1因此,(4)中的元训练损失是所有任务的总和,但我们在每个训练迭代中对一小批元任务进行因此,跨元任务的元训练优化和模型参数因此被更新为θ←θ−βθL({Mθi′,Gi}),(5)i=1其中β是Meta学习率。通过梯度更新:4374SM损失我们将损失函数定义为均方误差lmse和结构相似性损失lslim[33]作为L(I;I)=lmse(I,I)+λlslim(I,I),(7)其中λ是损失项之间的权重3.1.2推理在使用特定类别支持图像进行几次模型调整之后,调整后的Metaformerθ’准备好在测试分割~c用于推断。3.2. 实例感知型变形器为了解决重建间隙问题以精确定位异常区域,我们将Metaformer设计为基于变换的实例感知自动编码器,由三个模块组成:自动编码器、实例先验生成器和Transformer。Metaformer的细节如图3所示。我们描述每个组件如下。4375一ZPP不不DDA PT×自动编码器大多数传统的AD方法利用类似自动编码器的模型来处理异常检测,因为只有无异常的图像才允许模型训练。我们的自动编码器模块采用了[5]中设计的类似模型,该模型在编码器和解码器中均具有五层对称性。补充资料中提供了详细的体系结构自动编码器首先将输入图像I编码为潜在表示,然后将潜在表示解码为中间图像I~。简单地说,我们将此模块表示为I〜=A(I)。实例先验生成器我们采用以无监督方式训练的模块来提取实例先验以描绘前景区域。受[8]的启发,我们的实例先验生成器采用了Visual-Effect GAN中的生成器部分,该生成器部分包括生成器、编辑器和编辑器。我们使用与[8]相同的体系结构,并且我们使用具有颜色选择性视觉效果的4,061个Flickr在线图像(参见图3)来学习提取用于区分图像前景和图像背景的内部表示关于训练GAN模型的细节,请参考[8简言之,我们将从该模块生成的响应图R表示为R=(I)。请注意,一旦训练了视觉效果GAN,我们直接使用其生成器作为我们的实例先验生成器,而无需任何参数微调。也就是说,在我们的元学习过程中,只有自动编码器模块和Transformer模块中的模型参数会被调整。Transformer我们的注意力机制是transformer[31],它旨在解决语言翻译问题。Transformer包括编码器-解码器对,其对编码器和解码器两者执行帧内关注,并且还执行编码器-解码器对之间的帧间关注在实践中,Transformer在我们的AD任务内的图像重建过程中,我们提出训练实例感知自动编码器以用于解决重建间隙问题。我们的思想是利用一个实例先验来突出位于前景区域的重建误差。通过这种方式,我们可以引导自动编码器参数聚焦于图像前地面,因为与图像背景相比,图像前地面具有相对较大的重建误差我们的变换器模块不是直接将实例先验应用于重建图像,而是通过因此,重新制定的实例先验可以被视为- 通过逐元素乘法将重加权指示符应用到重建图像上。在这里,我们将从该模块生成的重新表达的实例先验R’表示为(R)。因此,实例重构图像I^被获得为I=A(I)T(P(I);A(I))(8)其中、和分别表示自动编码器、实例先验生成器和Transformer。Transformer(a;b)表示特征a关于特征b被重新表达。在实践中,我们使用vanilla Transformer的8三层的头。一旦生成重建图像,就可以以自监督的方式通过I与I之间的差异来确定异常区域4. 实验实施详情。我们的元学习通过使用MSRA10K数据集[9]作为元数据,MVTec AD数据集[4]作为AD来制定元任务。在Meta学习步骤之前,我们使用结构相似性和k均值来构建元任务,在我们的实验中每组包含大约200张图像。我们设置超参数α=β=0。0001且λ=0。1.一、优化器是Adam,在元训练阶段,学习率每20个epoch衰减10%元训练和元测试的总时期分别为100和30。请注意,我们的实例感知生成器是自己训练的。我们训练视觉效果GAN 200个epoch。优化器是Adam,学习率为0。0002每50个时期衰减10%。我们所有的网络都是在64的批量下训练的。数据集。 我们用从MVTecAD[4]和磁瓦缺陷(MTD)数据集[17]上的异常分类和异常定位中选择的最先进的方法来评估我们的方法的性能。来自两个数据集的每个图像被调整大小为256 256,并且仅无异常图像用于训练。MVTec AD包含15类纹理和对象的5,354个图像。每个类别包括无异常和几种缺陷类型,例如破碎、污染和弯曲物体。不规则缺陷的各种情况导致MVTec AD在异常检测方面面临挑战。MTD数据集包括1,344个实例,其中952个是无异常的,392个是异常的。MTD数据集具有五种缺陷类型,即断裂、气孔、裂纹、磨损和不均匀。在评估该数据集时,我们采用[28]的等效设置,随机保留20%的无异常实例和所有异常图像用于评估。指标. 为了评估图像级异常分类的性能,我们计算曲线下面积(AUC),这是用作[2]的标准阈值无关用于比较像素级4376一不一个P一个PA P A PT一个P一表1.在MVTec AD数据集上比较图像级异常分类和像素级异常定位的方法类别图像级异常分类方法(AUC度量)像素级异常定位方法(PRO度量)GeoTransGANOMALYDSEBM美国RiadDifferNet变形器2-AE1-NNOC-SVMK-MeansSSIM-AE美国p=65变形器纹理地毯0.4370.6990.4130.9160.8420.9290.9400.4560.5120.3550.2530.6470.6950.878网格0.6190.7080.7170.8100.9960.8400.8590.5820.2280.1250.1070.8490.8190.865皮革0.8410.8420.4160.8821.0000.9710.9920.8190.4460.3060.3080.5610.8190.959瓷砖0.4170.7940.6900.9910.9870.9940.9900.8970.8220.7220.7790.1750.9120.881木材0.6110.8340.9520.9770.9300.9980.9920.7270.5020.3360.4110.6050.7250.848对象瓶0.7440.8920.8180.9900.9990.9900.9910.9100.8980.8500.4950.8340.9180.888电缆0.7830.7570.6850.8620.8190.9590.9710.8250.8060.4310.5130.4780.8650.937胶囊0.6700.7320.5940.8610.8840.8690.8750.8620.6310.5540.3870.8600.9160.879榛子0.3590.7850.7620.9310.8330.9930.9940.9170.8610.6160.6980.9160.9370.886金属螺母0.8130.7000.6790.8200.8850.9610.9620.8300.7050.3190.3510.6030.8950.869丹0.6300.7430.8060.8790.8380.8880.9010.8930.7250.5440.5140.8300.9350.930螺钉0.5000.7460.9990.5490.8450.9630.9750.7540.6040.6440.5500.8870.9280.954牙刷0.9720.6530.7810.9531.0000.9861.0000.8220.6750.5380.3370.7840.8630.877晶体管0.8690.7920.7410.8180.9090.9110.9440.7280.6800.4960.3990.7250.7010.926拉链0.8200.7450.5840.9190.9810.9510.9860.8390.5120.3550.2530.6650.9330.936是说0.6720.7620.7090.8770.9170.9490.9580.7910.6400.4790.4230.6940.8570.901表2.在MTD数据集上比较图像级异常分类的方法方法GeoTransGANOMALYDSEBMADGANOCSVM1-NNDifferNet变形器mAUC0.7550.7660.5720.4640.5870.8000.9770.993异常定位,我们使用由Bergmann等人提出的每区域重叠(PRO)度量。[6]的文件。我们遵循[5]来计算PRO值,该PRO值通过增加阈值来扫描假阳性率以将假阳性率保持在范围[0,0. 3]。PRO度量的主要属性是每个重叠区域的权重相等。因此,仅聚焦于大区域的定位将受到惩罚。4.1. 异常分类在图像级异常分类任务中,我们将我们的模型与GeoTrans [13] , GANomaly [2] , DSEBM [36] , US[5],RIAD [35]和DifferNet [28]进行了比较。表1中的左侧部分显示了MVTec AD数据集上异常分类的比较结果。如表1所示,我们的模型在七个类别中优于其他最先进的模型,并在牙刷类别中匹配。最近的作品涉及MTD的AD问题与适当的数据分割。我们遵循[28]中描述的设置来形成训练/测试分裂。如表2所示,我们的平均AUC在MVTec AD和MTD上均达到新的水平,分别提高约1%和1.6%。4.2. 异常定位我们考虑PRO度量中的AD方法用于像素级异常定位任 务 , 包 括 2-AE [4] , 1-NN [23] , OCSVM , K-Means,SSIM-AE和US [5]。的我们比较的结果均由[5]报道。表1中的右侧部分显示了MVTec AD数据集上异常定位的比较结果。特别地,p=65是用于训练美国教师网络的如Ta所示表1中,Metaformer在九个类别中达到最高分数此外,我们的方法提高了约4.4%的电流的分数。4.3. 消融研究模型配置为了验证Metaformer中每个模块的有效性,我们考虑三种模型配置,即,autoencoder()、带有生成器的autoencoder(+)和完整的Metaforer模型(++).表3显示了这些配置的消融研究。所有三个模型配置都在我们的Meta学习策略中训练,如算法1所示。准确地说,配置()的重构误差仅来自独立的自动编码器。配置(+)采用附加的实例先验,但使用逐元素乘法直接影响重建图像I~ 我们的全变形模型(++的)采用Transformer来重新公式化关于重构图像I ~之前的实例先验,从而使得重构图像I~之前的实例先验被重新公式化。元素乘法全模型在所有类别中获得最佳评分,与(+)相比,PRO平均评分进一步提高了1.8%。此外,结果表明,所有的模块带来了积极的贡献,并使用这样的实例先验有助于AD任务的性能提高,从1.9%到3.7%的mPRO度量证明。正如我们在介绍中提到的,部署AD系统的边缘设备更喜欢在真实世界的AD应用中进行快速模型适配。直观地,使用较少的支持示例的AD模型用于4377P表3.建议的变形器中每个模块的效果10.90.80.7变形器168DifferNet4K差异20.10.080.060.04(a)(b)(c)(d)图5.所提出的变形器的定性结果。(a)从MVTec AD数据集中选 择 的 图 像 。 (b) 实 例 - 由 生 成 器 获 得 的 先 验 。 (c) 来 自Metaformer的阈值预测。(d)地面真相响应图R提供了增强聚焦区域中的重建的令人信服的线索。另一方面,Metaformer使用由各种无异常图像组成的野生数据集进行训练因此,我们的在补充资料中我们提供了一些失效案例供进一步讨论。5. 结论图4.可用支持实例对模型性能的影响绿线和蓝线分别表示Metaformer和DifferNet针对不同k激发设置的mAUC黄色虚线显示了两种方法之间的mAUC差异(通过右侧y轴)其模型自适应显示了模型训练或训练数据收集的较低成本在这里,我们用MVTec AD数据集上的几个镜头配置进行实验,以讨论这样的模型自适应问题。主要的AD竞争对手是本实验中的DifferNet,我们用其发布的代码再现了其少数镜头设置的结果。图4示出了实验结果,其中每个k次拍摄指示仅存在k个支持图像可用于模型训练。在图4中,我们的Metaformer在所有k数量上都优于DifferNet,特别是当使用较少的支持示例时,性能差距更加明显。结果表明,我们的模型显示了强大的能力,处理AD任务的少镜头模型适应。4.4. 可视化具有相应实例先验的定性分析的可视化如图5所示。我们表明我们已经提出了通过无监督元学习训练的通用Metaformer,以解决大多数以前基于重建的AD方法中存在的两个常见问题,即模型适配和重构间隙。而不是像其他AD方法那样每个图像类别保持一个特定模型,我们的Metaformer通过无监督元学习策略来学习一个通用模型来解决模型自适应问题。有了这样一个通用的模型,我们的Metaformer能够通过几次微调来解决一个新的类别。为了解决反射间隙问题,以精确定位异常区域,我们的Metaformer采用了一个实例感知的Transformer来利用实例先验来指导图像重建。利用这样的引导,自动编码器可以聚焦于实例区域以精确地重建其细节区域。在MVTec AD数据集上的实验结果显示,与当前最先进的方法相比,性能有了显著的提高,表明我们的Metaformer可以检测工业检测的真实异常图像。谢谢。这项工作得到了社会变革管理计划赠款110-2634-F-001-009和110-2221-E-001-017的部分支持,台湾我们感谢国家高性能计算中心提供的计算资源和设施。mAUCΔmAUC类别车型配置一A+ PA+ P+T纹理地毯0.8520.8770.878网格0.8440.8520.865皮革0.9010.9400.959瓷砖0.8500.8610.881木材0.7970.8240.848对象瓶0.8520.8560.888电缆0.8800.9140.937胶囊0.8610.8780.879榛子0.8400.8510.886金属螺母0.8170.8460.869丹0.9170.9150.930螺钉0.9410.9430.954牙刷0.8470.8640.877晶体管0.8280.8860.926拉链0.9390.9350.936Mpro0.8640.8830.9014378引用[1] Davide Abati、Angelo Porrello、Simone Calderara和RitaCucchiara。用于新颖性检测的潜在空间自回归。在CVPR,第481-490页,2019年。2[2] Samet Akcay , Amir Atapour-Abarghouei , and Toby PBreckon. Ganomaly:通过对抗训练进行半监督异常检测。在ACCV,第622-637页中。Springer,2018. 二六七[3] SametAkcay、AmirAtapour-Abarghouei和TobyPBreckon。跳跃性异常:跳过连接和逆向训练的编码 器 - 解 码 器 异 常 检 测 。 InIJCNN , pages 1IEEE ,2019。2[4] Paul Bergmann,Michael Fauser,David Sattlegger,andCarsten Steger. Mvtec在CVPR中,第9592-9600页二六七[5] Paul Bergmann,Michael Fauser,David Sattlegger,andCarsten Steger.不知情的学生:学生-教师异常检测与鉴别潜在嵌入。在CVPR,第4183-4192页,2020年。一二三六七[6] PaulBer gmann,SindyLo¨ we,MichaelFauser,Da vidSattle g-ger,and Carsten Steger.通过将结构相似性应用于自动编码器来改进无监督缺陷在VISAPP,第372-380页中。SciTePress,2019. 7[7] Philippe Burlina、Neil Joshi和I-Jeng Wang。沃利现在在哪? 用于 新颖 性检 测的 深度生 成和 判别 嵌入 。在CVPR,2019年6月。2[8] Ding-Jie Chen,Jui-Ting Chien,Hwann-Tzong Chen,and Tyng-Luh Liu.通过模仿视觉效果的图形-背景分割的无监督元学习。在AAAI,第33卷,第8159-8166页,2019年。三、六[9] 作者:Niloy J. Mitra,Xiaolei Huang,PhilipH. S. Torr和Shi-Min Hu.基于全局对比度的显著区域检测。IEEE传输模式分析马赫内特尔,37(3):569-582,2015. 6[10] Marcella Cornia , Matteo Stefanini , Lorenzo Baraldi ,and Rita Cucchiara. 网 状 记 忆 Transformer 器 的 图 像captioning。在CVPR中,第10578-10587页,2020年。3[11] Chelsea Finn,Pieter Abbeel,Sergey Levine.用于深度网络快速适应的模型不可知元学习。在ICML,第1126-1135页,2017年。3[12] 放大图片作者:Chelsea Finn,Aravind Rajeswaran,Sham M. Kakade 和 Sergey Levine 。 在 线 元 学 习 。 在ICML,第19203[13] 伊扎克·戈兰和兰·亚尼夫。使用几何变换的深度异常检测。在NeurIPS,第9758- 9769页,2018年。二、七[14] Dong Gong , Lingqiao Liu , Vuong Le , BudhadityaSaha,Moussa Reda Mansour,Svetha Venkatesh ,andAnton van den Hengel.记忆正态性以检测异常:用于无监督 异常 检测 的存 储器 增强深 度自 动编 码器 。在ICCV,第1705-1714页,2019年。2[15] Saeed Hosseinzadeh Hanzaei 、 Ahmad Afshar 和 FarshadBarazandeh。瓷砖表面缺陷的自动检测与分类。模式识别。,66:174- 189,2017. 1[16] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习在CVPR,2016年6月。4[17] Yibin Huang,Congying Qiu,and Kui Yuan.磁瓦表面缺陷显著性。目视Comput. ,36(1):85-96,2020. 6[18] Bowen Jiang,Lihe Zhang,Huchuan Lu,Chuan Yang,and Ming-Hsuan Yang.基于吸收马尔可夫链的显著性检测在ICCV,第1665-1672页,2013中。3[19] James Kirkpatrick,Razvan Pascanu,Neil Rabinowitz,Joel Veness , Guillaume Desjardins , Andrei A Rusu ,Kieran Milan,John Quan,Tiago Ramalho,AgnieszkaGrabska- Barwinska,et al.克服神经网络中的灾难性遗忘Proceedings of the National Academy of Sciences,114(13):3521-3526,2017. 3[20] Xiaohui Li,Huchuan Lu,Lihe Zhang,Xiang Ruan,and Ming-Hsuan Yang.通过密集和稀疏重建的显著性检测。在ICCV,第2976-2983页,2013中。3[21] Justin Liang , Namdar Homayounfar , Wei-Chiu Ma ,Yuwen Xiong,Rui Hu,and Raquel Urtasun.多重变换:深度多边形Transformer,用于实例分割。在CVPR中,第9131-9140页,
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功