基于相互注意的图像异常检测：基于Transformer架构的新方法提高检测和定位能力

165 浏览量更新于2024-01-24 收藏 896KB PDF 举报

注意机制

无监督学习

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

虚拟现实智能硬件• 文章·2023年2月第5卷第1期：5710.1016/j.vrih.2022.07.006基于相互注意的图像异常检测张梦婷，田秀霞*上海电力学院计算机科学与技术系，上海20090接收日期：2022年6月5日;修订日期：2022年7月15日;接受日期：2022年7月28日翻译后摘要：图像异常检测，这是广泛应用于工业领域。以前试图解决这个问题的研究通常训练基于卷积神经网络的模型（例如，自动编码器和生成对抗网络）来重建输入图像的覆盖部分，并计算输入图像和重建图像之间的差异然而，卷积运算在提取局部特征方面是有效的，使得难以识别较大的图像异常。方法为此，我们提出了一个Transformer架构的基础上相互注意的图像异常分离。该架构可以捕获长期依赖关系，并融合局部和全局特征，以促进更好的图像异常检测。结果在多个基准上对该方法进行了广泛的评估，实验结果表明，与现有的基于重建的方法相比，该方法的检测能力提高了3.1%，定位能力提高了1.0%。关键词：异常检测; Swin Transformer;特征融合;注意机制;无监督学习国家自然科学基金（No.61772327号）、国网甘肃省电力公司（编号：H2019-275）、上海市大数据管理系统工程研究中心（No.H2020-216）。引文：张梦婷，田秀霞。基于相互注意的图像异常检测Transformer体系结构。虚拟现实智能硬件，2023，5（1）：571 介绍图像异常检测旨在检测与训练数据集的正常模式不同的数据它具有广泛的应用，例如视频异常监测[1，2]，医疗诊断[3，4]和工业异常检测[5然而，异常很少发生在生产线上，也不清楚可能出现哪种类型的缺陷，这使得人工检测非常耗时。因此，通过实时检测和高质量的过程控制来自动检测异常的训练模型一种流行的方法是使用基于卷积神经网络（CNN）的网络来训练无监督模型[1，8自动编码器和生成对抗网络（GAN）。这些模型被训练来重建正常图像中随机覆盖的区域。在测试阶段，通过计算重建图像和输入图像之间的差异，将异常分数分配给每个图像或像素。然而，卷积运算固有的强泛化和局部感知导致异常被*通讯作者，xxtian@shiep.edu.cn2096-5796/©版权所有2023北京中科学报出版有限公司有限公司、出版社：Elsevier B.V.我代表科爱通信有限公司公司这是CC BY-NC-ND许可下的开放获取文章（http：//creativecommons.org/licenses/by/4.0/）。58虚拟现实智能硬件二月（2023）卷。5号1以高保真度重建，这导致难以识别较大面积的图像异常[12，13]。最近的许多研究已经将变压器应用于计算机图形任务[14-16]，并获得了与最先进的CNN相当的结果Pirnay等人[10]使用Vision Transfomer（ViT）模型[17]通过将每个图像分割成具有位置嵌入的补丁来构建令牌序列，然后应用堆叠的Transformer块来提取复杂的空间变换和长距离依赖关系。不幸的是，ViT模型忽略了局部特征细节，这降低了背景和前景之间的可分辨性;如图1所示，如果ViT模型经常选择背景补丁，则像素噪声在ViT模型中存在更多因此，有效地提取局部特征并将其嵌入到全局特征中的问题非常重要。输入图1CNN（Autoencoder[18]-AnoGAN[9]），Visual Transformer（ViT）[17]和我们提出的方法的特征图比较。显然，我们提出的方法保留了对象的局部特征细节，同时降低了像素噪声[例如，（c）和（d）中的螺钉和药丸的轮廓比（a）和（b）中的轮廓更完整为了缓解这些问题，我们提出了一种新的Transformer架构的基础上相互注意，以解决图像异常检测。首先，使用深度特征提取模块提取图像的全局特征。我们受到[19]的启发，设计了一种新型的相互注意令牌选择模块（MATS），该模块选择代表性的补丁以减轻像素噪声并补充Transformer局部特征提取功能。最后在重建模块中融合全局信息和局部特征，实现更高质量的图像重建。我们工作的主要创新可以概括为三个方面。1. 我们提出了一种新的基于transformer的图像异常检测架构，该架构可以学习不同图像的全局语义和纹理信息，有效地提高了长距离依赖性和全局信息建模。2. 我们设计了一个新的相互注意标记选择模块，选择有效像素的信息上下文，以减少像素噪声和促进局部特征的提取3. 我们的架构聚合的全局特征和局部特征提取的两个不同的模块，以提高图像重建质量。本文的其余部分组织如下。在第二节中，我们讨论了最近的和相关的图像异常检测研究。在第3节中，我们描述了所提出的架构的设计细节在第4节中，我们提出了烧蚀实验和我们的架构的定性结果。最后，在第5节中给出了结论。深层ResNet-101U-Net帧内我们的Transformer螺钉丹59Mengting ZHANG，et al.基于相互注意的图像异常检测Transformer结构2 相关工作近年来，图像异常检测成为研究的这些方法可以大致分为基于嵌入分布和基于重建的方法。基于分布的嵌入方法训练深度神经网络作为特征提取器，以提取依赖于分布的表示，并将偏离分布中心的图像视为异常输入。因此，该方法通常用于检测异常图像，但不能定位图像中导致图像分布异常的部分Yi等人将训练数据映射到预定义的核空间中，并在核空间中找到包含数据的最小超球面[5]。学习超球面之外的区域被定义为异常。Defard等人采用预训练网络进行补丁嵌入，并使用多变量高斯分布获得正态类的概率表示[6]。Yu等人将输入图像的特征从原始分布转换为标准正态分布[19]。Li等人提出了新的CutPaste数据增强方法，该方法增加了图像中异常分布的密度，并进一步提高了异常检测的准确性[20]。这些方法具有简单、高效和适用于检测不同工业部件中的缺陷的优点。然而，它们中的大多数需要手动预先设置特征中心，并且需要在训练阶段设计额外的任务以避免模型退化。基于重建的方法通常应用基于CNN的模型来学习正常图像的潜在空间中的浅层语义和纹理信息。该模型被训练成只重建正常和无缺陷的图像，测试样本在测试阶段被重建为正常样本使用原始图像和重建图像之间的差异来检测异常常用的基于CNN的模型是自动编码器[8]和GAN[9]。Zavrtanik等人使用改进的自动编码器来重建移除的区域[8]。Schlegl等人提出了一种潜在空间逐点集成方法来改进GAN的结构，以生成用于检测架空绝缘子缺陷的正常样本[9]。但CNN本身具有很强的泛化能力和局部感知能力，这使得模型在重构异常样本时，能够生成与异常样本相似度更高的样本空间Roth等人提出了一种改进的方法，即在自动编码器中添加存储模块，存储具有不同采样的最具代表性的特征向量，以提高图像重建的稳定性[21]。然而，这种方法需要大量的用于存储在训练阶段期间获得的存储器模块的存储器空间量Transformer首先由Vaswani[22]提出用于自然语言处理（NLP），最近的许多研究已经将改进的Transformer模型用于图像处理任务[15我们的方法是基于一个Transformer结构的图像重建，以解决异常检测问题。Pirnay等人是第一个将Transformer应用于图像异常检测的公司，该公司训练ViT以自我监督的方式重建覆盖区域[10]。它完全去除了卷积运算，并在Transformer块之间使用长残差连接来提高检测能力。然而，这项研究忽略了这样一个事实，即Transformer可能更多地关注全局信息，而较少关注局部和低层特征。由于局部信息在图像重建中起着重要作用，它改变了模型异常检测和定位的性能。3 该方法本文提出了一种基于相互注意的Transformer图像异常检测算法。如图2所示，我们架构中的三个主要模块包括：深度特征提取模块、相互注意令牌选择模块和图像重建模块。深度特征提取模块提取输入图像的全局特征，例如对象的形状和颜色的60虚拟现实智能硬件二月（2023）卷。5号10*相互注意权重KK曲面片的线性MATS模块σ*令牌×选择σ混合代币+图像修复异常分数深度特征提取模块图2所提出的方法的架构。我们将图像分割成固定大小的块，将每个块线性投影到嵌入空间中，添加位置嵌入，并将得到的向量序列馈送到深度特征提取模块。相互注意标记选择模块选择要在深层聚集的标记，以进一步提取丰富的局部特征，例如前景、背景和纹理。最后，将两者的信息融合到图像重建模块中。3.1 图像异常检测我们将输入图像设置为IRW× H ×3，其中W和H表示图像的高度和宽度。每一个I都被切割分成边长为N=W×H的（通过调整输入图像的大小和k，使得图像的大小可被k整除）。我们设置掩码MRN×N ×1，其中M表示腔区，通道数为1，其他区域为0。然后，掩蔽的目标图像表示为：I t= I M（M是M的二进制倒数）。我们的任务是通过有效地调整k的值来训练模型，以完全输入补丁内容I并重建掩蔽区域I t内的内容。3.2 深度特征提取模块深度特征提取模块包括两个重要组件：swin Transformer块和补丁合并。Swin Transformer块是基于基准视觉Transformer（ViT）[17]的改进结构。如图3所示，每个swin Transformer块由两个基于移位窗口的多头自注意模块（W-MSA和SW-MSA）和前馈网络（FFN）组成。FFN包含两层多层感知器（MLP）;在第一层的输出层规范化(LN)在多头自注意模块（MSA）和MLP之前添加，并且将剩余连接应用于MSA和FFN模块。Swin Transformer 块和 ViT 之间的主要区别是MSA，其中ViT直接在全局特征图上计算特征注意力，而Swin Transformer块是基于移位窗口构造的。这种改进可以减少计算量，而不隔离不同窗口之间的信息传输。补丁mer-Ging用于通过下采样来调整面片的大小。图 3Swin Transformer块的体系结构。++++注意力分数Swin Transformer×2块补丁合并Swin Transformer块×4补丁合并Swin Transformer块×2图像的嵌入式令牌局部特征提取Conv 3×3LNLNSW-MSAW-MSA图像重建LNLNFFNFFN61Mengting ZHANG，et al.基于相互注意的图像异常检测Transformer结构值得注意的是，在架构末端增加一个3×3卷积层，可以将卷积运算的归纳偏差引入到基于transformer的网络中，为后期局部和深度特征的聚合提供更好的基础具体地，给定输入，我们使用堆叠的swin Transformer块来从It提取深度特征。深度特征提取模块的过程可以描述如下：FDF=HDF（It）（1）其中H_DF是包含K个swin Transformer块的深度特征提取块。更具体地，逐块地提取中间特征F1、F2、Fi=HSwtrai（It）（2）FDF=HCONV（FK）（3）其中HSwtrai（）表示第i个swin Transformer块，HCONV是最后一个卷积层。3.3 相互注意标记选择模块深度特征提取模块不断融合全局信息，使模型更关注上下文信息而不是局部特征。输入图像被分割成许多块序列，块的选择成为一个重要问题[13]，因为当模型频繁选择背景块时，它会给图像重建增加更多的像素噪声。因此，我们提出了一个相互注意标记选择模块，直接利用的注意分数产生的多头自我注意模块。所选择的标记被特征融合作为局部特征提取网络的输入。图2的顶部显示了详细信息。具体地，注意力头部的注意力得分矩阵AttentionR（N+1）×（N+1）表示为：注意= [a0;a1;a2;;aN]（4）ai= [ai，0，ai，1，ai，2，，ai，N]（5）其中ai，j是在标记i的上下文中标记i和j之间的注意力分数，即标记i的查询与标记j的键之间的点积。现在，问题是如何选择重要和独特的令牌。一个已知的简单策略[23]是通过排名ai来选择具有较高注意力分数的标记，因为分类标记包含丰富的分类信息。然而，这种方法引入了噪声。受[19]的启发，我们将注意力得分矩阵的第一列表示为bi，0，并取swin变换块中多头自我注意力的所有头部注意力得分的平均值。然后，我们使用等式6和等式7计算bi，0和令牌i之间的相互注意权重maia=ea0，i，b=eb0，i（六）、0，iNj=0 ea0，ii，0Nj=0 ebj，0mai=a0，i×bi，0（七）在获得相互注意力权重mai之后，按降序选择前i个重要标记并输入用于局部特征提取，以提取诸如线条和形状的局部信息局部特征提取。MATS模块通过自我关注机制自动定位区分区域。局部特征提取必须在可区分的特征上进行。为此，我们使用了一个简单的三层网络架构：3×3卷积层、最大池化层和1×1卷积层。最后，我们将输出下采样到与FDF相同的分辨率，以获得特征权重图FLF。3.4 图像重建模块该模块旨在使用来自深度特征提取和MATS模块的特征恢复清晰的图像62虚拟现实智能硬件二月（2023）卷。5号1S2首先，将全局特征FDF和权重图FLF点乘以获得融合特征矩阵FIR。特征融合可以丰富特征表示能力。其次，使用全局平均池将对象的特征激活转换为相应类别的分类得分，因为全局平均池可以提取比max-pooling更完整的空间特征最后，渐进式上采样卷积[15]用作解码器，在卷积层和上采样层之间交替。为了尽量减少极端激活的影响，我们将上采样限制为2倍。关于该过程的更多细节在图4中呈现。异常检测需要预测不同尺度的所有缺陷。因此，我们使用第四级的所有输出，并将不同分支的分辨率转换为通过上采样实现全分辨率，最终得到连通特征It。整个过程可以表示为：FIR=Concat（FDF，FLF）（8）It=Decoder（avg（FLR））（9）高×宽 × 1024高×宽 ×256高×宽 ×256高×宽×256高×宽 ×3256 16 16 8 8 4 4 2 2图 4图像重建模块的结构。3.5 损失函数给定一个原始和重建的斑块It和It，RN×N ×3，分别，我们使用了深度卷积层和上采样滤波器，通过最小化Charbonnier[24]损失函数来共同优化图像和特征图。因此，我们的模型具有很强的学习复杂映射的能力，并有效地减少了图像重建模块的空间混合引起的不希望的伪影Lc=（十）其中是一个常数，根据经验设置为10此外，SSIM[25]和GMS[26]都被利用，因为它们是专注于不同图像属性的补丁相似性度量最后的全损失函数L为LI t，I t）= L c+ a（GMS平均值（It，It）（i，j））+（1SSIMavg（It，It）（i，j））（11）S2（i，j）S×S（i，j）S×S其中α和β是单独的缩放参数，设置为α=β= 0.01。在MvTecAD数据集实验中，1是所有条目均等于1的矩阵，GMSavg表示颜色通道上梯度幅度相似性图的平均值，SSIMavg表示颜色通道上结构相似性图的平均值。4 实验4.1 数据集和指标数据集。我们在MVTec AD数据集上评估了我们的方法[27]，这是一个由ItI t+2263Mengting ZHANG，et al.基于相互注意的图像异常检测Transformer结构制造商MVTec Software GmbH在实际工业场景中进行异常检测。该数据集包含15种工业产品，我们将其分为纹理和对象类。纹理类包括五个元素：地毯、网格、皮革、瓷砖和木材，而对象类包括十个元素：瓶子、电缆、胶囊、榛子、金属螺母、药丸、螺丝、牙刷、晶体管和拉链。每个产品包含几种不同的缺陷类型，数据集包含73个缺陷。原始图像的分辨率从700×700像素到1024×1024像素不等。我们使用传统的数据增强方法将这个数据集扩展到我们的实验中。指标. 为了合理地评估我们的建筑物的性能，我们评估了异常检测和定位模型的两个独立性能。由于ROC下面积（AUROC）偏向于大的异常，我们采用每个区域重叠评分（PRO-AUC）作为我们的评估指标。这是许多图像异常检测工作中使用的标准度量[5，6，8]。PRO-AUC对所有地面实况异常区域同等地加权，使得分割性能不偏向于大或小的地面实况区域。4.2 实现细节参数设置。我们将随机旋转（-15，+15）和平移（-100，+100）应用于训练和测试数据集。这样的数据扩充不能总是对准图像中的感兴趣对象，从而，更好地表示异常检测和定位的真实用例。在对每个产品进行数据扩充后，获得1000个训练样本，从中随机选择10%的正常样本作为验证集。我们在200-500个epoch中训练每个工业产品的模型我们为不同产品的输入图像设置了不同的宽度和高度，以达到更好的检测效果，如表2所示。除非特别说明，否则实验中使用的方法使用参数k={2，4，8，16}来改变区域大小。虽然k被应用于上面指定的值，但是它可以被调整为特定的异常检测任务。使用的实验设备是GTX 1080 Ti，每个实验大约需要两个小时。我们使用随机梯度下降（SGD）优化器来优化网络，动量为0.9，初始学习率为10通过计算四个像素的重叠块的异常分数来评价最终异常分数基线方法。我们将所提出的方法与应用于MVTecAD数据集的其他基准方法（基于重建的方法）进行了比较，包括（1）SPADE[28]：它检索具有最近邻居的最近K个正常图像对象和没有附近匹配检索的目标图像区域;正常图像被标记为异常。(2)PaDiM[6]：它是SPADE的变体，使用多变量高斯分布来获得正常类的概率表示，并利用CNN不同语义级别之间的相关性来定位异常。（3）RIAD[8]：它随机删除正常图像区域的一部分，并使用自动编码器从部分图像渲染中重建图像（4）InTra[10]：这是第一个将ViT应用于工业异常检测场景的工作。骨干网络由ViT块组成; Transformer块之间使用长剩余连接;在计算自注意力时对关键字和查询进行SPADE、PaDiM和RIAD是基于CNN的方法，而InTra是基于transformer的方法。4.3 相互注意标记选择模块的消融研究在本节中，我们提出了MATS模块在架构中的影响的调查，以进一步验证我们提出的方法的有效性。在烧蚀实验中，我们建立了两种比较方法：一种只使用堆叠的swin Transformer块，而不需要额外的局部特征提取;另一种用单注意力权重选择策略代替我们方法中的MATS策略64虚拟现实智能硬件二月（2023）卷。5号1（SAWS）-命名为Swin Transformer+SAWS。所提出的架构被称为Swin Transformer+MATS。我们训练了200个epochs的所有类别，使用的设置是-不同标记选择模块的异常检测性能。结果以元组形式（PRO-AUC %，PRO-AUC%）呈现，分别表示异常分类和定位方法所有纹理类所有对象类所有类在第4.2节中描述。消融的结果表1显示了研究结果，SwinTransformerSwin Transfor-（91.3，94.9）（89.6，91.6）（90.5，93.3）纹理和对象类的缺陷检测的平均精度，图5显示了所有15个对象的不同方法的精度比较。mer+SAWS（96.3，96.4）（95.2，95.5）（95.6，95.8）1.00.80.60.40.20.0图5所有15个对象的不同方法的精度比较我们可以看到，即使使用简单的单一注意力权重选择策略，也显著提高了Swin Transformer块的检测和定位性能（5.1%，2.5%），而使用Swin Transformer+MATS模块比注意力权重选择策略提高了效果（2.5%，1.8%）实验结果表明，MATS模块能更好地利用注意信息，选取对重建区域影响较大的小块可以提高ViT的局部特征提取能力。4.4 结果和讨论在本节中，我们讨论了所提出的方法在解决图像异常检测问题，包括异常检测和分割的有效性的调查。首先，我们证明了所提出的方法在重建不同类型的工业产品的有效性。图6示出了四个对象和纹理的不同类型的缺陷的重建的定性结果。对于结构化的对象类，如瓶子或药丸，我们的方法生成的异常地图，可以清楚地定位异常。对于更难以重建的工业产品的纹理类别（诸如地毯和瓷砖），异常区域仍然具有高异常分数并且可以与非异常区域分离。从图6中，我们可以看到，我们的方法为具有多个缺陷类型的每个类执行异常重建，突出显示了我们的异常重建方法的性能其次，我们使用几种竞争方法进行了大量的定性和定量实验，如第4.2节所述。SPADE、PaDiM和RAID使用基于CNN变体的骨干特征提取网络，RAID和InTra基于修复重建方法进行操作，其中InTra是第一个应用Transformer结构作为检测工作的异常方法，是可用的最目前提出了许多有效的基于CNN的网络，但我们专注于没有预训练步骤的方法。SPADE带有一个预训练的网络，在基于对象的异常检测中表现良好，但我们的方法比基于纹理的缺陷检测具有更高的平均准确率的结果Swin TransformerSwin Transformer+SAWSSwin Transformer+MATS65Mengting ZHANG，et al.基于相互注意的图像异常检测Transformer结构破碎污染破碎弯曲切外失踪孔切割器螺纹断裂线程心理_大小线绝缘电缆污染瓶电缆地毯网格戳挤压裂纹翻转弯曲划痕颜色倍胶裂油胶条胶囊金属螺母皮革瓷砖图6我们的方法在MVTec AD检测数据集的选定对象（左两个）和纹理（右两个）上进行重建和异常定位的定性结果。不同类型的缺陷标记在图像的顶部。顶行：包含缺陷的输入图像。中间一行：用我们的算法重建的图像底行：为每个图像生成的异常图检测和分割在表2中给出。值得注意的是，电缆和胶囊中大量背景噪声的存在以及缺陷尺寸的大变化使得InTra方法无法执行良好的学习排版重建。然而，在我们的方法中，这两个类别的检测精度也分别提高了0.5%和0.7%。值得注意的是，我们的方法获得了3.1%的最高平均PRO-AUC，这比检测工作中最好的最先进的方法要多，并且在分割工作中多1%这表明，在利用Transformer结构的方法和利用CNN特征字典作为提取特征的方法之间确实存在差距。表2我们的方法与MVTecAD数据集上异常定位的最新检测/分割结果的比较（PRO-AUC%，PRO-AUC%）图像修复方法产品黑桃PaDiMRAID帧内我们大小地毯(97.5（见第94.7段）（99.1，96.2）(84.2，96.3）(98.8（见第99.2段）（100.0，98.7）512×512网格(93.7（见第86.7段）(97.3（见第94.6段）(99.6，98.8）（100.0，98.8）(99.6，99.8）512×512皮革(97.6（见第97.2段）(99.2（见第97.8段）（100，99.4）（100.0，99.5）（100.0，98.6）512×512瓷砖(87.4，75.9）(94.1（第86.0段）(98.7，89.1）(98.2，94.4）（99.7，95.1）512×512木材(88.5（见第87.4段）(94.9（见第91段第1款）(93.0，95.8）(97.5，88.7）（98.4，96.5）512×512所有纹理类(92.9（见第88.4段）(96.9（见第93.2段）(95.1，93.9）(98.9，96.1）（99.5，97.7）瓶(98.4（见第95.5段）(98.3（见第94.8段）(99.9，98.4）（100.0、97.1）(99.4（见第98.2段）256×256电缆（97.2，90.9）(96.7，88.8）(81.9，84.2）(70.3，91.0）(87.5（见第91.5段）256×256胶囊（99.0，93.7）(98.5（见第93.5段）(88.4，92.8）(86.5，97.7）(91.2（见第98.4段）320×320榛子（99.1，95.4）(98.2（见第92.6段）(83.3，96.1）(95.7（见第98.3段）(98.4，98.1）320×320金属螺母(98.1（见(97.2（见(88.5，(96.9，（99.3，256×25666虚拟现实智能硬件二月（2023）卷。5号1第94.4段）第85.6段）92.5）93.3）96.2）丹（96.5，94.6）(95.7（见第92.7段）(83.8，95.7）(90.2（见第98.3段）(96.2，98.2）512×512螺钉(98.9（96.0）(98.5（见第94.4段）(84.5，98.8）(95.7（见第99.5段）（99.4，97.5）320×320牙刷(97.9（见第93.5段）(98.8（见第93.1段）（100，98.9）（100.0，98.9）（100.0，99.7）256×256晶体管(94.1（见第87.4段）(97.5（见第84.5段）(90.9，87.7）(95.8，96.1）（96.4，97.5）256×256拉链(96.5（见第92.6段）(98.5（见第95.9段）(98.1，97.8）（99.4，99.2）(98.4，99.1）512×512所有对象类（97.6，93.4）(97.8（见第91.6段）(89.9，94.3）(93.0，96.9）(96.6（见第97.4段）所有类(96.5（见第91.7段）(97.5（见第92段第1款）(91.7，94.2）(95.0，96.6）（98.1，97.6）67Mengting ZHANG，et al.基于相互注意的图像异常检测Transformer结构先验知识5 结论在本文中，我们提出了一种基于变换的特征融合架构的图像异常检测和定位，融合局部和全局特征的图像重建过程。我们提出了一种新的MATS模块，以解决现有的变压器是有效地聚集本地信息的问题。当处理与对象无关的背景信息时，MATS模块可以执行更好的选择。未来的工作可以集中在增加时空信息特征的获取，以将这项工作扩展到视频的异常监测领域竞合利益我们声明我们之间没有利益冲突引用1 [10]龚D，刘良Q，乐V，萨哈B，曼苏尔M R，文卡特什S，范登亨格尔A.通过验证正常性来检测异常：用于无监督异常检测的内存增强深度自动编码器。2019 IEEE/CVF计算机视觉国际会议（ICCV）首尔，韩国（南），IEEE，2019，1705DOI：10.1109/iccv.2019.001792 Park H，Noh J，Ham B.学习记忆引导的常态异常检测。2020年IEEE/CVF计算机视觉和模式识别会议（CVPR）美国华盛顿州西雅图，IEEE，2020，14360DOI：10.1109/cvpr42600.2020.014383 杨伟杰，杨伟杰.医学异常检测的深度学习-调查。ACM计算调查，2022，54（7）：1DOI：10.1145/34644234 [10]李红，李平，李红，薛刚，秦军，金军，冯东达.ECSU-net：嵌入式聚类切片U-net结合融合策略，用于有效的椎间盘分割和分类。IEEETransactions on ImageProcessing，2022，31：8805 Yi J H，Yoon S.补丁SVDD：补丁级SVDD，用于异常检测和分割。20206 张文辉，张文辉，张文辉. PaDiM：用于异常检测和定位的补丁分布建模框架。在：模式识别. ICPR国际研讨会和挑战。Cham：Springer International Publishing，2021，475-489 DOI：10.1007/978-3-030-68799-1_357 Tabernik D，Šela S，Skvarnik J，Skočaj D.基于分割的深度学习方法用于表面缺陷检测。智能制造学报，2020，31（3）：759DOI：10.1007/s10845-019-01476-x8 放大图片创作者：Kristan M.基于图像修复的视觉异常检测。模式识别，2021，112：107706DOI：10.1016/j.patcog.2020.1077069 Schlegl T，Seeböck P，Waldstein S.使用生成对抗网络进行无监督异常检测，以指导标记发现。医疗加工，2017年10 Pirnay J，Chai K.修复Transformer以进行异常检测。图像分析与处理-ICIAP 2022。Cham：Springer International Publishing，2022：394DOI：10.1007/978-3-031-06430-2_3311 Li H，Sheng B，Li P，Ali R，Chen C L P.通过基于范例的广义GAN进行全局和局部语义着色。IEEE图像处理学报，2021，30：8526DOI：10.1109/tip.2021.311706112 刘志，林永涛，曹勇，胡宏，魏永翔，张志，林松，郭斌宁. Swin Transformer：使用移位窗口的分层视觉Transformer。2021IEEE/CVF 计算机视觉国际会议（ ICCV ）蒙特利尔， QC ，加拿大， IEEE ， 2021 ， 9992-10002 DOI ：10.1109/iccv48922.2021.0098613 袁丽，陈永平，王涛，余文辉，施永军，姜志华，戴飞华，冯建生，严世春.Tokens-to-token ViT：在ImageNet上从头开始训练视觉2021 IEEE/CVF计算机视觉国际会议（ICCV）蒙特利尔，QC，加拿大，IEEE，2021，538DOI：10.1109/iccv48922.2021.0006014 陈宏涛，王永华，郭天扬，徐春，邓永萍，刘正华，马世文，徐春杰，徐春，高伟。预训练的图像处理Transformer。于：68虚拟现实智能硬件二月（2023）卷。5号12021 IEEE/CVF计算机视觉与模式识别会议（CVPR）。Nashville，TN，USA，IEEE，2021，12294-12305 DOI：10.1109/cvpr46437.2021.0121215 郑世新，陆建春，赵宏生，朱晓婷，罗志凯，王永斌，付永文，冯建芳，向涛，托平宏生，张玲。使用transformers从序列到序列的角度重新思考语义分割2021 IEEE/CVF计算机视觉与模式识别会议（CVPR）美国田纳西州纳什维尔，IEEE，6877DOI：10.1109/cvpr46437.2021.0068116 Carion N，Massa F，Synnaeve G，Mr.使用变压器进行端到端物体检测。2020年欧洲计算机视觉会议17 杜索维茨基，拜尔，科列斯尼科夫.一张图像值16×16个单词：用于大规模图像识别的变形金刚202018 何克民，张晓宇，任世清，孙杰。基于深度残差学习的图像识别。2016年IEEE计算机视觉和模式识别会议。美国内华达州拉斯维加斯，IEEE，770DOI：10.1109/cvpr.2016.9019 余建伟，郑英，王新，李伟，吴永生，赵荣，吴良伟。FastFlow：通过2D规范化流进行无监督异常检测和定位。202120 李志龙，孙凯，尹俊，普菲斯特. CutPaste：用于异常检测和定位的自监督学习。2021 IEEE/CVF计算机视觉与模式识别会议（CVPR）Nashville，TN，USA，IEEE，2021，9659-9669 DOI：10.1109/cvpr46437.2021.0095421 Roth K，Pemula L，Zepeda J. Towards total recall in industrial anomaly detection.在：IEEE/CVF计算机视觉和模式识别会议的论文集。202222 瓦斯瓦尼河你需要的只是关注神经信息处理系统进展23 [10]杨文，杨文，杨文.不知情的学生：学生-教师异常检测与歧视性潜在嵌入。2020年IEEE/CVF计算机视觉和模式识别会议（CVPR）美国华盛顿州西雅图，IEEE，2020，4182-4191DOI：10.1109/cvpr42600.2020.0042424 赖文生，黄建斌，阿胡加南，杨明辉。使用深度拉普拉斯金字塔网络实现快速准确的图像超分辨率。IEEETransactionson PatternAnalysis and Machine Intelligence，2019，41（11）：2599DOI：10.1109/tpami.2018.286530425 [10]杨文，杨文.通过将结构相似性应用于自动编码器来改进无监督缺陷分割。201826 薛伟，张玲，牟X，博维克A C.梯度幅度相似性偏差：一种高效的感知图像质量指标。IEEE图像处理学报，2014，23（2）：684DOI：10.1109/tip.2013.229342327 [10]杨文，杨文，杨文. MVTec AD-用于无监督异常检测的全面真实世界数据集。2019年IEEE/CVF计算机视觉和模式识别会议（CVPR）。Long Beach，CA，USA，IEEE，2019，9584-9592 DOI：10.1109/cvpr.2019.0098228 科恩，霍森，基于深金字塔对应的子图像异常检测2020年：arXiv：2005.02357

下载后可阅读完整内容，剩余1页未读，立即下载