没有合适的资源?快使用搜索试试~ 我知道了~
Choubo Ding1†,Guansong Pang2†,Chunhua Shen373880捕捉灰天鹅和黑天鹅:开放式有监督异常检测*01 阿德莱德大学 2 新加坡管理大学 3 浙江大学0摘要0尽管大多数现有的异常检测研究假设只有正常训练样本可用,但在许多实际应用中通常会有一些标记的异常样本,例如在随机质量检查中发现的缺陷样本,日常医学筛查中由放射科医生确认的病变图像等。这些异常样本提供了关于特定应用异常的宝贵知识,可以显著改善最近一些模型对类似异常的检测。然而,在训练过程中看到的这些异常通常不能涵盖所有可能的异常类别,使得这些模型无法推广到未知的异常类别。本文解决了开放式有监督异常检测问题,我们使用异常样本学习检测模型,目标是检测已知异常(“灰天鹅”)和未知异常(“黑天鹅”)。我们提出了一种新颖的方法,学习了由已知异常、伪异常和潜在残余异常(即在潜在空间中与正常数据具有异常残差的样本)所说明的异常的分离表示,其中后两种异常设计用于检测未知异常。对九个真实世界的异常检测数据集进行了大量实验,结果显示我们的模型在不同设置下检测已知和未知异常的性能优越。代码和数据可在以下链接获取:https://github.com/choubo/DRA01. 引言0异常检测(AD)旨在识别不符合预期模式的异常样本[35]。它在各个领域都有广泛的应用,例如医学图像分析中的病变检测[48, 56, 70],工业检测中的微裂纹/缺陷检测[3,4],视频监控中的犯罪/事故检测[11, 20, 51,69],以及自动驾驶中的未知物体检测[10,55]。大多数现有的异常检测方法0*通讯作者:CS(电子邮件:chunhua@me.com)。本研究部分工作是在GP和CS在阿德莱德大学时完成的。† 前两位作者贡献相等。0图1. SotA无监督(KDAD [46])和有监督(DevNet [34,36])模型以及我们的开放式有监督模型(DRA)在两个MVTecAD数据集(Leather和Tile)的测试数据上学到的特征的t-SNE可视化。KDAD仅使用正常数据进行训练,学习到的特征不如DevNet和DRA那样具有区分性,后两者使用了来自已知异常类别的十个样本进行训练,除了正常数据。DevNet容易过拟合已知异常,无法区分未知异常和正常数据,而DRA有效地缓解了这个问题。0[2, 8, 11, 13, 32, 38, 38, 41, 43, 45, 46, 48, 57–59, 68,73]是无监督的,假设只有正常训练样本可用,即无异常的训练数据,因为很难,如果不是不可能,收集大规模的异常数据。然而,在许多相关的实际应用中通常会有一小部分(例如一到多个)标记的异常样本,例如在随机质量检查中发现的一些缺陷样本,日常医学筛查中由放射科医生确认的病变图像等。这些异常样本提供了关于应用特定异常的宝贵知识[29, 34, 36,44],但无监督的检测器无法利用它们。由于对异常的了解不足,无监督模型中学到的特征不具有足够的区分性,无法将异常(尤其是一些具有挑战性的异常)与正常数据区分开,如图1所示,KDAD是最近的一个无监督方法,在两个MVTecAD缺陷检测数据集[3]上的结果。近年来,已经有一些研究[29, 34,036 , 44 ]探索了一种监督检测范式,旨在利用那些小型、易于获取的异常数据——罕见但之前发生过的特殊情况/事件,即“灰天鹅”。73890灰天鹅[22]——来训练基于异常信息的检测模型。这一系列的方法主要集中在使用单类度量学习将这些异常示例拟合为负样本[29, 44],或者使用单侧异常聚焦偏差损失[34,36]。尽管异常数据的数量有限,但它们在检测与训练期间看到的异常类似的异常方面取得了很大的改进。然而,这些已见异常通常不能说明每一类可能的异常,因为i)异常本身是未知的,ii)已见和未见的异常类之间可能存在很大差异[35],例如,颜色污渍的缺陷特征与皮革缺陷检测中的褶皱和切口的缺陷特征非常不同。因此,这些模型可能会过度拟合已见异常,无法推广到未见/未知的异常类——罕见和之前未知的特殊情况/事件,即“黑天鹅”,如图1中DevNet[34,36]的结果所示,DevNet在检测已见异常方面优于KDAD,但无法将未见异常与正常样本区分开来。事实上,这些监督模型可能会受到给定异常示例的偏见,并且在检测未见异常方面比无监督检测器效果更差(请参见图1中Tile数据集上的DevNet与KDAD的对比)。为了解决这个问题,本文解决了开放式监督异常检测问题,其中检测模型是在开放式环境中使用少量的异常示例进行训练的,即目标是检测已见异常(“灰天鹅”)和未见异常(“黑天鹅”)。为此,我们提出了一种新颖的异常检测方法,称为DRA,它学习了异常的解耦表示,以实现广义检测。特别地,我们将无界异常分解为三个一般类别:与有限已见异常相似的异常,通过数据增强或外部数据源创建的伪异常相似的异常,以及可以在某些基于潜在残差的复合特征空间中检测到的未见异常。我们进一步设计了一个多头网络,强制分别学习这三种解耦的异常。通过这样做,我们的模型学习了多样化的异常表示,而不仅仅是已知的异常,可以从正常数据中区分出已见和未见的异常,如图1所示。总之,我们的主要贡献如下:0•为了解决开放式监督异常检测问题,我们提出了学习异常的解耦表示的方法,这些异常由已见异常、伪异常和基于潜在残差的异常组成。这样可以学习多样化的异常表示,将寻找的异常扩展到已见和未见的异常。•我们提出了一种新颖的基于多头神经网络的模型DRA,用于学习解耦的异常表示。0• 每个头部专门捕捉一种特定类型的异常。•我们还引入了一种基于潜在残差的异常学习模块,该模块通过正常样本和异常样本的中间特征图之间的残差来学习异常。这有助于学习用于检测原始非复合特征空间中难以检测到的异常(例如未见异常)的有区别的复合特征。•我们在工业检测、基于漫游车的行星探索和医学图像分析等九个真实应用数据集上进行了全面的实验。结果表明,我们的模型在不同的设置下明显优于五个SotA竞争模型。这些结果还为这个重要的新兴方向的未来工作建立了新的基准。02. 相关工作0无监督方法。大多数现有的异常检测方法,如基于自编码器的方法[13, 18, 38, 71, 73],基于生成对抗网络的方法[39,45, 48, 68],自监督方法[2, 11, 12, 25, 50, 56,60]和单类分类方法[7, 8, 40,43],假设在训练期间只能访问正常数据。尽管它们没有偏向已知异常的风险,但由于缺乏关于真实异常的知识,它们很难区分异常和正常样本。监督方法。最近出现的一个方向是监督(或半监督)异常检测,通过利用少量异常示例来学习具有异常信息的模型来缓解异常信息的缺乏。这是通过将异常作为负样本进行单类度量学习[14, 29, 33,44]或单侧异常聚焦偏差损失[34, 36,70]来实现的。然而,这些模型严重依赖于已知异常,并且可能过度拟合已知的异常性。[37]引入了一种强化学习方法来缓解这种过度拟合问题,但它假设大规模无标签数据可用,并且这些数据中存在未知异常。监督异常检测类似于不平衡分类[6, 15,30],因为它们都使用少量标记示例来检测罕见的类别。然而,由于异常的无界性和未知性,异常检测本质上是一个开放集任务,而不平衡分类任务通常被定义为一个封闭集问题。学习内外分布。外分布(OOD)检测[16, 17, 19, 28, 42,67]和开放集识别[1, 29, 47, 65,72]是与我们任务相关的任务。然而,它们旨在在检测OOD/不确定样本的同时保证准确的多类内部类别分类,而我们的任务专注于异常检测。此外,尽管使用了伪异常Normality Feature Learningarg minΘ73900已知异常0参考样本0伪异常0已知异常学习头0潜在残差异常学习头0卷积神经网络0已知异常伪异常已知和伪异常参考样本0(a)0逐块异常评分0普通特征学习0特征图0前K个异常评分0异常评分图0(b)0特征向量0异常评分0异常评分0复合特征学习0参考特征图特征图0逐元素减法0残差特征图0普通特征学习0(c)0图2. 我们提出的框架概述。 (a) 展示了学习三个解耦异常性的高级过程, (b)展示了在普通(非复合)特征空间中的异常性特征学习,用于已知和伪异常性学习头, (c)展示了我们提出的在复合特征空间中学习潜在残差异常性的框架。0像异常暴露[17,19]一样,这两个任务中的当前模型也被假设为无法访问任何真正的异常样本。03. 提出的方法0问题陈述:所研究的问题,开放集监督异常检测,可以正式陈述如下。给定一组训练样本X = {xi}Ni+Mi=1,其中Xn ={x1, x2, ..., xN}是正常样本集,Xa = {xN+1, xN+2, ...,xN+M}(M �N)是一小部分注释的异常样本集,提供了关于真实异常的一些知识,并且这M个异常属于已知异常类别S � C,其中C={ci}|C|i=1表示所有可能的异常类别集合,然后目标是通过学习一个异常评分函数g:X →R来检测已知和未知的异常类别,该函数为已知和未知的异常样本分配更高的异常评分。03.1. 我们方法的概述0我们提出的DRA方法旨在学习解耦的多样异常表示,以有效检测已知和未知异常。学习到的异常表示包括通过有限的给定异常示例说明的已知异常,以及通过伪异常和潜在残余异常(即在学习的特征空间中与正常示例相比具有异常残差的样本)说明的未知异常。通过这样做,DRA缓解了对已知异常的偏见问题,并学习了广义的检测模型。我们提出的框架的高级概述如图2a所示,由三个主要模块组成,包括已知异常、伪异常和潜在残余异常学习头部。前两个头部在一个普通(非复合)特征空间中学习异常表示,如图2b所示,而最后一个头部通过查看输入样本在学习的特征空间中与某些参考(即正常)图像的残余特征的偏差来学习复合异常表示,如图2c所示。特别地,给定一个特征提取网络f:X→M,用于从训练图像x∈X�Rc×h×w中提取中间特征图M∈M�Rc′×h′×w′,以及一组异常学习头部G={gi}|G|i=1,其中每个头部g:M→R为一种异常类型学习异常分数,则DRA的整体目标可以表示如下:0在学习的特征空间中,通过输入样本的残差特征与一些参考(即正常)图像的残差特征的偏差,如图2c所示,DRA旨在学习解耦的多样异常表示,以有效检测已知和未知异常。特别地,给定一个特征提取网络f:X→M,用于从训练图像x∈X�Rc×h×w中提取中间特征图M∈M�Rc′×h′×w′,以及一组异常学习头部G={gi}|G|i=1,其中每个头部g:M→R为一种异常类型学习异常分数,则DRA的整体目标可以表示如下:0i=1ℓi�gi(f(x;Θf);Θi), yx�, (1)0其中,Θ包含所有权重参数,yx表示x的监督信息,ℓi表示一个头部的损失函数。特征网络f由所有下游异常学习头部共同优化,而这些头部在学习特定异常时彼此独立。下面我们详细介绍每个头部。03.2. 学习解耦的异常0使用已知异常进行异常学习。大多数现实世界的异常与正常图像只有一些细微的差异,与正常图像共享大部分共同特征。针对这个问题,已经展示了学习每个小图像块的异常分数的基于补丁的异常学习方法[4, 34, 59,64]的出色性能。受此启发,DRA利用了[34]中基于top-K的多实例学习(MIL)方法,有效地学习已知异常。如图2b所示,对于每个输入图像x的特征图Mx,我们生成像素级向量表示D={di}h′×w′i=1,其中每个向量对应于输入图像的一个小补丁的特征向量。然后,通过异常分类器gs:D→R将这些补丁级表示映射到学习图像补丁的异常分数。由于只有选择性的图像补丁包含异常特征,我们利用一个op-w′di; Θn�, yx�,(9)73910使用基于top-K的MIL进行优化,根据K个最异常的图像块学习图像的异常分数,损失函数定义如下:0ℓs(x, yx) = ℓ�gs(Mx; Θs), yx�, (2)0其中,ℓ是二元分类损失函数;yx=1表示x是已知异常,yx=0表示x是正常样本;并且0gs(Mx; Θs) =maxΨK(Mx)�D1K0di∈ΨK(Mx)gs(di; Θs) (3)0其中,ΨK(Mx)是Mx中所有向量中具有最大异常分数的K个向量的集合。使用伪异常进行异常学习。我们进一步设计了一个单独的头部来学习与已知异常不同的异常,并模拟一些可能的未知异常类别。有两种有效的方法来创建这种伪异常,包括基于数据增强的方法[25, 53]和异常暴露[17,41]。特别地,对于基于数据增强的方法,我们采用了流行的CutMix方法[66]来从正常图像xn中生成伪异常˜x进行训练,其定义如下:0˜x = T ◦ C(R ⊙ xn) + (1 − T(R)) ⊙ xn (4)0其中,R∈{0,1}h×w表示随机矩形的二进制掩码,1是全1矩阵,⊙是逐元素乘法,T(∙)是随机平移变换,C(∙)是随机颜色抖动。如图2a所示,伪异常性学习使用与已知异常性学习相同的架构和异常评分方法来学习细粒度的伪异常特征:0ℓp(x,yx) = ℓ(gp(Mx;Θp),yx), (5)0其中,如果x是伪异常(即x=˜x),则yx=1;如果x是正常样本,则yx=0;而gp(Mx;Θp)与公式(3)中的gs完全相同,但gp在一个单独的头部使用不同的异常数据和参数与gs进行训练,以学习伪异常性。正如第4.1节和第4.6节所讨论的,异常检测中使用了异常暴露方法[17]。在这种情况下,伪异常˜x是从外部数据中随机抽取的样本,而不是通过公式(4)创建的。使用潜在残差异常性学习进行异常性学习。一些异常,如之前未知的异常,与已知异常没有共同的异常特征,并且与正常样本之间只有很小的差异,使用仅使用异常本身的特征很难检测到它们,但是如果提供了更具有区分性的高阶复合特征空间,则可以轻松检测到它们。由于异常是通过与正常特征表示的差异来表征的,我们利用异常与正常图像(正常图像)的特征之间的差异来学习这种具有区分性的复合特征。具体而言,我们提出了基于学习特征空间中一些参考图像(正常图像)的特征残差来学习样本的异常分数的潜在残差异常性学习。如图2c所示,为了获得潜在特征残差,我们首先使用从正常数据中随机抽取的一小组图像作为参考数据,并计算它们的特征图的均值,以获得参考正常特征图:0由于异常的特征通常是细粒度的局部特征,正常的特征是整体的全局特征。因此,gn不像其他头部那样使用基于前K个最大实例的异常评分,而是学习整体的正常评分。训练和推断。在训练过程中,特征映射网络f由四个头部gs、gp、gr和gn共享和联合训练。这四个头部彼此独立,因此它们的参数不共享。0Mr = 10Nr0i =1 f(xri;Θf), (6)0其中,xri是一个参考正常图像,Nr是表示参考集大小的超参数。对于给定的训练图像x,我们对其特征图Mx和对所有训练和测试样本固定的参考正常特征图Mr进行逐元素减法,得到x的残差特征图Mr�x:0Mr�x = Mr�Mx, (7)0其中,�表示逐元素减法。然后,我们对这些残差特征进行异常分类:0ℓr(x,yx) = ℓ(gr(Mr�x;Θr),yx), (8)0其中,如果x是已知/伪异常,则yx=1;如果x是正常样本,则yx=0。同样,gr使用与公式3中的gs完全相同的方法来获得异常分数,但它在使用不同的训练输入(即残差特征图Mr�x)和参数Θr在一个单独的头部进行训练。由于gs、gp和gr头部专注于学习异常表示,所以在f中共同学习的特征图不能很好地建模正常特征。为了解决这个问题,我们添加了一个单独的正常性学习头部,如下所示:0ℓn(x,yx) = ℓ(gn�10h′×w′0其中,gn:D→R是一个全连接的二进制异常分类器,用于区分正常样本和所有已知和伪异常。与通常是细粒度局部特征的异常特征不同,正常特征是整体的全局特征。因此,gn不像其他头部那样使用基于前K个最大实例的异常评分,而是学习整体的正常评分。训练和推断。在训练过程中,特征映射网络f由四个头部gs、gp、gr和gn共享和联合训练。这四个头部彼此独立,因此它们的参数不共享。73920并且独立优化。默认情况下,我们在所有头部中使用称为偏差损失[34,36]的损失函数来实现损失函数ℓ,因为它通常比其他损失函数(如交叉熵损失或焦点损失)具有更稳定和有效的性能(请参见附录C.2)。在推断过程中,给定一个测试图像,我们将异常性学习头部(g_s,g_p和g_r)的所有分数相加,并减去正常性头部g_n的分数,以获得其异常分数。04. 实验0数据集许多研究在合成异常检测数据集上评估他们的模型,这些数据集是从流行的图像分类基准数据集转换而来,例如MNIST[24],Fashion-MNIST [63],CIFAR-10[23],使用一对多或一对一的协议。这种转换导致了明显不同于正常样本的异常。然而,在真实世界的应用中,例如工业缺陷检测和医学图像中的病变检测,异常和正常样本通常只有微小/小的差异。受此启发,我们遵循[25, 34,64]的方法,专注于具有自然异常而不是基于一对多/一对一的合成异常的数据集。特别地,我们在实验中使用了九个具有真实异常的多样化数据集,包括五个工业缺陷检测数据集:MVTec AD [3],AITEX [49],SDD [52],ELPV[9]和Optical[62],我们的目标是检查有缺陷的图像样本;一个行星探测数据集:Mastcam[21],我们的目标是识别火星探测车拍摄的地质有趣/新颖的图像;以及三个用于检测不同器官上的病变的医学图像数据集:BrainMRI [46],HeadCT [46]和Hyper-Kvasir[5]。这些数据集是各自研究领域的流行基准数据集,最近也成为异常检测的重要基准数据集[4, 18, 34, 46,64](有关这些数据集的详细介绍,请参见附录A)。04.1. 实现细节0DRA使用ResNet-18作为特征学习的主干网络。所有的头部都是联合训练的,每个头部使用30个epochs进行训练,每个epoch有20个迭代,批量大小为48。使用Adam进行参数优化,初始学习率为10^-3,权重衰减为10^-2。DRA中的top-K MIL与DevNet [34]中的相同,即top-KMIL中的K设置为每个分数图中所有分数数量的10%。在残差异常学习中,默认使用N_r =5(见第4.6节)。伪异常学习使用CutMix[66]在除了三个医学数据集之外的所有数据集上创建伪异常样本,在这三个医学数据集上,DRA使用来自另一个医学数据集LAG[26]的外部数据作为伪异常源(见第4.6节)。我们的模型DRA与最近的五种相关最先进(SotA)方法进行比较,包括MLEP。0[29],偏差网络(DevNet)[34,36],SAOE(将基于数据增强的合成异常[25, 31,53]与异常暴露[17, 41]相结合),无监督异常检测器KDAD[46]和以焦点损失驱动的分类器(FLOS)[27](有关与其他两种方法[44,61]的比较,请参见附录C.1)。MLEP和DevNet解决与我们相同的开放集合AD问题。KDAD是一种最近的仅使用正常训练数据的无监督AD方法。通常认为无监督检测器在检测未见异常时比监督检测器更可取,因为后者可能会偏向于已见异常。受此启发,我们将KDAD用作基准。DevNet和KDAD的实现来自其作者。MLEP根据与DRA相同的设置进行了图像任务的调整。SAOE利用了基于数据增强和异常暴露的方法的伪异常,优于仅使用这些异常创建方法之一的个体。FLOS是使用焦点损失训练的不平衡分类器。为了公平比较,除了KDAD需要其自己的特殊网络架构进行训练和推断之外,所有竞争方法都使用与DRA相同的网络主干(即ResNet-18)。有关DRA及其竞争方法的更多实现细节,请参见附录B。04.2. 实验协议0我们使用以下两个实验协议:一般设置模拟了开放集AD的一般场景,其中给定的异常样本是从测试集中的所有可能的异常类中随机抽取的少量样本。然后,这些抽样的异常样本从测试数据中移除。这是为了复制现实世界的应用程序,我们无法确定已知的异常类是哪些,给定的异常样本跨越了多少个异常类。因此,数据集可以包含已知和未知的异常类,或者只包含已知的异常类,这取决于应用程序的底层复杂性(例如,所有可能的异常类的数量)。硬设置旨在专门评估模型在检测未知异常类方面的性能,这是开放集AD中的关键挑战。为此,异常示例抽样仅限于从一个单一的异常类中抽取,并且将该异常类中的所有异常样本从测试集中移除,以确保测试集仅包含未知的异常类。请注意,此设置仅适用于至少有两个异常类的数据集。由于标记的异常很难获得,因为它们的稀有性和未知性,在这两种设置中,我们仅使用非常有限的标记异常,即给定的异常示例的数量分别固定为一个和十个。使用流行的性能指标,ROC曲线下面积(AUC)。每个模型产生一个异常排名,DRA (Ours)MVTec AD-0.861±0.0090.794±0.0140.792±0.0140.834±0.0070.744±0.0190.883±0.0080.945±0.0040.939±0.0070.926±0.0100.907±0.0050.959±0.003AITEX120.576±0.0020.598±0.0700.538±0.0730.675±0.0940.564±0.0550.692±0.1240.887±0.0130.841±0.0490.874±0.0240.867±0.0370.893±0.017SDD10.888±0.0050.881±0.0090.840±0.0430.781±0.0090.811±0.0450.859±0.0140.988±0.0060.967±0.0180.955±0.0200.983±0.0130.991±0.005ELPV20.744±0.0010.514±0.0760.457±0.0560.635±0.0920.578±0.0620.675±0.0240.846±0.0220.818±0.0320.793±0.0470.794±0.0470.845±0.013Optical10.579±0.0020.523±0.0030.518±0.0030.815±0.0140.516±0.0090.888±0.0120.782±0.0650.720±0.0550.941±0.0130.740±0.0390.965±0.006Mastcam110.642±0.0070.595±0.0160.542±0.0170.662±0.0180.625±0.0450.692±0.0580.790±0.0210.703±0.0290.810±0.0290.798±0.0260.848±0.008BrainMRI10.733±0.0160.694±0.0040.693±0.0360.531±0.0600.632±0.0170.744±0.0040.958±0.0120.955±0.0110.900±0.0410.959±0.0110.970±0.003HeadCT10.793±0.0170.742±0.0760.698±0.0920.597±0.0220.758±0.0380.796±0.1050.982±0.0090.971±0.0040.935±0.0210.972±0.0140.972±0.002Hyper-Kvasir40.401±0.0020.653±0.0370.668±0.0040.498±0.1000.445±0.0400.690±0.0170.829±0.0180.773±0.0290.666±0.0500.600±0.0690.834±0.00473930表1. 在一般设置下,九个真实世界的AD数据集的AUC结果(均值±标准差)。前15个数据集是MVTecAD的数据子集,其结果是这些子集上的平均结果。监督方法使用一个或十个随机异常样本进行训练,最佳结果用红色表示,次佳结果用蓝色表示。KDAD被视为基准。| C | 是异常类的数量。0数据集| C |基线一个训练异常示例十个训练异常示例0地毯 5 0.774 ±0.005 0.746 ±0.076 0.755 ±0.026 0.766 ±0.098 0.701 ±0.091 0.859 ±0.023 0.867 ±0.040 0.780 ±0.009 0.755 ±0.136 0.781 ±0.049 0.940 ±0.027 网格 5 0.749 ±0.017 0.891 ±0.040 0.871 ±0.076 0.921 ±0.032 0.839 ±0.0280.972 ±0.011 0.967 ±0.021 0.966 ±0.005 0.952 ±0.011 0.980 ±0.009 0.987 ±0.009 皮革 5 0.948 ±0.005 0.873 ±0.026 0.791 ±0.057 0.996 ±0.007 0.781 ±0.020 0.989 ±0.005 0.999 ±0.001 0.993 ±0.004 1.000 ±0.000 0.813 ±0.158 1.000±0.000 瓷砖 5 0.911 ±0.010 0.752 ±0.038 0.787 ±0.038 0.935 ±0.034 0.927 ±0.036 0.965 ±0.015 0.987 ±0.005 0.952 ±0.010 0.944 ±0.013 0.988 ±0.009 0.994 ±0.006 木材 5 0.940 ±0.004 0.900 ±0.068 0.927 ±0.065 0.948 ±0.009 0.660±0.142 0.985 ±0.011 0.999 ±0.001 1.000 ±0.000 0.976 ±0.031 0.999 ±0.002 0.998 ±0.001 瓶子 3 0.992 ±0.002 0.976 ±0.006 0.975 ±0.023 0.989 ±0.019 0.927 ±0.090 1.000 ±0.000 0.993 ±0.008 0.995 ±0.002 0.998 ±0.003 0.981 ±0.0041.000 ±0.000 胶囊 5 0.775 ±0.019 0.564 ±0.032 0.666 ±0.020 0.611 ±0.109 0.558 ±0.075 0.631 ±0.056 0.865 ±0.057 0.902 ±0.017 0.850 ±0.054 0.818 ±0.063 0.935 ±0.022 药丸 7 0.824 ±0.006 0.769 ±0.017 0.745 ±0.064 0.652 ±0.0780.656 ±0.061 0.832 ±0.034 0.866 ±0.038 0.929 ±0.012 0.872 ±0.049 0.845 ±0.048 0.904 ±0.024 晶体管 4 0.805 ±0.013 0.722 ±0.032 0.709 ±0.041 0.680 ±0.182 0.695 ±0.124 0.668 ±0.068 0.924 ±0.027 0.862 ±0.037 0.860 ±0.053 0.927±0.043 0.915 ±0.025 拉链 7 0.927 ±0.018 0.922 ±0.018 0.885 ±0.033 0.970 ±0.033 0.856 ±0.086 0.984 ±0.016 0.990 ±0.009 0.990 ±0.008 0.995 ±0.004 0.965 ±0.002 1.000 ±0.000 电缆 8 0.880 ±0.002 0.783 ±0.058 0.790 ±0.039 0.819±0.060 0.688 ±0.017 0.876 ±0.012 0.892 ±0.020 0.890 ±0.063 0.862 ±0.022 0.857 ±0.062 0.909 ±0.011 榛子 4 0.984 ±0.001 0.979 ±0.010 0.976 ±0.021 0.961 ±0.042 0.704 ±0.090 0.977 ±0.030 1.000 ±0.000 1.000 ±0.000 1.000 ±0.0001.000 ±0.000 1.000 ±0.000 金属螺母 4 0.743 ±0.013 0.876 ±0.007 0.930 ±0.022 0.922 ±0.033 0.878 ±0.038 0.948 ±0.046 0.991 ±0.006 0.984 ±0.004 0.976 ±0.013 0.974 ±0.009 0.997 ±0.002 螺丝 5 0.805 ±0.021 0.399 ±0.187 0.337 ±0.0910.653 ±0.074 0.675 ±0.294 0.903 ±0.064 0.970 ±0.015 0.940 ±0.017 0.975 ±0.023 0.899 ±0.039 0.977 ±0.009 牙刷 1 0.863 ±0.029 0.753 ±0.027 0.731 ±0.028 0.686 ±0.110 0.617 ±0.058 0.650 ±0.029 0.860 ±0.066 0.900 ±0.008 0.865±0.062 0.783 ±0.048 0.826 ±0.0210并且其AUC是基于排名计算的。所有报告的AUC都是三次独立运行的平均结果。04.3. 通用设置下的结果0表1显示了通用设置协议下的比较结果。以下我们详细讨论结果。应用领域视角。尽管数据集来自各种应用领域,包括工业缺陷检测、基于漫游器的行星探索和医学图像分析,我们的模型在几乎所有数据集上都取得了最佳的AUC性能,即在单次(十次)设置中的九个数据集中的八个(七个)上,其他数据集上的结果排名第二。在具有挑战性的数据集上,如MVTecAD、AITEX、Mastcam和Hyper-Kvasir,其中存在更多可能的异常类,我们的模型获得了一致更好的AUC结果,增加了高达5%的AUC。样本效率。训练异常示例的减少通常会降低所有有监督模型的性能。与竞争检测器相比,我们的模型在样本效率方面表现更好,即i)减少异常示例后,我们的模型的AUC减少更小,即在九个数据集上平均减少15.1%,远远好于DevNet(22.3%),FLOS(21.6%),SAOE(19.7%)和MLEP(21.6%),以及ii)我们的模型训练一个异常示例就能大幅超过使用十个异常示例训练的强竞争方法,如Optical上的DevNet、FLOS和MLEP,以及Hyper-Kvasir上的SAOE和MLEP。与无监督基线的比较。与无监督模型KDAD相比,我们的模型和其他有监督模型展示了一致更好的性能。0在使用十个训练异常示例(即较少的开放集场景)时。在更开放的场景中,只使用一个异常示例时,我们的方法是唯一一个在大多数数据集上仍然明显优于KDAD的模型,甚至在具有许多异常类的具有挑战性的数据集上,如MVTecAD、AITEX和Mastcam。04.4. 困难设置下的结果0在困难设置下,我们在六个适用数据集上的检测性能如表2所示。应用领域视角。在各种应用数据集的单次和十次拍摄设置中,与竞争方法相比,我们的方法在大多数单个数据子集上表现最佳;在数据集级别的性能上,我们的模型在六个数据集中的大多数上相对于最佳竞争者增加了2%-10%的平均AUC,而在其他数据集上的性能接近最佳。这表明我们的模型在检测未见异常类方面具有更好的泛化能力,优于其他有监督的检测器。样本效率。与十次拍摄情景相比,我们的模型在数据集级别上平均有5.5%的AUC下降,这比竞争方法(DevNet(9.8%),FLOS(7.1%),SAOE(7.8%)和MLEP(10%))要好。更令人印象深刻的是,我们的模型在许多单个数据子集以及整体数据集上,训练一个异常示例就能大幅超过十次拍摄的竞争模型。与无监督基线的比较。当前的有监督异常检测模型往往对已见异常类有偏见,并且无法推广到未见异常类,效果不如无监督基线。Color0.787±0.0050.716±0.0850.467±0.2780.763±0.1000.547±0.0560.879±0.0210.767±0.0150.760±0.0050.467±0.0670.698±0.0250.886±0.042Cut0.766±0.0050.666±0.0350.685±0.0070.664±0.1650.658±0.0560.902±0.0330.819±0.0370.688±0.0590.793±0.1750.653±0.1200.922±0.038Hole0.757±0.0030.721±0.0670.594±0.1420.772±0.0710.653±0.0650.901±0.0330.814±0.0380.733±0.0140.831±0.1250.674±0.0760.947±0.016Metal0.836±0.0030.819±0.0320.701±0.0280.780±0.1720.706±0.0470.871±0.0370.863±0.0220.678±0.0830.883±0.0430.764±0.0610.933±0.022Thread0.750±0.0050.912±0.0440.941±0.0050.787±0.2040.831±0.1170.950±0.0290.972±0.0090.946±0.0050.834±0.2970.967±0.0060.989±0.004Mean0.779±0.0020.767±0.0180.678±0.0400.753±0.0550.679±0.0290.901±0.0060.847±0.0170.761±0.0120.762±0.0730.751±0.0230.935±0.013Bent0.798±0.0150.797±0.0480.851±0.0460.864±0.0320.743±0.0130.952±0.0200.904±0.0220.827±0.0750.901±0.0230.956±0.0130.990±0.003Color0.754±0.0140.909±0.0230.821±0.0590.857±0.0370.835±0.0750.946±0.0230.978±0.0160.978±0.0080.879±0.0180.945±0.0390.967±0.011Flip0.646±0.0190.764±0.0140.799±0.0580.751±0.0900.813±0.0310.921±0.0290.987±0.0040.942±0.0090.795±0.0620.805±0.0570.913±0.021Scratch0.737±0.0100.952±0.0520.947±0.0270.792±0.0750.907±0.0850.909±0.0230.991±0.0170.943±0.0020.845±0.0410.805±0.1530.911±0.034Mean0.734±0.0050.855±0.0160.855±0.0240.816±0.0290.825±0.0230.932±0.0170.965±0.0110.922±0.0140.855±0.0160.878±0.0580.945±0.017Broken end0.552±0.0060.712±0.0690.645±0.0300.778±0.0680.441±0.1110.708±0.0940.658±0.1110.585±0.0370.712±0.0680.732±0.0650.693±0.099Broken pick0.705±0.0030.552±0.0030.598±0.0230.644±0.0390.476±0.0700.731±0.0720.585±0.0280.548±0.0540.629±0.0120.555±
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功