没有合适的资源?快使用搜索试试~ 我知道了~
5531混合离群值暴露:面向细粒度环境的分布外检测Jingyang Zhang<$,Nathan Inkathat*,Randolph Linderman<$,Yiran Chen<$,HaiLi<$†杜克大学*空军研究实验室jingyang. duke.edu摘要部署基于DNN的识别系统的许多现实场景具有固有的细粒度属性(例如,鸟类识别、医学图像分类)。除了实现可靠的准确性,这些模型的一个关键子任务是检测出的分布(OOD)的输入。考虑到就业环境的性质,人们可能期望这种OOD输入也是细粒度的w.r.t.已知的类(例如,一种新的鸟类),因此极难识别。不幸的是,细粒度场景中的OOD检测仍然在很大程度上未被探索。在这项工作中,我们的目标是填补这一空白,首先仔细构建四个大规模的细粒度的测试环境,在现有的方法被证明有困难。特别是,我们发现,即使在训练过程中显式地结合一组不同的辅助离群数据,也不能在细粒度OOD样本所在的广泛区域上提供足够的覆盖率。然后,我们提出了混合离群值暴露(MixOE),它混合ID数据和训练离群值以扩大不同OOD粒度的覆盖范围,并训练模型,使得预测置信度随着输入从ID过渡到OOD而线性衰减。通过大量的实验和分析,证明了MixOE在细粒度环境下构建OOD检测器的有效性.该代码可从https://github.com/zjysteven/MixOE网站。1. 介绍部署DNN识别系统的现实场景通常是细粒度的示例包括细粒度视觉分类[49,13,46],医学图像分类,[23,7]和遥感应用[50,45,44]。除了实现准确的分类,DNN模型的一个关键问题是识别分布外的(OOD)样本不属于DNN的已知类之一。这种检测对于构建在开放世界中运行的安全可靠的智能系统至关重要。然而,我们认为OOD检测在细粒度场景中特别具有挑战性,因为人们可能期望OOD输入是高度粒度的w.r.t.分发中(ID)数据(例如,新的鸟类种类到鸟类分类器)。这种细粒度的OOD样本可能会使检测变得非常困难,因为它们可能使用与ID数据非常相似的特征集[16]。不幸的是,尽管天生受许多真实世界场景的激励,细粒度环境中的OOD检测在当前的研究中仍然很大程度上未被充分探索/考虑。这部分与(过度)简单化[1,37]和粗粒度基准有关,这些基准目前用于评估OOD检测方法[25,22,36,26,14,43,38](例如,、CIFAR-10/100与SVHN/LSUN)。一个说明性的比较- ison在细粒度和粗粒度环境中的OOD检测显示在图。1. 最近的一些作品[31,1,39]确实考虑了细粒度设置,但没有仔细/彻底地调查为什么以及如何困难。此外,这些工程要么是在相当有限的规模,即。,很少考虑ID类[1,39],或者进行不切实际的实践,例如在与测试OOD数据分布重叠的标记离群数据集上进行训练[31]。在这项工作中,我们的目标是填补空白,目前(据我们所知)的第一个研究,专门针对OOD检测细粒度的环境。我们首先构建四个大规模的细粒度测试环境,以接近真实世界的场景(第二节)。(3)第三章。我们发现,几个国家的最先进的OOD检测方法的斗争,以检测细粒度的新奇,这突出了OOD检测在细粒度的设置中的可扩展性。然后,通过分析,我们发现细粒度的OOD样本跨越更广泛的区域,并且更接近DNN特征空间中的ID聚类(第二节)。4.1)。此外,我们发现,包括一个大的/不同的离群数据集,在-5532图1.左:粗粒度和细粒度环境中OOD检测的比较直观的细粒度检测更具挑战性。右图:MixOE的概念没有OOD考虑的标准模型往往对OOD样本过于自信。OE能够校准粗粒度OOD的预测置信度,但细粒度OOD的输出没有显式控制(标记为MixOE的目标是在输入从ID过渡到OOD时实现置信度的平滑衰减,从而能够检测粗粒度/细粒度的OOD。训练[12,2,26]并不能覆盖细粒度OOD数据所在的区域。最 后 , 我 们 设 计 了 一 种 名 为 混 合 离 群 值 暴 露(MixOE)的新训练算法,以解决细粒度OOD检测中观察到的问题(第二节)。4.2)。具体来说,我们建议在ID数据和离群数据之间执行混合操作(在这项工作中,我们采用Mixup [48]或CutMix [47]),以获得“虚拟”离群样本,这些样本可以靠近和远离ID聚类。然后训练模型,使得预测置信度随着输入从ID转变为OOD而线性衰减(见图11)。1用于说明)。因此,MixOE在更大的OOD区域内诱导正则化,并对粗粒度和细粒度OOD样品都有明显的影响四个测试台上的实验结果表明,使用MixOE进行简单的微调,可以使粗粒度和细粒度OOD数据的检测率始终更高或更具竞争力(第12(五)。我们还进行了仔细的消融研究,以进一步了解MixOE的工作原理我们的贡献概述如下:• 我们构建了四个大规模的细粒度OOD检测测试环境,这些测试环境可以很容易地从现有的公共数据集中生成,便于将来的研究;• 我们提出了MixOE,一种新的OOD检测方法,具有跨OOD粒度谱的效果• 我们表明,MixOE导致所有四个基准显着的改进,特别是对细粒度的面向对象设计,目前很少有方法有任何impacs。2. 相关工作OOD检测方法。在面向对象检测研究中,许多流行的工作都使用预训练的DNN分类器作为基础模型,并设计了一个OOD评分机制,杠杆,从这个模型的一些信号。几种方法利用分类器的输出空间,例如,,MSP [12],ODIN [25]和Energy [26],而其他作品,如Maha-lanobis检测器[22]和Gram矩阵[36]则专注于DNN的中间特征空间。最近的工作也开始探索梯度信息的潜力[15]。另一项研究修改了DNNLee等人。 [21]提出用GAN[32]合成OOD样本,并迫使分类器对生成的OOD数据不那么自信。 Hendrycks等人[12]后来表明,在鼓励对看不见的OOD数据进行低置信度预测方面,多样化和现实的离群值分布比合成样本更熟练。最近出现了VOS [6]的想法,它不使用真实数据,而是通过从类条件高斯分布中采样来生成虚拟离群值。然而,ID数据遵循类条件高斯的假设可能不成立,特别是当类的数量 很 大 时 , 并 且 VOS 甚 至 难 以 扩 展 到 CIFAR-100[18]。总之,在训练中结合辅助离群数据仍然是迄今为止最有效的方法之一[12,2,26]。我们的工作与[12]最密切相关,因为我们也使用未标记的辅助离群数据。然而,我们的方法独特地制定了学习过程,有明确的考虑在细粒度的设置中操作,高度粒度的OOD输入是预期的。我们还注意到,上述作品都考虑相对粗粒度的设置在他们的实验。OOD检测的混合操作。我们的工作也关系到,但显着不同的少数作品,利用混合操作的上下文中的OOD检测。[40]和[4]的工作都直接评估了Mixup对OOD检测的影响。在这项工作中,而不是简单地应用Mixup或CutMix作为常规的ID训练策略,我们利用它们来构建虚拟离群值分布。5533扩大OOD区域的覆盖范围Ravikumar等人[33]建议在ID样本之间或训练离群值之间应用Mixup。相反,在我们的框架中,混合操作是在ID和离群数据之间执行的,这在表征从ID到OOD区域的过渡方面具有明确的含义。 节中 5.3,我们将通过仔细的消融研究证明所提出的MixOE优于细粒度设置中的OOD检测。如前所述,有一些工作在细粒度环境中轻率地考虑了OOD检测,但它们都有很大的局限性。在[31]的工作中,使用标记的更令人担忧的是,在其实验中,训练离群数据集(ImageNet[5] ) 与 测 试 OOD 数 据 ( CUB [42] 和 Stanford Dogs[19])重叠,这使得检测(可以说)微不足道。[1]和[39]的工作是有限的,在他们的实验中的细粒度检测问题的规模是相当小的,即。,只考虑了几十个甚至更少的ID类,而我们的操作规模要大得多稍后,我们还将证明[1]中研究的方法对于检测细粒度OOD示例还不是有效的。我们还注意到最近的一些工作,有目的地考虑测试OOD样本与ID类语义相关的情况[43,17]。这里的关键区别在于,他们不认为ID类是抽象的。我们认为,如果没有这样的ID粒度,它可能是值得商榷的模型是否应该被要求检测类OOD样本!例如,考虑[43]中的一个实验,该实验将“leopard”(在CIFAR-100中)视为CIFAR-10模型(包含“cat”类)的抽象OOD样本。这种情况引出了一个问题:给定一个在猫身上训练的模型,是推广到豹1的概念更可取,还是将豹识别为OOD?在我们的工作中,由于我们考虑ID类本身是高度粒度的(例如,,独特的鸟类物种),避免了这种模糊性,并将细粒度的新颖性(例如,新的鸟类)应该被认为是OOD。3. 细粒度环境中OOD检测的挑战本节描述了对细粒度环境中OOD检测的详细研究,并有助于进一步激发我们在细粒度场景中显式改进检测的目标。节中3.1我们描述了四个细粒度测试环境的构造,这是必要的,因为在先前的工作中提出的那些在规模上是有限的。节中3.2,通过初步评估,我们表明,罚款-[1]这实际上是子群体迁移鲁棒性问题中所需的行为[35]。表1.构造的细粒度OOD设置的比较。例如,在我们的第三个测试环境中,有150个ID和46个(细粒度的)OOD类别。 我们认为比以前的作品更大的规模。#ID类# OOD类[31][100,60][100,60][1][11、9、8、7、7][1,1,1,1,1][39][46,20][47、5]我们的[200,150,150,90][55、50、46、12]粒度化的OOD检测对扩展方法提出了独特的挑战。3.1. 测试环境测 试 环 境 是 从 四 个 公 开 的 细 粒 度 视 觉 分 类(FGVC )数 据集 策划 的, 即FGVC-Aircraft [28],Stanford Cars [20],Butterfly [3]和North American Birds[41]。我们把它们分别称为飞机、汽车、蝴蝶和鸟。对于每个数据集,我们使用holdout类方法创建ID/OOD分割,即,我们将其中一些类别作为ID,其余的则从训练集中保留下来,并在测试时考虑OOD。请注意,为了避免可能存在于每个单个拆分中的隐式偏差[1],我们为每个数据集随机生成三个ID/OOD拆分请参阅Ap- pendix A了解更多详细信息,包括确切的分割和训练/测试图像的数量。在选项卡中。1我们提出了我们的构造环境和以前的比较。通过考虑100多个ID类,我们在更大的规模上操作,这更好地代表了各种复杂的现实世界任务,并避免了对ID分类任务的复杂性进行任何限制性假设,这将使我们的发现不太可扩展。我们还保留了合理数量的类作为OOD,以反映开放世界的多样性。除了细粒度的新输入之外,可靠的检测器还应该能够识别粗粒度的OOD数据。在这里,对于每个数据集,我们将来自其他数据集的图像作为粗粒度OOD样本(例如,当Bird是ID时,Butterfly、Car和Aircraft将被视为OOD)。检测性能,然后评估对细粒度和粗粒度的新奇。3.2. 评价现有方法Setup. 我们现在在构建的细粒度环境中评估六个最先进的检测器,包括三个训练后评分器2(MSP [11],ODIN [25]和Energy [26])和三个使用辅助离群值数据(OE [12],OE与硬2我们还评估了Mahalanobis检测器[22],但只是得到了NaN误差,这与[10]的发现一致5534图2.针对粗粒度(第一行)和细粒度OOD数据(第二行)的现有方法的TNR 95灰色虚线是基线性能(MSP)。对于所有方法,在所有数据集中检测细粒度的新颖性还要注意利用离群数据(珊瑚数据)的方法如何帮助粗粒度的OOD,但几乎没有提高细粒度的检测率。示例采矿(OE-M)[2]和EnergyOE [26])。此外,我们考虑了在提到细粒度检测的相关工作我们将检测方法的实现细节留给SEC。5.1和附录B。为了测量检测器性能,我们使用两个常用指标[22,21,14]:95%真阳性率下的真阴性率(TNR 95)和受试者工作特征曲线下面积(AUROC)。AUROC是通过改变阈值获得的整体度量,而TNR 95指示当ID数据的召回率为95%时,OOD样本的哪一部分可以被检测到已知TNR 95可以更好地分离不同的检测器,因为实现高TNR 95比实现高AUROC要困难得多[14]。观察。图2显示了每个数据集中三个分裂之一的TNR95结果(其他分裂呈现相似的模式;见附录E图。(七).另请参见附录E选项卡中的完整结果表(包括AUROC统计量)。6.从这些结果中,我们得出两个重要的观察结果。首先,细粒度的OOD样本比粗粒度的样本更难检测具体来说,虽然大多数方法在检测粗粒度OOD样本时可以实现超过80%的TNR 95(图1)。2第一行),当面对细粒度OOD时,4个数据集中的3个数据集上的所有方法的TNR 95下降到30%以下(图2)。2秒-第二行)。这一观察结果与最近的发现一致,即当OOD数据在语义上与ID类相似时,检测变得更具挑战性[14,43,17]。我们的第二个观察结果更令人惊讶:在保留的细粒度数据上,即使是在训练期间明确包含离群数据的方法 ( OE 、 OE-M 和 EnergyOE ) 也 不 能 可 靠 地 优 于MSP,MSP仅使用ID数据训练模型。这一发现直接对比了粗粒度数据的结果,其中OE/OE-M/EnergyOE始终导致改进(与MSP相比)。总之,这些趋势清楚地表明,在具有高粒度OOD输入的细粒度设置中,这对于现有的探测器来说尤其具有挑战性。4. 方法4.1. 动机分析从我们最初的结果中产生的一个直接问题是,为什么使用辅助离群数据来显式正则化模型有助于检测粗粒度的OOD样本,而不是细粒度的?事实上,我们使用的训练离群值数据根本没有表征/建模测试粗粒度或细粒度的OOD(见图1)。3;我们手动确保这通过过滤,如在节讨论。5.1)。接下来,我们进行分析,为这个问题提供解释,这也直接激发了我们的方法论。我们分析的思想是通过将训练离群值和测试OOD样本投影到DNN的特征空间来揭示它们之间的关系。具体来说,我们将训练/测试OOD数据向前传递到一个“标准”预训练模型中关键是,可视化过程由ID数据唯一地形成,因此对于OOD数据保持不可知。这里的标准模型仅使用ID数据上的交叉熵损失进行训练。由于基于OE的方法通常使用离群值数据[12,26,2]微调标准模型,因此通过在标准模型的特征空间中可视化图3显示了其中一个测试台的结果(见附录E图3)。12-15更多),从中我们提出两个关键的意见。首先,如图所示。在图3(b)中,粗粒度OOD数据位于相当紧凑的区域中,其中一小部分样本与ID聚类之一 相 交 , 而 其 他 样 本 相 对 远 离 ID 区 域 。 根 据 图 3(c),然而,细粒度的OOD样本跨越更广泛的区域,其中许多非常接近或甚至在ID集群内,由于它们与ID图像的语义相似性。这一观察结果再次证实了图1中的TNR 95检测结果。2,其中细粒度的新奇事物比粗粒度的新奇事物更难检测。第二,比较Fig.在图3(d)和(b)中,辅助离群值数据“包围”粗OOD数据区域。因此,尽管异常值没有任何与测试粗OOD样本相关的概念(即,在图3(d)第二行中没有汽车/蝴蝶/飞机另一方面,很明显,训练离群值未能覆盖许多细粒度OOD数据所在的较大区域,这解释了为什么利用离群值数据的方法在检测细粒度新颖性方面效果有限5535D−∈出来DDUK−K∈出来D图3.数据样本的可视化(第二行)及其在DNN特征空间中的表示(d)/(e)中的颜色注意,(b)和(c)是测试OOD样本,在训练过程中从未见过。经验训练异常值(d)包围粗OOD数据(b)所处的区域,但不覆盖细OOD样本(c)所跨越的更宽的区域MixOE混合了ID(a)和训练离群值(d),以引入更大的覆盖范围,这同时考虑了粗粒度和细粒度的新颖性。此外,混合数据的软目标将校准模型4.2. 混合离群值暴露为了明确地在更广泛的区域中正则化模型生成混合离群值。具体而言,给定ID样本(xin,yin)in和一个异常值样本xoutout,我们建议执行混合操作来生成虚拟离群值:xn=mix(xin,xout,λ),(1)其中λ [0,1]是控制每个样本对混合样本的贡献的系数(即,,λ和1λ分别是xin和xout的权重)。这里的直觉直接基于我们在图1中的观察。3:如果我们“内插”的ID样本(图. 3(a))和离群数据(图3(d)),所得到的样本可能跨越更大的区域,并覆盖细粒度OOD数据所在的区域(图3)。3(c))。我们发现,简单的像素级操作,例如。线性插值[48]和剪切-粘贴操作[47]已经可以得到覆盖细粒度OOD区域的样本。因此,在这项工作中,我们实例化Eqn。1与这些操作,并分别表示为线性混合和切割混合。然而,我们注意到,该操作可以如所期望的那样简单或那样复杂;它不限于[48,47],并允许将来可能的扩展。为了证明混合样本的效果,我们得到了在DNN模型的特征空间中将它们可视化。3(e)(这里我们使用线性混合作为例子;见附录E图。12-15更多)。重要的是,与图 中 的经验离群值分布D不同。 3(d),我们的虚拟输出-通过改变系数λ,更小的样本可以跨越更大的区域(既接近又远离ID聚类)。因此,我们预计,当使用来自虚拟的样本进行训练时,模型训练目标。现在我们已经生成了用于训练的混合离群值,接下来重要的一步是确定相应的训练目标。我们在这里的关键见解是正则化模型,使得其预测置信度可以随着输入从ID到OOD的转换而平滑地衰减。 为此,我们将对应于混合样本x的软阈值y分配如下:y=λyin+(1−λ)U,(2)其中yin是ID样本xin的独热标签,并且表示ID类别上的均匀分布。预测置信度(即,最大softmax概率[11])是y_predict。 conf. =λ+(1λ)1,其中K是ID类别的数量。具体地,当混合样品是OOD(即,,λ= 0),我们强制模型在该样本上具有最小置信度/最大不确定性(即,e. ,ypred. conf. =1);当混合样本为ID(i. e. ,λ=1),则训练模型以进行置信预测(即,e. ,ypred. conf.=1)的值。中间混合样本的置信度(即,λ(0,1))被λ平滑地调制。这种效果的可视化可以在图中看到。图3(e)中,其中较暗的点对应于编码在其软目标中的较高置信度。不像以前的方法,我们注意到,这种配方独特地使模型在更广泛的置信水平范围内具有更好的校准。因此,我们的方法可以在一系列OOD粒度上产生影响,这对于细粒度环境中的检测器至关重要,因为OOD样本可能是高度粒度的。5536Σ Σ ΣΣ ELEL(x,y)∼D(x˜,y˜)∼DinLL(f(x),y)+(x,y)<$D,DΣΣUDLUDD培训目标。上述两个技术见解构成了我们的训练算法,混合离群值暴露(MixOE),其目标被公式化为(f(x),y)+βvirtual(f(x≠),y≠).出来(三)这里,(f(x),y)是DNN的预测分布f(x)和地面真实分布y之间的交叉熵损失在训练期间,在每次迭代中,等式11中的λ1和Eqn. 对于引入的超参数α,从Beta分布Beta(α,α)中采样。α和β均可使用验证数据确定(详情见第5.1)。我们在此也要指出,用于构造D虚拟的离群数据集未标记学习进度表[27]。对于Rotation [1],我们使用与标准训练相同的目标来训练模型。对于利用辅助离群值数据(OE,OE-M,EnergyOE和MixOE)的方法,我们仅对训练的标准模型进行微调,并在[12,26]之后进行10个时期的相应目标。因此,MixOE和其他基于OE的方法仅引起边际计算开销。微调也采用余弦时间表,初始学习率为0.001。ID数据的批量大小仍为32。对于OE/OE-M/EnergyOE,正如他们的论文中所建议的那样,我们将离群数据的批量大小设置为ID批量大小的两倍,即64。在MixOE的情况下,我们保持离群值批量大小与ID批量大小相同。作为一个重新-并且不出来需要包含与测试相关的任何数据因此,MixOE实际上只使用了其他方法。OOD数据分发。在训练之后,将通过对预测置信度进行阈值化来执行检测,因为MixOE在训练期间明确地校准离群值的置信度。与先前方法的关系。vanilla OE [12]的培训目标是βExoutDout(f(xout),),它鼓励模型MixOE与OE的区别在于使用生成的虚拟离群值将正则化扩展到更广泛的区域,并控制置信度如何此外,请注意,如果在训练期间λ固定为0,则MixOE可以退化为vanilla OE。另外两种方法,OE-M [2]和EnergyOE [26],与OE有相同的想法,除了[2]使用来自out的他们仍然只使用经验离群值,无法控制置信度的衰减。因此,我们相信它们与OE有着相似的缺点,我们将很快用实验结果证实这一点。5. 实验5.1. 设置基线。与SEC相同。3.2,我们考虑了总共七种基线方法,包括六种最先进的方法[11,25,26,12,2]和一种在以前的细粒度设置中研究的方法[1]。我们还再次强调,很少有方法考虑在细粒度环境中操作,因为这是一个未充分探索的主题。培训详情。 对于训练后评分方法,我们以标准方式训练ResNet-50模型[9],即通过最小化仅ID训练数据集上的交叉熵损失具体来说,我们使用SGD训练模型90个epoch,批大小为32。遵循细粒度分类研究中的常见做法[49,13,46],模型使用 ImageNet 预 训 练 的 权 重 初 始 化 。 初 始 学 习 率 为0.001,按余弦衰减辅助离群值集。我们考虑的训练离群值是WebVision1.0 [24],它包含通过ImageNet的1,000个类别查询从Flickr和Google抓取的自然图像。我们相信,这个数据集代表了一个现实和实际的建设,在自然图像领域的许多ID任务。重要的是,为了避免“作弊”的争论具体地,总共491K与飞机/汽车/蝴蝶/鸟相关的图像被移除。因此,训练离群值没有揭示关于测试粗粒度或细粒度OOD数据的信息(见图1)。3用于可视化)。在过滤之后,有1948K图像留在离群值集中。然而,由于MixOE只是对模型进行了10个epoch的微调,因此在训练过程中实际使用的图像最多为70K超参数调优。 我们非常小心地确保超参数调整是公平的。具体地说,我们从ID和离群值训练集中随机抽取一部分样本作为ID/OOD验证数据。重要的是,注意OOD验证数据没有显示任何关于测试时OOD分布的信息,因为我们已经过滤掉了所有相关图片来自D利用所选择的ID和OOD验证样本,我们调整超参数,使得OOD检测性能最大化,并且ID分类精度受到最小影响。为了测试方法的鲁棒性,在四种环境中的每一种环境中,我们使用单个分裂对每种方法只调整一次超参数;然后将所确定的超参数应用于来自同一数据集的所有分割。在附录B中,我们给出了候选超参数值的详细列表,以及我们在实验中使用的每种方法的最终确定值。评价评估程序如下所述的一个节。3.1与次级3.2.对于每个数据集,我们认为坚持类作为细粒度的OOD数据和来自其他数据集的样本作为粗粒度的OOD数据。5537表2. TNR 95统计检测性能。斜线前后的数字分别用于粗粒和细粒OOD样品。Avg. diff.是相对于MSP的平均差异(三次拆分)。显然,MixOE始终导致对粗粒度和细粒度新颖性的显着改进,而其他方法降低了细粒度OOD检测性能,因此不符合细粒度环境中的可靠检测器。D 在方法拆分1拆分2拆分3平均值diff. MSP [11] 75.0 / 29.961.6/ 15.977.1/ 18.5-ODIN [25] 87.5/30.2 73.2/15.3 86.5/15.8+11.2/能源[26] 88.5/30.1 74.4/14.6 86.2/16.3+11.8/旋转[1] 65.5/31.4 55.0/15.9 65.5/17.6OE [12] 99.3/27.8 98.5/16.0 98.7/16.5+27.6/OE-M [2] 99.6/25.0 98.5/16.0 98.9/14.0+27.8/EnergyOE [26] 99.8/30.3 99.7/17.0 99.7/19.9+28.5/+1.0MixOE-线性93.2/41.488.4/24.692.1/16.5+20.0/+6.1MixOE-切割99.0/39.899.4/23.799.4/24.9+28.0/+8.0缔约国会议[11] 95.5/58.5ODIN [25] 99.6/55.6 99.1/47.0 97.8/49.0+11.4/能源[26] 99.7/49.1 99.4/39.7 99.1 / 42.6+12.0/旋转[1] 97.7/58.9 88.1/52.4 81.3/50.4+1.6/OE [12] 99.9 / 53.2100.0/53.0 99.9/51.2+12.5/OE-M [2] 99.9 / 53.6100.0 / 49.4100.0/50.6+12.5/[26]第二十六话100.0 / 52.6100.0 / 41.0100.0/44.9+12.6/MixOE-线性99.6/65.999.7/62.999.5/60.1+12.2/+6.9MixOE-切割99.9/70.3100.0 /69.899.9/66.5+12.5/+12.8缔约国会议[11]ODIN [25] 95.2/28.2 95.5/32.5 95.6/38.7+7.0/+0.4能源[26] 95.3/25.5 95.2/30.2 95.6/36.1+6.9/旋转[1] 87.9/27.6 88.5/31.2 86.2/37.0OE [12] 92.2/26.5 93.7/32.1 94.3/34.3+4.9/OE-M [2] 99.9 / 53.6100.0 / 49.4100.0/50.6+12.5/能源OE [26] 97.8/25.1 96.9/30.5 98.2/37.2+9.2/MixOE-线性95.3/32.693.9/37.995.5/45.0+6.4/+5.7MixOE-切割94.9/35.894.1/38.892.7/46.0+5.4/+7.4缔约国会议[11] 72.3/22.6ODIN [25] 80.9/22.7 77.2/21.5 74.3/21.9+8.8/能源[26] 80.8/20.3 76.5/18.4 73.9/18.8+8.4/旋转[1] 71.3/23.6 64.0/24.0 65.4/21.5OE [12] 98.2/20.6 97.9/22.9 97.9/20.7+29.3/OE-M [2] 98.7/19.8 98.7/21.4 97.7/19.2+29.7/EnergyOE [26] 98.6/19.4 99.0/18.4 99.3/19.5+30.3/MixOE-线性88.6/24.983.9/26.786.3/28.6+17.6/+4.3MixOE-切割91.0/27.791.8/24.692.9/27.7+23.2/+4.3在[14,22,21]之后,我们认为ID为正,OOD为负,并使用TNR 95和AUROC作为度量。5.2. 结果检测性能。选项卡.图2显示了四个测试台的TNR 95结果。AUROC统计数据产生与TNR 95相似的模式,并保留在扩展选项卡中6在附录E中。我们的第一个观察结果是,MixOE始终实现了对细粒度OOD样本的最佳检测性能。具体来说,在[飞机,汽车,蝴蝶,鸟]任务的三个分割中,MixOE-线性和MixOE-切割将TNR 95提高了[+6.1%,+6.9%,+5.7%,+4.3%]和[+8.0%,+12.8%,+7.4%,+4.3%]。相比之下,香草OE图4.方法间预测置信度分布的比较。MixOE导致ID和OOD样本(特别是细粒度样本)的置信度之间更清晰的分离,从而实现更好的检测。1.0%]。与OE类似,其他基线方法也会导致在许多(如果不是全部)数据集上面对细粒度OOD时性能下降。我们还注意到,MixOE-线性和MixOE-切割都导致显着的改进,证明了MixOE背后的想法的有效性是独立的具体混合操作正在使用。我们的第二个观察结果是,MixOE在检测粗粒度OOD样本方面可以与最先进的方法相提并论。在四个任务MixOE-线性和MixOE-切割上,TNR 95比MSP提高了[+20.0%,+12.2% , +6.4% , +17.6%] 和 [+28.0% , +12.5% ,+5.4%,+23.2%]。OE只对粗粒度的OOD数据有影响,导致[+27.6%,12.5%,4.9%,29.3%]的改进。最后,我们注意到MixOE是唯一一种在MSP上针对所有数据集的细粒度和粗粒度新颖性进行一致性改进的方法MixOE在一系列OOD粒度上保持有效的这种独特能力对于在细粒度环境中操作的系统至关重要,因为推理期间的新输入可以是粗的或细的。总的来说,这些评估结果显示了MixOE在现实世界的细粒度设置中构建可靠的OOD检测器的有效性。预测置信度。为了更深入地理解MixOE如何改进OOD检测,我们通过校准预测置信度来监控ID/OOD样本上模型的置信度分布作为MixOE函数图图4显示了标准、OE、OE-M和MixOE模型在每个数据集的一个分割上的预测置信度的概率密度图(见附录E图)。8-11更多)。从图4中,我们可以清楚地发现,无论混合操作如何,MixOE模型始终对细粒度OOD样本产生较低的置信度预测这一观察结果证实了MixOE中引入的虚拟离群数据及其相应的软目标确实有助于在细粒度OOD样本上正则化模型蝴蝶鸟飞机车5538D−表3.训练算法的精度比较。括号中的数字是相对于标准训练准确度的差异。Avg. diff.显示了四个数据集的平均改进。与其他以检测精度为代价的方法不同,MixOE实际上提高了准确性。飞机车蝴蝶鸟Avg. diff.旋转[1]88.5(91.3(88.8(82.0(-0.5[第12话]89.2(91.6(88.1(82.4(+0.3)-0.3OE-M [2]89.3(91.1(88.2(82.7(+0.6)-0.4[26]第二十六话89.3(91.8(88.8(82.3(+0.2)-0.1MixOE-线性90.5(+0.8)92.9(+1.1)89.3(+0.3)83.4(+1.3)+0.9MixOE-切割90.1(+0.5)92.9(+1.1)90.1(+1.2)83.5(+1.4)+1.1ID分类精度。最后,我们研究了训练方法如何影响ID分类精度,因为我们不打算权衡检测性能的精度。在选项卡中。3我们显示了三个分割中每个数据集的平均准确度(参见附录E选项卡)。7为非平均结果)。有趣 的 是 , 与 其 他 训 练 策 略 不 同 , MixOE-linear 和MixOE-cut可以在四种环境中分别将准确率平均提高0.9%和1.1%我们的假设是,由于细粒度数据集通常具有相对较少的训练样本(例如,每类数十个图像),由MixOE生成的接近ID聚类的一些训练“离群值”实际上5.3. 消融研究混合OE与混合. 回想一下,MixOE的核心思想是混合ID和离群数据进行DNN训练。节中5.2我们已经表明,这个概念比单独使用离群数据而不混合(vanilla OE)更有益。在这里,我们沿着另一个方向消融MixOE:我们将MixOE与不使用辅助离群值数据的vanilla Mix训练[48,47]进行对比,即仅混合ID数据。具体地,对于Mix训练,在Eqn. 3改为(x1,y2,λ)=(mix(x1,x2,λ),λy1+(1λ)y2),其中(x1,y1),(x2,y2)in.超参数调整过程和训练设置与MixOE相同比较如图所示。5,其中我们显示了在每个数据集上的三个分割中,相对于基线MSP,该方法在TNR 95中的平均改善。我们发现,Mix训练能够在检测细粒度OOD数据时提供性能增益,但增益小于MixOE带来的增益;同时,混合训练很少提高粗粒度OOD检测率。混合OE与最后,我们研究是否天真地将Mix和OE目标结合在一起可以实现与MixOE类似的效果。详细分析见附录D。这里的要点是,Mix + OE将导致多方面的入侵[8],其中培训将为彼此接近的输入分配不同的目标图5. MixOE和vanilla Mix训练(不使用离群值数据)在TNR95相对于MSP的平均差异方面的比较。MixOE在粗/细粒度OOD数据上都优于Mix。在DNN的特征空间中事实上,我们发现,当将Mix和OE结合在一起时,模型的准确性可能会降低10%,并且TNR 95可能比MSP差10%和20%,分别针对粗粒度和细粒度的结果清楚地表明,MixOE的配方是独特的,有效的,不能被两个现有目标的简单/天真的组合所取代。6. 结论在这项工作中,我们提出了混合离群值暴露,这是一种用于细粒度环境中OOD检测的DNN训练算法。MixOE通过混合ID数据和训练离群值样本,显式地扩展了广泛的OOD区域的覆盖范围。混合样本用于规则化模型的行为,使得当输入从ID转变为OOD时,预测置信度平滑衰减。在四个新构建的大规模细粒度环境中的实验结果表明,MixOE能够提高对粗粒度和细粒度OOD样本的检测率,而其他方法对细粒度OOD样本的检测几乎没有帮助。我们希望这项工作将促进和启发未来的研究OOD检测在具有挑战性的细粒度设置。确认这项工作得到了FA 8750 -21-1-1015和NSF- 2140247的支持5539引用[1] Faruk Ahmed 和Aaron Courville 。 检测 语义 异常 。在AAAI人工智能会议论文集,第34卷,第3154-3162页[2] Jiefeng Chen,Yixuan Li,Xi Wu,Yingyu Liang,andSomesh Jha.Atom:使用离群值挖掘进行分布外检测。在联合欧洲会议机器学习和知识发现数据库,第430-445页。斯普林格,2021年。[3] 陈天水,吴文喜,高月芳,董乐,罗晓南,林亮。利用层次语义嵌入的细粒度表示学习和识别。第26届ACM国际多媒体会议论文集,第2023-2031页,2018年[4] Sanghyuk Chun , Seong Joon Oh , Sangdoo Yun ,Dongyoon Han,Junsuk Choe和Youngjoon Yoo。正则化方法的鲁棒性和不确定性的经验评估。arXiv预印本arXiv:2003.03879,2020。[5] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议,第248-255页。Ieee,2009年。[6] 杜雪峰,王兆宁,蔡木,李雪伦。面向未知感知学习的虚拟离群值合成。在学习代表国际会议上,2022年。[7] Mengran Fan , Tapabrata Chakraborti , I Eric , ChaoChang,Yan Xu,and Jens Rittscher.通过深度关注进行微观细粒度物质分类。在医学图像计算和计算机辅助干预国际会议上,第490-499页Springer,2020年。[8] Hongyu Guo,Yongyi Mao,and Richong Zhang.混合为局部线性流形外正则化。在AAAI人工智能会议论文集,第33卷,第3714-3722页[9] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition,第770-778页[10] Dan Hendrycks , Steven Basart
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- C++多态实现机制详解:虚函数与早期绑定
- Java多线程与异常处理详解
- 校园导游系统:无向图实现最短路径探索
- SQL2005彻底删除指南:避免重装失败
- GTD时间管理法:提升效率与组织生活的关键
- Python进制转换全攻略:从10进制到16进制
- 商丘物流业区位优势探究:发展战略与机遇
- C语言实训:简单计算器程序设计
- Oracle SQL命令大全:用户管理、权限操作与查询
- Struts2配置详解与示例
- C#编程规范与最佳实践
- C语言面试常见问题解析
- 超声波测距技术详解:电路与程序设计
- 反激开关电源设计:UC3844与TL431优化稳压
- Cisco路由器配置全攻略
- SQLServer 2005 CTE递归教程:创建员工层级结构
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功