ViM：带有虚拟logit匹配的OOD评分方法

22 浏览量更新于2023-10-25 收藏 12.7MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

758085909555606570758085Figure 1. The AUROC (in percentage) of nine OOD detection al-gorithms applied to a BiT model trained on ImageNet-1K. TheOOD datasets are ImageNet-O (x-axis) and OpenImage-O (y-axis). Methods marked with box □ use the feature space; methodswith triangle △ use the logit; and methods with diamond ♦ use thesoftmax probability. The proposed method ViM (marked with *)uses information from both features and logits.49210ViM：带有虚拟logit匹配的OOD0Haoqi Wang 1 * Zhizhong Li 1 * Litong Feng 1 Wayne Zhang 12 †01 SenseTime研究 2 青原研究所，上海交通大学0{ wanghaoqi,lizz,fenglitong,wayne.zhang } @sensetime.com0摘要0现有的大多数OOD检测算法依赖于单一的输入源：特征、logit或softmax概率。然而，OOD示例的巨大多样性使得这些方法变得脆弱。在特征空间中，有些OOD样本很容易识别，但在logit空间中很难区分，反之亦然。受到这一观察的启发，我们提出了一种名为虚拟logit匹配（ViM）的新型OOD评分方法，它结合了特征空间中的类不可知评分和内部分布（ID）类相关的logits。具体而言，从特征对主空间的残差中生成表示虚拟OOD类的额外logit，然后通过常数缩放与原始logits进行匹配。softmax后的虚拟logit的概率是OOD的指示器。为了便于学术界对大规模OOD检测的评估，我们为ImageNet-1K创建了一个新的OOD数据集，该数据集是人工注释的，是现有数据集大小的8.8倍。我们进行了广泛的实验证明了所提出的ViM评分的有效性，包括CNN和视觉变换器。特别是使用BiT-S模型，我们的方法在四个困难的OOD基准测试中获得了平均AUROC90.91%，比最佳基准线提高了4%。代码和数据集可在https://github.com/haoqiwang/vim上获得。01. 引言0考虑到大多数深度图像分类模型是在封闭世界设置中训练的，当这些模型在生产环境中面对来自开放世界的输入时，出现了OOD问题，这会损害用户体验[9]。例如，一个模型可能错误地但自信地将一张螃蟹的图像分类为鼓掌的类别，即使训练集中没有与螃蟹相关的概念。OOD检测是为了判断一个输入是否属于训练分布。OOD检测0*这两位作者对该工作做出了相等的贡献。†通讯作者：Wayne Zhang。0MOS0残差0马氏距离0能量0最大logit ODIN0KL匹配0ViM（我们的方法）0OpenImage-O（AUROC）0ImageNet-O（AUROC）0互补分类并在自动驾驶[19]、医学分析[30]和工业检测[1]等领域得到应用。关于OOD和相关主题，包括开放集识别、新颖性检测和异常检测的综述可以在[38]中找到。OOD检测器的核心是一个评分函数φ，它将输入特征x映射到R中的标量，表示样本可能是OOD的程度。在测试中，决定一个阈值τ，确保验证集至少保留给定的真正阳性率（TPR），例如典型值为0.95。如果φ(x)>τ，则将输入示例视为OOD；否则视为ID（即内部分布）。在方便的情况下，我们可以将负的OOD分数视为ID分数。研究人员通过寻找ID示例自然具有并且OOD示例容易违反的属性，或者反之亦然，设计了相当多的评分函数。评分主要来自三个来源：（1）概率，例如最大softmax概率[13]、softmax和平均类条件分布之间的最小KL散度[12]；（2）logit，例如最大logit[12]、logsumexp函数在logit上的运算；（3）能量。49220它们的[25]；以及(3)特征，例如特征与其低维嵌入的预图像之间的残差的范数[27]、特征与类别中心之间的最小马氏距离[23]等。在这些方法中，OOD分数可以直接从现有模型中计算，无需重新训练，使得部署变得轻松。然而，正如图1所示，它们的性能受到信息源单一性的限制：仅使用特征忽略了具有类别相关信息的分类权重；仅使用logit或softmax忽略了空间中的特征变化[3]，它携带着与类别无关的信息；而softmax进一步丢弃了logit的范数。为了应对OOD样本中表现出的巨大多样性，我们提出了一个问题，设计一个利用多个信息源的OOD分数是否有帮助？在先前的研究成果的基础上，我们设计了一个新颖的评分函数，称为虚拟logit匹配(ViM)分数，它是由特征和现有logit共同确定的构造的虚拟OOD类的softmax分数。具体而言，评分函数首先提取特征相对于主子空间的残差，然后通过将其在训练样本上的均值与最大logit的平均值进行匹配，将其转换为有效的logit。最后，设计的OOD类的softmax概率就是OOD分数。从ViM的构造中，我们可以直观地看到，原始logit越小，残差越大，越有可能是OOD。与前述方法不同，另一类方法通过施加专门的正则化损失[5, 16, 18,40]或暴露生成的或真实收集的OOD样本[22,37]来调整网络学习到的特征，以更好地识别ID和OOD。由于它们都需要对网络进行重新训练，我们在这里简要提及它们，不会深入探讨细节。最近，大规模语义空间中的OOD检测引起了越来越多的关注[12, 15, 18,29]，推动OOD检测方法向现实世界的应用迈进。然而，目前缺乏干净且真实的大规模OOD数据集对于大规模ID数据集成为该领域的一大障碍。以往的OOD数据集是从公共数据集中策划的，这些数据集是根据预定义的标签列表收集的，例如iNaturalist、Texture和ImageNet-21k (Tab.1)。这可能导致有偏的性能比较，具体而言，小覆盖范围的可入侵性，如第5节所述。为了避免这种风险，我们从OpenImage数据集[21]中构建了一个新的面向ImageNet-1K[4]模型的OOD基准数据集OpenImage-O，该数据集具有自然的类别分布。它包含17,632张经过手动筛选的图像，比最近的ImageNet-O[15]数据集大7.8倍。我们在使用ImageNet-1K作为ID数据集的各种模型上对我们的方法进行了广泛评估。模型架构范围从经典的ResNet-50 [11]到最新的ViT-B16[8]、RepVGG [7]、DeiT [33]和Swin Transformer[26]。通过对包括OpenImage-O、ImageNet-O、Texture和iNaturalist在内的四个OOD数据集的结果进行分析，我们发现模型选择影响了许多基线方法的性能，而我们的方法表现稳定良好。特别地，我们的方法在使用BiT模型时实现了平均AUROC为90.91%，大大超过了平均AUROC为86.62%的最佳基线。我们的贡献有三个方面。(1)我们提出了一种新颖的OOD检测方法ViM，它对于大范围的模型和数据集都表现良好，因为它有效地融合了来自特征和logit的信息。该方法轻量且快速，既不需要额外的OOD数据，也不需要重新训练。(2)我们在ImageNet-1K数据集上进行了全面的实验和消融研究，包括CNN和视觉变换器。(3)我们为ImageNet-1K策划了一个名为OpenImage-O的新的OOD数据集，该数据集非常多样且包含复杂的场景。我们相信它将促进大规模OOD检测的研究。0数据集图像分布 #图像标注方法0OpenImage-O自然类别统计 17,632张图像级手动标注 Texture [2]预定义标签列表 5,160个标签级手动标注 iNaturalist [18,34]预定义标签列表 10,000个标签级手动标注 ImageNet-O [18]困难对抗性OOD 2,000张图像级手动标注0表1.OpenImage-O遵循自然类别统计规律，而ImageNet-O则是通过对抗性构建以增加难度。这两个数据集都有图像级OOD注释。Texture和iNaturalist是通过标签选择的，它们的OOD标签是在标签级别上注释的。0从OpenImage-O、ImageNet-O、Texture和iNaturalist等四个OOD数据集的结果来看，我们发现模型选择影响了许多基线方法的性能，而我们的方法表现稳定良好。特别地，我们的方法在使用BiT模型时实现了平均AUROC为90.91%，大大超过了平均AUROC为86.62%的最佳基线。我们的贡献有三个方面。(1)我们提出了一种新颖的OOD检测方法ViM，它对于大范围的模型和数据集都表现良好，因为它有效地融合了来自特征和logit的信息。该方法轻量且快速，既不需要额外的OOD数据，也不需要重新训练。(2)我们在ImageNet-1K数据集上进行了全面的实验和消融研究，包括CNN和视觉变换器。(3)我们为ImageNet-1K策划了一个名为OpenImage-O的新的OOD数据集，该数据集非常多样且包含复杂的场景。我们相信它将促进大规模OOD检测的研究。02. 相关工作0OOD/ID分数设计Hendrycks等人[13]提出了一种基线方法，使用最大预测softmax概率（MSP）作为ID分数。ODIN[24]通过扰动输入和重新缩放logits来增强MSP。Hendrycks等人[12]还在ImageNet数据集上对MaxLogit和KL匹配方法进行了实验。能量分数[25]计算logits上的logsumexp，ReAct[32]通过特征剪辑增强能量分数。在[27]中，使用特征与其低维流形嵌入的预图像之间的差的范数。Lee等人[23]计算特征与类别中心之间的最小马氏距离。NuSA[3]使用特征在分类权重矩阵的列空间上投影的范数与原始范数之比作为ID分数。梯度也被用作ID和OOD区分的证据[17]。对于使用logits/概率的方法，完全忽略了权重矩阵的零空间上的特征变化；而对于在特征空间上操作的方法，丢弃了权重矩阵上的类别相关信息。50607080901007580859095100l = W T x′ = W T (x − o),∀x.(1)49230我们的方法通过虚拟logit的新机制结合了基于特征的分数和基于logit的分数，并取得了实质性的改进。0网络/损失设计许多工作重新设计训练损失以具有OOD感知性[5]或添加正则化项[18,40]以推动部分ID/OOD特征。DeVries等人[5]通过使用被错误分类的内分布示例作为外分布示例的代理来增强网络的置信度估计分支。MOS[18]修改损失以使用预定义的分组结构，以便最小的分组级别的“其他”类概率可以指示OOD性。Zaeemzadeh等人[40]在训练过程中强制ID样本嵌入到一维子空间的并集中，并计算特征到类别子空间的最小角距离。GeneralizedODIN[16]使用被除数/除数结构来编码分解类概率置信度的先验知识。与这些方法不同，我们的方法不需要重新训练模型，因此不仅更容易应用，而且ID分类准确性也得到了保留。0OOD数据曝光Outlier Exposure[14]利用辅助OOD数据集来改善OOD检测。Dhamija等人[6]通过使额外的背景类别样本具有均匀的logits和小的特征范数来规范化样本。Lee等人[22]使用GAN生成靠近ID样本的OOD样本，并将OOD样本的预测推向均匀分布。包括MCD [39]、NGC [36]和UDG[37]在内的几种方法可以利用外部未标记的噪声数据来增强OOD检测性能。与这些方法不同，我们的方法不需要额外的OOD数据，因此避免了对引入的OOD样本的偏见[31]。03. 动机：Logits中缺失的信息0对于基于logits或softmax概率的一系列OOD检测方法，我们发现它们的性能受到限制。在图1中，基于特征的OOD分数（如Mahalanobis和Residual）在检测ImageNet-O中的OOD方面表现良好，而基于logit/概率的所有方法都落后。这不是偶然的，如图2再次显示。最先进的基于概率的方法KLMatching的AUROC仍然低于在纹理数据集上直接设计的特征空间中的OOD分数。这激励我们研究从特征到logits的信息丢失的影响。考虑一个C类分类模型，其logit l ∈RC通过具有权重W ∈ RN×C和偏置b ∈RC的全连接层从特征x ∈ RN转换而来，即l = WT x +b。预测概率为p(x) =softmax(l)。为了方便起见，我们设置点0NuSA0Residual0Energy0MaxLogit0KL Matching0MSP0ViM（我们的方法）0iNaturalist（AUROC）0纹理（AUROC）0图2.基于概率（用钻石�标记）、逻辑（△标记）和特征（□标记）的9种OOD检测算法的AUROC比较，应用于在ImageNet-1K上训练的BiT模型。OOD数据集为纹理（x轴）和iNaturalist（y轴）。顶部显示了ID数据集ImageNet-1K和两个OOD数据集的示例图像。0o := - (W T) +b，其中(∙)+是Moore-Penrose逆，作为特征空间的新坐标系的原点。0几何上，每个逻辑l i 是特征x'和类向量wi（W的第i列）之间的内积。后来在将逻辑推广到虚拟逻辑时，我们将用子空间替换wi，并用投影替换内积。在新的坐标系中，偏置项可以安全地省略。在本文的剩余部分，我们假设特征空间使用新的坐标系。逻辑包含类相关信息，但特征空间中存在不可从逻辑中恢复的类无关信息。我们研究了两种情况（零空间和主空间），并分别讨论了依赖于它们的两个OOD分数（NuSA和Residual）。0基于零空间的OOD分数特征 x 可以分解为 x = x W ⊥ +x W ，其中 W 是 W 的列空间，x W ⊥ 和 x W 是 x 在 W⊥ 和 W 上的投影，W ⊥ 是 W T 的零空间，我们有NuSA(x) =�∥x∥2 − ∥xW ⊥∥2∥x∥.(2)49240W T x W ⊥ = 0 。分量 x W ⊥不影响分类，但它影响OOD检测。在[3]中证明，可以强烈扰动图像，但限制在 W ⊥中的特征之间的差异。由此产生的异常值图像不像任何ID图像，但在分类中保持高置信度。利用这一点，他们定义了一个ID分数NuSA（零空间分析）为0直观上，NuSA使用角度（=arccos(NuSA(x))）来表示OOD-ness。从图2中我们可以看到，简单的角度信息可以清楚地区分纹理中的OOD示例，其AUROC为95.50%，超过基于逻辑和基于softmax概率的方法KL Matching。0基于主空间的OOD分数通常假设特征位于低维流形上[27,40]。为简单起见，我们使用通过原点o的线性子空间（在新坐标系中）作为模型。我们将主空间定义为由矩阵X TX的最大D个特征值的特征向量张成的D维子空间P。偏离主空间的特征很可能是OOD示例。我们可以定义0残差 ( x ) = ∥ x P ⊥ ∥ , (3)0以捕捉特征与主空间的偏差。这里 x = x P + x P ⊥，x P ⊥ 是 x 在 P ⊥上的投影。残差分数类似于[27]中的重构误差，只是他们使用非线性流形学习进行降维。请注意，在投影到逻辑之后，这种偏差会被破坏，因为矩阵W T0将项目投影到比特征空间低维空间。图2显示，Residual分数在两个数据集上优于NuSA分数，使基于特征的方法与基于逻辑/概率的方法之间的性能对比更加显著。0融合类别相关和类别无关信息相对于logit/概率方法，NuSA和Residual都不考虑与各个ID类别特定的信息，即它们是类别无关的。因此，这些分数忽略了与每个ID类别的特征相似性，并且不知道输入最像哪个类别。这解释了它们在iNaturalistOOD基准上表现较差的原因，因为iNaturalist样本需要区分细粒度类别之间的细微差异。我们假设将特征空间和logit的信息统一起来可以提高对更广泛类型OOD的检测性能。0样本。我们在第4节中提出了这样的解决方案，使用了虚拟logit的概念。04. 虚拟logit匹配0为了统一类别无关和类别相关的OOD检测信息，我们提出了一种通过虚拟logit匹配得到的OOD分数，简称为ViM。流程如图3所示，包括特征、logit和概率三个步骤。具体来说，对于特征x，(1)提取相对于主子空间P的残差xP⊥；(2)通过重新缩放将范数∥xP⊥∥转换为虚拟logit；(3)将虚拟logit的softmax概率作为ViM分数输出。下面我们给出更多细节。回顾一下符号：C是类别数，N是特征维度，W和b是分类的权重和偏置。0主子空间和残差首先，我们通过向量o =−(WT)+b将特征空间偏移，以便在计算logit时不受偏置的影响，如公式(1)所示。主子空间P由训练集X定义，其中行是在新坐标系中以原点o为起点的特征。假设矩阵XTX的特征分解为0XTX=QΛQ−1，(4)0其中Λ中的特征值按降序排序，那么前D列的张成空间是D维的主子空间P。残差xP⊥是x在P⊥上的投影，设在公式(4)中Q的第(D+1)列到最后一列为一个新矩阵R∈RN×(N−D)，那么xP⊥=RRTx。将残差xP⊥发送到下一步。0虚拟logit匹配虚拟logit0l0 := α∥xP⊥∥ = α√0xTRRTx (5)0是通过每个模型的常数α缩放的残差的范数。范数∥xP⊥∥不能直接用作新的logit，因为后面的softmax将对logit的指数进行归一化，因此对logit的尺度非常敏感。如果残差与最大logit相比非常小，那么在softmax之后，残差将被淹没在logit的噪声中。为了匹配虚拟logit的尺度，我们计算训练集上虚拟logit的平均范数以及最大logit的平均值，然后0α:=0Ki=1maxj=1,...,C{lij}0Ki=1∥xP⊥i∥，(6)0其中x1，x2，...，xK是均匀采样的K个训练样本，lij是xi的第j个logit。通过这种方式，虚拟logit的尺度与原始logit的最大值相同。………C49250网络Softmax0OOD分数0ID分数0输入特征 Logit 概率0图3.ViM的流程。主空间P和匹配常数α是通过训练集在推理之前使用公式(4)和公式(6)确定的。在推理过程中，特征x由网络计算得出，虚拟logitα∥xP⊥∥通过投影和缩放计算得出。经过softmax后，与虚拟logit对应的概率就是OOD分数。如果分数大于阈值τ，则为OOD。0ViM分数我们将虚拟logit附加到原始logits上并计算softmax。与虚拟logit对应的概率被定义为ViM。数学上，设x的第i个logit为l i ，则分数为0ViM ( x ) = e α √0x T RR T x0� C i = 1到l i + e α √0x T RR T x . (7)0这个方程揭示了ViM分数受两个因素影响：如果其原始logits较大，则它不太可能是OOD示例；而如果残差的范数较大，则更有可能是OOD。计算开销与分类网络中的最后一个全连接层（从特征到logit的映射）相当小。0与现有方法的关联注意，对分数应用严格递增函数不会影响OOD评估。将函数t(x) = -ln �1应用于ViM分数，然后我们有一个等价表达式0x - 1 �0C �0α ∥ x P ⊥ ∥ -ln0i = 1到l i . (8)0第一项是方程（5）中的虚拟logit，而第二项是能量分数[25]。ViM通过从特征中提供额外的残差信息来完善能量方法。其性能远优于能量和残差。05. OpenImage-O数据集0我们构建了一个名为OpenImage-O的新的OOD数据集，用于ID数据集ImageNet-1K。它是手动注释的，具有自然多样的分布，并且具有17632个图像的大规模。它的构建旨在克服现有OOD基准的几个缺点。OpenImage-O是从OpenImage-V3的测试集中逐个选择的图像，包括从Flickr收集的125436个图像，没有预定义的类别名称或标签列表，从而具有自然的类别统计数据，并避免了初始设计偏差。0图像级别注释的必要性一些先前关于大规模OOD检测的工作仅基于类别标签选择其他数据集的一部分。虽然类别级别的注释成本较低，但生成的数据集可能比预期的要嘈杂得多。例如，[18]选择的Places和SUN数据集中有很大一部分图像与ID样本无法区分。另一个例子是Texture [2,18]，其中泡沫纹理与ImageNet中的泡沫类重叠。因此，通过查询标签创建OOD数据集不可靠，需要对每个图像进行人工检查以确认其有效性。0小覆盖的可操作性如果OOD数据集具有像Texture这样的中心主题，具有较少多样性的分布，那么它可能很容易被“黑客攻击”。在表2中，对于BiT，九种方法的最高AUROC与平均AUROC之间的差距分别为：OpenImage-O5.61，iNaturalist 6.06，Texture 10.52和ImageNet-O14.39。差距越大意味着数据集越容易改进。0OpenImage-O的构建过程我们基于OpenImage-v3数据集[21]构建了OpenImage-O。对于测试集中的每个图像，我们让人工标注员确定它是否为OOD样本。为了辅助标注，我们将任务简化为区分图像与ImageNet-1K分类模型预测的前10个类别，即如果图像不属于这10个类别中的任何一个，则为OOD图像。我们提供了类别标签以及每个类别中与测试图像最相似的图像，相似度是在特征空间中通过余弦相似度测量的，以进行可视化。为了进一步提高注释质量，我们设计了几个方案：（1）如果标注员无法确定图像是否属于这10个类别中的任何一个，可以选择“困难”；（2）每个图像由至少两个标注员独立标注，我们选择两个标注员一致的OOD图像集合；（3）进行随机检查以保证质量。492606. 实验0在本节中，我们将我们的算法与最先进的OOD检测算法进行比较。根据先前关于大规模OOD检测的工作，我们选择ImageNet-1K作为ID数据集。我们使用基于CNN和基于transformer的模型对算法进行基准测试。详细的实验设置如下。0OOD数据集我们使用四个OOD数据集（表1）对算法进行全面评估。OpenImage-O是我们新收集的大规模OOD数据集。Texture[2]由自然纹理图像组成，我们删除了与ImageNet重叠的四个类别（bubbly、honeycombed、cobwebbed、spiralled）。iNaturalist[34]是一个细粒度物种分类数据集。我们使用[18]中的子集。ImageNet-O[15]中的图像经过对抗性过滤，以欺骗OOD检测器。0评估指标报告了两个常用的指标。AUROC是一种无阈值的指标，计算接收者操作特征曲线下的面积。值越高表示检测性能越好。FPR95是FPR@TPR95的简写，即真正阳性率为95%时的假正率。FPR95越小越好。我们都以百分比报告它们的数值。0实验设置BiT（BigTransfer）[20]是ResNet-v2的一个变种，采用了组归一化和权重标准化。BiT-S模型系列在ImageNet-1K上进行了预训练，我们使用了BiT-S-R101 ×1的官方发布的检查点进行实验。ViT（VisionTransformer）[8]是一种基于transformer的图像分类模型，将图像视为补丁序列。我们使用官方发布的ViT-B/16模型，在ImageNet-21K上进行了预训练，并在ImageNet-1K上进行了微调。由于比较的算法不需要重新训练，ID的准确性不受影响。在第6.3节中列出了更多模型架构的结果，包括基于CNN的RepVGG [7]、ResNet-50d[11]，以及基于transformer的Swin [26]和DeiT[33]。它们的预训练权重来自timm仓库[35]。在估计主空间时，从训练集中随机采样了K =200,000张图像。对于维度N >1500的特征空间，我们将主空间的维度设置为D =1000，否则设置为D = 512。0基线方法我们将ViM与八个不需要微调的基线方法进行比较。它们是MSP [13]、Energy [25]、ODIN [24]、MaxLogit[12]、KL Matching [12]、Residual、ReAct[32]和Mahalanobis[23]。对于Mahalanobis，我们遵循[10]中的设置，仅使用0最终特征而不是多个层的集合[18,23]。对于ReAct，我们使用能量+ReAct的设置，修正百分位数p = 99。残差在等式(3)中定义。06.1. BiT上的结果0我们在表2的前半部分呈现了BiT模型的结果。最佳AUROC以粗体显示，第二和第三名以下划线显示。0在包括OpenImage-O、Texture和ImageNet-O在内的三个数据集上，ViM实现了最大的AUROC和最小的FPR95。平均AUROC为90.91%，超过第二名4.29%。平均FPR95也是最低的。特别是，关于等式(8)中ViM的解释，以残差得分和能量得分为基础，结果表明ViM在所有数据集上都明显优于这两种方法。这表明ViM在残差和能量中非常巧妙地结合了OOD信息。然而，在iNaturalist上，ViM只排在第三位。我们推测它在iNaturalist上的中等表现与残差中包含多少信息有关，因为iNaturalist是四个OOD数据集中平均残差范数最小的一个（iNaturalist 4.65，OpenImage-O5.04，ImageNet-O 5.16和Texture 8.16）。0信息来源的影响对于BiT模型的OOD检测性能，表2显示了一个有趣的模式，即信息来源的影响。如果零空间中不存在特征变化，例如依赖于logit和softmax的方法，在Texture和ImageNet-O上的性能受到限制。例如，在Texture数据集上，依赖于logit和softmax的最佳方法是KLMatching，其AUROC为86.92%，远远落后于在特征空间上操作的ViM、Mahalanobis和Residual。相反，如果丢弃了类别相关的信息，例如Residual方法，iNaturalist和OpenImage-O上的性能也受到限制。然而，所提出的ViM分数无论数据集类型如何都是有竞争力的。06.2. ViT结果0[10]已经讨论了大规模预训练transformer在OOD任务上的好处。然而，他们的实验是在CIFAR100/10上进行的，只比较了两种基准方法。我们在表2的后半部分对ImageNet-1K进行了广泛的OOD评估，涵盖了各种方法。0ViM vs. 基准方法ViT模型的两种最佳方法是ViM和Mahalanobis。它们的AU-78.10 70.55 77.99 67.96 87.57 43.44 79.48 66.43Energy76.38 78.99 71.08 78.39 87.77 35.08 72.80 70.14ODIN77.72 72.68 75.27 68.56 88.00 36.58 77.13 63.92MaxLogit77.56 73.50 75.39 69.34 88.40 35.28 76.79 64.4949270模型方法来源 OpenImage-O Texture iNaturalist ImageNet-O 平均 AUROC ↑ FPR95 ↓ AUROC ↑ FPR95 ↓ AUROC ↑ FPR95 ↓AUROC ↑ FPR95 ↓ AUROC ↑ FPR95 ↓0BiT0MSP [13] prob 84.16 73.72 79.80 76.65 87.92 64.09 57.12 96.85 77.25 77.83 Energy [25] logit 84.77 73.4281.09 73.91 84.47 74.98 63.59 96.40 78.48 79.68 ODIN [24] prob+grad 85.64 72.83 81.60 74.07 86.73 70.7563.00 96.85 79.24 78.63 MaxLogit [12] logit 85.67 72.68 81.66 73.72 86.76 70.59 63.01 96.85 79.27 78.46 KLMatching [12] prob 88.96 51.51 86.92 51.05 92.95 33.28 65.68 86.65 83.63 55.62 Residual † feat 80.58 67.8597.66 11.16 76.76 80.41 81.57 65.50 84.14 56.23 ReAct [32] feat+logit 88.94 54.97 90.64 50.25 91.45 48.6067.07 91.70 84.53 61.38 Mahalanobis [23] feat+label 83.10 64.32 97.33 14.05 85.70 64.95 80.37 70.05 86.6253.34 ViM (Ours) feat+logit 91.54 43.96 98.92 4.69 89.30 55.71 83.87 61.50 90.91 41.460ViT0MSP [13] prob 92.53 34.18 87.10 48.55 96.11 19.04 81.86 64.85 89.40 41.65 Energy [25] logit 97.11 14.0493.39 28.22 98.66 6.16 90.46 41.30 94.90 22.43 ODIN [24] prob+grad 96.86 15.68 93.01 30.60 98.57 6.5889.85 44.15 94.57 24.25 MaxLogit [12] logit 96.87 15.68 93.01 30.60 98.57 6.58 89.85 44.15 94.57 24.25 KLMatching [12] prob 93.80 28.49 88.76 44.09 96.88 14.79 84.12 55.70 90.89 35.77 Residual † feat 92.72 32.6392.21 33.80 98.57 6.63 88.23 47.85 92.93 30.23 ReAct [32] feat+logit 97.38 13.50 93.34 28.49 99.00 4.3190.71 42.60 95.11 22.22 Mahalanobis [23] feat+label 97.48 13.54 94.24 25.17 99.54 2.12 92.81 36.95 96.0219.45 ViM (Ours) feat+logit 97.61 12.61 95.34 20.31 99.41 2.60 92.55 36.75 96.23 18.070表2.ViM和基准方法的OOD检测结果。ID数据集为ImageNet-1K，OOD数据集为OpenImage-O、Texture、iNaturalist和ImageNet-O。两种指标AUROC和FPR95以百分比表示。测试了一个预训练的BiT-S-R101 ×1模型和一个预训练的ViT-B/16模型。最佳方法以粗体表示，第二和第三个方法以下划线表示。ODIN需要反向传播来产生输入扰动，因此它是prob+grad。ReAct剪辑特征并随后使用能量，因此它是 feat+logit。Mahalanobis需要gt标签来计算类别的平均特征，因此它是feat+label。†：残差在公式（3）中定义。0方法 RepVGG [7] Res50d [11] Swin [26] DeiT [33] A ↑ F ↓ A↑ F ↓ A ↑ F ↓ A ↑ F ↓0KL匹配 81 . 35 61 . 65 82 . 72 64 . 41 88 . 87 46 . 99 83 . 49 64 . 80 残差84 . 19 59 . 00 87 . 01 58 . 55 92 . 88 37 . 38 84 . 15 74 . 13 ReAct 49 .14 98 . 96 82 . 93 58 . 63 90 . 17 31 . 36 77 . 37 67 . 000马氏距离 86 . 07 59 . 39 88 . 33 55 . 70 92 . 16 40 . 39 85 . 03 73 . 18 ViM(我们的方法) 87 . 81 50 . 50 89 . 22 52 . 61 94 . 11 31 . 04 85 . 25 69 . 950表3.在RepVGG、ResNet50-d、Swin和DeiT上的结果。由于空间限制，只报告了它们的平均AUROC（A ↑）和平均FPR95（F↓）。数字以百分比表示。所有模型都使用从timm [35]获取的预训练权重。0在所有四个数据集上，ROC曲线都很接近。然而，马氏距离需要计算类别间的马氏距离，这使得计算代价很高。相比之下，我们的方法轻量且快速。四种方法ReAct、Energy、MaxLogit和ODIN是第二好的方法，其余三种方法的AUROC相对较低。0ViT和BiT之间的差异：由于ViT模型是在ImageNet-21K数据集上预训练的，语义0ViT模型所见的数据要比BiT模型多得多。OOD性能相对饱和。尽管在大多数OOD数据集上，ViT明显优于BiT，但我们观察到ViT在纹理数据集上的竞争性较差。我们假设这与[28]中的观察相关，即ViT的更高层次比ResNets更忠实地保留了空间位置信息。ViT对局部补丁有很高的响应。然而，纹理图像具有类似的局部补丁，但没有显示整个对象，被视为ImageNet的OOD（请参见图2中的示例图像）。06.3. 更多模型架构的结果0我们在各种模型架构上展示了更多的结果。特别地，我们选择了两个基于CNN的模型RepVGG [7]和ResNet-50d[11]，以及两个基于transformer的模型Swin Transformer[26]和DeiT[33]。它们在四个OOD数据集上的平均AUROC和平均FPR95列在表3中。结果表明，ViM对模型架构的变化具有鲁棒性。详细的实验设置和结果请参见补充材料。06.4. 超参数的影响0主空间的维度D：在[40]中，每个类的特征由一个一维子空间表示，因此主空间的维度D是一个自然的选择。758085909510060070080090010001100120013001400AUROCChange Dimension of Principal Space for BiTOpenImage-OTextureiNaturalistImageNet-O9092949698100384416448480512544576608640Change Dimension of Principal Space for ViT75808590951000.20.40.60.811.21.41.61.822.22.42.62.83AUROCPerturbation of Matching Parameter for BiTOpenImage-OTextureiNaturalistImageNet-O90929496981000.20.40.60.811.21.41.61.822.22.42.62.83Perturb

下载后可阅读完整内容，剩余1页未读，立即下载