语义一致的分布外检测方法及其性能评估

51 浏览量更新于2023-10-07 收藏 978KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

8301语义相干分布外检测杨靖康1，王浩琪2，冯立彤2，严小鹏2，郑华斌2，张伟2，3，4，刘紫薇1B1南洋理工大学S-Lab2商汤科技3上海交通大学清源研究院4上海人工智能实验室，中国jingkang001@ntu.edu.sg，{lastname.firstname} @ sensetime.com，ziwei. ntu.edu.sg摘要当前的分布外（OOD）检测基准通常通过将一个数据集定义为分布内（ID）并且将所有其他数据集定义为OOD来构建。然而，这些基准测试不幸地引入了一些不需要的和不切实际的目标，例如，以完全区分CIFAR狗和ImageNet狗，即使它们具有相同的语义和可忽略的协变量偏移。这些不现实的目标将导致模型能力的范围非常狭窄，极大地限制了它们在实际应用中的使用。为了克服这些缺点，我们重新设计的基准，并提出了语义一致的分布外检测（SC-OOD）。在SC-OOD基准上，现有方法遭受大的性能下降，这表明它们对数据源之间的低级别差异极其敏感，而忽略了它们固有的语义。为了开发有效的SC-OOD检测方法，我们利用外部未标记集，并设计了一个简洁的框架，其特征在于无监督双分组（UDG）的ID和OOD数据的联合建模。 UDG不仅可以通过以无监督的方式开发未标记的数据来丰富模型的语义知识，而且可以区分ID/OOD样本，以同时增强ID分类和OOD检测任务。广泛的实验表明，我们的方法达到了国家的最先进的性能SC-OOD基准。代码和基准测试在我们的项目页面上提供：https://jingkang50.github.io/projects/scood。1. 介绍虽然在视觉识别方面占主导地位[1，2]，但深度学习模型仍然因以下两个缺点而臭名昭着：1）当测试数据分布具有较大的协变量偏移时，它们的性能显著下降。数据集相关的分布外（DD-OOD）拆分！I：CI F A R-10！O：Tini-I mage Ne t语义相干分布外（SC-OOD）分裂！I：CI F A R-10+S elect dTiny-I mag e N et ！O：剩余图1：数据集依赖的OOD（DD-OOD）与语义相干OOD（SC-0 OD）。我们注意到，一定数量的DD-OOD样本具有与ID相同的语义，协变量偏移可以忽略不计这里，我们将这些样本重定向回SC-OOD设置中的ID。训练[3];2）他们倾向于不计后果地将测试图像分类到某个训练类中，即使它具有来自训练的语义转变，也就是说，它可能不属于任何训练类[4]。这些缺陷严重降低了模型的可信度，并阻碍了它们在实际应用中的部署，特别是高风险应用[5，6]。为了解决这个问题，分布外（OOD）检测旨在区分和拒绝具有协变量变化或语义变化或两者的测试样本，以防止在分布内（ID）数据上训练的模型产生不可靠的预测[4]。现有的OOD检测方法主要集中在通过温度缩放[7]、生成模型[8，9]或集成方法[10，11]来校准softmax层[4其他解决方案收集大量的OOD样本，以了解ID/OOD差异。8302表1：在DD-OOD/SC-OOD设置上ODIN [7]、MCD [14]和基于能量的OOD（EBO）[15]的性能。以前的方法在DD-OOD上实现了近乎完美的结果，但在SC-OOD上遭受急剧下降。1DDSCDDSCDDSCODIN（ICLR18）0.46 五十五点零99.8 八十八点八99.8八十四点二EBO（NeurIPS20）1.5650.699.590.499.4八十五点四MCD（ICCV19）0.0168.699.988.999.982.1教育培训[12，13，14]。现有的方法取得了吸引人的实验结果。例如，MCD [14]在经典基准测试中报告了近乎完美的分数。OOD检测问题似乎完全解决了。然而，通过仔细检查常用的OOD检测基准[4，7，13]，我们发现OOD分裂的一些不合理之处。在不同的数据集代表不同的数据分布的假设下，当前的基准通常通过将一个数据集定义为ID而将所有其他数据集定义为OOD来构建。图1-a显示了一个流行的基准测试，它使用整个CIFAR-10测试数据作为ID，使用整个Tiny-ImageNet测试数据作为OOD。然而，我们观察到大约15%的Tiny-ImageNet测试样本实际上与CIFAR-10的ID类别共享相同的语义例如，Tiny-ImageNet包含六个狗品种（例如，金毛猎犬，吉娃娃），匹配CIFAR-10在这种情况下，在上述数据集相关的00 D（DD-00 D）基准上的完美性能可以指示模型试图在忽略固有语义的同时过拟合数据源之间的可忽略的协变量偏移上的低水平差异这不能满足现实模型部署的要求。为了克服DD-OOD基准的缺点，在这项工作中，我们重新设计了语义相干分布外检测（SC-00 D）基准，其基于语义重新组织ID/00 D集，并且仅关注可以忽略协变量偏移的真实图像，如图1-b所示。在这种情况下，ID集在语义上是一致的，并且与OOD不同。现有的方法在如表1所示的修改的SC-OOD基准上遭受大的性能降级，指示OOD检测问题仍然未解决。1对于有效的SC-OOD方法，我们利用外部未标记的集合，如OE [13]。与OE [13]的未标记集纯粹是OOD不同，我们的未标记集被一部分ID样本污染。我们认为1在表1中，DD和SC-OOD基准测试都将CIFAR-10视为ID和Tiny-ImageNet作为OOD。所有方法均使用其发布的DenseNet模型进行测试AUPR对应于第4节中的AUPR-Out。这是一个更现实的设置，因为强大的图像爬虫可以轻松地准备数百万未标记的数据，但将不可避免地引入ID样本，这些样本的纯化成本很高。与一个现实的未标记集的SC-OOD，我们设计了一个优雅的框架，其特点是无监督的双分组（UDG）的标记和未标记的数据的联合建模。UDG通过使用无监督深度聚类任务探索未标记数据来增强模型的语义表达能力，辅助任务生成的分组信息也可以动态分离未标记集合中的ID和OOD样本从未标记的集合中分离的ID样本将加入其他给定的ID样本进行分类器训练，其余的将被迫像其他OE方法一样产生均匀的后验分布[13]。以这种方式，ID分类和OOD检测性能同时提高。总而言之，我们的论文的贡献是：1）我们强调了当前OOD检测基准的问题，并重新设计它们以解决分布外检测中的语义一致性。2）提出了一种基于真实无标记数据的简洁框架，该框架采用无监督的对偶分组，不仅以无监督的方式丰富了模型的语义知识，而且区分了ID/OOD样本，同时增强了ID分类和OOD检测任务。3）大量的实验表明，我们的方法在SC-OOD基准测试中达到了最先进的性能。2. 相关作品分发外检测。OOD检测旨在区分与训练样本相比来自不同分布的测试图像[4]。最简单的基线使用最大softmax概率（MSP）来识别OOD样本，这是基于DNN倾向于为错误分类和OOD输入产生较低预测概率的观察[4]。后续工作使用各种技术来改进MSP。ODIN [7]在softmax层上应用温度缩放以增加ID和OOD概率之间的分离。小扰动也被引入到输入空间，以进一步改善。一些概率方法试图对训练样本的分布进行建模，并使用可能性或密度来识别OOD样本[8，9，16]。此外，集成方法也可以用于鲁棒化模型[10，11]。最近，发现基于能量的模型的能量分数在理论上与概率密度一致，并且适用于OOD检测[15]。所有上述方法仅依赖于用于OOD检测的ID样品用于OOD检测的另一组方法利用一组外部OOD数据，基于该外部OOD数据，学习ID和OOD数据之间的差异。该分支的基线工作是OE [13]。基于MSP基线[4]，引入大规模选定的OOD集作为离群值暴露。方法FPR95#AUROC“AUPR“8303DDDDDDDTDODODUUUXUsure（OE）和附加目标，期望DNN为额外的样本产生统一的softmax分数。之后，MCD [14]提出了一个具有两个分类器的网络，这些分类器被迫为额外的OOD样本产生最大熵差异。一些作品探索了外部OOD数据采样的最佳策略[17]。然而，我们发现使用外部OOD数据的先前方法存在两个问题：1）在现实环境中，难以获得纯化的OOD集合，因为ID样本不可避免地被引入并且过滤掉是昂贵的。2）现有方法只从整体上考虑面向对象设计集，忽略了面向对象设计集内部丰富的语义信息在本文中，我们采取了一个现实的未标记的集合，这是一个自然的ID/OOD混合，并希望很好地探索其中的知识。深度聚类。深度聚类是一种无监督学习方法，它使用结果特征的聚类分配来训练DNN [18]。在本文中，我们将其集成到我们主要提出的无监督双分组（UDG）中，旨在不仅通过在标记和未标记集上的自监督训练来学习视觉表示，而且还进行聚类OOD概率估计以从第3.4节中描述的未标记集中过滤出ID样本。除了聚类之外，其他无监督方法也可以作为辅助（借口）任务来实现，即，补丁或- derings [19，20]，着色[21]，旋转预测[22][23]第24话：学习。虽然我们相信它们可以帮助发现未标记集合中的潜在知识并增强视觉表示，但它们在主要ID过滤任务中的交互潜力相对较小与聚类辅助任务相比是有限的。从训练集D = DL[DU]训练图像分类器，使得该模型除了正确地对来自T1的样本进行分类之外，还具有拒绝T0的能力。3.2. 框架概述为了使用ID集L和未标记集U赋予分类器OOD检测能力，我们的流水线设计由经典的OE架构[13]启动，该架构训练网络正确分类ID样本并强制对未标记样本进行高熵预测，这将封装在第3.3节中介绍的分类器分支中。然后，提出了一种无监督对偶分组（UDG），将L和U一起分组。基于分组，来自U的ID样本可以被滤出并重新定向到L以增强分类分支的性能，这在第3.4节中介绍。利用UDG产生的最后，在第3.5节中总结了整个培训和测试程序。图2说明了所提出的流水线。3.3. 主要任务：分类和熵损失我们首先专注于ID分类能力的模型。构建分类器，其包含具有可学习参数✓E的骨干编码器E和具有可学习参数✓C的分类头F C。利用标准交叉熵损失来使用DL中的数据-标签对训练分类器，由等式1表示。L1XLC=-logpyi（y| xi，✓E，✓C）（1）3. 我们的方法在本节中，我们将详细介绍我们提出的具有无监督双重分组（UDG）的端到端管道。3.1. 问题陈述假设我们有训练集和测试集。在封闭世界假设下，训练数据和测试数据都来自分布I，即D=DLI和T=TII.下标L表示DL是完全la-。beled。T（TI）中的样本仅属于已知类别CI由D（DL）中的标签提供。但是，一个更真实的-|（x i，y i）2DL|(xi,yi)2DL现在，我们使用未标记的集合来帮助网络获得OOD检测能力，遵循离群值暴露的经典架构[13]。理想情况下，来自未标记组的所有样品都是OOD，即U.在这种情况下，由于它们不属于任何一个已知的类，网络被迫产生一个均匀的后验分布在所有已知的类的未标记的样本。因此，在等式2中引入熵损失以使未标记样本上的模型预测变平[13]。istic设置表明T也包含未知类1 1XL=-logp（y| x，✓，✓）（2）CCO从分布外O，即，不是由TII和TOO。需要D|DU|CI|CI|xi2DUc2CIC iEC不仅正确地将来自T1的样本分类到C1，而且还识别来自T0的OOD样本。为此，引入未标记的集合DU以辅助训练过程，从而得到D=DL[D U]。理想情况下，未标记集应该纯粹来自于发行外，即DUO。然而，在这方面，然而，在实际实践中，U可能与ID样本混合，导致以下假设U不准确这个问题有待于通过3.4节中提出的无监督双重分组来解决。3.4. 无监督双分组（UDG）在实际操作中，DU是DII和未知分离的DOO也提到DO不一定涵盖TO。总而言之，我们的目标是在本节中，我们首先介绍UDG的基本操作，然后重点介绍UDG如何解决上述问题8304ℒℒCCLLCUUDDDDk，cF=（吨）（吨）我k，cL（t）（t）（t）（t）L（t）（t）LCUCD ddL标记集DL分发中过滤（IDF）FcI#2#3第一名E#4#1第2个特征未标记集合DU#5无监督双分组（UDG）F&1 23 45#3组索引A#4#5图2：OOD检测与无监督双分组（UDG）的建议框架。CNN模型具有一个编码器E和两个完全连接的头部FC和FA。 FC是分类头，其使得模型能够正确地预测具有分类损失I的ID样本，并且使用熵损失O来强制对未标记样本进行平坦化预测。FA是用于深度聚类的辅助头在UDG过程期间，分布内过滤（IDF）的操作将落入ID组的未标记样本视为ID样本以用于稍后的损失计算。然后将组索引用于辅助深度聚类任务。当ID样本在U中混合时的熵损失U问题。理想情况下，I中的样本应该从U中移除，并与它们对应的标签一起返回到L，仅留下O用于熵损失最小化。幸运的是，UDG有能力通过分布内过滤（IDF）操作来完成任务此外，UDG提供的分组信息可以被深度聚类的辅助分支用来探索未标记数据中的知识，从而提高模型的语义能力基本操作。我们将整个训练集分为K组，用于每个时期。在第t个时期，编码器E的群体。经验上，对于由标记类支配的组，组中的未标记数据更可能属于相应的类别。利用样本的ID属性可以根据样本所属的组进行估计的原则，提出了分布内过滤（IDF）操作来过滤掉未标记集合中的ID样本。对于群k，我们定义了它的群纯度ц（t）来表示属于类c的样本的比例在时期t，如等式5，其中[L]c表示所有标记的C类样品。（表示为E（t））提取每个训练样本的特征以形成用于以下分组过程的特征集（t）。任何聚类方法都可以实现（吨）k，c|Dk\[DL]c||Dk|（五）分组，而在这项工作中，我们使用经典的k均值算法[26]，如等式3所示，其中G（t）恢复组准备好组纯度ц（t）后，IDF操作员返回每个样本指数x和g（t）在时期t样本xi的索引。2G（t）表示以下基团组中所有未标记的样品，组纯度超过阈值返回到其标签与组多数相同的标记集，形成更新的标记集D（t）G→k均值（F），其中F ={E（x）|x2D}根据等式6。（吨）（吨）（吨）从那时起，每个样本都应该属于K个组中的一个形式上，在第t个时期属于第k个组的所有样本形成等式4中的集合Dk。DL=DL[{x|x2Dk，цk，c>}（6）注意，从第二时期开始，等式5中的Dl将被替换为D（t-Ι），但是等式6中的Dl保持不被替换。（吨）（吨）（吨）（吨）更改以启用纠错机制。D k={x i|gi= k，（xi，gi）2（D，G）}（4）与更新为使用UDG的分发中过滤（IDF）在这一部分中，未标记集合D也被更新为D。使用最多-（三）F8305我们介绍了如何在范围日期集上过滤ID样本，分类损失和熵损失都是8306UGCLTTCC一（|LC|D（t）||CI|C我CC一LL修改为等式7和等式8。[L1]（t）=-1Xlogp（吨）（y|x，✓，✓）表2：与示例性CIFAR-10类语义一致的Tiny-ImageNet类。这些类别中的所有图像都被标记为ID，用于SC-OOD基准测试。C|DL | (xi,yi)2D(t)伊伊ECCIFAR-10 Tiny-ImageNet类（七）猫n02802426虎斑猫，虎斑猫n02977058埃及猫[L/O]（t）=-11 XXlogp（y| x，✓，✓）n04146614波斯猫（八）UDG的辅助任务设计辅助分支的动机是充分利用未标记集合中包含的知识，期望学习到的选择狗n02056570约克夏梗n03891332拉布拉多Tetriever n03042490德国牧羊犬n03930313标准贵宾犬mantics可以进一步有益于模型性能，特别是分类ID。预期所学习的语义可以进一步有益于模型性能，特别是在ID分类上。幸运的是，UDG提供的组与深度聚类过程完全兼容[18]，该过程被用作无监督的辅助过程。知识探索的一项重要任务。深度聚类的直觉是那些说谎的样本香蕉领结勺斗式哑铃在同一组中的人应该属于同一类别。由于每个样本的组索引在（t）中由等式3提供，因此具有可学习参数A的全连接辅助头被训练以将样本分类到其对应的组中，其中在等式9中具有辅助损耗L_A。图3：隐藏在不相关类别中的示例ID图像也被过滤用于SC-OOD CIFAR-10基准。尽管表2的按类过滤可以识别大部分ID样本，但是包含ID语义的一些多标签图像需要手动过滤。（t）1LA=-Xlogpgi （y|xi，埃塞俄比亚，（9）4. SC-OOD基准|D|（xi，gi）2（D，G（t））3.5. 培训和测试流程最后，利用修正的分类损失[L_I]（t）、修正的入口损失[O]（t）和辅助损失（t），最终损失可以通过具有超参数λU和λA的等式10来计算。执行端到端训练过程以优化具有参数✓E的编码器E、具有参数✓C的分类头FC和具有参数✓C的辅助头FC。FA与参数✓A同时。在本节中，我们将介绍两个基准测试，以反映语义一致的OOD检测。两个基准测试分别将CIFAR-10/100[27]的两个著名数据集视为分布内。其他五个数据集包括Tex- ture [28]，SVHN [29]，Tiny-ImageNet [30]，LSUN [31]和Places 365 [32]被准备作为OOD数据集。我们根据SC-OOD基准测试的样本语义重新划分I和O重新拆分有两个步骤：1）我们首先从OOD数据集中挑选出ID类，并将所选类内的所有图像标记为ID样本。表2示出了示例性Tiny-ImageNet ID类（吨） = [LI]（吨）+λU·[LO]（t）+λA·L（t）（10）对应于两个CIFAR-10类。（2）然后我们--在测试期间，仅利用分类头F_C以及主干编码器E。如果最大预测的值超过预定义的阈值6，则模型将仅进行分布内预测。否则，该样本将被视为分布外样本。测试过程由等式11形式化。pred=不适用，如果max p（y| xi，✓E，✓C）<6，argmaxcpc（y xi，✓E，✓C），否则。（十一）管道细粒度过滤，因为来自不相关OOD类别的许多图像也包含ID语义。图3显示了被不相关标签隐藏的示例Tiny-ImageNet ID图像。最终，我们获得了 CIFAR-10/100 SC-OOD基准测试，详细描述如下。4.1. CIFAR-10基准CIFAR-10是一个自然对象图像数据集，具有来自10个对象类的50，000个训练样本和10，000个测试样本。T的选定数据集包括1）CIFAR-10Uxi2D（t）c2CIEn02823428金毛猎犬n03388043吉娃娃L8307不不不不不不不TT不不不DDDDL不C不UL表3。总而言之，OE损失C不L所有10，000个图像作为I的测试集;2）具有5，640个纹理图像图像的整个纹理集，全部作为O;3）具有26，032个真实世界街道编号图像的SVHN测试集，全部作为O;4）具有与CIFAR-10类不相交的10，000个对象图像的CIFAR-100测试集，因此全部作为O;5）Tiny-ImageNet测试集，包含来自200个对象的10，000张图像，其中1，207张图像为I，8，793张图像为O;6） LSUN测试集，包含用于场景识别的10，000张图像，其中2张图像为I，9，998张图像为O;7）Places365测试集，包含36，500个场景图像，其中1，305个图像作为TI，35，195个图像作为TO。4.2. CIFAR-100基准CIFAR-100是一个由100个细粒度类组成的数据集，包含50，000个训练样本和10，000个测试样本。CIFAR-10和CIFAR-100之间的类是不相交的。选择的数据集包括1）CIFAR-100测试装置，所有10，000个图像为I;2）具有5，640个纹理图像的整个纹理集，所有为O;3）具有26，032个真实世界街道号码的图像的SVHN测试集，所有为O;4）具有与CIFAR-100类不相交的10，000个对象图像的CIFAR-10测试集，因此全部作为T0;5）具有2，502个图像作为T1和7，498个图像作为T0的Tiny-ImageNet测试集;6）具有2，429个图像作为T1和7，498个图像作为T 0的lation研究然后，我们比较我们的方法与以前的国家的最先进的方法。最后，我们的方法进行了更深入的探讨。实验设置。分别用CIFAR-10和CIFAR-100的L执行两个实验组[27两个训练集都包含50，000张图像。Tiny-ImageNet [30]训练集在两个实验中都用作U根据第4节进行试验。主要论文仅报告了每个基准测试中所有6个数据集的平均指标值。所有消融和分析实验均在CIFAR-10基准上进行。实施详情。所有实验都使用标准ResNet-18 [33]进行，由SGD优化器训练，权重衰减为0。0005和动量0的情况。9 .第九条。准备两个数据加载器，批量大小为128对于L和256对于U。使用余弦学习速率调度器，初始学习速率为0。1，共取100个epoch。对于UDG的超参数，我们设置λU=0。5且λA=0。1，所有实验。CIFAR-10/100的组数K是1000/2000，其中IDF阈值K =0。8.5.1.消融研究在本节中，我们将分析每个主要组成部分的影响，包括分类任务LI、OE损失LU、7）Places365，其中2，727个图像作为Tl和33，773个图像作为TO。辅助深度聚类任务（IDF）算子FA，和单向结构滤波器Cr。LU4.3.评估指标我们使用四种度量来评估ID分类和OOD检测的性能。FPR95是95%真阳性率（TPR）下的假阳性率（FPR）的缩写。当大多数ID样本被召回时，它测量错误识别的OODAUROC计算受试者工作特征曲线下面积，评估OOD检测性能。曼斯。认为来自I的AUPR测量精确率-召回率曲线下的面积。根据阳性的选择，AUPR包含AUPR-In，其将I视为阳性，以及AUPR-Out，其中O被视为阳性。在表1和表3中，我们使用 AUPR 来表示 AUPR-Out 的值，这是由于其与AUROC的互补极性。CCR@FPRn 显示 FPR 达到值 n 时的正确分类率（CCR）。该度量同时评估ID分类和OOD检测，并由[12]中的等式3形式化。在所有提到的指标中，只有FPR 95是前-预计在更好的模型上具有更低的值更高和IDF算子是最有效的OOD检测，而辅助的深度聚类任务可以进一步提高性能。值得注意的是，我们还报告了CIFAR-10测试集上的基本分类准确率，表示为ACC。未标记数据的有效性表 3 根据未标记的Tiny-ImageNet的使用被分成两个主要块。在这一部分中，我们讨论了无标记数据的引入所带来的差异Exp #2操作仅使用I的标准分类，Exp #6是使用附加O的标准OE方法[13]。实验结果表明，FPR95的OOD检测能力有了较大幅度的提高，提高了7.74%图4-a比较了实验#2和#6之间的最大预测分数的直方图。过度自信的性质大大减少，有利于未标记的样本，和ID/OOD的差异也扩大。但同样值得注意的是，ID分类准确率从94.94%下降到91.87%。由于我们使用了一个实际的未标记的集合，将ID和OOD混合用于OE丢失，因此未标记的ID数据将错误地贡献给LO，因此任何其它度量的值指示更好的性能。5. 实验在本节中，在描述了实现细节之后，在ab中分析了每个组件的效果8308LL损害分类性能。C无监督双分组分析。UDG的贡献是双重的：1）启用IDF操作; 2）产生辅助损耗A。在这一部分中，我们重点分析了A.实验#1在CIFAR-10（K=50）上操作标准深度聚类。全连接8309D组分1：LAFPR95 AUROCAUPR ACC89.5365.8065.4664.882：LIC58.27 89.2587.7294.943：LI+LAC4：LA55.6290.7288.3395.0291.1564.0063.475：L+LC我一62.7588.2186.4594.68CIFAR+TINLCCLULL实验2实验6实验9最大预测得分(a) 最大预测得分(b) 聚类数的影响(c) 不同IDF设计图4：比较和分析，以证明我们框架中每个模块的有效性。（a）统计地示出了表3的三个实验中ID（蓝色）和OOD（绿色）样品的最大预测分数之间(b)实验结果表明，该方法可以在大量预定义聚类的情况下获得稳定的良好结果。(c)显示了我们使用的分发中过滤（IDF）策略，即UDG明显优于替代品。层在训练结束时在训练集上进行微调。在所有指标上都获得了令人沮丧的结果。更糟糕的是Exp#4，它表明用OOD主导的未标记数据扩展训练集进一步破坏了完全无监督方法的OOD检测能力。可能的解释是，在不知道 ID/OOD 的情况下，深度聚类可以容易地将ID/OOD样本分组到一个聚类中，从而放弃OOD检测能力。因此，尽管实验#2和#3示出了在标准CI-FAR训练集上，辅助A可以使所有度量受益，但实验#3和实验#5之间的比较不幸地示出了一旦涉及OOD混合的未标记数据，分类任务和无监督深度聚类任务的简单组合将损害OOD检测能力。幸运的是，引入OOD差异损失后表3：在SC-OOD CIFAR-10基准上的消融研究，以显示所提出的框架中的每个组件的有效性。F代表IDF运算符。为简单起见，我们根据每个实验的指数（例如：实验#2仅用L16：LIC+LUC50.5388.9387.8391.877：LIC+LUC+LA51.4190.5388.1790.70实验#6和实验#7之间的比较表明，U可以大大减少LA缺点8：LC+LC+F9：LI+LU+F+LA40.9392.2391.92 92.3436.2293.7892.61 92.94我们希望恢复洛杉矶的价值。C C分销中过滤的有效性。贡献-IDF的作用是双重的：1）通过从未标记的集合中收集ID样本来改善ID分类，以获得更好的I，以及2）从未标记的ID/OOD混合物中纯化成干净的OOD集合，以获得更好的O。实验#6和#8（UDG，但λA= 0）之间的比较说明IDF完成了上述目标，在FPR95上具有显著的10.4%的益处，并且分类准确性得到改善。通过使用更清晰的ID和OOD集合，辅助A最终在实验#9的完整版本中变得有益。5.2. 基准测试结果表4比较了我们提出的方法与以前的国家的最先进的OOD检测方法。由于空间有限，这里我们只报告每个基准测试的所有6个完整结果见附录。结果表明，我们提出的UDG在两个SC-OOD基准上都取得了更好的结果。ODIN[7]和基于能量的OOD检测器（EBO）[15]是两种代表性的后处理OOD方法。超参数搜索后，我们报告他们的最佳结果。它们的性能通常不如OE方法。离群值暴露（OE）[13]对应于第3节中的实验#6。结果表明，使用OOD在训练与这种机制可以获得超越其他基线的优势。最大分类器差异（MCD）扩大两个分支之间的熵差异以检测OOD [14]。然而，我们发现它显着overfits的训练OOD样本，而难以推广到其他OOD领域，导致令人失望的结果。UDG在OOD检测的所有指标上实现了最先进的结果特别是，FPR@95在两个基准上都显著降低附录中的完整表格表明，UDG不仅可以在修订的SC-OOD数据集（如CIFAR-Places 365）上具有优势，而且还可以使经典的R#集群排序THRESHUDGCIFAR8310DI（DU）方法FPR95#AUROC“AUPR（In/Out）“CCR@FPR“-表4：在SC-OOD CIFAR-10/100基准上，以前的最先进的方法和我们的方法之间的比较。所有实验都使用ResNet-18 [33]进行公平比较。ODIN [7]和EBO [15]不需要外部数据，OE [13]，MCD [14]和我们的UDG使用Tiny-ImageNet作为未标记的数据。UDG在几乎所有指标上都获得了更好的结果10-410-3十比二10-1CIFAR-10（Tiny-ImageNet）UDG（我们的）36.2293.7893.61/92.6113.8734.4859.9782.14CIFAR-100（Tiny-ImageNet）UDG（我们的）75.4579.6380.69/74.103.858.6620.5744.47OOD检测测试数据集对，如CIFAR-Texture，它不具有语义冲突。5.3. 进一步分析簇数的影响图4-b示出了预定义的簇号K的影响。通常，增大K有助于收敛到最优结果。当K较小时，较大的组大小将阻止任何组完全属于一个类，使得IDF难以过滤掉任何ID样本。此外，大的组将不可避免地包括ID和OOD样本，导致深度聚类任务掩盖ID/OOD差异。因此，我们提出的方法需要一定数量的集群。幸运的是，实验表明，当它是大（K≥500），反映了我们的方法的实用性。IDF的设计选择除了3.4节中提出的IDF之外，还有两种直接的ID样本过滤方法。一个解决方案（表示为作为另一种解决方案（称为）%样品作为新的ID样品。我们还将我们提出的基于组的IDF策略表示为作为ID样本。图4-c显示了它们之间的比较一般来说，我们提出的UDG获得最好的性能FPR95相比，其他IDF策略。SORT实现了最差的性能，因为它从端到端训练的开始就直接包括一定数量的未标记图像作为ID。错误的介绍样本将加入分类任务，使得误差可能累积，从而阻止模型适当地采用OOD检测能力。较小的将使SORT包括更多的未标记图像，而不能保证过滤精度。THRESH具有更好的性能，因为它更好地控制未标记的样本包含。然而，它仍然不能与UDG相比，UDG通过利用分组机制以更保守的方式获取ID样本结果表明，基于组的ID过滤比基于样本的方法执行得更稳定。6. 结论在本文中，我们强调了一个问题，目前的OOD基准分裂ID/OOD根据数据源，而不是语义的含义，因此重新设计现实的和具有挑战性的SC-OOD基准。一个优雅的流水线命名为UDG提出了实现国家的最先进的结果，在SC-OOD基准测试，与年龄的现实未标记集的使用。我们希望更现实和更具挑战性的SC-OOD设置为OOD社区提供新的研究机会，并引起研究者致谢这项工作得到了中国香港特别行政区创新科技署（创新及科技基金B/E030/18项下的企业支持计划）、NTU NAP和RIE 2020产业联盟基金-产业合作项目（IAF-ICP）资助计划的支持ODIN [7]52.0082.0073.13 /85.120.361.296.9239.37EBO [15]50.0383.8377.15 /85.110.491.939.1246.48OE [13]50.5388.9387.55 /87.8313.4120.2533.9168.20中文（简体）73.0283.8983.39 /80.535.4112.328.0262.02ODIN [7]81.8977.9878.54 /72.561.845.6517.7746.73EBO [15]81.6679.3180.54 /72.822.437.2621.4149.39OE [13]80.0678.4680.22 /71.832.748.3722.1846.75中文（简体）85.1474.8275.93 /69.141.064.6016.7341.838311引用[1] K. Simonyan和A. Zisserman，1[2]O. 鲁萨科夫斯基Deng，H.Su，J.Krause，S.萨蒂希S.妈Z。Huang，黄背天蛾A.卡帕西A.科斯拉，M。伯恩斯坦等人，IJCV，2015年。1[3] K. Zhou，Z.Liu，Y.乔，T.Xiang和C.C. Loy，1[4] D. Hendrycks和K. Gimpel，一、二[5] X. 黄先生， D. 克鲁宁 W. 阮 J·夏普 Y. 孙先生，E.塔莫湾Wu和X. Yi，1[6] A. Geiger，P. Lenz，和R.盖革，等. Urtasun，“我们准备好了吗？The kitti vision benchmark suite，1[7] S. Liang，Y.Li和R.Srikant，一、二、七、八、十[8] K. 李，K.Lee，H.Lee和J.Shin，一、二[9] J. Ser ra`，D. A'l v arez，V. 去吧，奥。J.Sliz o vsk a ia. F.Nu'n'ez和J. Luque，一、二[10] H.崔，E. Jang和A. A.“为什么？用于鲁棒异常检测的生成集合，一、二[11] A. Vyas，N. Jammalamadaka，X. Zhu，D.达斯湾考尔，还有T. L. Willke，一、二[12] A. R. 达米亚湾 Gunther和T. Boult，二、六[13] D.亨德里克斯M. Mazeika和T. Dietterich，二三六七八[14] Q. Yu和K.Aizawa，二三七八[15] W. Liu，X. Wang，J. Owens，and Y. Li，二七八[16] J. Ren，P. J. Liu，E. Fertig，J. Snoek，R.波普林M 德普里斯托J.Dillon和B. Lakshminarayanan，2[17] Y. Li和N. Vasconcelos，3[18] M. Caron，P. Bojanowski，A. Joulin和M. Douze，三、五[19] C.多尔施A. Gupta和A. A. Efros，3[20] M. Noroozi和P. Favaro，“Unsupervised learning of visualrepresentations by solving jigsaw puzzles ， ”in ECCV ，2016. 3[21] R. Zhang，P. Isola，and A. A. Efros，3[22] S. Gidaris，P.Singh和N.Komodakis，3[23] A. v. d. Oord，Y. Li和O. Vinyals，3[24] K. 他，H.范，Y。Wu，S.Xie和R.Girshick，3[25] T. Chen，S.科恩布利斯，M。Norouzi和G. Hinton，3[26] S. Lloyd，4[27] A. Krizhevsky，G. Hinton等人，五、六[28] M. Cimpoi， S. 玛吉 I. 科基诺斯 S. 穆罕默德和A. Vedaldi，5[29] Y. Netzer，T.Wang，中国山核桃A.Coates，A.比萨科湾Wu，和A.Y. Ng，5[30] Y. Le 和 X.Yang ， “Tiny Imagenet Visual RecognitionChallenge.”http://cs231n.stanford.edu/tiny-imagenet-200.zip，2015. 五、六[31] F. Yu，Y.Zhang，S.Song，中国黑杨A.Seff和J.Xiao，5[32] B. Zhou，中国古柏A.拉佩德里萨A.科斯拉A.Oliva和A.Torralba，“地点：一千万的图像数据库，用于场景识别”TPAMI，2017。5[33] K. 他，X。Zhang，S.Ren和J.Sun，六八十一

下载后可阅读完整内容，剩余1页未读，立即下载