开集分类协议：实现深度学习模型对已知样本正确分类和拒绝未知样本的新方法

175 浏览量更新于2023-10-16 收藏 753KB PDF 举报

图像分类

深度学习模型

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

42ImageNet大规模开集分类协议AndresPalechorAnneshaBhoumik ManuelGuünther苏黎世大学信息学系，Andreasstrasse 15，CH-8050 Zurichhttps://www.ifi.uzh.ch/en/aiml.html摘要开集分类（OSC）旨在使闭集分类模型适应真实世界的场景，其中分类器必须正确地标记样本已知类的同时拒绝以前看不见的未知样本。直到最近，研究才开始研究能够正确处理这些未知样本的算法。这些方法中的一些通过将分类器学习拒绝的负样本包括到训练集中来解决OSC，期望这些数据增加分类器对未知类的鲁棒性。这些方法中的大多数都是在小规模和低分辨率的图像数据集上进行评估的，如MNIST、SVHN或CIFAR，这使得很难评估它们对现实世界的适用性，并将它们相互比较。我们提出了三个开集协议，提供丰富的数据集的自然图像与已知和未知类之间的相似程度不同这些协议由ImageNet类的子集组成，这些子集被选择用于提供更接近真实场景的训练和测试数据。此外，我们还提出了一个新的验证指标，可用于评估深度学习模型的训练是否既解决了已知样本的分类问题，又解决了未知样本的拒绝问题。我们使用这些协议将两种基线开集算法的性能与标准SoftMax基线进行比较，发现这些算法在训练过程中看到的阴性样本上工作良好，部分在分布外检测任务上工作良好，但在存在来自以前看不见的未知类的样本时性能下降。1. 介绍图像中目标的自动分类是几十年来的一个研究热点深度学习的出现将算法带到了一个可以处理大量数据并产生超出了十年前的想象。监督图像分类算法在从有限数量的已知类中检测类时取得了巨大的成功例如，尝试对十个手写数字进行分类的深度学习算法[16]在呈现数字时达到了99%以上的准确率，但它忽略了分类器在测试期间可能会遇到非数字图像的事实[6]。即使是著名的ImageNet大规模视觉识别挑战（ILSVRC）[26]在训练过程中也包含1000个类，测试集包含来自这1000个类的样本，而现实世界包含更多的类，例如，WordNet层次结构[19]目前知道超过10万个类。1训练一个可以区分所有这些类别的分类分类器目前是不可能的-直到最近，在未知样本存在的情况下改进分类的方法的研究才这些是来自以前看不见的类的样本，这些样本可能在现实世界中部署算法期间出现，并且算法需要通过不将它们分配给任何已知类来正确处理Bendale和Boult[2]提供了第一个算法，该算法将拒绝未知样本的可能性纳入到在有限的已知类集合上训练的深度网络中。后来，开发了其他算法来提高未知样本的检测。这些算法中的许多算法需要在来自一些未知类的样本上进行训练，这些未知类不属于已知的兴趣类-例如，Dhamija et al. [6]采用来自不同数据集的样本，即，他们将MNIST作为已知类训练系统，并选择了EMNIST1https://wordnet.princeton.edu43物理实体有机体动物狗狐狸狼熊有蹄类鼬硷装置车辆食品猎狗鸟虫鱼猴菌果家具电脑汽车卡车船已知负未知P1P2P3图1：我们的OPEN-SET PROTOCLAVE中的C类S。我们使用WordNet层次结构[19]来定义三种不同难度的协议。在此图中，我们显示了我们从中采样最终类的超类，所有这些都是从ILSVRC 2012数据集中获取的叶节点。虚线表示下面的节点是后代，但它们可能不是上面节点的直接子节点。此外，所有节点都有比图中所示更多的后代。类下面的彩色条表示它的子类是为了图左上角所示的目的而采样的。例如，“Dog”的所有子类在协议P1中被用作已知类，而“Hunting Dog”的子类在协议P2中被划分为已知类和否定类。对于P3协议，将若干中间节点划分为已知类、否定类和未知类.字母为负数。其他方法试图通过以不同的方式利用已知的类来创建负样本，例如， Ge等人[8]使用生成模型来形成负样本，而Zhou等人[30]试图利用混合已知样本的内部表示。所有这些方法都有一个固有的问题，- 只有虽然许多算法声称它们可以处理未知类，但已知类的数量很少，并且不清楚这些算法是否可以处理更多的已知类或更多不同的未知类集合直到最近，ImageNet上定义了一个大规模的开集验证协议[28]，但它只基于视觉2而不是语义相似性来分离开集分类研究的另一个问题是，大多数采用的评估标准，如准确性，宏观F1或ROC指标，不评估开集分类，因为它将被用于现实世界的任务。特别地，在训练网络期间使用的当前采用的验证度量不反映目标任务，因此，不清楚所选择的模型是否实际上是用于期望任务的最佳模型。因此，在本文中，我们提出了大规模开集识别协议，可用于训练和测试各种开集算法-[2]事实上，Vaze et al. [ 28]不要把他们的标准具体化，本文对三种简单算法的性能进行了实例分析我们决定基于众所周知且经过充分研究的ILSVRC 2012数据集[26]构建我们的协议，并且我们构建了三个评估协议P1，P2和P3，这些协议基于WordNet层次结构[19]提供了各种困难，如图所示。1.一、这些协议是公开的，3包括基线实施和评估的源代码，这使得本文中提出的结果能够再现有了这些新协议，我们希望在开集对象分类以及相关主题（如分布外检测）方面促进更具可比性和可重复性的研究这使得研究人员可以在我们的协议上测试他们的算法，并直接与我们的结果进行比较。本文的贡献如下：• 我们为ILSVRC 2012数据集介绍了三种具有不同复杂度的新的开集评估• 我们提出了一种新的评价指标，可用于验证目的时，训练开集分类器。• 我们用三种不同的技术训练深度网络，并报告它们的开集性能。• 我们提供所有的源代码3的训练和评估我们的模型的研究社区。选择未知的类，只在它们的补充材料。3https://github.com/AIML-IfI/openset-imagenet442. 相关工作在开集分类中，期望分类器将已知测试样本正确地分类到它们各自的类中，并且正确地检测未知测试样本不属于任何已知类。对未知实例的研究在文献中并不新鲜。例如，新颖性检测（也称为异常检测并且与分布外检测具有高度重叠）集中于识别不属于训练类的测试实例它可以被看作是一个二元分类问题，确定一个实例是否属于任何训练类，但没有确切地决定哪个类[4]，并且包括监督，半监督和无监督学习[13，23，10]中的方法。然而，所有这些方法都只考虑类-将样本分类为已知和未知，将已知样本分类为它们各自的类别作为第二步。理想情况下，这两个步骤应该合并到一个方法中。一种简单的方法是使用置信度阈值对SoftMax分类器的最大类概率进行阈值化，假设对于未知输入，概率将分布在所有类中，因此，概率将很低[17]。不幸的是，通常输入与已知的决策区域明显重叠，并且倾向于被错误分类为具有高置信度的已知类别[6]。因此，必须设计出比简单阈值化SoftMax概率更有效的技术来检测未知输入。一些初始方法包括由Scheirer等人实现的一类和二进制支持向量机（SVM）的扩展。[27]以及设计识别系统以不断学习新课程[1，25]。虽然上述方法仅利用已知样本来分离未知样本，但其他方法需要一些负类的样本，希望这些样本推广到所有未看到的类。例如，Dhamija et al. [6]利用负样本来训练网络，以在提供来自未知类的样本时为所有已知类提供低置信度值。许多研究人员[8，29，20]利用生成对抗网络从已知样本中产生负样本。Zhou等人。[30]结合已知样本对来定义负，无论是在输入空间还是在网络的更深处开集识别的其他方法有Geng et al. [9]的文件。所有上述方法都存在的一个问题是，它们是在具有低分辨率图像和低类别数的小规模数据集上进行评估的。这些数据集包括MNIST [16]，SVHN [21]和CIFAR- 10[14]，其中通常使用一些随机类知之者，知之者也，知之者，知之者也。有时，其他数据集充当未知数的角色当MNIST构建已知类时，EMNIST字母[11]被用作否定和/或未知数。类似地，已知类由CIFAR-10组成，而来自CIFAR-100或SVHN的其他类是负数或未知数[15，6]。只有少数论文使用了像ImageNet这样的大规模数据集，他们要么使用ILSVRC 2012的类作为已知类，要么使用ImageNet的其他类作为未知类[2，28]，或者使用ImageNet的随机分区[25，24]。通常情况下，评估协议是土生土长的，因此，算法之间的比较非常困难。此外，已知类、否定类和未知类之间的相似性没有明确的区别，这使得无法判断方法在哪些场景下有效，哪些场景下无效。最后，所采用的评估度量通常不是针对开集分类而设计的，并且因此不能解决开集识别的典型用例。3. 方法3.1. ImageNet协议在[3]的基础上，我们设计了三种不同的协议来创建三种不同的人工开放空间，增加了已知和未知类的输入之间的外观相似性为了允许比较需要负样本进行训练的算法这也使我们能够比较这些算法在预先发现的负类上的工作情况以及在以前看不到的未知类上的工作情况。为了定义我们的三个协议，我们使用WordNet层次结构，它为ILSVRC 2012的1000个类提供了一个特别地，我们利用鲁棒性Python库[7]来解析ILSVRC树。ILSVRC中的所有类都表示为该图的叶节点，我们使用几个中间节点的后代来形成我们的已知和未知类。协议的定义和它们的开集划分如图1所示，更详细的类列表可以在补充材料中找到。我们设计的协议，使封闭和开放集评估的难度水平各不相同。P1协议对于开集分类比较容易，但对于闭集分类比较困难。而P3在闭集分类时较容易，在开集分类时较困难。最后，P2在中间的某个地方，但足够小，可以运行可以转移到P1和P3的超参数优化。45JJ-NΣ��表1：在旋切机中使用的图像NET CLASSES。下表显示了ImageNet的父类，用于创建三个协议。已知类和负类用于训练开集算法，而已知类、负类和未知类用于测试。给定的是类的数量：训练/验证/测试样本。已知阴性未知所有狗类其他四足动物类非动物类电话：+86-10 - 8888888传真： +86-10- 88888888猎犬类的一半猎犬类的一半其他4条腿的动物类电话：+86-21-8888888传真：+86-21 - 88888888混合的共同类，包括P3动物、植物和物体混合常见类别，包括动物、植物和物体混合常见类别，包括动物、植物和物体151：154522/38633/7550 97：98202/24549/4850 164：-/-/8200在第一个协议P1中，已知类和未知类在语义上是相当遥远的，并且也不共享太多的视觉特征。我们将所有116个狗类作为已知类-因此，P1可用于测试分布外检测算法，因为已知和未知并不十分相似。在第二个协议P2中，我们只研究动物类.特别地，我们使用已知的几种猎犬类和未知的其他4条腿的动物类。这意味着已知类和未知类在语义上仍然相对遥远，但是已知类和未知类之间共享图像特征，例如毛发。这将使分布外检测算法更难表现良好。最后，第三个协议P3通过使用鲁棒性库中定义的混合13个类，包括各种不同类的祖先，作为已知和未知类。由于已知和未知类来自相同的祖先，因此分布外检测算法一个用于培训，一个用于验证，一个用于测试。训练和验证分区是从原始ILSVRC 2012训练图像中随机分离出80%用于训练，20%用于验证。由于训练和验证分区仅由已知和负数据组成，因此此处不提供未知数据测试分区由原始ILSVRC验证集组成，每个类包含50个图像，并且可用于所有三组数据：已知的、阴性的和未知的。这确保了在测试过程中，没有使用网络在任何训练阶段看到的单个图像3.2. 开集分类算法我们选择了三种不同的技术来训练深度网络。虽然其他算法将在未来的工作中进行测试，我们依靠三个简单的，非常相似的和众所周知的方法。特别地，所有三个损失函数在不同设置中仅利用SoftMax激活（通常称为SoftMax损失）之上的普通分类交叉熵损失CCE通常，加权分类交叉熵损失为：Rithms将能够区分它们，并且1N C需要应用真正的开集分类方法为了实现需要负样本的算法，选择语义上类似于已知类或至少介于已知类和负类之间的负类。未知的世界已经表明，选择离已知类太远的负样本无助于创建更适合的开集算法[6]。当然，我们只能根据语义相似度来CCE=wctn，clogyn，c（1）n=1c =1其中N是我们数据集中的样本数量（注意，我们使用批处理），tn，c是类c的第n个样本的目标标签，wc是类c的类权重，yn，c是使用SoftMax激活的样本n的类ce-c，n在WordNet层次结构上，但不清楚这些否定类是否也与已知类在结构上相似。选项卡. 1显示yc，n=Cec'，nc’=1（二）方案中使用的父类，补充材料中提供了所有类的详细最后，我们将数据分为三个分区，一个logit的 log三种不同的训练方法在目标tn，c和权重wc方面不同，以及如何不同。46∀C≤≤. {|≤100%。 }∀≤n0否则文献中提出的方法不符合这些要求。例如，计算n，c ∈ {1，. . . ，C}：t n，c= C（θ≤c≤K|NU|处理阴性样品第一种方法是简单的 SoftMax 损失（S），它只在K个已知类的样本上训练。在这种情况下，类的数量C=K等于已知类的数量，并且目标被计算为独热编码：.1 c=τ为未知类提供单独概率的那些和不提供单独概率的那些。对测试集的最终评估应该区分已知类和未知类的行为，同时包括已知类的准确性。许多评估技术支持-其中1 τnK是样本n的标号。为了简单起见，我们为每个类选择相同的权重：c：w c=1，这是在ImageNet上训练深度学习模型时的默认参数。通过对最大概率maxyc，n进行阈值化，参见秒3.3，这种方法可以转化为一种简单的分布外检测算法。第二种方法经常出现在目标检测模型[5]中，该模型从训练图像的背景中收集大量负类似地，这种方法也用于开集学习的其他方法，例如G-OpenMax [8]或PROSER [30]。[4]在这种背景（BG）方法中，负数据被添加为一个额外的类，因此我们总共有C=K+1个类。由于负样本的数量通常高于已知类的数量，我们使用类权重来平衡它们：NROC曲线（AUROC）只考虑二元分类任务：已知的或未知的，但没有告诉我们分类器在已知类上的表现如何。另一个经常应用的指标是宏F1指标[2]，它平衡了K+1倍二进制分类任务的精度和召回率。这个指标有许多属性，在开集分类任务中是违反直觉的。首先，为每个类计算不同的阈值，因此可以将同一样本分类为一个或多个已知类和未知类。这些阈值甚至在测试集上进行了优化，并且其中仅报告最大F1值。其次，该方法需要定义一个特定的未知概率，这是我们三个网络中的两个网络所不能提供的最后，该度量并不区分已知类和未知类，而是将所有类都等同对待，但将未知样本分类为已知样本的结果与c ∈{1，.，C}：w c=CN（四）对已知样本进行其中Nc是类别c的训练样本的数量。最后，我们根据（3）使用独热编码目标tn，c，包括用于负样本的标签τn=K+作为第三种方法，我们采用熵开集（EOS）损失[6]，这是SoftMax损失的简单扩展。与我们的第一种方法类似，我们为每个已知类都有一个输出：C =K。对于已知样本，我们根据（3）采用独热编码的目标值，而对于负样本，最符合我们直觉的评估指标是开放集分类率（OSCR），它分别处理已知和未知样本[6]。基于单个概率阈值θ，我们计算正确分类率（CCR）和假阳性率（FPR）：Xn τnKarg maxyn，c=τnyn，c> θCCR（θ）=1≤c≤K|NK|我们使用相同的目标值：1FPR（）=. {xn|τn> K≤1maxyn，c>θ}。（六）坚持执行Dhamija等人的建议。[6]中，我们为包括负类在内的所有类选择类权重为c：w c= 1，并将这些值的优化留给未来的研究。3.3. 评估指标开集分类方法的评估是一件更棘手的事情。首先，我们必须区分监控训练过程的验证度量和最终报告的测试方法。其次，我们需要结合这两种类型的算法，虽然这些方法试图对更好的阴性样本进行采样以进行训练，但它们依赖于未知样本的额外类别其中NK和NU是已知和未知测试样本的总数，而τnK表示已知样本，τn> K表示未知测试样本。通过在0和1之间改变阈值θ，我们可以绘制OSCR曲线[6]。仔细观察（6）可以发现，最大值仅在已知类上取，在BG方法中故意忽略了未知类的概率5最后，该定义与[6]的不同之处在于，当与θ进行比较时，我们对FPR和CCR都使用>符号，这是至关重要的5未知类别的低概率并不表示任何已知类别的高概率。因此，未知类概率不会增加任何有用的信息。n，c ∈ {1，. . . ，C}：t n，c=（三）C47Σ。1-一个α+δΣ=K当未知样本的SoftMax概率达到1的数值极限时。请注意，正确分类率的计算（由于我们已知类中的测试样本数量总是平衡的，因此在我们的评估中，我们不受这种偏差的影响，因此我们将该度量对不平衡数据集的适应作为未来的工作。此外，该度量只是对所有样本进行平均，没有告诉我们不同类别的不同类别为了更好地检查这些情况，需要在未来开发置信矩阵的开集适应3.4. 验证度量对于基于SoftMax的系统的验证，通常使用分类准确度作为度量。在开集分类中，这是不够的，因为我们需要在已知类和负类的准确性之间进行平衡虽然使用（加权）准确度可能适用于BG方法，但使用标准SoftMax和EOS训练的网络不提供未知类的概率，因此，准确度不能应用于此处的验证相反，我们希望利用SoftMax分数来评估我们的系统。由于最终目标是找到一个阈值θ，使得已知样本与未知样本区分开来，因此我们建议计算验证度量使用我们的置信度度量：4. 实验考虑到我们的目标不是实现最高的闭集精度，而是分析我们协议中开集算法的性能，我们使用ResNet-50模型[12]，因为它在ImageNet上实现了低分类错误，快速训练，并且通常用于图像分类任务。我们添加一个具有C个节点的全连接层。对于每个协议，我们使用三个损失函数 SoftMax （ S ）， SoftMax withBackground class （ BG ）和 Entropic Open-Set（EOS）loss来训练模型。每个网络使用Adam优化器训练120个epoch，学习率为10−3，默认beta值为0.9和0.999。此外，我们使用标准数据预处理，即，首先，将训练图像的较小尺寸调整为256个像素，然后选择224个像素的随机裁剪。最后，我们使用概率为0.5的随机水平翻转来增强数据图2显示了使用对数FPR轴的三种方案的三种方法的OSCR曲线-对于线性FPR轴，请参阅补充材料。我们绘制了阴性和未知测试样本的测试集性能。因此，我们可以看到这些方法如何与在训练期间已经或尚未看到的类别6的未知样本一起工作我们可以观察到，在闭集情况下（FPR=1），每个方案中的所有三个分类器都达到了相似的CCR值，在某些情况下，EOS或BG甚至超过基线。这是一个好消息，因为开集分类器通常会牺牲开集的能力来降低闭集的准确性。在补充材料中，我们还提供了一个表格，其中包含特定选定FPR的详细CCR值以及γ+和γ−值NNγ−= NNn=11 Max≤c≤K1n，c C，KK（七）在测试集上计算。关于测试集的阴性样本的性能，我们可以看到BG和EOS优于γ+= 1NKNKn=1yτnγ++γ−γ2SoftMax（S）基线，指示分类器学习丢弃否定。一般来说，EOS在这项任务中似乎比BG更好。特别是在P1对于已知样本，γ+简单地对正确类别的SoftMax得分求平均值，而对于负样本， γ− 计算与最小可能SoftMax得分的平均偏差，在BG的情况下，最小可能SoftMax得分为0EOS在FPR=10−2时达到高CCR，表明分类器可以很容易地拒绝负样本，这是可以预期的，因为负样本在语义和结构上远离已知的类。类（其中C=K+1），如果没有额外的返回，则为1当评估测试地面等级可用（C=K）。当对所有已知样本和阴性样本求和时，我们可以看到我们的分类器在区分已知样本和阴性样本方面有多好当所有已知样本被分类为正确类别的概率为1，而所有阴性样本被分类为任何已知类别的概率为0或1时，最大γ得分为1。当你看-在γ+和γ−下，我们还可以确定培训侧重于一个部分，而不是另一个集合属于在训练期间没有看到的类，BG和EOS分类器的性能下降，并且与验证集合上的增益相比，该增益几乎与SoftMax基线相似特别是在研究P2和P3时，使用阴性样本进行训练并不能明显改善开集6记住，已知和否定集被分成训练样本和测试样本，这样我们就不会用训练过程中看到的样本进行评估480.80.60.40.2P1阴性P2阴性P3阴性0.00.8P1未知P2未知P3未知0.60.40.20.010103102101100104103102101100104103102101100S BG EOSFPR图2：OPEN-SET C分类比率曲线。显示了每个方案测试数据的OSCR曲线。的顶行使用阴性测试样本计算，而底行使用未知测试样本。没有延伸到低FPR值的曲线表明（6）中的阈值在θ=1时最大化分类器然而，在P1中，对于更高的FPR，EOS仍然优于S这表明，拒绝远离已知类别的样本的简单任务可以受益于使用负样本的EOS训练，即，所述开集方法对于分布外检测是好的，但是对于开集分类的更一般的任务5. 讨论在我们看到这些方法在负数据上表现良好，而在未知数据上表现不佳之后，让我们分析结果。首先，我们展示了我们的新验证指标如何用于在开集分类器BG和EOS的训练过程中识别差距和不一致性图3显示了训练时期的置信度进展。在第一个时期，已知样本（ γ+ ，图中左侧）的置信度。 3 ）是低的，因为SoftMax激活为所有类别产生低值。随着训练的进行，模型学习对已知样本进行分类，从而增加目标类的正确SoftMax激活。同样，由于激活值较低，负样本（γ−，右）的置信度在训练开始时接近1。请注意，EOS在训练期间保持低激活，学习仅对已知类做出响应，特别是在P1中，其中值在所有时期都接近1另一方面，BG为阴性样本（γ−）提供较低的置信度。这表明（4）中的类别平衡技术可能过于激烈，负样本的更高权重可能会改善BG方法的结果。类似地，对EOS分类器采用较低的权重可以以较低的阴性置信度为代价来提高已知样本的置信度分数。最后，从开放集的角度来看，我们的置信度度量提供了关于模型训练的有见地的信息;到目前为止，我们已经用它来解释模型的性能，但与更多的参数调整一起，联合γ度量可以用作早期停止的标准，如补充材料所示。我们还根据（2）分析SoftMax分数已知和未知类的集合对于来自已知类的样本，我们使用正确类的SoftMax得分，而对于未知样本，我们采用任何已知类的最大SoftMax得分这使我们能够在图1中的不同方法之间进行直接比较。4.第一章当查看已知样本的分数分布时，我们可以看到许多样本以高概率被正确分类，而许多样本提供几乎为0的正确类的概率。这表明，需要进行更详细的分析，可能通过混淆矩阵，以进一步研究这些错误的细节，但这超出了本文的目的更有趣的是，不同方法之间未知类的分数分布差异很大CCR449K1.00.80.60.40.21.00.80.6P1已知P1阴性P2已知P2阴性300024001800120060007506004503001500P1SP1BGP1EOSP2SP 2BGP 2EOS0.40.21.0P3已知P3阴性50004000300020001000P3SP3BGP3EOS0.800.0 0.5 1.0 0.0 0.5 1.0 0.0 0.5 1.00.60.4已知的未知评分0.220 40 608010012020 40 6080100120图4：S软 MAX S芯的组织图。我们SBGEOS时代评估所有三种方法和所有三种协议的SoftMax概率得分。对于已知的样本，我们提出了他的-图3：置信度分布。信心目标类的SoftMax得分的togram。因不明根据（7）的值跨训练时期示出 S、BG和EOS分类器。在左边，我们显示了已知样本的置信度（γ+），而在右边显示了负样本的置信度（γ-）和协议。对于P1，EOS能够几乎完全抑制高分，而S和BG仍然具有提供属于已知类别的高概率的大多数情况对于P2，特别是P3，在整个评估方法中，大量未知样本以非常高的概率被分类有趣的是，普通的Soft-Max（S）方法对于未知样本具有相对高的概率得分，特别是在已知和未知类在语义上相似的P2和P36. 结论在这项工作中，我们提出了三个新的评估pro-topian依赖于ILSVRC 2012数据集的开集图像分类数据完全由自然图像组成，并被设计为在其分区之间具有此外，我们仔细选择WordNet父类，使我们能够包括大量的已知，否定和未知类。与复杂的工作相比，类分区是精心设计的，我们不再实现几个数据集的混合（拒绝未知样本可能相对容易），也不再随机选择数据集中的已知和未知类。这使我们能够区分在分布外检测中工作良好的方法和真正执行开集分类的方法更详细的比较样本，我们绘制任何已知类的最大SoftMax得分对于S和EOS，后者的最小可能值是1，这解释了左侧的间隙。补充材料中提供了方案我们使用OSCR曲线和我们提出的置信度验证度量来评估三个分类器在每个协议中的性能。我们的实验表明，这两个开集算法可以拒绝负样本，其中相同类的样本在训练过程中已经被看到，但面临着一个性能下降，在未知的数据从以前看不见的类的存在。对于更简单的场景，例如P1，在EOS训练期间使用负样本是有利的。虽然这一结果与[6]一致，但BG和EOS在P2和P3中的性能表明，这些方法还没有准备好在现实世界中使用，需要更多的参数调整来提高性能。此外，更好地利用或增加否定类也会带来在开放集方法的进一步研究的挑战为三种不同的协议提供不同的结论，反映了我们在本文中提供的不同难度级别的场景设计展望未来，通过ImageNet上的新开集分类协议，我们的目标是在更接近现实世界的场景中为开集算法而不是使用低分辨率的图像和随机选择的样本从 CIFAR ， MNIST 或SVHN，我们希望我们的开集协议将建立基准，并促进可重复的研究在开集分类。在未来的工作中，我们将研究和优化更多不同的开集算法，并报告它们在我们的协议上的性能。50引用[1] Abhijit Bendale和Terrance Boult。走向开放世界的认可。计算机视觉和模式识别会议（CVPR）IEEE，2015年。[2] Abhijit Bendale和Terrance E.博尔特开放深度网络。计算机视觉和模式识别会议（CVPR）IEEE，2016.[3] 安妮莎·布米克ImageNet上的开集分类。硕士[4] Paul Bodesheim，Alexander Freytag，Erik Rodner，and Joachim Denzler.多类识别问题中的局部新颖性检测。2015年冬季计算机视觉应用会议（WACV）[5] A k sh a y Dhamija ， Ma nuelGuünther ， JonathanVentura，and Terrance E.博尔特被忽视的对象检测大象：开场。 2020 年冬季计算机视觉应用会议（WACV）[6] AkshayR ajDhamija ，ManuelGu？nt her，andTer-rance E.博尔特减少网络不可知恐惧症。神经信息处理系统进展（NeurIPS），2018。[7] Logan Engstrom，Andrew Ilyas，Shibani Santurkar和Dimitris Tsipras。鲁棒性（Python库），2019。[8] 葛宗元，谢尔盖·德米扬诺夫，拉希尔·加尔纳维.生成式OpenMax 用于多类开集分类。英国机器视觉会议（BMVC），2017年。[9] ChuanxingGeng ， Sheng-JunHuang ， andSongcan Chen. 开集识别的最新进展：综述 .Transactions on Pattern Analysis and MachineIntelligence（TPAMI），43（10）：3614[10] 伊扎克·戈兰和兰·亚尼夫。利用几何变换探测深部异常神经信息处理系统进展（NeurIPS），2018。[11] 帕特里克·格罗瑟和花冈嘉仪NIST特殊数据库19手写表格和字符第二版。技术报告，美国国家标准与技术研究院（NIST），2016年。[12] Kaiming He ， Xiangyu Zhang ， Shaoying Ren ，and Jian Sun.用于图像识别的深度残差学习在计算机视觉和模式识别会议（CVPR），2016年。[13] Heinrich Jiang 、 Been Kim 、 Melody Guan 和 MayaGupta。信任或不信任分类器。神经信息处理系统进展（NeurIPS），2018。[14] 亚历克斯·克列日夫斯基和杰弗里·辛顿从微小的图像中学习多层特征。技术报告，多伦多大学，2009年。[15] Balaji Lakshminarayanan ， Alexander Pritzel ， andCharles Blundell.使用深度集成的简单和可扩展的预测不确定性估计。神经信息处理系统进展（NIPS），2017年。[16] Yann LeCun，Corinna Cortes和Christopher J.C.伯吉斯MNIST手写数字数据库，1998年。[17] Ofer Matan，R.K.蒋，C.E.斯特纳德湾Boser，J.S.Denker、D. Henderson，R.E. Howard，W.哈伯德L.D. Jackel和Yann Le Cun。基于神经网络结构的手写体字符识别。1990年美国邮政先进技术会议[18] DimityMiller，LachlanNicholson，FerasDayoub，andNikoSünderhauf. 开集条件下用于鲁棒目标检测的动态输出采样。机器人与自动化国际IEEE，2018年。[19] 乔治·A·米勒WordNet：一个电子词汇数据库。麻省理工学院出版社，1998年。[20] 劳伦斯·尼尔，马修·奥尔森，小丽·弗恩，翁-基恩·王，李福新。用反事实图像进行开放式学习。在欧洲计算机视觉会议（ECCV），2018。[21] YuvalNetzer ， TaoWang ， AdamCoates ，Alessandro Bissacco，Bo Wu，and Andrew Y. Ng.使用无监督特征学习读取自然图像中的数字。神经信息处理系统进展（NIPS）研讨会，2011年。[22] Alec Radford 、 Jong Wook Kim 、 Chris Hallacy 、Aditya Ramesh、Gabriel Goh、Sandhini Agarwal、Girish Sas- try、Amanda Askell、Pamela Mishkin、Jack Clark、Gretchen Krueger和Ilya Sutskever。从自然语言监督中学习可移植的视觉模型。在国际机器学习会议（ICML），2021年。[23] Jie Ren，PeterJ Liu，Emily Fertig，Jasper Snoek，Ryan Poplin，Mark Deprysto，Joshua Dillon，andBal- aji Lakshminarayanan.分布外检测的似然比。神经信息处理系统进展（NeurIPS），2019年。[24] 赖恩·罗迪，泰勒L. Hayes，Ronald Kemker，AyeshaGonzales，Christopher Kanan.开集分类方法对大规模数据集有效吗？PLOS ONE，15（9），2020.[25] 伊森 ·MRudd ， Lalit P.Jain ， Walter J.Scheirer和Terrance E. 博尔特极值机器。 Trans-actions onPatternAnalysisandMachineIntelligence（TPAMI），2017年。[26] Olga Russakovsky，Jia Deng，Hao Su，JonathanKrause ， Sanjeev Satheesh ， Sean Ma ， ZhihengHuang ， Andrej Karpathy ， Aditya Khosla ，Michael Bernstein，et al.图像网大规模视觉识别挑战。 InternationalJournalofComputerVision（IJCV），115（3），2015.[27] WalterJ. Scheirer，Anderson de Rezende Rocha ，Archana Sapkota，and Terrance E.博尔特开放式识别。 Transactions on Pattern Analysis and MachineIntelligence（TPAMI），35（7），2013.[28] Sagar Vaze ， Kai Han ， Andrea Vedaldi ， andAndrew Zissermann.开集识别：一个好的闭集分类器是你所需要的一切吗？在国际会议上学习表示（ICLR），2022年。51[29] Yang Yu，Wei-Yang Qu，Nan Li，and Zimin Guo.通过对抗性样本生成的开放类别分类。在国际人工智能联合会议（IJCAI），2017年。[30] Da-Wei Zhou，Han-Jia Ye，and De-Chuan Zhan.学习开集识别的占位符。在计算机视觉和模式识别会议（CVPR），2021年。

下载后可阅读完整内容，剩余1页未读，立即下载