熵最大化与元分类：一种改善语义分割中超出分布检测的方法

192 浏览量更新于2023-10-15 收藏 13.81MB PDF 举报

熵最大化

语义分割

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

{rchan,rottmann,hgottsch}@uni-wuppertal.de51280熵最大化和元分类用于语义分割中的超出分布检测0罗宾∙陈，马蒂亚斯∙罗特曼和汉诺∙戈特斯哈尔克，韦珀塔尔大学数学与自然科学学院IZMD0摘要0用于图像语义分割的深度神经网络（DNNs）通常被训练来处理预定义的一组对象类别。这与“开放世界”设置形成对比，DNNs被设想部署到其中。从功能安全的角度来看，能够检测所谓的“超出分布”（OoD）样本，即DNN语义空间之外的对象，对于许多应用程序（如自动驾驶）至关重要。一种自然的基准方法是在像素级别的softmax熵上设置阈值。我们提出了一个两步过程，显著改进了这种方法。首先，我们利用COCO数据集的样本作为OoD代理，并引入第二个训练目标，以最大化这些样本上的softmax熵。从预训练的语义分割网络开始，我们在不同的分布数据集上重新训练了一些DNNs，并在完全不相交的OoD数据集上进行评估时一致观察到改进的OoD检测性能。其次，我们执行透明的后处理步骤，通过所谓的“元分类”来丢弃误报的OoD样本。为此，我们将线性模型应用于从DNN的softmax概率派生的一组手工制作的度量标准。在我们的实验中，我们始终观察到OoD检测性能的明显额外增益，将检测错误数量减少了52％，与我们的结果相比，最佳基准。我们在原始分割性能上只有轻微的牺牲。因此，我们的方法有助于更安全的DNN，具有更可靠的整体系统性能。01. 引言0近年来，深度学习在计算机视觉任务语义分割方面取得了显著的进展[47,51]。深度卷积神经网络（CNNs）被设想部署到真实世界的应用中，它们很可能会接触到数据，这些数据与模型的训练数据有很大不同。0基准分割掩模0基准熵热图0我们的分割掩模0我们的熵热图0图1：我们的OoD训练之前（上排）和之后（下排）的分割掩模和softmax熵的比较。虽然分割掩模有细微差异，但由于我们的OoD训练，标注的未知对象（用绿色轮廓标记）在熵热图中变得清晰可见。在热图中，高值为红色，低值为蓝色。0与模型的训练数据有很大不同。我们将不包含在模型语义空间集合中的数据样本视为“超出分布”（OoD）样本。然而，用于语义分割的最先进的神经网络被训练来识别预定义的一组对象类别[13,32]，例如用于自动驾驶环境感知系统[24]。在开放世界设置中，可能出现无数个对象。定义额外的类别需要大量的注释数据（参见[12,52]），甚至可能导致性能下降[15]。一种自然的方法是为不属于任何预定义类别的对象引入“未知”输出[49]。换句话说，我们使用一组对大多数场景足够的对象类别，并通过为这些样本强制执行替代模型输出来处理OoD对象。从功能安全的角度来看，神经网络具备这种能力是一个关键但缺失的先决条件。51290能够可靠地指示它们何时处于适当领域之外，即检测OoD对象，以启动回退策略。由于日常场景中的图像通常包含许多不同的对象，其中只有一些可能是超出分布的，因此了解OoD对象出现的位置对于实际应用是有意义的。因此，我们解决了在图像中检测异常区域的问题，如果存在OoD对象，则为异常分割[5, 20]，这是一个非常感兴趣的研究领域[6,20, 33, 42]。例如，可以通过加入复杂的不确定性估计[3,18]或将一个额外的类添加到模型的可学习类集中[49]来追求所谓的异常分割。在这项工作中，我们使用不同的方法在语义分割中检测OoD对象，该方法由两个步骤组成：第一步，我们重新训练分割CNN，通过强制模型输出高预测不确定性，以预测OoD输入上的低置信度的类标签。为了量化不确定性，我们计算softmax熵，当模型在所有类别上输出均匀的概率分数时，熵最大化[29]。通过故意将注释的OoD对象作为已知未知因素纳入重新训练过程，并使用修改后的多目标损失函数，我们观察到分割CNN将学习到的不确定性推广到未见过的OoD样本（未知未知），而在主要任务的原始性能上几乎没有牺牲，参见图1。语义分割的初始模型是在Cityscapes数据[13]上训练的。作为OoD样本的代理，我们随机选择了来自COCO数据集[32]的图像，但排除了那些在Cityscapes中也可用的实例，参见[19, 22,37]中的相关方法进行图像分类。我们通过熵阈值法评估了来自LostAndFound [42]和Fishyscapes[6]数据集的OoD样本的像素级OoD检测性能。这两个数据集与Cityscapes具有相同的设置，但包含OoD对象。第二步是在段级别上引入一个元分类器，类似于[34, 44,45]中用于检测语义分割中的假阳性实例。在增加对预测OoD对象的敏感性之后，我们旨在消除由前面的熵提升产生的错误预测（参见[9]）。去除假阳性OoD对象预测是基于段（像素的连接组件）内的聚合离散度度量和几何特征，所有信息仅从CNN的softmax输出中派生。作为元分类器，我们采用简单的线性模型，可以跟踪和理解每个度量的影响。总结我们的贡献，我们是第一个成功修改分割CNN的训练方法，使之能够在语义分割中检测OoD对象。0通过使用COCO数据集中特定选择的OoD图像[32]重新训练CNN，我们使其在Lo-stAndFound和Fishyscapes中检测OoD样本的效果明显优于基于普通softmax熵阈值[21]的自然基准方法以及许多图像分类的最新方法。此外，我们首次证明了基于熵的OoD对象预测在语义分割中可以可靠地进行元分类，即无需访问地面真实情况的情况下，可以对是否认为OoD预测是真阳性还是假阳性进行分类。对于这个元任务，我们采用简单的逻辑回归。熵最大化和元分类的结合是一种高效而轻量级的方法，特别适用于基于深度学习的安全关键实际应用的集成监控系统。02. 相关工作0先前的研究方法已经证明了它们在识别图像数据的OoD输入方面的效率。所提出的方法要么是对训练过程的修改[19,22, 29, 31,37]，要么是调整估计的置信度的后处理技术[16, 21,29]。然而，这些方法中大多数将整个图像视为OoD。在考虑到要固定的语义空间时，一种可能的异常分割方法是估计CNN的不确定性，我们在这里也追求这种方法。早期的不确定性估计方法涉及到贝叶斯神经网络（BNNs），可以产生模型权重参数的后验分布[35,40]。在实践中，由于计算成本较低，通常使用蒙特卡洛dropout[18]或随机批归一化[3]等近似方法。在语义分割中使用dropout进行不确定性估计的框架已经在[4,26]中开发出来。模型不确定性的其他方法包括使用神经网络集合[28]，通过对多个模型的预测进行平均来捕捉模型的不确定性，以及通过估计样本相对于训练分布的似然性来进行密度估计[6, 11, 39,43]。基于分类不确定性和仅处理单目图像的语义分割中的OoD检测方法已经在[2, 7, 23, 25, 36,41]中进行了分析。使用BNNs来估计深度神经网络中的不确定性与计算成本过高相关。与单次推理相比，由多个模型或多次前向传递生成的不确定性估计仍然具有较高的计算成本。在我们的方法中，我们将语义分割和OoD检测结合在一个模型中，而不对底层CNN的架构进行任何修改。因此，我们的重新训练方法甚至可以与现有的OoD检测技术结合使用，并可能提高其效率。3. Entropy based OoD Detection51300与我们使用相似训练方法的工作在[6,25]中使用了不同的OoD代理。他们在Cityscapes的未标记对象上训练神经网络作为OoD近似。然而，在我们的实验中，我们观察到Cityscapes中的未标记数据缺乏多样性，因此往往过于特定于数据集。就我们在LostAndFound和Fishyscapes等其他OoD数据集上的实验结果而言，我们观察到这些方法无法推广。此外，与这些工作相比，我们还引入了一个后处理步骤，显著提高了OoD检测性能。另一方面的工作通过整合自编码器[1, 5, 14,33]来检测语义分割中的OoD样本。这种模型只在来自封闭类别集的特定样本上进行训练，假设当输入从未见过的类别时，自编码器模型的性能较差。然后，根据重建质量来识别OoD输入。这种方式不需要OoD数据，除了进一步调整方法的灵敏度。自编码器实际上是深度神经网络本身，通常不包括分割模型。对于实时安全的语义分割目标，例如自动驾驶[24]，更轻量级的方法更有利。我们完全避免了引入深度辅助模型，而只使用了一个轻量级的线性模型。通常情况下，模型越复杂，解释性越差。由于监控系统的目标是使深度学习模型更安全，因此人们寻求更简单、更易解释的方法。我们通过逻辑回归对熵增强的语义分割CNN输出进行后处理，其计算开销可以忽略不计。这个线性模型是透明的，因为它允许我们分析输入模型的每个单一特征的影响，并且在我们的实验中证明了它有效地减少了OoD检测错误的数量。0在本节中，我们通过空间熵热图细化语义分割中OoD像素的检测，提出了我们的训练方法。03. 基于熵的OoD检测0令f(x) ∈ (0, 1)q表示经过某个深度学习模型f：X → (0,1)q处理输入图像x ∈ X后的softmax概率，令q = |C| ∈N表示类别数。为了简洁起见，在本节中我们省略了对图像像素的考虑。我们通过以下方式计算softmax熵：03.1.高熵OoD样本训练0∑j∈Cfj(x)log(fj(x)) (1)0E(f(x)) = - ∑(1/q)log(fj(x)) (1)0L := (1 - 0通过(x, y(x)) � Din，我们表示一个“内分布”示例，其中y(x) ∈C是输入x的真实类别标签，通过x' �Dout，我们表示一个“外分布”示例，其中没有给出真实标签。我们的目标是最小化整体目标L。0其0+ λ Ex'�Dout[ℓout(f(λ ∈ [0, 1] (2)0∑j∈C1j = y(x)log(fj(x)) (3)0ℓin(f(x), y(x)) := -∑(1/q)log(fj(x)) (3)0j ∈ C0ℓout(f(x')) := -∑(1/q)log(fj(x')) (4)0其中指示函数1j = y(x) ∈ {0, 1}等于1，如果j =y(x)，否则等于0。换句话说，对于内分布样本，我们应用常用的经验交叉熵损失，即目标类别的负对数似然。对于外分布样本，我们考虑所有类别上的负对数似然的平均值。通过选择这种外分布损失函数，最小化ℓout(f(x'))等价于最大化softmax熵E(f(x))，参见方程（1）。由于softmax定义意味着fj(x) ∈ (0, 1)和...0对于j ∈ C，由于Jensen不等式，有ℓout(f(x)) ≥log(q)和E(f(x)) ≤ log(q)，当且仅当fj(x) = 1/q � j ∈C时，两个不等式都成立，即如果softmax概率在所有类别上均匀分布，则等式成立。为了控制每个单一目标对整体目标L的影响，包括了期望的内分布损失和期望的外分布损失之间的凸组合，可以通过调整参数λ来调节，参见方程（2）。03.2. 基于熵阈值的语义分割中的OoD对象预测0卷积神经网络对语义分割的softmax概率输出f(x) ∈ (0,1)|Z|×q，x ∈ X � [0,1]|Z|×3可以被视为像素级概率分布，表示模型f根据每个像素z ∈ Z的潜在类别j = 1, ..., q的可能性。让fz(x) ∈ (0,1)q表示像素位置z处的softmax输出，我们在前一节中隐式地考虑了它。在语义分割中，通过图像上的像素级分类损失的平均值进行最小化，参见方程（2）。为了简化起见，我们在下面考虑了像素位置z处的归一化熵¯E(fz(x))，即E(fz(x))除以log(q)。如果像素位置z处的归一化熵¯E(fz(x))大于阈值t ∈ [0, 1]，即z被预测为OoD，则假定一个像素是OoD。0z ∈ ˆZout(x) := {z' ∈ Z : ¯E(fz'(x)) ≥ t} (5)0.00.20.40.60.81.0IoU(k, Zout(x)) > 0⇔ ∃ z ∈ k : ¯E(f z(x)) ≥ t ∧ z ∈ Zout(x) .(6)CFP := {k ∈ K(x) :(k , Zout(x)) = 0} .(7)51310没有进行OoD训练的熵0带有OoD训练的熵0没有进行OoD训练的预测0带有OoD训练的预测0图2：使用我们的OoD训练（底部行）和不使用（顶部行）的softmax熵热图和OoD预测掩码的比较。熵热图中的绿色轮廓标记了OoD对象的注释。通过对熵热图进行阈值处理（在本例中为t = 0.7），得到了OoD预测掩码中的红色像素。0连接组件 k ∈ ˆ K ( x ) � P ( ˆ Z out ( x )) （后者是 ˆ Zout ( x )的幂集）由满足方程（5）中条件的相邻像素组成，给出了一个OoD分割/对象预测。图2中可以看到一个示例。显然，通过熵的方式将内分布像素与外分布像素分离得越好，OoD对象预测的准确性就越高。04. 语义分割中的元分类器0通过训练分割CNN输出均匀的置信度分数，如第3节所述，我们增加了对预测OoD对象的敏感性，以实现对OoD样本的“熵增强”。然而，并不能保证只有OoD样本具有高熵。因此，通过熵增强来检测OoD样本可能会导致相当数量的错误OoD预测，从而产生不利的权衡。在这个背景下，我们将一个完整的OoD对象预测（见第3.2节）视为真正的正样本，如果它与地面实况中的OoD对象的交并比（IoU，[17]）大于零。更正式地说，设 Z out ( x )是根据地面实况标签为OoD的像素位置集合。那么如果0也可以对IoU分数设置更高的阈值，但在这项工作中，我们将每个像素都视为潜在的道路危险，因为这样可以最大程度地减少忽视的OoD对象的数量。0在[9]中已经证明，由于增加了预测敏感性而导致的假阳性可以基于元分类器的决策进行消除，从而实现改进的错误率权衡。这个元分类器本质上是在分割CNN之上添加的二分类模型[34，44，45]。我们通过聚合来自softmax概率的不同像素级不确定性度量（其中之一是熵）来构建每个像素连接组件的手工制作度量标准。熵度量与分割级别的IoU高度相关，因此对元分类器的性能有很大贡献，参见[44]。因此，我们期望在OoD对象上学习的熵最大化能够改善元分类的性能。与现有方法不同，考虑到共享相同类标签的相邻像素作为分割，我们生成超过给定熵阈值 t的分割的度量标准，以适应OoD检测的元分类。此外，在聚合像素级度量时，我们还考虑分割内部和边界之间的方差，而不仅仅是均值。给定softmax输出，我们将进一步的像素级度量整合到元分类器中，包括变异比率 V ( f ( x )) = 1 − f ˆ c ( x ) ，其中 ˆ c = arg max j ∈C f j ( x )，以及概率边界 M ( f ( x )) = V ( f ( x )) + max j ∈C\{ ˆc } f j ( x )。此外，我们还考虑几何特征，如分割的大小或内部和边界之间的比率[44]。这些度量标准作为元模型的输入，将其分类为真正的正样本和假正样本（FP）OoD对象预测，即将k ∈ ˆ K ( x ) 分类为以下集合0C TP := { k ′ ∈ ˆ K ( x ) : IoU ( k ′ , Z out ( x ))> 0 } 和0所述手工制作的度量标准形成了一个结构化的特征数据集，其中行对应于预测的分割，列对应于度量标准。05. 实验设置0我们将Cityscapes数据的语义分割[13]作为原始任务，即我们将Cityscapes视为分布D中的数据。训练集由2975个像素注释的城市街景图像组成。作为原始模型，我们使用由Nvidia训练的最先进的语义分割DeepLabv3+模型，该模型使用WideResNet38骨干网络，并使用公开可用的权重进行初始化，作为我们的基准模型。对于测试，我们在两个数据集上评估OoD检测性能，这两个数据集包含街景图像和意外对象。我们考虑来自LostAndFound测试集[42]的图像，其中包含1203个带有道路和小障碍物注释的图像，以及来自Fishyscapes验证集[6]的30个图像，其中包含从PascalVOC[17]中提取的带注释的异常对象。0.000.050.100.150.200.250.300.350.00.20.40.60.81.00.00.20.40.60.81.051320百分比0配饰0动物0家电0食物0家具0室内厨房室外0人体运动车辆0图3：COCOOoD代理中每个超类的像素相对数量。在OoD训练期间的每个时期，总共随机包含46,751张图像中的297张图像。0在Cityscapes图像中叠加。这两个数据集与Cityscapes具有相同的设置，但包含一些未知的道路对象。0为了执行第3.1节中提出的OoD训练，我们通过COCO[32]数据集中的图像来近似外分布。该数据集包含在日常场景中捕捉到的对象的图像。此外，我们只考虑COCO图像中不包含在Cityscapes中的实例（没有人，没有汽车，没有交通灯等）和具有至少480像素的最小高度和宽度的图像。经过过滤，剩下46,751个图像作为我们的Dout代理。每个类别的像素频率在图3中可视化。我们强调，在我们的OoD训练期间，测试数据中的任何OoD对象都没有被看到，因为我们使用不相交的数据集进行训练和测试，这些数据集最初也是为完全不同的应用程序设计的。所使用的OoD代理是真正的未知未知（塔杆，膨胀的塑料袋，聚苯乙烯等）的混合物，以及在视觉上相似的已知未知（例如测试数据中有狗，并且与OoD代理中有猫的一些视觉特征相似）。将这个COCO子集作为Dout的近似是基于OoD检测的工作[22,37]，其中8000万个小图像[46]作为所有可能图像的代理。0我们使用损失函数根据方程（3）和方程（4）微调DeepLabv3+模型。作为训练数据，我们每个时期随机从我们的COCO子集中抽取297张图像，并将它们混合到所有2,975个Cityscapes训练图像中（外分布与内分布图像的比例为1:10）。我们总共在高度/宽度为480像素的随机正方形裁剪上训练模型的权重参数4个时期，并设置（外分布）损失权重λ=0.9（参见方程（2））。我们使用Adam[27]作为优化器，学习率为10^-5。0内分布外分布0熵0基准OoDT。0(a) LostAndFound0内分布外分布0熵0基准OoDT。0(b) Fishyscapes0图4：（a）LostAndFound和（b）FishyscapesOoD像素的相对像素频率。分别显示了基线模型（即OoD训练之前）和OoD训练之后的不同熵值的密度。小提琴图的内部线表示四分位数。06. 逐像素评估0根据softmax概率，我们计算各个测试数据集中所有像素的归一化熵¯E。这给我们每个像素的异常/OoD分数，我们将其与地面真实异常分割进行比较。为了清晰起见，在本节中，我们将内分布像素称为负类样本，将外分布像素称为正类样本。06.1. 通过曲线下面积进行可分性0根据图4中的小提琴图，我们已经注意到我们的OoD训练对于在更大范围的熵阈值下分离内分布和外分布像素具有有益效果。这些分布对应的大量类别的质量可以更好地分离。此效果可以通过接收器操作特性（ROC）曲线和精确度召回（PR）曲线进一步量化。曲线下面积（AUC）表示可分离程度。AUC越高，可分离性越好。除了基线模型外，我们还包括其他标准OoD检测方法的分数。即MSP [21]，MCdropout [18]，ODIN[31]和Mahalanobis距离[30]。通过比较LostAndFound的ROC曲线（图5（a）左），我们观察到应用OoD训练时相对于基线模型有性能提升。基线曲线表明，在各种固定的假阳性率下，即经过OoD训练后，我们的模型为OoD样本分配了更高的不确定性/熵值，这对于OoD检测是有益的。此外，就所有其他测试方法而言，OoD训练后的熵阈值显示了最佳的可分离程度，通过ROC曲线下面积（AUROC）得分为0.98。我们观察到Fishyscapes也具有相同的效果（图5（b）0.00.20.40.60.81.00.00.20.40.60.81.00.000.250.500.751.000.00.20.40.60.81.00.000.250.500.751.000.00.20.40.60.81.00.000.250.500.751.000.00.20.40.60.81.00.000.250.500.751.000.00.20.40.60.81.0FPR95AUPRCmIoUFishyscapes Val.Cityscapes Val.51330最大Softmax概率蒙特卡洛Dropout ODIN马氏距离基线：熵我们的：OoD训练+熵0假阳性率0真阳性率0ROC曲线0召回率0精确率0PR曲线0（a）LostAndFound（左：AUROC，右：AUPRC）0假阳性率0真阳性率0ROC曲线0召回率0精确率0PR曲线0（b）Fishyscapes（左：AUROC，右：AUPRC）0图5：LostAndFound（a）和Fishyscapes（b）OoD像素的检测能力，分别通过接收操作特征曲线（a和b左）和精确率召回曲线（a和b右）进行评估。红线表示根据随机猜测的性能，即在PR曲线中，红线表示OoD像素的比例。0左图）。从Fishyscapes的小提琴图中可以看出，经过OoD训练后的判别性能似乎已经接近完美。这一点在AUROC为0.99时得到了证实，再次超过了所有其他测试方法。由于AUROC实质上衡量的是负样本和正样本对应的分布重叠程度，这个分数在类别不平衡的情况下不会对某个类别更加强调。由于LostAndFound和Fishyscapes中存在相当强的类别不平衡（分别为0.7％和1.3％的OoD像素），我们还考虑了PR曲线，参见图5（a）和（b）右图。因此，真负样本被忽略，重点转向检测正类（OoD样本）。现在，PR曲线的AUC（AUPRC）用作可分离性的度量。对于LostAndFound和Fishyscapes的OoD像素，经过OoD训练的模型不仅优于基线模型，而且优于任何其他测试方法，无论我们将召回率固定为任何分数。AUPRC量化了这种性能增益，并进一步说明了改进的OoD像素检测能力。关于LostAndFound，OoD训练将AUPRC从基线提高了0.30，达到0.76的分数。关于Fishyscapes，性能提升更为显著。我们将AUC从0.28提高到0.81。我们得出结论，通过AUROC和AUPRC来衡量，我们的OoD训练对于检测OoD样本非常有益。此外，我们还对较弱的DualGCNNet [ 48 ]进行了与DeepLabv3+模型[ 51]相同的实验，该模型在总共11个时期中使用λ =0.25进行了重新训练。我们在表1中报告了所有测试方法的所有基准分数。除了AUPRC之外，我们还提供了在95％真阳性率（FPR 95）下的假阳性率和Cityscapes验证集的平均交集联合（mIoU）。为了进一步比较，我们还包括了基于自动编码器[ 33]和基于密度估计[ 6 ]的方法的分数。0网络架构和OoD得分LostAndFound测试Cityscapes Val.0DualGCN [ 48 ] + 熵 0.30 0.36 0.800我们的：DualGCN + OoD T. + 熵 0.12 0.51 0.760PSPNet [ 50 ] + 图像重构 [ 33 ] N/A 0.41 0.80 DeepV3W + 最大Softmax [ 21 ]0.32 0.27 0.90 DeepV3W + ODIN [ 31 ] 0.45 0.46 0.90 DeepV3W + MCDropout [ 18 ] 0.21 0.55 0.88 DeepV3W + Mahalanobis [ 30 ] 0.27 0.48 0.90基线：DeepV3W [ 51 ] + 熵 0.35 0.46 0.900我们的：DeepV3W + OoD T. + 熵 0.09 0.76 0.890DualGCN [ 48 ] + 熵 0.46 0.07 0.800我们的：DualGCN + OoD T. + 熵 0.21 0.38 0.760DeepV3W + Max Softmax [ 21 ] 0.21 0.17 0.90 DeepV3W + ODIN [ 31 ] 0.120.39 0.90 DeepV3W + MC Dropout [ 18 ] 0.23 0.26 0.88 DeepV3W +Mahalanobis [ 30 ] 0.14 0.55 0.90 基线：DeepV3W [ 51 ] + 熵 0.18 0.28 0.900我们的方法: DeepV3W + OoD T. + 熵 0.05 0.81 0.890Fishyscapes静态1 Cityscapes验证集0DeepV3P [ 10 ] + 图像重构 [ 33 ] 0.27 0.30 0.80 DeepV3S [ 51 ] + 学习密度 [ 6] 0.17 0.62 0.810我们的方法: DeepV3W + OoD T. + 熵 0.09 0.87 0.890表1：LostAndFound和Fishyscapes的结果。06.2. 原始任务性能0为了监控基线模型不会因为OoD训练而忘记其原始任务，我们评估模型在内部分布数据上的性能，使用不同的熵阈值进行OoD预测。原始任务是Cityscapes图像的语义分割，我们使用最常用的性能指标平均交并比（mIoU，[ 17]）进行评估。除了Cityscapes类别预测，通过标准的最大后验概率（MAP）决策准则[ 8 , 38]获得，我们还考虑了额外的OoD类别预测。01 公共基准结果中的第2名: https://fishyscapes.com/results0.00.20.40.60.81.00.800.850.90ε := 1 −�� x∈X�ˆZin(x) ∩ Zin(x)�� x∈XZin(x)��−1(8)0.000.020.040.060.080.10||β||1 / max ||β||10.00Coeﬃcients βiV (f(x))bd51340OoD预测的熵阈值t0基线OoD训练0图6：Cityscapes验证集上在熵阈值t下的平均交并比(mIoU)，虚线红线表示被认为是“可接受”的性能损失（1个百分点）。0如果softmax熵高于给定的阈值t，则预测为OoD。我们计算Cityscapes验证数据集的mIoU，但只对19个Cityscapes类别IoU求平均。作为我们实验中的基线，最先进的DeepLabv3+模型[ 51]在没有OoD预测的Cityscapes验证数据集上达到了mIoU得分0.90（即t=1.0）。通过在OoD输入上进行熵最大化的CNN重新训练，我们观察到改进的OoD-AUPRC得分。这种在检测OoD样本方面的增益伴随着Cityscapes验证mIoU的轻微下降，降至0.89。这两个mIoU得分在阈值t=0.3，...，1.0时保持几乎恒定（偏差小于1个百分点）。一般来说，熵阈值越低，预测为OoD的像素越多。对于t=0.2，这导致性能明显下降，基线模型为0.05，重新训练的模型为0.03。如图6所示，进一步降低阈值会导致更显著的原始性能损失。因此，我们在接下来的熵阈值中至少考虑t=0.3，因为性能损失似乎是可以接受的，特别是考虑到显著提高的OoD检测能力。07. 分段评估0在本节中，我们评估LostAndFound上的元分类性能。分段评估的主要指标是与OoD对象预测相关的FP和FN的数量，参见方程（6）。F1分数F1 = 2TP /（2TP + FP +FN）∈[0, 1]将错误率总结为一个综合得分。由于去除FPOoD预测不应以显著的原始性能损失为代价，参见图7，我们还考虑道路像素的漏检率：0在预测为Z in内的像素位置，并在Zin中标注为内部分布。道路漏检率0仅OoD训练0OoD训练 + 元分类器0图7：OoD训练和元分类后，t =0.5的OoD检测。绿色轮廓标记了OoD对象的注释。根据地面真实情况，背景中的OoD预测被忽略（即使已经检测到了垃圾箱）。0-0.080-0.060-0.040-0.020E(f(x))0Var[M(f(x))int]0f人(x)0f汽车(x)0f交通标志(x)0Var[V(f(x))int]0f杆(x)0E(f(x))intVar[E(f(x))int]0相对大小f摩托车(x)0图8：具有OoD训练和熵阈值t =0.3的元分类器的最小角回归。显示了最先激活的12个特征。后缀int和bd分别指的是度量在片段的内部和边界上的限制。有关度量的描述，请参见第4节。0ϵ衡量了整个数据集中被错误识别的实际道路像素的比例。我们按照第4节中所述计算OoD对象在LostAndFound测试集中的每个片段的度量，并将其通过元分类模型进行处理，我们的实验中始终使用简单的逻辑回归模型。然后，我们通过留一交叉验证来确定它们是TP还是FP，参见方程（7）。通过最小角回归，我们分析对元分类的影响最大的度量。分析显示，在OoD训练之后，熵度量E(f(x))具有最大的影响力，例如，当t =0.3时，参见图8。一般来说，熵阈值越高，预测的OoD对象越少，因此通过线性模型传递的数据也越少。这解释了观察结果，即元分类器在t较低时更可靠地识别FP。由于我们的OoD训练，元分类器在t =0.7时表现得更加有效。在我们的实验中，OoD训练结合t =0.3的元分类在OoD检测方法中表现最好，总共只有598个错误，F1 = 0.82，同时具有较低的道路漏检率。0100200300400500250500750100012501500nd51350熵基线基线 OoD训练 OoD训练阈值 + 元分类器 + 元分类器0¯ E ≥ t FP ↓ FN ↓ F 1 ↑ ε in % ↓ FP ↓ FN ↓ F 1 ↑ ε in % ↓ FP ↓ FN ↓ F 1 ↑ ε in % ↓ FP ↓ FN ↓ F 1 ↑ ε in % ↓0t = 0.10 33,584 77 0.09 7.60 386 314 0.80 3.24 21,967 99 0.12 5.22 245 302 0.83 2.70 t = 0.20 19,456 136 0.13 2.48 454 307 0.78 0.93 17,000 127 0.15 2.14271 303 0.83 0.180t = 0 . 30 7,349 218 0.28 0.38 412 302 0.79 0.09 8,068 191 0.26 0.30 290 308 0.82 0.06 t = 0 . 40 3,214 377 0.42 0.08 280 435 0.77 0.03 4,035 289 0.39 0.11251 359 0.81 0.03 t = 0 . 50 809 662 0.58 0.01 94 686 0.71 < 0.01 1,215 415 0.60 0.04 145 447 0.80 0.02 t = 0 . 60 158 1,084 0.69 < 0.01 26 1,093 0.50 <0.01 327 613 0.69 0.02 49 619 0.76 0.02 t = 0 . 70 10 1,511 0.16 < 0.01 3 1,512 0.16 < 0.01 135 879 0.61 0.01 21 881 0.63 0.010表2：不同熵阈值t下LostAndFoundOoD对象的检测错误。我们将道路漏检率ε（参见方程（8））作为原始性能损失的进一步衡量指标（对于CityscapesmIoU，请参见图6）。在水平线以下，即t ≥ 0.3，我们认为原始性能的损失是可以接受的，有关详细信息，请参见第6.2节。0# FPs OoD片段0#FNsOoD片段0基线基线+元C.OoD训练 OoD T. +元C.0图9：LostAndFoundOoD对象的检测错误。在此图中，显示了当t =0.7，...，0.3时的错误数量（当在轴的范围内时）。饼图标记了道路漏检率ε，如果ε ≥0.001，则完全为红色。有关确切数字，请参见表2。0熵基线+MSP [21]基线+元C. OoD T. +元C.阈值t AUROC AUPRC AUROC AUPRCAUROC AUPRC0t = 0.10 0.8509 0.9817 0.9894 0.9993 0.9915 0.9993 t = 0.20 0.6470 0.91190.9859 0.9980 0.9898 0.99800t = 0.30 0.5333 0.7376 0.9742 0.9884 0.9847 0.9953 t = 0.40 0.3847 0.46710.9715 0.9740 0.9808 0.9807 t = 0.50 0.4172 0.2286 0.9628 0.9214 0.96650.9536 t = 0.60 0.4906 0.1228 0.9291 0.7252 0.9511 0.8405 t = 0.70 0.59320.1334 0.9140 0.5283 0.9444 0.71850表3：在不同熵阈值t下的元分类性能。与元分类器相比，我们还包括通过最大softmax概率（MSP，[21]）检测OOD预测错误。0微小地0.06％，另请参见图9。与t = 0.6，F1 =0.69的最佳基准相比，我们将总错误数从1,242减少了52％，从1,084减少到598。更重要的是，同时我们将被忽视的OOD对象数量从1,084减少了70％，从308减少到308。不同熵阈值t的检测错误数，F1分数和道路漏检率ε的数量总结在表2中。FP OoD去除效率在表3中给出。08. 结论与展望0在这项工作中，我们提出了一种新颖的深度神经网络重新训练方法，将改进的OOD检测能力和最先进的语义分割结合在一个模型中。到目前为止，只有很少的先前工作分别针对LostAndFound和Fishyscapes上的异常分割。我们证明了我们的OOD训练通过softmax熵阈值化显著提高了检测效率，从而在现有的OOD检测方法上实现了更优越的性能。此外，我们引入了基于熵的OOD对象预测的元分类器。通过应用轻量级逻辑回归，我们已经证明了整个LostAndFound的OOD段可以可靠地进行元分类。这个观察结果已经适用于测试的CNN的普通版本。由于通过熵最大化增加了OOD预测的敏感性，元分类器的效率更加显著。鉴于新兴的安全关键的深度学习应用，OOD训练和元分类的结合有可能显著提高整个系统的性能。对于未来的工作，我们计划应用OOD训练来检索OOD对象，以评估其出现的重要性以及是否需要学习新的概念。我们的代码可以在https://github.com/robin-chan/meta-ood上公开获取。0致谢。这些结果的研究由德国经济事务和能源部资助，项目名称为“KI Absicherung -自动驾驶的安全AI”，资助号为19A19005R。作者们要感谢联合体的成功合作。作者们还要感谢高斯超级计算中心（https://www.gauss-centre.eu）通过Jülich超级计算中心（JSC）的GCS超级计算机JUWELS提供计算时间来资助这个项目。51360参考文献0[1] Samet Akc¸ay, Amir Atapour-Abarghouei, and Toby PBreckon. Skip-ganomaly:跳过连接和对抗训练的编码器-解码器异常检测。在2019年神经网络国际联合会议（IJCNN）上，第1-8页。IEEE，2019年。30[2] Matt Angus, Krzysztof Czarnecki, and Rick Salay.像素级OO

下载后可阅读完整内容，剩余1页未读，立即下载