没有合适的资源?快使用搜索试试~ 我知道了~
80魔鬼在边缘:用于网络校准的基于边缘的标签平滑Bingyuan Liu1*,Ismail BenA yed1,Adrian Galdran2,Jose Dolz11E'TSMontreal,Canada2Univ ersitatPompeuFabra,巴塞罗那,西班牙摘要尽管深度神经网络的性能占主导地位,但最近的研究表明,它们校准得很差,导致过度自信的预测。由于训练期间交叉熵的最小化,过度拟合可能会加剧误校准,因为它会促进预测的softmax概率与单热标签分配匹配这会产生正确类的pre-softmax激活,该激活明显大于其余激活。来自文献的最新证据表明,嵌入预测熵的隐式或显式最大化的损失函数我们提供了一个统一的约束优化的角度来看,目前国家的最先进的校准损失。具体而言,这些损失可以被视为对logit距离施加等式约束这指出了这种潜在的等式约束的重要限制,其随后的梯度不断地推向无信息的解决方案,这可能会阻止在基于梯度的优化期间达到模型的区分性能和校准之间的最佳折衷根据我们的观察,我们提出了一个简单而灵活的推广的基础上不等式约束,它施加了一个可控的利润率的logit距离。在各种图像分类、语义分割和NLP基准测试上的综合实验表明,我们的方法在网络校准方面为这些任务提供了新的最先进 的 结 果 , 而 不 会 影 响 判 别 性 能 。 该 代 码 可 在https://github.com/by-liu/MbLS上获得。1. 介绍随着深度神经网络(DNN)的出现,我们已经见证了不同领域的各种计算机视觉和NLP任务的*通讯作者:bingyuan. etsmtl.ca例如图像分类[12]或语义分割[3]。然而,最近的研究[8,21]表明,这些高容量模型校准不良,往往导致过度自信的预测。因此,与每个类别相关联的预测概率值高估了正确性的实际可能性。量化现代DNN的预测不确定性最近受到了越来越多的关注,有各种替代方案可以更好地校准网络输出。一个简单的策略是在测试阶段包括一个后处理步骤,以转换训练网络的输出[5,8,28,32],并在验证集上确定此附加操作的参数。尽管这些方法简单,计算成本低,但当训练和测试数据来自同一分布时,这些方法被证明是有效的。然而,他们观察到的局限性之一是,转换参数的选择,如温度缩放,是高度依赖于数据集和网络。一个更有原则的替代方案是通过将一个项集成到学习对象中来显式地最大化训练期间预测的香农熵,这会惩罚置信输出分布[25]。此外,最近量化预测不确定性质量的努力集中在研究熵对训练标签的影响[21,22,31]。这些工作的结果证明,修改硬标签分配的流行损失,如标签平滑[27]和焦点损失[17],隐含地整合了熵最大化目标,并对模型校准产生了有利的影响如[21]中最近的研究所全面显示的,这些损失,以及熵的隐式或显式最大化,代表了模型校准的最新技术水平。捐款概述如下:• 我们提供了一个统一的约束优化的角度来看,目前国家的最先进的校准损失。具体而言,这些损失可以被视为对logit距离施加等式约束的线性惩罚(或拉格朗日项)的近似。这是一个重要的限制,这种基本的-81i=1∈ Y硬等式约束,其随后的梯度不断地推向非信息解,这可能阻止在基于梯度的优化期间达到模型的区别性能和校准之间的最佳比较。• 根据我们的观察,我们提出了一个简单而灵活的推广的基础上不等式的约束,这对logit距离施加了一个可控的余量。• 我们在两个标准图像分类基准(CIFAR-10和Tiny-ImageNet),一个细粒度图像分类数据集(CUB-200-2011 ) , 一 个 语 义 分 割 数 据 集 ( PASCALVOC 2012)和一个NLP数据集(20个新闻组)上提供了全面的实验和消融研究,具有各种网络架构。我们的实证结果表明,我们的方法相比,最先进的校准损失的优越性。我们的研究结果表明,对于复杂的数据集,如细粒度的图像分类,我们的基于边缘的方法产生了实质性的改进,在校准方面。2. 相关工作后处理方法。一个简单而有效的策略来减轻错误校准的预测是包括一个后处理步骤,该步骤转换深度网络的概率预测[5,8,28,32]。在这些方法中,温度缩放[8]是Platt缩放[26]的一种变体,在所有预softmax激活中使用单个标量参数尽管它在域内样本上表现良好,[24]证明了温度缩放在数据分布偏移下不起作用。[28]通过在执行事后校准步骤之前转换验证集来减轻这种在[20]中,引入了排序模型来改进后处理模型校准,而[5]使用简单回归模型来预测推断阶段的温度参数。概率和非概率方法。还研究了几种概率和非概率方法来测量深度神经网络中预测的不确定性。例如,贝叶斯神经网络已被用于通过学习网络参数上的后验分布来近似推理,因为在深度网络中获得精确的贝叶斯推理在计算上是难以处理的这些贝叶斯-这产生了改进的判别性能,以及有意义的预测不确定性,减少了误校准。生成集成的常见策略包括模型超参数的差异[30],网络参数的随机初始化和数据点的随机洗牌[13],Monte-Carlo Dropout [7,33],数据集移位[24]或模型正交性约束[15]。然而,这种策略的主要缺点源于其高计算成本,特别是对于复杂模型和大型数据集。明确和隐含的惩罚。在完全监督学习范式下训练的现代分类网络诉诸于作为二进制独热编码向量提供的训练标签。因此,所有概率质量被分配给单个类别,导致最小熵监督信号(即,熵等于零)。当网络被训练成遵循这种分布时,我们隐含地迫使它过度自信(即,以实现最小熵),从而惩罚预测中的不确定性。虽然温度缩放人为地增加了预测的熵,[25]但在学习目标中包含了一个术语,通过显式地最大化熵来惩罚置信输出分布。与直接在预测概率分布上处理过度自信相反,最近的工作研究了熵对训练标签的影响。[31]的作者探索了添加标签噪声作为正则化,其中受干扰的标签向量通过遵循广义伯努利分布生成。标签平滑[27]成功地提高了深度学习模型的准确性,已被证明可以隐式地校准学习的模型,因为它可以防止网络将全概率质量分配给单个类,同时保持地面真实类和其他类的logit之间的合理距离[22,25]。最近,[21]证明了焦点损失[17]可以使均匀分布和softmax预测之间的Kullback-Leibler(KL)发散最小化,从而增加预测的熵事实上,如[21,22]所示,标签平滑和焦点损失都使网络输出概率更加规则化,使其分布接近均匀分布。据我们所知,并且如[21,22]中的最近研究中的实验所示,嵌入预测熵的隐式或显式最大化的损失函数产生最先进的校准性能。3. 预赛让我们将训练数据集表示 为D(X,Y) 为基于模型包括变分推理[2,18],随机-{(x(i),y(i))}N,其中x(i)∈ X <$R<$i表示tic expectation propagation [10] or dropout variableinterference [7].包围学习是一种流行的非参数替代方法,其中网络预测的经验方差被用作不确定性的近似度量。第i个图像,空间图像域,以及其对应的具有K个类别的地面实况标签,作为独热编码提供。给定输入图像x(i),由θ参数化的神经网络生成logit向量,82∈s=(s)∈R;s=K≤≤Klexp∈KPPP≥P∈L=− ylogsLSΣ∈KJKKKJJKLSK定义为fθ(x(i))=l(i)RK.为了简化符号,我们省略样本索引,因为这不会导致歧义,并且仅使用l=(lk)1≤k≤KRK来表示logit向量。 请注意,logit是softmax概率的输入网络的预测,其计算为:Kexplkk1kKkJJ预测的类别被计算为y=argmaxk sk,而预测的置信度是g iv en,由p=maxksk 计 算。校准模型。完美校准模型是指每个样本的预测置信度相等的模型精度为y:p=P(y=y|p),其中yde-这对应于非信息性softmax预测s k=1k。4.2.约束优化在一般的约束优化[1]中,软罚函数被广泛用于处理硬等式或不等式约束。对于序列中的讨论,请特别考虑以下硬等式约束:d(1)=0(2)软惩罚优化器的一般原理是替换等式中形式的硬约束。2加入将附加项P(d(l))添加到主目标函数中-注意真实的标签。因此,过度自信的模型往往会产生大于其准确性的预测置信度,而信心不足的模型显示出比模型准确性更低的置信度DNN的错误校准。交叉熵(CE)损失是全监督区分深度模型的标准训练目标当所有训练样本的预测与硬(二进制)地面实况标签匹配时,CE达到其最小值当k是样本的地面真值类时,sk= 1,否则sk= 0。最小化CE隐式地将softmax向量s推向单纯形的顶点,从而放大了最大的logitmaxk(lk)和其余的logit,产生-应尽量减少。 软惩罚应该是一种持续的-连续的和可微的函数,当满足约束时达到其全局最小值,即,它验证:(d(l))(0)lRK。因此,当约束被违反时,即,当d(l)偏离0时,惩罚项增大标签平滑。除了提高深度神经网络的区分性能外,最近的证据[19,22]表明标签平滑(LS)[27]对模型校准产生了积极影响特别地,LS用平滑参数α修改硬目标标签,使得原始的独热训练标签y∈{0,1}K变为yLS=(yLS) 1≤k≤K,其中yLS=y k(1−α)+α。然后,过度自信的预测和错误校准的模型。我们只需最小化modi之间的交叉熵fied标签和网络输出:4. 校准的约束优化观点k k=−((1−α)ykk kα+)logskK在本节中,我们提出了当前深度网络校准方法的一种新的约束优化视角,表明现有策略,包括标签平滑(LS)[22,27],焦点损失(FL)[17,21]和显式置信惩罚(ECP)[25],对logit距离施加了相等的具体来说,它们嵌入显式或隐式惩罚函数,将所有logit距离推到零。(三)其中α[0,1]是平滑超参数。 这是简单的验证,交叉熵与拉贝尔平滑方程。3可以被分解为标准交叉熵项,该标准交叉熵项用均匀分布u=1和softmax预测之间的Kullback-Leibler(KL)散度来增强cα4.1. Logit距离让我们首先定义logit距离的向量,其中cLLS= LCE+1 − α DKL(u||(4)获胜类和其余类为:d(l)=(max(lj)−lk)1≤k≤K∈RK(1)注意,d(l)中的每个元素都是非负的。在下文中,我们证明了LS、FL和ECP对应于不同的软罚函数,用于施加相同的硬相等约束d(l)=0或等价地施加不等式=表示等于加法和/或非负乘法常数。现在,考虑等式约束d(l)=0的线性罚函数(或拉格朗日函数)与等式2中的KL散度之间的以下边界关系。4.第一章1.提案约束d(l)= 0的线性罚函数(或拉格朗日项)由DKL(u)从上到下有界||s),直到添加剂常数:约束d(l)≤0(因为d(l)根据定义是非负的C c很明显,强制执行这种平等约束将导致给定样本的所有K个DKL(u||s)−lo g(K)≤1<$(max x(l)−l)≤DKL(u||个)K83最大(l)≤loge≤max(l)+log g(K)。为了kkkD−KHΣ−HK ∀≤C其中,≤表示不等于一个加法常数。这些边界关系可以直接从softmax和KL表达式中获得,以及LogSumExp函数的以下众所周知的属性KLKK有关证明的详情,请参阅附录A。Prop.1意味着LS(近似)优化对数距离约束d(l)=0的线性惩罚(或拉格朗日),这鼓励所有对数相等;参见图1左上角的插图。病灶丢失。另一种流行的校准替代方案是焦点丢失(FL)[17],它试图通过将训练注意力引导到每个小批次中置信度较低的样本来缓解CE中的过度拟合问题更多骗局-Logit距离Logit距离保证金保证金Logit距离Logit距离最后,作者提出了对CE使用一个调节因子(1sk)γ,它控制了简单和困难示例之间的权衡。最近,[21]证明了焦点损失实际上是CE上的一个上界,该上界被一个隐含地充当最大熵正则化子的项所增强:LFL=−<$(1−sk)γyklogsk≥LCE−γH(s)(5)K图1.施加对数距离约束的线性(左)和基于边距的(右)惩罚的图示,以及相应的导数。对于施加约束d(l)=0,将所有logit距离推到零;参见图1,左上角。显然,以一种艰难的方式强制执行这一约束会产生一个非信息性的解决方案,其中所有类都具有完全相同的logit,因此,同类预测:sk =1K。 虽然这个微不足道的其中γ是超参数,表示softmax预测的香农熵,由下式H(s)=−sklog(sk)K在这方面,FL与ECP密切相关[25],ECP明确地将负熵项(s)添加到训练目标中。值得注意的是,最小化预测的负熵相当于最小化预测与均匀分布之间的KL偏差,直到加性常数,即,C−H(s)= D KL(s||u)这是方程中KL项的反向形式。4.第一章因此,总而言之,并且根据Prop.1和上面的讨论,LS、FL和ECP可以被视为用于施加相同的对数距离等式约束d(l)=0的不同惩罚函数。这激发了我们对logit距离约束的基于边缘的概括,我们将在下面的部分中介绍,以及对其理想属性的讨论(例如,梯度动力学)用于校准神经网络。4.3.基于边缘的标签平滑(MbLS)我们之前的分析表明,从约束优化的角度来看,LS,FL和ECP密切相关,并且它们可以被视为线性惩罚的近似当使用软惩罚(如在LS、FL和ECP中)与CE联合使用时,在实践中没有达到解决方案,我们认为潜在的等式约束d(l)=0具有重要的限制,这可能会阻止在基于梯度的优化期间达到模型的区分性能和校准之间的最佳图1(左)说明了这一点:在图的左上角,对于约束d(l)=0的线性惩罚,相对于logit距离的导数是严格的正常数(左下),在训练期间产生一个梯度项,该梯度项不断推向平凡的、无信息的解d(l)=0(或等效地sk=1K)。为了解决这个问题,我们建议用更一般的不等式约束d(l)m来代替等式约束d(l)=0,其中m表示K维向量,所有元素都等于m >0.因此,我们在惩罚中包含一个marginm,以便在优化主要学习目标时,d(l)中的logit距离允许低于m最小 LCEs. t.d(l)≤m,m>0(6)添加严格正的裕度m背后的直觉是,与约束d(l)=0的线性惩罚不同(图1,左),梯度仅在距离高于裕度的那些logit上反向传播(图1,右)。这与线性惩罚相反,线性惩罚总是存在梯度,并且其值在所有logit上都是相同的,而不管它们的距离如何。处罚衍生物处罚衍生物84Σm||− |N∈∈JJ一组样本,其预测置信度属于第mbin,其中间隔为[i-1,i]。其次,准确性1(yi=yi)MECE= Σ |B||A − C|(八)尽管在Eq. 6可以通过拉格朗日乘子算法求解,我们通过ReLU函数诉诸于更简单的无约束近似:预测置信度和模型准确度之间的预期绝对差:Ep[P(y=yp)]p]。在实践中,一个近似的估计是用来计算ECE给定的有限数量的样本。具体来说,我们将max(0,max(l)−lK-m)(7)的预测到M等间距b ins.设Bm指这里,不等式约束≤的B是:A=1MMMM得双曲余切值.是d(l) m阻止logit距离超过a给定裕度m,λ是平衡指标功能同样,Bm的平均置信度为定义为箱中所有样本的平均置信度:两个任期。很明显,正如在SEC中所讨论的那样4、若干有竞争力的校准方法可以被视为近似,C=1|BM|i∈Bm 我的朋友。因此,ECE可以近似为用于施加约束d(l)=0的images,并且因此对应于当将裕度设置为m= 0时我们的方法的特殊情况。我们在下一节中的综合实验清楚地证明了引入严格正的裕度m的好处。请注意,我们的模型在Eq. 7有两个超参数m和λ。我们将λ固定为0。1在我们所有的实验中,对各种问题和基准测试,并调整了只有边际m超过验证集。通过这种方式,当与现有的校准解决方案进行比较时,我们使用相同的超参数优化预算(我们的方法中的m与LS中的α或FL中的γ5. 实验数据集。我们的方法在各种流行的图像分类基准上进行了验证,包括两个标准数据集CIFAR-10[11]和Tiny-ImageNet[4] , 以 及 一 个 细 粒 度 数 据 集 CUB-200-2011[29]。这些任务之间的主要区别在于,细粒度视觉分类侧重于区分难以区分的对象类别,通常是从子类别,例如鸟类或花卉,而传统数据集包含更一般的类别,即,这是狗还是车?为了显示我们的方法的普遍适用性,我们还在一个著名的分割基准PASCALVOC 2012[6]上对其进行了评估最后,我们在20个新闻组数据集[14]上进行了实验,这是一个流行的自然语言处理(NLP)文本分类基准有关每个数据集的详细描述,请参见附录B建筑。我们使用ResNet [9]进行图像分类任务,使用DeepLabV3 [3]进行语义分割。关于NLP识别任务,我们训练了全局池CNN(GPool-CNN)架构[16],如下[21]。为了进行公平的比较,我们在所有基准和模型中使用相同的设置。我们建议读者参考附录B,以获得训练设置的详细描述。指标. 为了评估校准性能,我们重新排序为文献[21]中的标准度量:预期校准误差(ECE)[23]。此指标表示的绝对差值的加权平均值,每个bin的准确度和置信度:MMMM在我们的实现中,仓的数量被设置为M= 15。我们还考虑了自适应ECE(AECE),其中计算箱大小以将样本均匀分布在箱中。为了衡量分类模型的区分性能最后,采用平均交大于并(mIoU)来衡量分割性能.基线。除了交叉熵(CE)之外,我们还评估了相关工作 的性 能 ,包 括标 签 平滑 (LS )[27], 焦点 损 失(FL)[17]和[25]中的显式置信惩罚(ECP)。此外,我们还包括了[21]中最近的自适应样本相关聚焦损失(FLSD)的结果,该结果提供了极具竞争力的校准性能,并提倡将FL用于校准1。为了设置不同方法的超参数,我们采用了最近文献[21,22]中报道的值。 更准确地说,LS中的平滑因子α被设置为0。05,FL中的γ被设置为3,并且FLSD中的调度γ对于s k[0,0. 2)和3对于s k[0. 2,1)(k是给定样本的正确类)。最后,我们根据经验将ECP中的平衡超参数设置为0。1,因为它在我们的实验中带来了一致的性能。我们的方法。所提出的方法只有一个超参数m(我们保持λ固定为0。1,使得标签平滑项具有与其他方法相同的超参数预算)。至于边际m,它是根据每个数据集的验证集选择的,这在不同的任务中产生了相对稳定的边际值,并且在验证和测试数据中具有一致的行为(见图2):在CIFAR-10和20 Newsgroup上m= 6,在 Tiny-Imagenet , CUB-200-2011 和 PascalVOCSegmentation上m= 10。请注意,我们进行消融研究,以评估不同的m的影响。1事实上,最初设计用于物体检测,FL在最近的研究[21]之前未用于校准。KMM|B|i∈B185表1.两种流行的图像分类基准上不同方法的校准性能每个数据集使用两个模型最好的方法用粗体突出显示,而第二好的方法用下划线表示。数据集模型CE ECP[25]LS[27]FL[17]FLSD[21]Ours(m=0)OursECE AECE AECE AECE AECE ECE ECE ECE ECE ECE ECE AECETiny-ImageNet R-50 3.733.69 4.00 3.92 3.17 3.16 2.96 3.12 2.91 2.952.502.581.64 1.735.1. 结果标准图像分类基准。我们首先在两个著名的图像分类数据集上评估基线和拟议模型的校准行为,其结果见表1。特别是,我们证明了训练一个具有硬目标的模型,即,CE,导致跨数据集和骨干架构的错误校准预测此外,通过惩罚低熵预测,或者明确地(即,ECP[25])或隐式(即,LS [27],FL [17]和FLSD [21]),我们通常振动表2.两个流行的图像分类基准的分类性能。最好的方法用粗体突出显示,而第二好的方法用下划线表示。在每种情况下,最佳方法的差异将突出显示在两列中数据集模型CEECPLSFLFLSD我们的(m=0)我们AccAccTiny-ImageNetR-5065.02 64.98 65.78 64.09 65.15 -0.6364.74-1.04R-101 65.62 65.69 65.87 62.96 65.72 -0.1565.81-0.06转轴-5093.20 94.75 94.87 94.77 94.76 -0.4995.25+0.38训练更好的校准网络。直观地说,这些方法添加的正则化项与主CIFAR-10R-101 93.33 93.35 93.23 92.38 95.36+0.2395.13-0.23交叉熵目标,在一定程度上控制预测的置信因此,即使不同方法的影响在数据集上不同,校准性能通常也比标准交叉熵训练有所提高。最后,我们可以观察到,我们的模型的两个版本在几乎所有情况下都产生了最好的结果,只有一个设置在所有模型中排名第二。此外,当包括利润率时,即,m >0,激励了它的使用,这表明我们的方法提供了更好的校准网络。一个有趣的观察结果是,虽然现有的模型对所采用的主干非常敏感,但我们的模型提供的预测不确定性估计相当稳健,在不同架构之间呈现出最小的。例如,当在CIFAR-10上使用更高容量的主干时,所有现有方法的校准标准都大大降低(ECP [25]:+2.4,LS [27]:+0.77,FL [17]:+0.7,FLSD:[21]:+0.74),而用我们的方法校准的模型会发生微小的变化(我们的:+0.22)。有关型号的可靠性图表,请参见附录F。在判别性能方面(表2),我们可以观察到,一方面,MbLS产生与LS和CE相当的性能,有时被评为最佳方法。另一方面,FL及其变体FLSD获得最差的结果,性能差距比所提出的模型低1-3%这些结果表明,在用于校准的标准图像分类基准中,我们的模型实现了最佳的校准性能,而它保持或提高了对校准研究的最新分类损失的区分细粒度图像分类。现在,我们研究在更复杂的情况下的校准和判别性能。特别是,在前一节中,我们讨论了在明显不同的类别中各种方法的行为,而在本研究中,我们包括了一个共同的上级类别的下级类别这种设置可以说更具挑战性,主要是由于难以找到信息区域和提取跨子类别的区分特征本研究的结果见表3。与之前的结果一致,用硬编码标签训练的网络会导致过度自信的网络。显式惩罚低熵预测,即,ECP [25],或隐含地与LS一起使用,可以获得更好的校准和更高的性能模型。然而,如果使用FL及其变体FLSD进行训练,则校准和分类性能都会下降,从而导致跨模型的最差结果。这表明,尽管FL最近在标准基准上表现出非常有竞争力的工作[21],但其校准优势可能在更复杂的数据集上消失。最后,用提出的MbLS方法训练的网络获得了最好的校准和分类性能,与现有的方法相比有显着的差距。请注意,为了公平起见,用于所有模型的超参数,包括我们的方法,与上一节中用于Tiny-ImageNet的超参数相同。边际效应m。在这一节中,我们研究了方程中裕度m的影响。7,如图2中的验证和测试数据所示。特别是,我们展示了两个数据集上校准和分类指标的演变,这两个数据集在输入维度上有很大R-1014.974.974.684.662.202.212.552.444.914.911.891.951.62一点六八CIFAR-105.855.843.012.992.793.853.903.863.843.603.724.291.163.18R-1015.745.735.415.403.564.684.604.584.584.573.073.971.38三点二五86表3.以ResNet-101为主干的细粒度图像分类基准CUB-200-2011方法ACC欧洲经委AECECE73.096.756.65[25]第二十五话73.515.555.44LS [27]74.515.165.14佛罗里达州[17]72.878.418.39[21]第二十一话72.598.548.53我们的(m=0)73.925.115.29我们74.562.782.63保证金保证金图2. 评估裕度(m)的影响。我们在CIFAR-10(上图)和Tiny-ImageNet(下图)上展示了不同边缘值下的ECE和准确度的变化。本研究中使用的网络是ResNet-50和λ,7设置为0.1。ality这些实验的目的是证明该方法相对于裕度值的稳健性,并显示验证和测试数据的最佳裕度值之间的一致性尽管最佳m可能在不同的数据集上不同,但m的不同选择不会显著影响性能。事实上,我们可以观察到两个数据集的性能趋势首先,施加小的裕度值对校准具有负面影响m= 0)。一旦获得最佳m,与最佳模型相比,较大的值会导致校准网络稍微最差。然而,即使我们选择了一个用次优裕度训练的网络,其校准性能仍然超过了最先进的校准损失。例如,当m= 20时,ECE在CIFAR-10和Tiny-ImageNet中分别等于3.05和2.99,而LS得到2.79和3.17,FL得到3.90和2.96。这表明我们的方法能够带来至少与当前文献相当的改进,甚至不需要在验证集上调整M表4. 我们的方法在没有边缘(m=0)和标签平滑(LS)的情况下在ResNet-50的Tiny-ImageNet上给出了等效权重LS中的方法α(等式4)/λin Ours(Eq. 第七章)0(CE)0的情况。050的情况。10的情况。20的情况。3欧洲经委会LS [27]3.733.176.5312.0518.04我们的(m= 0)3.732.507.7014.4821.93[27]第二十七话65.0265.7865.0265.3965.60我们的(m= 0)65.0265.1565.4365.1466.02与标签平滑等效。 中提出不同损失之间的理论联系,标签平滑近似于当m等于0时所提出的损失的特定情况。表1和表3经验性地表明,LS和我们(m=0)的结果在所有情况下几乎是一致的。注意,我们遵循LS中的最佳实践,将我们的λ(m=0)中的等效平衡权重设置为0。05在上述实验中为了进一步从经验上验证这一观察结果,我们逐渐增加LS(α)和我们的方法(λ)中的控制超参数。结果示于表4中。可以看出,通过改变LS和我们的方法中的主交叉熵和惩罚之间的相对权衡权重,我们可以获得类似的趋势和分数,特别是对于平衡项的较小值。图像分割的结果。分割perfor- mances对流行的PascalVOC数据集的报告在表5中。我们可以观察到,无论骨干网络,所提出的方法导致最好的校准和最高性能的模型,这是一致的,与以前的实验中的经验观察。当使用更高容量的模型ResNet-50作为骨干网络时,所提出的方法和现有文献之间的差异被进一步放大。这些观察结果表明:i)我们的方法预测的概率值是正确性的实际可能性的更好估计,ii)当增加模型容量时,其校准性能不会降低。此外,分割任务的几个视觉结果如图3所示。特别是,我们显示了每种方法的置信度图(a)和可靠性图(b)我们可以观察到,所提出的模型提供了最好的可靠性图,因为ECE曲线更接近对角线。这表明预测概率是预测正确性的良好估计。至于置信图,可以观察到几个有趣的事实。首先,通过我们的方法获得的置信度图显示出更好的边缘锐度,与模型应该不太自信的预期属性相(b)Tiny-ImageNet(a)CIFAR-10阿、中、中英、中、英阿、中、中英、中、英87((欧洲经委会=欧洲经委会=欧洲经委会=欧洲经委会=图像GTCE LS FL我们的(一)(b)第(1)款信心信心信心信心信心信心信心信心图3. 语义分割的可视化结果。我们从PASCAL VOC 2012验证集的定性分割结果中给出了几个例子,显示了我们的方法在校准性能方面的优越性。在左边,我们给出了带有地面实况(GT)掩模的原始图像,然后我们给出了置信图(a)和可靠性图(b)以及每种方法的ECE(%)得分。置信度图的值表示预测的置信度,即,获胜类的软最大概率的元素注意,较深的颜色表示地图中的较高置信度,如右上角的图例所示表5. VOC 2012验证集的分割结果。最好的方法用粗体突出显示。主干方法mIoU ECEAECE CE 68.78 8.94 8.89国际货币基金组织[25] 69.54 8.72 8.68与现有工作相比,具有更好的鉴别和校准性能值得一提的是,在校准方面差异很大,这表明所提出的方法为这项任务提供了比竞争方法更好的不确定性估计。ResNet-34ResNet-502016年12月27日[17] 11.60 11.61我们的70.24 7.93 8.00CE 70.92 8.26国际货币基金组织[25] 71.16 8.318.26瑞士法郎[27] 71.00 9.35 9.95[17] 11.44 11.43我们的71.20 7.94 7.99表6. 20个新闻组数据集测试集的结果。最佳方法以粗体突出显示。[25]第27话:我的世界,我的世界ACC欧洲经委ACC欧洲经委ACC 欧洲经委ACC欧洲经委ACC欧洲经委欧洲经委会67.01 22.75 66.48 22.9767.14 8.07在边界处,同时产生对区域内像素的置信预测。相反,可以观察到,其他方法难以提供精确的不确定性估计,特别是在区域边界处。另外,在一些其它情况下,现有方法可能无法产生可靠的不确定性区域,即使在对象的内部区域FL)。表5中的定量结果进一步支持这些目视观察结果。更多示例见附录G。文本分类的结果 我们还研究了在非视觉模式识别任务(如文本分类)上训练的模型的校准,这些任务在20个新闻组数据集上进行评估。表6报告了该基准测试的结果,表明所提出的模型实现了6. 限制尽管我们的方法优于现有的方法的性能,在这项工作中存在一些限制。例如,文献[24]中的最新证据表明,简单的温度标度方法在数据/域分布偏移下不能很好地工作,并提倡使用更复杂的方法,随着偏移的增加,考虑认知不确定性,例如集合。然而,尽管有这些发现,基线的性能(即,LS [27]或焦点损失[17])和所提出的模型在这种情况下尚未得到很好的研究,这可能会揭示这些方法在非独立和同分布(i.i.d.))制度。欧洲经委会=10.03欧洲经委会=6.52欧洲经委会=14.31欧洲经委会=4.03精度精度精度精度精度精度精度精度88引用[1] D.P.伯特塞卡斯非线性规划雅典娜科技,贝尔蒙特,马萨诸塞州,1995年。3[2] Charles Blundell,Julien Cornebise,KorayKavukcuoglu,and Daan Wierstra.神经网络中的权重不确定性。ICML,2015。2[3] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。再思考无卷积在语义图像分割中的应用。在CVPR,2017年。一、五[4] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。CVPR,2009。5[5] Zhipeng Ding , Xu Han , Peirong Liu , and MarcNietham-mer.概率校准的局部温度定标。ICCV,2021。一、二[6] Mark Everingham,S. M.放大图片作者:Christopher K.Williams,John Winn,and Andrew Zisserman. 传统视觉对象类的挑战:回顾. IJCV,111(1):98-136,2015. 5[7] 亚林·加尔和祖宾·加赫拉马尼。Dropout作为一种近似:表示深度学习中的模型不确定性。InICML,2016. 2[8] Chuan Guo , Geoff Pleiss , Yu Sun , and Kilian QWeinberger.现代神经网络的校准。ICML,2017。一、二[9] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在CVPR,2016年。5[10] 乔·米格尔·赫尔和洛巴托和瑞安·亚当斯。概率反向传播用于贝叶斯神经网络的可扩展学习。ICML,2015。2[11] 亚历克斯·克列日夫斯基和杰弗里·辛顿从微小的图像中学习多层特征。技术报告,多伦多大学,2009年。5[12] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。InNeurIPS,2012. 1[13] Balaji Lakshminarayanan,Alexander Pritzel,and CharlesBlundell.使用深度集成的简单和可扩展的预测不确定性估计。NeurIPS,2017。2[14] 肯·朗 Newsweder:学习过滤网络新闻。在ICML,1995年。5[15] 我 是 JLarrazabal , Ce'sarMart' ınez , JoseDolz 和EnzoFerrante。正交集成网络在生物医学图像分割中的应用。在2021年的MICCAI。2[16] Min Lin,Qiang Chen,and Shuicheng Yan.网络中的网络。InICML,2014. 5[17] 林宗义,普里亚·戈亚尔,罗斯·格希克,何开明,和彼得·多尔。密集目标检测的焦面损失。在CVPR,2017年。一二三四五六七八[18] 克里斯托·路易佐斯和马克斯·威林基于矩阵高斯后验的结构化高效变分深度学习。InICML,2016. 2[19] Michal Lukasik、Srinadh Bhojanapalli、Aditya Menon和Sanjiv Kumar 。标签平滑是否会减轻标签噪声?在ICML,2020。389[20] Xingchen Ma和Matthew B.布拉施科荟萃校准:通过排序进行的受控良好的事后校准。在ICML,2021。2[21] Jishnu Mukhoti,Viveka Kulharia,Amartya Sanyal,Stuart Golodetz , Philip HS Torr , and Puneet KDokania. 使 用 焦 点 损 失 校 准 深 度 神 经 网 络 。 在NeurIPS,2020年。一二三四五六七八[22] Raf a e lMuüller、SimonKornblith和Geo f fr e yHinton。标签平滑在什么情况下有帮助?NeurIPS,2019。一、二、三、五[23] Mahdi Pakdaman Naeini,Gregory F. Cooper和MilosHauskrecht。使用贝叶斯分箱获得良好校准的概率。InAAAI,2015. 5[24] Yaniv Ovadia , Emily Fertig , Jie Ren , ZacharyNado,David Sculley,Sebastian Nowozin,Joshua VDillon,Balaji Laksh- minarayanan和Jasper Snoek。你能相信你的模型评估数据集偏移下的预测不确定性。NeurIPS,2019。二、八[25] Gabriel Pereyra , George Tucker , Jan Chorowski ,Łukasz Kaiser,and Geoffrey Hinton.通过惩罚置信输出分布来正则化神经网络。在ICLR,2017。一二三四五六七八[26] John Platt et al. Probably outputs for support vectormachines and comparisons to regularized likelihoodmethods.Advances in large margin classifiers,10(3):612[27] Christian Szegedy 、 Vincent Vanhoucke 、
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功