深度神经网络的训练时间校准与可靠性图表：MDCA损失方法与NLL的对比和改进

39 浏览量更新于2023-10-25 收藏 1.16MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

16081（GT：人（GT：人（e）类激活图（CAM）一针及时救九：一种改进的神经网络标定Ramya Hebbalaguppe1，2§Jatin Prakash1§Neurah Madan1§ChetanArora11印度理工学院印度德里印度TCS研究所https://github.com/mdca-loss（f）按类别的可靠性图表图1.我们提出了一种新的正则化损失（MDCA）用于深度神经网络（DNN）的训练时间校准。图（a）-（d）显示了使用交叉熵损失（NLL）训练的模型和我们的模型（FL+MDCA）的比较。在（a）中，使用NLL训练的DNN做出了不正确但过于自信的预测。然而，使用MDCA进行训练会降低错误预测标签的置信度，并增加第二高置信度但正确标签的置信度。在（b）中，对于CIFAR10少数类别在（c）和（d）中，我们显示了来自域内和域外数据集的图像在（c）中，图片取自使用我们的方法训练的模型以及NLL都预测了正确标签的高置信度得分。然而，在（d）中，当我们将域更改为“Art”（域外）时在（e）中，我们显示了使用温度标度（TS）校准的模型的类激活图（CAM），以及我们的标签牛（顶行）和人（底行）。更准确的CAM表明，使用MDCA进行训练可以提高模型的可解释性。(f)显示了使用NLL和我们的方法训练的模型的类可靠性图。后者导致模型，校准所有类。摘要众所周知，深度神经网络（DNN）会犯过度自信的错误，这使得它们在安全关键型应用中的使用存在问题。最先进的（SOTA）校准技术仅提高了预测标签的置信度，并保留了非最大类（例如，top- 2，top-5）未校准。这种校准不适用于§平等贡献使用后处理的标签细化此外，大多数SOTA技术事后学习一些超参数，从而排除了图像或像素特定校准的范围。这使得它们不适合在域偏移下进行校准，或者用于语义分割等密集预测任务在本文中，我们主张在训练时间本身进行干预，以便直接生成校准的DNN模型。本文提出了一种新的辅助损失函数：多类置信度和精度差异（MDCA）。飞机92%卡车69%输入图像TS校准我们鸟类7.2%青蛙0.0%汽车29%飞机 0.8%1.0飞机52%卡车99%0.8鸟47%青蛙0.0%汽车0.0%飞机 0.0%(a)GT：鸟(b)GT：卡车0.699%狗0.1%吉他0.0%吉他95%2.0%狗1.2%0.499%狗0.2%吉他0.0%吉他45%个人30%狗8.4%0.2(c)GT：人(d)GT：人(e)类激活图（CAM）0.0我们NLLNLL我们我们NLL分类：奶分类：人16082^^∗MDCA可以与其他应用程序/任务特定的损失函数结合使用。我们表明，MDCA训练导致更好的校准模型的预期校准误差（ECE），静态校准误差（SCE）的图像分类和分割任务。我们在 CIFAR 100 数据集上报告 ECE（SCE）评分为0.72（1.60），而SOTA为1.90（1.71）。在域转移下，使用 MDCA 在 PACS 数据集上训练的ResNet-18模型在所有域中的平均ECE（SCE）得分为19.7（9.7），而SOTA为24.2（11.8）。对于分割任务，我们报告了PASCAL-VOC数据集上的校准误差与病灶丢失相比降低了2倍[32]。最后，MDCA训练改进了校准，即使在不平衡的数据上，以及自然语言分类任务。1. 介绍近年来，深度神经网络（DNN）在各种模式识别任务中表现出了很好的效果。在分类设置中，输入x∈X，标签y∈ Y={1，. . .，K}，DNN通常输出置信度得分向量s ∈R K。向量s也是一个有效的概率向量，并且s的每个元素被假设为对应标签的预测置信度中已经显示近年来，DNN输出的置信向量s经常被忽略[14，36]。即：P.y^=y s[y^]s[y^]，（1）其中yi和y分别是样品的预测标记和真实标记例如，如果DNN预测得分为0.7的图像的类别0.7.如果概率较低，则网络被称为过度自信，而如果概率较高，则网络被称为不自信。对于像语义分割这样的逐像素预测任务，我们希望校准每个像素的预测。同样，我们希望校准不仅适用于预测标签，即 y = arg max s[y]，但对于整个向量s（所有y∈Y标签），即，y∈ Y。错误校准的主要原因之一是所使用的特定训练方案。大多数现代DNN在监督学习设置中进行分类训练时，使用独热编码进行训练，该编码将所有概率质量集中在一个类中;因此，训练标签是零熵信号，不允许输入的不确定性[48]。DNN因此被训练成过度自信。除了在模型预测中产生普遍的不信任之外，错误校准在安全关键应用中尤其成问题，例如自动驾驶汽车[13]，法律研究[51]和医疗保健[10，46]，其中为预测的标签提供正确的置信度与正确的标签预测本身一样重要研究人员试图通过学习输出向量的事后变换来解决校准错误，以便预测标签的置信度与样本标签的可能性相匹配[15，17]。由于这种技术仅关注预测的标签，因此它们可能最终仅校准对于每个样本具有最大置信度的标签。因此，在多类设置中，具有非最大置信度分数的标签保持未校准。这使得任何标签细化的后处理，例如使用MRF-MAP的后验推理[4]无效。在本文中，我们主张在训练时间的校准与使用有限参数1的事后校准技术不同，训练时间策略允许利用DNN本身的数百万个可学习参数，从而提供更适合用于模型校准的图像和像素特定变换的灵活学习我们在域转移下的实验，以及密集预测任务（语义分割）显示了该方法的强度。基于上述认识，我们提出了一种新的辅助损失函数：多类置信度和准确度差异（MDCA）。所提出的损失函数被设计成在训练阶段与其他应用特定的损失函数一起使用，并且克服了早期方法中提出的损失函数的不可微性。虽然我们不提倡它，但所提出的技术是对训练后仍然可以使用的事后技术的补充，如果有单独的保持数据集可供利用的话。由于我们是一种训练时间校准方法，因此它意味着预测的良好正则化我们表明，使用我们的损失函数训练的模型即使在域偏移下也保持校准。贡献：我们做出以下主要贡献：（1）一种可训练的DNN校准方法，包括一种新的辅助损失函数，称为MDCA，在多类设置中考虑整个置信向量。我们的损失函数是可微的，可以与任何现有的损失项结合我们展示了交叉熵、标签平滑[38]和焦点损失[32]的实验（2）我们的方法与事后方法[14，23]相当，而不需要保持集合，使部署更加实用（见表1）。（六）。（3）我们的损失函数是一个强大的正则化器，即使在域/数据集漂移和数据集不平衡的情况下也能保持校准，我们在PACS[30]，旋转MNIST [29]和不平衡的CIFAR10数据集上证明了这一点。（4）虽然重点主要是图像分类，但我们对多类语义分割的实验表明，我们的技术优于基于TS的校准和焦点损失[32]。我们还在20Newsgroup数据集上展示了我们的方法在自然语言分类任务上的有效性[27]。1例如，温度缩放（TS）校准使用单个全局标量T;狄利克雷校准（DC）使用K个类的O（K2）超参数来校准模型输出16083i=1^^^^我^^^N我我M2. 相关工作用于校准DNN的技术可以广泛地分类为训练时间校准、事后校准和通过分布外（OOD）的校准。训练时间校准在训练过程中集成模型校准，而事后校准方法利用保持集来调整校准措施。另一方面，学习拒绝OOD样本（在训练时或事后）减轻了过度自信，从而校准了DNN。列车时间校准：最早的列车时间方法之一提出了BrierScore用于校准二元概率预报[2]。[14]显示使用负对数似然（NLL）训练的模型往往过于自信，并根据经验显示NLL和准确性之间的脱节。具体来说，过度自信的分数需要重新校准。一种常见的校准方法是使用自适应损失项而不是NLL损失：[44]使用熵作为正则化项，而Muüller等人。[38]提出了软目标上的标签平滑（LS）[47最近，[37]表明焦点损失[32]可以通过减少预测分布和目标分布之间的KL-发散同时增加预测分布的熵来隐式校准DNN，从而防止模型变得过于自信。Liang等人[31]提出了一个辅助损失项DCA，它与交叉熵一起添加，以帮助校准模型。当交叉熵损失减少时，DCA项惩罚模型，但准确度保持不变，即，当使用TS/LS的类分布感知向量来修复过度置信。Ding等人[9]提出了一种用于语义分割的空间通过OOD检测进行校准：Hein等人。[34]表明，DNN中过度自信背后的主要原因之一是使用ReLu激活，当输入样本远离训练数据时，它可以提供高置信度的他们提出了使用对抗性训练的数据增强，这会对远离训练数据的样本Guo等人。[14]分析了DNN的宽度和深度，批量归一化和权重衰减对校准的影响。Karimi等人。[19]在CNN的初始层上使用频谱分析来确定OOD样本并校准DNN。我们建议读者参考[8，16，35，43]，了解通过OOD检测校准DNN的3. 拟议方法校准：经过校准的分类器输出与正确性的经验频率相匹配的置信度分数。如果一个校准模型预测的事件为0。7的置信度，则事件发生的次数为70%。如果事件的经验发生率为70%，则模型过度自信，如果经验概率>70%，则模型信心不足。<形式上，我们在经典监督设置中定义校准令D=<$（xi，yi）<$N表示由来自联合分布D（X，Y）的N个样本组成的数据集，其中对于每个样本，xi∈ X是输入且y∈Y={1，2，...，K}是地面实况类标签。发生过拟合。[26]建议使用MMCE，一种辅助剂，校准的线性损失项，使用再现我设s∈RK，si[y]=fθ（xi）是aHilbert空间中的核[12]。 Mar onMr. [33]分析MixUp [52]用于校准DNN的数据增强，并得出Mixup不一定改善校准的结论。事后校准：事后校准技术使用保留训练集（通常是验证集）校准模型温度缩放（TS）平滑logit以校准DNN。具体来说，TS是Platt标度的变体[45]，其工作原理是将logits除以标量T >0，在使用softmax之前，在保持训练集上学习。在校准过程中使用TS的缺点是降低了每个预测的置信度，包括正确的预测。TS的更一般版本使用矩阵缩放来变换logits。使用类似于TS的保持集来学习矩阵M。狄利克雷校准（DC）使用狄利克雷分布将用于二进制分类的Beta校准[24]方法扩展到多类方法。DC很容易在对数转换的类概率上实现为神经网络中的额外层，这是在保持集上学习的元校准提出了可区分的ECE驱动校准，以获得良好校准和高精度的模型[1]。Islam等人[18]第十八话可用作事后校准的TS和LS。他们DNN，f，具有模型参数θ预测a上的类y给定输入xi. 对于样本x i，由f预测的类y i计算如下：y i=arg max si[y]。（二）y∈Y预测类的置信度相应地计算为si=maxy∈Ysi[y]。当对于每个样本（x，y）∈ D：P（y=y）|s[y]=s）= s.（三）请注意，完美校准要求校准每个评分值（而不仅仅是s另一方面，大多数校准技术仅关注预测类。也就是说，它们仅确保：|s i）= s i.预期校准误差（ECE）：ECE通过计算预测类别置信度差异的加权平均值以及使用特定置信度评分预测的样本准确度来欧洲经委会=欧洲经委会A-C.（四）i=116084|B我|^ΣL=N我Bi，jΣIN这里，N是样本的总数，并且加权是基于给定置信区间/区间中的样本的分数来完成的。由于置信度值在连续区间内，因此对于ECE的计算，我们将置信度范围[0，1]划分为M个等距箱，其中，第i个bin是置信范围内的区间（i-1，i]3.1. 拟议的辅助损失：MDCA我们提出了一种新的多类校准技术，使用建议的辅助损失函数。损失函数受SCE [41]的启发，但避免了由于如等式中所示的合并Bi，j而（5）[31]。我们的卡利-M细分技术独立于分箱方案/分箱。并且Bi表示第i个仓中的样本数此外，Ai=1j∈Bi I（yj=yj），表示精度cy1Σ这一点很重要，因为[50]和[25]也很突出，合并方案会导致低估校准对于仓Bi和Ci中的样本，|Bi|j：s^j∈Bis^j，错误. 我们将损失函数命名为多类差分样本的平均预测置信度，sj∈Bi。通过ECE对DNN校准的评估存在以下缺点：置信度和准确度（MDCA），并将其应用于每个在训练中的小批量。损失定义如下：置信向量中所有得分值的校准，以及（b）度量是不可微的，因此不能在培训过程中作为损失项纳入K1MDCAK. 1Σs[j]−1q i[j]。、（6）本身具体地，不可微性由于将样本分仓到仓B1中而产生。最大校准误差（MCE）：MCE定义为每个箱的平均准确度和平均置信度之间的最大绝对差其中qi[j]=1，如果标签j是样本的真实标签i，即 j = y，否则q i[j]= 0。注意里面的第二项|对应于小批次中的平均样本计数|corresponds to averagecount of samples in a mini-batch包含Nb个训练样本。由于平均计数是一个恒定值，因此学习梯度仅取决于DNN分配的表示置信度的第一项。MCE=maxi ∈1，…M. A i− Ci。.K表示类的数量。L-MDCA是在一个小批量上计算的，模数运算（|·|）意味着，最大运算符最终修剪了很多关于校准的有用然而，它确实代表了一个统计值，可以用来区分校准中的大差异。静态校准误差（SCE）：SCE是最近提出的测量校准的指标[41]：求和是不可互换的2. 此外，si[j]表示第j类的DNN的置信度得分，第i个样品。请注意，LMDCA是可微的，而DCA[31]给出的损失我们的损失函数的可微性确保它可以很容易地与其他应用特定的损失函数结合使用，如下所示：M KSCE= 1μ m Bi，j.一-C. 、（五）Ki=1j =1Ni、ji、jL总=LC+β·LMDCA，（7）其中β是控制相对重要性的超参数，其中，K表示类别的数量，并且Bi，j表示-记录第i个仓中第j个相对于应用特定的损耗，并且通常使用验证集来找到。信用证是一种标准的信用证。此外，Ai，j=1，k∈Bi，jI（j=yk）是准确度信息损失，如交叉熵，标签平滑[47]，对于第i个仓中的第j个类别的样本，并且Ci，j=或者说，是一种损失[32]。我们的实验表明，亲-1Bi，jk∈Bi，jsk[j]或第j个类的平均置信度，提出的MDCA损失与局灶性损失相结合，第i个仓。Classwise-ECE[23]是另一种用于测量多级设置中校准的指标，但与静态校准误差（SCE）相同。很容易看出，SCE是ECE的一个简单的类扩展。由于SCE考虑了整个置信向量，因此它也允许我们注意，与ECE类似，度量SCE也是不可微的，并且不能在训练期间用作损失项。Class-j-ECE ：[23]建议评估校准误差校准性能理想情况下，为了实现置信度校准，我们希望平均预测置信度与模型的准确度相同。然而，在多类校准中，我们希望每个类k i的平均预测置信度与其在数据分布中的平均出现率相匹配。在LMDCA中，我们明确地为每个小批量捕获这个想法，即我们2请注意，由于在两者中使用了模量，LMDCA可能看起来类似于L1然而，这两个损失。功能AR。非常不同。数学上，L=1 ΣK喀麦隆b . s[j]−q[j]。而L每个类独立于其他类。这允许一个1K·Nbj=1i=1。我我-是的MDCA以捕获单个类别j对总体SCE（或类间ECE）误差的贡献。在我们的结果/讨论中，我们将此度量称为class-j-ECEMMj=1bi=1bi=116085如在Eq.（六）、L MDCA损失的模内的两个项表示特定类j的平均统计量（由我们的类间校准目标激发），而在L 1的情况下，模对单个样本进行操作。16086直觉上需要s[ki]<$q[ki]（其中s[ki]，q[ki]分别是小批量中平均预测置信度和平均计数类ki 任何偏离都会导致DNN受到L MDCA的惩罚。4. 数据集和评价数据集：我们在用于图像分类、语义分割和自然语言处理（NLP）的知名基准数据集上验证了我们的技术。对于每个数据集： CIFAR 10/100 [22] ， SVHN[40] ， Mendeley V2 [20] ， Tiny-ImageNet [7] 和 20-Newsgroups [28]，我们有一个单独的训练集和测试集。训练集被进一步分成2个互斥的集（a）包含90%的样本的训练集，和（b）包含10%的验证集。我们使用验证集作为事后校准的保留集这种划分在我们的整个实验中是一致的有关数据集、DNN架构和训练过程的详细描述，请参见补充材料。评估：我们报告校准措施，SCE，ECE，和类j-ECE随着研究校准性能的测试误差.我们观察到，我们实现了卓越的校准，使用我们的技术，没有任何显着下降的准确性。我们还使用可靠性图表可视化校准（请参阅补充材料了解可靠性图表的详细描述）。比较技术：我们将我们的方法与使用交叉熵（NLL），标签平滑（LS）[47]，DCA[31]，焦点损失（FL）[32]，Brier评分（BS）[2]，FLSD[37]以及MMCE[26]训练的模型进行比较。有关个别方法及其训练细节的详情，请参阅补充资料。5. 结果应用程序特定损失函数的实验：我们的损失旨在与另一个应用程序特定损失函数结合使用，以帮助提高模型的校准性能。常见的应用特定损失包括交叉熵损失（NLL），其进而最小化预测置信向量中的地面真值标签的负对数似然分数焦点丢失（FL）[32]被提出来改善存在许多简单否定和较少硬否定的训练。而标签平滑（LS）[47]在NLL中引入了另一个术语来平滑模型的预测。我们添加了建议的MDCA与这些损失项，并测量了模型的校准性能（在ECE和SCE分数方面），在添加我们的损失之前和之后。选项卡. 1显示结果。我们将使用我们的技术的配置称为“* + M D C A“，其中 * 是指N LL / L S / F L。对于每种组合，我们使用β∈ {1，5，10，15，20，25}的相对权重用于LMDCA，并报告最准确模型的校准性能。(a)（b）（c）（d）(e)（f）（g）（h）图 2. 第一行显示了 NLL 训练模型与 MDCA 正则化版本（NLL+MDCA）相比的可靠性图（a，b）和我们使用在CIFAR10数据集上训练的ResNet-32进行比较。第二行显示了在SVHN数据集上使用标签平滑（LS）与MDCA正则化LS训练的ResNet-20网络的相应图请参阅文本的解释的我们在补充中显示了与FL和FL+DCA的类似比较设定我们的实验表明，设置β1没有很强的正则化效果）。对于LLS，我们使用α=0。1，对于LFL，我们使用γ∈ {1，2，3}。请分别参考[47]和[32]对α和γ的解释。选项卡. 1示出了所提出的MDCA损失改进了跨多个数据集和架构的所有上述应用特定损失函数的校准性能。我们还注意到， FL+MDCA提供了最佳的校准性能。我们将在后面的实验中使用这种损失配置。与SOTA的校准比较：选项卡。2比较了我们的方法与所有最近的SOTA方法的校准性能。我们注意到，使用我们的方法的校准改善了SCE和ECE评分在所有数据集和不同架构上的表现。类别条件校准误差：当前最先进的技术仅集中于校准预测标签，这使得一些少数类别未校准。我们的校准方法的好处之一是更好地校准所有，而不仅仅是预测类。为了证明我们的方法的有效性，我们使用在SVHN数据集上训练的ResNet-20模型报告了所有竞争方法的class-j-ECE%值。选项卡. 3显示结果。我们的方法给出了最好的分数，但10个类中有3个是第二好的。类别可靠性图（参见图1）加强了类似的结论。我们在补充资料中显示了CIFAR10数据集的结果测试错误：选项卡。图2还显示了使用我们的方法和其他SOTA方法训练的模型获得的测试误差（TE）我们注意到，使用我们提出的损失，模型能够实现最佳的校准性能，而不会牺牲预测精度（测试误差）。16087数据集模型NLLSCE（10−3）欧洲经委会（%）NLL+MDCASCE（10−3）欧洲经委会（%）LS [38]SCE（10−3）欧洲经委会（%）LS+MDCASCE（10−3）欧洲经委会（%）佛罗里达州[32]SCE（10−3）欧洲经委会（%）FL+MDCASCE（10−3）欧洲经委会（%）CIFAR10ResNet328.684.254.631.6914.086.2810.394.314.601.763.220.93ResNet567.113.276.873.1512.545.389.883.974.181.112.930.70CIFAR100ResNet323.0312.452.599.941.992.091.742.291.831.621.721.49ResNet562.509.322.418.951.738.941.681.481.662.291.600.72SVHNResNet203.431.641.460.4318.808.8813.916.462.540.891.900.47ResNet563.841.821.470.5321.0810.0017.628.437.853.891.510.23门德利V2ResNet50131.24.7888.143.63103.82.6897.385.03108.38.1785.684.81Tiny-ImageNetResNet341.9114.911.8714.221.385.961.365.901.192.261.171.9920个新闻组全球池CNN602.6814.78559.5016.53988.423.45520.5017.30729.3913.35487.8216.55表1.我们的损失是用来除了另一个应用程序特定的损失。该表比较了使用MDCA在三种常用损失函数（NLL/LS/FL）上的校准性能改进。我们的损失提高了跨多个数据集和架构的校准性能。数据集模型SCEBS [2]欧洲经委TESCE[31]第三十一话欧洲经委TEMMCE [26]SCE ECE TEFSD [37]SCE ECETE我们的（FL+MDCA）SCE ECE TECIFAR10ResNet326.602.927.768.414.007.068.173.318.419.484.417.873.220.937.18ResNet565.442.177.757.593.386.539.113.718.237.713.497.042.930.707.08CIFAR100ResNet321.975.3233.532.8211.3129.672.7911.0931.621.771.6932.151.721.4931.58ResNet561.864.6930.722.779.2943.432.358.6128.751.711.9029.111.600.7229.8SVHNResNet202.120.453.564.292.023.839.184.344.1218.989.374.101.900.473.92ResNet562.180.663.252.160.493.329.694.484.2626.1513.233.651.510.233.85门德利V2ResNet50117.63.7518.43145.18.2917.47130.43.4515.06104.39.6419.7185.684.8117.95Tiny-ImageNetResNet341.537.7943.002.1117.4036.681.629.7140.751.181.9137.011.171.9937.4920个新闻组全球池CNN725.8213.7125.93719.8315.3028.07731.3112.6928.63940.704.5230.80487.8216.5527.88表2.校准测量SCE（10−3）和ECE（%）评分）和测试误差（TE）（%），与各种竞争方法进行比较。我们使用M= 15箱进行SCE和ECE计算。我们在各种流行的基准数据集和校准方面的架构中优于所有基线，同时保持类似的准确性。方法类表3. Class-j-ResNet所有10个类别的ECE（%）分数- 使用不同的可学习校准方法在SVHN数据集上训练20个模型。我们的方法为10个类中的7个类提供了最佳校准，并且在3个类上是第二好的。缓解信心不足/过度：选项卡。1和Tab。2已经表明，我们的方法改善了SOTA的SCE，和ECE分数。然而，这些表格并没有突出显示它们是否校正了过度自信或自信不足。我们显示了可靠性图（图 2 ），在CIFAR10/SVHN上训练的ResNet-32/20模型。未校准的模型过于自信（图2a），在使用我们的方法校准后得到纠正（图2b）。我们还在图片中显示了置信度图，彩色虚线表示预测标签的平均置信度和准确度。可以看出，在未校准的置信图中，准确度低于平均置信（b）第（1）款图3.误分类预测的置信度直方图与使用NLL训练的未校准方法相比，MDCA正则化NLL做出不太自信的不正确预测。(Fig.（2）这是一个过度自信的模型。在用我们的方法校准后，两条虚线几乎重叠，表明实现了完美的校准（图1）。第2d段）。类似地，图2的第二行示出了仅使用LS训练的模型是不自信的;并且使用LS以及MDCA训练的模型是自信和校准的。不正确预测的置信度值：到目前为止，讨论的焦点一直是这样一个事实，即类的置信度值应该与样本类的可能性一致。在这里，我们分析了我们的方法在预测不正确时给出的置信度值。图3示出了用于测量的置信度值直方图。0123456789交叉熵0.200.620.330.650.230.360.250.260.210.41[32]第三十二话0.300.480.410.180.380.190.330.360.320.30LS [38]1.632.602.541.901.911.741.731.751.631.58Brier评分[2]0.230.280.400.450.250.260.250.270.210.37MMCE [26]1.782.352.122.001.741.871.651.761.701.84[31]第三十一话0.310.700.400.720.310.460.350.350.370.36FSD [37]1.523.242.742.151.791.821.841.621.541.38我们的（FL+MDCA）0.220.160.240.250.220.160.160.170.250.20（一）16088方法艺术卡通草图平均NLL6.3317.9515.0113.10LS [38]7.8011.9510.8810.21佛罗里达州[32]8.6116.6210.9412.06Brier评分[2]6.5513.1915.6311.79MMCE [26]6.3515.7017.1613.07[31]第三十一话7.4918.0114.9913.49FSD [37]8.3513.3913.8611.87我们的6.2111.9111.089.73表4.校准性能（SCE（10−3））下域转移在PACS数据集上[30]。对于每一列，我们在其他两个子集上进行训练，然后在列标题中列出的子集上进行测试。表5.我们的校准技术即使在数据集中存在显著的类不平衡时也能发挥最佳作用。在这个实验中，我们在CIFAR 10中创建了不同程度的不平衡，如[6]所示。原始SVHN的不平衡系数（IF）为2。7 .第一次会议。因此，我们在原始SVHN上显示了校准性能（SCE（10−3））。使用NLL与MDCA正则化NLL在CIFAR10数据集上训练的ResNet-32模型做出的所有错误预测。很明显，我们的校准降低了错误预测的置信度。这一点从先前示出的图1中校准性能下数据集漂移：Tomani等人。[49]表明DNN在数据集/域偏移下过于自信和高度未校准。我们的实验表明，使用MDCA训练的模型即使在非语义/自然域转移的情况下，在校准性能我们使用两个数据集（a）PACS[30]和（b）受[42]启发的旋转MNIST。这些数据集分别是合成非语义移位和自然旋转的补充资料中提供了数据集细节和培训程序选项卡. 4表明，我们的方法实现了最好的平均SCE值在所有领域的PACS。在旋转 MNIST数据集上也观察到类似的趋势（见补充资料），其中我们的方法在所有旋转角度上实现了最小的平均SCE不平衡数据集上的校准性能：真实世界的数据集通常是倾斜的，并呈现长尾分布，其中少数类别占主导地位。为了研究类不平衡对校准质量的影响，我们进行了以下实验，其中我们在CIFAR10数据集上引入了故意的不平衡，以强制长尾分布，如[6]所述表6. 将各种可训练校准方法（包括我们的方法）与SCE（10−3）上的两种事后校准方法（TS：温度标度[45]和DC：狄利克雷校准[23]）相结合后的结果。我们在CIFAR10，CIFAR100和SVHN数据集上使用ResNet56模型进行实验。虽然其他方法受益于事后校准，但我们的方法在不使用任何事后校准的情况下优于它们。选项卡. 5表明，用我们的方法训练的模型在所有不平衡因素的SCE评分方面具有最佳的校准性能。我们观察到SVHN数据集的不平衡因子已经为2。7，因此在该实验的数据集中没有人为的不平衡。我们的方法对不平衡数据的有效性是由于MDCA提供的规则化，即使对于非预测类，该规则化也会惩罚平均置信度和平均计数之间的差异，从而使少数类受益。我们的方法+事后校准：我们研究了事后校准方法（即温度缩放（TS）[45]和狄利克雷校准（DC）[23]）的组合效果的性能，这些方法应用于各种训练时间校准方法，包括我们的方法（FL + MDCA）。选项卡. 6显示结果。我们观察到，虽然TS和DC提高了其他竞争方法的性能，但我们的方法甚至在不使用这些方法的情况下也优于它们。另一方面，我们的方法的性能似乎保持不变或略有下降后，应用事后的方法。我们推测这是因为我们的方法已经将模型校准到接近完美的程度。例如，在执行TS时，我们观察到最佳温度值是T=1，这意味着它为TS留下了很小的改进空间。方法IF-10IF-50IF-100SVHNIF-2.7NLL18.4432.2131.043.43佛罗里达州[32]14.6529.6728.892.54LS [38]14.8826.3020.7918.80BS [2]15.7433.5729.012.12MMCE [26]15.1029.0521.569.18FSD [37]16.0531.3530.2818.98[31]第三十一话18.5732.8135.534.29我们的（FL+MDCA）11.8322.9726.891.90方法SCE（10−3）↓事后CIFAR10 CIFAR100 SVHN没有一7.122.503.84NLLTS3.251.494.16DC4.981.912.69没有一12.551.7321.08LS [38]TS4.491.673.12DC5.341.982.81没有一4.191.897.85佛罗里达州[32]TS4.191.622.72DC5.482.023.36没有一5.441.862.18BS [2]TS3.941.683.88DC4.831.802.11没有一9.122.359.69MMCE [26]TS4.051.613.74DC6.261.955.11没有一7.602.872.16[31]第三十一话TS3.001.564.29DC4.202.062.95没有一7.711.7126.15FSD [37]TS3.271.714.41DC5.622.014.31没有一2.931.601.51我们的（FL+MDCA）TS2.931.605.00DC3.811.872.7216089方法像素Acc.（%）mIoU（%）SCE（10−3）欧洲经委会（%）NLL94.8179.496.47.77缩放NLL+ TS94.8179.496.266.1FL92.8577.2211.87.69表7.PASCAL - VOC 2012验证数据集上Xception 65 [5]主干DeeplabV 3+模型[3]的分割结果。图4.在CIFAR 10数据集的ResNet-32模型上使用MDCA进行训练时，不同批量对校准性能指标（ECE/SCE/准确度）的影响。校准性能随着批量的增大而下降，因为SGD优化在小批量方案中更有效[21]。更大的批量导致模型质量的下降，如通过其概括能力所测量性能下降也与在大批量上仅使用FL训练的模型一致。DC负面影响置信质量。语义分割的校准结果：我们的技术的主要优点之一是它允许使用DNN模型的数十亿个权重来进行校准。这与在可用于调谐的参数方面受到严格限制的其他校准方法形成对比例如，在TS中，人们具有要调谐的单个温度参数。这使得TS难以提供用于校准的图像和像素特定置信度变换为了突出我们的技术的像素特定的校准方面，我们已经做了语义分割任务，这可以被看作是像素级分类的实验。对于实验，我们在 PASCAL-VOC2012 [11] 数据集上训练了一个具有预训练的Xception 65 [5]主干的DeepLabV 3 +[3]模型我们比较我们的方法对NLL，FL和TS（事后校准）的性能有关培训的更多详细信息，请参阅补充材料选项卡. 7显示结果。与FL相比，我们的方法（FL+MDCA）的SCE/ECE均显著下降（SCE下降2倍，ECE下降40%）。我们的方法也比TS（用NLL训练后）好23。百分之六。6. 消融研究批量大小的影响：图4显示了不同批量大小对校准性能的影响。我们以指数方式改变批量大小，并观察到使用MDCA训练的模型在批量大小为64或128时达到最佳校准性能。当我们减少（或增加）图5. MDCA、MMCE和DCA不同时期的ECE / SCE比较。虽然，MMCE和DCA直接优化ECE，但它们的损失函数不可微，因此这些技术不能像MDCA那样减少ECE。损失函数的可重构性使得MDCA即使在不直接优化ECE的情况下也能更好地降低ECE。我们在epoch50和70使用1/10的学习率衰减。有关实验详情，请参阅补充资料。批量大小，我们看到校准的退化，尽管下降并不显著。ECE/SCE收敛与SOTA的比较：在前面的章节中，我们比较了MDCA的ECE评分与其他当代可训练校准方法，如MMCE[26]和DCA[31]。这些方法中的许多明确旨在降低ECE分数。虽然MDCA没有直接优化ECE，但我们在实验中看到，MDCA设法在收敛时获得更好的ECE分数。我们推测这是由于MDCA损失的可微性，这有助于使用反向传播更好地优化损失。为了验证这一假设，我们在图中绘制了各种方法的ECE收敛性。五、7. 今后的工作我们已经提出了一种训练时间技术，用于校准基于DNN的分类器的预测置信度值。我们的方法结合了标准的分类损失函数与我们的新的辅助损失命名，多类差异的信心和准确性（MDCA）。我们提出的损失函数与焦点损失相结合时，在可训练和事后校准方法中产生最小的我们在长尾数据集，自然/合成数据集漂移，语义分割和自然语言分类基准的情况下也显示了有希望的结果。在未来，我们想调查的作用，类hierarchies开发成本敏感的校准技术。8. 致谢感谢Mayank Baranwal和Harshad Khadilkar的有益讨论和建议。缩放16090引用[1] Ondrej Bohdal，Yongxin Yang，and Timothy Hospedales.元校准：使用可微预期校准误差进行模型校准的元学习。2021. III[2] Glenn W Brier et al. Verification of forecasts expressed interms of probability. 每月天气评论，78（1）：1-3，1950。三、五、六、七[3] Liang-Chieh Chen ， Yukun Zhu ， George Papa

下载后可阅读完整内容，剩余1页未读，立即下载