成对约束校准深度神经网络

19 浏览量更新于2023-10-26 收藏 728KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

13709−×通过成对约束校准深度神经网络加州大学圣地亚哥分校电气与计算机工程系{jicheng，nvasconcelos} @ ucsd.edu摘要众所周知，深度神经网络（DNN）产生类后验概率的校准差的估计。我们假设这是由于交叉熵损失提供的有限校准监督，它将所有重点放在真实类的概率上，而大多数情况下忽略了其余的。我们考虑了每个例子如何监督所有类，并证明了C-way分类问题的校准等价于C（C1）/2成对二进制分类问题的校准，这表明DNN校准可以通过对所有此类二进制问题提供校准监督来改进。然后提出了一种基于两种类型的二进制校准约束的成对约束（CPC）校准的实现。这最终被证明是可实现的，交叉熵训练的复杂性增加非常小在多个数据集和DNN架构上对所提出的CPC方法的经验评估证明了最先进的校准性能。1. 介绍深度神经网络（DNN），特别是深度卷积神经网络，已经在计算机视觉方面取得了重大进展[17，23]。虽然在图像识别[8，43]和分割[25，41]等各种任务中实现了虽然他们通过softmax回归输出类后验概率，但众所周知，这些预测概率通常校准不良。通常，DNN往往过于自信，将高置信度分配给不正确的预测[5，6，34]。对于许多现实世界的应用（例如天气预报[3，29，30]，医疗诊断[13]），重要的是分类器不仅要输出准确的预测，还要输出这些预测的可信度的合理估计。这被称为校准。对于校准的分类器，后-Softmax回归特征提取器Softmax回归特征提取器图1. CPC监督校准的效率。左：在经典的交叉熵训练中，每个训练示例仅对其类标签的后验概率提供重要的监督右：在CPC下，每个训练示例都对所有类的概率提供了重要的监督。对于给定的类，P的先验概率意味着选择类将导致100%的正确分类P。例如，考虑医疗诊断设置，其中对于被认为是“人类等效物”的任何系统，需要95%以上的诊断准确度。具有80%准确度的诊断分类器不能满足该标准。然而，如果分类器可以准确地预测与其预测相关联的后验概率，它仍然是有用的：后验概率高于95%的预测可以被自动接受，并且只有具有较低置信度的预测的示例需要被路由到人类医生。由于所有“容易”的情况往往是在第一类中，这可以减少对相对小批量的“困难”示例的人工检查的需要，从而节省大量的时间和费用。由于这些原因，DNN的概率校准在计算机视觉和机器学习领域引起了越来越多的关注[18，19，21，27，35，48，52，56]。已经提出了各种方法来校准DNN13710−Y−--πi+πjY {···}̸−----{|联系我们{|联系我们10500.5 0.55 0.6 0.65 0.7 0.75 0.8 0.85 0.9 0.95ij（x）432100.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1ij（x）图2. 二元后验概率βij（x）由ResNet-101在CIFAR-100上产生。上：示例属于类j并且被分配给类i。底部：前-到1.因此，真类的高概率意味着所有备选类的低概率。这种约束对于二元分类问题（C=2）是相当强的，其中只有一个备选类，但是随着C的增加而降级，因为它被C1备选类扩散。这表明，校准可以通过提供校准监督所有类对，即C（C1）/2二进制分类问题，可以得到加强我们将其表示为成对约束校准（CPC）。通过这种方式，如图1所示，每个训练示例都可以对所有类别的后验概率进行监督，从而显著提高了交叉熵训练的监督程度。在本文中，我们首先表明，提出的CPC有很强的理论基础，在多类后验概率估计πyy∈Y校准，如果并且仅当所有导出的二元后验概率es-标签既不是类i也不是类j的样本。估计器，βij=πi，j∈Y 都是经过校准的。这个亲-文献中的概率估计，包括但不限于后处理[6，38]，贝叶斯近似[2，5]，正则化[28，47]和深度集成[22]。这些方法在校准性能、内存和计算复杂度之间有不同的权衡，当考虑所有因素时，没有明显的赢家。它们的性能在数据移位[35]下也往往会急剧下降，即当测试示例被破坏或干扰[9]时，这在实际应用中很常见因此，需要低存储器占用和计算复杂度的鲁棒校准策略。在这项工作中，我们考虑了这个问题，旨在推导出规范DNN训练的方法，以鼓励更好的校准。我们解决了标签集的多类分类问题。一二得双曲余切值.并假设校准不良是由于效率低下的超视觉提供的交叉熵损失在网络训练。通过为每个示例建立相关类别标签的独热代码作为学习目标，这种损失鼓励近视训练算法，其将所有重点放在真实类别的后验概率上，并且大多忽略其余类别的后验概率。这在图1中示出，在经典的交叉熵训练下，每个训练示例仅提供对示例类的后验概率的显式监督。虽然在分类准确性方面非常有效，但这对于校准目的而言是非常低效的监督。为了增加每个训练示例提供的校准监督量，我们考虑示例如何监督其真实标签之外的类。我们注意到，交叉熵训练通过类后验概率必须求和的约束来提供了一个简单的解释，说明为什么vanilla DNN校准不良，如图2所示。该图表明，交叉熵DNN的二元后验估计β ijij在两个方面校准不良。首先，如顶部所示，当包含真实类别y的二进制估计量做出不正确的预测时，这些预测往往具有高置信度。其次，对于不涉及真类的二元问题，估计量β ij（y =i，j）大多将样本分配给类i或j，高信心，而不是产生不确定的预测。然后，我们认为，可以通过使用两种类型的损失来校准二进制后验估计β ijij来提高多类DNN的交叉熵训练的校准效率。对于包括真实类y的类对，即（i，j）y i，j，二进制交叉熵损失用于鼓励β ij将高概率分配给类y，将低概率分配给相反类。对于剩余的对（i，j）y / i，j，使用替代损失来鼓励β ij给出不确定的预测，从而为类别i，j输出相同的后验概率。我们最后表明，这种方法的CPC可以实现与高计算简单性。这是因为所提出的二进制损失所需的大量计算已经在多类网络的标准交叉熵训练期间执行。实际上，我们证明了附加损失可以通过简单的C（C1）/2sigmoid相加来计算在网络的顶端运行因此，CPC允许改进的校准，在测试期间不增加存储器或时间复杂性，并且训练复杂性略有增加经验评估表明，尽管如此，CPC校准在多个数据集和DNN架构中实现了最先进的校准CPC的校准增益也显示出增加与f（x; y）jij（x）> 0：5; y = j g香草DNNf（x;y）jy=6 i;y6=jg香草DNN我13711−V∈ XX Y {}X → VΣy=1yS类的数量和示例的稀缺性，即对于较小的训练集，它们更大。这些观察结果证实，CPC提高了每个示例提供的校准监督率。总的来说，这项工作有五个贡献。第一个是假设，如图1和图2所示，校准的交叉熵损失提供的有限监督是DNN校准性能差的重要原因。第二个假设是，这个问题可以通过拟议的产品总分类加以解决。第三个是支持这一假设的理论证据，表明只有当所有派生的二进制分类器都被校准时，多类问题才能被校准。第四个是表明，对于DNN，CPC可以以最小的复杂性实现。最后，结果表明，CPC训练确实可以显着提高校准性能，是对现有方法（如深度集成）的补充，并为多种网络架构和数据集提供最先进的校准性能。2. 相关作品2.1. DNN的概率校准一些工作已经观察到标准训练不会产生校准的DNN[5，6，34]。已经提出了各种方法来解决这个问题。后处理方法：二元分类器的校准已经研究了很长时间。在引入深度学习之前，已经提出了 histogrambinning [53]，isotonic regression [54]，Bayesian binninginto quantiles [31]和Platt scaling [38这些方法中的大多数固定分类器并通过后验保持验证来学习校准图。大多数可以扩展到多类设置并与DNN结合。其中，温度标度，最简单的扩展普拉特标度，已被证明是最有效的评估[6]。正则化：一些DNN正则化技术也可以提高置信度校准，尽管这不是它们的最初目标。两个例子是最初提出的标签平滑[28]和混合[47]提高泛化能力[37，46]和对抗性鲁棒性-dropout [44]可以转换为近似贝叶斯推断。[42]将此框架推广到其他随机推理技术，如跳过层[11]。[2]提出用随机变分推断作为一种近似的Bayes方法。Ensemble：深度集成[22]平均多个独立训练的DNN的概率预测。在分类和校准性能方面，这被证明优于上面讨论的许多单DNN方法[35]。它的主要缺点是算法复杂度和时间复杂度与集成规模成线性关系。已经提出了几种有效的集成方法[49，50]。[24]提出从深层系综中训练单个DNN知识蒸馏[102.2. 将多类还原为二进制在机器学习中，多类分类的经典方法是将问题简化为C（C1）/2二元问题，因为二元问题通常更容易解决[1，7]。二元预测可以通过简单的投票[4]或其他成对耦合算法[40，51]进行组合。该策略已成功用于使用支持向量机[51]、AdaBoost [1]和浅层神经网络[39]的多类分类然而，这种策略很少被用于像DNN这样的复杂模型，部分原因是它在C中的二次复杂性对于DNN来说是禁止的。3. 成对约束在本节中，我们首先讨论多类和成对二进制分类的概率校准之间的关系然后，我们介绍了CPC的方法。3.1. 多类DNN多类DNN是从特征空间到一组标签=1，. . .、C.DNN分三个阶段进行分类。第一个是特征提取器或嵌入v：Rd，其由θ参数化并将观测x映射到d维特征空间。这通常通过组合线性和非线性变换的一系列层来实现。二是估计类后验概率分布，使用softmax回归[ 55 ]第55话：此外，几个正则化Θewy，v（x）+by专门为校准设计的损失已经得到了支持，[15，52]。πy（x）：= P（y|x; Θ）=Ck=1 ewk，v（x）+bk、（1）其中wy/by是类别y的分类权重/偏差，贝叶斯DNN：贝叶斯神经网络以其表达预测不确定性的能力而闻名[26，32]。虽然精确的贝叶斯学习和推断对于DNN来说是难以处理的，但是已经提出了许多近似方法，例如Monte Carlo dropout [5]或Bayes bybackprop [2]。[5]他表示，Θ ={θ} {wy，b y}C ，并且表示点积。在下文中，为了简单起见，只要方便，我们将省略πΘ（x）对Θ或x三是贝叶斯决策规则y（x）= arg max πΘ（x）。（二）我我13712∗βΣΣ切Θ{B Y}YO我我∀我∀nDNN被称为校准，如果它产生准确的类后验概率分布π=（π1，. . .，π C）。更确切地说，给定观测x的类后验被称为校准，如果πi（x）=πi（x）（3）房间设施由此，πi=πi和πj=πj都不成立。因此，多类后验分布π无法校准。由此可见，π只有在所有二元问题都被校准的情况下才被校准充分性证明：假设所有二元问题都经过校准。则βij=βi<$j，<$i，j，其中πi是最优估计量，Ex，y[1y=i|πi<$（x）=p]=p，<$p∈（0，1]，（4）其中1·是指示函数，如果其参数为从中βijβjiπβiαj=纪i，jπ∗true，否则为0。 DNN是完美校准的，如果（3）对所有x∈ X成立。I=πj我πji，j3.2. 多类和成对二进制校准类集合Y还定义了许多一对一πiπji=j1−π=πiji=jπj1 −π∗(1v1)分类问题这些是二进制分类-对于所有i j，将类i与类j对立的问题。让j=jjπjπjBij是与类i和类j相对的分类问题πj=πjjB（Y）={Bij}ij是从集合Y导出的所有这样的问题的集合。1v1问题Bij的类后验概率由下式给出：并且校准多类问题。3.3. 校准监督率β ij= P（y = i|y = i或y =j，x）P（y = i|x）给定一个训练集D路车 ={（x1，y1），. -是的-是的，（xn，yn）}，= P（y = i或y =j|x）DNN参数Θ通过最小化em来学习。πi=π+π=1 − βji。（五）违约风险R（L）=λL（x，y; Θ），（7）如果出现以下情况，则校准1v1问题i=1其中L是损失函数，通常是交叉熵损失βij =βij =πiπ+π.（六）L（x，y; Θ）= − log πy（x）。（八）I j我们假设，DNN训练的校准不良下面的结果表明，二进制校准问题提供了替代约束的校准的多类问题。引理1. 对类集导出的所有二元问题ij（）ij由Y定义的问题。证据必要性证明：假设存在一个未校准的二元问题Bij。使用βji=在这种方式中，部分是由于交叉熵训练在校准约束方面是非常低效的监督形式注意，（8）只提供了对x所属的类y的概率πy的虽然通过后验概率必须总和为1的约束隐式地向其他类提供了一些监督，但这是非常分散的，不针对任何特定的概率。总体而言，如图1所示，交叉熵训练用于校准的监督率大致为：1−βij，我们有βij<$=βi<$j和βji=<$βij=βijπiβji. 因此，πi每个例子一个类，总共（n）为整个数据集。自淡化监管为后除了标签y之外的类的概率随着类C的数量而增加，我们的假设表明，=π+ππ+πJ13713校准将随着C的增加而降低实验上，我们i ji jπiπi+πiπjπiπjπiπj=πi<$πi+πi<$πj=πiπj=πiπj已经证实，在交叉熵损失下训练的DNN的校准性能通常随着类C的数量增加和训练示例n的数量减少而急剧下降。在第5节和图4中对此进行了更详细的讨论。̸13714Y- -1+πiππ⟨⟩Σ−真正的阶级，即。是的，为了校准这些问题，我们求助于二进制交叉熵损失（C−1）（C−2）IJ=−i=y，j =y πi+πjπi+πjYJπy+πjπy2（C−1）YJiy1+πjy1=1+ewi−wj，v（x）+bi−bj- -Σ−IJ=LΣ L1个以上4. 使用成对约束进行均匀先验分布在本节中，我们考虑如何增加校准-be1DNN培训的监督率。4.1. 二进制识别约束Lij（x，y; Θ）=−21yi，y=j（logβi j（x）+logβji（x））。（十二）由于，从引理1，校准的多类分类器是等价的校准的所有二进制分类问题，我们建议使用这些prob-lems，以增加监督率校准的训练过程。我们首先考虑问题Bij联系我们这被表示为二进制排除约束（BEC），因为它将两个类标识为不负责示例x。然后将BEC损失定义为所有这些约束的平均值，Lbe（x，y; Θ）= 1<$Lbe（x，y; Θ）IJ1v1的=−iy，jylogβij+logβjiLij（x，y; Θ）= −1y=i log β ij（x）− 1y=j logβ ji（x）。（九）注意，对于给定的y，这与2（C）1）（C2）对数πi +logπj− log β=−logπy如果y=i，1v1的2（C−1）（C−2）i=y， j=y11+πi 原木11个以上+logLij（x，y;Θ）=-logβyi=−logπy+πi，如果y=j，0，否则。=πi2（C−1）（C−2）πj （十三）整个二进制分类器池可以通过添加1v1损失1v1（x，y; Θ）=11v1（x，y; Θ）2（C−1）ij一个人一对一+一个人一对一J yi=y这种损失提供了明确的监督所有（C1）（C2）类对，不包括y的类后验概率，并增加了监督率校准到O（nC2）。4.3. 执行上述二进制损失函数均由以下组成：形式1的条件。对于（1）的softmax分类器πj=−1logπy1 1（C−1）jyπy+πj1+πiJ =ewi，v（x）+biwj，v（x）=−1个对数1 .一、（10）e这种损失提供了对所有涉及πy的（C−1）类对的概率的明确监督。我们将这些对表示为二进制鉴别类对，并且将L1v1表示为=σ（wj−wi，v（x）+bj−bi）=σ（wj，v（x）<$+bj−<$wi，v（x）<$−bi）=σ（l（x）−l（x）），（14）二进制鉴别约束（BDC）损失。添加ji的L1v1的交叉熵损失L增加的速率的监督校准到O（nC）。4.2.二进制排除约束仍然需要考虑二元问题{Bij}ij，不包括真正的标签y，即y{i，j}。对于这样联系我们其中σ（u）=（1+e−u）−1是sigmoid函数，li（x）=wi，v（x）+bi是在网络顶部的softmax函数的输入处计算的logit。因此，损失函数L1v1和Lbe可以写为：1Σ问题，观察不属于任何这些两个类别，真实的二元后验是未知的。在缺乏其他信息的情况下，自然采用无信息先验，即统一先验be（x，y;Θ）=C−1j=yi=y，j=ylogσ（li（x）−lj（x））2（C−1）πj1v1的L（C−1）J yL（x，y;Θ）=−logσ（ly（x）−lj（x）），（15）13715（C−2）βi（x）=βj（x）=1/2。（十一）-阿吉y，jylogσ（l j（x）−l i（x））。（十六）2（C−1）（C−2）通过将Kullback-Leibler散度[20]添加到先前的损失中，可以将约束包括在训练中。最后，可以通过组合两个成对的二进制约束来实施二进制校准约束，13716∈YD {}{1}|}i=1联系我们Σ≤Σ||MMMm=1λ1 λ2λ3M|BM|yy我1.21.155.1.2评估指标1.11.0510.950.90.850.80.750.7816 3264 128C256512对于任何类i，如果满足以下条件，则相应的类后验概率估计量πi是完全校准的：Ex，y[1y=i|π i（x）=p]−p=0，<$p ∈（0，1].（18）在实践中，不可能验证（18）是否成立，因为p是一个连续变量，LHS中的期望为（18）不能使用fi对p的所有值进行估计图3.每次迭代处理256张224×224图像的训练时间与C相比（在NVIDIA A40上运行1000次的平均值Nitesampletest=（xi，y i）i.校准误差的一种流行的近似估计方法是将terval（0，1]到M个仓中。I=（m−1，m]<$M，定义（15）和（16）的BEC，将（8）的交叉熵损失纳入总体目标B m=imaxyπy（xi） Im作为前样本分配给Im，并获得准确度和平均值每个箱的置信度为1acc（Bm）=ce1v 1be1yi=arg maxyπy（xi）、（十九）L= λ1L+ λ2L+ λ3L，（17）|BM|i∈B m其中，和是非负乘数。培训这种损失表示为成对校正，conf（B）=1 maxπ（x），（20）应变（CPC）。注意，因为logit {l i（x）}C是哪里|·|表示集合的基数。预期口径-对于计算Lce，计算在（15，16）中的项log σ（l j（x）l i（x））ij的定义具有非常小的附加复杂度。这是经验性的在图3中演示了这一点，它比较了测量误差（ECE）[31]和平均校准误差（ACE）[33]因此，M使用和不使用CPC训练DNN。对于C512，CPC带来的额外时间成本不到10%，几乎可以忽略不计。总而言之，产品总分类能够实现一个重要的目标，ECE=m=1M|acc（B|acc(B|Dtest|）−conf（Bm）|（二十一）不能提高校准监督率，时间复杂度为O（n）到O（nC2），代价是ACE=1acc（BMm=1）−conf（Bm）|（二十二）训练的复杂性。5. 实验5.1. 实验装置5.1.1数据集和网络在校准文献中常用的两个自然图像数据集CIFAR- 10和CIFAR-100 [16]上评价CPC。对于数据集偏移下的评估，我们使用了CIFAR-10-C和CIFAR-100-C [9]，这些图像首先从CIFAR-10和CIFAR-100的测试集中提取，然后被16种不同类型的失真（每种失真具有5个强度级别）破坏为了研究CPC与不同类型DNN的兼容性，使用多种 DNN 架构进行了评估： VGG-13 ，VGG- 19[43]，ResNet-34和ResNet-101 [8]。为VGG-13和VGG-19添加了现代技术批次归一化[12由于CIFAR-10/100的图像分辨率较低（32×32），因此我们将ResNet-34和ResNet-101的第一个卷积层的步长设置为1。VGG-19VGG-13 + CPC VGG-19 + CPC运行时间/秒GPU）。i∈BmMM13717并在这项工作中用于评估校准质量5.1.3实现细节我们使用PyTorch实现了CPC [36]。所有模型均通过随机梯度下降（SGD）进行训练，动量为0.9，权重衰减为0.0005，持续200个时期。SGD批量设定为256。学习率初始化为0.1，并在80、140、180时期衰减0.2对于数据集和网络的每种组合，（17）中的λ1、λ2和λ3都是通过对训练集进行保留验证来选择的。对于ECE和ACE评价指标，M被设定为20。有关更多实施细节，请参见补充材料5.2. 实证结果5.2.1C和n对校准的影响在上述讨论中，我们假设CPC提高了校准监督率。粗略地说，这表明CPC增加了每个训练示例的校准约束的这意味137180.06香草CIFAR-100.12CIFAR-10香草0.2香草CIFAR-1000.4CIFAR-100香草0.050.040.030.020.01中共0.10.080.060.040.02中共0.150.10.05中共0.350.30.250.20.150.1中共02 4 6 810C01 2 3 45n104020 40 60 80100C0.051 2 3 4 5n104图4.预期校准误差（ECE）与类别数C和训练样本数n的关系。使用VGG-19网络对5次运行的评价进行平均。10500.5 0.55 0.6 0.65 0.7 0.75 0.8 0.85 0.9 0.95ij（x）中共鸟（0.71）狗（0.42）马（0.58）卡车（0.81）图6.样本图像和不同分类器的类预测。括号中显示了后验估计432100.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1ij（x）图5.由CPC训练的ResNet-101在CIFAR-100上生成的二进制后验概率βij（x）的直方图。顶部：属于类j并被分配给类i的示例。下：标签既不是类i也不是类j的例子。引入CPC应该等同于使用具有更大尺寸n的训练集的香草交叉熵训练。一般而言，预期ECE将是n的递减函数。因此，CPC的添加应将ECE与n的曲线向左推。我们还假设香草交叉熵的弱校准性能是由于每个示例主要贡献用于校准真实类概率的监督的事实。其余的概率仅通过所有后验概率总和必须为1的约束来接受监督。由于这种约束随着类C的数量的增长而越来越分散，因此对于给定的n，ECE应该随着C而增加。由于CPC提供了对所有类别后验概率的监督，因此随着C的增加，其影响应该更大。为了验证这些假设，我们评估了DNN的校准误差作为C和n的函数。这是通过从原始训练集中随机抽样C个训练类和n个训练图4所示的ECE曲线证实了这两种假设。首先，香草交叉熵训练的校准性能随着C的增加和n的减小而急剧下降。其次，对于固定数量的类C，CPC将ECE与n的曲线向左移动。的成果可能会很激烈例如，在CIFAR-100上，使用10000张图像数据集的CPC训练比使用50000张图像的普通训练实现了更好的校准第三，对于给定的大小为n的数据集，CPC将ECE与C的曲线向右移动。5.2.2定性结果图5绘制了图2的二进制概率β ij（x）的直方图，当ResNet-101使用CPC训练时。图2中的普通DNN的问题行为已经大大减轻。网络对错误分配的置信度要低得多，对真实标签以外的类别分配的概率要均匀得多这是CPC训练的网络在本工作中考虑的所有架构和数据集上的典型图图6显示了从CIFAR-10中采集的一些错误分类的图像。使用CPC，观察到与不正确预测相关的估计类后验概率不同程度的降低。5.2.3与最新技术水平的CPC与几种流行的单模型校准基线进行了比较：vanillaDNN，温度缩放[6]，MC dropout [44]，标签平滑[28，46]和mixup [47，55]。为了在不使用dropout的ResNet-34和ResNet- 101上评估MC dropout，我们插入了一个dropout层f（x; y）jij（x）> 0：5; y = j g中共f（x;y）jy=6 i;y=6JG中共欧洲经委欧洲经委欧洲经委欧洲经委飞机猫鹿汽车香草鸟（0.95）狗（0.64）马（0.96）卡车（0.95）13719−O0.70.60.50.40.30.20.100 1 2 3 4 50.350.30.250.20.150.10.0501 2 3 4 5000000000 123 4 5转换强度级别转换强度级别转换强度级别图7.不同方法在VGG-13和CIFAR-10上不同数据偏移水平下的校准和分类性能0.70.60.50.40.30.20.100 123 450.350.30.250.20.150.10.050 1 2 3 450.90.80.70.60.50.40.30.20 123 4 5转换强度级别转换强度级别转换强度级别图8.在VGG-19和CIFAR-10上使用和不使用CPC的深度合奏的性能比较在特征提取器和分类器之间。图7总结了CIFAR-10数据集上VGG-19的不同方法的校准和分类性能。在该图中，比较仅限于单模型方法，其在推理期间需要单个由于篇幅所限，补充材料中提供了网络结构和数据集的其他组合的结果。从图中可以得出一些结论。首先，CPC总是达到与其他方法相当的精度其次，CPC在两个数据集上的所有单模型方法中具有最好的校准性能，对于几乎所有的网络架构。对于许多架构和指标，收益可能是相当大的。5.2.4与CPC众所周知，可以通过使用深度系综来提高校准性能，即，独立训练的DNN的集合这倾向于以在存储器和计算方面更昂贵的推理为代价来CPC是深度集成的补充，因为它可以用于校准集成中的每个网络。为了研究CPC对深度集成的好处，我们考虑了大小为3的集成，并将vanilla DNN的集成与使用CPC训练的DNN的集成进行了这些实验的结果总结在图108.结果表明，与CPC深度集成实现可比的精度和更好的校准比香草深度集成。6. 结论我们考虑了DNN的概率校准问题。首先证明了C-路分类器的标定等价于C（C1）/2两两分类器的标定.有鉴于此，我们提出了两个成对的校准约束，提高校准监督率。这被证明能够实现最先进的概率校准性能。在未来，我们将研究我们的方法可能存在的局限性，如建议的约束（nC2）的复杂性是否会成为超大型C的问题。确认这项工作的部分资金来自NSF奖项IIS- 1924937和IIS-2041009，亚马逊的礼物，高通公司的礼物以及NVIDIA GPU捐赠。我们还确认并感谢使用Nautilus平台进行上述一些实验。Mixup中共温度刻度标签平滑香草MC脱落香草MC跌落温度刻度标签平滑混淆中共1.9.8.7.6.5.4.3.2中共标签平滑Mixup温度刻度香草MC脱落深度合奏深度包围+CPC深度合奏深度包围+CPC深度合奏深度包围+CPC欧洲经委欧洲AceAce精度精度13720引用[1] Erin L Allwein，Robert E Schapire和Yoram Singer。将多类还原为二进制：边缘分类器的统一方法Journal ofMachine Learning Research（JMLR），1（Dec）：113-141，2000. 3[2] CharlesBlundell，JulienCornebise，KorayKavukcuoglu，and Daan Wierstra.神经网络中的权重不确定性。ICML，2015。二、三[3] 格伦·W·布瑞尔。以概率表示的预测的验证。每月天气评论，78（1）：1-3，1950。1[4] 杰罗姆·H弗里德曼多分类的另一种方法。技术报告，斯坦福大学统计系，1996年。3[5] 亚林·加尔和祖宾·加赫拉马尼。Dropout作为一种近似：表示深度学习中的模型不确定性。InICML，2016. 一、二、三[6] Chuan Guo ， Geoff Pleiss ， Yu Sun ， and Kilian QWeinberger.现代神经网络的校准。ICML，2017。一、二、三、七[7] Trevor Hastie和Robert Tibshirani按成对耦合分类.统计年鉴，26（2）：4513[8] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。1、6[9] Dan Hendrycks和Thomas Dietterich基准神经网络的鲁棒性常见的腐败和扰动。在ICLR，2018年。二、六[10] Geoffrey Hinton Oriol Vinyals和Jeff Dean。提取神经网络中的知识。arXiv预印本arXiv：1503.02531，2015。3[11] Gao Huang，Yu Sun，Zhuang Liu，Daniel Sedra，andKilian Q Weinberger.深度随机的深度网络。在ECCV，2016年。3[12] Sergey Ioffe和Christian Szegedy。批量归一化：通过减少内部协变量偏移来加速深度网络训练。ICML ，2015。6[13] 姜晓倩，梅勒妮·奥斯尔，金智勋，和露西拉·奥诺-马查多.校准预测模型估计以支持个性化医疗。Journal of theAmerican Medical Informatics Association， 19（2 ）：263-274，2012. 1[14] 亚历克斯·肯德尔和亚林·加尔贝叶斯深度学习在计算机视觉中需要哪些不确定性？NeurIPS，2017。3[15] Ranganath Krishnan和Omesh Tickoo通过精确度与不确定度优化改进模型校准在NeurIPS，2020年。3[16] 亚历克斯·克列日夫斯基和杰弗里·辛顿从微小的图像中学习多层特征。技术报告，多伦多大学，2009年。6[17] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。InNeurIPS，2012. 1[18] Volodymyr Kuleshov ， Nathan Fenner ， and StefanoErmon.使用校准回归的深度学习的精确不确定性。在ICML，2018。1[19] Mee lisKull， MiquelPerelloNieto ， MarkusK ？ ngsepp，Telmo Silva Filho，Hao Song，and Peter Flach.超越温度标度：用狄利克雷校准获得良好校准的多类NeurIPS，2019。1[20] S. Kullback 和 R. A. 莱布勒关于信息和充足性。 TheAnnals of Mathematical Statistics，22（1）：791951年3月5[21] Ananya Kumar，Percy S Liang，and Tengyu Ma.验证不确定度校准。NeurIPS，2019。1[22] Balaji Lakshminarayanan，Alexander Pritzel，and CharlesBlundell.使用深度集成的简单和可扩展的预测不确定性估计。NeurIPS，2017。二、三[23] Yann LeCun，Yoshua Bengio，and Geoffrey Hinton.深度学习Nature，521（7553）：436-444，2015. 1[24] 李志忠和Derek Hoiem。提高对不熟悉例子的信心估计。在CVPR，2020年。3[25] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络。CVPR，2015。1[26] 大卫·JC·麦凯。一个实用的反向传播网络的基本框架神经计算，4（3）：448-472，1992年。3[27] Jishnu Mukhoti ， Viveka Kulharia ， Amartya Sanyal ，Stuart Golodetz，Philip HS Torr，and Puneet K Dokania.使用焦点损失校准深度神经网络。在NeurIPS，2020年。1[28] 拉斐尔·穆勒，西蒙·科恩布利斯，吉奥·弗雷·伊·辛顿。标签平滑在什么情况下有帮助？ NeurIPS，2019。二、三、七[29] 艾伦·墨菲概率得分的一种新的向量划分. Journal ofApplied Meteorology，12（4）：595-600，1973. 1[30] Allan H Murphy和Robert L Winkler。降水和气温主观概率预报Journal of the Royal Statistical Society：Series C（Applied Statistics），26（1）：41-47，1977. 1[31] Mahdi Pakdaman Naeini，Gregory F Cooper，and MilosHauskrecht.使用贝叶斯分箱获得良好校准的概率。InAAAI，2015. 三、六[32] 雷德福 ·尼尔神经网络的贝叶斯学习，第 118 卷。Springer Science Business Media，2012. 3[33] Lukas Neumann ， Andrew Zisserman ， and AndreaVedaldi. Relaxed softmax：高效的置信度自动校准，用于安全的行人检测。在NeurIPSW，2018年。6[34] Anh Nguyen，Jason Yosinski和Jeff Clune。深度神经网络很容易被愚弄：无法识别图像的高置信度预测CVPR，2015。第1、3条[35] Yaniv Ovadia，Emily Fertig，Jie Ren，Zachary Nado，David Sculley ， Sebastian Nowozin ， Joshua Dillon ，Balaji Lakshmi- narayanan，and Jasper Snoek.你能相信你的模型的不确定性吗？评估数据集偏移下的预测不确定性。NeurIPS，2019。一、二、三[36] Adam Paszke 、 Sam Gross 、 Francisco Massa 、 AdamLerer 、 James Bradbury 、 Gregory Chanan 、 TrevorKilleen 、 Zeming Lin 、 Natalia Gimelshein 、 LucaAntiga 、 Alban Desmaison 、 Andreas Kopf 、 EdwardYang 、 Zachary DeVito 、 Martin Rai son 、 Alykhan13721Tejani 、 Sasank Chilamkurthy 、 Benoit Steiner 、 LuFang、Junjie Bai和Soumith Chintala。Pytorch：一个13722命令式、高性能深度学习库。在NeurIPS，2019。6[37] Gabriel Pereyra ， George Tucker ， Jan Chorowski ，Łukasz Kaiser，and Geoffrey Hinton.通过惩罚置信输出分布来正则化神经网络。ICLRW，2017年。3[38] John Platt et al. Probably outputs for support vectormachinesandcomparisonstoregularizedlikelihoodmethods. Advances in large margin classifiers，10（3）：61-74

下载后可阅读完整内容，剩余1页未读，立即下载