深度神经网络中的单次置信度校准和预测准确性

170 浏览量更新于2023-10-19 收藏 596KB PDF 举报

深度神经网络

预测准确性

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1通过随机推理学习深度神经网络中的单次置信度校准SeongukSeo1Paul HongsuckSeo1，2Bohyung Han11Computer Vision Lab.，韩国首尔国立大学ECE ASRI2计算机视觉实验室韩国POSTECH@snu.ac.krhsseo@postech.ac.kr摘要我们提出了一个通用框架，通过随机推理来校准深度神经网络中预测的准确性和置信度。我们使用贝叶斯模型解释了随机正则化，并分析了网络的预测不确定性与单个例子的随机推理得到的预测分数的方差之间的我们的实证研究表明，预测的准确性和得分与由随机深度或辍学给出的多个随机推断的方差高度相关。基于这一观察结果，我们设计了一种新的方差加权置信度综合损失函数，该函数由两个关于地面真实和均匀分布的交叉熵损失项组成，并通过随机预测分数的方差进行平衡。提出的损失函数使我们能够学习使用单一推理预测置信度校准分数的深度神经网络。我们的算法在多个模型和数据集上结合两种流行的随机正则化技术--随机深度和丢弃，表现出突出的置信度校准性能，并提高了分类精度;它通过训练网络来实现与预测置信度成比例的预测准确度，从而显著地消除了深度神经网络中的过度自信问题。1. 介绍深度神经网络在各种任务中取得了卓越的性能，但其预测的可靠性存在严重局限性一个例子是，即使对于看不见的或模糊的例子，推理由于许多实际应用，包括医疗诊断，自动驾驶和机器检查，需要准确的不确定性估计以及每个推理的高预测得分，这种过度自信，*同等贡献信任问题使得深度神经网络不适合被部署用于现实世界的问题，尽管它们具有令人印象深刻的准确性。正则化是训练深度神经网络的常用技术，以避免过拟合问题并提高泛化性能[10，11，24]。虽然正则化对于学习鲁棒模型是有效的，但其目标与生成与预测的不确定性一致的分数分布没有直接关系因此，现有的深度神经网络在校准预测精度和置信度方面往往很差。我们的目标是学习能够估计每个预测的不确定性，同时保持准确性的深度神经网络。换句话说，我们提出了一个通用的框架来校准深度神经网络中的预测得分（置信度）。我们的算法的主要思想开始于一个观察，即从多个随机推断测量的预测分数的方差与平均预测的准确性和置信度高度相关。我们还表明，贝叶斯解释的随机正则化，如随机深度和dropout导致的一致的结论与obstetry。通过使用具有理论解释的经验观察，我们设计了一种新的损失函数，使深度神经网络能够仅基于单个预测来预测我们的贡献总结如下：• 我们提供了一个通用框架，用于基于深度神经网络中的随机推断来估计预测的不确定性，这得到了经验证据的支持。观察和理论分析。• 我们提出了一种新的方差加权置信度集成损失函数的原则性的方式，它en.使网络能够产生置信度校准的预测，即使不执行随机推理和引入超参数。• 建议的框架提出了突出的表现，以减少过度自信的问题和估计的ac-mance，90309031输出间隙输出间隙10010010080 80 8060 60 6040 40 4020 20 200020.040.060.080.0100.0评分（%）020.040.060.0八十100.0评分（%）20.040.060.0八十100.0评分（%）(a) 基线（ECE = 0.346）(b) CI[Oracle]（ECE =0.122）(c) VWCI（ECE = 0.053）图1.在Tiny ImageNet数据集中使用基线、CI（我们的）和VWCI（我们的）损失训练的VGG-16模型的可靠性图该图显示了作为置信度函数的预期准确度，即，分类得分。ECE（预期校准误差）表示置信度和预期准确度之间的平均差距所提出的算法（VWCI）实现了良好的校准结果相比，基线和最好的估计，我们的一个简单的版本（CI）。管理网络架构和数据集的各种组合中的不确定性。本文的其余部分组织如下。我们回顾了先前的研究，并在第2和第3节分别描述了理论背景。第4节介绍了我们的信心校准算法通过随机推理，第5节展示了实验结果。2. 相关工作深度神经网络中的不确定性建模和估计贝叶斯方法是为不确定性估计提供数学框架的常用工具。然而，由于其高计算成本和各种近似推理技术-MCMC [17]，拉普拉斯近似[14]和变分推理[1，4，8，20]-已经提出。最近，乘性噪声的贝叶斯解释被用来估计深度神经网络中的不确定性[3，15]。除此之外，贝叶斯建模之外还有几种方法，例如。，后处理[5，18，22，28]和深度集成[12]。所有的后处理方法都需要一个保留的验证集来调整训练后的预测分数，而基于集成的技术则采用多个模型来估计不确定性。随机正则化是一种众所周知的技术，通过向深度神经网络注入随机噪声来提高泛化性能。最著名的方法是dropout [24]，它基于伯努利随机噪声拒绝层中隐藏单元的子集。有几种变体，例如，降低权重[27]或跳过层[10]。大多数随机正则化方法在训练过程中执行随机推理，但确定性，在测试期间使用完整网络进行tic预测。相反，我们也采用随机推理，以获得不同的和可靠的输出在测试过程中。虽然下面的工作不解决不确定性估计，他们的主要思想是与我们的目标或多或少。标签平滑[25]通过防止网络将全部概率分配给单个类，鼓励模型变得不那么自信。在[13]中讨论了一个类似的损失函数来训练置信度校准的分类器，但它侧重于如何区分分布内和分布外的示例，而不是估计不确定性或减轻分布内示例的误校准。另一方面，[21]声称盲标签平滑和惩罚熵通过将损失函数与[13，25]的概念相同来提高准确性，但其改进在实践中是微不足道的。3. 预赛本节描述了深度神经网络中随机正则化的贝叶斯解释，并讨论了随机正则化和不确定性建模之间的关系。3.1. 正则化的随机方法一类流行的正则化技术是随机正则化，它引入随机噪声扰动网络结构。我们的方法专注于乘法二进制噪声注入，其中随机二进制噪声通过逐元素乘法应用于输入或权重，因为这种随机正则化技术被广泛使用[10，24，27]。注意，输入扰动可以重新表述为权重扰动。例如，丢弃-二进制噪声注入到激活-可解释为权重扰动，其掩盖了与丢弃的输入相关联的所有权重。因此如果一输出间隙准确度（%）90322i=1分类网络建模|x，θ），带参数θ是用随机正则化方法训练的，在Eq.（1）改写为最小化交叉熵，损失函数定义为：1ΣNL<$SR（θ）=−MΣMi=1logp（yi|xi，ωi）+λ||θ||第二条第六款LSR（θ）=−Ni=1 logp（yi|xi，ωi），（1）其中，正则化应用于确定性参数，其中ωi=θi是通过与随机噪声样本i p（）的逐元素乘法得到的扰动参数集，（xi，yi）∈ D是训练数据集D中的一对输入和输出。在推理时，网络由扰动参数的期望值Θ=E[ω]=θ∈E[ω]参数化，以预测输出y∈，其由下式给出：y=argmaxp（y|x，Θ）。（二）y参数θ和权重λ。优化损失函数相当于优化Eq。（5）若存在适当的先验p（ω），qθ（ω）近似为高斯混合分布[3]。注意[3]将dropout训练转换为近似贝叶斯推断。因此，我们可以通过简单的修改在相同的框架内解释具有随机深度的训练[10]。(See我们的详细资料。）然后，用随机正则化训练的模型的预测分布近似为：∫3.2. 贝叶斯建模给定具有N个示例的数据集D，贝叶斯对象p（y|x，D）=p（y|x，ω）q θ（ω）dω.（七）ω目的是估计模型参数的后验分布，用p（ω）表示|D），以预测输入x的标签y，其由下式给出：∫在[3]和[26]之后，我们估计预测均值，通过将参数样本{ωi}T绘制为p（y |x，D）=p（y|x，ω）p（ω| D）dω。（三）ωEp[y=c]1ΣT不p（y=c|x，ωi），（8）后验估计的一种常用技术是变分近似，它引入近似距离qθ（ω）并最小化Kullback-Leibler（KL）偏差。具有真实后验DKL（qθ（ω））的梯度||p（ω|D）如下-低点：i=1Covp[y]Ep[yy]−Ep[y]Ep[y]，（9）其中y =（y1，. . . 表示C个类别标签的得分向量。当量（8）和Eq。（9）平均预测及其预测不确定性可以从多个LVA（θ）= −ΣN ∫i=1ωq θ（ω）log p（y i| xi，ω）dω随机推理4. 方法+DK L（qθ（ω）||p（ω））。（四）在Eq中的整个数据集上的棘手的积分和求和。（4）用蒙特卡罗方法和小批量优化近似，得到我们提出了一种用于深度神经网络预测的新的置信度校准技术，该技术由方差加权置信度集成损失函数给出。我们提出我们的观察，方差的多重随机推理是密切相关的准确性和信心L<$VA（θ）=−Mlogp（yi|xi，ωi，j）的预测，并提供了一个端到端的培训框架工作的信心自我校准。然后，我们证明，MSi=1j =11N9033+DKL（q θ（ω）||p（ω）），（5）其中ωi，j<$qθ（ω）是来自近似分布的样本，S是样本的数量，M是小批量注意，第一项是数据似然，第二项是近似分布相对于先验分布的发散。3.3. 随机正则化假设我们通过随机梯度下降方法训练一个具有102正则化的分类器然后，损失预测准确度和不确定性可直接从来自单个前向传递的预测得分获得。4.1. 经验观察当量（9）意味着模型的变化导致单个示例的多个随机预测的方差。图2显示了由随机深度或dropout给出的多个随机推断的方差如何与相应平均预测的准确度和置信度相关，其中置信度由平均预测的最大得分来衡量在图中，每个bin的准确度和得分是通过以下方式计算的：9034精度样本覆盖平均得分样本覆盖率精度样本覆盖平均得分样本覆盖率样本覆盖率（%）样本覆盖率（%）平均评分（%）平均评分（%）样本覆盖率（%）样本覆盖率（%）准确度（%）准确度（%）10010010010010080 80 80 80 8060 60 60 60 6040 40 40 40 4020 20 20 20 20000.05 0.1 0.15 0.2归一化方差000.05 0.1 0.15 0.2归一化方差030.0 50.0 70.0 90.0评分（%）(a) ResNet-34中具有随机深度的预测不确定性特征10010010010010080 80 80 80 8060 60 60 60 6040 40 40 40 4020 20 20 20 20000.05 0.1 0.15 0.2 0.25归一化方差000.05 0.1 0.15 0.2 0.25归一化方差030.0 50.0 70.0 90.0评分（%）(b)16层图2.从两种随机正则化方法的多个随机推断中观察到的不确定性，（a）随机深度和(b) 辍学生我们提出（左，中）的准确性和得分的平均预测相对于归一化方差的随机推断和（右）得分和准确性之间的关系的在正则化方法中，平均准确度和得分随着归一化方差的增加而逐渐下降红线表示示例的覆盖率（累积比率）我们介绍了CIFAR-100的结果这些例子属于归一化方差的相应仓我们展示了CIFAR-100与ResNet-34和VGGNet的结果，直方图说明了预测变量与预测的可靠性（准确性和置信度）之间的强相关性;我们可以估算出整个训练数据（xi，yi）∈D由标准交叉熵损失与地面真值LGT（·）和交叉熵y与均匀分布LU（·）的线性组合定义，其形式上由下式给出：ΣNLVWCI（θ）= （1−αi）L（i）（θ）+αiL（i）（θ）实例有效地根据其预测方差给出通过多重随机推理GT Ui=11ΣN ΣT4.2.方差加权置信综合损失= 不i=1j =1−（1−αi）logp（yi|xi，ωi，j）图2中观察到的准确度和置信度与预测方差的强相关性表明，通过随机推断进行置信度校准预测具有很大的然而，方差计算通过执行多个向前传递而涉及多个随机推断。请注意，此属性会导致额外的计算成本，并可能产生不一致的结果。为了减轻这些限制，我们提出了一个通用的框架，用于训练准确度分数校准的网络，其预测分数从一个单一的前向传递直接提供预测的信心。通过设计一个新的损失函数，在标准交叉熵损失的基础上增加一个置信度校正项，并用多个随机推断的方差来平衡这两个项，从而达到了这个目的具体来说，我们的方差加权置信综合损失LVWCI（·）+αiDK L （U （y ） ||p（y|xi ，ωi ，j））+i（十）其中αi∈[0，1]是归一化方差，ωi，j（=θi，j）是随机预测的带有二进制噪声的采样模型参数，T是随机推断的数量，这是一个常数。我们的方差加权置信度综合损失中的两个项将网络推向相反的方向;第一项鼓励网络拟合地面实况标签，而第二项迫使网络做出接近均匀分布的预测。这些项由特定于实例的平衡系数α i线性内插，该平衡系数α i通过对从多个随机推断获得的实例的预测方差进行归一化而给出。请注意，归一化方差αi对于每个训练示例都是不同的，并且用于测量准确度（%）准确度（%）9035CI模型不确定性因此，我们的损失函数的优化产生梯度信号，这导致预测朝着均匀分布的例子与高方差派生的高不确定性，同时增加预测分数的例子与低方差。通过使用所提出的损失函数训练深度神经网络与普通模型不同，我们的模型的预测得分是经过良好校准的，并且代表预测的置信度，这意味着我们可以更多地依赖具有较高得分的预测。其中[5]提出了一种通过使用全局温度τ缩放网络的logits来校准预测置信度的方法。缩放在应用softmax函数之前执行，τ使用验证数据集进行训练。正如[5]中所讨论的，这种简单的技术等价于最大化输出分布的熵p（y i|x i）。这也是相同的，以最小化KL发散DK L（p（yi|xi）||U（y），因为DK L（p（yi|xi）||U（y））Σ=p（y c|x）log p（y c|x）− p（y c|x）logU（y c）4.3. 置信度综合损失我我c∈C我我我我们的主张是，相对于地面真值的交叉熵损失和均匀分布的自适应组合是学习不确定性的合理选择作为建议的损失的一个特殊情况下，我们还提出了一个盲版本的组合，它可以被用作基线不确定性估计技术。该基线损失函数被称为置信度综合损失，其由下式给出：LCI（θ）= LGT（θ）+β LU（θ）= −H（p（y i|x i））+x′，（12）其中C是类集，而C′是常数。我们可以用熵公式表示另一个置信度综合损失，ΣN′（θ）=−log p（y i|x i，θ）− γH（p（y i|xi，θ）），（13）i=1其中γ是常数。当量（13）暗示了[5]中的温度标度与我们的框架密切相关。ΣN=i=1-log p（y i|xi，θ）5. 实验5.1.实验设置+βDKL （ U （ y ） ||p （ y|xi ，θ））+θ，（十一）其中p（y|x i，θ）是具有模型参数θ的预测分布，而θ是常数。这个损失函数的主要思想是通过前向分布来正则化均匀分布，期望不确定样本的分数分布首先变平，而置信样本的分数分布保持不变，其中置信度综合损失项的影响由全局超参数β控制.在[21]中也使用了提出的损失函数来正则化深度神经网络并提高分类精度。然而，[21]没有讨论置信度校准问题，同时提出了边际精度改进。另一方面，[13]讨论了一个类似的损失函数，但侧重于通过仅使用取决于其来源的两个损失项中的一个来测量每个示例的损失来区分分布内和分布外示例。与现有的方法相反，我们采用损失函数方程。（11）估计深度神经网络中的预测置信度。虽然置信度综合损失直观上是有意义的，但是与我们的方差加权置信度综合损失相比，超参数β的这种盲目选择4.4. 与其他校准方法的关系有几种通过后处理调整置信度得分的得分校准技术[5，16，18，29]我们选择了四个最广泛使用的深度神经网络架构来测试所提出的算法：ResNet [7]、VG- GNet [23]、WideResNet [30]和DenseNet [9]。我们在ResNet中采用随机深度，如[7]而在除了其它体系结构中的分类层之外的每个FC层之前采用丢弃[24]请注意，如3.3节所述，随机深度和dropout都将乘性二进制噪声注入层内激活或残差块，它们相当于将噪声注入网络权重。因此，使用102正则化项的训练使我们能够通过贝叶斯模型解释随机深度我们在Tiny ImageNet和CIFAR-100两个基准上评估了所提出的框架，这两个基准分别包含200个对象类中的64×64图像和100个对象类中的32×32 有500个训练图像在这两个数据集中。为了进行测试，我们使用TinyImageNet的验证集和CIFAR-100的测试集，每个类分别有50和100张图像。为了测试具有相同架构的两个基准测试，我们调整im-在Tiny ImageNet中的年龄为32 ×32。所有网络都是通过随机梯度下降来训练的方法，动量为0.9，持续300个epoch。我们将初始学习率设置为0.1，并在epoch 60，120，160，200和250时以 0.2 每个批次包含 64 个 ResNet 、 WideResNet 和L9036DenseNet的训练示例，以及256个VGGNet的训练示例。训练网络，9037表1.网络架构和数据集的几种组合的分类精度和校准分数我们比较了使用基线，CI和VWCI损失训练的模型由于CI损失涉及超参数β，我们给出了具有五个不同β的模型结果的平均值和标准差此外，我们还显示了Oracle CI损失的结果CI[Oracle]，这是各个列中所有β的请注意，CI[Oracle]对应的数字可能来自不同的β完整结果参见补充文件。数据集架构方法准确度[%]欧洲经委MCENLLBrier分数基线50.820.0670.1472.0500.628ResNet-34CI50.09 ±1.080.134 ±0.0790.257 ±0.0982.270 ±0.2120.665 ±0.037大众保险52.800.0270.0761.9490.605CI[Oracle]51.450.0350.1712.0300.620基线46.580.3460.5954.2200.844VGG-16CI46.82 ±0.810.226 ±0.0950.435 ±0.1073.224 ±0.4680.761 ±0.054大众保险48.030.0530.1422.3730.659微型ImageNetCI[Oracle]47.390.1220.3202.8120.701基线55.920.1320.2371.9740.593WideResNet-16-8CI55.80 ±0.440.115 ±0.0400.288 ±0.1001.980 ±0.1140.594 ±0.017大众保险56.660.0460.1361.8660.569CI[Oracle]56.380.0500.2081.8510.572基线42.500.0200.1542.4230.716DenseNet-40-12CI40.18 ±1.680.059 ±0.0610.152 ±0.0822.606 ±0.2080.748 ±0.035大众保险43.250.0250.0892.4100.712CI[Oracle]41.210.0250.0942.4890.726基线77.190.1090.3041.0200.345ResNet-34CI77.56 ±0.600.134 ±0.1310.251 ±0.1281.064 ±0.2170.360 ±0.057大众保险78.640.0340.0890.9080.310CI[Oracle]78.540.0290.0870.9210.321基线73.780.1870.4861.6670.437VGG-16CI73.75 ±0.350.183 ±0.0790.489 ±0.2141.526 ±0.1750.436 ±0.034大众保险73.870.0980.3091.2770.391CIFAR-100CI[Oracle]73.780.0830.2851.2890.396基线77.520.1030.2780.9840.336WideResNet-16-8CI77.35 ±0.210.133 ±0.0910.297 ±0.1081.062 ±0.1800.356 ±0.044大众保险77.740.0380.1010.8910.314CI[Oracle]77.530.0740.2110.9310.327基线65.910.0740.1341.2380.463DenseNet-40-12CI64.72 ±1.460.070 ±0.0400.138 ±0.0551.312 ±0.1250.482 ±0.028大众保险67.450.0260.0941.1610.439CI[Oracle]66.200.0190.0531.2060.456提出的方差加权置信度综合损失，我们绘制T个样本与网络参数ωi为每个in-和MCE的正式定义如下：放置图像，并根据以下公式计算归一化方差α：ΣMECE =|Bm||、|,向前传球。归一化方差由下式给出：平均值的巴塔查里亚系数之间的个别预测和平均预测，因此，在范围[0. 1]中。N′m=1MCE = maxm∈{1，…M}|acc（B m）− conf（B m）|、5.2. 评估指标其中N′是测试样本的数量此外，准确性每个箱的置信度由下式给出：我们测量训练模型的分类精度和校准分数-预期校准误差（ECE），最大校准误差（MCE），负对数似然（NLL）和Brier分数。设Bm是测试示例的一组指数，acc（B）=1M|BM|conf（B）=1M|BM|Σi∈BmΣi∈Bm（y地面实况标签的措辞得分属于区间（m-1，m]，其中M（=20）是仓的数量欧洲经委其中，i是指示函数，y是第i个示例的预测和M M9038表2. 多数据集和架构的VWCI和TS之间的比较。数据集架构方法准确度[%]欧洲经委MCENLLBrier分数TS（病例1）50.820.1620.2722.2410.660ResNet-34TS（病例2）47.200.0210.0802.1590.661大众保险52.800.0270.0761.9490.605TS（病例1）46.580.3580.6044.4250.855VGG-16TS（病例2）46.530.0280.0672.3610.671微型ImageNet大众保险48.030.0530.1422.3730.659TS（病例1）55.920.2000.3352.2590.627WideResNet-16-8TS（病例2）53.950.0270.2241.9250.595大众保险56.660.0460.1361.8660.569TS（病例1）42.500.0370.4562.4360.717DenseNet-40-12TS（病例2）41.630.0240.1092.4830.728大众保险43.250.0250.0892.4100.712TS（病例1）77.670.1330.3561.1620.354ResNet-34TS（病例2）77.400.0360.1650.8860.323大众保险78.640.0340.0890.9080.310TS（病例1）73.660.1970.4991.7700.445VGG-16TS（病例2）72.690.0310.0741.1930.389CIFAR-100大众保险73.870.0980.3091.2770.391TS（病例1）77.520.1440.4001.2850.361WideResNet-16-8TS（病例2）76.420.0280.1010.8910.332大众保险77.740.0380.1010.8910.314TS（病例1）65.910.0950.1651.2740.468DenseNet-40-12TS（病例2）64.960.0820.1631.3060.481大众保险67.450.0260.0941.1610.439dence. NLL和Brier评分是测量校准的另一种方法[2，5，6]，其定义为：N′NLL= −log p（y i|x i，θ），i=1即使与CI[Oracle]相比，CI的性能对β这些结果表明，建议的损失函数有效地平衡两个冲突的损失条款使用多个随机推断的方差，而CI的性能取决于超参数设置在每个数据集。ΣΣBrier=（p（y）=j|x，θ）−（y=j））2.我们还将拟议框架与我i=1j =1伊古里最先进的后处理方法，温度定标（TS）[5]。后处理的主要区别我们注意到，所有这些校准分数的低值意味着网络校准良好。5.3. 结果表1列出了网络架构和基准数据集的几种组合的准确性和校准分数。使用VWCI损失训练的模型在分类准确性和置信度校准性能方面始终优于CI损失模型，CI损失是VWCI的特殊情况，并且是基线我们认为，精度增益部分是由于多个样本的随机调节[19]。CI的性能由β（= 1，10−1，10−2，10−3，10−4）1的5种不同情况的平均值和方差给出，CI[Oracle]表示每列9039中5种情况中最乐观的值。请注意，大众保险在大多数情况下都有出色的业绩[1]根据我们的初步实验，选择了这5个β方法和我们的工作需要的是支持出来的数据集;我们的方法允许在训练期间校准分数而无需额外的数据，而[5]需要保持验证集来校准分数。为了说明我们的框架的有效性，我们在以下两种情况下将我们的方法与TS进行比较：1）将整个训练集用于训练和校准，以及2）将训练集的90%用于训练，剩余的10%用于校准。表2显示，情况1的校准性能较差，情况2由于训练数据减少而基本上失去了准确性，尽管它显示出与VWCI相当的校准分数请注意，TS也可能遭受的直方图的分箱文物，虽然我们不in-investigate在我们的工作中的这一限制。5.4. 讨论为了证明所提出的框架的有效性，我们分析了所提出的算法与烧蚀实验。904030.020.010.040.030.020.010.00.02 4 6 8 10样本数量（T）0.01.00.950.9阈值0.850.820.015.010.05.00.02 4 6 8 10样本数量（T）75.050.025.00.01.00.950.9阈值0.850.8图3.VWCI损失相对于样品数量的ECE(T)在Tiny ImageNet（上）和CIFAR-100（下）数据集上。表3.基于VWCI损失的模型之间的比较，从头开始训练和未校准的预训练网络（由VWCI* 表示）。架构方法Acc. [%]欧洲经委MCENLLBrier基线77.190.1090.3041.0200.345eNetResNet-34大众保险78.640.0340.089 0.9080.310mag大众汽车77.870.0260.0691.0130.346我基线73.780.1870.4861.6670.437inyVGG-16大众保险73.870.0980.3091.2770.391不大众汽车74.170.0740.243 1.2270.385基线50.820.0670.1472.0500.62800ResNet-34大众保险52.800.0270.076 1.9490.605R-1大众汽车52.770.0340.0991.9650.605FA基线46.580.3460.5954.2200.844CIVGG-16大众保险48.030.0530.142 2.3730.659大众汽车46.980.0560.1622.4460.683随机推断的样本大小的影响图3说明了通过在训练期间改变随机推断的数量（T）来训练我们的VWCI损失的模型的ECE。在初始阶段，T的增加有助于提高精度和校准质量，但一般在T为5 ~ 10时，其效益趋于这种趋势在所有测试的架构、数据集和评估指标（包括ECE）中是一致的。在所有实验中，我们将T训练成本虽然我们的方法允许在测试时进行单次置信度校准，但由于多个随机推断，它增加了训练的时间复杂性。幸运的是，校准模型可以更有效地训练，而大多数（≥）没有随机推断80%）的迭代，通过初始化网络与预训练基线模型。表3证实了性能-我们从未经校准的预训练模型中训练出来的模型的竞争力与从VWCI损失中从头开始训练出来的模型一样（甚至更好）。图4. ResNet-34模型在Tiny ImageNet（顶部）和CIFAR-100（底部）上的置信区间覆盖率。覆盖率是由具有比X轴中所示的阈值更高的准确度和置信度的示例的部分计算的。我们提出了多个CI模型的结果，这些模型在各个指标方面具有最佳性能，如图例所示可靠性我们的方法有效地保持了高准确性和置信度的示例，这是构建可靠的真实世界系统的理想属性。图4显示了测试示例的一部分，其准确性和置信度高于ResNet-34中的各种阈值，其中VWCI比CI[Oracle]提供了更好的示例覆盖率请注意，CI的覆盖率通常显著取决于β的选择，如图4（右）所示，而VWCI使用精确校准的预测评分保持比CI更高的覆盖率这些结果意味着，使用预测不确定性来平衡损失项比使用常数系数来设置更可取。6. 结论我们提出了一个通用框架，用于通过基于随机推理的准确性和得分来对深度神经网络中的预测进行不确定性估计。基于随机正则化的贝叶斯解释和我们的经验观测结果，我们认为单个样本的多个随机推断的变化是估计平均预测不确定性的一个关键因素受此启发，我们设计了方差加权置信度综合损失来学习置信度校准网络，并使不确定性能够通过单个预测来估计。所提出的算法也是有用的，以统一的方式理解现有的置信度校准方法，我们比较了我们的算法与我们的框架内的其他变化，以分析其属性。鸣谢本工作得到了三星高等技术研究所和MSIP/IITP资助的韩国ICT研发项目的部分支持[2014-0-00059，2017-0-01778]。ResNet-34VGG-16DenseNet-40-12WideResNet-16-8大众保险CI[=0.1; Acc.，ECE、MCE、NLL、Brier]欧洲经委会（%）大众保险置信区间[ =0.01; NLL]CI[ =0.1; ECE，MCE，Brier]欧洲经委会（%）样本覆盖率（%）样本覆盖率（%）9041引用[1] 大卫·巴伯和克里斯托弗·毕晓普。多层网络的包围NIPS，1998年。2[2] Glenn W Brier和Roger A Allen。验证天气预报。《气象学纲要》，第841斯普林格，1951年。7[3] 亚林·加尔和祖宾·加赫拉马尼。脱落作为贝叶斯近似：在深度学习中表示模型不确定性。InICML，2016. 二、三[4] 亚历克斯·格雷夫斯神经网络的实用变分推理。NIPS，2011年。2[5] Chuan Guo，Geoff Pleiss，Yu Sun，and Kilian Q. 温伯格现代神经网络的校正。ICML，2017。二、五、七[6] Trevor Hastie Robert Tibshirani和Jerome Friedman 统计学习的要素。施普林格纽约公司，2001. 7[7] Kaiming He，Xiangyu Zhang，Shaoying Ren ，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。5[8] Matthew D. 放大图片作者： David M.Blei ， ChongWang，and John Paisley.随机变分推理J.马赫学习.Res. ，14（1）：1303-1347，2013年5月。2[9] 高煌，刘庄，劳伦斯·范德马腾，和Kilian Q.温伯格密集连接卷积网络。在CVPR，2017年。5[10]Gao Huang，Yu Sun，Zhuang Liu，Daniel Sedra，andKilian Q Weinberger.在ECCV。一、二、三[11]Sergey Ioffe和Christian Szegedy。批次归一化：通过减少内部协变量偏移来加速深度网络训练。ICML，2015。1[12]Balaji Lakshminarayanan，Alexander Pritzel，and CharlesBlundell.使用深度集成的简单和可扩展的预测不确定性估计。在NIPS，2017年。2[13]Kimin Lee，Honglak Lee，Kibok Lee，and Jinwoo Shin.训练置信度校准的分类器用于检测分布外样本。在ICLR，2018年。二、五[14]大卫·J·C麦凯一个用于反向传播网络的实用贝叶斯框架。神经元计算，4（3）：4481992年5月2[15]帕特里克·麦克卢尔和尼古拉斯·克里格斯科特。通过采样表示深度神经网络中的不确定性CoRR，abs/1611.01639，2016。2[16]Mahdi Pakdaman Naeini，Gregory F Cooper，and MilosHauskrecht. 使用贝叶斯分箱获得良好校准的概率。InAAAI，2015. 5[17] 雷德福湾尼尔神经网络。Springer-Verlag，1996. 2[18]Alexandru Niculescu-Mizil和Rich Caruana。用监督学习预测好的概率ICML，2005年。二、五[19]卢贤宇，尤德根，门钟焕，韩宝亨。通过噪声正则化深度神经网络：它的解释和优化。在NIPS，2017年。7[20]Nick Pawlowski 、 Andrew Brock 、 Matthew CH Lee 、Martin Rajchl和Ben Glocker。神经网络中的隐式权值不确定性arXiv预印本arXiv：1711.01297，2017。2[21]Gabriel Pereyra，George Tucker，Jan Chorowski，ŁukaszKaiser，and Geoffrey Hinton.通过惩罚置信输出分布正则化神经网络。arXiv预印本arXiv：1701.06548，2017。二、五[22]约翰·普拉特支持向量机的概率输出及其与正则化似然方法的比较。高级大间隔分类器，10，06 2000。2[23]Karen Simonyan和Andrew Zisserman用于大规模图像识别的非常深的卷积网络。2015年，国际会议。5[24]Nitish Srivastava ， Geoffrey Hinton ， Alex Krizhevsky ，Ilya Sutskever，and Ruslan Salakhutdinov.Dropout：一种防止神经网络过度拟合的简单机器学习研究杂志，15（1）：1929-1958，2014。一、二、五[25]Christian Szegedy ， Vincent Vanhoucke ， Sergey Ioffe ，Jonathon Shlens，and Zbigniew Wojna.重新思考计算机视觉的概念体系结构。在CVPR，2016年。 2[26]Mattias Teye、Hossein Azizpour和Kevin Smith。批量规范化深度网络的贝叶斯不确定性估计。arXiv预印本arXiv：1802.06455，2018。3[27]Li Wan，Matthew Zeiler，Sixin Zhang，Yann Le Cun，and Rob Fergus.用Drop- connect正则化神经网络. 2013年，《国际反洗钱法》。2[28]比安卡·扎德罗兹尼和查尔斯·埃尔坎。从决策树和朴素贝叶斯分类器获得校准的概率估计。ICML，2001年。2[29]比安卡·扎德罗兹尼和查尔斯·埃尔坎。将分类器得分转换为准确的多类概率估计。InKDD，2002. 5[30]Sergey Zagoruyko 和 Nikos Komodakis 宽残差网络。在BMVC，2016年。5

下载后可阅读完整内容，剩余1页未读，立即下载