深度神经网络的显式正则化和动态数据修剪在提高模型校准性方面的作用

134 浏览量更新于2023-10-15 收藏 645KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1使用显式正则化和动态数据修剪Rishabh Patra1§ Ramya Hebbalaguppe2§ Tirtharaj Dash1Gautam Shroff2LovekeshVig21 APPCAIR，BITS Pilani，Goa Campus2 TCS Research，新德里摘要深度神经网络（DNNS）容易出现错误校准的预测，通常表现出预测输出和相关置信度得分之间的不匹配。当代模型校准技术通过降低获胜类的置信度，同时增加所有测试样本中剩余类的置信度，来缓解过度自信预测的问题然而，从就业的角度来看，理想的模型是期望的，以（i）生成用于高置信度样本的良好校准的预测，其中预测概率假设>0。95和（ii）生成更高比例的合法高置信度样本。为此，我们提出了一种新的正则化技术，可用于分类损失，导致在测试时最先进的校准预测;从安全关键应用的部署角度来看，只有来自校准良好的模型的高置信度样本是有意义的，因为其余样本必须经过手动检查。这些潜在的“高置信度样本”的预测置信度降低是现有校准方法的缺点。我们通过提出一种动态训练时数据修剪策略来缓解这一问题，该策略每隔几个时期修剪一次低置信度样本，从而增加置信度但校准的样本。我们在图像分类基准上展示了我们提供了关于为什么我们的动态修剪策略修剪低置信度训练样本会导致测试时高置信度样本增加的见解1介绍深度神经网络分类器输出一个类概率分布，该分布表示数据实例属于一组预定义的类标签的相对可能性。最近的研究表明，这些网络经常被错误校准，或者预测的置信度与正确性的概率不一致[4，8，19]。这违背了最近强调基于DNN的AI应用程序的可信度，并回避了一个问题“我们什么时候可以相信DNN的预测？” This questionis pertinent given the potential applications where重要的是要注意，只有高置信度，即高预测概率事件才对现实世界的用例有影响。例如，考虑一个减少工作量的用例，其中DNN模型用于在将放射学图像传递给医生之前自动批量注释这些图像;高置信度的输出直接传递，其他输出发送进行手动注释;理想的情况是，后者中只有少数国家没有达到减少努力的目标。或者，考虑疾病诊断用例，其中使用深度模型来决定是否将患者送到COVID病房或常规病房（例如，肺结核等）根据X光片，等待更确定的测试[13]。显然，只有高置信度的负面预测应该被路由到一个普通的病房;最大限度地提高这种高置信度，校准预测是重要的;否则，采用深度模型的目的，即，减少COVID病房的负担，并没有实现。在这两种情况下，低置信度的预测都不会影响决策，因为这些样本无论如何都会被发送给人类。这些应用程序需要一个值得信赖的、校准良好的人工智能模型，因为过度自信和不正确的预测要么是致命的，要么偏离了节省精力的目标。此外，重点必须放在高置信度样本上，无论是在校准还是增加频率方面。校准所有样品的努力可能并不总是与这一目标一致。现代DNN信心结果的陷阱：Guo et. [14]他说，“一个不好的人，在训练过程中，RAL网络与负对数似然（NLL）的过拟合有关。实例-标签对标准监督分类中的NLL从数据分布P数据采样的（ x′，y′）给出为：LCE=−logp（y=y′|x′）当对于每个x′，p≠（y=y′）时，N L L损失最小化|x′）=1，而当p∈（y=y′）时分类误差最小|x′）>p（yy′|x′）。§平等贡献因此，NLL可以是正的，即使当分类error为0，这会导致使用LCE训练的模型过拟合15411542PNLL目标，导致过度自信的预测和校准不良的模型。最近的参数化方法涉及温度缩放[4]，其缩放训练模型的pre-softmax层logits以降低置信度。列车时刻校准方法包括： MMCE [10]，标签平滑（ LS）[16]，Focal-loss[15]，MDCA [5]，它们在训练期间添加显式正则化器来校准模型。虽然这些方法在降低总体预期校准误差（ECE）[4]和缩减过度自信预测方面表现良好，但它们具有两个不期望的后果：（1）从部署的角度来看，只有高置信度样本才是感兴趣的，因为其余样本需要进行手动检查。降低模型置信度反过来又会减少这种高置信度样本的数量，从而转化为更多的人工努力;（2）置信度的降低损害了正确和不正确预测的可分性[21]。此外，训练时间校准方法需要重新训练用于重新校准的模型。随着最近的趋势增加，模型的过度参数化和对大型数据集的训练，通常会导致高训练时间，降低其在实际环境中的有效性。在这项工作中，我们研究了一种有效的校准技术，它不仅校准DNNS模型，但这样做的一小部分时间相比，其他当代训练时间校准方法。此外，我们探索了一种实际的设置，其中以大于用户指定阈值（比如95%）的置信度预测的实例是感兴趣的，因为其他实例被路由到人类进行手动筛选。为了减少人工工作，我们专注于增加这样的高置信度实例的数量，并专注于有效地校准这些高置信度实例。贡献：我们做出以下主要贡献：（1）我们引入了一个可微损失项，通过减少模型的预测置信度和准确度之间的差异来执行校准。（2）我们提出了一种动态训练时间修剪策略，该策略可以减少训练时间，从而得到校准的预测。我们的建议是在训练时根据预测的置信度修剪样本，从而在不影响准确性的情况下减少训练时间。我们提供了关于为什么动态训练时间修剪会导致合理的高置信度样本和更好的校准模型的见解。2相关工作本文所讨论的校准问题的实际意义已经导致了关于该主题的大量先前文献。现有的解决方案采用训练时间校准或事后校准。训练时间校准的先前尝试需要在整个数据集上进行训练，而我们的算法旨在修剪不太重要的样本，以实现高频率的置信度，校准样本，减少训练时间和随后训练校准模型所需的计算。数据饮食校准：校准DNNs建立信任在模型实际部署。然而，我们观察到DNN越来越深，越来越庞大，导致训练时间很长。[18]进行了一个关键的观察，即并非所有训练样本在测试时对DNNS的泛化性能都有同等的选择一个能够充分代表数据流形的核心实例集，直接转化为更低的训练时间，而不会损失性能。[23]标记在训练时经常被“遗忘”的实例受[18]的启发，我们假设并非所有样本都对校准模型有同样的贡献。然而，我们在我们的方法，以确定重要的样本，通过选择一个动态修剪策略不同。我们的策略规定，在多个训练时期具有低预测置信度的样本会妨碍校准性能，因此应被修剪。列车时间校准：缓解过度自信的一个流行的解决方案是使用NLL损失的额外损失项：这包括在软目标上使用基于熵的正则化项[19]或标签平滑[16]（LS）[22]。最近，DNNs的隐式校准被证明是可行的。[12]通过焦点损失[15]，这被证明可以减少预测和目标分布之间的KL-发散，同时增加预测分布的熵，从而防止过度自信的预测。Liang等人提出了一个用于模型校正DCA的辅助损失[11]当交叉熵损失减少而不影响准确性时，它会惩罚模型。[10]建议使用RHKS [3]计算的MMCE事后校准：事后校准通常使用保持组进行校准。温度缩放（TS）[20]，将模型logits除以缩放因子以校准所得置信度分数。使用TS进行校准的缺点是降低了每个预测的置信度[17]，包括正确的预测。狄利克雷校准（DC）是从狄利克雷分布中推导出来的，它将用于二进制分类的Beta校准[9]方法推广到多类方法。元校准提出了可微分的ECE驱动校准，以获得良好校准和高精度的模型[1]。3DNN校准让data表示数据的概率分布。每个数据集（训练或测试）由（x，y）对组成，其中每个（x，y）对P数据（i.i.d. 假设）。把数据放进去-立场x是多维的，即，x∈Rh×w×d，y∈ Y，其中Y是K-范畴或类标签的集合{1，2，. . . ，K}。我们用N表示一个训练好的神经网络1543N||||NP联系我们≤≥≤n≥MMM具有结构π和一组参数θ。可以这样说：将数据实例x作为输入，并输出表示K个类上的概率分布的条件概率向量： . . ，yK]，其中yk表示x属于类别k的预测概率，即yk=p（y=kx）。我们把它写成：（x;（π，θ））=y 此外，我们将x的预测类标签定义为：ymax=argmax（ymax），我以及相应的预测置信度为：c=max（y）。3.1过度自信和不自信模型理想情况下，模型的预测概率向量应该表示模型正确性的真实概率。例如：如果模型对类k的预测概率1、. . .，K是0。7，那么我们会期望给定100个这样的预测，模型在其中70个中做出正确的正确预测数大于70的情况意味着模型不自信。类似地，正确预测的数量小于70的情况意味着过度自信的模型。在数学上，对于给定的实例-标签对（x，y）数据，P（ y=kyk=sk ） >sk 指示欠置信，并且类似地， P（ y=kyk=sk ） 10），我们注意到|S95|和|的99|但随着λ的增加，TE和校准的减少变得更糟。用于培训的图5：使用我们提出的修剪策略的训练时间比较。FLSD [15] 、 FLSD+H （我们的方程（ 8 ））、FLSD+H+P （我们的：当量（ 8 ）与修剪）和FLSD+H+PEMA（Ours：Eq.（8）与修剪与博览会-1.61.20.80.4幼儿中心（x102）幼儿教育证书（S95）（x102）86421.00.90.80.70.60.50.40.30.20.1|S 95||S 99|nential移动平均值），用于在三个不同数据集上训练的 ResNet50 。使用我们的修剪策略后，我们看到CIFAR100数据集的训练时间减少了20%。使用TinyImagenet和CIFAR10的训练时间减少了40%。我们建议的培训时间更短修剪策略使我们的策略吸引了一个实际的051025501000修剪间隔0.05102550100修剪间隔观点图4：改变修剪间隔对在CIFAR-10数据集上训练ResNet50的影响。左图：绘制出ECE、ECE（S95）和TE与修剪间隔。更频繁的修剪意味着更少的训练时间。右：研究S95和S99对改变修剪间隔的影响.每5个时期修剪一次可以获得最低的ECE，每10个时期修剪一次可以获得最好的ECE（S 95）。模型，同时减少训练时间，从而显着减少碳足迹6结论我们已经引入了一种有效的训练时间校准方法，而不会在DNN的准确性方面进行太多的权衡我们做了两个贡献：第一，我们提出了一个可微损失项，可以有效地用于梯度下降优化广泛用于DNNS分类器;其次，我们提出的动态数据修剪策略不仅增强了合法的高置信度样本，以增强DNNS分类器的信任度，而且减少了校准的训练时间。我们阐明了为什么修剪数据有助于高置信度样本，有助于DNNS校准。引用[1] Ondrej Bohdal，Yongxin Yang，and Timothy Hospedales.元校准：使用可微期望校准误差的模型校准元学习。在ICML深度学习研讨会中的不确定性，2021年。[2] Glenn W Brier等.以概率表示的预测的验证。每月天气评论，78（1）：1-3，1950。预计实际预计实际预计实际预计实际预计实际预计实际预计实际预计实际CIFAR10CIFAR100微型图像网络精度欧洲经委会（x102）精度欧洲经委会（x102）测试误差（%）测试误差（%）测试集样本测试集样本精度精度精度训练时间（标准化）精度精度精度1550[3] 亚瑟·格雷顿介绍rkhs和一些简单的内核算法。 Adv. Top.马赫学习. 伦敦大学学院讲座，16：5 -3，2013。[4] Chuan Guo ， Geoff Pleiss ， Yu Sun ， and Kilian QWeinberger.现代神经网络的校准。ICML，第1321-1330页。PMLR，2017年。[5] Ramya Hebbalaguppe、Jatin Prakash、Neurah Madan和Chetan Arora。一针及时省九针：一种改进神经网络校准的训练时间正则化损失。在IEEE/CVF CVPR，2022年6月。[6] Geoffrey Hinton Oriol Vinyals和Jeff Dean。提取神经网络中的知识。arXiv预印本arXiv：1503.02531，2015。[7] 彼得·J·胡贝尔。位置参数的鲁棒估计。在统计学的突破，第492Springer，1992年。[8] MeelisKull，MiquelPerello-Nieto，MarkusK？ ngsepp，Hao Song，Peter Flach，et

下载后可阅读完整内容，剩余1页未读，立即下载