协变量移位下区域泛化置信度校准的有效性

63 浏览量更新于2023-09-26 收藏 688KB PDF 举报

域自适应

校准方法

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8958协变量移位下区域泛化的置信度校准龚云烨1，小林1，姚毅1，Thomas G. Dietterich2、Ajay Divakaran1和Melinda Gervasio11俄勒冈州立大学电气工程与计算机科学学院SRI International 21first. sri.com，2tgd@oregonstate.edu摘要现有的校准算法通过无监督域自适应解决协变量移位的问题。然而，这些方法受到以下限制：1）它们需要来自目标域的未标记数据，这可能在现实世界应用中的校准阶段不可用，以及2）它们的性能严重依赖为了解决这两个限制，我们提出了新的校准解决方案，通过域泛化。我们的核心思想是利用多个校准域来减少目标域和校准域之间的有效分布差异，以改善校准传递，而不需要来自目标域的任何数据。我们提供了理论依据和实证的实验结果来证明我们提出的算法的有效性。与针对域自适应设计的最先进的校准方法相比，我们观察到减少了8。86个百分点的预期校准误差，或等效地，在Office-Home数据集上的多类分类的改进率增加35个百分点1. 介绍深度神经网络（DNN）已经证明，在提供足够的数据和监督的情况下，分类和检测等任务具有很高的准确性[34，29]。然而，对于现实世界的应用程序，指示用户应该在多大程度上信任模型预测的能力可能比仅仅具有准确但不可预测的模型更重要[2，12，28]。虽然判别网络提供了可以用作正确分类概率的启发式测量的置信度分数，但是这样的分数并不保证与正确分类的真实概率相匹配[9]。最近的发展，称为模型校准，直接解决了这个问题[24，9]。如果分类器正确的预测概率与其真实概率匹配，则分类器相对于分布（或从该分布采样的数据集）被校准。如果分布发生变化，校准通常会丢失，这已被经验证明[20]。最近的工作已经图1：针对具有单个源域的域自适应的校准可能遭受密度比的大变化PT/PS），并且因此如（a）中所示的大的校准误差。我们提出的用于域泛化的校准算法利用多个校准域来减少PC和PT之间的差异，以减小密度比PT/PC的方差，并且进而改善校准性能，如（b）和（c）中所示。开始研究迁移学习背景下的校准问题，特别是在协变量转移假设下的无监督局部自适应场景中[22，32，20]。然而，这些方法至少需要来自目标域的未标记数据，这在现实世界应用中的训练和校准阶段可能不可用。此外，由于这些方法被设计为处理单个源域，因此由于源的有限可用性或不确定性（例如，不确定性），在所选择的源域和目标域之间可能存在不期望的差异。极端天气/未探索的地形）。图1（a）概念性地描绘了这样的场景。这种差异导致定义为PT/PS的密度比的大变化，这显著降低了校准的准确性[20，4]。8959为了解决经由域自适应的校准转移的上述限制，我们转而关注用于域泛化的校准。我们的核心思想是使用多个源域，并将其标记的数据聚类成组。然后，我们将事后校准参数拟合到每个组。使用最接近（在欧几里德距离中）测试示例的组的校准参数来校准测试示例的类别概率。通过使用许多校准域，我们增加了分布重叠的可能性，这在理论上将提高跨域校准的有效性[20，4]。通过学习，ING校准参数分别为每个组，我们增加的可能性，每个测试查询将调整的最佳校准校正。我们研究两个校准方法在每个集群。两者都基于温度缩放[9]。第一种方法计算每组的固定结垢温度（图1）。1（c））。第二个将回归模型拟合到这些固定的温度，以使得能够将温度外推到簇外的点。我们将这两种方法与基于所有校准数据的联合计算一个温度以进行缩放的基线进行比较（图1）。（b）款。我们将我们的方法称为集群级，将基线称为集合级。值得注意的是，虽然图。虽然图1描绘了源域和目标域没有重叠并且校准域桥接间隙的概念性场景，但是我们的方法在源更接近目标的情况下也将很好地工作，只要校准域中的至少一个也接近目标。我们的主要贡献包括：1) 我们提出了新的解决方案，以校准的分类，灰模型领域的推广。我们提出的算法进行训练，以产生准确的信心预测，而不需要从目标域的任何数据。2) 我们提出的校准方法的理论误差范围，并证明了我们的方法的优势，在最大限度地提高目标和校准分布，一个关键因素，确定校准的泛化性能的支持之间的重叠3) 我们证明所提出的算法与实验结果对现实世界的数据。下降8。86%-预期校准误差的年龄点，或者等效地，与针对域适应设计的最新技术水平（SOTA）校准方法相比，在Office-Home数据集[30]上实现了35个2. 相关工作校准。现有的校准方法为分类模型提供事后校正，使得它们的置信度分数更好地匹配正确分类的真实概率[35，36，19，24，9]。其中，Platt Scaling [24]为二进制分类提供了参数解决方案。它学习一个具有两个标量的将初始预测概率映射到校准概率的参数。它是在相对于负对数似然（NLL）损失的保持验证集上训练的。矩阵缩放和向量缩放[9]是Platt缩放到多类分类问题的两个扩展，其中在softmax操作之前将线性变换应用于logit向量。给定分类模型，附加线性层相对于NLL在验证集上被微调。在这种情况下，分类精度受到校准的影响。温度定标是普拉特定标的另一种特殊情况这里，标量温度参数被应用于缩放logit向量而不改变类别预测。温度在相对于NLL的 vali- dation集上被优化，并且可以被解释为约束熵最大化的解。Alexan-Dari等人[1]研究了向量和温度缩放的变体，包括在标签移位下的域适应的上下文中的无偏向量缩放和偏校正温度缩放我们提出的算法都是基于温度缩放[9]。领域泛化与域适应对于深度学习来说，迁移学习通常具有挑战性，因为在一个域（源）上训练的模型在对来自不同域（目标）的测试数据进行评估时可能会出现性能下降。一种类型的迁移学习是领域自适应[31，5]，其寻求通过利用来自源和目标域的数据来提高目标领域性能。具体来说，无监督域自适应（UDA）[33]解决了当只有未标记数据可从目标域获得时的问题。已经基于诸如学习域不变特征[18，13，27，21]和学习域之间的映射[11，26]的策略开发了多UDA方法。域自适应的替代方案是域生成，其目的是通过利用来自多个相关源域的信息，在训练阶段从目标域进行鲁棒传输，而无需任何标记或未标记的数据。Ghifary等人[8]提出了一种多任务自动编码器（MTAE），其在多个域上联合重建源图像的类似视图，以获取用于在对象识别的上下文中进行泛化的鲁棒特征。Li等人[15]最小化最大平均差异（MMD），以对齐不同区域的分布最近的几项研究采用了最初为少数学习提出的模型不可知Meta学习（MAML）[7]。例如，Li等人[14]提出跨域而不是跨任务使用模型不可知优化的域泛化元学习（MLDG）。Balaji等人[3]应用元学习来学习用于分类层而不是整个网络的可泛化的正则化器。Dou等人[6]引入了互补损失来鼓励跨域的类对齐并提高类特定集群的紧凑性。8960ΣNmm·MMM我我∫Mi∫ΣΣ{1}|}不所有这些工作都致力于学习模型，以提高分类精度方面的泛化能力。相比之下，我们提出的方法专注于使用多个相关域来校准分类器以提高置信度分数，使得它们在看不见的目标域（即，置信度分数）。用于域适应的校准。最近的几篇文章研究了迁移学习背景下的校准问题，特别是在协变量转移假设下的无监督局部自适应场景中[22，32，20]。这些研究采用了类似的框架，基于估计的重要性权重，描述了源和目标分布之间的密度比。通过学习区分源样本和目标样本的鉴别器来估计权重。然后，目标域中的校准损失可以被公式化为源域中的原始损失的加权版本。使用Brier评分[22]定量校准损失。预期校准误差（ECE）[19]。为了测量校准精度，我们采用ECE度量。给定一组类别预测和对应的置信度预测，通过基于置信度值将测试样本分组到M个等宽的箱中来计算ECE。设Bm表示指数的集合，其中B m=ipi（m−1，m]。每个面元的分类精度和平均置信度为计算为acc（B）=11（y（=y）（5）|i ∈Bm|i∈Bmconf（B）=1p。（六）|BM|i∈Bm良好校准的模型应减少分类准确性和置信度预测之间的失配。因此，ECE被计算为分箱上的失配的加权和：NLL [20]和预期校准误差（ECE）[31]。虽然最近的这些努力与我们的工作最相关，但我们要解决一个可能更具挑战性的问题。MECE=m=1|acc（B）− conf（B）||acc(B ) −conf (B )|,(7)而不是使用未标记的目标数据校准分类器，我们校准分类器没有任何数据，无论是标记或未标记，从目标域。3. 背景校准。令x，y表示从联合分布P（x，y）提取的数据和标签。令（）是学习的多（K）类分类模型，其将每个样本xi投影到具有K个维度的logit向量z。类预测y其中N是样本的总数。在M=1的情况下，ECE减少到在整个测试集上的平均置信度预测和分类准确度之间的绝对误差。用于域适应的校准。令PS（x，y）和PT（x，y）分别表示源分布和目标。分布之间的协变量偏移是指-设P T （ x ）P S （x ） while P T （ y|x ） = P S（y|X）。我并且置信度预测pi可以表示为i遵循与结构域适配子中的那些类似的公式的方法（定理4.1在[20]），所需的校准-pi=maxσ（zi）（k）Kyi= argmaxσ（zi）（k），（1）K损耗可以表示为其中σ表示softmax函数：Ex，yPT（x，y）L（（x），y，t）σ（ z（k））=exp（z（k））.（二）=L（（x），y，t）PT（x，y）dx dyX yΣKexp（z（j））∫ ∫T Tj=1误校准是指置信度预测pi与正确分类的真实概率不匹配的问题校准的目标是调整置信度，使P（y=y|p（=p）=p，p ∈[0，1][9].=L（（x），y，t）P（x）P（y|x）P S（x，y）dx dyxyPS（x）P S（y|x）=Ex，yPS（x，y）wS（x）L（（x），y，t）（8）对于{x|PT（x）>0}{x|PS（x）>0}，其中重要的温度缩放[9]。标量t> 0被应用于ad-1。只是信心预测：pi= max σ（z i/t）（k）.（三）Kt的值相对于分类训练中使用的相同NLL损失8961∼PS（x）t*= argminEx，yP（x，y）L（（x），y，t），（4）不其中L表示NLL损耗。注意，温度缩放不影响整体分类精度，因为相同的t被应用于所有类别。比重w S（x）=P（x）是密度比。4. 方法与单源单目标无监督域自适应场景下的置信度校准相反，我们考虑具有多个源域的域泛化，这些源在这种情况下，我们使用S（源）来表示用于训练分类器的域的组，使用C（校准）来表示用于校准给定分类器的域的组，并且使用T（目标）来表示在两个分类器处完全看不见的保持测试域的组。8962Σ.ΣPC（x）{1}|}.ΣΣ类似地，对于域自适应，我们有Var（w（x））=≤2（EPC（x）（1−wC（x））+EPC（x，y）L（（x），y，t）{1}|}分类器训练和校准阶段。因此，期望的校准损耗由下式给出：其中dα（P||Q）=ΣΣPα（x）xQα−1（x）一个α−1，其中α >0是Ex，yPT（x，y）L（（x），y，t）在Renyi散度[25]之间以2为底的指数分布P和Q。=∫ ∫XL（（x），y，t）PT（x，y）dx dy校准误差由以下的方差支配：由Var（wC（x））=d2给出的wC（x）-一个PT（x）||PC（x）=∫ ∫L（（x），y，t）PT（x）P T（y|x）PC（x，y）dx dyd2。PT（x）||PS（x）ΣS-一个直观地说，我们试图减少xyPC（x）P C（y|x）=Ex，yPC（x，y）wC（x）L（（x），y，t），（9）对于{x|PT（x）>0}{x|其中wC（x）=PT（X）表示目标域和校准域之间的密度比。在[20，32]之后，我们使用真实目标分布PT（x，y）推导出校准损失和预言损失之间的差距，以表明密度比wC（x）或等价地PT（x）与PC（x）对于校准传递是关键的。相同的观察适用于域自适应的校准，其中wS（x）的方差或PT（x）和P T（x）之间的散度为PS（x）是临界的。为了简单起见，我们使用w（x）来表示wC（x）或wS（x），当这两个是可互换的。间隙由下式给出. E PC（x，y）L（（x），y，t）− E PT（x，y）L（（x），y，t）.w（x）的方差，或者等价地，域适配的目标和源分布之间的散度，或者域生成的目标和校准分布之间的散度如果在源域和目标域之间存在大的位移，则密度比在xPT（x）上是无界的0，P S（x）=0导致密度比的大变化。设x P（x）>0是分布P（x）的支集。减小w（x）的方差需要在用于域自适应的PT（x）和PS（x）的支持之间或在用于域泛化的PT（x）和PC（x）对于固定源域和目标域的域自适应[22，32，20]，校准空间有限以调整这种重叠。相比之下，对于域泛化，我们可以在不同的校准域上操纵校准模型的学习，以最大化这种过度泛化。腿基于这些理论上的优势=.∫X.∫（1−wCΣ（x））L（（x），y，t）PC（x，y）dx dyΣ。多个来源，我们提出了校准算法做主要的推广（图。2）包括集合-（Sec. 4.1）和集群级方法（第4.2）。请注意，虽然maxi-=EPC（x，y）（1−wC（x））L（（x），y，t）（10）≤。EPC（x）Σ（1−wC（x））2ΣEPC（x，y）ΣL（（x），y，t）2Σ最大化PT（x）和PS（x）（或PC（x））之间的重叠可以通过通常用于域自适应的特征对齐来实现，这超出了本文的范围。4.1. 设定电平校准1Σ2Σ2Σ（十二）其中，Eq.11由Cauchy- Schwarz不等式和等式11中的不等式得出12由算术和几何平均数的不等式这个公式也可以解释为给定的估计损失的偏差wC（x）=EPC[wC（x）]= 1（13）作为wC（x）的估计量。我们利用这个属性设计校准算法绕过直接计算的wC（x）由于缺乏目标数据在分类器的训练和校准阶段。给定固定的分类模型，等式2中的第二项12是基于校准数据计算的。因此，仅第一项受校准域和靶域之间的移位影响。在Cortes等人之后，[4]第一项是Eq。12可以表示为EPC（wC（x）−1） 2= EPC（wC（x）− EPC[wC（x）]）2=Var（wC（x））=d2。PT（x）||P C（x）Σ −1，（14）y（十一）y设定水平校准是我们的基线方法。我们学习）的情况下，8963∼使用多个校准域进行温度测试C.仅需要来自C的一小组数据，并且事后将温度缩放应用于在源域S上训练的分类模型。通过以下方式了解温度t*= argminEx，yPC（x，y）L（（x），y，t），（15）不其中P_C（x，y）是所有校准域上的联合分布，这意味着每个校准域被同等对待。我们将此算法称为设置水平校准（图11）。2（a）），因为单个温度是关于所有校准数据学习的并且应用于所有测试数据。通过利用多个相关域，P_C更可能与P_T更好地对齐，特别是对于P_S和P_T远离的场景，如图2所示。第1段（b）分段。这导致密度比wC（x）具有较少的无界值，并且因此具有较小的方差。结果，可以实现更好的校准传递。4.2. 簇级校准学习设定水平的温度假设所有样本具有相同的最佳缩放。考虑到卡利-8964JPC（x）θ角JJJJΣΣJJJJ不J用于训练分类器或评估的大子集PCJ1Σ。−Σ来自PT的测试样品的目标可以表示为EPTΣL（（x），y，t）Σ=EPCΣwC，j（x，y）L（（x），y，t）Σ，对于{x|PT（x）>0}{x|PC（x）>0}。这里，wC，j（x）=J JPT（x）j，以及学习温度的泛化J.Σ在散度d2PT（x）上||P C（x）。由于PC是被选为最接近测试样本的聚类，机会是PT和PC越高，则比设置电平J J图2：用于域泛化的所提出的校准算法的框图：（a）集合级，（b）聚类级NN，以及（c）聚类级回归。由于来自多个域的采样数据是随机的，因此自然放松该约束，使得不同的样本可以具有不同的最佳缩放。几种经典的校准算法[19，35，36]根据其未校准的置信度分数对数据进行分箱，从而执行校准。受这些成功的启发，我们建议通过图像特征的相似性对校准样本进行分组，以将最佳温度缩放与特征分布相关联。然后，在测试过程中，我们可以预测最合适的温度，只给出一个测试图像的特征，从一个未知的分布。具体来说，我们使用校准数据对图像特征（在ResNet18特征提取器的倒数第二层）执行K均值聚类[16通过最小化簇内平方和来确定簇的质心。对于每个簇，我们执行标准温度标度。在测试阶段，我们利用两种替代方法来确定每个测试样品的最合适温度。最近邻（NN）。在第一种方法中，我们简单地将测试域中的给定样本分配给其质心在Eu-clidean距离中最接近样本特征的聚类。然后，我们应用该簇的相应最佳温度来校准测试样品（图13）。第2段（b）分段）。直观地，该过程有利于校准和目标分布在集群级的对齐。令N表示聚类的数量，P_C表示被分组到聚类j中的校准域特征的分布，并且P_T表示被分配到聚类j的所有测试域特征的未知分布。每个集群j的最佳温度是关于以下目标学习的：t*j=argminEPCL （（ x ）， y ， t ） .（十六）分布P，T和P，C，导致具有较小方差的密度比w，C，j（例如，图 1（c），其中j = 3）。因此，集群级校准有希望进一步改善校准转移。基于回归的预测最近邻可以被认为是线性回归的特殊情况，其中第j个权重被设置为1，而其他权重被设置为0。我们进一步研究使用学习的权重作为更一般化的方案的集群级校准（图13）。第2段（c）分段）。具体来说，我们训练一个回归模型，该模型将每个聚类的平均特征因此，我们可以将学习的回归模型应用于任何测试特征，以预测特定于测试实例的适当温度。设Rθ表示由θ参数化的回归模型R，Rθ通过最小化以下均方误差来确定Nθ*= argminR（E（x））t*2。（十八）θNj=1本质上，我们学习一个函数，该函数捕获从特征到用于校准的适当温度的底层映射，并将其转移到未知的目标域，而不是直接转移在校准域上学习的温度。5. 实验5.1. 数据集Office-Home[30]包含65个类的图像，这些类跨越四个域，对应于不同的渲染风格：Cli-部分（4365图像），艺术（2427图像），产品（4439图像）和真实（4357图像）。我们将这四个域分为三个子集：一个域作为用于训练分类器的源，两个域用于分类器的事后校准，以及一个保持域作为用于评估校准的分类器的目标。我们对所有12种可能的域分割进行实验Art作为源，Clipart作为目标，Product和Real作为校准）和源相对远离目标的组合（例如，Clipart作为源，Real作为目标，Art和Product作为校准）。我们将每个域的数据随机分为一个大子集（80%）和一个小子集（20%）。我们使用在Eq. 9-Eq. 14，神谕的校准性能，我们使用小子集（十七）8965--用于调整分类训练的超参数对于每个源域，我们训练了一个ResNet 18 [ 10 ]，该ResNet 18 [10]用ILSVRC-1000上预先训练的参数初始化。我们在网络的倒数第二层提取图像特征进行聚类。对于每个域分割，我们进行1000次评估，每次使用1500个从目标域随机选择的样本来估计置信区间。DomainNet [23]包含六个域中345个类的图像，对应于不同的渲染风格：Quick- draw（172500个图像），Infograph （ 51605 个图像）， Sketch （ 69128 个图像），Clipart（48129个图像），Painting（72266个图像）和Real（172947个图像）。我们将这六个域分成三个子集：两个域作为源，三个域用于校准，以及一个保持域作为目标。我们对所有60种可能的域分割进行实验，包括其中从域的图像真实性判断源与目标相对相似的组合Quickdraw和Sketch作为源，Infograph作为目标，Clipart、Painting和Real作为校准）以及源相对远离目标的组合（例如，Quickdraw和Sketch作为源，Real作为目标，Clipart、Painting和Infograph作为校准）。根据[23]中的训练/测试分割，我们使用训练分割来训练分类器，一个小子集（10%）用于校准的测试拆分的大子集（90%）测试拆分以进行评估。我们使用ResNet18预训练在ILSVRC-1000上作为特征提取器并训练MLP分类器。对于每个域分割，我们进行1000次评估，每次评估使用从目标域随机选择的10000个样本来估计置信区间。5.2. 实验设置仅源校准。我们如5.1节所述分割源域，使用大子集来学习分类器，使用小子集来校准它。我们直接测试和校准阶段。对于集群级校准，我们使用8个集群的Office-Home和9个集群的Do- mainNet。我们的实验表明，聚类器的数量对于聚类级回归方法，考虑到高维特征空间和来自校准域的样本的可用性，我们选择线性回归模型。5.3. 结果和讨论实验结果总结于表1-3中。我们报告ECE评分的平均值和标准差（%）。表1（对于Office-Home）和表3（对于DomainNet）的每列列出了在跨源域和校准域的不同域分割上平均的特定目标域的ECE分数。最后一列列出了不同目标领域的平均ECE分数表2列出了针对每个域分割的Office-Home上的性能源域和目标域的一个组合）。领域适应基线的ECE评分[20，32]基于原始论文的报告结果（使用CDAN [17]ECE的标准偏差σ ECE主要受两个因素影响：域分裂和域变化内的样本变化。表2中的每个σECE指示固定域分裂内的样品变化的影响。对于所有测试的域分裂，我们观察到σECE1%。DomainNet上每个域分割的结果都包含在补充材料中以节省空间，其中我们观察到σECE<0。百分之四我们在表1和表3中看到跨域分裂的大得多的σECE，其测量来自样品和域的组合变化。很明显，域变化主导ECE分数的方差。为了评估校准转移的有效性，我们将改进比（IR）定义为IR=ECES−ECE，（19）在所述保持目标域上评估所述校准模型本实验作为参考，无需校准其中ECES和ECESECETECET指平均ECE评分转移仅目标（oracle）校准。给定在源域上训练的分类器，我们使用目标域数据的小子集对其进行校准，并在大子集上评估校准。这是一个oracle实验，因为它使用了来自目标域的地面实况标签和数据，这些标签和数据不可用于域泛化设置。因此，本实验设定了校准传输的目标性能。跨域校准。给定一个在源域上训练的分类器，我们通过我们的算法对其进行校准。4使用来自校准域的小子集。我们还将这三种方法的logit输出平均作为额外的基于集成的方法。我们在目标域的大子集上评估校准模型，该大子集在分类器训练和目标域中都是不可见的分别经由仅源校准和仅目标校准获得。在没有校准传递的情况下，我们从仅源校准的性能使用校准传递，我们想要接近仅目标校准的性能。IR度量评估校准传递方法的性能相对于这些起点和终点位于表5列出了在Office-Home和DomainNet上评估的IR。1与仅源校准的比较。在没有校准传递的情况下，直接使用从源分布学习的温度对于两个数据集都失败。与未经校准的模型相比，它甚至可能导致更大的误差（比较表1中的第一行和第二行）。与未校准和仅源相比，我们的算法-1其他结果，包括替代指标和置信区间，可参见补充材料。8966方法剪贴画艺术产品房平均未校准只有源仅目标（Oracle）14.74± 2.2318.02± 1.814.10± 0.729.31± 2.3310.79± 4.463.56± 0.595.66± 1.236.90± 2.784.1± 1.14.92± 0.946.09± 1.054.01± 0.688.66± 4.3810.45± 5.503.94± 0.83TransCal [32]21.3720.6011.378.2315.39WTS [20]18.978.603.907.639.78集合级聚类级回归9.96± 1.7811.43± 1.8312.00± 1.414.21± 0.594.90± 1.654.61± 0.805.57± 2.125.10± 1.365.11± 1.127.47± 3.006.49± 2.066.03± 1.826.80± 2.996.98± 3.176.94± 3.26合奏11.31± 1.754.14± 0.944.69± 1.235.98± 1.826.53± 3.20表1：按目标域平均的Office-Home上的校准性能（ECE %）未校准只有源仅目标（oracle）TransCal[32]WTS[20]集合级集群- 级神经网络聚类级回归合奏A→ CP→ CR→ C11.84± 0.7615.81± 0.8216.58± 0.8616.95± 0.7720.30± 0.8416.82± 0.864.30± 0.704.24± 0.683.76± 0.6622.940.44.512.826.817.310.98± 0.767.71± 0.7611.19± 0.8412.54± 0.819.12± 0.8412.64± 0.8413.10± 0.8110.43± 0.8412.48± 0.8312.53± 0.769.10± 0.7912.28± 0.84C→ AP→ AR→ A7.61± 0.5312.52± 0.537.80± 0.487.37± 0.5217.05± 0.537.96± 0.484.08± 0.483.43± 0.463.16± 0.4121.718.521.66.98.510.44.50± 0.453.68± 0.464.44± 0.464.72± 0.486.92± 0.533.05± 0.434.48± 0.485.46± 0.503.90± 0.425.02± 0.474.36± 0.473.04± 0.39C→ PA→ PR→ P5.78± 0.786.81± 0.774.38± 0.625.57± 0.7610.64± 0.824.50± 0.643.32± 0.615.35± 0.713.63± 0.59149.315.66.41.53.83.22± 0.595.39± 0.788.1± 0.743.50± 0.596.26± 0.795.54± 0.683.95± 0.636.08± 0.765.30± 0.673.25± 0.575.56± 0.755.27± 0.68C→ RA→ RP→ R5.86± 0.694.31± 0.634.59± 0.645.75± 0.685.34± 0.707.18± 0.783.67± 0.624.19± 0.624.18± 0.676.45.113.95.76.410.83.73± 0.637.86± 0.7910.83± 0.774.00± 0.636.75± 0.738.72± 0.763.95± 0.646.08± 0.718.05± 0.783.82± 0.666.25± 0.747.88± 0.75表2：在Office-Home上的校准性能（ECE %）方法QuickdrawInfograph草图剪贴画绘画房平均未校准只有源仅目标（Oracle）21.42± 3.3320.24± 2.570.68± 0.2823.99± 3.9424.58± 4.521.81± 0.3316.65± 2.0617.06± 2.182.01± 0.8611.63± 2.6811.67± 3.262.51± 0.5816.43± 3.9116.83± 3.712.68± 0.7211.82± 2.0911.24± 3.212.33± 0.3716.99± 5.5116.93± 5.722.00± 0.87集合级簇级NN簇级Regr.10.01± 2.258.10± 1.9511.72± 5.817.39± 3.307.91± 2.2411.93± 6.743.52± 2.583.04± 1.317.29± 5.196.83± 4.686.06± 2.748.49± 3.745.87± 4.434.17± 1.777.08± 5.5113.38± 4.379.35± 2.659.55± 5.397.83± 4.876.44± 3.129.34± 5.80合奏9.81± 2.549.51± 2.993.12± 1.595.71± 2.503.66± 2.548.15± 2.746.66± 3.67表3：针对每个目标域平均的DomainNet上的校准性能（ECE %）×σECE< −3 （−3，−2）（−2，0）（0，2）（2、3）>3TransCal [32]1001010WTS [20]110118表4：通过我们的方法实现的ECE减少的办公室-家庭域分割的数量，具有95%置信度（2σECE）和99%置信度（3σECE）。算法可以提高校准的泛化性能，并为Office-Home（从表 1 中的仅源校准中 ECE 降低 3.92 个百分点）和DomainNet（从表1中的仅源校准中ECE降低3.92个百分点）ECE中的10.27个百分点，来自表3中的仅源校准）。与域自适应方法的比较。对于Office-Home，我们将我们的方法的性能与为域自适应设计的两种最近的校准传输方法进行了比较：TransCal [32]和加权温度标度（WTS）[20]。平均而言，我们实现了8的减少。ECE比TransCal高86个百分点，表5：基于平均ECE评分的改善比率减少3。ECE相对于WTS为25个百分点（表1）。虽然跨域分裂的σECE相对较高，但考虑到每个域分裂的σECE为1%，通过我们的算法实现的ECE的降低仍然是显著的。与TransCal相比，对于12个域分裂中的10个，ECE的降低大于3σECE（即，对于表4中的83%测试情况，置信度>99%）。对于WTS，对于12个域分裂中的9个，ECE的减少大于2σECE（即，对于表4中的75%测试情况，置信度>95%）。办公室-家庭域名网TransCal [32]0.25-WTS [20]-0.03-集合级0.560.61簇级神经网络0.530.70聚类级回归0.540.51合奏0.600.698967--对于表5中的IR，TransCal能够补偿仅目标校准和仅源校准的 ECE 分数之间的差异的约四分之一（IR=25%），而WTS证明仅与仅源校准（IR=3%）2相当地执行。正如预期的那样，我们的方法产生了更高的IR（IR=60%，比TransCal提高了35个百分点），补偿了仅源和仅目标校准的ECE分数之间的差异的一半以上比较我们的方法。正如预期的那样，我们的集成方法执行最好的（ Office 家庭）或与最佳性能（DomainNet）。比较集合级和簇级方法，它们实现了更好的性能，相对于不同的域分裂。在办公室-家庭（表1）上，设置水平方法实现平均ECE为6。80%和56%的IR，而集群级NN方法产生的平均ECE为6。98%，IR为53%。在DomainNet上，聚类级NN方法在几个不同的目标域上实现了更好的性能（表3）。其产生平均ECE为6。44%和70%的IR（补偿由域偏移引起的70%的校准误差这验证了在聚类层次上学习多个校准模型，并利用最近邻算法为每个测试样本选择最合适的温度的策略可以有效地提高校准性能。基于聚类水平回归的方法产生的平均误差略高于其他两种方法。从概念上讲，学习捕获从特征到对应的最佳温度的底层映射的回归模型可以允许运行时外推，使得可以直接预测特定测试实例的适当温度，而不是从针对集群学习的温度中进行选择。在实践中，其性能对学习的回归模型、聚类和所使用的特征的准确性和鲁棒性更敏感与仅估计单个参数的温度缩放相比，还需要估计更多的参数。不同领域的比较。在表1和表3中，域从左到右排列，增加了图像真实性。对于这两个数据集，最低的校准误差是实现驻留在光谱的中间的域。例如，Art在Office-Home上的ECE最低，而Sketch在DomainNet上的ECE最低。这些观察结果与我们的理论分析一致，理论分析表明目标域和校准域之间的数据分布重叠决定了校准误差。对于光谱末端的结构域，使用剩余结构域获得良好比对的机会降低。这直接导致了Ob-2由于TransCal和WTS报告了仅源校准和仅目标校准的不同ECE评分，因此我们使用其各自的数字来计算改善率以进行公平比较。在域谱上ECE分数的服务U形（即，中间低，两端高）。与域自适应相比，我们假设多个源域的可用性。我们的假设是更现实的应用，如识别使用新的传感器平台或自动驾驶下极端天气/未开发的地形。如果未标记的目标数据在校准阶段是可用的，我们可以使用它来估计密度比。在这种情况下，我们的方法通过域自适应简化为校准传递，但能够选择正确的校准域或其部分以优化传递。同样值得注意的是，我们绕过了优化特征对齐的步骤，这是一种常用的领域泛化方法。相反，我们专注于提高置信度预测，以更好地匹配的分类精度，给定任何分类器是否优化，以保持跨域的准确性。我们的校准方法可以应用于跨域对齐的特征空间的顶部，以进一步减少从校准的角度来看，剩余的未对准。我们在补充材料中包括额外的实验和讨论。6. 结论在这项工作中，我们解决了问题的置信度校准域泛化，一个更具挑战性的问题比校准域自适应没有数据从目标域使用。我们的关键思想是利用多个校准域与用于训练分类模型的源域和彼此之间的我们在相同的理论框架下对基于域自适应的校准方法进行了比较。我们表明，引入多个校准域可以有效地减少密度比的方差，这是决定校准误差上界的主要因素。在理论研究的基础上，我们提出了三种基于温度标度的算法，即集合级算法、最近邻聚类算法和线性回归聚类算法通过使用Office-Home和DomainNet数据集的实验，我们证明了我们的方法可以通过域自适应优于校准方法，对于至少75%的测试场景具有统计学显著（置信度>95%7. 致谢本材料基于国防高级研究计划局（DARPA）根据合同号HR001119C0112支持的工作。本材料中表达的任何意见，发现和结论或建议均为作者的意见，不一定反映DARPA的观点。8968引用[1] Amr Alexandari、Anshul Kundaje和Avanti Shrikumarn。具有偏差校正校准的最大似然在标签移位适应时难以击败。2020年国际机器学习会议。二个[2] Dario Amodei ， Chris Olah ， Jacob Steinhardt ， PaulChris-tiano，JohnSchulman和DanMan e'。人工智能安全中的具体问题载于arXiv：1606.06565，2016。一个[3] 尤格什·巴拉吉，斯瓦米·桑卡拉纳拉亚南，和罗摩·哲拉帕. Metareg：使用元正则化实现领域泛化.在高级神经信息。过程系统，2018年。2[4] Corinna Cortes，Yishay Mansour，and Mehryar Mohri.学习重要性加权的界限。在高级神经信息。过程系统，2010年。一、二、四[5] 加布里埃拉·楚卡视觉应用程序的域适应：全面调查。在计算机视觉应用程序中的域适应，2017年。二个[6] 放大图片作者：Daniel C.卡斯特罗康斯坦丁诺斯·卡姆尼萨斯和本·格洛克。通过语义特征的模型不可知学习的领域泛化在高级神经信息。过程系统，2019年。二个[7] Chelsea Finn，Pieter Abbeel，Sergey Levine.用于深度网络快速适应的模型不可知元学习。2017年国际机器学习会议。二个[8] Muhammad Ghifary ， W. Bastiaan Kleijn ， MengjieZhang，and David Balduzzi.用多任务自动编码

下载后可阅读完整内容，剩余1页未读，立即下载