贝叶斯不变风险最小化

125 浏览量更新于2023-10-26 收藏 1.46MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

16021贝叶斯不变风险最小化[StarCount*]Hongqiao Yuan2*1香港科技大学2罗格斯大学{ylindf，hdongaj} @ ust.hkhw488@cs.rutgers.edu摘要分布转移下的泛化是机器学习的一个公开不变风险最小化（ Invariant Risk Minimization ，简称 RiskMinimization）是一个很有前途的框架，它通过提取不变特征来解决这个问题.然而，尽管有潜在的和流行的bepaly手机投注，最近的工作报告了负面的结果，它对深模型。我们认为，失败可以主要归因于深度模型的倾向，过度拟合的数据。具体地说，我们的理论分析表明，当过拟合发生时，风险最小化（ERM）退化。我们的经验证据也提供了支持：即使我们稍微扩大模型大小或减少训练数据，在典型环境中工作良好的学习方法也为了解决这一问题，我们提出了贝叶斯不变风险最小化（BIRM）方法，将贝叶斯推理引入到该方法中.关键的动机是基于分类器的后验分布（而不是单个分类器）来估计过拟合的惩罚，这更不容易发生过拟合。在四个数据集上的大量实验结果表明，BIRM始终优于现有的训练基线显着。1. 介绍在过去的十年里，机器学习技术取得了巨大的成功，推动了计算机视觉[25，30]，语音识别[23]等许多领域的发展。其他领域[6，19，35，55，56]。然而，最近更深入的研究表明，由于存在虚假特征或捷径，这些模型失败[7，14，20，53];[7]举了一个例子：模型可以依靠背景（牧场或沙漠）来区分奶牛和骆驼。在这种情况下，背景，一个虚假的特征，是不恒定的，可以在不同的域中任意变化。基于独立同分布（ independent and identicaldistributed，i.i.d）的机器学习的共同基础并不总是成立。经验风险最小化-*同等贡献。这项工作得到了GRF 16201320的支持。与Google Research如果测试分布与训练分布不同，基于ERM的模型可能会严重恶化这也被称为分布外（OOD）泛化问题。为了放松身份证。假设，[39]提出利用不变性原理旨在使用即使在分布移位的情况下也是稳定的不变特征在前面提到的牛和骆驼的例子[7]中，动物的形状是不变的特征。不变风险最小化（Invariant Risk Minimization，简称RST）[4]将不变原理扩展到神经网络.具体而言，该算法认为训练数据是从多个环境（域）中收集的，虚假特征与标签的相关性正则化神经网络以提取不变特征并丢弃虚假特征。希望仅依赖于不变特征的模型能够很好地推广到不可见环境。它因其潜力而广受欢迎，并推出了一系列优秀作品[1在给定足够多的线性模型环境下，保证识别出不变特征[4，40]。然而，[24，33]中最近的实证研究结果表明，在深度模型上，递归方法无效我们认为，这种失败主要归因于深度模型倾向于过度拟合数据。从理论的角度来看，我们发现，当过拟合发生时，ERM最终可以退化为ERM。理论发现得到了广泛的实证证据的验证：（1）ERM训练的模型也可以最小化错误惩罚（第3.3节）;（2）当错误惩罚消失时，IRM训练的模型仍然可以包含虚假特征（第5节）;（3）随着模型的扩大或数据的减少，错误方法会迅速恶化（第5节）。受理论和实证研究结果的启发，我们提出了贝叶斯不变风险最小化（BIRM）作为贝叶斯处理方法[8]，以大大减轻过度拟合，使深度模型中的过度拟合变得实用假设预测模型由特征提取器和分类器组成[16，17]。给定学习的特征表示，BIRM估计每个环境的分类器（而不是单个分类器）的后验分布。如果16022ERR··neXYX → YΣRRE·R≥we我··我 i=1我我E E ∈ ED{}特征表示仅包含不变特征，在每个环境中估计的后验应该几乎相同。否则，后验分布将在不同的环境中有所不同，为了防止这种情况发生，我们引入了一个额外的惩罚项。与现有的递归方法相比，BIRM估计分类器后验分布的不变性正则化，这不太容易过拟合[8]。捐款.• 我们正式确定过拟合是为什么在大型深度模型中失败的关键原因。我们提供了支持理论分析的经验证据。• 我们提出了一个贝叶斯公式来减轻过度拟合，以及一个有效的算法，大大降低了深度递归模型失败的机会• 通过大量的实验验证了贝叶斯估计的有效性，并表明该方法对现有基线有较大的改善。2. 相关作品不变风险最小化。它是在[4]中发展起来的，最近才流行起来随后提出了几个可接受的变体：[31，49]建议惩罚不同环境中的风险差异;[11，54]使用神经网络来估计违反invari-ance; [50]通过优化分类器凸包中的最坏情况进一步扩展了这一想法;[2]通过结合博弈论提出了博弈[1，13，34]考虑一个更具挑战性的任务，其中没有明确的环境指数。在[3，12，27，40]中分析了双折射的理论性质。[3]研究了采样效率。[40]研究了一种特殊的非线性函数。[12]利用迭代方法来减少并行计算所需的环境数量尽管RNN很受欢迎，但最近的一些作品[24，33]发现RNN在深度模型上不太有效在本文中，我们将这个问题归因于过拟合问题，并通过引入贝叶斯原理来改进算法。贝叶斯推理贝叶斯推断是统计推断的基本方法;它考虑模型参数的不确定性[9，21，45，46]。贝叶斯推理已被广泛应用于许多机器学习主题，例如，不确定性限定[22，38，44，46]，强化学习[43]等。尽管如此，贝叶斯方法中后验分布的近似幸运的是，变分推理提供了有效估计这些后验分布的可能性，即使是在大型模型上[10，15，28，46，51]。最近，贝叶斯推理已经也被引入深度学习模型以提高鲁棒性[15，26，28，29，36，37，46，47，51]，这也启发了我们的方法。3. 过度拟合陷阱3.1. 不变风险最小化准备工作。在整篇文章中，大写字母X和Y表示随机变量;小写字母x、y和w表示样本和参数。我们假设有一组多个环境，可以从中提取数据。在训练过程中，我们可以进入各种环境，tr环境Etr包含ne个样本，表示为e（xe，ye）ne。设和为X和Y的空间。我们的目标是学习A函数f：，它在给定X的情况下预测Y。这里，f由分别具有参数w和u的分类器g w（）和特征提取器h u（）组成。分布外泛化的任务旨在找到最佳w和u，使最坏环境的损失最小化min supere（w，u），（1）w，ue∈E其中e（w，u）是来自e的数据的负对数似然。从形式上讲，我们有Re （ w ， u ） = − ln p （ De|w ， u ） = − nln p.ye|w，hu（xe），i=1也就是说，我们的目标是学习最优的w和u，以最大化最坏环境的可能性。我们只考虑w，u是明确指定的情况，使得e（w，u）0对所有w，u成立。不变风险最小化（Invariant Risk Minimization，简写为RST）。本发明[4]旨在解决以下目的以实现（1）：mine（w，u），（2）导线ue∈E树S.T. w∈ arg min Re（w e，u），ne ∈ Etr在Eq.（2）试图通过Hu（）来学习特征表示，其可以导出对于所有训练环境同时最优的分类器Gw（）为了实现这一点，hu（）应该丢弃伪特征。IRMv1. 由于Eq. （2）是一个具有挑战性的双层优化问题，[4]提出了IRMv1来近似方程的解。（二）、IRMv1如下所示：mine（w，u）+ λwe（w，u）2（3）导线ue∈E树除了IRMv1之外，最近还出现了其他几个优秀的Risk变体：InvRat [11]估计了16023Re2最小-最大过程; REx [31]使用不同环境中损失的方差作为惩罚。由于篇幅所限，请读者参阅原文[2，4，11，13，49]以作详细说明。3.2. 过度拟合的陷阱在本节中，我们从理论上分析了过拟合发生时的行为。我们的研究结果表明，不变的约束，在Eq。（2）当模型记忆训练数据时，平凡地保持那么，学习不变性特征将不再提供任何保证。我们的分析基于以下假设：假设1（有限样本量）。训练环境和样本的数量是有限的：|Etr|<∞和|D e|=n e<∞，n e ∈ Etr.假设2（足够的能力）。参数w和u有足够的能力来拟合训练数据：存在w<$和u<$，使得Re（w<$，u<$）=0。31、49、50、54]。相比之下，[3，40]只关注一个变体，IRMv1 [4]。他们的理论是否适用于其他变体仍有待探索。• [40]将讨论限制在某些特殊的非线性模型中，其中函数值在高密度区域的边界上跳跃。很难验证这种情况是否足够普遍，以涵盖实际使用的模型，即神经网络。相比之下，我们的理论只适用于非常温和和可验证的假设。下面的推论1意味着IRMv1在过拟合的情况下也很难学习不变特征。假设3（可微性）。e（w，u）是相对于r. w，u。推论1（IRMv1失败）。在假设1、2、3、（w<$，u<$）∈（w<$，u<$）∈argmin<$Re（w，u）+λ<$$>wR（w，u）<$假设1在实践中成立，因为我们只能从几个环境中获得有限的训练数据导线ue∈E树假设2也与最近关于过度参数化神经网络的发现一致;例如，[52]表明大型神经网络即使在存在强正则化的情况下也可以记住所有训练数据。然后我们继续定义过拟合区域。定义1（过拟合区域）。过拟合区域，是满足假设2的w<$和u<$的集合：：={w| Re（w<$，u<$）=0，{e∈Et r}我们的主要结果如下：第一项提案（将军失败）。在Assump-tion 1和Assump-tion 2下，ERP退化为ERM。此外，任何元素在Eq中是Eq中定义的Eq的解。（二）、命题1的完整证明被推迟到附录。命题1表明，任何过拟合训练数据的模型都是方程1中的解（2）无论模型是否使用伪特征。这样的模型在看不见的测试环境中可能表现得很差。不幸的是，这种过拟合现象在深度神经网络中很常见[52]。与现有理论的联系。文[3，40]中分析了它的一些理论性质[3]的结果表明，ERP的样本复杂性比ERP差[40]显示了非线性函数的递归的困难与文献[3，40]相比，我们的理论具有以下优点.• 我们的理论直接作用于定义，这是适用于各种变体的[4，11，推论1表明任何经验损失为零的模型也是IRMv1的最优解。值得注意的是，该模型仍然可以依赖于虚假特征。推论1的证明是命题1的直接推论。我们还可以证明InvRat，REx的类似失败案例。由于篇幅所限，我们将其留在附录中。3.3. 经验证据正如我们上面指出的，如果模型对数据进行了分类，那么分类将失败。为了看到这一点，我们可视化了ERM的培训过程。计算了训练目标的惩罚，但不应用于训练目标。同时，我们也估计虚假特征包含在模型中的非不变指标。非不变指标被定义为其预测易受虚假特征变化影响的测试样本的百分比（详细解释请参见Ap-pennsylvania）。零非不变指标意味着模型完全忽略虚假特征，而较大的非不变指标代表更多的虚假特征使用。图1显示了当我们在CMNIST [4]上训练具有3层MLP的ERM模型时的平均惩罚和非不变指标。在初始阶段，随机初始化的网络不包含虚假特征，因此非不变指标和随机惩罚都处于较低水平。随着训练的进行，模型快速学习虚假然后，随着模型在虚假特征之后学习不变特征[42]，非不变指标下降并稳定，直到结束。当模型开始记忆数据时，最后的惩罚消失了，但是非不变指标仍然保持60%-70%。换句16024隐藏空间641282565121024102425651264128imension隐藏D非不变指标（%）uD··D··|DuDuuuDD|DD·|D|D|Du（·）。设De+ λEqu（w）[ln p（D|w，u）] −Eqe（we）[ln p（D|w，u）]，u我i=1e=1up（wu），分别是给定特征表示的分类器的后验。我们在图中添加斑马条纹E qe（we）[lnp（D|w，u）]=ln p（D|w，u）qu（w）dw，uD·uuu|D|Deu10K训练数据0.01020K训练数据0.0050.0040.0030.0020.0080.0060.0040.0010.0020.000100025050075010001250150017502000迭代10K训练数据0.000100025050075010001250150017502000迭代20K训练数据80 8060 6040200050010001500200025003000迭代40200050010001500200025003000迭代图2. 学习不变和非不变特征的模型图。节点u表示特征编码器hu（）。节点w e代表给定e的分类器参数的后验，e是环境e的数据分布，图1.在CMNIST [4]上使用不同隐藏维度的3层MLP训练ERM的图示。惩罚是测量的，但不适用于目标。随着ERM训练的进行，训练惩罚衰减到零，而非不变指标表明模型中存在大量随着模型的增大和训练数据的减少，训练惩罚消失得更快。换句话说，该模型仍然严重依赖于虚假特征，而虚假惩罚不能检测到它。图1进一步显示，随着模型容量的增加或数据集大小的减小，重复性损失消失得更快经验现象与我们在第3.2节中的理论结果一致：当过拟合时，拟合失败。更多的经验支持可在第5节中找到。4. 贝叶斯不变风险最小化在第3.2节中，我们已经证明过拟合对递归是有害的。贝叶斯推断是一种众所周知的缓解过拟合的方法，并且已证明在存在模型误指定的情况下可以实现最佳样本复杂度[5，32]。在这一节中，我们提出了贝叶斯不变风险最小化（BIRM），一个新的变种，通过结合贝叶斯原理。第5节中的大量实验结果表明了BIRM的优越性。4.1. 动机和表述为了激励我们的方法，我们在图1hu（）.节点w代表给定来自混合环境u的数据的后验。（左）当hu（）编码非不变特征时，每个环境都有一个唯一的类后验，sifier参数，其依赖于环境指数e;（右）当hu（）编码不变特征时，w e具有与w几乎相同的后验，其不再依赖于环境指数e。在典型的平均场变分推断[10]中，我们假设对于所有we和w都有相同的先验p0（w）。如果特征提取器hu（）学习非不变特征，则e的数据分布与e不同。因此，在不同的环境中，后p（wee）是不同的。然后，如图2（左）所示，存在we对e的依赖性。我们进一步有p（w ee） p（wu），因为e的数据分布不同于u的数据分布。在这种情况下，模型不能推广到不可见的元素e'，因为e′可以是任意的。不变学习的目标是获得一个提取器hu（）编码不变特征。使用不变表示，e的数据分布对于所有e都是相同的。因此，对于每个环境，后验p（wee）应该接近，并且它们都进一步等价于共享后验：p（w ee）、p（wu）中。图2（右）通过移除节点we对节点e的依赖性来说明这种情况。基于上述直觉，我们提出了贝叶斯不变风险最小化（BIRM）：maxEq（w）[lnp（De|w，u）]（ 4）uu2、不变量学习问题。节点u为零。euueeu由提取器hu（·）变换的元素e：其中q u（w）<$p（w| Du）和q e（w e）p（w e| De），De{h（xe），ye}n. 设DSEtru uDe表示数据从训练环境的混合物中收集图2中的节点w e和w代表p（w e| De）和Du和De;这两个术语，乌埃埃河e e e e2将w和u与we区分开来，因为w和u不依赖于某个环境指标。后Equ（w） [lnp（De|w，u）]=ln p（De|w，u）q u（w）dw隐藏空间641282565121024102425651264128imension隐藏D罚款罚款非不变指标（%）对于特征提取器h，数据来自uu给定分类器的近似后验分布16025uuuu·u·DDuuNu···K→ ∞→···NQ{NuuNNqu（w）=argmaxEq′q′∈Qlnp（D|w，u）分别是来自环境e的数据的qe（we）和qu（w）的期望对数似然反对意见2. 如果hu（·）不表现伪特征，则当ne→∞时，qe（we）-D→qu（w），注意，近似后验qu（w）和qe（we）ue e显式地依赖于u。第一项在Eq。（4）是通过优化u来最大化w的共享后验qu（w）的期望对数似然。它鼓励u保留尽可能多的信息，以使qu（w）适合数据分布。在Eq中的第二项（4）要求学习不同的特征。如果 hu（·）编码非in变量fea，转换后的分布De在环境中变化。ronments。回想一下，qe（we）是给定De的后验，Equ（w）[lnp（D|w，u）]−Eqe（we）[lnp（D|w，u）]→0，其中re−D→表示分布中的一致性命题2的证明见附录。命题2表明如果hu（）不提取虚假特征，则惩罚为零，BIRM只考虑模型的经验风险。否则，将导致处罚，鼓励hu（·）丢弃伪特征。qu（w）是给定u的后验。因此，qu（w）在e上可以获得比qu（w）更高的似然。然后我们施加惩罚，要求hu（）丢弃非不变特征。请注意，公式中的vanilla定义（2）基于w的单点估计，当数据不足时，这可能是BIRM不是点估计，而是直接由后验分布引起的，这不太容易过拟合[5，8，32]。变分推理后验分布的估计在大型模型中是非平凡的在这里，我们通过变分推理用qe（we）和qu（w）逼近它们给定一个分布族Q，我们近似后验4.2. 方差缩减重新参数化注意，我们使用来自qu（w）和qe（we）的蒙特卡罗样本来估计等式中的惩罚项。（四）、一个常见的做法是通过重新参数化技巧来绘制样本[28]：w=µ+，we=µe+ee，e，（7）其中，（0，I），你好，etr.然而，在命题2中，这两个期望项是接近的，但传统的重新参数化方法可能会在训练期间引起高方差。我们要收集金三-请估计期望值，W，· · ·，w从通过找到最优q∈ Q，u，1e e eu，K证据下限（ELBO）估计qe（we）的目标函数为：qu（w）和来自qu（we）的wu，1，wu，K;估计的惩罚计算为：埃埃埃1Σ ΣK-KL（q ′p0（w）），（5）i=1e（八）其中第一项是最大化后验分布的期望对数似然，第二项旨在保持q′接近先验p0（w）。同样，目标求qu（w）的函数为：qu（w）=a rgmax<$Eq′<$lnp（De|w，u）eJK（u）的方差的特征如下。3号提案通过在Eq. （7），n，V[J K]c/K，其中c是常数，V[J K]是J K的方差。命题3表明，估计的方差q′∈Q-KL（q′p0（w））（六）当给定K时，惩罚JK是一个常数。在这种情况下我们需要一个大的K来使训练算法稳定。是-双方，接近训练结束时，对点球的期望遵循变分推断（平均场近似）[10]的常见做法，我们选择因式分解的高斯分布，即，=（µ，）： µ=[w1，.，其中d是分类器参数w的维数。先验p0（w）为设为均值为零的高斯分布：（0，σI）。 Eq.的后验估计。（5）和（6）表示为接近于零（根据命题2），这意味着方差可以支配惩罚。为了解决这个问题，我们提出了方差减少的重新命名技巧。我们的主要直觉是对w和we使用共享的辅助噪声变量，使得采样的随机性可以在减法之后彼此抵消具体地说，我们采样了一个数组N（0，I），并使用它来参数化-qu（w）=（μ，）和qe（we）=（e，e）.借助变分推理，我们最终能够优化方程。（四）、具体地说，训练过程将在求解Eq.（ 5 ）、（6 ）和（4）。e ee-ln p（D |w u，i，u）+ln p（D|wu，iJK（ u）=，u）。16026u下面的命题描述了qe（we）和qu（w），当我们学习一个不变量u时。将wu和we都表示为：w=µ+swe=µe+s e，e（9）我们在方程中命名重新参数化。（9）方差缩减的重参数化技巧。下面的命题说明了这种方法的优点。16027CMNIST数字颜色ColoredObject对象背景CifarMnistMNISTu→ ∞→u·uuNuu−∈∈第四个提案通过方差减少重新参数化方程。（9），作为n e，V[J K] 0，其中V[J K]是J K的方差。比较命题4和命题3，我们可以看到，方差减少的重新参数化可以实现更小的方差比传统的方法。4.3. 快速自适应虽然贝叶斯后验的引入是直接和合理的，它是计算耗尽找到Eq的ELBO解决方案。（5）在每一步中对不同环境的影响。我们进一步从MAML [18]中借用快速自适应的思想，以更有效的方式估计qe（we）数据集不变的虚假训练测试合成的X1X2ρ e= 1。0 ρ e=9。9表1.数据集插图“Invariant”虚假特征与标签有很强的相关性，如“训练”样本所示然而，在“测试”样本中，相关性是相反的模拟分布的变化。对于合成数据集，X2是根据等式以不同的ρe生成的。（十一）、有效的方式。命题2表明，作为训练亲-当通过hu（）提取较少的伪特征时，Qe（we）将更接近于Qu（w）。这使得有可能执行如下的qe（w）的快速估计q e（w）= N（µ − µEq（w）ln p（De|w，u），n），（10）样本量5K 2K 1K0.5K Oracle 0.97 0.98 1.021.02ERM 28.4027.2230.32 二十八点六六IRMv1 2.15 4.31 8.76 13.75REx 5.55 8.65 15.40 15.12投资回报率2.25 4.15 9.03 13.66uuBIRM（我们的）1.82 2.90 3.17 3.86其中q u（w）=（μ，μ）。在这里，qe（we）的平均值μe通过对来自环境e的数据进行梯度下降μ的步骤来近似。快速自适应的可行性是基于命题2所指出的qe（we）与qu（w）的接近性，这使得单步估计是不可行的。通过这种方法，我们不需要每次从头开始估计qe（we）。请注意，BIRM的完整算法见附录。备注。现有的工作[48]提出了不确定性域不变学习（DILU），它还估计了分类器的分布，以获得更好的OOD性能。具体来说，他们从每个环境中随机抽取具有相同标签的样本，并匹配样本的输出。然而，现有的机器人通常认为这是一项极具挑战性的任务，其中标签是嘈杂的[2，4，11，31，39，49]。由于标签噪声的存在，DILU可以强制对齐来自不同类别的样本的预测，这将阻碍因果特征的学习。虽然DILU不属于并行计算方法，但我们在第5节的实验中将DILU作为基线添加。第5节中的结果表明，我们的方法大大优于DILU。5. 实验在本节中，我们将展示BIRM在多个数据集上的有效性，一个合成数据集和三个视觉数据集。详情总结见表1。基线。我们将BIRM与（1）标准经验风险最小化（ERM）进行比较;（2）三种现有的方法：IRMv1[4]，REx[31]和InvRat[11];（3）相关的域泛化方法：DILU[48];（4）在没有虚假特征的数据集上训练的ERM（Oracle）。表2.在合成数据集上测试MSE。样本大小代表训练数据的数量。5.1. 合成数据集合成数据集考虑了与[4]类似的情况，其中伪特征由反因果效应引起。具体来说，数据集的生成如下：X1<$N（0，σ2I），Y=1<$X1+N（0，σI）（11）X2=Y·1+N（0，（ρe σ）2 I），其中，X1，X2r2和y R.X1和X2分别是不变特征和伪特征.I是单位矩阵，1是1的向量。ρe在不同的环境中变化，表明伪特征X2和Y之间的相关性是不稳定的。ρe越大，X2与Y的相关性越弱.训练数据集由两个环境组成，其中ρe分别设置为0.5和1.0在测试数据集中，ρe设置为9.9。依赖于虚假特征的模型预计在测试数据集中表现不佳。我们拟合一个线性模型来预测X1和X2上的Y 。然后，我们评估预测值 Y和 Y 之间的均方误差（MSE）：E[（YY= 0）2]。表2示出了具有不同训练数据量的每种方法的结果。ERM在测试数据集上的糟糕性能表明，ERM依赖于虚假特征X2。当样本大小为5K时，最佳基线表现良好。然而，它们的性能随着数据的减少而迅速恶化。我们的 BIRM 在所有设置中的性能始终优于基线RISK、IRMv1、REx和InvRat当数据有限时，BIRM在16028样本量50K*40K30K20K15K10K5KOracle72.4571.6170.1969.4568.1166.9964.15ERM10.8011.0311.0813.5816.2218.2021.04的卢50.2252.3145.3144.2148.9243.1443.83IRMv167.4565.2563.4658.6749.5135.6026.19InvRat66.3566.6161.0557.2550.0434.2825.42雷克斯69.1269.1066.9463.3556.5043.1732.55BIRM（我们的）69.9769.4769.0667.0266.7866.4060.01表3.在不同的训练样本量下，通过隐藏大小为390的MLP测试CMNIST的准确性。IRMv1、REx和InvRat，图3. BIRM与不同模型大小以更少的数据快速计算BIRM显著改善基线在数据匮乏的情况下。* 标准样本量为50K [4，31]基线的显著裕度：BIRM的测试MSE为3.86在给定0.5K训练数据的情况下，其他样本基线的测试MSE均大于13！5.2. 视觉数据集在本节中，我们在具有虚假特征的三个视觉分类数据集CMNIST [4]、Col- oredObject [1，53]和CifarMnist[33 ， 42] 上评估 BIRMCMNIST 采用多层感知器（MLP），有色对象和CifarMnist采用ResNet-18。数据集和实验设置遵循文献[1，2，4，11，31，33，34，49，53]中的惯例。我们使用偏置比来表示虚假特征与标签的相关性[53]。每个数据集包含两个训练环境和一个测试环境。偏倚比在不同环境中不同，表示为（r1，r2，r3），其中r1和r2是训练偏倚比，r3是测试偏倚比[53]。CMNIST[4]. CMNIST由两类数字图像组成：0和1。这些图像被重新绘制为彩色背景作为虚假特征。如前所述，偏置比为（0. 九比零。八比零。1）在CMNIST中。为了使其更具挑战性，将25%的标签噪声添加到CMNIST [4，53]。CifarMnist[33，42]. CifarMnist中的每个图像都是通过连接两个分量图像来合成的：CIFAR- 10（不变）和MNIST（虚假）。偏置比为（0. 999，0。七比零。1）。标签噪声比为10%[4]。ColoredObject[1 ， 53].ColoredObject 是通过将从MSCOCO中提取的八类对象叠加在彩色背景（虚假特征）上来构造的。偏置比为（0. 999，0。七比零。1）。注入10%标签噪声5.2.1结果我们在表3中总结了CMNIST的结果。注意，[4，31]中采用的CMNIST包含50K图像样本。在本文中，我们进一步减少随机子抽样的样本容量。如表3所示，性能方法着色对象CifarMnistOracle85.3±0.683.7±1.5ERM49.8±0.439.5±0.4IRMGame55.7±1.846.7±2.1的卢56.2±1.750.2±1.7IRMv171.4±0.251.3±3.0雷克斯73.2±2.950.1±2.2InvRat73.5±1.552.3±0.9BIRM（我们的）78.1±0.659.3±2.3表4.在ColoredObject和CifarMnist上测试精度当样本大小从50K减小到5K时，IRMv1、REx和InvRat的平均值急剧下降。例如，IRMv1在提供50K训练数据时达到67.45%的测试准确率，而在提供5K训练样本时仅保持26%的测试准确率。相比之下，BIRM仅用5K训练数据就可以保持60.01%的测试准确率。图3显示了当提供10K、20K和50K数据时，每种方法在CMNIST上的结果，其中MLP具有不同的隐藏维度。我们可以看到，大规模的基线模型更有可能在数据不足的情况下失败例如，在10K训练数据的情况下，当模型的隐藏维度从64增加到1024时，REx的性能从55.2%下降到32.4%。与其他基线一致，BIRM随着模型隐藏维度的增加而更加稳定，即，根据图3，在10K训练数据的情况下，性能仅从67.4%略微下降到63.5%。在CMNIST（20K）上，BIRM的表现一直优于BNST基线，当隐藏维度为1024时，超过其中最好的基线10%以上这些实验结果也为3.2节中的理论发现提供了支持，即由于数据减少或模型扩大而导致的过拟合表4总结了ColoredObject和CifarMnist上所有方法的结果。BIRM显著优于所有基准。ERM的性能仅为49.8%，表明它严重依赖于虚假特征。IRMv1、REx和InvRat的测试准确率分别为71.4%、73.2%和73.5%，比ERM更稳健建议的BIRM进一步提高到78.5%。在CifarMnist上，表4显示ERM仅实现了16029方法L2提前停止培训（%）试验（%）2019 -05 - 21 10：00：001×10−386.39 35.601×10−265.29 49.78IRMv11×10−150.47 50.441× 10−384.20 41.921× 10−263.61 50.69BIRM1×10−366.6766.40表5. BIRM和IRMv1在CMNIST（10K样本量）上L2权重衰减和早终止的比较10−3是本文和[4，31]中的默认权重衰减率图4. CMNIST上的培训方法说明[4]。随着训练的进行，REx、InvRat和REx的损失很快消失然而，根据非不变指示符，在特征表示中仍然存在大量的虚假特征（定义参见第3.3只有BIRM将杂散特征降低到低水平。39.5%的测试准确率。基线的测试准确度勉强超过50%。BIRM达到59.3%的测试准确率，超过最佳基线模型近7.0%。总的来说，我们可以看到CifarMnist的任务比Col- oredObject更难。值得注意的是，BIRM在CifarMnist和ColoredObject上也超过了DILU。5.2.2更多的分析刑罚的刑罚。图4显示了在10K和20K训练数据的训练过程中，训练时间惩罚和非不变指标（在第3.3节中定义）的趋势。随着训练的进行，所有重复基线的惩罚都衰减到零。然而，非不变指标最终仍为20%-40%这意味着，即使在模型中保留了大量的杂散，但对噪声的惩罚也被过拟合为零。相比之下，BIRM的非不变指标以与其惩罚同步的速度收敛于图4清楚地显示了与其他基线相比，BIRM在减轻过拟合方面的优势。与强正则化函数的比较我们已经表明，贝叶斯方法通过避免过拟合提高了自适应的性能。一个自然的问题是，更强的正则化，即，L2体重下降或早期停止[41]也有帮助。表5比较了BIRM与CMNIST上的强正则化IRMv1，训练样本具有10−3重量衰减的IRMv1（与[4，31]相同）具有35.60%的测试准确度。10−2的重量衰减可以使测试精度达到49.78%。然而，将权重衰减进一步扩大到10- 1会阻碍模型CMNIST（MLP）IRMv1 BIRM1.0×1.5倍COCO（ResNet-18）1.0×1.1×表6. BIRM VS IRMv1的相关训练。不变特征的学习，因为训练准确率下降到近50%。早期停止可以稍微改善性能，但随着L2总之，普通的正则化技术不能达到与贝叶斯方法相当的性能。计算开销贝叶斯推理的一个可能的问题是计算开销。然而，计算开销在BIRM中是可以接受的(1) 训练我们估计分类器的后验（不在特征提取层上）;因此，相对计算开销很小，特别是对于具有大型特征提取器的模型（如表6所示）。(2)推理。使用从训练中获得的鲁棒特征提取器，我们不需要在推理过程中从后验中采样;因此没有开销。6. 结论在本文中，我们研究了过度参数化深度学习模型中的迭代计算失败，并表明一个关键原因是由于大型模型的过度拟合而导致的迭代惩罚退化。为了解决这个问题，我们提出了一个贝叶斯公式，BIRM，平均不确定的模型参数制度，以避免过拟合。我们证明了这种方法可以稳定不变特征学习。我们已经进行了广泛的实验，证明BIRM改进了相对较大的模型的原始的可预测性公式。代码可用性我们的代码可以在 https ： //github 上找到。com/linyongver/Bayesian-Invariant-Risk-Minmization.16030引用[1] Faruk Ahmed，Yoellow Bengio，Harm van Seijen，andAaron Courville.用群不变预测进行系统推广。在国际会议上学习代表，2020年。一、二、七[2] Kartik Ahuja、Karthikeyan Shanmugam、Kush Varshney和Amit Dhurandhar。不变风险最小化博弈。国际机器学习会议，第145PMLR，2020年。一二三六七[3] KartikAhuja ， JunWang ， AmitDhurandhar ，Karthikeyan Shanmugam，and Kush R Varshney.经验风险最小化还是不变风险最小化？a sample样本complexity复杂perspective透视. arXiv预印本arXiv：2010.16412，2020。一、二、三[4] 马丁 · 阿吉奥 vsky， Le'onBottou ， IshaanGulrajani 和 DavidLopez Paz。不变风险最小化。2019. 一二三四六七八[5] 让-伊夫·奥迪伯特渐进混合规则是偏差次优的。神经信息处理系统进展，20：41-48，2007。四、五[6] Dzmitry Bahdanau，Kyunhyun Cho，Yoshua Bengio.通过联合学习对齐和翻译的神经机器翻译。在2015年国际学习代表会议上。1[7] 莎拉·比瑞格兰特·范·霍恩和皮特罗·佩罗纳在未知领域的认知。在欧洲计算机视觉会议论文集（ECCV）中，第456-473页，2018年。1[8] 何塞M贝尔纳多和阿德里安FM史密斯。贝叶斯理论，第405卷。John Wiley Sons，2009年。一、二、五[9] 克里斯托弗 ·M· 毕晓普。模式识别机器学习， 128（9），2006年。2[10] David M Blei，Alp Kucukelbir，and Jon D McAuliffe.变异推理：统计学家评论。 Journal of the AmericanStatistical Association， 112 （518 ）：859-877 ，2017.二、四、五[11] Shiyu Chang ， Yang Zhang ， Mo Yu ， and TommiJaakkola.不变有理化。《国际机器学习会议》，第1448-1458页。PMLR，2020年。一二三六七[12] Yining Chen ， Elan Rosenfeld ， Mark Sellke ， TengyuMa，and Andrej Risteski.迭代特征匹配：对数环境下的可证明域泛化arXiv预印本arXiv：2106.09913，2021。2[13] ElliotCreager，Joürn-HenrikJacobsen，andRichardZemel. 不变学习的环境推断。在机器学习国际会议上，第2189PMLR，2021年。二、三[14] Alex J DeGrave，Joseph D Janizek和Su-In Lee。用于射线照相Covid-19检测的人工智能选择信号的快捷方式。Nature Machine Intelligence，第1-10页，2021年。1[15] 哈里森·爱德华兹和阿莫斯·斯托基。成为神经统计学家。在2017年国际学习代表会议上。2[16] 方聪，董涵泽，张彤。过参数化的两级神经网络可以学习接

下载后可阅读完整内容，剩余1页未读，立即下载