量化和理解分布外泛化

200 浏览量更新于2023-10-25 收藏 876KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7947OoD-Bench：量化和理解分布外泛化叶南阳1*，李凯灿2*，白皓月3，俞润鹏4，洪岚清2，周峰伟2，李振国2，朱军41上海交通大学2华为诺亚3香港科技大学4清华大学ynylincoln@sjtu.edu.cn，mjust. gmail.com，hbaiaa@cse.ust.hk，yrp19@mails.tsinghua.edu.cn，{洪兰清，周凤伟，李振国}@ huawei.com，dcszj@mail.tsinghua.edu.cn摘要深度学习在独立同分布（independentand identical数据然而，当遇到分布外（OoD）数据时，神经网络的性能往往会急剧退化，即，当训练和测试数据从不同的分布中采样时。虽然已经提出了过多的算法用于OoD泛化，但我们对用于训练和评估这些算法的数据的理解仍然停滞不前。在这项工作中，我们首先确定和测量两种不同的分布变化，这是普遍存在于各种数据集。接下来，通过大量的实验，我们比较了两组基准测试中的OoD泛化算法，每组测试都由一个分布变化主导，揭示了它们在一个变化上的优势以及在另一个变化上的局限性。总的来说，我们将来自不同研究领域的现有数据集和算法定位为看似无关的相同连贯图片。它可以作为未来面向对象设计泛化研究的一个立足点。我们的代码可在https://github.com/ynysjtu/ood_bench上获得。1. 介绍深度学习已被广泛应用于计算机视觉[32]和自然语言处理[24]的各种应用中，并取得了巨大的成功，其隐含假设是训练和测试数据来自相同的分布，即独立同分布（i.i.d.）。假设。虽然神经网络通常表现出超人的泛化性能，*Ye Nanyang和Kaican Li是联合第一作者。南阳叶为通讯作者。[2]工作是在皓月和润鹏在上海交通大学实习期间完成的在训练分布上，它们可能对测试分布的微小变化敏感[74，88]。这是有问题的，因为有时真实的底层数据分布被手头有限的训练数据严重低估或歪曲在现实世界中，这种不匹配是经常观察到的[28，42]，并导致许多深度学习算法的显著性能下降[11，44，55]。因此，当前学习系统的可靠性在关键应用中受到实质性破坏，例如医学成像[4，20]，自动驾驶[7，22，56，80，92]和安全系统[37]。分布外（OoD）泛化，即在这种分布变化下进行泛化的任务，已在不同领域进行了分段研究，例如域泛化（DG）[17，59，95，106]，因果推理[67，69]和稳定学习[104]。在OoD生成的背景下，模型通常可以访问在不同环境中收集的同一任务的OoD泛化算法的目标是从这些不同但相关的训练环境中学习，然后外推到看不见的测试环境[8，82]。在这种动机的驱动下，多年来已经提出了许多算法[106]，每个算法都声称在特定类型的基准测试中超越了所有先例。然而，最近的一项工作[31]表明，这些算法所取得的进展可能被高估了-大多数为OoD泛化量身定制的高级学习算法仍然与经典的经验风险最小化（ERM）[90]相当在这项工作中，我们提供了来自不同研究领域的OoD数据集中表现出的差异变化的量化，并评估了OoD泛化算法在这些数据集上的有效性，揭示了为什么这些算法看起来并不比ERM好多少的可能原因，这在以前的工作中没有得到解释[31]。我们发现，现任数据集前-7948ZZX！Y2X2YPACs卡梅利翁ImageNet-V2 NICO彩色MNIST多样性转移？相关位移图1.图像分类数据集的例子展示了不同类型的分布变化。虽然很明显，两端的数据集表现出明显的分布偏移，但在中间，很难区分训练数据集和测试数据集之间的分布差异（例如，ImageNet [23]和ImageNet-V2 [74]），它们代表了大量真实的OoD数据集。这促使我们量化这些OoD数据集中的分布变化。摘要抑制分布移动一般可分为两类不同特性的算法，而大多数算法最多只能在其中一类上超越ERM。我们假设这一现象是由于两种不同的分布变化的影响，即多样性变化和相关性变化，而现有的文献往往只关注其中之一多样性和相关性变化的描述为我们理解分布变化提供了一个统一的图景基于本研究的发现和分析，我们对未来OoD泛化研究提出了三点建议：• 在两类数据集上对OoD泛化算法进行了综合评价，一类数据集主要由发散性偏移控制，另一类数据集主要由相关性偏移控制。我们提供了一种方法来估计任何标记数据集上这两个分布变化的强度。• 在设计算法之前，研究OoD问题中分布偏移的性质，因为对不同类型的分布偏移的最佳处理可能是不同的。• 设计大规模数据集，更巧妙地捕捉真实世界的分布变化，因为难以察觉的分布变化也可能对神经网络很明显。2. 分集移位和相关移位通常，由多个域组成的VLCS [89]和PACS [46]等数据集用于训练和评估DG模型。在这些数据集中，每个域代表数据的一定多样性。1在实验过程中，这些域被进一步分组为训练域和测试域，导致多样性转移。尽管广泛的研究[1]多年来DG的一个隐含假设是每个域彼此不同，这是DG和OoD泛化之间的主要区别，因为后者考虑的是更一般的设置。一直致力于多样性变化主导的数据集，直到最近[9]才注意到源于虚假相关的另一个具有挑战性的泛化问题有色MNIST是MNIST的一个变体[45]，它是通过用红色或绿色来突出问题来构建的彩色数字被安排到训练和测试环境中，使得标签和颜色强烈相关，但相关性在环境中翻转，产生相关性偏移。如图1所示，多样性和相关性偏移具有明显不同的性质。在极端情况下，训练和测试环境之间的差异变得如此明显，给试图泛化的算法带来了很大的麻烦[9，46]。有趣的是，在一些现实世界的情况下，例如ImageNet与ImageNet V2之间的差异几乎是不可察觉的，神经网络仍然无法令人满意地推广，其中原因尚未完全理解[74]。在图3中，我们对多样性和相关性偏移的估计揭示了这个问题-原始ImageNet和变体之间存在此外，其他OoD数据集也表现出不同程度的多样性和相关性变化。形式分析。在监督学习的设置中，每个输入x被赋予一个标签y通过一些固定的标记规则f：。 f 的内部机制通常取决于一组特定的特征1，而其余的特征2与预测无关。例如，我们将标签“飞机”分配给飞机的图像，而不管它的颜色或它是降落还是飞行。图2a中的因果关系图描述了我们模型的潜在随机变量之间的相互作用：输入变量X由潜变量Z1和Z2决定，而目标变量Y仅由Z1类似的图表可以在[2，53，57，63]中找到给定一个标记数据集，考虑其训练环境测培训7949yEESTZZ2ZZEEXYFXq y z2）Sp z2）yS(a) 因果关系图描述了相关变量之间的因果关系(b) 多样性偏移和相关性偏移的说明多样性偏移相当于左图中彩色区域的总面积的一半相关位移是对T的积分，其中每个被积函数可以被看作是右图中彩色条的高度之和，然后用p（z2）·q（z2）的平方根加权。图2.多样性和相关性变化的说明。多样性偏移定义为潜在环境分布在支持集上TR和测试环境TE作为分别具有概率函数p和q的分布。为了便于说明，我们假设在不同的环境中没有标签移动[10]，即。p（y）=q（y）对每个y2Y.2在不失一般性的情况下我们进一步假设Etr和Ete共享相同的标号定义1（分集移位和相关移位）。给定（3）中定义的两组特征，两个数据分布p和q之间的多样性移位和相关移位的建议量化公式由下式给出：1Z规则f，补充因果图。把它放在因果关系的语言[66]，这意味着直接原因的Y （即Z1）在两种环境中均可观察到，Z1作用于Y的因果机制是稳定的Ddiv（p，q）：=2Dcor（ p，q）：=12|dz，|dz,pp（z）·q（z）X. p（y |z）-q（y|z）。dz，次形式上，它规定了每个z2Z1：p（z）·q（z）= 0 ^8 y 2 Y：p（y |z）= q（y|z）。（一）这种不变特征的存在使得OoD的推广成为可能。另一方面，具有相反性质的z2p（z）·q（z）= 0_9y2 Y：p（y |z）6= q（y|z），（2）使得OoD的泛化具有挑战性。从（2）中，我们可以看到2由两种特征组成。直观地说，多样性移位源于2中的第一类特征，因为数据的多样性是由环境不共享的新特征体现的;而相关性移位是由2中的第二类特征引起的，它与一些y虚假相关。基于这种直觉，我们将Z2划分为两个子集，这里我们假设Y是离散的图2b示出了当z是一维时的上述定义。可以证明Ddiv和Dcor总是在[0，1]内有界（参见附录B中的命题1）。特别地，相关移位公式中的平方根用作调节被积函数的系数，因为在任一环境中几乎不出现的特征应该对整体相关移位具有小的贡献尽管如此，我们知道这些并不是唯一可行的公式，但即使用下面描述的简单方法进行估计，它们也会产生直观实际估算。给定从tr采样的数据集和从te采样的另一个数据集（大小相等），首先训练神经网络来区分环境。S：= {z2Z2 | p(z) · q(z) = 0},（三）该网络由一个特征提取器g：X！ F和分类器h：FY！[0，1]，其中F是某个T：={z2 Z 2|p（z）· q（z）= 0}，它们分别导致了环境之间的多样性转移和相关性转移然后，我们定义两个移位的量化公式如下：[2]顺便说一下，通过这个假设，我们并没有忽略数据集中标签移位Z1XYZ2➚取z2∈p（z2）q（z2）z2Zy2Y不7950EE的存在。在实践中，可以通过样本重新加权等技术使具有标签移位的数据集满足这一假设。学习的代表。该映射归纳出两个联合分布，每个环境对应一个，概率函数分别用p和q表示。对于来自tr或te的每一个例子，网络都试图分辨出示例实际采样的环境，以最小化以下目标：E（x，y）<$Etr`（e<$x，y，0）+E（x，y）<$Ete`（e<$x，y，1），（4）79512STF·FF||-||R.p<$（z）q<$（z）.6 2Y2X图 3. 各种数据集的多样性和相关性偏移的估计。对于ImageNet变体，估计值是相对于原始ImageNet计算的。带误差线的数值形式结果见附录F其中e=x，y=h（g（x），y）是预测的元素，是一个损失函数。目标迫使g提取那些特征，其与Y的联合分布在这样h就可以做出相当准确的预测。这由下面的定理形式化。定理1.训练用于区分两种不同环境的网络的分类准确度在上界详细介绍了我们的方法，包括整个过程的伪代码。我们还表明，在理论上，当网络宽度使用神经切线核增长到无穷大时，提取的特征将收敛到唯一的解决方案[39]。这表明，只要网络有足够的容量，我们总是可以得到类似的结果在一个小的误差界。为了从经验上验证这一点，我们还对不同的网络架构进行了实验，这证明了我们估计的稳定性（见附录E）。图3中的结果是通过上述方法获得的。大多数现有的OoD数据集位于轴上方对于未知分布偏移的数据集，如ImageNet-A [35]，ImageNet-R [34]和ImageNet-V2，我们的方法成功地将偏移分解为多样性和相关性的两个维度，因此可以根据估计选择适当的算法。正如我们在下一节中的基准测试结果所示，这样的选择可能是至关重要的，因为大多数OoD泛化算法在两组数据集上的表现并不相同，一组数据集由多样性偏移主导，另一组由相关性偏移主导。3. 实验在此之前，我们已经在分布偏移的两个维度中对OoD数据集进行了数值在本节中，我们在这些数据集上运行算法，以揭示现有数据集和算法的二维趋势。所有被1X max{p（x），q（x）}，因为数据大小趋于无穷大。实验在Pytorch 1.4上进行，Tesla V100GPU。我们用于以下基准测试实验的只有当以下条件成立时，才能达到最佳性能：对于每个不是i.i.d.的x。在这两种环境中，p（x）=q（x），存在yp∈（y，z）q∈（y，z），其中r ∈z=g（x）.证据见附录B。在获得由g提取的特征之后，我们使用核密度估计（KDE）[65，76]来估计p和q。随后，通过p（z）q（z）是否接近零，对应于和，被划分为分别负责分集和相关移位的两组特征定义1中的积分然后通过重要性采样下的Monte Carlo积分近似[61]。在计算Dcor（p，q）中的项p（y z）q（y z）时需要注意的是，条件概率在计算上是难以处理的，因为z是连续的。相反，该项是通过以下等效公式计算的，作为贝叶斯公式的应用定理：. p（y）·p（z|y）-q（y）·q（z|y）。、（五）其中p≠（z|y）和q（z|y）可以再次通过KDE对每个y2Y独立地近似。更多信息请参见附录C是从DomainBed [31]代码套件修改而来的。3.1. 基准数据集。在我们的实验中，数据集被选择为尽可能多地覆盖来自不同OoD研究领域的多样性。如前所述，数据集表现出二维特性，表现为它们的估计多样性和相关性偏移。以下数据集主要由多样性变化主导：PACS[46] ， Terra Home[91] ， Terra Incognita[14] 和Camelyon 17-WILDS[42]。另一方面，我们的基准测试还包括三个由相关性偏移支配的数据集：有色MNIST[9]，NICO[33]和CelebA的修改版本[54]。有关上述数据集的更多详细描述，请参见附录G对于PACS、Terra Home和Terra Incognita，我们在每次运行中训练多个模型，每个模型将其中一个域作为测试环境，其余域作为训练环境，因为这是DG数据集的常见做法。最终精度是所有这些分割的平均精度。对于其他数据集，训练和测试环境是固定的。一个原因是，留一域评估方案将破坏指定的7952”#81.7± 0.2“63.8± 0.1“38.3± 0.4#94.9± 0.4“81.5± 0.0 63.3± 0.2 42.6±0.9 94.7 ± 0.181.6± 0.6“63.8± 0.3“38.3± 0.7#94.2± 0.3#81.8± 0.1“63.5± 0.1 40.7± 0.7#94.1± 0.3#80.5± 0.5#63.0± 0.4#41.3± 1.2#95.5 ± 0.2“81.2± 0.4#62.9± 0.2#38.9± 0.6#95.0 ± 0.1“79.5± 0.0#62.0± 0.3#39.8± 1.4#95.3 ± 0.1“73.0± 0.4#52.4± 0.2#27.4± 2.0#91.2± 0.4#表1. ERM和OoD泛化算法在多样性偏移主导的数据集上的性能。每个符号表示得分为-1，每个符号表示得分为+1;否则得分为0。将所有数据集的分数相加，即可得出每个算法的排名分数。这些数据集的训练/测试分割。有关数据集统计信息和环境拆分的更多详细信息，请参见附录G。算法。我们选择了经验风险最小化（ERM）[90]和来自不同OoD研究领域的几个代表性算法用于我们的基准测试：群体分布鲁棒优化（GroupDRO）[79]，Inter-domain Mixup（Mixup）[100，101]，领域泛化的元学习（MLDG ）[47]，领域对抗神经网络（DANN）[27]，深度相关对齐（CORAL）[85]，最大平均离散度（MMD）[48]，不变风险最小化（Risk Minimization）[9]，方差风险外推（VREx）[44]，自适应风险最小化（ARM）[103]，边缘迁移学习（MTL）[16]，Style-Agnostic Networks（SagNet）[60]，Representation Self（RSC）[38]，学习难以改变的解释（ANDMask）[64]，具有最大不变预测器（IGA）的分布外生成[43]和域泛化的熵正则化（ERDG）[105]。模型选择方法。由于在OoD泛化研究中应该使用什么样的模型选择方法还没有达成共识[31]，因此我们在研究中为每个数据集选择了合适的选择方法。为了与现有的工作线保持一致[19，38，44，46，60]，通过训练域验证选择在PACS，Terra Home和Terra Incognita上训练的模型。至于Camelyon 17-WILDS和NICO，OoD验证被用于[42][12]剩下的两个数据集，有色MNIST和CelebA，使用测试域验证，这在[1，9，44，70]中已经看到。使用测试域验证的另一个原因是，将训练域验证应用于由相关性偏移主导的数据集可能是不适当的，因为在伪相关性的影响下，在训练环境中实现过高的准确度通常导致在新的测试环境中的低准确度。这些模型选择方法的更详细解释见附录H。实作详细数据。与DomainBed不同，我们使用一个更简单的模型ResNet-18 [32]，用于所有算法和数据集，不包括有色MNIST，因为这是以前作品中的常见做法[19，25，38，60，105]。此外，我们认为较小的模型可能会扩大算法之间OoD泛化性能的差距，因为较大的模型通常对OoD数据更具鲁棒性[34]，因此性能更容易在小数据集上饱和。ResNet-18在ImageNet上进行了预训练，然后在每个数据集上进行了微调，只有一个例外-NICO，其中包含的动物和车辆的照片与ImageNet类基本重叠为了简单起见，我们继续使用两层感知器[9，44，70]用于有色MNIST。我们的实验在几个小方面与DomainBed有所不同首先，我们没有冻结ResNet-18 中的任何批处理规范化层，也没有使用任何dropout，以与DG中的大多数先前工作其次，我们使用来自训练环境的更大部分（90%）数据，算法PACs办公室主页TerraInc亚洲人17平均排名分数[48]第四十八话：一个人[44]第一届中国国际航空航天博览会[45][16]第105届中国国际纺织品博览会[编辑][103]第一届中国国际纺织品服装展览会[47]82.8± 0.4“81.6± 0.4“80.9± 0.4#81.1± 0.3#80.4± 0.3#81.1± 0.4#79.8± 0.6#81.0± 0.4#62.9± 0.4#62.7± 0.4#63.6± 0.2“63.0± 0.2#63.2 ±0.262.9± 0.6#63.3 ±0.563.2 ±0.243.6± 0.5“42.3 ±0.741.3± 0.8#42.0 ±1.836.8± 1.1#39.5± 0.2#39.8± 0.3#39.4± 0.7#94.9± 0.2“95.0± 0.2“95.1± 0.1“95.0± 0.4“95.2± 0.2“94.9± 0.0“94.6 ±0.393.5± 0.6#71.169.770.470.570.269.570.370.068.970.169.669.569.469.269.361.0+2个+2个+1个000-1-1-1-2-2-2-2-2-3-4平均80.762.539.894.669.4–7953”#] 32.5± 0.2“87.5±1.1 71.0 ± 0.4-1 +1ERM[90] 29.9± 0.9 87.2± 0.6 72.1± 1.6 63.10 0尺寸[9] 60.2± 2.4“85.4± 1.2#73.3± 2.1 73.0-1 0MTL [16] 29.3± 0.1 87.0± 0.7 70.6± 0.8 62.3-2 0ERDG [105] 31.6± 1.3“84.5± 0.2#72.7± 1.9 62.9-2 0臂[103] 34.6± 1.8“86.6± 0.7 67.3± 0.2#62.8-3 0MMD [48] 50.7± 0.1“86.0± 0.5#68.9± 1.2#68.5+2-1RSC [38] 28.6± 1.5#85.9± 0.2#74.3± 1.9“61.4+2-1IGA [43] 29.7± 0.5 86.2± 0.7#71.0± 0.1 62.30-1珊瑚[85] 30.0± 0.5 86.3± 0.5#70.8± 1.0 61.5-1-1混合[101] 27.6± 1.8#87.5± 0.5 72.5± 1.5 60.6-2-1MLDG [47] 32.7± 1.1“85.4± 1.3#66.6± 2.4#56.6-4-1SagNet [60] 30.5± 0.7 85.8± 1.4#69.8± 0.7#62.0+1-2电话：+86-21 - 6666888传真：+86-21- 6666888DANN [27] 24.5± 0.8#86.0± 0.4#69.4± 1.7#59.7-2-3平均值34.5 86.4 70.8 63.7- -表2. ERM和OoD泛化算法在相关移位主导的数据集上的性能。每个符号表示得分为-1，每个符号表示得分为+1;否则得分为0。将所有数据集的分数相加，即可得出每个算法的排名分数。Prev得分是表1中相应算法的得分。培训和其他的验证。第三，我们使用与[19]略有不同的数据增强方案。最后，我们采用以下超参数搜索协议，与DomainBed中相同：对每对数据集和算法进行20次随机搜索，然后对另外两个随机系列的超参数组合，权重初始化和数据集分裂重复搜索过程。总的来说，这三个系列产生三个最佳的准确度，在此基础上，计算每一对算法的平均误差和标准误差。每个算法的超参数搜索空间见附录J结果基准测试结果显示在Tab. 1和Tab。二、除了平均准确度和标准误差条，我们还报告了每个算法在ERM方面的排名得分。对于每一个数据集-算法对，根据所获得的准确度是否低于、在同一数据集上的ERM准确度的标准误差条之内或高于该标准误差条，我们为该对分配分数-1，0，+1将所有数据集的分数相加，即可得出每个算法的排名分数。我们强调，排名分数并不表明一个算法肯定比其他算法更好还是更差。它只反映了对多样性和相关性偏移的相对程度的鲁棒性。从Tab。1和Tab。2，我们观察到没有一个OoD泛化算法在两个OoD方向上都比ERM实现了更好的性能。例如，在多样性偏移占主导地位的数据集上，RSC、MMD和SagNet的排序得分高于ERM，而在相关性偏移占主导地位的数据集上，它们的相反，在Tab. 2在另一种数据集上比ERM更差。这支持了我们的观点，即OoD泛化算法应该在体现多样性和相关性偏移的数据集上进行评估。这样的综合评估是非常重要的，因为真实世界的数据可能被这两种分布偏移所污染，例如，图3中的ImageNet变体。在着色MNIST的玩具案例中，有几种算法优于ERM，然而，在CelebA和NICO的更现实和复杂的案例中，没有一种算法超过ERM。因此，我们认为，当代OoD推广算法仍然很容易受到虚假相关。特别是，在所有算法中，在有色MNIST上实现最佳准确度的SVM在其他两个数据集上未能超过ERM。这与[77]发现的理论结果一致：除非测试数据与训练分布足够相似，否则ERM不会改善ERM。此外，我们还在ImageNet-V2上进行了实验，结果再次支持了我们的论点（见附录I）。由于所选数据集和训练过程中不可避免的噪声和其他变化因素，在由相同类型的分布偏移支配的数据集上的结果中是否存在任何令人信服的模式尚不清楚。因此，重要的是要指出，多样性和相关性偏移的大小并不表明差异的绝对水平算法有色MNISTCelebANico平均Prev评分排名分数VREx [44]GroupDRO[79]56.3± 1.9“87.3 ±0.271.5 ±2.371.763.7-1+1个7954一(a) 变参数下相关位移的估计你好，我好。数字只有红色和绿色。(b) 在固定μtr=0的情况下，在变化μtr和μte下的分集偏移估计。1，Δε=0。9和σtr=σte=0。1 .一、(c) 在固定µ tr = 0的情况下，在变化µ tr和µ te 的情况下的相关偏移估计。 1 ，Δε=0。9和σtr=σte= 0。二十五图4.有色MNIST中变颜色分布下的多样性和相关位移估计另一种颜色，蓝色，与标记的类无关，被添加到数字上以创建多样性偏移。蓝色的强度从每个图像的截断高斯分布中采样。假设只有一个训练环境和一个测试环境，则Rectr和Recte代表红色/绿色与数字之间的相关性; µtr和µte代表蓝色的平均强度; σtr和σte代表标准差。对一般化的崇拜。相反，它表示某些算法在相同类型的分布偏移下比其他一些算法表现得更好的可能性。3.2. 进一步研究在本节中，我们进行进一步的实验以检查我们的估计方法对于多样性和相关性偏移的可靠性，并将我们的方法与用于测量非独立同分布的其他现有度量进行数据集的属性，证明了我们的估计方法的鲁棒性和多样性和相关性移动的意义。健全性检查和数值稳定性。为了验证我们的估计方法的鲁棒性，我们检查它是否可以产生稳定的结果，忠实地反映预期的为了简单起见，假设只有一个训练环境。首先，我们操纵相关系数-在构建数据集时，数字和颜色之间的颜色和颜色的转换从图4a中，我们可以观察到，当Rectr和Recte具有相似的值时，估计的相关性偏移可以忽略不计。它与我们对相关性测量两种环境中存在的特征的分布差异的偏移。在多样性偏移估计的检验中，引入了另一种颜色--蓝色。添加到每个数字上的蓝色强度（0和1之间）是从截断高斯分布中采样的，分别具有训练和测试环境的平均值µtr，µte和标准差σtr，σte同时红色和绿色的强度减去相同的量。从图4 b中，我们观察到，随着红色/绿色和蓝色之间的颜色差异的变化，多样性偏移的估计相应地变化（在角落处）。最后，我们研究了在保持相关系数固定并操纵控制分集偏移的µtr和µte的情况下，相关偏移估计的行为图4c示出了多样性和相关性偏移之间的权衡，正如它们的定义所暗示的那样。每个网格单元中的实验仅进行一次，因此热图也反映了我们估计中的方差，这可以通过多次运行的平均值来补偿。与其他分布偏移测量方法的比较。我们还比较了OoD-Bench与其他分布偏移的测量方法有色MNIST变体的结果见表1。3 .第三章。我们的经验表明，用于测量分布之间差异的一般方法，如EMD [78]和MMD [30]，信息量不大。具体地说，EMD和MMD对数据集的离散性漂移不敏感，而EMD对数据集的多样性漂移也不敏感。虽然NI [33]可以产生相关位移的比较结果，但它仍然像EMD和MMD一样是一维的，不能区分数据集中存在的两种位移相比之下，我们的方法提供了更稳定和可解释的结果。随着时间的推移，相关偏移逐渐接近，估计的相关偏移减少到零。另一方面，估计的多样性移位保持恒定为零，直到我们的方法再次产生预期答案的最后一个场景4. 相关工作分布变化的量化。非i.i.d.指数（NI）[33]用一个公式量化训练集和测试集之间的分布变化程度。还有大量的分布的一般距离度量：Kullback-Leibler（KL）散度，EMD [78]，MMD [30]和-距离[15]等。然而，它们都受到与NI相同的限制，无法区分不同类型的分布偏移。据我们所知，我们是第一个正式确定二维分布转移并提供各种定量结果的人。7955（我们的）显性移位EMDMMDNIDiv. 移位林前移位（我们的）0.9 Cor. 移动0.08 ± 0.01%0.01 ± 0.00%1.40 ± 0.06！0.00± 0.000.67 ± 0.040.7 Cor. 移动0.07 ± 0.00%0.01 ± 0.00%1.05 ± 0.03！0.00± 0.000.48 ± 0.060.5 Cor. 移动0.07 ± 0.00%0.00 ± 0.00%0.72 ± 0.04！0.00± 0.000.34 ± 0.060.3 Cor. 移动0.06 ± 0.00%0.00 ± 0.00%0.57 ± 0.04！0.00± 0.000.18 ± 0.050.1无0.06 ± 0.00%0.00 ± 0.00！0.39 ± 0.02%0.00 ± 0.000.00 ± 0.000.1†分区移动0.29 ± 0.01%1.00 ± 0.00！10.76± 0.43%0.93 ± 0.010.00 ± 0.00表3.现有的测量有色MNIST中的分布偏移的指标，只有一个训练环境，其中Rectr =0.1。所有环境都只包含红色和绿色数字，除了最后一个数字。†蓝色加上µ tr =0、µ te =1和σ tr = σ te =0.1。结果在5次运行中取平均值。OoD数据集。值得注意的是，一项并行工作[99]研究了三种分布偏移，即伪相关、低数据偏移和不可见数据偏移，它们与相关性和多样性偏移非常相似。他们的研究结果与我们的研究结果基本一致，但他们没有提供任何量化公式或估计方法。OoD泛化。在没有测试分布实例的情况下，面向对象的泛化总是需要额外的假设或领域信息。在DG [17，59，89]的设置中，通常假设从相似但不同的域中采样的多个训练数据集可用。因此，大多数DG算法的目标是在训练域上学习域不变的数据表示。这些算法采用各种方法，包括域对抗学习[3，5，6，27，48，100，101，105]，元学习[13，25，47，52，103]，图像级和特征级域混合[55，100]，对抗数据增强[81]，域转换/随机化[62，75，108]，特征对齐[68，85]，梯度对齐[43，73，83]，梯度正交化[12]，不变风险最小化[1，9，44]，自监督学习[96，107]，原型学习[26]和内核方法[16，29，51，59]。也有DG算法，不假设多个训练- ING域。相反，他们中的许多人认为图像风格/纹理的变化是分布偏移的主要原因。这些算法主要利用AdaIN [36]或类似的操作来执行风格扰动，以便学习的分类器对跨域的各种风格保持不变[40，49，60，84，97，109]。其他方法包括[19]，它设计了一个自我监督目标，强制模型专注于全局图像结构，如物体的形状，[94]引入了一个显式的对抗学习目标，这样学习的模型对局部模式是不变的。更一般的单源DG算法（不假设风格/纹理偏差）和其他OoD泛化算法包括分布鲁棒优化[79]，自挑战[38]，光谱解耦[70]，特征增强[50]，对抗性数据增强[71，93]，梯度对齐[64]，样本重新加权[33，104]，测试时训练 [87]，消除偏差 [11]，对比学习[41]，因果发现[58]，以及利用数据因果结构的变分贝叶斯[53，86]。对于现有的OoD泛化和DG算法的更全面的总结，我们建议读者参考这些调查论文[82，95，106]。DomainBed。活基准是由[31]创建的，以促进纪律和可重复的DG研究。在进行了大规模的超参数搜索后，报告了14个算法在7个数据集最后得出结论，在相同的公平设置下，ERM优于大多数DG算法。我们的工作与DomainBed主要在三个方面不同首先，我们不仅为算法提供了基准，也为数据集提供了基准，帮助我们更深入地了解数据中的分布变化。其次，我们比较了不同的算法，在一个更翔实的方式在多样性和相关性的转变，恢复的事实，一些算法确实比ERM在适当的情况下。第三，我们实验了几种新的算法和新的数据集，特别是那些以相关性偏移为主的数据集。5. 结论在本文中，我们确定了多样性移位和相关移位是OoD数据集中分布移位的两种主要形式。二维表征将不连续的数据集定位成一个统一的图像，并揭示了一些真实世界数据中未知分布偏移的本质此外，我们已经证明了一些现有的OoD泛化算法的优点和缺点结果表明，未来的算法应该更全面地评估两种类型的数据集，一个占主导地位的多样性移位和其他占主导地位的相关性移位。最后，我们留下了一个开放的问题，是否存在一个算法，可以在多样性和相关性移位。如果没有，那么我们的方法可以用于选择适当的算法。阿利什泰7956引用[1] KartikAhuja 、 KarthikeyanShanmugam 、 KushVarshney和Amit Dhurandhar。不变风险最小化博弈。在ICML，2020。五、八[2] Kartik Ahuja ， Jun Wang ， Amit Dhurandhar ，Karthikeyan Shanmugam和Kush R.瓦什尼经验风险最小化还是不变风险最小化？a sample样本complexity复杂perspective透视. ICLR，2021年。2[3] Kei Akuzawa，Yusuke Iwasawa，and Yutaka Matsuo.基于精度约束的领域泛化的对抗性不变特征学习在ECML-PKDD中，2019年。8[4] Ehab A AlBadawy ， Ashirbani Saha ， and Maciej AMazurowski.脑肿瘤分割的深度学习：跨机构培训和测试的影响医学物理，2018年。1[5] IsabelaAlbuquerque，JoaBagioMonteiro，MohammadDarvishi ， Tiago H Falk ， and IoannisMitliagkas. 通过分布匹配推广到未知领域. arXiv ：1911.00804，2019。8[6] IsabelaAl buquerque，JoaBagioMonteiro，TiagoHFalk，andIoannis Mitliagkas.对抗性目标不变表示学习领域泛化。arXiv：1911.00804，2019。8[7] Michael A Alcorn ， Qi Li ， Zhitao Gong ， ChengfeiWang，Long Mai，Wei-Shinn Ku，and Anh Nguyen.摆姿势：神经网络很容易被熟悉物体的奇怪姿势所欺骗在CVPR，2019年。1[8] 马丁·阿约夫斯基机器学习中的非分布泛化。博士论文，纽约大学，2020年。1[9] 马丁 · 阿吉奥vsky， Le'onBottou ， IshaanGulrajani 和 DavidLopez Paz。不变风险最小化。arXiv：1907.02893，2019。二、四、五、六、八、十九[10] Kamyar Azizzadenesheli，Anqi Liu，Fanny Yang，andAn- imashree Anandkumar.标签转移下的领域自适应正则化学习。2019年，在ICLR。3[11] Hyojin Bahng、Sanghyuk Chun、Sangdoo Yun、JaegulChoo和Seong Joon Oh。用有偏表示学习去偏表示。在ICML，2020。1、8[12] Haoyue Bai，Rui Sun，Lanqing Hong，Fengwei Zhou，Nanyang Ye ， Han-Jia Ye ， S-H Gary Chan ， andZhengguo Li. Decaug：通过分解特征表示和语义增强的分布外泛化。arXiv：2012.09382，2020。五、八[13] 尤格什·巴拉吉，斯瓦米·桑卡拉纳拉亚南，和罗摩·哲拉帕. Metareg：使用元正则化实现领域泛化NeurIPS，2018。8[14] 莎拉·比瑞格兰特·范·霍恩和皮特罗·佩罗纳在未知领域的认知。在ECCV，2018。四、十九[15] Shai Ben-David ， John Blitzer ， Koby Crammer ，Fernando Pereira ， et al. Analysis of representations fordomain adaptation. NeurIPS，2007年。7[16] Gilles Blanchard 、 Aniket Anand Deshmukh 、 UrunDogan、Gyemin Lee和Clayton Scott。通过边缘迁移学习进行领域泛化。arXiv：1711.07910，2017。五六八[17] Gilles Blanchard，Gyemin Lee，and Clayton Scott.从几个相关的分类任务一般化到一个新的未标记的样本。NeurIPS，2011。1、8[18] Peret al.Ba' ndi。从单个转移灶的检测到患者水平的淋巴结状态分类CAMELYON 17挑战赛TMI，2019

下载后可阅读完整内容，剩余1页未读，立即下载