训练中的最坏情况维度及其对域外泛化的影响

99 浏览量更新于2023-10-25 收藏 13.9MB PDF 举报

数据增强

模型泛化

身份认证购VIP最低享 7 折!

30元优惠券

096310最坏情况训练的两个维度及其对域外泛化的综合影响0Zeyi Huang 1 , 2 � Haohan Wang 1 � Dong Huang 1 Yong Jae Lee 2 † Eric P. Xing 1 †01 卡内基梅隆大学 2 威斯康星大学麦迪逊分校0{ zeyih@andrew, haohanw@cs, donghuang@, epxing@cs } .cmu.edu yongjaelee@cs.wisc.edu0摘要0通过强调数据中“难以学习”的组成部分来训练，已被证明是提高机器学习模型泛化性能的有效方法，特别是在重视鲁棒性（例如，跨分布的泛化）的设置中。现有的文献主要沿着样本维度或特征维度扩展这个“难以学习”的概念。在本文中，我们旨在引入一个简单的视角，将这两个维度合并起来，从而导致一种新的、简单而有效的启发式方法，通过强调样本维度和特征维度上的最坏情况来训练机器学习模型。我们将我们的方法命名为W2D，遵循“沿两个维度的最坏情况”概念。我们验证了这个想法，并展示了它在标准基准上的实证强度。01. 引言0深度学习在独立同分布数据上的显著实证性能，有时与人类视觉系统相媲美[23,37]，这鼓励了社区挑战更具要求的场景，其中模型是使用来自一个或多个分布的数据进行训练，但是使用来自其他分布的数据进行测试。我们将这种情况称为域外（OOD）泛化测试设置，遵循[74]中使用的术语。在这种OOD测试场景中，深度学习技术通常无法实现在独立同分布数据上取得的有希望的结果，这一点已经被多个前期工作观察到，这些工作使用不同的策略生成测试数据，例如向数据中添加显著模式[17,27]，使用精心构造的不可察觉的噪声扰动数据（对抗攻击）[20,60]，或者使用额外收集的数据集，尽管训练和测试分布之间可能存在显著差异，但人类仍然可以进行泛化（例如，域适应/泛化）[6, 48]。0� , † 相等贡献0样本维度损失0特征维度损失0高损失0高损失0W2D0图1.我们主要思想W2D的概念示意图，以金丝雀与金鱼图像分类的简单示例为例。对于在标准图像上训练的常规模型（左下方块），存在两个困难样本的维度：根据[74]中的分类，垂直维度对应于图像的“多样性转变”（例如，动物的照片与动物的卡通画）和水平维度对应于图像的“相关性转变”（例如，笼子里的鸟和水中的鱼与笼子里的鱼和水中的鸟）。W2D算法在样本维度上选择了困难的图像，并将这些样本增强到在特征维度上更加困难。0尽管在多种OOD设置中存在变化，导致性能下降的根本原因可能有一个共同的主题：模型无法学习到人类认为在数据中重要的内容，这在经验[70]和统计[68]的角度上已经讨论过。因此，我们推测，在OOD设置中训练模型以保持一致的良好性能的关键是设计一种新的训练启发式方法，可以更好地模仿人类的行为。96320人的学习行为。此外，我们还希望新的启发式方法简单通用，可以直接应用于不同架构、优化器、损失函数或正则化方法，并使其受益。0心理先验：在寻找人类如何最有效地学习的答案时，我们注意到一位世界著名的心理学家（K. AndersEricsson博士）致力于解码具有专家级表现的人们的习惯。他的主要结论[14]是高水平的表现是广泛练习“超越舒适区”的结果。0回到机器学习的讨论，我们将一个人日常生活中的“超越舒适区”的元素类比为训练数据中特别难以学习的元素。我们注意到这个“元素”可以从两个角度解释：一种解释是许多图像中的某种模式很难学习；另一种解释是数据集中的某些特定图像很难学习。0以往的讨论专门致力于这两个元素中的任何一个已经被广泛扩展。例如，已经发明了一系列方法来对抗模型学习一些简单模式的倾向[4, 50, 65,66]，另一系列方法被引入来推动模型学习由一小组样本表示的模式[38,57]。然而，似乎没有讨论旨在训练模型克服这两个角度提出的限制，而这样做直观上会改善模型的性能，并与上述心理发现相吻合。0在本文中，受到上述心理先验的启发，我们旨在引入一种简单的训练启发法，使模型在特征维度和样本维度上学习难以学习的概念。由于我们的方法直观上是在特征层面和样本层面上进行最坏情况训练的组合，所以这种新技术可以作为一种简单的启发法，以取代深度学习模型的现有训练过程，无论模型架构、优化器、损失函数或正则化等，只要优化是在梯度下降族中进行。我们将我们的方法命名为W2D，遵循“沿两个维度的最坏情况”概念。0本文的其余部分组织如下。在第2节中，我们首先介绍本文的背景，重点介绍沿两个维度的“最坏情况训练”及其对OOD泛化的影响，这启发我们研究这两个最坏情况训练维度的综合效果。在第3节中，我们介绍了结合这两个方向的新启发法，并在第4节和第5节中展示了该方法的实证强度。在第6节中，我们提供了几个相关讨论，然后在第7节中总结。02. 背景0我们在本节中介绍我们工作的背景。我们首先简要总结了改善模型OOD泛化性能的工作。然后，我们重点关注解决特征层面和样本层面上的两个挑战的相关工作。由于我们注意到一些解决这两个问题的方法具有强调数据中难以学习元素的共同主题，我们继续讨论沿两个维度的最坏情况训练方法。最后，我们用本文的关键贡献总结了本节。02.1. 域自适应，域泛化和新范式0对模型在不同分布上的泛化能力的研究可以追溯到域自适应的研究[6,7]，该研究研究了在测试分布与训练分布不同的情况下如何保持模型的性能。早期的理论工作表明，学习跨域泛化模型的关键因素之一是强制在不同分布之间保持不变性[6]，这启发了一系列工作，旨在学习在训练和测试分布之间的不变表示[13, 15, 18, 34, 44, 56, 71,77]，其中最近最流行的例子是域对抗神经网络[16]。域泛化[48]是研究OOD泛化的另一个主流研究主题。它将域自适应的设置扩展到在训练期间没有可用的测试分布数据，甚至没有标签的情况下。相反，模型是使用来自多个训练分布的数据进行训练的，并且强制在这些训练分布之间保持不变性已成为一个主要主题[1, 10, 19, 22, 42, 47, 52, 54,69]。然而，最近，学习不变表示的范式受到了一个论点的挑战，即如果数据具有不同的标签函数，则不变性对于跨域泛化是不足够的[72,78]，这可能导致学习跨分布具有不同标签函数的新范式[68]，下一节将详细介绍具体示例。因此，最近的研究并不总是受到域自适应或域泛化的概念的限制，而是在具有不同标签函数的分布中进行的新范式的研究。02.2. 难以学习的模式和解决方案0鲁棒机器学习中的主流研究之一是模型在训练数据中学习到一些在测试数据中不存在的模式，其中最流行的例子可能是哈士奇与狼分类中的雪背景[55]。这个问题是96330通常被称为偏见[61]、虚假特征[64]、混淆因素[45]或表面特征[66]，但解决这个问题的方法通常有一个统一的主题，即利用人类对训练和测试分布之间差异的认知，要么对假设空间进行正则化[4, 50, 65, 66]，要么增加数据[17, 28, 29,67]，如[68]所总结的。有趣的是，RSC方法[31]也致力于解决这个问题，但它不需要对模式有先验知识。基于一个假设，即学习所有特征而不仅仅是最有区分性的特征将有助于OOD泛化，RSC使用选择性的丢弃机制进行增强，并在流行的OOD数据集上取得了良好的基准性能。从概念上讲，RSC通过丢弃最具预测性的特征（即创建对模型学习具有挑战性的特征）来为每个样本准备特征。02.3. 难以学习的样本和解决方案0另一方面，难以学习的样本提出了一个不同的挑战：训练数据中的一些样本被模型忽略，因为这些样本在训练集中被认为是“少数派”[12,46]。为了解决这个问题，引入了强调少数样本的训练过程，如DRO方法的系列[30, 39, 50, 51,57]，这些方法使用不同的策略来识别少数样本，并根据偏好少数样本的加权因子对训练集进行插值。直观地说，这些方法通过强调对模型学习具有挑战性的样本来准备样本批次。在这个基础上，社区将插值的思想扩展到外推，通过调整加权因子使简单样本的权重甚至可以为负，进一步推动模型专注于难以学习的样本。VREx方法[38]就是在这个背景下引入的，并在基准测试中取得了领先的实证性能。02.4. 每个维度中的最坏情况训练及其相应的影响0随着改进模型的OOD性能的方法的增多，以及各种经验性的声明，已经有一些综合比较各种方法的研究。例如，有趣的是，DomainBed认为所有这些新方法在广泛的超参数选择范围下仍然不及传统的经验风险最小化（ERM）方法[21]。虽然这一观点对社区来说是一个惊人的警告，但它可能过于悲观（关于这一点稍后在第6节中提供更多细节）。最近，OOD-bench[74]延续了DomainBed的精神，但对方法进行了更细粒度的分析。0模型的性能。它全面地检查了最近模型在流行的基准数据集上的性能，但是对“多样性转移”数据集和“相关转移”数据集进行了单独的讨论。多样性转移数据集是指从训练分布到测试分布存在相对显著的风格转移的基准数据集（例如从照片到素描），而相关转移数据集是指具有明确定义的与标签相关的虚假特征的基准数据集（例如在图像数字分类任务中，数字的颜色与数字的标签相关）。OOD-bench在这两个方向上调查了流行的方法，并显示出在每个方向上，只有少数几种方法优于ERM。有趣的是，多样性转移的最佳方法是RSC[31]，这是一种旨在学习难以学习模式的最先进方法之一，具有一种启发式方法来推动模型使用生成的最坏情况特征进行训练。另一方面，相关转移的最佳方法是VREx[38]，这是一种旨在学习难以学习样本的最先进方法之一，具有一种启发式方法来推动模型使用选择的最坏情况样本进行训练。我们的贡献受到了上述讨论的启发：如果在特征维度上的最坏情况训练在多样性转移方面表现出色，而在样本维度上的最坏情况训练在相关转移方面表现出色，如果我们可以将这两种最坏情况训练方法整合成一个简单的启发式方法，新方法很可能在多样性和相关转移方面都具有足够好的实证性能。02.5. 主要贡献0与沿着这两个方向讨论的以前的方法相比，我们认为本文的主要贡献如下：0•我们以最坏情况训练沿两个不同维度讨论了以前的方法，并通过这样做自然地将这些方法整合起来。0•我们引入了一种新方法，称为W2D，作为这两种训练方法的整合。W2D是一种简单的启发式方法，可以直接插入任何训练过程中，无论模型架构、损失函数、正则化或优化器如何。0•我们在多个基准数据集上展示了强大的实证性能，并进行了消融研究，以了解方法的每个组成部分的贡献。03. 方法0在本节中，我们首先形式化了两种最坏情况训练方法，这自然地引出了我们方法的介绍。然后，通过我们的主要框架，我们(1)�θW2D = arg minθ1nwi = 196340介绍了方法后，我们继续讨论了一个整个批次修补的启发式方法，在实验中，这个方法在实证上带来了非常可观的优势。03.1. W2D方法0我们首先介绍我们的符号。我们使用(X,Y)来表示一个包含n个（数据，标签）配对样本的数据集。因此，X ∈ R n × p，Y ∈ Rn。我们使用f(∙;θ)来表示我们要训练的模型，使用e(∙;θe)和d(∙;θd)来表示编码器和解码器，因此，我们有f(∙;θ) =d(e(∙;θe);θd)。我们使用w来表示长度为n的权重向量。我们使用m来表示一个掩码向量，其中一些元素为0，其他元素为1；m的长度与特征维度（e(∙;θe)的输出）相同。我们使用l(∙,∙)来表示一个通用的损失函数。模型的普通训练过程为0� θ vanilla = arg min θ01n0�0i l(f(Xi;θ), Yi)0沿特征维度的最坏情况我们将第一个最坏情况方法形式化如下：0� θ w feature = arg min θ01n0�0i max m l (d(m ⊙ e(Xi; θe); θd), Yi),0其中⊙表示逐元素乘积。特别地，RSC方法[31]引入了具有超参数ρ的m，它表示ρ分数的元素为零。通过检查∂d(e;θd)的梯度的大小来实现最大化步骤0∂ e .0沿样本维度的最坏情况我们将第二个最坏情况方法形式化如下：0� θ w sample = arg min θ01n0�0i max wi wi l(f(Xi;θ), Yi),0满足条件�0i wi = 10一般来说，wi的选择取决于l(f(Xi;θ),Yi)，不同方法之间存在具体的差异，例如[39, 50,57]。一个共同的主题是，损失越大，wi越大。在实践中，由于我们使用批次优化，对w的估计并不直接。幸运的是，我们可以使用一个简单的替代方法：对于每个批次，我们通过前向传递选择损失较大的样本，然后使用这些样本来更新模型。这是多种方法的启发式方法，例如[9, 11, 33, 73]。0算法1：W2D算法0输入：数据集（X，Y），每批使用的样本百分比ρ，整个批次修补的百分比κ，批次大小η，最大迭代次数T和其他RSC超参数；输出：分类器f(∙;θ)；随机初始化模型θ0；计算迭代次数K = n/η；当t ≤ (1 -κ)T时0对于批次数据 ( X , Y ) k ，其中 k ≤ K0前向传播计算批次中每个样本的损失 l ( f ( X i ; θ t,k− 1 ) , Y i ) ，选择具有最高损失的前 ηρ个样本构建 ( X , Y ) k,ρ ，使用 ( 1 )训练模型。结束。结束。当 (1 − κ ) T < t ≤ T时执行以下操作。0对于批次数据 ( X , Y ) k ，其中 k ≤ K0使用 ( X , Y ) k 根据 ( 1 ) 训练模型。结束。结束。0W2D方法：将上述两种方法整合，得到以下结果。0�0i max m , w i w i l ( d ( m ⊙ e ( X i ; θ ); θ d ) , Y i ) ，0满足 �0在实践中，我们使用RSC方法在特征维度上识别出最坏情况训练的m，并使用上述启发式方法在样本维度上进行最坏情况训练。03.2. 整批次修补启发式方法0如上所述，W2D在每次训练迭代中选择具有最高损失的最坏情况训练样本，随着模型在训练过程中的演化，曾经被认为容易的情况可能变得困难，反之亦然。因此，我们可以直观地期望模型在足够的训练迭代中看到训练集中的所有样本。然而，有些样本可能在训练过程中从未被模型看到，因为这些样本始终被认为不够困难；显然，模型没有充分利用训练集的机会是不理想的。为了解决这个潜在问题，在最后κ%的训练轮数中，我们简单地切换到整个批次训练。96350这导致在不同的模型选择策略下具有更好的实证表现。我们在消融研究中验证了这种简单方法的有效性。更多结果可以在第5.4节中找到。W2D与整批次修补启发式方法的完整描述详见算法1。04. 实验04.1. 实验设置0我们遵循[74]中的设置，在多样性转移和相关性转移两种类型的分布转移上评估领域泛化。具体来说，我们使用相同的模型选择策略、数据集划分和网络骨干。更多实验设置的细节可以在讨论和补充材料中找到。04.2. 数据集、超参数搜索和模型选择0我们选择尽可能多样化的数据集来覆盖各种OOD研究领域进行实验。我们在七个OOD数据集上进行实验：CMNIST[2]，CelebA [43]，NICO [25]，Terra Incognita[5]，OfficeHome [63]，WILDS-Camelyon [35]和PACS[40]。这些数据集根据其估计的多样性和相关性转移被分为两个类别。我们使用与[21,74]相同的超参数搜索协议：对于每个数据集和算法对，进行20次随机超参数搜索，然后再对另外两个随机系列的超参数组合、权重初始化和数据集划分进行搜索。这三个系列的总体最佳准确性计算出每个数据集-算法对的平均值和标准误差。为了与现有的工作保持一致，我们通过训练域验证选择在PACS、OfficeHome和TerraIncognita上训练的模型；通过留一域验证选择在WILDS-Camelyon和NICO上训练的模型；而通过测试域验证选择在ColoredMNIST和CelebA上训练的模型。关于这些选择策略的详细信息可以在[74]中找到。04.3. 实证结果0基准测试结果如表1和表2所示02.除了平均准确率和标准误差线之外，我们遵循Ood-bench[74]的做法，针对每个算法与经验风险最小化(ERM)[62]进行排名得分的报告。具体而言，根据在相同数据集上的准确率是否低于、在、高于ERM准确率的标准误差线，为每个数据集-算法对分配得分-1、0、+1。将表中所有数据集的得分相加，得到每个算法的排名得分。排名0得分反映了相对于ERM的抗多样性和相关性转移的鲁棒性程度。请注意，对于CMNIST，Ood-bench[74]使用-90作为测试域，而DomainBed[21]报告的结果是在+90、+80和-90个域上平均的结果。我们遵循Ood-bench的设置在表2中报告结果，并在补充材料中报告DomainBed的设置结果。设置的选择不会影响我们在表2中的排名得分。在第5节中，我们讨论了CMNIST的一个特殊属性，并提出了W2D的修改版本，可以在CMNIST上获得显著的增益。我们观察到W2D是唯一一个在两种类型的分布转移中都能实现比ERM更好性能的算法。具体而言，W2D在以多样性转移为主导的数据集和以相关性转移为主导的数据集中都排名前三。这种全面的评估支持了W2D可以作为替代现有训练方法的简单启发式方法，因为现实世界的数据同时存在这两种类型的分布转移。05. 消融研究0W2D一共有四个超参数，其中两个直接继承自RSC[31]：特征丢弃百分比ϕ控制不同的丢弃百分比以静音特征图；批次丢弃百分比β控制不同的批次大小百分比以应用特征丢弃。W2D通过样本维度引入了两个新的超参数：最坏情况样本百分比ρ控制用于训练的批次大小样本中具有最高损失的样本的比例；整个批次修补百分比κ控制使用整个批次进行训练的百分比。我们使用RSC的默认超参数设置特征丢弃百分比和批次丢弃百分比。为了选择样本维度上的最坏情况，我们在标准基准测试上进行了两个消融研究。所有结果都是按照Ood-bench的设置产生的。总体而言，我们将W2D的超参数搜索空间设置为ϕ∈[0.1, 0.4]，β∈[0.1,0.3]，ρ∈[0.1, 0.5]，κ∈[0.2, 0.4]。05.1. 最坏情况样本百分比ρ的影响0我们在表3中使用不同百分比的最坏情况批次样本来测试W2D。对于PACS，训练时使用的最坏情况样本越少，测试验证准确性越高。这个结果表明，专注于更难学习的最坏情况样本可以更好地推动模型的潜在泛化能力的极限，这也可以通过更高的测试验证准确性来体现。VREx [38]56.3 ± 1.971.0 ± 1.387.3 ± 0.271.5-1+1GroupDRO [57]32.5 ± 0.271.8 ± 0.887.5 ± 1.163.9-1+1W2D31.0 ± 0.371.6 ± 0.987.7 ± 0.463.4+3+1ERM [62]29.9 ± 0.971.4 ± 1.387.2 ± 0.662.800MTL [8]29.3 ± 0.170.2 ± 0.687.0 ± 0.762.2-20ERDG [79]31.6 ± 1.370.6 ± 1.384.5 ± 0.262.2-20ARM [76]34.6 ± 1.863.9 ± 1.886.6 ± 0.761.7-30MMD [42]50.7 ± 0.168.3 ± 1.086.0 ± 0.568.3+2-1IGA [36]29.7 ± 0.570.5 ± 1.286.2 ± 0.762.10-1IRM [2]60.2 ± 2.467.6 ± 1.485.4 ± 1.271.1-1-1MLDG [41]32.7 ± 1.151.6 ± 6.185.4 ± 1.356.6-4-1SagNet [49]30.5 ± 0.769.3 ± 1.085.8 ± 1.461.9+1-2CORAL [59]30.0 ± 0.568.3 ± 1.486.3 ± 0.561.5-1-2ANDMask [53]27.2 ± 1.472.2 ± 1.286.2 ± 0.261.9-2-2Mixup [75]28.6 ± 1.566.6 ± 0.987.5 ± 0.560.6-2-2RSC [31]27.6 ± 1.869.7 ± 0.985.9 ± 0.261.4+2-3DANN [16]24.5 ± 0.868.6 ± 1.186.0 ± 0.459.7-2-396360算法PACS OfficeHome TerraInc Camelyon 平均排名得分0W2D 83.4 ± 0.3 63.5 ± 0.1 44.5 ± 0.5 95.2 ± 0.3 71.7 +3 RSC [31] 82.8 ± 0.4 62.9 ± 0.4 43.6 ±0.5 94.9 ± 0.2 71.1 +2 MMD [42] 81.7 ± 0.2 63.8 ± 0.1 38.3 ± 0.4 94.9 ± 0.4 69.7 +2 SagNet[49] 81.6 ± 0.4 62.7 ± 0.4 42.3 ± 0.7 95.0 ± 0.2 70.4 +1 ERM [62] 81.5 ± 0.0 63.3 ± 0.2 42.6 ±0.9 94.7 ± 0.1 70.5 0 IGA [36] 80.9 ± 0.4 63.6 ± 0.2 41.3 ± 0.8 95.1 ± 0.1 70.2 0 CORAL [59]81.6 ± 0.6 63.8 ± 0.3 38.3 ± 0.7 94.2 ± 0.3 69.5 0 IRM [2] 80.9 ± 0.4 63.6 ± 0.2 41.3 ± 0.8 95.1± 0.1 70.2 0 VREx [38] 81.8 ± 0.4 63.5 ± 0.1 40.7 ± 0.7 94.1 ± 0.3 70.0 -1 GroupDRO [57] 80.4± 0.3 63.2 ± 0.2 36.8 ± 1.1 95.2 ± 0.2 68.9 -1 ERDG [79] 80.5 ± 0.5 63.0 ± 0.4 41.3 ± 1.2 95.5 ±0.2 70.1 -2 DANN [16] 81.1 ± 0.4 62.9 ± 0.6 39.5 ± 0.2 94.9 ± 0.0 69.6 -2 MTL [8] 81.2 ± 0.462.9 ± 0.2 38.9 ± 0.6 95.0 ± 0.1 69.5 -2 Mixup [75] 79.8 ± 0.6 63.3 ± 0.5 39.8 ± 0.3 94.6 ± 0.369.4 -2 ANDMask [53] 79.5 ± 0.0 62.0 ± 0.3 39.8 ± 1.4 95.3 ± 0.1 69.2 -2 ARM [76] 81.0 ± 0.463.2 ± 0.2 39.4 ± 0.7 93.5 ± 0.6 69.3 -3 MLDG [41] 73.0 ± 0.4 52.4 ± 0.2 27.4 ± 2.0 91.2 ± 0.461.0 -40表1. 领域泛化算法在以多样性偏移为主导的数据集上的性能。W2D在三个具有最高排名分数的数据集上的性能优于ERM。0算法 CMNIST NICO CelebA 平均 Prev score 排名分数0表2. 领域泛化算法在以相关性偏移为主导的数据集上的性能。Prevscore表示在表1中产生的排名分数。尽管W2D排名第三，但前三种方法具有相同的排名分数，而平均准确率的差距主要来自最简单的数据集CMNIST。05.2. 整批修补百分比κ的影响0在表4中，我们改变κ：0表示从不使用整批训练。随着κ的增加，我们观察到更高的训练-验证准确率，但更低的测试-验证准确率。这项消融研究表明，整批训练可以提高训练验证结果，同时稍微降低模型的潜在泛化能力。05.3. 最差情况训练的维度0在表5中，我们评估了W2D的每个组成部分。两个组成部分（样本维度和特征维度）都表现出优于ERM的性能。我们相信每个组成部分可以轻松地插入其他领域泛化方法，并实现一致的增益。此外，整合两个组成部分是大多数多样性偏移和相关性偏移数据集的最佳设置（W2D）。10PACS82.4 / 83.720PACS83.0 / 83.533PACS82.7 / 83.250PACS82.7 / 83.10PACS82.2 / 83.75PACS82.5 / 83.510PACS82.7 / 83.320PACS83.0 / 83.340PACS82.9 / 83.396370百分比数据集准确率（训练-验证/测试-验证）0表3.最差情况ρ%的消融研究。我们在这里固定其他超参数，只改变ρ。0百分比数据集准确率（训练-验证/测试-验证）0表4.最后κ%的整批训练消融研究。我们在这里固定其他超参数，只改变κ。0方法数据集准确率（训练-验证/测试-验证）0ERM PACS 81.5 / 82.2 特征维度 PACS 82.8 /83.3 样本维度 PACS 82.2 / 83.5 W2D PACS83.4 / 84.00ERM OfficeHome 63.3 / 63.5 特征维度OfficeHome 62.9 / 63.3 样本维度 OfficeHome63.3 / 63.7 W2D OfficeHome 63.5 / 63.80ERM TerraInc 42.6 / 43.9 特征维度 TerraInc43.6 / 44.8 样本维度 TerraInc 42.9 / 45.1 W2DTerraInc 44.5 / 46.30ERM CelebA 86.3 / 87.2 特征维度 CelebA86.2 / 85.9 样本维度 CelebA 85.8 / 87.4 W2DCelebA 86.5 / 87.70表5. W2D每个维度的分析。05.4. 训练验证与测试验证对于训练域验证，每个训练域被分成训练和验证子集。使用训练子集训练模型，并选择在验证子集的并集上准确率最高的模型作为最终模型。训练验证设计用于应用于实际应用。对于测试域验证，通过在遵循测试域分布的验证集上最大化准确率来选择模型。测试验证用于衡量方法的最高潜在泛化能力。从表5中我们可以看出，与RSC（特征维度）相比，W2D倾向于具有更好的性能。0当使用测试域验证进行模型选择时，通常可以获得更大的改进。这主要是因为在样本维度上进行最坏情况训练可以增加模型的潜在泛化能力。05.5. 彩色MNIST的特殊属性0如前所述，我们使用Ood-Bench[74]中的-90作为CMNIST的测试环境，在表2中评估结果。在本节中，我们报告了在CMNIST中三个环境（+90，+80和-90）上的结果的平均值，这是DomainBed[21]中使用的协议。研究这些结果使我们注意到CMNIST与其他方法相比具有特殊属性。然后，这个特殊属性使我们引入了W2D的修改版本，通过利用这个属性明显改进了ERM。将-90域视为测试域被认为是最困难的设置，因为训练和测试域的分布完全相反。（相比之下，其他两个测试域+90和+80的讨论被省略，因为它们要简单得多。）如果我们只能在与测试域具有相同分布的训练样本的一个小子集上进行训练，结果可能会大大改善。在样本维度上进行最坏情况训练是这个问题的一个自然解决方案。然而，我们发现对于这个玩具数据集，这种方法的普通使用可能会严重影响训练。为了解决这个问题，我们在训练开始时首先使用几个时期训练一个有偏差的分类器。然后固定这个有偏差的分类器，并将其用作预训练分类器来选择最坏情况的样本。具体来说，我们利用预训练有偏差分类器在每次迭代中选择的最坏情况样本来训练一个去偏差的分类器。由于训练和测试域之间的分布翻转（从+80/+90到-90），预训练有偏差分类器选择的最坏情况样本应该与测试期间的样本具有相似的分布，这导致表6中出人意料的高性能。我们希望这个消融研究能够激发社区重新思考彩色MNIST的评估方法。我们推测一个更合理的协议是，不仅报告-90上的结果，而是使用多个不同分布域（例如+/-90，+/-70，+/-50，+/-30，+/-10）来评估方法的平均结果。06. 讨论0使用随机权重平均的额外好处随机权重平均（SWA）[32]是一种集成技术，它找到损失函数平面上宽阔平坦区域的中心解。它对从多个局部最小值导出的模型参数进行平均。研究表明SWA可以提高模型的性能。ERM [62]CMNIST51.5 / 58.5GroupDRO [57]CMNIST52.1 / 61.2VREx [38]CMNIST51.8 / 56.3ARM [76]CMNIST56.2 / 63.2IRM [2]CMNIST52.0 / 70.2RSC [31]CMNIST51.7 / 58.5W2DCMNIST51.9 / 59.0W2D*CMNIST70.8 / 72.996380方法数据集准确率（训练验证/测试验证）0表6. CMNST的结果来自[21]，并对三个领域进行了平均。*表示W2D的修改版本。0证明了半监督学习和领域自适应的性能[3]。除了整批训练外，SWA是在后期阶段提高模型泛化能力的另一种有效方法。直观上，SWA能够利用来自不同训练阶段的最差样本，无论模型之前认为这些样本是最差的样本，后来是否转变为容易的样本。在表格中0我们注意到SWA在基于最差情况的方法中表现特别好。例如，在PACS中，W2D在使用SWA后获得了1.3%的改进，而ERM和特征维度（RSC）分别获得了0.9%和0.7%的改进。0方法数据集准确率（训练-验证/测试-验证）0ERM PACS 81.5 / 82.2 特征维度 PACS 82.8 /83.3 样本维度 PACS 82.2 / 83.5 W2D PACS83.4 / 84.00ERM（带SWA）PACS 82.5 / 83.0特征维度（带SWA）PACS 83.5 / 83.7样本维度（带SWA）PACS 83.4 / 83.7W2D（带SWA）PACS 84.7 / 84.80表7.如果与随机权重平均一起使用，W2D可以进一步提高性能。我们在训练时间的最后25%应用SWA，并且这里不应用整批修补。0我们的方法在DomainBed中的挑战首先，像RSC[31]或DRO方法家族[38,57]这样的方法只是ERM在特征或样本维度上的简单启发式扩展。如果正确使用，这些方法与ERM竞争力相当，这似乎是不符合直觉的。当仔细研究DomainBed中的实验设置时，我们首先注意到RSC的超参数范围高达丢弃50%的特征，而且在如此高的丢弃率下，我们发现RSC几乎无法学习到任何有用的模式。其次，DomainBed通过在全连接层中添加dropout [58]改变了ResNet50[24]的默认模型设置。DomainBed中的最高dropout率为0为50%，这对其他算法可能有益处，但由于从两个方面过度使用了dropout，可能会降低RSC的性能。对于另一个维度，批量大小范围最小为8，这限制了DRO-family方法使用困难样本的潜力。为什么选择Ood-bench？首先，Ood-bench使用排名分数来反映对两种类型的分布偏移的相对鲁棒性程度，而不是在不同数据集上的平均准确率，这更合理。一些算法在玩具数据集的情况下优于ERM，但仍然容易受到来自真实数据的分布偏移的影响。因此，使用平均准确率来比较这些算法是一种不太有意义的方式。其次，与DomainBed不同，Ood-bench对于所有算法和数据集（除ColoredMNIST外）都使用较小的模型ResNet18[24]。众所周知，较大的模型通常对分布偏移数据更具鲁棒性，因此它们的性能可能更容易在小数据集上饱和[26]。因此，在较小的基础模型上构建可能为不同算法的OoD泛化提供更好的测试平台。第三，非算法特定超参数的搜索空间经过精心设计，例如学习率。它允许每个算法在每次运行时收敛。更重要的是，Ood-bench以更客观和公正的方式衡量每种方法的泛化能力：它排除了可以插入任何算法的先前领域泛化技术，例如dropout[58]。限制在更现实的由相关性偏移主导的数据集中，例如CelebA和NICO，尽管W2D在所有算法中取得了最大的改进，但它并没有超过ERM的统计显著差距。尽管有高度的实证性能，但没有足够的证据表明W2D在面对诸如虚假相关性等常见挑战时是理想的。未来可能会研究扩展W2D以进一步克服这些挑战。07. 结论本文受到一个简单的启发的启发，即在训练过程中，特别关注难以学习的概念将有助于学习过程。因此，我们引入了一种训练启发式方法，可以迭代地强制模型在特征维度和样本维度上学习难以学习的概念。我们将该方法命名为W2D，遵循“沿两个维度的最坏情况”的思想。W2D可以直接应用于几乎任何模型架构、优化器、损失或正则化等。在对OoD-Bench进行全面评估后，我们观察到W2D是唯一能在多样性转移和相关性转移方面实现持续优于ERM的算法。0致谢。本工作部分得到了NSF CAREERIIS-2150012和IIS-2204808的支持。HW得到了NIHR01GM114311、NIH P30DA035778和NSFIIS1617583的支持。96390参考文献0[1] Kei Akuzawa, Yusuke Iwasawa,和Yutaka Matsuo.带有准确性约束的对抗不变特征学习用于领域泛化.arXiv预印本arXiv:1904.12543, 2019. 20[2] Martin Arjovsky, L´eon Bottou, Ishaan Gulrajani,和DavidLopez-Paz. 不变风险最小化. arXiv预印本arXiv:1907.02893,2019. 5, 6, 80[3] Ben Athiwaratkun, Marc Finzi, Pavel Izmailov,和AndrewGordon Wilson. 无标签数据的许多一致解释：为什么你应该平均.arXiv预印本arXiv:1806.05594, 2018. 80[4] Hyojin Bahng, Sanghyuk Chun, Sangdoo Yun, JaegulChoo,和Seong Joon Oh. 通过有偏表示学习去偏表示.arXiv预印本arXiv:1910.02806, 2019. 2, 30[5] Sara Beery, Grant Van Horn,和Pietro Perona.在未知领域中的识别. In Proceedings of the European conferenceon computer vision (ECCV), pages 456–473, 2018. 50[6] Shai Ben-David, John Blitzer, Koby Crammer, AlexKulesza, Fernando Pereira,和Jennifer Wortman Vaughan.从不同领域学习的理论. Machine learning, 79(1-2):151–175,2010. 1, 20[7] Shai Ben-David, John Blitzer, Koby Crammer, FernandoPereira等. 领域适应的表示分析. Advances in neuralinformation processing systems, 19:137, 2007. 20[8] Gilles Blanchard, Aniket Anand Deshmukh, Urun Dogan,Gyemin Lee,和Clayton Scott. 边际转移学习的领域泛化.arXiv预印本arXiv:1711.07910, 2017. 60[9] Jonathon Byrd和Zachary Lipton.深度学习中的重要性加权的效果是什么？In InternationalConference on Machine Learning, pages 8

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

训练中的最坏情况维度及其对域外泛化的影响

移动医疗环境下孕产妇价值维度及其对满意度的影响研究.rar

MATLAB中颜色维度对模型的影响

python用回归特征消去方法衡量SVM训练集各个参数维度对SVM分类能力的影响

输入模型的数据维度对模型性能的影响

那么在这个代码中，训练数据和标签的维度信息分别是什么

# 查看训练集和测试集维度

model.predict（）中的输入和训练模型的输入维度之间的关系

BP神经网络为什么泛化能力差

BP神经网络的维度灾难

那训练集训练完，得出预测值时维度需要改变吗

assertiveness维度对美国职场的影响

torchvision的models里visiontransformer预训练权重的使用以及维度转换

请编写一段适用于高维度小样本二分类的mlp训练代码，其中输入维度6670维，输出2维。

深度学习模型泛化能力的理论基础

这段程序报错训练序列具有特征维度 4772 5，但输入层需要特征维度为 6 的序列。

matlab中错误使用 trainNetwork (第 183 行) 训练序列具有特征维度 20，但输入层需要特征维度为 1 的序列。

在一些网络模型的主干当中输入的维度与输出的维度保持一致，这样的好处是什么？

tf.reduce_sum() 对最后一个维度进行求和，什么叫做对最后一个维度求和，请举例

特征维度的选择对于精度的影响

python 多维度归因分析

最新资源