没有合适的资源?快使用搜索试试~ 我知道了~
Ruoyu Wang1,2∗Mingyang Yi1,2∗Zhitang Chen3Shengyu Zhu3†{wangruoyu17,yimingyang17}@mails.ucas.edu.cn, {chenzhitang2,zhushengyu}@huawei.compractice, however, data in different domains or environ-ments are often heterogeneous, due to changing circum-stances, selection bias, and time-shifts in the distributions[47, 57]. Accessing data from all the domains of interest,on the other hand, is expensive or even impossible. Con-sequently, the problem of learning a model that generalizeswell on the unseen target distributions is a practically impor-tant but also challenging task and has gained much researchattention in the past decades [6,7,17,49,68].Since data from some domains are unavailable, assump-tions or prior knowledge on the unseen domains are gen-erally required to achieve a guaranteed out-of-distribution(OOD) generalization performance.Recently, causalityhas become a powerful tool to tackle the OOD problem[2, 51, 55, 57]. This is based on the assumption or obser-vation that the underlying causal mechanism is invariant ingeneral, even though the data distributions may vary withdomains. It has been shown that a model would performwell across different domains in the minimax sense if sucha causal mechanism is indeed captured.To capture the invariant causal mechanism, existingworks have assumed a particular form of the causal dia-gram [25,46,48,57,67], which may be restrictive in practiceand is untestable from the observed data. Other works try torecover the so-called “causal feature” from the data to im-prove the OOD generalization performance [10,22,44,55].These works usually assume a linear form of causal fea-ture [10, 22, 44, 57] or that there are sufficiently many anddiverse training domains so that the causal feature couldbe identified via certain invariant properties [2, 50, 55]. Inthe absence of these assumptions, existing methods such asinvariant risk minimization [2] can fail to capture the in-variance or recover the causal feature even in simple exam-ples [30]. In real applications like image classification, thelinearity assumption may not hold, and it may be expensiveor even impossible to ensure that the available domains areindeed sufficient. As such, the identifiability issue of causalfeature can hardly be resolved in practice.In this paper, we obviate the aforementioned assump-3750通过因果不变转换进行超出分布泛化01 中国科学院大学 2 中国科学院数学与系统科学研究院 3 华为诺亚方舟实验室0摘要0在实际应用中,学习一个在超出分布(OOD)数据上表现良好的模型是重要且理想的。最近,因果性已成为解决OOD泛化问题的有力工具,其思想基于在感兴趣的领域中不变的因果机制。为了利用通常未知的因果机制,现有的方法假设因果特征具有线性形式或需要足够多且多样化的训练领域,这在实践中通常具有限制性。在这项工作中,我们避免了这些假设,并在不明确恢复因果特征的情况下解决OOD问题。我们的方法基于修改非因果特征但保持因果部分不变的转换,这些转换可以从先验知识中获得,也可以从多领域场景中的训练数据中学习得到。在不变因果机制的设定下,我们在理论上证明,如果所有这些转换都可用,那么我们可以仅使用单领域数据来学习跨领域的极小极大最优模型。注意到了解这些因果不变转换的完整集合可能是不切实际的,我们进一步证明只需要知道这些转换的一个子集就足够了。基于理论发现,我们提出了一种正则化训练过程来提高OOD泛化能力。在合成和真实数据集上的大量实验结果验证了所提算法的有效性,即使只有少数因果不变转换也是如此。01. 引言0� 相等的贡献。工作是在华为诺亚方舟实验室实习期间完成的。† 通讯作者。3760并提出了一种新的方法来学习一个在不变因果机制假设下具有鲁棒性的模型。我们不试图明确地恢复因果特征;相反,我们直接学习一个利用不变性属性的模型。我们的方法基于这样一个观察:尽管因果特征的显式函数形式通常是未知的,也可能很难学习,但我们通常对因果特征不变的变换有一些先验知识,即修改输入数据但不改变其因果特征的变换。例如,MNIST数据集[38]中图像中的数字形状可以被视为在预测数字时的因果特征,而翻转或旋转不会改变因果含义。关于这个问题的详细讨论在第3.5节中给出。我们将这些变换称为因果不变变换(CITs)。理论上,我们证明了在完全知道CITs的先验知识的情况下,只使用单一领域数据就可以学习具有OOD泛化能力的模型是可行的。具体来说,我们证明了如果所有的CITs都是已知的,那么最小化在所有因果不变转换的数据上的损失,这些数据是通过将CITs应用于给定单一领域的数据获得的,将导致所需的模型,在所有感兴趣的领域中实现最小最大优化。注意到获得所有的CITs可能是不切实际的,我们进一步证明,为了实现OOD泛化的目的,只需要知道一个适当的CITs子集,称为因果基本集,并在定义2中正式定义。然后,我们展示了如果模型对因果基本集中的变换是不变的,那么它可以推广到不同的领域。这与现有的工作[59,65]不同,后者从不变性属性中展示了改进的独立同分布泛化能力。根据这些理论结果,我们建议通过模型输出的原始数据和它们在因果基本集中的变换版本之间的差异来规范化训练,以增强OOD泛化能力。CITs可以被视为数据增强操作;从这个意义上说,我们的理论结果揭示了OOD问题中数据增强的原理。在合成和真实世界基准数据集上的实验证明了我们的理论发现,并展示了所提算法在OOD性能方面的有效性。值得注意的是,在一些实验中,我们使用CycleGAN来学习不同环境之间的变换,然后将其用作我们的CITs。这与[78]的观点相反,后者推测源到源的变换在域生成任务中提供的帮助很小。02. 相关工作0由于一些未知领域的数据完全不可用,对数据分布的假设或先验知识是必要的。0为了保证良好的OOD泛化性能,需要对数据分布进行假设或先验知识。我们将根据这些假设简要回顾现有的领域泛化方法。0边际迁移学习的一个分支假设不同领域下的分布是来自分布的超总体的独立同分布的实现,并通过协变量分布扩展原始特征空间[6,7]。这种对数据分布的独立同分布假设类似于随机效应模型[8, 37]或贝叶斯方法[13,54],但当领域之间的差异是不规则的时候可能是不合适的,例如PACS和VLCS数据集中的不同风格和背景。0鲁棒优化现有的工作还考虑到与训练分布在概率距离或分歧方面接近的OOD数据,例如Wasserstein距离[39, 64, 68,73]或f-分歧[16, 20,28]。他们提出通过分布鲁棒优化来训练模型,以便模型在一组分布上具有良好的泛化能力,这组分布被称为不确定性集合[5,60]。然而,在实际情况下,选择合适的概率距离和不确定性集合的范围是困难的[16]。此外,不确定性集合中的分布实际上是OOD数据的损坏分布,例如对抗样本和噪声损坏数据[73],而常见的遇到的样式转换的OOD数据则不包括在内[26]。0不变特征另一类方法的目标是寻找具有特征的模型,其(条件)分布在不同领域中是不变的。为此,提出通过最小化涉及领域散射的一些损失函数来学习特征表示[21, 42,49]。这里的领域散射是一个量,用于描述不同领域中(条件)分布的不相似性,如[21]中所定义。[41]和[43]考虑到规范化训练以减少不同领域的特征分布的最大均值差异和特征分布在给定结果条件下的Jensen-Shannon散度,分别。这些方法背后的理论基础是最小化出现在未知目标领域的预测误差的上界中的一个项[3, 4,21]。从理论上讲,这些方法的成功取决于上界中的其他项足够小[21]。然而,这个假设的含义通常不明确,并且对从业者提供很少的指导[11]。尽管通常没有明确说明,但这些方法的有效性依赖于协变量转移或标签转移的假设,如果在某些领域下存在虚假相关性,则这些假设是不可信的[11,36, 44, 76]。0不变因果机制与本文一样,许多现有的工作也借助因果关系来研究OODUnlike the invariant causal mechanism, these two correla-tions are supposed to vary across domains and hence arecalled spurious correlations [2,70]. If not treated carefully,3770泛化问题[1, 2, 10, 22, 25, 44, 48,55]。在过去几年中,因果关系、预测和OOD泛化之间的关系引起了越来越多的关注,自[50]的开创性工作以来。基于因果关系的方法基于长期以来的假设,即因果机制在不同领域中是不变的[51]。为了利用不变的因果机制从而改善OOD泛化,一些工作对因果图或结构方程施加了限制性假设[25,46, 57, 67]。另一种方法是通过恢复因果特征[10, 22,55]。例如,[55]提出通过统计检验选择因果变量的分布相等性,[10]利用了由共同因果机制假设引起的一些条件独立关系。值得注意的是,恢复因果特征通常依赖于限制性假设,例如线性结构模型或足够多样化的训练领域[2, 10, 22, 35,44, 50,55];参见[56]对这两个假设的进一步讨论。在没有这些假设的情况下,现有的方法如不变风险最小化[2]在简单的例子中甚至可能选择错误的预测器[30]。相反,我们的方法基于更一般的因果结构模型,并且需要较少的训练领域。0数据增强数据增强是深度学习中训练流程中的重要技术[29,34, 71, 74, 75,79]。常用的方法包括图像旋转、裁剪、高斯模糊等。通过在训练中引入增强数据,可以提高模型在分布内[63]和分布外数据[69]上的泛化能力。与上述方法不同的是,当存在领域划分时,我们应用CycleGAN[80]来学习源到源的转换,生成具有不同风格的相应图像,即人工生成的因果不变转换数据。接下来,我们澄清我们的方法与现有方法之间的区别,这些方法也涉及生成模型来获得增强数据[31, 77,78]。具体而言,在[77,78]中,他们从不存在的“新领域”生成数据,而不是来自已知领域的数据-在[78]中推测并实证表明,源到源的转换对于领域生成任务几乎没有帮助。粗略地说,我们的增强数据在不同领域下表示相同的“因果特征”,并且我们通过将其与原始数据进行对比来利用增强数据,而现有方法则将来自不存在领域的增强数据的平均损失添加到目标中。还相关的是[31],它人工生成反事实增强数据,修改因果特征但保持非因果部分不变。我们的工作不同之处在于我们使用CITs修改非因果特征,但保持因果部分不变。此外,在我们的0在实验中,这些CITs是通过先前的知识或从训练数据中学习得到的,而不需要对每个训练数据进行人为操作。03. 通过因果性进行OOD泛化0在本节中,我们考虑OOD泛化问题的一般因果结构模型。我们证明了即使我们只能访问来自单个领域的数据,也可以通过因果特征获得模型的极小极大最优性。然而,正如介绍中所讨论的,恢复因果特征可能是困难的。因此,我们在CITs的帮助下继续进行,并展示了学习模型可以达到相同的保证OOD性能。03.1. 不变的因果机制0我们从本文中使用的因果结构模型的形式化定义开始。在实践中,数据分布可以在不同领域之间变化,但因果机制通常保持不变[51]。我们考虑以下因果结构模型来描述数据生成机制:0Y = m(g(X), η), η‚g(X) and η�F,(1)0其中X,Y分别是观测到的输入和输出,g(X)表示因果特征,η是一些随机噪声,m(∙,∙)表示未知的结构函数。关系η‚g(X)表示噪声η与因果特征g(X)独立,η�F表示它遵循一个未知的分布F。注意,结构模型(1)对输入X的分布没有任何假设。因此,在不同的环境下,输出Y的分布可以随着X的变化而变化,即使Y仅通过因果特征g(X)依赖于X。此外,结构模型中可能存在两种相关性,总结如下:01.虽然假设因果特征g(X)与噪声η独立,但在某个领域下,X可能与噪声η相关。为了看清楚这一点,让我们考虑一个玩具例子,观测输入X = (X1,X2)。这里噪声η与X1相关,而η与X2独立。然后对于因果结构模型Y = X2 + η,我们有g(X) =X2,g(X)‚η,而输入X与η相关。02.因果特征与其他虚假特征之间可能存在相关性,例如图像分类任务中目标形状与图像背景之间的相关性。3780虚假的相关性会降低基于ERM的机器学习方法的性能,并使模型在目标领域上表现不佳[2, 44, 61,62]。例如,在涉及马和骆驼的图像分类任务中,训练数据中所有的马都在草地上,而骆驼都在沙漠中。马/骆驼与背景之间的虚假相关性可能会导致模型错误地使用背景进行预测。因此,训练得到的模型在OOD数据上是不可靠的。现有的研究在考虑类似的因果机制时通常会加入更多的结构假设,例如,g(∙)是线性的,噪声是可加的[22, 44, 50, 52,55]。我们的结构模型(1)推广了现有的模型,因为我们摒弃了这两个结构假设。因此,我们的模型构建更加灵活,适用于那些假设的线性或可分离结构模型不太可信的任务,例如图像分类任务[2]。此外,我们在第4节中提出的算法不需要显式地学习因果特征g(X),因此避免了处理g(X)可识别性问题的困扰。03.2.通过因果特征进行泛化0在本文的其余部分,我们将重点关注结构模型(1)下的分布:0P = {P(X,Y)|(X,Y)�P(X,Y)在结构模型(1)下},0在固定g(∙)、m(∙,∙)和F的情况下,我们的目标是训练一个在所有遵循结构模型(1)中的分布P(X,Y)∈P的情况下都能良好泛化的模型h�(∙)。0h�(∙)∈H�:=arg min h sup P∈P EP[L(h(X),Y)],(2)0其中L(∙,∙)表示损失函数,例如回归的均方误差或分类的交叉熵。对于OOD泛化问题,许多现有工作中都出现了类似的极小极大形式,例如[2, 9, 22, 44,55]。与基于足够多域数据的方法[35, 44, 53, 55,58]相比,我们接下来将展示,如果已知g(∙),我们可以通过单一域数据学习h�(∙)。设P s是收集训练数据的源域的分布。根据因果特征g(X),将基于P s 的最优模型集合表示为0Hs=�φ◦g���φ(w)∈arg min z EPs[L(z,Y)|g(X)=w]�,0(3)其中◦表示函数的复合。在本文中,我们不区分两个在几乎必然情况下相等的w的函数,即除了概率为零的一组w之外,它们对于所有w都相等。然后我们有以下结果。0定理1.如果Ps∈P,则Hs�H�。0定理1的证明可以在附录中找到。定理1给出了属于H�的一类模型,H�是在公式(2)中定义的极小极大问题的解集。H�中的模型通过因果特征g(X)进行预测,并且如果已知g(∙)的形式,可以使用单一域数据进行学习。定理1推广了[44,55]中的现有结果,因为它是在更一般的结构模型下推导出来的,并且还包括了[33]中考虑的均方损失和交叉熵损失之外的更多损失函数L(∙,∙)。03.3.通过因果不变变换进行学习0定理1表明,可以仅使用单一域数据在极小极大意义上学习一类最优模型Hs。然而,这样的结果需要对因果特征g(X)进行明确的表述,这在某种程度上是不切实际的[2]。另一方面,从观测数据中学习因果机制可能面临可辨识性的问题。因此,在本节中,我们的目标是在不需要明确形式的g(X)的情况下学习Hs的模型。我们的方法的思想是利用不改变基础因果特征的变换T(∙)。具体而言,尽管通常情况下我们不知道g(∙)的明确形式,但我们可以有先验知识,即因果特征应该对某些变换T(∙)保持不变。例如,考虑第3.1节中的马与骆驼问题。对于给定的图像,马/骆驼的形状可能是决定其类别的因果特征。关于表示形状的像素的确切函数可能很难获得。然而,我们确实知道形状不会随着旋转或翻转而变化。我们现在正式定义这些变换。0定义1(因果不变变换(CIT))。如果(g◦T)(∙)=g(∙),则变换T(∙)被称为因果不变变换。0因此,Tg ={T(∙):(g◦T)(∙)=g(∙)}表示由所有CITs组成的集合。如附录中的引理1所示,Tg对g(∙)非常有信息量,因此有助于根据定理1解决OOD泛化问题。在某些情况下,了解Tg可能等同于了解结果的因果特征或因果父母,例如假设线性因果机制。然而,在图像分类等应用中,因果关系很复杂,而对于CITs的先验知识可能比因果父母的先验知识更容易获得,正如第3.5节末尾所示。有了Tg,下面的定理表明,即使对于未知的g(∙),通过解决由单一域数据构造的极小极大问题,Hs也是可用的。0定理2. 如果 P s ∈ P,则对于在公式(3)中定义的 H s0H s � arg min h sup T ∈ T g E P s [ L ( h ( T ( X )), Y )],(4)3790定理2的证明见补充材料。如果极小极大问题(4)有唯一的最小值(例如,损失函数 L(∙,∙)满足某些凸性条件),定理2表明模型在从 T g中的变换得到的转换数据上均匀地表现良好,可以推广到 P中的分布。令 P aug = { P (X',Y) | (X, Y) � P s, X' = T(X), T∈ T g },那么我们可以将(4)中的极小极大问题重写为0min h sup P ∈ P aug E P [ L ( h ( X ) , Y)],(5)0问题(5)与问题(2)具有类似的形式。回顾结构模型(1),可以验证 P aug 是 P 的一个子集。然后我们有以下两点备注:01. P aug 可以是 P的一个真子集。因此,与(2)中需要更少的 P的信息相比,(5)中的上确界更易处理。为了看到这一点,假设 (X, η) � P(X,η) = P X × F 为一个分布 P X 和 P s =P(X,m(g(X),η))。那么对于任何 P ∈ P aug,如果 (X, Y) �P,则有 Y ∈ X | g(X)。然而,可能存在 P' ∈ P,使得 X与 η 相关联,因此条件独立性不再成立。也就是说,P'属于 P,但不属于 P aug。02.在第3.1节的马与骆驼的例子中,虚假的相关性导致了误导性的监督。另一方面,P aug很可能包含没有这些虚假相关性甚至包含相反相关性的分布。因此,过度拟合虚假相关性的模型无法在这些分布上很好地泛化,也不能成为问题(5)的解决方案。例如,来自某个 P ∈ P aug的数据可能大部分马在沙漠上,而大部分骆驼在草地上。因此,过度拟合动物和背景之间的虚假相关性的模型在这个分布上表现不佳。0尽管定理2提供了一种学习具有保证的OOD泛化模型的方法,但当T g 包含大量或可能是无限变换时,计算T g上的上确界可能是计算上的困难。以图像分类任务为例。假设T g 包含 θ 度的旋转,其中 θ = 1, ..., 360。计算总共360个变换的损失是计算上昂贵的。因此,自然而然地提出一个问题:我们能否用一个适当的子集替代(4)中的T g ?03.4. 通过因果本质集学习0在本节中,我们肯定地回答了第3.3节末尾的问题。我们证明仅使用T g的一个子集,即因果本质集,就足够了。接下来,我们首先给出因果本质集的形式化定义,然后证明它确实是所需的子集。0定义2(因果本质集)。对于 I g � T g,如果对于所有满足g(x1) = g(x2) 的 x1, x2,存在有限的变换 T1(∙), ..., TK(∙) ∈I g,使得 (T1 ◦ ... ◦ TK)(x1) = x2。0显然,可能存在多个因果本质集合,例如,T g本身就是一个因果本质集合。在大多数情况下,我们相信存在一个I g ,它是T g 的真子集。例如,如果T g 是由 θ = 1,..., 360度旋转组成的旋转集合,那么一度旋转本身就形成一个因果本质集合。下一个定理表明,对于任何这样的因果本质集合的先验知识足以实现对单一领域数据的保证的OOD泛化。证明见补充材料。0定理3. 如果 P s ∈ P,则对于任何是 g(∙) 的因果本质集的 Ig 和在(3)中定义的 H s0Hs = arg min h E Ps [L(h(X), Y)],0subject to h(∙) = (h ◦ T)(∙), � T(∙) ∈ Ig. (6)0与定理2相比,定理中的Hs与(4)中的“�”相关的部分被“=”替换,这是一个更强的理论结果。因此,通过最小化对任何由结构模型(1)引起的数据分布的损失,也可以轻松获得在OOD数据上泛化良好的模型,但需要更少的CITs。在某些情况下,因果基本集的结构是简单的,可以被识别出来。由于篇幅限制,这在补充材料的第S3.1节中通过一个例子进行了说明。03.5. 先验知识的必要性0在结束本节之前,我们想澄清的是,与许多现有方法所需的先验知识相比,对因果不变变换的先验知识更易于管理。首先,假设或先验知识是从观测数据中获得保证的因果结果所必需的。如前所介绍,一些最近的工作假设了因果图的先验形式,其正确性无法从观测数据中进行测试。需要注意的是,从数据中学习因果图,或者所谓的因果发现方法[51, 66,81],面临着相同的问题。其他具有关于OOD泛化的理论保证的工作需要足够多且多样化的训练领域[2]和/或结合因果图和因果机制的先验知识[25, 45,56]。尽管这些基于因果性的方法对OOD泛化具有宝贵的理解和理论保证,但在实际应用中,所假设的条件或先验知识是否确实成立尚不清楚。一般来说,只有随机对照实验才是推断因果关系的黄金标准,总结为“没有操纵就没有因果关系”[27]。另一方面,直接创建minhEPs [L(h(X), Y )] ,subject to EPs�supT ∈IgD�h(X), h(T(X))��= 0,4: for t = 0,, N doβt+1 = βt − ηSS�i=1∇βL(hβ(xti), yti)���β=βt+η∇β�λ0SS�i=1supT ∈IgD�hβ(xti), hβ(T(xti))�����β=βt.8: end forEPs[L(h(X), Y )]+λ0EPssupT[D(h(X), h(T(X)))1nn�i=1L(h(xi), yi)+ λ0nn�i=1supT ∈Ig[D(h(xi), h(T(xi)))].3800图1.这些图中的牛的轮廓被认为是因果特征,而不同的背景是虚假特征。0“操纵”数据可以导致更好的因果效应估计。在[31]中,作者人为地生成了反事实增强数据,修改了每个句子的因果特征,但保留了非因果部分。然后,简单的处理(例如,直接组合观察数据和操纵数据)提高了泛化性能。这些观察结果共同促使我们考虑:如何生成操纵以在较低的人力成本下实现因果保证?例如,不需要对每个训练数据应用人工操纵。这种考虑使我们转向常识因果变换(CITs),我们通常对其有一些先验知识。许多增强技术可以用作CITs,例如旋转和高斯模糊。当领域划分可用时,例如在多领域学习设置中[2,50],可以从数据中学习CITs。例如,我们在第5.2节中使用GAN或其他生成模型合成“操纵”数据。我们认为,与人为操纵数据相比,对CITs的这种先验知识更易于获取,并且在实际应用中易于管理。最后,我们澄清,与许多任务中因果特征的先验知识相比,对CITs的先验知识也更易于获取,如[18]中的图1所示。在图1中,被绿线突出显示的牛的轮廓被认为是因果特征,并且仅基于这种因果特征的预测模型可以很好地推广到具有不同背景的图像。然而,我们不知道哪些像素或像素的哪个函数代表轮廓;事实上,在图1的第一张和第二张图像中,轮廓依赖于不同的像素。相反,我们很容易知道改变图像的背景,例如将第二张图像转换为第三张图像,不会影响因果特征。这可以被视为我们对CITs的先验知识。04. 算法0我们现在提出了一种基于先前对CITs的分析的算法。设 D ( ∙, ∙ ) 为满足 D ( v 1 , v 2 ) = 0 当且仅当 v 1 = v 2 ,且 D (v 1 , v 2 ) > 0 其他情况的差异度度量。那么对于任意模型h ( ∙ ) 和变换 T ( ∙ ) ,有 E P s [ D � h ( X ) , h ( T ( X )) � ] =0 意味着 h ( ∙ ) = h ( T ( ∙ ))几乎必然成立。结合定理3,我们考虑以下公式0算法1基于因果性关键集合的正则化训练(RICE)。输入:训练集{ ( x 1 , y 1 ) , ∙ ∙ ∙ , ( x n , y n ) } ,批量大小 S ,学习率 η,训练迭代次数 N ,模型 h β ( ∙ ) ,初始化参数 β 0,正则化常数 λ 0 ,因果性关键集合 I g ,以及差异度度量D ( ∙ , ∙ ) 。01: for i = 1 , . . . , n do 2: 生成转换后的样本 { T (x i ) } T ∈I g .05: 从训练集中随机抽取一个小批量 S = { ( x t 1 , y t 1 ) ,∙ ∙ ∙ , ( x t S , y t S ) } 。06: 获取转换后的样本 { T ( x t 1 ) } T ∈I g , ∙ ∙ ∙ , { T ( x t07: 通过一阶方法(例如随机梯度下降)更新模型参数:0其中 Ig是一个因果性关键集合。为了避免解决约束优化问题的困难,我们进一步考虑最小化一个正则化的公式0(7),给定正则化常数 λ 0 > 0 。假设我们有训练样本 {( x i , y i ) } n i =1,然后我们提出最小化(7)的经验对应物0然后我们提出了算法1,基于因果性关键集合的正则化训练(RICE),来解决上述问题,其中第7行的更新步骤可以用其他优化算法替代,例如Adam[32]。请注意,在许多应用中,获得完整的因果性关键集合也可能很困难。尽管如此,我们通常具有或可以学习具有所需因果不变性的某些变换。我们将通过实验证明,所提出的RICE能够实现改进的OOD泛化,即使只有少数CITs。在这种情况下,我们可以在算法1中用这个集合简单地替换Ig。05. 实验0在本节中,我们在真实世界的数据集上对所提出的算法RICE的有效性进行了实证评估。我们进行训练3810使用一些可用域的数据来训练模型,并在未使用训练的其他域的数据上评估性能。如[72]所建议,OOD数据可以分为两类,即具有相关性转移的数据或具有多样性转移的数据。实证结果表明,RICE可以处理这两种类型的OOD数据。由于篇幅限制,部分结果,包括第3.4节中提到的合成数据的玩具实验和消融研究,将在补充材料中给出。105.1. 打破虚假相关性0正如我们在第3.1节中讨论的那样,数据中的虚假相关性可能会导致模型在OOD数据上做出错误的预测,从而导致相关性偏移。在本节中,我们通过实验证明算法1中的RICE可以避免过度拟合这种虚假相关性。0数据 我们使用来自[ 15]的彩色MNIST(C-MNIST)数据集。与[ 15]一样,我们改变图像的前景和背景的颜色。原始MNIST数据集由十个类别的手写数字组成,即0到9。为了构建C-MNIST的训练集,我们为给定类别的图像的前景选择两种颜色,然后随机将前景颜色替换为分配给该类别的两种颜色之一。每个图像的背景颜色处理方式类似。对于测试集,我们随机为MNIST测试集中的每个图像的前景和背景分配颜色,而不考虑其类别。补充材料中的图S3可视化了生成的C-MNIST数据集中的一些图像。构建过程在训练集中引入了类别和颜色之间的虚假相关性,但在测试集中没有。接下来,我们将展示所提出的方法RICE不会受到这种虚假相关性的影响。0设置我们的模型是一个五层卷积神经网络,与[ 15]中的模型相同。对于RICE,我们选择交叉熵损失作为L(∙,∙),选择ℓ2距离作为D(∙, ∙)。模型使用Adam [ 32]进行更新,其他超参数详见补充材料。对于手写数字而言,其前景的形状而不是前景或背景的颜色决定了其类别。因此,将图像背景转换为一种颜色(例如黑色),将其前景转换为另一种颜色(例如白色)将是一种理想的CIT。在我们的实验中,我们简单地使用原始的MNIST图像作为变换后的数据,以展示所提出方法的有效性。由于我们在训练中使用了原始的MNIST数据集,训练数据可以从两个域中看到,即原始的MNIST和C-MNIST数据集。因此,我们进行了比较01部分实验得到MindSpore(https://www.mindspore.cn)的支持,这是一个深度学习计算框架。0表1. 在C-MNIST测试集上的准确率(%)。0数据集 ERM Mixup MTL GroupDRO DANN IRM RICE(我们的方法)0C-MNIST 13.3 17.5 14.7 14.1 28.1 15.8 96.90使用相同的训练数据,将RICE与几种广泛使用的领域泛化算法进行比较,包括经验风险最小化(ERM),ERM与Mixup [ 75 , Mixup],边际转移学习[ 6 ,MTL],组分布鲁棒优化[ 58 ,GroupDRO],领域对抗神经网络[ 19 ,DANN]和不变风险最小化[ 2 ,IRM]。有关这些算法的更多介绍,请参见补充材料。对于这些基线算法,超参数采用自[ 23]。我们注意到,我们的方法和基线方法使用相同的训练数据,即MNIST和C-MNIST。0主要结果实验结果如表1所示。我们观察到,只有所提出的算法RICE在OOD数据上表现良好。我们推测,这是因为对于基线算法,模型记住了来自颜色的误导性监督信号,即使原始的MNIST图像也包含在训练集中。然而,对于RICE,正则化器惩罚了彩色图像和相应的MNIST版本之间的模型输出的差异,这使得模型对虚假相关性不敏感,但更依赖于不变的因果特征。05.2. 对未见过的领域进行泛化0在本节中,我们在两个常用的基准数据集PACS和VLCS上进行实验,这两个数据集对应我们提到的多样性转移。与领域泛化中的其他相关工作[ 23 , 76 , 77]一样,训练集中已知领域标签。0数据集PACS是一个图像分类数据集,包含来自四个不同风格领域(艺术、卡通、照片、素描)的数据,每个领域中有七个不同的类别。VLCS是一个由四个摄影领域(VOC2007、LabelMe、Caltech101、SUN09)组成的数据集,每个领域包含五个不同的类别。0设置与[23]中一样,我们使用在ImageNet[14]上预训练的ResNet50[24]作为骨干模型,并使用不同的基准方法对模型进行微调。对于RICE,模型使用Adam进行训练,超参数在补充材料中提供。为了实现RICE,我们需要生成具有因果不变性的转换数据。在PACS数据集中,每个领域代表图像的风格,例如照片或艺术。由于改变图像的风格不会改变其类别,我们将修改图像风格的转换构造为CITs。3820图2. 在PACS数据集上的RICE算法。训练数据来自于{艺术、卡通、照片}三个领域,我们希望模型在素描数据上表现良好。该图描述了RICE对来自艺术领域的训练图像的训练过程。0为此,我们使用CycleGAN[80]来学习训练集中每对领域的转换,并使用训练好的CycleGAN模型实现RICE。在VLCS中,图像的摄影角色与PACS中的风格起到类似的作用,我们也使用CycleGAN来学习这些转换。其他生成模型也可以使用,例如StarGAN[12],用于来自多个领域的数据。RICE的过程总结在图2中。我们还与其他常用的领域泛化算法进行比较,如前面的实验所示。为了获得更好的结果并与基准方法进行公平比较,我们还在补充材料中提供了使用单个领域训练数据的消融研究。0主要结果 PACS 和 VLCS上的实验结果分别总结在表2和表3中。基准方法的结果来自于[23]。提出的RICE在PACS和VLCS数据集上展现出更好的OOD泛化能力,特别是在平均和最差情况下的测试准确率。这里我们以PACS作为例子,对RICE的性能进行直观解释。从补充材料中的图S4可以看出,训练的CycleGAN模型很可能引入与领域相关的虚假相关性,而捕捉到这种虚假相关性的模型会在RICE中受到惩罚。RICE能够取得改进的性能,是因为它试图在因果特征(例如图像中物体的形状)上进行预测,而不是在与领域相关的虚假特征(例如PACS的风格)上进行预测。此外,从图S4中还可以看出,CycleGAN生成的一些图像与原始图像不相似且模糊,这表明我们的RICE对生成数据的质量具有鲁棒性。最后,我们验证了RICE的改进性能是否仅源于CycleGAN生成的增强数据。我们在PACS上使用这些增强数据进行ERM训练。在P、A、C、S四个领域上的测试准确率分别为96.2、84.9、81.2、80.5,比RICE的结果要差。我们相信这样的性能与[78]中的先前观察一致,证明了与不同领域进行比较的正则化器的存在差异。0表2. ResNet50在PACS数据集上的测试准确率(%)。0方法 P A C S 平均 最小0E
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功