因果启发的领域泛化表示学习

172 浏览量更新于2023-10-25 收藏 12.9MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

i.i.d. hypothesis [23, 24, 30]. Directly applying the modeltrained on source domain to an unseen target domain withdifferent distribution typically suffers from a catastrophicperformance degradation [13, 29, 31, 57]. In order to dealwith the domain shift problem, Domain Generalization (DG)has attracted increasing attention, which aims to generalizethe knowledge extracted from multiple source domains to anunseen target domain [2,20,22,35].SXYU80460因果启发的领域泛化表示学习0吕方锐 1 梁健 2 李爽 1, � 臧斌 1 刘驰 1 王子腾 3 刘迪 201 中国北京市北京理工大学 2 中国阿里巴巴集团 3 中国益准医疗人工智能有限公司01 {fangruilv,shuangli,binzang}@bit.edu.cn, liuchi02@gmail.com 2{xuelang.lj,wendi.ld}@alibaba-inc.com 3 ziteng.wang@yizhun-ai.com0摘要0领域泛化（DG）本质上是一个分布外问题，旨在将从多个源领域学到的知识推广到未见过的目标领域。主流方法是利用统计模型来建模数据和标签之间的依赖关系，以学习与领域无关的表示。然而，统计模型只是对现实的肤浅描述，因为它们只需要建模依赖关系，而不是内在的因果机制。当依赖关系随着目标分布的变化而改变时，统计模型可能无法泛化。在这方面，我们引入了一个通用的结构因果模型来形式化DG问题。具体而言，我们假设每个输入都由因果因素（其与标签的关系在领域之间是不变的）和非因果因素（与类别无关）构成，只有前者才会导致分类判断。我们的目标是从输入中提取因果因素，然后重构不变的因果机制。然而，理论上的想法与DG的实际情况相去甚远，因为所需的因果/非因果因素是不可观测的。我们强调，理想的因果因素应满足三个基本属性：与非因果因素分离、联合独立和对分类具有因果充分性。基于此，我们提出了一种基于因果的表示学习（CIRL）算法，该算法强制表示满足上述属性，然后使用它们来模拟因果因素，从而提高泛化能力。在几个广泛使用的数据集上进行的大量实验证明了我们方法的有效性。01. 引言0近年来，随着现实世界任务的复杂性增加，基于深度神经网络的模型在基于i.i.d.假设[23, 24,30]的情况下直接将在源领域上训练的模型应用于具有不同分布的未见目标领域通常会导致灾难性的性能下降[13, 29, 31,57]。为了解决领域转移问题，领域泛化（DG）引起了越来越多的关注，其目标是将从多个源领域提取的知识推广到未见目标领域[2, 20, 22, 35]。0� 通讯作者。代码可在"https://github.com/BIT-DA/CIRL"找到。0为了提高泛化能力，已经提出了许多领域泛化方法，可以大致分为不变表示学习[9, 22, 25, 34]，领域增强[53, 59, 63,66]，元学习[2, 6,21]等。尽管取得了令人满意的结果，但它们存在一个内在问题。这些努力仅仅试图弥补OOD数据引起的问题，并在不解释潜在因果机制的情况下建模数据和标签之间的统计依赖关系。最近有人争论[43]，这样的做法可能不足够，并且在i.i.d.设置之外良好泛化需要学习不仅仅是变量之间的统计依赖关系，而是一个潜在的因果模型[3, 39, 42, 43, 49,54]。例如，在图像分类任务中，所有的长颈鹿很可能都在草地上，显示出很高的统计依赖性，这可能会在目标领域的背景变化时误导模型进行错误的预测。毕竟，长颈鹿的特征，如头部、脖子等，而不是背景使得长颈鹿成为长颈鹿。0图1.DG的SCM。实线箭头表示父节点导致子节点；虚线箭头表示存在统计依赖关系。0在本文中，我们引入了结构因果模型（SCM）[48]来形式化DG问题，旨在挖掘数据和标签之间的内在因果机制，并实现更好的泛化能力。具体而言，我们假设与类别相关的信息为YSUXSU80470非因果因素因果因素的分解因果因素0(b) 清晰、独立的因子分解 (a) 嘈杂、依赖的因子分解0潜在的非因果信息潜在的因果信息0猫猫0图2. 因果因素的三个属性的说明。0在数据中，作为因果因素的信息与标签的关系与领域无关，例如在数字识别中的“形状”。而与类别无关的信息被认为是非因果因素，通常是与领域相关的信息，例如在数字识别中的“书写风格”。每个原始数据X由因果因素S和非因果因素U的混合构成，只有前者对类别标签Y产生因果影响，如图1所示。我们的目标是从原始输入X中提取因果因素S，然后重构不变的因果机制，这可以通过因果干预P(Y∣do(U),S)来实现。do操作符do(�)[10]表示对变量进行干预。不幸的是，我们不能直接将原始输入因子分解为X = f(S,U)，因为因果/非因果因素通常是未观察到的，无法被形式化，这使得因果推断特别具有挑战性[51,55]。为了将理论思想付诸实践，我们强调因果因素S应满足基于[43, 46,49]的研究的三个属性：1）与非因果因素U分离；2）S的因子分解应该是联合独立的；3）在包含所有因果信息的意义上，对分类任务X -→Y具有因果充分性。如图2(a)所示，与U混合使得S包含潜在的非因果信息，而联合依赖的因子分解使得S冗余，进一步导致一些潜在的因果信息丢失。相比之下，图2(b)中的因果因素S是满足所有要求的理想因素。受此启发，我们提出了一种因果启发的表示学习（CIRL）算法，强制学习到的表示具有上述属性，然后利用表示的每个维度来模拟因果因素的分解，具有更强的泛化能力。简而言之，对于每个输入，我们首先利用因果干预模块通过生成具有扰动的领域相关信息的新数据来将因果因素S与非因果因素U分离。生成的数据与原始数据相比具有不同的非因果因素U，但具有相同的因果因素S，因此要求表示保持不变。此外，我们提出了一个分解模块，使得表示的每个维度都能模拟因果因素的分解，具有更强的泛化能力。我们的工作的贡献如下：0表示共同独立，然后可以用来近似因果因素。此外，为了对分类具有因果充分性，我们设计了一个对抗性掩码模块，通过掩码器和表示生成器之间的对抗学习，迭代地检测包含相对较少因果信息的维度，并迫使它们包含更多和新的因果信息。我们的工作的贡献如下：0•我们指出仅建模统计依赖性的不足，并引入了基于因果性的视角来挖掘内在的因果机制。0•我们强调理想因果因素应具备的三个特性，并提出了一种CIRL算法来学习能够模拟因果因素的因果表示，具有更好的泛化能力。0•在几个广泛使用的数据集上进行了大量实验和分析结果，证明了我们方法的有效性和优越性。02. 相关工作0领域泛化（DG）旨在从多个源领域中提取知识，这些知识对未见目标领域具有很好的泛化能力。一种有前景且普遍的解决方案是通过学习基于核优化[8, 35]、对抗学习[22, 25,34]、二阶相关性[41]或使用变分贝叶斯[62]来对齐领域的分布，从而学习领域不变表示。数据增强也是一种重要的技术，通过丰富源领域的多样性来增强模型的泛化能力。在以前的研究中已经探索了几种方法：[53]根据领域鉴别器引起的对抗梯度扰动图像。[63,66]通过混合特征统计[66]或幅度谱[63]来混合跨领域的训练实例的样式。[65]通过最大化差异度量生成更多的训练合成数据。另一种被广泛研究的流行方法是元学习，它通过将元训练和元测试领域从原始源领域中划分来模拟领域转移[2, 6,21,26]。其他领域泛化方法还探索了低秩分解[45]、作为解决拼图难题的二级任务[4]和梯度引导的丢弃[14]。与上述所有方法不同，我们从因果视角解决DG问题。我们的方法侧重于通过学习因果表示来挖掘内在的因果机制，这已经显示出更好的泛化能力。因果机制[15, 40,42]关注的是统计依赖性（“看到人们服药表明他生病了”）不能可靠地预测反事实输入的结果（“停止服药不会使他健康”）。一般来说，它可以被视为推理链的组成部分[19]，为预测提供了80480这些情况与观察到的分布非常不同。从这个意义上讲，挖掘因果机制意味着获得超出观察数据分布支持范围的稳健知识[50]。因果性与泛化之间的联系在过去几年中引起了越来越多的关注[33,43]。已经提出了许多基于因果性的方法来获得不变的因果机制[12, 56, 61]或恢复因果特征[5, 10, 27,47]，从而改善OOD泛化。值得注意的是，它们通常依赖于因果图或结构方程的限制性假设。最近，MatchDG[32]通过在来自同一对象的输入之间强制执行对比学习，将因果性引入DG文献。我们的CIRL与MatchDG相关，因为它们都努力学习因果表示。然而，CIRL的不同之处在于它明确地利用维度表示来模拟因果因素，基于更具理论性的公式化，并且仅依赖于更一般的因果结构模型，而不依赖于限制性假设。从本质上讲，CIRL可以被看作是带有干预的因果因子分解，这与对象条件MatchDG明显不同。03. 方法0在本节中，我们从因果视角考虑DG，使用一个通用的结构性因果模型，如图1所示。我们证明了如果给定因果因素，内在的因果机制（形式化为条件分布）是可行的。然而，正如[1]中讨论的那样，精确恢复因果因素是困难的，因为它们是不可观测的。因此，我们提出基于因果因素属性的因果表示学习方法，作为一种模仿，同时继承了更优越的泛化能力。03.1. 从因果视角看DG0DG的主流关注点是建模观察到的输入和相应标签之间的统计依赖关系，即P(X,Y)，这被假设在不同领域中是变化的。为了获得不变的依赖关系，通常会在边际或条件上强制使分布在领域之间的差距最小化，即最小化P(X)或P(X|Y)的差距。然而，由于统计依赖关系无法解释输入和标签之间的内在因果机制，它往往会随着领域的变化而变化。因此，源领域中学到的不变依赖关系可能在未知的目标领域上失败。与此同时，因果机制通常在不同领域之间保持稳定[43]。我们首先根据Reichenbach[46]在原则1中所述，阐明了因果关系与统计依赖关系之间的联系。0原则1（[46]）。共同原因原则：如果两个可观测变量X和Y在统计上相关，则存在一个变量S同时对两者产生因果影响并解释0在S给定的条件下，使它们在条件为S时相互独立。0基于原则1，我们形式化以下结构因果模型（SCM）来描述DG问题：0X：= f(S, U, V1), S � U � V1,0Y：= h(S, V2) = h(g(X), V2), V1 � V2. (1)0其中X，Y分别表示输入图像和相应标签。S表示对X和Y产生因果影响的因果因素，即数字识别中的“形状”等类别相关信息，而U表示仅对X产生因果影响的非因果因素，通常是与领域相关的信息，如“风格”。V1，V2是联合独立的未解释噪声变量。至于f，h，g，它们可以被视为未知的结构函数。因此，对于任何分布P(X, Y) ∈P，如果给定因果因素S，则存在一般的条件分布P(Y|S)，即不变的因果机制。基于上述讨论，如果我们可以访问因果因素，那么通过优化h很容易获得在i.i.d.假设之外具有良好泛化性能的因果机制：0h* = arg min h E P [ℓ(h(g(X)), Y)] = arg min h E P [ℓ(h(S), Y)],0(2)其中ℓ(�,�)是交叉熵损失。不幸的是，我们无法事先提供因果因素S，而是给出了通常是无结构的原始图像X。直接重建因果因素以及机制在实践上是不切实际的，因为它们是不可观测和不明确的。此外，正如[28, 50,51]所讨论的，可以提取哪些因素及其粒度取决于可用的分布转移、监督信号和显式干预。然而，清楚的是，因果因素仍然需要遵守某些要求。以前的研究[43,49]声明因果因素应该是联合独立的，如原则2所述。0原则2（[43,49]）。独立因果机制（ICM）原则：每个变量在给定其原因（即其机制）的情况下的条件分布不会影响或影响其他机制。0由于方程（1）中的S表示所有因果因素{s1，s2，...，sN}的集合，该原则告诉我们：1）改变（或对）一个机制P(si|PAi)不会改变其他机制P(sj|PAj)，i≠j[49]（PAi表示si在因果图中的父节点，可以视为si包含的因果信息，因为S已经是根节点），2）了解其他一些机制P(si|PAi)不会给我们关于机制P(sj|PAj)的信息[17]。因此，我们可以将因果因素的联合分布分解为条件分布形式𝒓𝒊𝒐𝒓𝒊𝒂෤𝒓𝒊𝒐෤𝒓𝒊𝒂𝐶𝑖𝑗 =< ǁ𝑟𝑖𝑜, ǁ𝑟𝑗𝑎>ǁ𝑟𝑖𝑜ǁ𝑟𝑗𝑎ℒ𝐹𝐴𝐶 =⊗𝑟𝑖,1𝑜𝑟𝑖,2𝑜𝑟𝑖,3𝑜𝑟𝑖,4𝑜𝑟𝑖,5𝑜𝑟𝑖,1𝑎𝑟𝑖,2𝑎𝑟𝑖,3𝑎𝑟𝑖,4𝑎𝑟𝑖,5𝑎𝐶ℒ𝑐𝑙𝑠sup𝐼P s1, s2, . . . , sN=80490◆ 相关矩阵：0◆ 因素分解损失：01 2 � − � �0因素分解0模块0� ��0正样本负样本0� ��0对抗性遮罩0模块0运行0遮罩器0sup inf0inf0原始图像0增强图像0图3.CIRL框架。我们首先通过因果干预模块对非因果因素进行干预，生成增强图像。原始图像和增强图像的表示都被发送到因素分解模块，该模块通过施加因素分解损失来强制表示与非因果因素分离并联合独立。最后，对抗性遮罩模块在生成器和遮罩器之间进行对抗，使表示对于分类具有因果充分性。0因此，我们强调因果因素 S 应满足基于共同原因原则（原则 1）中因果变量定义和因果机制的本质（原则 2 ）的三个基本属性：0i = 1 P ( s i | PA i ) , (3)0因此，我们强调因果因素 S 应满足基于共同原因原则（原则1 ）中因果变量定义和因果机制的本质（原则 2）的三个基本属性：0• 因果因素 S 应该与非因果因素 U 分离，即 S �U。因此，对 U 进行干预不会对 S 产生变化。0• 因素分解 s 1 , s 2 , . . . , s N应该是联合独立的，其中没有一个蕴含其他因素的信息。0• 因果因素 S 应该对分类任务 X → Y具有因果充分性，即包含能够解释所有统计依赖关系的信息。0因此，我们不直接重构因果因素，而是提出了一种替代方法，通过强制因果表示具有与因果因素相同的属性来学习。我们将在第3.2节中详细解释。03.2. 因果启发式表示学习0在本节中，我们介绍了受上述因果性启发的提出的表示学习算法，它由三个模块组成：因果干预模块、因果因素分解模块和对抗性遮罩模块。整个框架如图3所示。03.2.1 因果干预模块0我们首先通过因果干预将因果因素 S 与非因果因素 U的混合物分离。具体而言，尽管一般情况下方程（2）中的因果因素提取器 g(�)的显式形式是未知的，但我们有先验知识，即因果因素 S应对 U 的干预保持不变，即 P(S |do(U))。然而在DG文献中，我们知道一些与领域相关的信息无法确定输入的类别，这些信息可以被视为非因果因素，并通过一些技术[63, 65,66]进行捕捉。例如，傅里叶变换具有一个众所周知的特性：傅里叶频谱的相位分量保留了原始信号的高级语义，而幅度分量包含了低级统计信息[38,44]。因此，我们通过扰乱幅度信息并保持相位信息不变来对U 进行干预，如[63]所做。形式上，给定原始输入图像x_o，其傅里叶变换可以表示为：0F(x o) = A(x o) × e^(-j × P(x o))，（4）0其中A(x o)，P(xo)分别表示幅度和相位分量。傅里叶变换F(�)及其逆变换F^(-1)(�)可以有效地使用FFT算法[37]计算。然后，我们通过在原始图像x o和图像(x')o的幅度谱之间线性插值来扰动幅度信息：0从任意源域0ˆ A(x o) = (1 - λ)A(x o) + λA((x') o)，（5）Lcls = ℓ ˆh ˆg xo, y + ℓ ˆh ˆg xa, y(11)m = Gumbel-Softmax ˆw r , κN∈ RN,(12)Lsupcls =ℓ(ˆh1(ro ⊙ mo), y) + ℓ(ˆh1(ra ⊙ ma), y),Linfcls =ℓ ˆh2 ro ⊙ 1 − mo, y + ℓ ˆh2 ra ⊙ 1 − ma, y ,(13)80500其中λ�U(0，η)，η控制扰动的强度。然后，我们将扰动的幅度谱与原始相位分量相结合，通过逆傅里叶变换生成增强图像xa：0F(x a) = ˆ A(x o) × e^(-j × P(x o))，xa = F^(-1)(F(xa))，（6）0将由CNN模型实现的表示生成器表示为ˆ g(�)，表示为r = ˆg(x)∈R1×N，其中N是维度的数量。为了模拟在U上干预不变的因果因素，我们优化ˆg以使表示在上述干预下保持维度不变：0max ˆg 1 N0i = 1 COR(˜ r o i，˜ r a i)，（7）0其中˜ r o i和˜ r a i分别表示R o = [(r o 1)T，...，(r oB)T]T∈RB×N和R a = [(r a 1)T，...，(r aB)T]T的第i列的Z-score归一化，B∈Z+是批量大小，r o i =ˆ g(x o i)和r a i = ˆ g(x ai)对于i∈{1，...，B}。我们利用一个COR函数来衡量干预前后表示的相关性。因此，我们可以通过使它们与U不相关来实现用表示R模拟因果因素S的第一步。03.2.2因果因素分解模块0正如我们在第3.1节中提出的，因果因素s1，s2，...，sN的分解应该在彼此之间是联合独立的，即它们中的任何一个都不包含其他因素的信息。因此，我们打算使得表示的任意两个维度彼此独立：0min 0N（N-1）∑0i ≠ j COR(˜ r o i，˜ r a j)，i ≠j，（8）0请注意，为了节省计算成本，我们省略了R o或Ra内的约束条件。为了统一公式（7）和公式（8）的优化目标，我们构建了一个相关矩阵C：0C ij = a j>0∥ ˜ r o i ∥∥ ˜ r a j ∥，i，j ∈1，2，...，N，（9）0其中<�>表示内积运算。因此，R o和Ra的相同维度可以作为需要最大化相关性的正对，而不同的维度可以作为需要最小化相关性的负对。基于此，我们设计了一个因子化损失L F ac，可以表示如下：0L F ac =102∥C - I∥2F，（10）0备注1.在公式（10）中的目标可以使得相关矩阵C的对角元素近似为1，这意味着在干预之前和之后的表示之间0干预对非因果因素是不变的。这表明我们可以有效地将因果因素与非因果因素的混合物分离开来。此外，它还使得C的非对角元素接近于0，即强制表示的维度是联合独立的。因此，通过最小化L Fac，我们可以将嘈杂和相关的表示转化为干净且独立的表示，满足理想因果因素的前两个属性。03.2.3 对抗性Mask模块0为了在分类任务 X − → Y上取得成功，表示应该具有因果充分性，包含所有支持信息。最直接的方法是利用多个源域中的监督标签 y：0其中 ˆ h是分类器。然而，这种直接的方法不能保证我们学到的表示的每个维度都是重要的，即包含足够的潜在因果信息用于分类。具体来说，可能存在较差的维度，它们包含相对较少的因果信息，对分类的贡献较小。因此，我们提出检测这些维度并强制它们做出更多贡献。由于维度还需要在因果分解模块的帮助下共同独立，检测到的较差维度被赋予更多和新颖的因果信息，这些信息不包含在其他维度中，使得整个表示具有更多的因果充分性。因此，为了检测较差的维度，我们设计了一个对抗性Mask模块。我们构建了一个基于神经网络的masker，记为 ˆw，用于学习每个维度的贡献，而与最大的 κ ∈ ( 0 , 1 )比例对应的维度被视为优秀维度，其余的被视为较差维度：0这里我们使用常用的可微Gumbel-Softmax技巧[16]来采样一个接近于 1 的具有 κN个值的mask。技巧的详细信息请参考补充材料。通过将学习到的表示乘以获得的mask m 和 1 −m，我们可以得到表示的优秀和较差维度，分别输入到两个不同的分类器 ˆ h 1 ，ˆ h 2。方程（11）可以重写为：0通过最小化 L sup cls 和最大化 L inf cls来优化masker，通过最小化两个监督损失来优化生成器 ˆ g和分类器 ˆ h 1 ，ˆ h 2。80510备注2.提出的对抗性Mask模块可以精确地检测较差的维度，因为1）对于一个优化的 ˆ h 2 来最小化基于现有mask维度的 Linf cls，学习 m 来选择维度以最大化 L inf cls可以找到贡献较小的较差维度，2）优秀和较差的维度集合互补，如果一个维度不被视为优秀，则会被视为较差，因此选择优秀维度将有助于选择较差维度。此外，与仅优化方程（11）相比，对抗性Mask模块与我们的因果分解模块相结合可以帮助生成更具因果充分性的表示，因为通过优化 ˆ g来同时最小化 L inf cls 和 L Fac，强制较差维度携带更多的因果信息，并与现有的优秀维度独立。最后，通过迭代地“替换”较差表示为新的优秀表示，学到的表示将接近因果充分。为了清楚起见，我们提出的CIRL的整体优化目标总结如下：0最小化 L sup cls 和 L infcls，同时最小化两个监督损失来优化masker，最小化生成器 ˆ g 和分类器 ˆ h 1，ˆ h 2。0这里 τ 是权衡参数。请注意，在推理过程中，整个表示 r和分类器 ˆ h 1 被使用。0备注3.注意特征维度的数量对结果的影响可以忽略不计。通过三个模块的合作优化，整个表示中包含的因果信息总量将增加，直到学习到的表示能够解释输入和标签之间的所有统计依赖关系，而不管特征维度如何。实验分析在补充材料中提供，验证了我们的论证。04. 实验04.1. 数据集0Digits-DG [64]包括四个数字领域，包括MNIST[18]，MNIST-M [7]，SVHN [36]和SYN[7]，它们在字体风格、背景和笔画颜色方面存在显著差异。按照[64]的方法，我们随机选择每个领域每类600个图像，然后将80%的数据用于训练，20%的数据用于验证。PACS[20]是专门针对DG提出的，包含来自四个领域（Art-Painting，Cartoon，Photo和Sketch）的9,991个图像，具有较大的风格差异。在每个领域中，有7个类别：狗、大象、长颈鹿、吉他、房子、马和人。为了公平比较，使用[20]提供的原始训练-验证划分。Of�ce-Home[58]是一个在办公室和家庭环境中进行对象识别的数据集，收集了15,500个图像，涵盖65个类别。这65个类别由四个领域（Art，Clipart，Product和Real-World）共享，它们之间存在差异。0表1.Digits-DG上的留一领域结果。最佳和次佳结果分别用粗体和下划线表示。0方法 MNIST MNIST-M SVHN SYN 平均0DeepAll [64] 95.8 58.8 61.7 78.6 73.7 Jigen [4] 96.561.4 63.7 74.0 73.9 CCSA [34] 95.2 58.2 65.5 79.1 74.5MMD-AAE [22] 96.5 58.4 65.0 78.4 74.6 CrossGrad[53] 96.7 61.1 65.3 80.2 75.8 DDAIG [64] 96.6 64.1 68.681.0 77.6 L2A-OT [65] 96.7 63.9 68.6 83.2 78.1 FACT[63] 97.9 65.6 72.4 90.3 81.50CIRL（我们的方法）96.08 69.87 76.17 87.68 82.50按照[63]的方法，每个领域被分为90%用于训练和10%用于验证。04.2. 实现细节0按照常用的留一领域协议[20]，我们将一个领域指定为未见目标领域进行评估，并使用其余领域进行训练。对于Digits-DG，所有图像都被调整为32×32，我们使用小批量SGD优化器从头开始训练网络，批量大小为128，动量为0.9，权重衰减为5e-4，训练50个时期。学习率在每20个时期衰减0.1。至于PACS和Of�ce-Home，所有图像都被调整为224×224。网络从头开始使用小批量SGD进行训练，批量大小为16，动量为0.9，权重衰减为5e-4，训练50个时期，学习率在总时期的80%处衰减0.1。对于超参数κ和τ，根据源验证集的结果选择它们的值，因为目标领域在训练过程中是未见的。具体而言，我们将Digits-DG和PACS的κ设置为60%，Of�ce-Home的κ设置为80%。Digits-DG的τ设置为2，其他领域的τ设置为5。所有结果都是基于三次重复运行的平均准确率报告的。更多细节请参见补充材料。04.3. 实验结果0在Digits-DG上的结果在表1中呈现，CIRL在平均准确率方面击败了所有比较的基线模型。值得注意的是，CIRL在超过CCSA [34]和MMD-AAE[22]的基础上分别大幅超过了8.0%和7.9%，这表明挖掘数据和标签之间的内在因果机制的重要性，而不是表面的统计依赖关系。此外，我们还将CIRL与FACT[63]进行了比较，因为我们的因果干预模块采用了相同的增强技术。值得一提的是，FACT是DG社区中非常先进的方法，1.0%的性能提升是具有挑战性的。而CIRL在FACT的基础上实现了1.0%的改进，进一步验证了我们方法的有效性。DeepAll [64]77.6376.7795.8569.5079.94MetaReg [2]83.7077.2095.5070.3081.70JiGen [4]79.4275.2596.0371.3580.51DDAIG [64]84.2078.1095.3074.7083.10CSD [45]78.9075.8094.1076.7081.40MASF [6]80.2977.1794.9971.6981.04L2A-OT [65]83.3078.2096.2073.6082.80EISNet [60]81.8976.4495.9374.3382.15MatchDG [32]81.3280.7096.5379.7284.56RSC [14]83.4380.3195.9980.8585.15FACT [63]85.9079.3596.6180.8885.69DeepAll [64]84.9476.9897.6476.7584.08MetaReg [2]87.2079.2097.6070.3083.60MASF [6]82.8980.4995.0172.2982.67EISNet [60]86.6481.5397.1178.0785.84MatchDG [32]85.6182.1297.9478.7686.11FACT [63]90.8983.6597.7886.1789.62eDeepAll [64]57.8852.7273.5074.8064.72CCSA [34]59.9049.9074.1075.7064.90MMD-AAE [22]56.5047.3072.1074.8062.70CrossGrad [53]58.4049.4073.9075.8064.40DDAIG [64]59.2052.3074.6076.0065.50L2A-OT [65]60.6050.1074.8077.0065.60Jigen [4]53.0447.5171.4772.7961.20RSC [14]58.4247.9071.6374.5463.12FACT [63]60.3454.8574.4876.5566.5680520表2. 在PACS数据集上进行一对一领域排除实验结果（使用ResNet-18）。0方法艺术卡通照片素描平均0CIRL（我们的方法）86.08 80.59 95.93 82.67 86.320表3. 在PACS数据集上进行一对一领域排除实验结果（使用ResNet-50）。0方法艺术卡通照片素描平均0CIRL（我们的方法）90.67 84.30 97.84 87.68 90.120表4. 在Office-Home数据集上进行一对一领域排除实验结果。0方法艺术图片商品真实平均0CIRL（我们的方法）61.48 55.28 75.06 76.64 67.120基于ResNet-18和ResNet-50的PACS结果分别在表2和表3中报告。可以观察到，CIRL在两种骨干网络上都取得了最高的平均准确率。具体来说，与引入因果关系的MatchDG [32]相比，CIRL在ResNet-18上的准确率提高了1.76％，在ResNet-50上提高了4.01％。这是因为CIRL基于更理论的公式明确地学习因果表示，而不是以隐式方式学习。虽然CIRL在某些任务上表现相对较差，这可能是因为任务在性能上已经相当饱和，例如照片任务，或者由于图像质量不佳，如包含损坏因果信息的噪声样本。然而，我们在这些任务上仍然取得了第二好的成绩，并且整体表现优于其他方法。总的来说，令人鼓舞的结果证明了CIRL在因果重建技术方面的优越性。0表5. CIRL在PACS数据集上的消融研究结果（使用ResNet-18）。0方法 CInt.CFac.AdvM. 艺术卡通照片素描平均0变体1 � - - 85.99 78.67 95.81 79.49 84.99 变体2 - � - 80.5278.75 94.37 78.57 83.05 变体3 � � - 84.23 79.44 95.51 82.5485.43 变体4 - � � 82.18 79.69 95.99 80.68 84.64 CIRL � � �86.08 80.59 95.93 82.67 86.320基于ResNet-18的Of�ce-Home结果总结在表4中。更多类别和样本数量使Of�ce-Home成为比PACS更具挑战性的基准。在这个具有挑战性的基准上，CIRL仍然取得了67.12％的最佳平均性能，超过FACT [ 63 ]0.56％。这些改进进一步证明了CIRL的有效性。04.4. 分析实验0消融研究。我们讨论了CIRL中因果干预（CInt.）模块、因果分解（CFac.）模块和对抗性掩码（AdvM.）模块的影响。表5展示了在PACS数据集上使用ResNet-18作为骨干网络的CIRL不同变体的结果。将变体1和变体2与变体3进行比较，我们可以观察到仅将表示与非因果因素分离或使维度独立对于良好建模因果因素是不足够的，结合CInt.和CFac.模块的性能要好得多。此外，变体4相对于变体2的改进表明AdvM.模块有助于将更多信息整合到用于分类的表示中。最后，CIRL表现最佳，表明这三个模块相互补充和促进，没有一个模块是优越泛化能力不可或缺的。视觉解释。为了验证CIRL学习到的表示可以模拟因果因素的主张，我们使用[ 52]中的可视化技术提供了基线（即DeepAll）和CIRL方法的最后一个卷积层的注意力图。结果如图4所示。我们可以看到，与基线方法相比，CIRL学习到的表示与类别更相关。以长颈鹿为例，其长颈可以被视为分类的一个因果因素，CIRL能够准确捕捉到这一点。而基线则关注非因果因素（例如，纹理类似于鬃毛），导致错误分类。补充材料中提供了更多的可视化结果。因果表示的独立性。图5a0图5a和5b显示了任务Sketch上表示维度之间的独立度。具体而言，我们使用∥ C ∥ 2 F − ∥ diag ( C )∥ 22作为度量，较小的值表示更好的独立度，其中C是第3.2.2节中的相关矩阵。可以明显看到，在ResNet-18和ResNet-50上，基准方法的独立度较差。01020304050epoch0.000.020.040.060.080.10IndependenceBaselineFACTMatchDGCIRL01020304050epoch0.000.020.040.060.080.100.12IndependenceBaselineFACTMatchDGCIRL1.02.03.05.010.00.50.60.70.80.9Accuracy(%)6568707275788082858081828384851.02.03.05.010.00.50.60.70.80.9Accuracy(%)60657075808590848688909280530狗大象长颈鹿吉他马房子人真实标签0基准0预测0预测0马0狗0人 �0� � � � � � �0图4. PACS数据集上最后一个卷积层的注意力图可视化，以Art-Painting作为未见目标域。0(a) ResNet-18。0(b) ResNet-50。0(c) ResNet-18。0(d) ResNet-50。0图5.(a)和(b)是独立度，(c)和(d)是CIRL对超参数τ和κ的敏感性。所有结果都在PACS数据集上进行，以Sketch作为未见目标域。0表6.PACS数据集上不同方法的表示重要性比较。[Std.表示标准差。]0方法平均值标准差0DeepAll [64] 3.10 0.25FACT [63] 3.12 0.28MatchDG [32] 3.17 0.19CIRL (我们的方法) 3.22 0.090而CIRL的独立性随着训练轮数的增加而增加，并最终稳定地达到高度。结果证明了我们设计的因果分解模块的有效性，使得我们学到的表示可以作为因果因素的模拟。表示重要性。理想情况下，我们希望表示的每个维度都很重要，涉及尽可能多且有益的因果信息，使得整个表示对于分类来说具有因果充分性。受[11]的启发，我们利用权重来估计分类器的第一层中每个表示维度的重要性。0对于分类器的第一层，估计每个表示维度的重要性。请注意，我们对每个维度的权重进行归一化处理，即 ( x − min )/(max − min)，以处理尺度问题。我们在表6中显示了所有维度的重要性的均值和标准差，因为维度的数量很大。可以观察到，MatchDG[32]和CIRL的表示重要性更高，因为它们将真正影响分类的因果信息嵌入到表示中。此外，CIRL实现的最高均值和最低标准差表明，我们学习到的表示的每个维度都很重要，进一步显示了CIRL的优越性。参数敏感性。图5c和5d显示了CIRL对超参数τ和κ的敏感性。具体而言，τ的值变化范围为{1.0,2.0, 3.0, 5.0, 10.0}，而κ的变化范围为{0.5, 0.6, 0.7, 0.8,0.9}。可以观察到，CIRL在广泛的超参数值范围内（即5.0 ≤τ ≤ 10.0和0.5 ≤ κ ≤0.6）下，无论是使用ResNet-18还是ResNet-50作为骨干网络，都能稳健地实现竞争性能，进一步验证了我们方法的稳定性。05. 结论0本文指出了统计知识的不足，并提出了DG的因果视角。主要思想是重建因果因素并挖掘内在的因果机制。然后，我们提出了一个名为CIRL的框架，用于学习能够模拟因果因素的因果表示，基于我们强调的理想属性。全面的实验证明了CIRL的有效性和优越性。考虑到相关工作的主流通常基于变量之间的统计依赖关系，我们希望我们的工作能为社区带来一些启示。0致谢. 本工作得到了中国国家自然科学基金的支持,合同号U21A20519和61902028.80540参考文献0[1] Martín Arjovsky, Léon Bottou, Ishaan Gulrajani,and David Lopez-Paz. 不变风险最小化. CoRR,abs/1907.02893, 2019. 30[2] Yogesh Balaji, Swami Sankaranarayanan, a

下载后可阅读完整内容，剩余1页未读，立即下载