视觉表示的鲁棒性与非鲁棒性[VisualRepresentation:RobustnessvsNon-Robustness]

183 浏览量更新于2023-10-25 收藏 1.36MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7521视觉识别毛成志1*夏凯文1*王俊峰1王昊2杨俊峰1EliasBareinboim1卡尔·冯德里克11哥伦比亚大学2罗格斯大学{mcz，kevinmxia，jlw2247，junfeng，eb，vondrick} @ cs.columbia.edu，hoguewang@gmail.com摘要视觉表示是对象识别任务的基础，但它们通常包含鲁棒和非鲁棒特征。我们的主要观察结果是，图像分类器在分布外的样本上可能表现不佳，因为非鲁棒特征和标签之间的虚假相关性可以在新的环境中改变。通过分析程序的分布外的推广与因果图，我们表明，标准分类失败，因为图像和标签之间的关联是不跨设置传输。然而，我们发现，因果效应，切断所有来源的混淆，保持不变的跨域。这促使我们开发一种算法来估计图像分类的因果效应，这是可移植的（即，不变）。在不观察其他变量的情况下，我们证明了我们可以在经验假设下使用深度模型中的表示作为代理来推导因果效应的被估量。理论分析，实证结果和可视化表明，我们的方法捕捉因果方差和提高整体泛化。1. 介绍视觉表示是当今大多数对象识别系统的基础[17，18，31，46]。通过从大型图像数据集学习，卷积网络已经能够创建出色的视觉表示，从而改善许多下游图像分类任务[17，18，33]。然而，该框架的中心是需要在推理时推广到新的视觉分布[2，3，6，12，22，26，44，47，61]。使用表示的最流行的技术是微调主干模型或在目标分类任务上拟合线性模型[31]。虽然这种方法在分布基准上是考虑到数据收集的性质，基本上每个现实的*同等贡献。图像数据集会具有虚假特征，这将影响计算机视觉系统的泛化具体而言，学习的表示将编码与训练数据中发现的虚假相关性相对应的特征。在本文中，我们通过因果关系[7，42，43]的镜头研究了物体识别具体来说，我们将通过 cathet-transmittability语言[9，11，19]重新审视分布外图像分类任务，这将使我们能够正式建模跨不同环境共享的混淆和结构不变性。在我们的上下文中，我们将展示不同的环境如何在构建输入数据集时选择一组不同的鲁棒和非鲁棒特征。训练环境可能倾向于选择具有给定类别的特定干扰，从而在干扰和预测类之间创建虚假相关。事实上，标准的分类器往往会使用这些虚假的相关性，这在分析上解释了为什么它们会导致对新目标分布的泛化性能较差[25，49，55]。首先，我们将表明，图像和标签之间的关联是不可推广的（在因果语言中，trans-portable）跨域。然后，我们注意到，从输入到输出的因果效应，切断任何虚假的相关性，是不变的，当环境变化的特征这促使我们追求一种图像分类策略，该策略将利用因果效应，而不仅仅是关联，并且将充当锚，在变化的条件下提供稳定性，并允许外推更有可能成功。获得自然图像的因果效应是具有挑战性的，因为在现实数据中存在无数未观察到的在一些相对温和的假设下，我们将能够通过因果和深层表征从观测数据中提取稳健特征[8，14，20，34对于监督和自我监督表示，我们的实验结果表明，纳入因果结构提高了性能时，推广到新的7522UxyUxXY||联系我们⟨域. 我们的方法与许多现有的代表兼容与使用表示的标准技术相比，我们的因果激励方法可以在CM-NIST（高达 40% 的增益）， WaterBird （高达 25% 的增益），ImageNet-Sketch（高达8%的增益）和ImageNet-Rendition（高达7%）数据集上获得显着的增益。我们的工作说明了因果量在分布外图像分类中的重要性，并提出了一种有效的经验方法，该方法允许学习对域变化具有鲁棒性的分类器。我们的代码可以在https://github.com/cvlab- columbia/CT 4Recognition上找到。2. 相关工作因果推理和可移植性理论。因果推理为建模结构不变性[42]以及跨环境和变化条件的一般化或运输问题[8-11，14，19，20，36，48]提供了一个原则性框架一些图像生成工作已经对图像及其标签之间的因果关系进行了建模，通常假设标签正在生成图像[24，48]，并且一些先前的工作研究了因果关系与特定类型的概括之间的联系[4，37，38，58]。我们的工作是研究识别，并有目的地反向研究这一方向，因为我们认为图像是通过人类标记过程产生标签的;该模型在第2节中详细介绍。3.为了估计任意的因果效应，可以构建一个代理因果神经模型[56]，但在本文中，我们专注于直接计算和优化特定的因果被估量。现有的研究通常假设人们可以干预数据[29，38]或观察潜在的混杂因素[29，59]。这些假设对于自然图像通常过于乐观，因为图像数据是被动的（防止干预），并且不允许我们观察其他混淆因素。在 Vision 中的推广。有两种主要类型的域泛化（DG）：多源DG和单源DG。已经研究了多源域泛化[1，4，13，32，53，60]，其中算法知道数据点从中采样的域索引已经提出了大量的方法来学习分类器，这些分类器可以推广到分布外和新环境[2，6，25，44，55，61]。然而，在实践中，例如从互联网收集具有准确域标签的图像通常具有挑战性。单域泛化[24]不需要域索引假设，其中所有训练数据都假定从同一域采样。然而，由于缺乏领域信息，这种设置下的领域泛化更具挑战性。现有的工作通过自我监督学习[15]，预测分布转移[45]，创建伪域分裂来因果图观测分布火车测试Ux水背景土地背景Uxy水鸟陆地鸟陆地鸟水鸟S图1.分布外图像分类的因果关系图（左上）。图像X是由滋扰特征UX（左下）和概念特征UXY（右下）构造的。标签Y由X和UXY创建。可运输性节点S指向域之间具有变化的节点，其中X在训练期间（S = 0）将“水鸟”与“水背景”组合，并且在测试时（S=1）将“水鸟”与“陆地背景”组合（右上）。[40]对抗性自我挑战[27]和生成数据增强[38]。最近，注意力操作也被证明对提高鲁棒性是有效的[21，39，41]。然而，一个原则性的框架建模泛化到新的环境仍然是失踪。3. 问题公式化我们首先将图像识别问题建立在因果框架中，以说明与分布内对应物相比，分布外泛化的关键挑战。3.1. 分类任务的结构建模令对X，Y表示与图像及其标签相关的随机变量，并且x，y表示像素和标签的特定实例给定输入图像X = x，图像分类任务的目标是预测其标签Y = y。采用概率解释，标准策略是训练模型学习P（Y X）给定数据点X=x和Y=y，然后在推理时通过argmaxyP（Y=y X= x）选择一个类。我们将在这里采取因果方法，并使用因果语义学对X和Y的底层生成过程进行建模。具体来说，我们将使用一类生成过程，称为结构因果模型（SCM，简称）[42，CH。7]。每个SCMM编码4元组 V=X，Y，U=U X，U XY，=fX，fY，P（U），其中V 是观测变量的集合，在本例中，是图像（X）及其标签（Y）;U表示未观察到的变量，其编码图像和标签本身中未捕获的外部变化源（更多细节随后）;F是机制集合{fX，fY}，其确定X和Y的生成过程，使得X←fX（UX，UXY）7523==←F|||→→|̸||P*（Y| X）=因果+杂散Y fY（X，UXY）;P（U）表示未观测变量的概率特别地，我们称UXY为数据属性3P（Y|do（X））表示产生图像x中对象的核心特征及其标签y的所有潜在因素。例如，U XY = u XY的一个实例化可以对“鳍状肢”和“翅膀”的概念进行编码，当传递到fX中时，这些概念被翻译成“水鸟”的图像。UX表示影响图像生成过程的干扰因素，如背景。同样地，fY可以表示标记图像x的某人，并且将通过uXY对水鸟有概念上的理解。一个自然的，但关键的观察是，如果f X选择颜色“脚蹼”和背景“水”更有可能在一起，这两个概念之间将有很强的关联，给定的图像。总之，P（U XY，U X）上的底层分布与函数f X和f Y相结合，诱导出P（X，Y）上的分布，这就是数据的生成方式。SCMM几乎是不可解的，并且一般来说，在形式意义上，不可能仅从观测数据（ P（V））恢复结构函数（）和外生变量（P（U））的概率[7，Thm。1]中。3.2. 建模输入与通过可运输性实现分布外推广当训练用于分布内问题的分类器时，训练数据和测试数据都来自相同的域。在分布外的情况下，也称为因果推理文献中的可移植性问题[9，11，19]，训练数据可能来自与测试域ππ不同的域π。我们假设标记过程和底层概念在域之间是一致的（即，f Y和P（UXY）在两种设置中保持相同），但是图像X的生成过程可以改变（即， fX和P X（U X）可以分别不同于f X和P（U X））。一般来说，我们不知道真正的基本机制fX，fX∈和fY，也不能观察到P（UX，U XY）的不可测量的大空间。然而，我们可以通过利用图1所示的图形表示来表示跨域的结构不变性。1.一、跨域π和π的差异通常由称为S [11]的可移植性节点建模，其可以被解释为跨域的交换机;即，如果S = 0，则f X有效，否则fX无效。具体地说，考虑两类不同的鸟类，水鸟和陆鸟，我们要区分它们。这两种鸟类类别都有自己的基本特征U XY，这使得注释者将它们标记为水鸟或陆鸟。然而，虽然水鸟通常在源域（S = 0）中生成的图像中与水背景配对，但该因子在目标域（S = 1）中可能会改变，其中水鸟现在通常在陆地背景中示出。号提案1 Prop. 2P*（Y|do（X））图2.可视化比较域π和π之间的量。Prop. 1表明P（Y|X），它包含因果和虚假信息，不匹配P（Y|X）。Prop. 2表明因果效应在不同设置之间是不变的，即， P（Y |do（X））=P（Y|do（X））。然而，Prop。图3表明，与P（Y|X）、P（Y|do（X））不能从π-数据中识别。在分布式情况下，更传统的学习策略P（Y X）是合乎逻辑的，因为它利用所有可能的信息来最大化预测正确标签的机会。然而，考虑到数据生成过程的建模方式，很容易看出为什么同样的策略在分布外的情况下失败了。由于只给出了域π的数据，因此我们只能在P （ Y ）上训练模型 |X ），它不能充分模拟 P*（Y|X）。1.提案设M和M是表示源域和目标域的两个底层SCM，π和π，并且与图2中因果图中表示的假设兼容。1.然后，P*（Y|X）P（Y|X）。换句话说，用π表示的量P（Y X）所代表的分类器不能跨设置传输，不能用于对P（Y X）进行陈述，即使除了X（fX）的机制之外的所有东西都保持不变（包括标签fY）。直觉上，这是由于X和Y之间通过UXY的未观察到的混杂或虚假效应。通过对X的调节，变量Y和S通过穿过U XY的路径变成d-连通的，即P（YX，S=0）= P（YX，S=1）。这结果也被图示在图中。二、除了杂散效应之外，由于直接链接X，X和Y仍然协变Y. 换句话说，标记过程可以看作是将未观察到的协变通过Uxy移动到观察到的链接XY。这些变化被称为X对Y的因果效应。直觉上，人们可以认为因果效应P（Ydo（X））描述了可以认为指向X的箭头被移除的介入世界。这包括S节点，当X被强制取某个值时，S节点不再对X产生影响，比如x。这是有希望的，因为如果一个量不受S的影响，这意味着它是跨域不变的。如下面所示，这确实是 P （ Y ）的情况 |do（X））。第二个提案。设M和M是表示源域和目标域的两个底层SCM，π和π，并且P（Y|X）=因果关系+ 杂散域名注册（培训）域名注册 *（测试）=7524UxUxyXWZYR||||||∼|||||||与图中的因果图兼容。1. 然后，P*（Y |Sdo（X））=P（Y|do（X））。在不改变fX射线衍射机制的情况下，和P（UX），保证X对Y的因果效应在π和π之间保持不变。在因果语言中，P*（Y|do（X））可跨设置传输。3.3. 辨识性考虑到因果效应在各个领域都是不变的，我们考虑使用P（Ydo（X））作为P（Y X）的替代品用于分类目的（分布外），而不是在源中训练的分类器P（Y X）。这就留下了如何识别（然后估计）给定观测数据P（X，Y）的这个量的问题。不幸的是，这在一般情况下仍然是不可能的。3号提案设M是表示域π的SCM，并通过图1中的因果图G进行描述。介入分布P（Ydo（X））无法从G和观测分布P（X，Y）中识别。换句话说，不可识别性表明存在与P（X，Y）一致并且产生不同分布P（Ydo（X））的多个SCM。这意味着P（X，Y）在某种意义上太弱了，并且它太不明确，以至于不能推导出P（Ydo（X））。需要额外的假设来识别（然后估计）这种因果效应。事实上，一些先前的工作已经假设可以观察到所有后门变量[42，Sec.3.3.1]，这意味着最初在未观察到的混杂因素Uxy中表示的所有变化在某种意义上都被模型捕获。当额外的域索引信息可用时（例如图像的样式），诸如KNN [4]，MLLD [40]和DANN [1]的现有作品已经对域索引执行了类似调整的操作。在大多数只包含图像及其标签的图像数据集中，所有后门变量（和协变源）都是可观测的假设过于严格。即使当附加数据可用时，这样的数据也不可能包含由概念向量封装的我们现在的目标是在不知道后门变量的情况下确定X对Y4. 因果估计量根据前面的理解，P（Ydo（X））是目标域中分类器的合适代理，P_（Y X），我们在本节中讨论允许我们估计这样的量的充分假设。此外，我们讨论的方法，可以让这些假设在图像识别的背景下的实际可实现性。图3.图像X和表示R。灰色节点表示观察到的变量。为了实现目标因果效应估计的目的，我们建立了两个神经网络模型：P_（RX ），其从图像X和P（Y）生成视觉表示RR，X），其使用R和X两者来分类Y。我们对结构做出以下假设：图像X和这些网络的属性：假设1（分解）。每个图像X可以被分解成因果因子Z和伪因子W（即， X =（Z，W）），并且生成过程遵循图1中的因果图。3.第三章。人们可能会怀疑这是一个天真的假设，但它确实对生殖过程提出了强有力的主张。解释是W包含图像的所有较低级别信号或块，其可能包含与Y混淆的概念。另一方面，Z将这些补丁细化为可解释的因子，这是贴标机在视觉上使用的。由于Z是W的直接函数，因此这些因素不会混淆。例如，W可能包括各种信息，如水中的蓝色斑块或羽毛的纹理，Z将所有这些信号细化为诸如“水鸟形状”的因素，然后由贴标机使用该因素虽然这一假设可能不是在所有的设置都是真的，我们相信，许多实际的，图像设置可以近似这个假设。假设2（充分代表性）。神经反应RP（RZ，W）已经了解到，它们不会丢失信息。Z.换句话说，对于分别来自P（Rz1，w1）和P（Rz2，w2）的两个样本r 1和r 2，如果z 1 z 2，则r1r2。这是一个更技术性的假设，即神经表征有足够的能力来明确地表示因果因素。如果选择适当的模型，对于P（R|X），我们在第二节中进一步阐述。4.1.假设3（选择性预测）。考虑两个IM-年龄X，x=（z，w）和x′=（z′，w′），神经输出P_（？）设R=r是x 的一个表示，从P_r （R）采样|X）。则P（Y=y|R=r，X=x′）=P（y|z，w′）。7525||L--|P（rx）P（yr，x）P（x）.ΣΣΣ|ΣΣ|||--←||P（r|xP（y|r，x′）P（x′），详细介绍了如何选择具体的建筑设计来建造P型（YR，X），满足这一假设进行了更详细的讨论。四点二。然而在换句话说，假设一旦输入了两个图像x和x′（x以其表示形式r表示），网络将做出相同的预测y，就好像当输入了来自第一图像的因果特征z和来自第二图像的虚假特征w′把所有这些观察结果放在一起，我们现在陈述论文的主要结果之一定理1（因果识别）。鉴于图中因果图中编码的生成过程的说明。3连同假设1、2、3，算法1因果关系-可移植性模型训练1：输入：在（X，Y）上训练集合D。2：阶段1：从以下表达式计算VAE或预训练模型。第三章：第二阶段：4：对于i = l，… K do5：来自联合分布D′=（X，R，Y）的样本xi，ri，yi6：来自与xi相同类别的随机样本x′i7：TrainP（YX′，R）viaminimizingtheclassification通过梯度下降的损失第八章：端9：输出：P型（R）|X）和P（Y|X，R）因果效应可以使用神经表征来计算通过P表示R（Y=y|do（X=x））=R|x′|证据我们首先推导出以下步骤。P（y |do（x））=P（y |do（z，w））假设1=P（y |[42]第四十二章：一个人的世界=P（y |z，w′）P（w′）后门准则w′=P（y |z，w′）P（z′，w′）边缘化z′，w′根据假设2和假设3，最后一个表达式可以重写为=P（y|r，x′=（z′，w′）P（x′）x′其中r是从P（Rx）中采样的。由于假设3适用于R的任何采样值，因此我们可以对R的样本，算法2-可移植性效果评估1：输入：查询x，（X，Y）上的训练分布D，模型P（RX）和P（YX′，R），表示变量R的采样时间NiNj为X′。2：对于i = l，… 我愿意3：riP（rx）4：对于j = l，…N·J·DO5：来自训练分布D的随机样本x′ij。6：计算P（Yx′ij，ri）7：结束第八章：端9：计算因果效应P（y| do（X=x））=iP（ri|x） jP（y|ri，x′ij）P（x′ij）10：输出：类y=a r gmaxyP（y|do（X=x））。从所述第二图像提取所述伪信息wx′，这将通过神经网络的设计来实现。总而言之，定理1允许我们通过1来估计因果效应：P（y）|do（X=x））=P（r|（x）P（y）|r，x′）P（x′）（1）rx′结束证明。为了使用这个公式，我们需要构建神经网络。models to satisfy the three assumptions and properly esti-mate P(X), Pˆ(R|X), and Pˆ(Y |X, R). P（X）项这种推导背后的直觉是，如果图像x可以分解为因果因子（z）和伪因子（w），如图11所示。3，则因果效应在z中被隔离，并且w可以被忽略。通过以W=w’为条件，使用另一个图像，从Z到Y的所有后门路径都被阻挡，这导致可识别的结果（即，而不具有do-terms）。这留下了如何从图像x获得z分量以及从x’获得w’的问题。假设2和假设3以及最后两个假设背后的一般思想的直线，则P∈（YR，X）能够提取来自表示r的所有因果信息z，以及很容易计算，因为我们可以假设从均匀分布中抽样[52]。然而，其他术语需要更仔细的构造，以便满足上述假设，这些假设将在以下部分中讨论[1]有趣的是，这个表达式的推导有点类似于著名的识别策略，称为前门标准[42，Sec. 3.3.2]。前门所做的一个关键假设是，存在一个变量M，它充当X和Y之间的（无混杂的）中介。在精神上，我们的深层表征R类似于M。尽管在语法上看起来是这样，但在这里的情况下，变量R并不是一个中介，因为它充当了X和Z的代理。=Rx′7526|||||||E|（一）||消融97.4%百分之三十八点八我们百分之八十二点九百分之五十一点四表1.CMNIST数据集的准确性我们的方法在分布外测试集上将最先进的GenInt [38]方法提高了20%以上4.1. 构造P（R|十）、我们讨论了几类模型，这些模型是在满足假设2的情况下估计P（RX）的有效方法。变分自动编码器（VAE）[30]是一种无监督表示学习方法，其目的是估计可以忠实地生成输入分布的潜在分布R 它最大化X分布的证据下限：L=−D KL（q E（r|x（i））||p θ（r））+Eq（r|x（i））[logpθ（x（i））|r）]，其中E是表2. WaterBird数据集的准确性。我们的因果方法显著地改善了ERM模型的最坏组OOD推广。我们的方法实现了与组不变训练（GDRO），而不需要域索引的性能。OODMoco-v2测试精度SWAVCySimCLR欧洲风险管理[54]百分之十四点五九百分之二十27.73%消融百分之十七点零四20.25%28.44%我们百分之十八点零二百分之二十点四二29.41%表3. Imagenet-9对抗背景的准确性。表示R是从同一实例采样的。在测试期间，图像X可以从任意实例中采样。模型P（Y|R，X）的容量有限。给我VAE。当VAE被优化以重建输入图像时，模型已经学习了关于W的信息，学习通过项EqE（rx（i））[logpθ（xr）]，表示R应该包含来自输入图像的所有因果信息，满足假设2。构造学习是另一种无监督学习方法，它产生的表示可以对齐同一图像的视图，同时分离不同图像的视图。给定足够多的反面例子，对比学习将产生在数据增强下不变的表示，这仍然保持来自输入图像的所有因果信息，也满足假设2。来自更大数据集的预训练模型。从经验上讲，深度神经网络在从大型数据集进行预训练时表现出更好的泛化能力。这表明它们的表示R不会丢弃用于分类的鲁棒特征，并且保持关于Z的信息，满足Assump2。4.2. 构造P（Y|R、X）正确评价Eq. 1，我们还需要估计一个P （YR，X），使得满足假设3。我们讨论了一些神经网络设计来实现这一点。P（YR，X）的模型设计除了表示R之外，我们还使用一袋补丁作为输入，这些补丁从输入图像X二次采样到接受输入X的分支中。一袋图像块破坏了全局形状信息，并且通常包含虚假的局部特征，例如颜色，纹理和背景[39]。在训练期间，图像中的因果特征Z倾向于被读出模型忽略。具体来说，我们有P（Y|RP（R|Z，W），X=（Z，W））=P（Y|RP（R|Z，W），W）。在训练过程中，图像X和图像X的值可以被计算。W 从R再次将不会进一步减少经验损失。因此，模型将从表示R中学习Z，并从表示中忽略W。此外，预训练的表示R，例如来自对比学习的表示，可以降低分类任务[5]上的（标记）样本复杂度，而不是原始图像输入，这允许模型有效地从R学习Z这满足了假设3。通过限制P（YR，X）的容量，该模型趋于使用来自输入图像X的低级特征，使用来自潜在表示R的高级深度特征。传统的基于相关性的方法只使用P（YR），其还可以包括虚假特征，例如作为来自表示R的纹理和背景。在我们的方法中，低级别的虚假特征往往会被模型学习，该模型以输入X为条件，并且模型将在对变量X进行边际化之后丢弃这些特征。4.3. 算法我们在算法1中描述了我们的训练过程。在第一阶段，我们估计P（RX），其中我们使用我们提出的VAE或对比学习来训练表示ing方法，或者我们使用来自预训练的深度模型的表示。在第二阶段，我们训练P（YX，R），其中我们从同一类别中随机采样图像X作为表示R。我们在算法2中描述了我们的推理过程，其中我们推断P（ydo（X=x））。我们首先随机采样R。然后，对于每个R，我们从随机类别中采样图像X。最后，我们通过定理1进行预测。方法域ID火车I.I.DOOD测试配送中精度分布外GDRO*[50]是的百分之一百97.4%百分之七十六点九ERM没有百分之一百97.3%52.0%RSC没有百分之九十二点二百分之九十五点六百分之四十九点七机会10.0%10.0%欧洲风险管理[54]百分之九十九点五8.3%[4]87.3%百分之十八点五7527|算法ERMImageNetRSC引渡消融我们ERMImageNeRSCt草图消融我们Moco-v2百分之二十六点九二26.14%25.96%28.70%17.29%百分之十六点四三14.11%19.09%SWAV31.77%30.47%30.32%33.32%21.51%21.03%17.26%22.48%SimCLR37.82%34.06%35.74%38.25%27.43%百分之十九点二六百分之二十四点九29.51%ResNet50百分之二十五点零二33.34%30.96%32.22%百分之十四点四五22.54%百分之十九点一九22.57%ResNet15230.53%37.86%34.94%36.07%18.53%26.60%24.61%百分之二十七点零七ResNet101-2x31.44%35.50%35.82%36.70%百分之十九点九二26.38%25.07%27.41%表4.在ImageNet-Rendition和ImageNet-Sketch上具有强大的准确性对于基于对比学习的表示，我们的模型比标准ERM和最先进的RSC方法实现了更好的鲁棒性在高级学习表示上，表示可能无法捕获所有因果信息，其中RSC方法在ImageNet Rendition上的两个变体上优于我们。总体而言，我们的方法通过估计表示的因果效应来提高鲁棒性。201816(a) CMNIST，K=10(b) 水鸟，K= 2(c) 再现，K= 1000140 500 1000 1500NJ(d) 草图，K= 1000图4.不同N j个数下的OOD泛化精度。在推理时，通过增加采样更多图像X'的N j，OOD泛化得到改善，因为通过我们的方法可以更好地去除虚假相关性。5. 实验5.1. 数据集CMNIST。我们使用更具挑战性的彩色MNIST数据集设置，其中包含10个类别[38]。函数FX（Ux，Uxy）将组合来自训练域的具有不同背景颜色的数字，创建分布外（OOD）数据集。WaterBird数据集[50]包含两类前景鸟类，水鸟和陆鸟，以及两种类型的背景：水和土地。由于结合前景和背景的机制不同，测试对训练是 OOD 的。 ImageNet-Rendition[25] 有 200 个ImageNet 类的版本，包括艺术，卡通等，这是ImageNet 的 OOD 测试集。 ImageNet-Sketch[55] 包含1000个ImageNet类的草图，这些类在没有纹理和颜色线索的情况下评估分类器 ImageNet-9 BackgroundsChallenge[57]研究了分类器5.2. 基线本文研究了训练样本不含领域指标的分布外测试集的推广问题。我们与以下基线进行比较：ERM[23，54]是训练深度网络分类器的标准方法。GenInt[38]通过引导生成模型来模拟干预来学习因果分类器RSC[28]使用表示自我挑战来改进OOD数据的生成，其中ERM中重要的特征我们还比较了流行的[4]其使用域索引信息。5.3. 实验设置我们构造了一个低容量网络P_（Y_X ′，R），它是在X′的一个分片包上应用3个随机卷积层，将获得的特征与R连接起来，然后使用2层全连通网络来预测Y。除了CMNIST，其中输入是低维的，并且我们不使用卷积层。我们设Nj=256，对于所有实验，Ni=10，并将其表示为Ours。我们我还进行了一个Nj=1和Ni=1的变体，并将其记为消融，其中所有内容都与“我们的”相同但是推理过程是传统的单次前向传递。对于CMNIST和WaterBird数据集，我们选择具有最高验证精度的模型。对于ImageNet- Rendition和ImageNet-Sketch，我们报告了最佳的验证准确性，因为没有可用的验证/测试分割。5.4. 模拟数据集CMNIST。我们的方法使用VAE的潜在表示来构造表示变量。我们在表1中报告了准确度。我们的方法优于包括因果GenInt方法在内的前向方法超过20%。水鸟在之前的工作之后，我们使用来自预先训练的ResNet50的表示。我们训练模型10个epoch。在表2中，在不使用域索引信息的情况下，与ERM相比，我们的因果方法将分布外测试性能提高了25%以上，甚至比使用域索引信息的最先进GDRO [50]方法高出1%ImageNet-9对抗性背景。我们评估我们的模型的鲁棒性测试分布的前地和背景被操纵是不同的762950484644424028.575287427.57327我们72我们我们26.5020406080 100050100150050010001500NJNJNJ我们OOD准确度（%）OOD准确度（%）OOD准确度（%）OOD准确度（%）7528拼图|图像基线杂散我们的图像基线杂散我们的水鸟ImageNet-9引渡草图图5.我们可视化模型用于预测的输入区域。我们使用GradCAM [51]并用红色突出显示模型所依赖的判别区域。白色文本显示模型的预测。基于相关性的ERM方法经常涉及虚假背景上下文。通过边缘化虚假特征（在虚假列中可视化），我们的模型捕获了正确的因果特征，这些特征可以预测正确的事情。从训练分布。在表3中，我们对基于对比损失的自监督学习方法的三种变体进行了实验，包括Moco-v2 [18]，SWAV [16]和SimCLR [17]。总的来说，即使背景发生了变化，我们的方法在前景对象存在时也能表现得更好。5.5. 真实世界分布外概化ImageNet-Rendition和ImageNet-Sketch是ImageNet的两个OOD测试集。我们研究了基于对比损失的自我监督学习方法的表征，包括Simplified，MoCo-v2和SWAV。此外，我们还研究了监督学习的表示，尽管它们可能是不完美的表示。我们在表4中示出了结果。我们的算法估计的因果不变性，这提高了OOD的推广。例外情况是，有监督的训练模型 ResNet50 和ResNet152没有经过对比学习的训练，因此可能会丢失因果信息。5.6. 分析图像采样的重要性我们的方法需要在推理时对随机输入图像x ′进行边缘化。采样更少的x′可以加快推理速度，但代价是不能估计准确的因果效应。在图4中，我们改变样本数N j，并在四个数据集上测试性能。一般来说，我们发现对于K类数据集，使用Nj> K可以显着提高泛化能力。GradCam可视化。使用上一节中导出的标准，我们期望我们的模型能够满足对应于对象的空间区域，而不是虚假上下文。在图5中，我们通过可视化模型使用GradCAM [51]进行分类的区域来验证这一点。我们检查了四个数据集，包括WaterBird ， ImageNet-9 ， ImageNet-Rendition 和ImageNet-Sketch。我们在“基线”列中可视化ERM模型通过边缘化X’来丢弃“虚假”模型中的信息，我们的6. 结论泛化是视觉识别中的一个基本问题本文使用因果可移植性理论重新审视并阐述了分布外分类的问题，因为关联关系不能跨域推广。我们的研究结果表明，在模拟和真实世界的数据集上，分布鲁棒性得到了改善。我们的研究结果表明，将因果知识和工具整合到视觉表征中是提高泛化能力的一个有前途的致谢： CM 、 JW 和 CV 由 DARPA SAIL-ON 和 DARPAGAIL提供部分支持。 CM和JF部分由DiDi Faculty ResearchAward，J. P.摩根学院研究奖，埃森哲研究奖，ONR N 00014-17- 1-2788 和 NSF CNS-1564055 。 EB 和 KX 得到了 NSF 、ONR、Amazon、JP Morgan和The Alfred P的部分支持。斯隆基金会。HW部分由NSF Grant IIS- 2127918和Amazon FacultyResearch Award支持。陆鸟TWaiWletedarbouigzrdel爬行动物昆虫马桶座红狐漫画书尾蛙水鸟陆鸟IN-9中没有爬行动物盐瓶帕格信揭幕战硫-凤头鹦鹉7529引用[1] Hana Ajakan，Pascal Germain，Hugo Larochelle，Franccois Laviolette，and Mario Marchand.领域对抗神经网络。arXiv预印本arXiv：1412.4446，2014年。[2] IsabelaAlbuquerque，JoajueloMonteiro，MohammadDarvishi，Tiago H.福尔克和扬尼斯·米利亚卡斯通过分布匹配推广到未知领域，2020年。[3] Julian Alverio William Luo Christopher Wang Dan Gutfre-und Josh Tenenbaum Andrei Barbu ， David Mayo andBoris Katz. Objectnet：一个大规模的偏差控制数据集，用于推动对象识别模型的极限。InAdvances in NeuralInformation Processing Systems 32，第9448-9458页[4] 马丁 · 阿吉奥 vsky， Le'onBottou ， IshaanGulrajani 和 DavidLopez Paz。不变风险最小化，2020年。[5] Sanjeev Arora 、 Hrishikesh Khandeparkar 、 MikhailKhodak、Orestis Plevrakis和Nikunj Saunshi。对比无监督表示学习的理论arXiv预印本arXiv：1902.09229，2019。[6] 作者： NaderAsadi ， AmirM.Sarfi,MehrdadHosseinzadeh, Zahra Karimpour, and Mahdi Eftekhari.Towards shape biased unsupervised representation learningfor domain generaliza- tion，2020。[7] Elias Bareinboim，Juan D. Correa，Duligur Ibeling，andThomas Icard. 论珀尔计算机协会，美国纽约，第1版，2022年。[8] E. Bareinboim，S.Lee，V.Honavar和J.珍珠在有限的实验条件下可从多种环境中运输。In C. J. C.伯吉斯湖Bottou，M.威林，Z。Ghahramani和K.Q. Weinberger，编辑，《神经信息处理系统进展》，第 136-144页Curran Asso- ciates，Inc.，2013年。[9] E. Bareinboim和J.珍珠判定实验结果可移植性的通用算法Journal of Causal Inference，1（1）：107[10] E. Bareinboim和J.珍珠可从多种环境中运输，实验有限：完整性结果。在Z. Ghahramani，M.威灵角Cortes，N. D. Lawrence和K. Q. Weinberger，编辑，神经信息处理系统进展27，第280Cur-ran Associates，Inc. 2014年[11] Elias Bareinboim和Judea Pearl。因果推理与数据融合问题。美国国家科学院院刊，113（27）：7345[12] Shai Ben-David ， John Blitzer ， Koby Crammer ， AlexKulesza，Fernando Pereira和Jennifer Vaughan。从不同领域学习的理论。Machine Learning，79：151[13] Gilles Blanchard 、 Aniket Anand Deshmukh 、 UrunDogan、Gyemin Lee和Clayton Scott。通过边缘迁移学习进行领域泛化。arXiv预印本arXiv：1711.07910，2017。[14] 彼得·伯曼。方差、因果关系和稳健性，2018年。[15] Fabio Maria Carlucci ， Antonio D'Innocente ， SilviaBucci，Barbara Caputo，and Tatiana Tommasi.通过解决拼图游戏进行领域概括，2019年。[16] Mathilde Caron ， Ishan Misra ， Julien Mairal ， PriyaGoyal，Piotr Bojanowski，and Armand Joulin.无监督学习视觉特

下载后可阅读完整内容，剩余1页未读，立即下载