无偏视觉识别的因果注意：CaaM的应用与效果分析

147 浏览量更新于2023-10-13 收藏 1.79MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

3091稀有环境无偏视觉识别的因果注意谭王1，周昌2，孙倩茹3，张汉旺11南洋理工大学2阿里巴巴集团达摩院3新加坡管理大学TAN317@e.ntu.edu.sg，zhouchang. alibaba-inc.com，qianrusun@smu.edu.sg，hanwangzhang@ntu.edu.sg摘要预测：鸟ResNetResNet + CBAM注意力模块并不总是帮助深度模型学习在任何混淆上下文中稳健的因果特征，例如，前景对象特征对于不同的背景是不变的这是因为混杂因素欺骗注意力来捕获虚假的相关性，当训练和测试数据是IID（相同的独立分布）时，这些相关性有利于预测;而当数据是OOD（分布外）时，这些相关性损害学习因果注意力的唯一基本解决方案是预测：鸟（一）ResNet + CaaM（我们的）7065 605550454035IID设置OOD设置（b）第（1）款因果干预，需要对混杂因素进行额外注释，例如，a“dog” model is learned within “grass+dog”然而，这种注释不仅过于昂贵，而且固有地存在问题，因为混杂因素本质上是难以捉摸的在本文中，我们提出了一个因果注意模块（CaaM），自我注释的混杂因素在无监督的方式。特别地，多个CaaM可以堆叠并集成在常规注意力CNN和自注意力视觉Transformer中。在面向对象设计环境中，使用CaaM的深度模型显著优于不使用CaaM的深度模型;即使在IID设置中，注意力定位也被CaaM改进，在需要鲁棒视觉显著性的应用中显示出巨大的潜力。代码可在https://github.com/ Wangt-CN/CaaM上获得。1. 介绍你认为注意力[59，53]总是捕捉图像中的显著区域吗？否，如图1（a，顶部）所示，由于缺乏区域级标签，或者你认为注意力总是能提高表现吗？也许是的，毕竟，如图1（a，顶部）所示，即使所关注的区域是错误的，模型仍然做出正确的预测。图1.（a）两个图像的定性注意力图NICO [21]使用ResNet18和CBAM [57]。(b)三种方法的准确度：ResNet18、ResNet18+CBAM [57]和+CaaM（我们的）在IID和OOD设置中。配备了注意力的模型确实更好（图1（b）中的红条高于黑条）。然而，很少有人意识到注意力在OOD环境中可能会做坏事，测试数据在训练分布之外。例如，如图1（a，顶部）所示，注意力将“地面”区域视为“鸟”类的视觉提示，因为大多数训练“鸟”图像都在“地面”上下文中;但是，当测试图像是“地面上的熊”（底部）时，注意力误导模型仍然预测“鸟”。图1（b）报告了注意力模型甚至比OOD设置中的非注意力基线更差（红条低于黑条），其中训练中的稀有对象和上下文组合进一步放大不幸的是，当我们在汽车自动驾驶仪等关键领域部署此类视觉系统时，往往是极少数情况下导致致命事故，例如，将“白色”卡车识别了解因果关系的精明读者[27，42]可能会指出，注意力在IID和OOD中的两极作用的关键原因是由于混杂效应[55，66，65，60]。在视觉识别中，输入图象X和输出标号之间的因果关系追踪Y被一个共同的原因混淆：上下文S.要查看效果，在数据收集期间，通常会找到X在传统的IID设置中，其中训练和测试-数据是相同且独立分布的，1 https://www.youtube.com/watch? v=X3hrKnv0dPQ3092不--不→←↛→ →调整数据分片关注分裂④既代表我们在3.1节中正式阐述了不适当的因果干预问题。在本文中，我们提出了一个因果注意模块（CaaM ka：m），它迭代地生成数据分区，并逐步自注释混杂因素，以克服过度调整问题。与较粗糙的上下文相比，多个CaaM分区是细粒度的，并且更准确地描述了全面的混杂因素。如图2（左下）所示，分区N的每个分割具有展开“翅膀”的“鸟”的图像这鼓励模型捕获图2.基于分区的干预方法[4，49]和我们的无监督CaaM之间的注意力图的比较，每个训练数据分裂。 N表示第N个分区。展开翅膀的鸟用红框突出显示。在S中，因此S是识别Y上下文线索（即， X S Y）。在训练之后，模型鲁莽地利用S的统计线索作为X的特征来预测Y（例如，在图1（a，顶部）中，大多数训练“bear” image “bird”),seeing “地面”图案总是使人想起“鸟”）。在第3.1节中，我们将详细回顾上述因果关系。减轻混杂偏倚的唯一解决方案是因果干预[42]。例如，Arjovskyet al. [4]和Teneyet al.[49]建议在每种情况下收集调整“鸟”的上下文在每个上下文中分割（例如，“ground”, “water” and “sky”), the atten- tion因此，组合的然而，像上面那样进行因果干预是不切实际的尽管额外注释的成本很高，但它存在以下缺陷。在实践中，不可能在任何上下文中收集类的样本，例如，“天上”难觅“鱼”。从技术上讲，类的这种缺失的上下文违反了偶然干预的混淆者积极性假设[25]（关于违规导致的不良表现，请参见第4.4因此，我们必须将ground-truth上下文合并为更大的拆分，以包含所有类（例如在图2中将“水”和“地”合并然而，这种较粗糙的上下文将导致过度调整问题-干预不仅移去了上下文，而且损害了有益的因果关系（例如，对象部分）。图2（左上）示出了一个真实示例。重申上述基于情境分割的干预去除了不同情境的非因果特征。不幸的是，“鸟”的因果特征-“翅膀”-也被删除了（见注意中的红色虚线框）。这是因为“天空”语境中所有的鸟都“wing” feature (see the improved visual attention),从技术上讲，除了关注期望的因果特征（例如，前景），CaaM具有故意捕获混淆效果的补充注意力（例如，背景）。这两个解纠缠的注意力是优化的对抗极大极小的方式，逐步构成的混杂集和miti-门的混杂偏置在无监督的方式。我们在3.2节中分析了CaaM如何学习比现有基线更好的因果特征。在第3.3节中，我们展示了两个流行的基于注意力的深度模型的部署示例：基于CBAM的CNN [57]和基于Transformer的T2 T-ViT [63]。第4节中的大量定性和定量实验结果证明了CaaM实现的我们的技术贡献总结如下：• 一个新颖而实用的视觉注意力模块CaaM，学习在OOD设置中鲁棒的因果特征，而不会牺牲IID设置中的性能。• 我们提供了一个因果关系理论分析，以保证CaaM的优越性。• CaaM的设计对于流行的深度网络是通用的2. 相关工作视觉注意。我们考虑了常规注意力[57，28]和最近的自我注意力[53，16，50，63，24，52，56]。在过去的几年里，尽管它们已经发展成各种模型，但关键机制仍然是选择信息特征（受上下文或令牌查询的影响）[12，39，10]。在面向对象设计环境中，由于选择没有本地化的强有力的监督，注意力存在固有的偏差。最近，Yang等人。[61]还研究了有偏注意。然而，我们的CaaM是有趣的不同：1）不同的假设。[61]用于视觉语言任务，并假设中介者从视觉语言上下文可见;但是，在一般视觉承认中，这一要求不适用。2）方法不同。[61]使用前门调整[43]，而我们的CaaM是后门调整。更重要的是，过度调整CaaM拆分（我们的）GT Splits1 2 3 4粗输入地面;水分支;砂手;站立天空;草(fold机翼）（折叠机翼）(fold翼）（展开/折叠机翼）1细粒度2…34GT SplitsCaaM拆分3093一不是→→← →→→Σ|不T→ →→←→|→→⊥|不ΣΣCaaM可以以无监督的方式自注释混杂因素。在这种观点中，CaaM在技术上也不同于最近的视觉因果推理作品[55，66，47，41，64，29]。OOD泛化。机器学习总是受到OOD问题的挑战[36，22，1]，例如去偏置[18，19]。33, 30, 11, 54, 35], domain adaption [6, 40, 17, 51, 19] andlong-tailed recognition [32, 38, 46].我们专注于最具挑战性但最实用的OOD设置[5，21，23]，其中OOD视觉语义是未标记的（不同于长尾）和无处不在的（不同于领域适应）。此外，我们跟踪并揭示了作为一种因果干预的不变变量风险最小化（ in-variant riskminimization，简称Risk minimization）[4，34，45，13，3，2，37，62]的最新进展，然而，它受到了稍后讨论的过度调整的影响。我们的CaaM利用互补注意力和迭代对抗训练管道来克服这个问题。3. 因果注意模块…...图4.我们CaaM的培训管道在每次迭代中，它包含一个小游戏：联合训练（等式1）。（6））和Maxi-Game：Partition Update（Eq.（七））。和θ的下标是迭代指数。在N次迭代之后，无偏识别的结果注意力是N。显式的图形节点，以便于下面的数学推导。数据分区的因果干预。数据分割（或环境分割）[4]是因果干预的有效实现。它首先将训练数据划分为3.1. 因果关系初探(a) 因果关系图（b）目标干预（c）不当干预图3.视觉识别的因果图。偏见识别的因果观我们通过使用结构因果模型（SCM）[42]介绍了视觉识别任务的因果关系我们通过检查关键组件之间的因果关系来构建这个SCM：图像X，标签Y，中介M和混淆S。我们在图3（a）中示出SCM，其中每个直接链路表示两个节点之间的因果关系。XY表示来自图像控制的期望因果效应。帐篷X标签Y，因为图像是其内容的标签。我们称一个识别模型是无偏的，如果它识别X Y. X S Y。 S X表示不稳定上下文S确定在图像X中描绘什么[66]。例如，S确定将“鸟”和“地面”放置在图像中的何处S Y的存在是因为模型不可避免地使用语境线索来识别Y。在SCM中，我们可以清楚地看到S通过后门路径X←S→ Y混淆X和Y。一组硬分裂=t1，…，其中的每一个表示混杂因素层，从而允许在不同分裂上训练的模型对混杂因素不变。我们证明了数据分区等价于众所周知的后门调整[42]：P（Y |do（X））=P（Y|X，t）P（t），（1）t∈T其中P（Y，X，t）表示在分裂t中训练的分类器的预测，并且P（t）：= 1/m。我们在图3（b）中示出了P（Ydo（X））。解释是do（X）切断了混杂路径X S Y，只留下稳健路径XY和XMY.然而，现有的基于数据分区的方法[4，49]仅假设单个但小的分裂集合，这对于等式（1）是远远（一）.不当因果干预。在视觉识别中，如在Eq.（1）不容易获得，因为常规的基于上下文的划分注释[4，21]没有解开混杂因素和中介因素。因此，直接调整介体会损害特征学习[47]。下面，我们使用因果公式来阐述原因。假设数据分区仅包含混杂因素。然后，我们可以在不阻塞M的情况下减轻S。通过应用贝叶斯规则，Eq.（1）可以改写为：Σ ΣP（Y |do（X））=s∈S m∈M标签在一些实施例中，“熊”图像与它们之间的相关性（通过S）不一致，并且因此从“熊”图像产生“鸟”的错误预测XMY是稳健性的有益因果效应识别，其中M是在不同分布中不变的介体例如，M可以是有区别的对象部分，“鸟”有“翼”。注意，M可以隐藏在因果路径X→Y中。这里我们将其定义为然而，如果每个分裂都包含S和M，即，（S M）X.当量（1）将被重新推导为假效应估计：P（Y |do（X））=P（Y |X，s，m）P（m|X，s）P（s），（3）s∈S m ∈M其中P（m|X，s）不等于P（m|X）在等式中。（2）由于（SM）|X. 这意味着不适当的划分T当量（六）当量（六）当量（七）再次以熊-鸟为例（图1（a）），尽管“熊”图像（X）与“鸟”图像（X）没有因果关系，但是P（Y |X，s，m）P（m|X）P（s）。（二）训练数据分区训练数据分区3094不→→θT T∈我的T→← → AAAA→A→→A Aa∈⊙˜Σ- -2一的T确实切断了XM Y的强大中介效应，如图3（c）所示。3.2. 训练管道图4中示出了配备有CaaM的任何模型的迭代训练流水线。为了扩大方程中的分裂数。（1），我们在每一步中发现分区i经过N步训练后，我们可以近似方程。（1）由Maxi-Game：一个好的分区更新应该捕获更强的混淆因素，而不是分裂不变：max IL（h，A（x），Ti（θ））（7）哪里i（θ）表示划分i由θ决定RK×m，K是训练样本的总数，m是分区中的分裂数。θp，q是第p样本属于第q个分裂（tq∈Ti）。P（Y |do（X））≈ΣN Σt∈Ti P（Y |X，t）P（t）。为了...为了解决混杂者和中介者的纠缠问题，我们设计了一对互补的注意力模块和得双曲余切值. 是专注于因果效应X的专长MY和XY，而用于处理配置效果XSY。请注意，和的角色是对抗性的，因为前者旨在使用鲁棒特征正确预测，而后者旨在捕获偏差。因此，adversarial训练鼓励解开，并且我们可以使用来更新分区i+1。我们在附录中说明了我们的训练管道的收敛性接下来，我们将详细介绍培训损失。交叉熵损失这种损失是为了确保和组合将捕获来自X的有偏差的总效应Y不考虑因果或混杂效应;否则，它们可能不尊重如图3（a）中假设的训练数据生成因果关系。请注意，这种有偏训练实践在无偏模型中被广泛采用[8，41，48]。3.3. CaaM的实现我们在两个流行的基于注意力的深度模型上实现了所提出的CaaM：基于CBAM的CNN [57]和基于变换器的T2 T-ViT [63]。我们将结果模型分别称为 CNN-CaaM和ViT-CaaM。对于单纯的-因此，在本节中，我们使用c和s来表示因果和混淆特征（即，，c=A（x）和s=A（x））。3.3.1CNN-CaaMCBAM [57]依次采用通道和空间注意力模块进行自适应CNN特征细化-这是CNN中计算注意力的最基本方式之一。给定输入特征x，注意力特征x’被计算为：z=CBAM（x），x′=sigmoid（z）⊙x，（8）XE（f，x~，D）=E（x，y）∈D（f（x~），y），（四）其中zRw×h×c和表示逐元素乘积。因此，我们的CaaM注意力演算基于其中x=A（x）◦ A（x），◦表示特征加法，fCBAM定义为：是线性分类器，并且是交叉熵损失函数。不变损失[4]。这个损失是为了学习分裂的ACBAM（x），z=⊙不变量的因果关系的干预，在方程。（1）与不完全混杂分区Ti：CaaM：c=Sigmoid（z）x，s=Sigmoid(−z)⊙x（九）IL（g，A（x），Ti）=XE（g，A（x），t）t∈Ti+λw=1。0XE（w，A（x），t）2，（五）其中Sigmoid（z）和Sigmoid（z）=1Sigmoid（z）是互补的，以便将c和s从输入特征x.下面，我们详细说明在残余块中堵塞CaaM的细节，如图5（a）所示。其中，t是数据分割，g是用于鲁棒预测的线性分类器，w代表用于计算跨分割的梯度惩罚的虚拟分类器[4]，并且λ是权重。在推断期间，g（（x））将被部署用于无偏识别。更多详情见附录。对抗训练。这个训练解开了A和解缠结块（D-块）。D块是包含CaaM演算以生成两个注意力特征c和s的块。注意，在D块之前，可以存在任何数量的标准残差块[20]。因此，具有剩余连接的D块j+1的公式如下：ˆcj,ˆsj=CaaM(xj),一个迷你游戏和一个大型游戏。直观地，Maxi-Game采用A（x）中的混淆特征来生成数据分区Ti（因果特征不起作用D区j+1：cj+1=（cj+1+cj（跳过连接），sj+1=（十）最大化）。虽然迷你游戏从具有i的（x）中排除了这种混淆特征（混淆特征不有助于最小化）。迷你游戏：这是一个联合训练与XE和IL，加上一个新的对手类ifierh，专门在混乱的效果。由A（x）引起的效应：（六）3095其中Xj是由第j个残差块输出的特征，并且注意，如图 5 （ a ）所示，第一 D 块被表示为 D 块（Init.），这与下面的D块略有不同：1）跳过连接从标准ResNet块的输出连接。2)我们将混淆特征sj上的跳过连接重新修改为区分JminA， A，f，g，hXE（f，x~，D）+IL（g，A（x），T~ i）+XE（h，A（x），D），从因果特征猜测它c.3096→→∈R∈√s=Softmax(−)vdS×（−）��×��.........D区（初始）M-BlockD-Block图像令牌(a) CNN-CaaM（b）ViT-CaaM图5. 我们的CNN-CaaM的网络架构基于CNBAM[57]，我们的V1 T-CaaM的网络架构基于T2 T-V1 T[63]。红色形式u√lasare用来产生我们互补的注意力：Sig表示Sigm 〇 i d（z）和Sigm 〇 i d（z）。对于Sigmoi d（−z）。Sof+表示Softmax（qkT/dK）和Sof关于SoftmaxT+-（蓝色）和混淆特征-（−qk /dK）。对于CNN-CaaM，利用D-Block来解开因果特征cs（橙色）来自CNN特征x。D区（初始）表示第一个D块。而M-Block将c和s与卷积层合并。然后将M块和D块堆叠以逐步细化c和s。合并块（M块）。如图5（a）所示，在D-块之前，c和s被输入到M-块中进行特征融合，以准备下一个D-块。我们将M块（在D块之前的左侧块）表示为M块j，其中j+1是D-Block的索引，并介绍其公式如下：M块j：Xj=Co nv（cj）+Co n v（sj）。（十一）迭代等式（10）和Eq.（11）产生多层CaaM（M-嵌段D-嵌段M-嵌段）。在推理过程中，我们使用最终的因果特征cj+M−1进行鲁棒预测。3.3.2ViT-CaaM给定输入特征Xj（即，第j个Transformer模块的输出特征），第j +1个模块通过应用CaaM注意力将其分解为中间特征（cj+1和sj+1），如图5（b）中的蓝色和黄色链接所示。然后，将cj+1和sj+1输入MLP以生成因果和混杂特征，即，cl+1和sl+1。请注意，1）遵循标准ViT[ 16，63 ]，在每个块中应用层范数（LN）和跳过连接;以及2）与CNN-CaaM类似，我们在生成（s j +1）时省略第一个跳过连接，以避免（cj+1）和（sj+1）之间的纠缠。因此，ViT-CaaM的基本嵌段可以如下配制：（cj+1，（sj+1=CaaM（LN（xj）），cj+1=MLP( LN(ˆcj+1+xj))+ˆcj+1+xj,我们构建ViT-CaaM的基础上，先进的ViT模型称为令牌到令牌（T2 T）-ViT [63]，其中T2 T模块j+1 =MLP（LN（sj+1））+sj+1，（十三）旨在解决vanilla ViT中的简单令牌化问题[16]。我们的CaaM仅插入T2 T-ViT的ViT注意力模块，因此它适用于任何基于ViT的模型，例如[50]和[58]。如图5（b）所示，给定输入特征xn×d，CaaM首先使用标准自注意力计算查询向量、键向量和值向量q，k，vRn×dk，其中n是图像块的数量，d和dk是特征维度。然后，利用Softmax函数计算互补注意力。因此，ViT中CaaM的总体配方如下：q,k,v=Wqx,Wkx,Wvx,√xj+1=cj+1+sj+1迭代等式（13）得到多层ViT-CaaM。我们使用最终的因果特征cj+M用于推断中的预测。4. 实验4.1. 数据集和设置NICO [21]是为OOD设置设计的真实图像数据集它包含19个对象类，188个上下文和近25，000张图像。每个图像具有对象标签以及上下文标签。因此方便的是通过调整比例CaaM：c=Softmax（qkT）v，DKqkTK（十二）用于训练和测试样本的特定上下文。我们的设置：我们使用NICO的动物子集为每个动物类，我们随机抽取其图像并确保这些图像的上下文标签在10个与CNN-CaaM不同，ViT-CaaM不具有由于Transformer架构，可分为D块和M块。类（例如、“雪”、“在草地上”和“在水中”）。基于这些数据，我们提出了一个具有挑战性的OOD设置，包括跳过连接………ResNet块Conv层分享Conv层Conv层令牌化模块LNLN前馈LN前馈分享3097不不不不不不不关于上下文的三个因素：1）长尾训练上下文标签在每个单独的类中处于长尾分布，例如“羊”可能有10个“在草地上”的图像、5个“在水中”的图像和1个“在路上”的图像; 2）零-拍摄-对于每个对象类，10个上下文标签中的7个在训练图像中，并且其他3个标签仅在测试中出现;以及3）正交-每个对象类的头部上下文标签被设置为尽可能唯一（仅在一个对象类中占主导地位）。有关我们的设置的更多详细信息，请参阅附录。ImageNet-9 [31] 在相关工作 [5] 之后，我们还在ImageNet-9上评估了我们的模型，ImageNet-9是一个子集。ImageNet包含9个超类，54，600/2，100个训练和验证样本。我们的设置：我们有三个设置来评估我们在ImageNet-9上的模型性能。1)偏倚-这是一种常规度量，即在整个验证集上测量准确度，用作分布内测试。2)无偏（Unbiased）-将其作为完全无偏测试数据的代理。为了实现它，我们遵循[5]将图像分类到不同的上下文（即，将上下文标签分配给图像）。我们计算每个图像聚类的准确度，并将这些准确度平均为最终的无偏度量。3)ImageNet- A [23].它被提出作为ImageNet的一个特别具有挑战性的OOD测试集。它包含7,500张真实世界的图像，这些图像欺骗了在标准ImageNet上训练的图像分类器这种因此，该测试集准确地验证了我们的模型的去基础性能。详情请参阅附录。4.2. 实现细节我们在两个骨干上实现CaaM：ResNet 18 [20]用于CNN-CaaM，T2 T-ViT 7 [63]用于ViT-CaaM。与原始ViT相似，T2 T-ViT引入了逐层令牌到令牌（T2 T）变换，以通过聚合相邻信息来逐步将图像结构化为令牌。下面我们介绍比较基准方法，即、去偏法和干预法。Debias方法我们将我们的CaaM与两种SOTA方法进行比较：[8]和[5]。RUBi使用偏置输入显式地学习偏置模型，然后通过重新加权其预测logit来对标准模型执行去偏置，其中权重由偏置模型生成。另一个SOTA是ReBias。它利用小的感受域CNN（BagNet [7]）在模型中显式地编码上下文偏差，并且鼓励去偏表示在统计上与之无关。干预方法我们将我们的CaaM与三种SOTA因果干预方法进行比较：IRM [4]，REx [34]和Unshuffle [49]。IRM声称鲁棒表示导出可以跨不同上下文（对于相同对象类）进行不变预测的图像分类器REx是IRM的改进版本，其关键是增强仿射组合的训练风险的鲁棒性。Unshuffle [49]将IRM扩展到真正的视觉-语言任务-视觉问答。它为每个数据分割训练一个单独的分类器，并在分类器权重上应用方差正则化器。请注意，上述所有方法都需要对数据分割进行注释：从手动标记[4，9，2]或从预定义的聚类[49，5]。而我们的CaaM不需要这样的注释，导致以无监督的方式进行干预。为了进一步显示我们的优越性，我们对干预方法进行了两组比较（在表1的底部框中）：一组允许所有模型都用人类注释的分裂（w/ H.A.）和另一个不含（w/o H.A.）.在NICO数据集上H.A.是通过使用上下文标签构建的，即包含相同上下文的图像在ImageNet-9数据集上，H.A.通过将上下文特征聚类为几个分裂来构建，遵循[5]。4.3. 与SOTA表1显示了我们在NICO，ImageNet-9和ImageNet-A（仅测试）数据集上进行的所有比较很明显，我们的CaaM在所有设置中都达到了最佳性能。值得强调的是1）在设置H.A. ” ，我们的CaaM明显优于干预方法，例如、2. 1%和1. 在具有挑战性的ImageNet-A（使用CNN）上，分别比IRM和Un-shuffle高2%;以及2）这些余量甚至更大，例如，，对于ImageNet-A（具有CNN）增加到5%“，我们的得到改善，但其他人的减少。这些验证了我们对分区的自我注释-使用CaaM逐步更新-确实比其他方法更好地表示混淆因素。如[4，49，34]所示，使用任何硬或手动分割。4.4. 消融研究Q1：什么是CaaM的最佳超参数？我们替换CNN的最后M个块（或ViT的最后M个层）并改变M的值以找出我们需要多少注意力块来获得最佳性能。类似地，我们使用m个上下文分割并改变其值以找出最佳的分区数量。Al：从表2的顶部框可以看出，对于CNN-CaaM，CaaM 的性能在 M=2 附近饱和（对于 ViT-CaaM ，M=4）。当我们从上到下添加CaaM层时，这可能是因为较低的CNN特征图还没有出现前景和背景语义。在表2的中间块上，我们发现m =4是最好的，但与其他值的准确度差异并不显著，即，对m不敏感。3098CaaM（我们45.4645.77 95.5294.9635.6038.0837.54 90.0589.3532.01不含H.A.Tw/ H.A.不T.S.编号S.T TT设置AA−模型基于CNN的ViTNICOImageNet-9 [31]ImageNet-A [23]NICOImageNet-9 [31]ImageNet-A [23]ValTestBiased无偏倚[5]测试确认测试偏倚无偏[5]测试[20]第20话42.61 95.00 94.40ResNet18+CBAM [57] 四十二点一刻42.46 94.81 94.09 34.31T2T-ViT7 [63]35.62 88.76 88.35俄罗斯卢布[8]43.8644.37 94.8134.15 87.95 87.48 29.90ReBias [5]44.9245.23 95.20 94.8935.74 88.99 88.32开孔[15]43.6943.77 95.24 94.8133.69 87.52 86.47[67]第67话41.46 95.4394.7934.31 89.72 88.66IRM[4]40.6241.46 94.1334.38 89.43 88.87REx [34]41.0041.15 94.15 94.2833.1833.46 88.52 87.26[49]第四十九话43.00 94.71 94.3336.00 87.38 86.86 28.61IRM [4]40.5441.23 94.0994.3233.77 89.62 88.98REx [34]40.8541.52 93.26 93.7934.00 88.68 87.01[49]第四十九话41.6194.8132.92 88.38 87.39CaaM（我们46.3846.62 96.1995.8338.5538.0037.61 90.3390.0132.38表1.基于ResNet 18和T2 T-ViT 7，在NICO，ImageNet-9和ImageNet-A数据集上的识别准确率（%）H.A.“，“w/o H.A. 表示常规方法，用人类注释的分区进行因果干预（即，地面实况上下文分割）和没有分区注释的干预。我们的结果被强调。所有设置都标记了最佳和次佳CNN-CaaM ViT-CaaM确认测试确认测试男=143.9244.5435.54 三十六点七七男=245.4645.7737.89 三十七点四六男=444.1545.3138.08 三十七点五四m =243.9844.9237.87 三十七点三二m =445.4645.7738.08 三十七点五四m =845.2345.7437.94 三十七点二三重新启动培训44.2344.4636.6935.46随机化θ44.4643.3837.12 三十六点一刻CaaM46.3846.6238.00 三十七点六一表2.我们提出的CNN-CaaM和ViT-CaaM在NICO数据集上的消融研究。努姆湖、Num S. 和T.S. 分别表示层数、分裂数和训练时间表。Q2：逐步更新和聚合不同分区的效果有什么好处？Maxi游戏是不可或缺的吗？我们进行两个消融研究：一个是省略方程中的优化。（6）并且每个阶段我们随机化那些参数的权重，例如，和<$，我们将其表示为并且类似地，每个阶段我们随机化θ的权重，即，A2：我们在表2的底部框中显示了相应的结果。很明显，此外，这些验证了我们的CaaM是一个有机的整体组成的协作和优化模块。Q3：CaaM可以实现强大的注意力吗？为了定量地评估由CaaM生成的注意力地图的准确性，我们使用groud truth对象边界带分区间隔[49] 73.61 56.71CaaM（我们的） 77.52 58.24无分区 CaaM（我们的）78.37 58.83表3.在ImageNet-9测试集上使用不同模型的注意力地图准确率（%），带有地面真实边界框。“注意力”表示常规注意力模型，即、ResNet+CBAM和ViT。是本发明方法的缩写[49]。ImageNet-9测试集的框坐标具体地，注意力准确度由边界框中的注意力区域与整个注意力区域之间的比率给出。详情见附录。A3：我们在表3中报告了注意力准确度。与传统的注意力干预方法相比，基于背景真值上下文划分的干预方法具有更好的效果;而我们的CNN-CaaM和ViT-CaaM在两种设置（即，具有和不具有分区）。这个结果充分证明了我们的多层互补注意力和对抗训练管道的有效性。问题4：为什么要将地面实况上下文合并为更大的拆分？回想一下，在第1节中，我们解释了类的上下文缺失违反了积极性假设。为了评估效果，我们在图7（a）中提供了NICO数据集上不同数量数据分割的详细结果。A4：我们可以看到，干预的准确性在2 - 4个分裂中保持相对稳定，但由于违规，根据每个上下文分组时会有巨大的下降。Q5：CaaM是否能提高频繁上下文和罕见上下文样本的识别率？我们展示了Conv.努姆湖设置模型基于cnn基于ViT关注69.7355.363099TT鸟羊猴狗熊牛象猫大鼠马输入图像关注血管介入.（w/）CaaM（不含）的方式基于CNN的ViT图6.使用我们的CaaM和基于CNN和ViT的基线方法对注意力地图进行可视化分别表示传统的注意力模型和干预方法[49]。红色框代表失败案例。频繁9.64%罕见13.37%4.5. 定性结果。4442403836342 3 4全部0.9 0.80.70.60.50.40.30.20.10图6显示了我们提出的CaaM（无分区）与）、干预方法（已知分区）和常规注意模型，即：、CBAM [57]和T2 T-ViT 7 [63]。注意，当前的ViT模型是有限的，在没有大规模数据集的情况下不能很好地训练注意力机制。对于注意力可视化，T2 T-ViT 7的权重用ImageNet预训练模型初始化。从图6中我们可以看到，相比之下，拆分数量CBAM（频繁上下文）CaaM（频繁上下文）CBAM（稀有上下文）CaaM（稀有上下文）意向性注意（第二排）和干预方法（第三排），我们的CaaM可以实现更精准的关注(a)（b）第（1）款图7. (a)在NICO数据集上具有不同分裂数的干预方法的性能。“全部”表示根据每个上下文对数据进行分组，即，拆分的数量=上下文的数量。(b)常规CBAM [57]和我们的CaaM分别在具有频繁和罕见背景的图像上的每类分类准确度比较。在图7（b）中，我们的CaaM和常规CBAM注意力模型分别在具有频繁上下文和罕见上下文的测试样本上的性能。A5：具体地，“频繁”表示训练分布中的前三个上下文类，而“罕见”表示包含三个零激发类的尾七个上下文类。回想一下，如图1所示，对于使用常规注意力模型的罕见上下文类，性能降低得更多。相反，我们的CaaM甚至可以在罕见的情况下（13.37%）比频繁的情况下（9.64%）获得更大的性能提升此外，在相关研究领域（如长尾分类），但是众所周知的是，尾部（罕见）类的改进通常牺牲头部（频繁）的性能然而，我们的CaaM可以提高准确性的频繁和罕见的背景下，同时有很大的利润。activation. 红框表示失效情况。我们发现，我们的CaaM也不能准确地注意到多个对象（例如：，两只熊）或与其他对象共存的单个对象（例如，马和人）。这启发我们在未来执行周围对象调整[55，66]。5. 结论我们证明了传统的注意力模型在OOD设置中特别有偏见。我们假设原因是由于混杂因素，其影响应通过因果干预消除我们从理论上表明，现有的上下文不变的方法遭受不适当的因果干预，这可以解决所提出的CaaM。在三个具有挑战性的基准上进行的大量实验经验地证明了CaaM的有效性。在未来，我们将寻求一个更强大的因果效应解纠缠理论[26]及其实现。谢谢。作者感谢所有审稿人提出的建设性建议。本研究部分由阿里巴巴-南洋理工大学联合研究所，A*STAR根据其AME YIRG资助（项目编号：A20 E6 c 0101）和新加坡教育部（MoE）学术研究基金（AcRF）Tier 2资助。IRMRExUnshuffle累积（%）3100引用[1] 亚历桑德罗·阿奇里和斯特凡诺·索亚托。信息丢失：通过噪声计算学习最佳表示。IEEE TPAMI，40（12）：2897-2905，2018。3[2] Kartik Ahuja、Karthikeyan Shanmugam、Kush Varshney和Amit Dhurandhar。不变风险最小化博弈。ICML，第145-155页。PMLR，2020年。三、六[3] KartikAhuja ， JunWang ， AmitDhurandhar ，Karthikeyan Shanmugam，and Kush R Varshney.经验风险最小化还是不变风险最小化？a sample样本complexity复杂perspective透视. arXiv预印本，2020年。3[4] 马丁 · 阿吉奥 vsky， Le'onBottou ， IshaanGulrajani 和 DavidLopez Paz。不变风险最小化。arXiv预印本，2019。二三四六七[5] Hyojin Bahng、Sanghyuk Chun、Sangdoo Yun、JaegulChoo和Seong Joon Oh。用有偏表示学习去偏表示在ICML，第528-539页中。PMLR，2020年。三六七[6] Shai Ben-David ， John Blitzer ， Koby Crammer ，Fernando Pereira ， et al. 域自适应的表示分析。NeurIPS，19：137，2007。3[7] 维兰德·布伦德尔和马蒂亚斯·贝奇。在imagenet上，用局部特征袋模型来近似cnns的效果出奇的好ICLR，2019。6[8] Remi Cadene、Corentin Dancette、Hedi Ben-Younes、Matthieu Cord和Devi Parikh。Rubi：Reducing unimodalbiases in visual question answering. NeurIPS，2019。四、六、七[9] Shiyu Chang ， Yang Zhang ， Mo Yu ， and TommiJaakkola.不变有理化。在ICML，第1448-1458页中。PMLR，2020年。6[10] Long Chen，Hanwang Zhang，Jun Xiao，Ligen Nie，Jian Shao，Wei Liu，and Tat-Seng Chua. Sca-cnn：图像字幕卷积网络中的空间和通道注意力。在CVPR中，第5659-5667页，2017年。2[11] Christophe

下载后可阅读完整内容，剩余1页未读，立即下载