捷径学习和泛化机会对深度神经网络的影响

145 浏览量更新于2023-09-25 收藏 1MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10655DiagViB-6：存在快捷方式和泛化机会的Elias Eulig1，2，* Piyapat Saranrittichai1，3 Chaithanya Kumar Mummadi1，3 Kilian Rambach1 William Beluch1 Xiahan Shi1 Volker Fischer1，*1博世人工智能中心（BCAI）2海德堡大学3弗莱堡大学摘要用于图像分类的常见深度神经网络（DNN）已被证明依赖于预测和易于表示的视觉因素形式的捷径机会（SO）。这被称为捷径学习，并导致受损的泛化。在这项工作中，我们表明，常见的DNN也遭受捷径学习时，预测只有基本的视觉对象的变化因素（FoV），如形状，颜色或纹理。我们认为除了捷径-243蓝红绿色调因子测试（OOD）捷径对面将军opp.火车除了FoV机会之外，泛化机会（GO）也是真实世界视觉数据的固有部分，并且由预测类与FoV之间的部分独立性产生。我们还认为，这是必要的DNN利用GO克服捷径学习。我们的核心贡献是引入诊断视觉基准套件DiagViB-6，其中包括数据集和指标，以研究六个独立 FoV 的网络的捷径漏洞和泛化能力。特别地，DiagViB-6允许控制数据集中SO和GO的类型和程度。我们基准广泛的流行的视觉架构，并表明他们可以利用GO只有在有限的程度。1. 介绍尽管它们在对象分类任务上具有最先进的性能，但深度神经网络（DNN）非常容易进行快捷学习[8，33，11]。DNN不是学习可以在训练数据之外生成的整体表示和决策规则，而是过度依赖于所谓的捷径机会（SO），当目标类与一个或非常少的易于表示的输入因素高度相关时，会发生这种情况[12]。这导致在许多分布外（OOD）设置上的较差的泛化，例如Ima-geNet训练的DNN偏向于纹理，并且在纹理-形状线索冲突评估下无法泛化[8]。虽然人类也倾向于捷径学习在cer-*通讯作者。通过elias@eeulig.com或volker. de.bosch.com。图1：我们提出的基准中的示例研究。训练网络以预测具有变化色调的形状因子的因子类别2、4、3。所有五个所描绘的训练组合在训练期间被统一地示出形状2仅与色调因子的蓝色类共同出现，这带来了捷径机会。形状4和3均匀地出现在红色和绿色色调中;这些组合构成了泛化机会，因为它们降低了形状因子的色调因子的预测性。测试精度计算的例子从OOD因素组合，以评估一个模型在某些情况下，例如在基于上下文的线索冲突设置下的对象分类[29]，生物模型在预测基本对象变化因素（FoV）（例如形状、色调或纹理）时基本上不受快捷方式的影响。这个“捷径免疫”w.r.t.基本的FoV对于智能系统来说是必要的;因此改进模型泛化的努力是极其重要的。现有文献主要在对象分类的上下文中研究DNN中的快捷行为。在这项工作中，我们解决了捷径学习的一个更基本的变体，特别关注基本FoV自身的预测，类似于[12]。在FoV预测的上下文中，我们将因子的不同表现称为因子类。例如，形状因子（预测）10656因子形状的变量类。诸如“大象”或“汽车”之类的对象类的特征在于某些因素类的共现，例如“灰色”、“大象形状”和“大象纹理”表征大象。SO是由不同因素类别的共同出现引起的。如[7]中所述，SO是真实世界视觉数据的属性。在这项工作中，我们建议另外考虑 generalization 机会（GO），这是在训练时目标类和输入FoV之间的严格相关性（或共现）的放松例如，考虑具有因素形状和颜色的对象我们将这种情况称为基于合成的GO。相关性也可能以异常值的形式被破坏，异常值由因子类的罕见组合组成，例如一个“白象”。我们将这些情况称为基于频率的GO。在训练数据中引入GO的直接方法例如，[21]将随机颜色变换应用于训练图像，消除目标类别和因子颜色之间的潜在相关性。然而，数据增强导致相对于增强因子不变的这样的模型丢失了正确识别和推理OOD样本所需的重要信息。与不变相比，我们认为，一个好的视觉模型需要有一个明确的表示这些FoV。我们的工作旨在分析模型利用数据中已经存在的GO的能力，而不是向数据集添加更多的GO，如在数据扩充中所做的那样。虽然已经存在用于组合泛化和线索冲突设置的若干合成基准数据集[12，2，28]，但是它们中没有一个能够对存在于数据集中的SO和GO进行充分和系统的控制，以用于广泛的一组不同的视觉对象FoV。受之前关于捷径学习和compo- sitional泛化的工作的启发[7，12]，我们提出了一个综合但诊断的基准套件DiagViB-61，其中包括不同的研究，以评估模型在不同程度的GO下的捷径脆弱性。图1展示了我们的基准测试中的一个示例性研究。基准测试套件包含一个图像生成函数，允许直接和独立地控制六个基本的视觉对象FoV：位置、色调、亮度、比例、形状和纹理（图2）。此外，我们的框架提供了一个数据集生成功能，使用户能够控制SO和GO出现在数据集中的性质。这是通过在因子之间引入不同程度的相关性，并诱导某些因子类组合的共现来实现的。此外，基准测试套件提供了用于评估模型在针对每个因素的不同GO下的捷径漏洞能力的度量1https://github.com/boschresearch/diagvib-6图2：在本工作中使用的所有六个FoV和四个相应的类标签上的图像空间遍历。沿着每一列，只有相应的因子是变化的，而所有其他因子是固定的。请注意，某些因子的类别不止此处所示的四类（请参阅表1）。①的人。我们在我们的基准测试中评估了广泛的常见深度学习视觉模型，并对其快捷方式漏洞进行了详尽的调查。六个陈述的FoV。我们表明，虽然他们利用频率GO，他们利用更相关的成分GO仅在有限的程度上。这也适用于专门设计用于抵消捷径学习的方法。我们承认，这个基准测试套件并不能充分和直接地证明视觉模型在真实世界数据上的泛化能力（例如：ImageNet上的对象分类）。然而，它作为一个关键的诊断，是必要的，以研究模型的捷径脆弱性和generalization能力在各种控制的任务和数据设置。最终，我们的基准测试套件的设计允许用户控制数据集中不同程度的SO和GO（在现实世界的数据中通常不可用），以便评估模型我们在这项工作中的贡献可以总结如下：我们提出了一个基准套件来创建数据集，使用户能够独立地结合六个视觉FoV，允许明确控制SO和GO存在于所得到的数据。我们建立了合适的指标来评估模型最后，我们提供了经验证据，证明常见的视觉体系结构只利用GO来有限程度，尤其是基于组合物的GO。2. 相关工作视觉属性预测我们的工作是在视觉属性预测的一般框架下制定的。与经典的对象识别相反，任务是学习给定对象的语义属性[6，32]。通过学习此类与类别无关的视觉对象属性，模型可以对训练时未发现的对象类别进行有用的10657⇥--F2F公司简介例如，可以实现对象f的亮度时间我们感兴趣的是特定的场景，称为组合泛化，其中只有有限数量的属性组合在训练过程中提供。该模型需要在训练期间进行泛化，以便在测试期间处理具有不可见属性组合的输入[27，28，35，24，1，2，36]。虽然大多数这些作品使用多任务设置，需要对象和属性注释FiSiNiCi，1Si，1position[0，1]29top-left[0. 1，0。3][0. 1，0。三、色相[0，2）6红[345°，15 °]亮度[0，1]24暗[0，0. 1][0. 四，零。五、规模[0。69，1. 45]5小[0。69，0。74]形状MNIST 10'0'数字纹理纹理5瓷砖瓷砖纹理作物对于训练过程中的每幅图像，我们考虑单个任务预测，其中仅预测一个因子此外-因此，我们考虑预测彼此独立并且可以应用于所有类型的对象的更基本的因素（例如，亮度、比例、色调），而不是高级视觉属性（例如，亮度、比例、色调）。有光泽的、毛茸茸的、光滑的）。近年来，多项研究表明，DNN在几个真实世界和合成数据集上容易受到捷径学习的影响[3，8，11，7，12]。因此，许多研究调查了捷径学习的原因，并提出了减轻这种弱点能力的方法。在[11]中提出，人类和DNN之间的差异可能源于他们所看到的数据的差异。[12]研究了在SO存在的情况下，模型的表示如何被归纳偏差所塑造。克服捷径学习的常见尝试是用手工变换来增强训练数据，以便降低每个单独因素（例如，形状或纹理）[8，23]。该方法已进一步扩展到基于生成模型的增强[31，34，33]。最近，[26]表明，对于自监督学习，某些快捷特征可以自动删除，假设这些特征最容易受到对抗性攻击。上述关于快捷学习的大多数工作都是在黑盒数据集上进行基准标记的（例如，Stylized ImageNet [8]），导致在训练和测试数据中引入的SO和GO的有限的隐式知识。相比之下，我们的DiagViB-6支持显式图像生成，允许评估从单个FoV学习的快捷方式。基准在相关领域存在许多工作，例如FoV的成分概括或解纠缠，这些工作引入了允许在一定程度上控制图像因子的数据集[12，16，2，17，20，3，13，22，15，36]。但是，这些都有缺点，我们在工作中要加以纠正.与[12，2，17，20，3，13]相比，我们的数据集包含更丰富的因子内类变异。例如，对于形状因子，MNIST的每个数字类指定因子类。在图像生成过程中，我们使用每个单独因子类的不同实例同样，对于红色，我们使用不同的红色色调。其他数据集仅提供例如单个圆柱形状或红色调。有关六个因子中每个因子的变化概述，请参见第A.1.与[12，20，3，22]中的数据集不同，其仅使用2-3表1：因素概述i，各个因子空间i，以及类的数量i。i，1i，1是类别标签1的示例性因子类别和因子空间区域FoV，DiagViB-6包括六个基本的FoV，所有良好的视觉模型都应该是快捷的。一些作品，例如[12]，研究DNN在某些层的内部特征表示，而我们的基准测试仅取决于模型的预测，因此与架构无关。与多属性预测[2，15，36]相比，我们评估模型在与其他FoV的不同相关性下的单个因子。这允许对捷径行为进行更结构化和全面的分析，其中可以调查各个因素之间的相互作用。3. 诊断视力基准套件本节描述了我们的基准测试套件DiagViB-6，用于检查DNN在六个不同的独立FoV上的快捷漏洞和通用化能力。该套件包括针对不同诊断研究定制的不同图像数据集，以及用于测量捷径脆弱性的合适指标。我们首先概述了我们的基准研究中的图像生成过程（第2节）。3.1），在第3.2，在第二节中介绍不同的研究。3.3，最后建立指标来评估DNN对我们的研究在第二节。三点四分。3.1. 先决条件基准测试套件中的数据集由图像组成，其中单个对象由一组固定的、预定义的六个独立因子描述。每个因子i，i1，. ..，6对应于语义上有意义的图像属性：形状、纹理、色调、亮度、位置和比例。每个因子Fi与某个因子空间Si相关联，从该因子空间Si中采样描述对象的因子实现fi=fi2Si。亮度作为从S亮度=[0，1]采样的标量。我们为每个因子分配 Ni 个离散因子类标签，表示为 Ci ， j ， j2{1，. ......、 N1}，其对应于区域S1，j= S1，j，j和S1，j|S1，k=S1，j，k。与因子类似，每个因子类Ci，j对应于语义上有意义的at。10658FCCSCS ssC CC！II2FF FFFFFFFC C2QC CCⓍNF⇥⇥NF8FFFFtribute类（例如亮度，1是指“暗”和色调，3是指“绿色”）。请注意，我们对每个因子的类的选择是任意的，并且基于人类的直觉（类似于[12]），因此我们的工作并不评估因子作为另一个因子表1提供了因子列表、其相应的因子空间以及在整个工作中使用的因子类的数量的概述。作为示例，还提供了因子空间i，1和因子类i，1。所有因子类别的因子空间的综合概述见第2节。A.1.通过定义因子类=（1，j，2，k，. ..，6，l），每个因子i一个。这是通过首先从对应的区域（1，j，2，k，...，k）采样因子实现fi来完成的。 6 ，1），然后使用图像生成函数I从那些采样的fi生成唯一图像：（fi，f2… f6）其中[0，1]HW3，其中H=W=128。六个FoV被合并如下所示：f形状总是MNIST数据集中的数字，然后对其进行阈值处理以产生二进制分割。从两个亮度值-因子简化了评估，并去除了作为变化源的因子类的数量为了解释由因子类的这种选择引入的随机性，我们绘制了所选择的因子类的五个随机数据集样本，对所报告的结果进行平均。如第1，我们希望在训练数据中存在不同量的SO和GO的情况下预测FoV时评估网络的快捷行为。在这项工作中，我们考虑两个因素（i，j）的所有可能的配对之间的相互作用。对于每个配对，任务就是预测第一个因子的类别i，其中SO和GO由i和j的因子类组合的指定共现模式引起。例如，考虑图中的设置。1，其中i：形状，j：色调。因子类的九种可能组合中只有五种（图1中的虚线矩形1）在训练期间被示出在测试期间，我们然后评估OOD组合上的网络性能（图中的实心矩形）。①的人。其他4个因子与i或j不相关;它们的因子类都以相同的均匀概率出现。我们对所有可能的因素进行了详尽的分析-使用f亮度=（f（1），f（2））色相相等的两种颜色ings，导致6（6-1）=30个不同的设置，即亮度亮度F每个目标因子的6-1个产生色调。f纹理是归一化的灰度纹理图像及其像素值用作上述两种颜色之间的凸组合的系数，从而产生最终颜色。然后根据所选择的尺度实现f尺度对对象进行上采样或下采样，并将其放置在灰度背景上的特定位置f位置处图2示出了六个不同FoV上的变化。特别地，第一列是用fac生成的。tor类标签=（位置，j，色调，1，光照，3，规模，5，形状，1，文本。，2）其中j为1，2，3，4。类似地，其他列示出了改变一个因子的图像，同时保持-将所有其他因素的类固定。注意，六个不同的FoV是独立的，并且因此可以针对i，i=54000个不同的因子类别组合中的每一个生成不同的图像。3.2. 基准设置在本节中，我们列出了SEC中使用的基本原理。3.3设计和进行研究，分析DNN的快捷行为的不同方面对于所有研究，我们从每个因子i可用的i中选择三个因子类的子集，然后在训练，验证和测试期间使用。例如，如图所示1和3，我们选择因子类{蓝色，红色，绿色}和{2，4，3}F形状，并且对于其他因素类似。我们生成的验证数据遵循与训练数据相同的相比之下，测试数据被设计为通过违反训练数据中存在的成对相关性来分析模型的捷径行为，因此在3个样本中包含OOD样本。3矩阵（cf.用于图1中的训练和测试。（3）第三章。我们总是生成43740个训练，8748个验证和10000个测试样本。3.3. 基准研究在介绍了我们的基准的一般结构之后，我们现在提供它所能实现的五项研究的概述（见图1）。3用于说明）。零捷径机会（ZSO）第一项研究的目标是在没有任何SO的情况下测量网络的因子分类性能。在ZSO训练数据中，目标因子i的每个类别与j的所有可能类别一致地共同出现，如图1右上角的s的位置所示。3.第三章。因此，j对于i，i，j不是预测性的。在训练之后，在与训练数据共享相同分布的数据集上测试模型的因子分类性能（参见图中的（3）第三章。零泛化机会（ZGO）这项研究可以被认为是ZSO研究的“对立面”。在ZGO训练数据中，目标FoV Fi与Fj完美相关，即每个类的Fi只能互斥地同现这将产生36=729个不同的因子类组合所述54000个中的一个用于单个实验。选择相同数量的因子类其中一个特定的类j（见图中的ZGO）。（3）第三章。由于这两个因素都包含预测任务的冗余信息，因此可以利用Fj作为预测Fi的捷径。10659FFFF FⓍ⇥Ⓧ2个FFFFF--F F2{}6F2{}6F布局243B R GZSO列车试验可以认为这是ZSO和ZGO的混合，其中i的类中的一个类专门与j的某个类（ZGO）耦合，而其余两个目标因子类与j的其余两个类（ZSO）均匀地共同出现。CHGO的目标是检验一个模型是否可以通过利用ZGOCHGOFj（例如色调）⇥ ⇥ ⓍⓍ ⇥ ⓍⓍ Ⓧ ⇥CGO-1⇥ Ⓧ⇥Ⓧ⇥Ⓧ⇥⇥ Ⓧ⇥Ⓧ⇥Ⓧ⇥⇥FGO-5CGO-2FGO-10⇥ ⇥ Ⓧ⇥ ⇥ Ⓧ⇥ Ⓧ ⇥CGO-3⇥ Ⓧ⇥ Ⓧ⇥Ⓧ⇥ ⇥ Ⓧ⇥Ⓧ⇥ Ⓧ⇥ ⇥FGO-20GO可用于相同因子的其他类。正如SEC所指出的那样。1，SO和GO的这种异构混合物最接近真实世界的数据。例如，校车可能总是“黄色”，而其他汽车则以黄色以外的任意颜色出现。考虑预测对象形状的模型，黄色总线允许模型通过仅依赖于对象颜色来缩短其总线形状预测。一个好的视觉模型现在应该能够利用所提供的GO，以不同颜色的汽车的形式，也预测OOD“红色”公共汽车的正确形状基于频率的泛化机会（FGO）图3：进行的研究的示意图概述（参见图1）。图1）中所示。对于两个因子i、j（x轴和y轴）的组合，我们为每个因子选择三个因子类（行和列），并预测第一个（y轴）因子。从训练和测试数据集（和）的因子类的九种组合中进行不同选择，会产生不同的GO和SO设置：零SO（ZSO）、三个频率度GO（FGO）（增加交叉的大小，，零GO（ZGO）、三组分GO（CG 0 -1/2/3）设置和组分混合GO（CHGO）。随着ZSO和ZGO研究捕获了两个极端，我们继续进行更现实的设置，其中SO和GO都存在于训练数据中。如第在图1中，引入GO的一种方式是通过组合物。CGO研究正是这样做的，通过将i，j的更多因子类组合连续添加到训练集中来解决组合特别地，我们生成三个子研究CG 0-c，c 1，2，3，其中GO的程度增加（图1）。3）;随机选取所添加的组合。对于目标因子的每一类，我们至少坚持一个看不见的组合进行测试，如图CGO-c图中每行的符号所示。3.第三章。对于c=0，不提供G 0，因此CG0 -0等同于与CGO研究正交，GO也可以以基于频率的方式引入，即，控制在训练数据中引入的相关性的比例（参见，[12，4]）。这些子研究也可以被视为通过逐渐增加训练数据中的相关性的频率从ZGO到ZSO的过渡我们生成三个子研究FGO-f，f=5，10，20，其中通过在训练期间该组合的低频违规（在样本的f%与CGO不同，所有组合都在训练过程中出现;我们对那些代表性不足的组合进行测试。3.4. 度量我们对上述研究的模型进行基准测试，从评估因子对（i，j）的平均每类准确度acc i，j开始。j），i，j1，. ..，6，i=j，其中i得到预测。我们将给定研究中测试数据集上的预测准确度Pi，j定义为五个相应数据集样本上的期望：Pi，j= E [acc i，j]。在ZSO的情况下，i的预测准确度被定义为Pi= E [acc i]，其中acc i是在单个数据集样本上预测i的准确度。我们还定义了两个不同的指标来总结一个因素的捷径漏洞与关于其他因素：i) 因子聚合平均精度（FAAvg）ΣFAAvgi=E平均值j2 {1，…6}，j6=i行政协调会i，j（一）有效利用数据中存在的GO的能力。我们期望一个好的视觉模型在这些泛化任务上表现良好，特别是当SO的数量减少而GO的数量增加时。组成混合GO（CHGO）这是一个特殊的测量预测因子i的平均准确度在与其他因子j，j的1、. ..，6，j=i。它也可以被看作是一个给定的研究的因素的平均捷径脆弱性的措施。ii) 因子聚合最小精度（FAMin）CGO-2的情况，其中SO和GO都存在，但明确分开，如图1B所示3（左下）。一FAMini=Eminj2 {1，…6}，j6=iacci，jΣ（2）预测（例如：形因子Fi上面讨论的ZGO研究CGO研究的目标是量化模型的Ⓧ⇥ Ⓧ⇥ Ⓧ⇥Ⓧ⇥ Ⓧ⇥ Ⓧ⇥Ⓧ⇥ Ⓧ⇥ Ⓧ⇥⇥ Ⓧ ⓍⓍ ⇥ ⓍⓍ Ⓧ ⇥⇥ ⇥ ⓍⓍ ⇥ Ⓧ⇥ Ⓧ ⇥⇥ Ⓧ Ⓧ⇥ ⇥⇥ ⇥⇥ Ⓧ⇥ Ⓧ⇥Ⓧ⇥ ⇥ Ⓧ⇥Ⓧ⇥ Ⓧ⇥ ⇥10660F F6FF±≥（一）（b）第（1）款图4：最佳颜色。（a）对于RN 18基线，我们显示了ZSO研究中所有因子i的平均准确度Pi，以及CGO-c和ZGO研究中所有因子配对（i，j）（i=j）的平均准确度Pi，j。(b)在研究中聚合模型行为，我们使用我们的基准指标FAAvg和FAMin比较所有基线请注意，在（b）中，误差线被省略，以提高单个基线的可见性;标准误差在第2节中报告A.3和A.4。测量相关性中的最小准确度，因此可以用作给定研究中因素的最大捷径脆弱性的测量。在ZSO的情况下，FAAvgi= FAMini=Pi。4. 基线设置本节提供了我们在基准测试中评估的基线网络体系结构的概述。我们从PyTorch的torchvision包[ 30 ]中考虑流行的基于视觉的DNN架构（未预先训练）ResNet 50 -2（WideRN）[37]和DenseNet-161[14]。我们还在ImageNet [5]（RN 50-IN）上包含了具有预训练权重的RN 50，具有冻结的卷积层和随机初始化的全连接层，以适应我们的基准测试。我们还使用先前的工作自动捷径删除（ASR）[26]作为我们研究的基线。此外，由于生成模型，特别是具有可解释的因子分解潜在表示的生成模型，是克服分类任务[7]上的捷径学习的方法，因此我们在我们的基准上评估了标准VAE[19]和因子VAE[17]。有关培训和基线设置的更多详细信息，请参见第A.2.5. 结果我们评估第2节中描述的基线。4在我们的基准测试套件中描述。三点三我们从零SO（ZSO）和零GO（ZGO）的极端情况开始，随后是将成分和基于频率的GO引入训练数据集的其他研究这两项研究的ResNet18基线的ZSO和ZGO结果见图1B。4a.使用第2.2节中描述的指标对所有基线进行比较3.4在图中提供。4b. 各基线的因子结果见第2节。A.3和A.4。ZSO研究评估了模型在没有SO的情况下预测每个因素的能力。这产生了每个因子i的单个平均准确度Pi，在图中最左边可视化为向量。4a. 在这里，RN18实现了高精度对除质地外的所有因素的预测准确率均为99%，而质地的平均准确率较低（62.6%）。对于大多数其他基线（最左侧），可以观察到类似的行为图中各点4 b）有几个例外：VAE、Factor-VAE和ASR在预测纹理方面较差，准确率分别为34%、34%和45%。这可能是由于在代表高-106616F FFFFFF F-FFFF FF-频率结构（Sec. A.3）。综上所述，考虑到上述例外情况，所有基线都可以在合理范围内预测所有因素。ZGO研究评估了模型预测因子i的能力，当它的三个因子类中的每一个在训练期间与另一个因子j的某个因子类单独共存时。每个这样的配对（i，j）对应于图1B中最右边的矩阵图中的单个单元。其中i是行，j是列。每个单元格中的颜色编码值指示平均准确度Pi，j，i=j。OOD测试样本，其相关性被违反。对于RN18，我们观察到对于一些因子组合（例如，（i，j）：（形状，纹理）），则模型不利用所提供的SO，而是优先学习实际任务，从而导致与该因子的对应ZSO准确度相比，OOD测试样本上的类似平均准确度。另一方面，对于其他因素组合（例如（纹理，形状）），该模型确实利用了所提供的SO，从而产生接近零的OOD准确度，因此低于机会水平。纹理和位置因素起着特殊的作用：当位置被用作预测任何其他因素时的捷径时，纹理从不被用作捷径，而是容易被任何其他因素捷径化。有趣的是，Pi，j|Pj，i似乎适用于所有因子组合，即，如果i被用作预测j，则不利用j作为预测i的捷径。我们认为，在培训过程中，要么（a）表征由一个因素主导，而忽略了另一个因素，要么（b）是两个因素的叠加，即，两个因素共享表示的因素被表示的程度取决于其总体纹理看起来相对难以学习，以及i和j在相同容量上的竞争有多强。在测试期间，现在对于（a）而不是对于（b），Pi，j |Pj，i成立。对于亮度和位置，ZGO 的发现表明（b），并且利用不同的方法学习两个因素的叠加的能力。这产生了因素之间的数据集相关的排名，我们使用它来排序图中的图行。4a，以最快捷稳健的因子位置开始，并且以最快捷脆弱的因子纹理结束。由于模型ZSO和ZGO调查结果转移到大多数基线，但有几个例外：在RN 50-IN上，位置不太经常被利用为捷径;该模型在预测位置时反而利用色调作为捷径（Sec. A.4，矩阵图）。CGO我们现在评估常见的视觉模型的能力，以利用GO提供的额外的因素类组合的形式。在这里，三个基准数据集（CGO-1，2，3）依次添加因子类组合。POS.色调灯缩放形状文本。RN180 ±02±327±21-1±14 2±5-1±2RN500 ± 03±526±21-1±16 2±5-2±2RN50-IN-1 ± 115 ± 615 ± 17 -7 ± 110 ± 8 -1 ± 1AlexNet-4 ± 81±424±19-1±12 3±6-2±2DenseNet2 ± 3 -3 ± 524 ± 21 -3 ± 132 ± 5 -1 ± 1WRN1 ± 1 -2 ± 4二十三±二十二1 ± 143 ± 6 -2 ±2ASR1±112±1532±181±15 1± 20± 2F-VAE0 ± 02±519±17-3±11 1± 82± 1VAE0 ± 02±518±15-3±12 0± 92± 1表2：CHGO研究相对于ZGO研究的平均准确度改进及其标准偏差。ZGO研究的国家。RN18的结果示于图1B中。图4a中示出了使用聚合度量的所有基线的比较，并且图4b中示出了使用聚合度量的所有基线的比较。4b.各基线的因子分析结果见第A.4.对于RN18，我们发现大多数因子组合随着GO数量的增加而表现出单调的改善，例如。（比例，色调）： 0的情况。010 19，0。42，0。ZGO53，CGO-1、CGO-2、CGO-3。然而，由于某些因素的影响，在一些国家，OOD案例的准确性不会随着GO数量的增加而提高，并且对于一些因素组合，例如。（纹理、色调）或（形状、位置）快捷方式学习也针对CGO-3发生。这也可以在图1B中的两个聚合基准度量FAAvg和FAMin中针对RN18看到。4b.我们发现FAAvg对于大多数基线保持远低于ZSO精度，直到添加三个GO。对于纹理，FAAvg低于所有基线和研究的机会水平，反映了我们早期的发现，即在预测纹理时，所有其他因素都被用作捷径。此外，对于纹理、形状和比例因子的所有基线，FAMin保持低于机会水平，直到添加三个GO与纹理相反，对于位置，没有一个基线利用快捷方式，RN 50-IN 是唯一的例外（图 1 ）。 4 b ，最左列）。这种现象可能是由于ImageNet包含有限的显式本地化信息[9]，促进了RN 50-IN中学习的表示的部分不变性。从CGO研究中，我们得出结论，所有基线都无法利用基于成分的GO在这项工作中使用的大多数FoV。CHGO CGO-2研究的一个特殊情况是CHGO研究，其中两类预测因子提供GO，而一类仅提供SO（见图2）。1和3）。将后者的OOD测试样本的准确度与ZGO研究的平均准确度进行比较（表1）。2），我们发现所有基线上的大多数因素都没有改善，并且亮度只有很小的改善，尽管在五个数据集子集之间具有很大的方差。我们的结论是，在这项工作中评估的所有基线不跨类转移GO。10662≥--2（一）（b）第（1）款图5：最佳彩色视图类似于图在图4a和图4b中，我们示出了RN18（a）的平均准确度以及ZSO、FGO和ZGO研究上的所有基线（b）的比较误差估计见第A.3和A.5。在训练期间通过附加类组合提供GO的正交方法是通过在训练时间对该相关性的低频违反来放松因子之间的严格相关性。我们生成三基准数据集 (FGO-f， f5，10，20），其中f表示训练时相关违反的频率。RN18的结果和所有基线的比较呈现在图1中。5a和5b各基线的因子分析结果见第2节。A.5.对于RN18，所有因子的分类显著改善，其中预测因子的每个类别的训练样本中只有5%违反了来自ZGO的严格相关性（例如， ZGO 的相关性）。（shape，hue）：0.，0的情况。对于ZGO和FGO-5分别为98）。当f10时，除纹理外，其他因素都不容易受到捷径学习的影响。对于大多数因素和基线，可以观察到类似的行为（图11）。4b），其中我们发现FAAvg高于机会对于f=5的所有因素，除了纹理。然而，我们发现，当与其他基线相比时，ASR未能针对色调和亮度利用所呈现的GO，这是可能归因于在ASR目标中用作正则化器的逐像素重构损失的行为总之，大多数基线能够在我们的基准上在一定程度上利用基于频率的GO。6. 结论我们解决了缺乏合适的基准来评估视觉模型在不同的基本视觉FoV上的快捷行为。为此，我们引入了DiagViB-6，这是一个基准测试套件，旨在评估两个关键的模型性能标准：快捷漏洞和泛化能力。我们的框架允许用户通过独立地组合六个视觉FoV来创建基准数据集，从而精确地控制数据集中存在的SO和GO在对DiagViB-6上最常用的视觉架构进行评估这一发现也适用于最近提出的一些有希望的方法，以克服捷径学习。DiagViB-6的设计是通用的，并导致一定的自然扩展。三个这样有前途的未来方向是：（a）包括可能在多于两个FoV之间的更复杂的相关结构;（b）将基准设计转移到其他研究领域，如主泛化和多任务学习;（c）扩展到其他因素，如背景和自然腐败。最后，我们相信我们的基准测试套件将激发并帮助构建视觉模型的快捷方式-强大的解决方案。10663引用[1] Amit Alfassy ，Leonid Karlinsky ，Amit Aides，JosephShtok，Sivan Harary，Rogerio Feris，Raja Giryes，andAlex M.布朗斯坦。Laso：Label-set operations networksfor multi-label few-shot learning。在IEEE/CVF计算机视觉和模式识别会议（CVPR），2019年6月。三个[2] Yuval Atzmon ， Felix Kreuk ， Uri Shalit ， and GalChechik.合成零激发识别的因果观。Advances in NeuralInformation Processing Systems，33，2020。二、三[3] Nicholas Baker，Hongjing Lu，Gennady Erlikhman，andPhilip J Kellman.深度卷积网络不基于全局对象形状进行分类。 PLoS computational biology ， 14 （ 12 ）：e1006613，2018。三个[4] 莎拉·比瑞格兰特·范·霍恩和皮特罗·佩罗纳在未知领域的认知。在欧洲计算机视觉上，第472施普林格国际出版社，2018年。五个[5] J. Deng，W.东河，巴西-地索赫尔湖李凯李飞飞。ImageNet ：一个大规模的分层图像数据库。在IEEE/CVF计算机视觉和模式识别会议（CVPR）中，第248-255页，2009年。六个[6] Ali Farhadi ， Ian Endres ， Derek Hoiem ， and DavidForsyth.按属性描述对象。在2009年IEEE计算机视觉和模式识别会议上，第1778-1785页IEEE，2009年。二个[7] RobertGeirhos，J？rn-HenrikJacobsen，ClaudioMichaelis ， Richard Zemel ， Wieland Brendel ，Matthias Bethge，and Fe- lix A.Wichmann 深度神经网络中的快捷学习Nature Machine Intelligence，2（11）：665-673，Nov 2020. 二、三、六[8] 放大图片作者： Robert Geirhos ， Patricia Rubisch ，Claudio Michaelis，Matthias Bethge，Felix A.Wichmann和Wieland Brendel。ImageNet训练的CNN偏向于纹理;增加形状偏差提高了精度和鲁棒性。在2018年国际学习代表会议上。第1、3条[9] K.赫利河Girshick和P.美元.重新思考imagenet预训练。在2019年IEEE/CVF计算机视觉国际会议（ICCV），第4917-4926页，2019年。七个[10] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在2016年IEEE计算机视觉和模式识别会议（CVPR），第770- 778页，2016年。六个[11] Katherine Hermann，Ting Chen，and Simon Kornblith.卷积神经网络中纹理偏差的起源和流行。神经信息处理系统进展，第 33 卷，第 19000-19015 页。 Curran Asso-ciates，Inc.，2020. 第1、3条[12] 凯瑟琳·赫尔曼和安德鲁·兰皮宁。哪些形状特征表示？探索数据集、架构和培训。神经信息处理系统进展，第33卷，第9995-10006页。柯伦联合公司股份有限公司、2020. 一、二、三、四、五[13] Irina Higgins，Arka Pal，Andrei Rusu，Loic Matthey，ChristopherBurgess ， AlexanderPritzel ， MatthewBotvinick，查尔斯·布伦德尔和亚历山大·勒施纳。Darla：改进强化学习中的零次迁移。在Doina Precup和Yee Whye Teh，编辑，Proceedings of the 34 th International Conferenceon Machine Learning，Proceedings of Machine LearningResearch第70卷，第1480-1490页。PMLR，2017年8月6日至11日。三个[14] G. Huang，Z.柳湖，加-地Van Der Maaten和K.Q. 温伯格密集连接的卷积网络。在IEEE/CVF计算机视觉和模式识别会议（CVPR），第2261-2269页，2017年。六个[15] 作者声明：Joseph J. Lim，and Edward H.阿德尔森图像集合中的逆覆盖状态和变换。在IEEE/CVF计算机视觉和模式识别会议（CVPR），2015年。三个[16] 贾斯汀约翰逊先生，Bharath哈里哈兰LaurensVan Der Maaten，Li Fei-Fei，C Lawrence Zitnick，andRoss Girshick. Clevr：一个用于组合语言和基本视觉推理的诊断数据集。在IEEE计算机视觉和模式识别会议论文集，第2901-2910页，2017年。三个[17] Hyunjik Kim和Andriy Mnih。通过因子分解法解开。在Proceedings of the International Conference on MachineLearning，第80卷，第2649-2658页中。PMLR，2018年7月。三、六[18] Diederik P. Kingma和Jimmy Ba。Adam：随机最佳化的方法。关于学习的国际会议- ING代表，2015年3月。十二个[19] Diederik P Kingma和Max Welling。自动编码变分贝叶斯。在国际学习代表会议（ICLR），2014年。六个[20] 蒂姆·克林格，达瓦尔·阿乔达，文森特·马鲁瓦，乔什·约瑟夫，马修·里默，亚历克斯神经模型中合成概括的研究arXiv预印本arXiv：2006.09437，2020。三个[21] Alex Krizhevsky，Ilya Sutskever，and Geoffrey E Hinton.

下载后可阅读完整内容，剩余1页未读，立即下载