语言规范对视觉分类的影响

94 浏览量更新于2023-10-25 收藏 1.4MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

18092∼ −∼ −论语言规范对视觉注意的苏珊娜·佩特里克丽莎·邓拉普基扬·纳塞里约瑟夫·冈萨雷斯特雷弗·达雷尔安娜·罗尔巴赫加州大学伯克利分校摘要虽然现实世界的挑战通常用语言单词或短语定义视觉分类，但大多数视觉分类方法用数字索引定义类别然而，类的语言规范为有偏见和有噪声的数据集提供了一个特别有用的先验，它可以帮助消除任务相关特征的歧义。最近，大规模的多模态模型已被证明可以识别各种各样的高级概念，从语言规范，即使没有额外的图像训练数据，但他们往往无法区分类更细粒度的任务。相比之下，CNN可以提取精细区分所需的细微图像特征，但会过拟合数据集中的任何偏差或噪声。我们的见解是使用高级语言规范作为建议，将分类证据约束到任务相关的特征，而不是干扰项。为了做到这一点，我们从预先训练的大规模模型中使用注意力地图来建立与任务相关的单词或短语。然后，我们使用这个接地来监督分类器我们发现，以这种方式监督空间注意力提高了分类任务的性能与偏见和噪音的数据，包括3 15%的最坏组的准确性提高和41 45%的公平性指标的相对改善。1. 介绍当使用有限或有偏见的数据进行训练时，视觉模型通常会学习不必要的相关性。例如，考虑构建一个分类器来区分两种细粒度的鸟类：来自其相应栖息地（例如森林或海滩）的基线模型可能会错误地学习非预期的“位置”任务，而不是实际的任务，并在鸟类离开其通常栖息地的例子中失败（图10）。1）。然而，任务是关于鸟类的知识可以消除模型想要学习的内容。*同等贡献。陆地鸟水上陆鸟图1. 用语言引导注意力。样本注意力来自水鸟偏置数据集。在训练中，陆鸟大多出现在陆地背景上，水鸟大多出现在水背景上。在测试中，每个类在陆地或水上都是平等的。在这个任务上训练的CNN学会了看背景，但是如果我们使用多模态模型将语言规范以前的工作已经考虑将任务的知识作为语言规范，以类名或类描述的形式，可以直接作为视觉模型参数的先验[33，47]。几种零激发方法在属性标签上条件模型[17，26，49]（例如，喙形状或翅膀颜色）或类别描述[7，19，32，54]（例如，从维基百科），以使转移到看不见的类。然而，这依赖于语言规范是类区分的-图1，我们可能只知道这是一个此外，简单地对语言嵌入进行调节可能无法防止模型关注有偏数据集中的虚假相关性。即使当语言规范是类别区分的时，当没有足够的图像和文本数据来学习用于稀有或细粒度类别的多模态模型（例如，诸如CLIP [33]的大规模模型在预训练期间可能没有看到足够的相对罕见的“陆鸟”或“水鸟”类的示例关注LAN量规规格香草CNN（GALS）CNN训练w/语言规范18093∼ −∼ −为了解决这些局限性，我们提出了一个新的框架，称为引导视觉注意力与语言规范，或GALS，其中我们将任务元数据提供的可用语言规范转换为空间注意力，用于在训练期间监督CNN图1显示了GALS如何能够将模型具体来说，我们首先利用现成的预训练视觉语言模型将文本信息嵌入到每个给定的图像中，并获得相应的显着性图。这是有效的并且不涉及额外的开销（即，不需要训练或每实例手动注释）。接下来，我们的目标是利用所获得的显着性图来通知视觉分类器。为了做到这一点，我们引导分类器的注意力向突出的区域从语言规范的显着最后，视觉分类器在获得高层注意力引导后，仍需要解决更细粒度的任务因此，它保留了一定的灵活性，例如，它甚至可以处理一些有用（无害）的上下文。在实践中，我们使用最近强大的CLIP [33]模型将文本信息嵌入图像。我们利用通过这种方法，我们可以在训练过程中通过辅助损失来合并语言规范，因此在推理过程。我们展示了GALS如何帮助训练具有显式和隐式偏见的数据。在包含已知的明确偏差（图像背景）的合成水鸟数据集[39]上，我们的方法能够在基线上实现每组准确度提高27%，包括使用无监督注意机制而不是语言指导的模型。GALS还显示出在具有挑战性的场景中最差组准确性提高了15%，其中类标签与分散注意力的背景完全相关（第二节）。4.2）。对于隐式偏差，其中训练和测试分布以未知的方式不同，我们看到GALS在明显性别识别的公平性指标上实现了41 - 45%的相对改善（第二节）。4.4）。我们还显示，来自Food-101 [2]子集的红肉分类任务的准确率提高了2%，其中隐含的偏见来自嘈杂的训练标签（Sec.4.3）。最后，我们证明了分类器的解释质量4.5）。代码和数据集可以在https://github.com/spetryk/GALS上找到。2. 相关工作使用实例注释解决偏差大多数解决视觉分类器偏见的先前作品都假设一些实例注释的形式可用。有些依赖于昂贵的空间注释，如对象掩码[11，20，34]或边界框[4]。Hendricks等人[11]解决图像字幕任务，他们希望通过在训练时使用人物面具来减少偏见放大并确保男性和女性性别的公平结果。其他人使用稍微便宜的图像级注释的偏见特征[1，15，39，42，46]。相比之下，在这项工作中，我们不假设实例级的偏见信息是可用的。相反，我们依赖于自动生成注意力引导与现成的语言规范。解决没有实例注释的偏差有几个作品在没有明确依赖于实例级偏差注释的情况下解决了偏差[5，25，29，44]。Clark等人[5]训练一个低容量和高容量模型的集合，迫使它们具有条件独立性，希望低容量模型将学习偏差特征，而高容量模型将学习任务相关特征。Nam等人[29]还训练两个模型，一个我们认为这一系列的研究作为我们努力的补充，并设想将这些想法与我们的想法结合起来。语言作为视觉任务的信息。在零/少数镜头设置中的重复语言已经被广泛探索。从类名中嵌入语言或去重以获得类一些工作还旨在使用它们的语义属性来学习类，以便更好地进行知识转换[17，26，49]。Mu等人[28]使用图像字幕来规则化少数镜头表示，以保持语义上有意义的信息。除了零/少数镜头学习，Kimet al. [16]将语言建议纳入自动驾驶控制器，从而产生性能更好且更易于解释的模型。Rupprecht等人[38]在分割任务的推理时间内交互使用语言来改进预训练的CNN。Ling等人[23]使用语言反馈来改进图像字幕模型。据我们所知，还没有作品探讨使用语言规范，以提高视觉注意力在偏见的情况下。视觉语言模型的信息基础。我们的方法的关键组成部分之一是利用现成的视觉和语言模型地面文本信息到图像。有大量关于视觉基础的工作，其中模型被训练为使用边界框[31，36]或分割掩码[12]来定位图像中的文本表达式。不幸的是，这些方法受到为训练集提供这些额外标签的成本的限制其他人可以处理更多的开放式查询，但可用培训的规模18094不不不Zi=1ZTZ不Z不不Z不不TZZZZ不nS不不{}T数据量小，因为它们需要昂贵的本地化监督，限制了这些方法的一般应用[14，31]。最近的视觉和语言模型CLIP [33]具有最先进的图像-文本检索能力。CLIP是在来自Web的4亿个图像-标题对上训练的，使其成为一个强大的通用表示。我们使用CLIP并在显着性可视化技术的帮助下获得基础信息[40]。视觉分类器的空间注意监控。我们的方法的另一个重要组成部分是引导视觉分类器内的空间注意力远离虚假特征。 Several prior works have explored super-vising spatial attention for, e.g., 防止灾难性的for-getting[6]，细粒度的识别[9]，域转移[55]和生成忠实的解释[37]。具体来说，基于正确原因的权利方法[37]惩罚基于用户定义的“正确原因”不允许的区域中的大输入梯度。我们利用这种方法来引导分类器的注意力3. 用语言在下文中，我们概述了GALS，我们的框架纳入语言规范，以指导视觉分类器;图2提供了我们的方法的概述。问题定义。在这项工作中，我们考虑的学习问题，我们给出了一个图像分类数据集x i，y i的预测任务与C类。此外，我们假设我们有任务的相应自然语言规范s或任务c中每个类的语言描述。我们还假设每个任务（例如，“鸟类分类”）。然后，我们使用预训练的视觉语言模型和空间注意力函数来计算每个图像的任务注意力的估计值。S.最后，我们使用这些估计监督fθ的空间注意力，引导它朝向任务相关的特征，远离不必要的偏差。语言规范。我们假设可以访问自然语言类名或任务描述，但不一定可以访问数据中存在的偏见我们认为，这是一个安全的假设-然后，我们使用所提供的自然语言来创建与预训练的视觉语言模型的选择兼容的s-例如，为了与CLIP兼容，我们在与任务相关的短语前加上每个实例的语言规范可以是相同的，也可以通过使用训练期间提供的标签来实现注意s在fθ训练之前创建一次，并且不需要单独注释每个图像，使我们的框架可以轻松扩展到大型数据集。根据语言规范生成估计值。考虑一个预先训练的多模态视觉和语言模型VL，它对图像特征和与之对应的语言短语有共同的理解。例如，VL可以是图像字幕或视觉基础模型，或者是在联合图像-文本监督下进行规模训练的模型，例如OSCAR [21]，VinVL [51]或CLIP[33]，我们在实验中使用后者。对于训练数据集中的每一个图像xi，我们预先计算-绘制空间注意力图AV L=AttVL（Tyi，x），其中图像xi∈R可以包含像素区域，V L h×w我是我与T无关，但与yi密切相关。Ai∈ R. 这是一个关于Zi的概率图为了对相关像素和虚假相关像素之间的区别进行建模，我们引入了一个潜在的二进制掩码ZiT∈ {0，1}h×w，对于每个图像xi，其编码相对于其中位置（u，v）处的注意力值估计像素xi（u，v）是任务相关特征的可能性AV L作为Z的估计值的质量取决于将每个像素的evance分配给任务。也就是说，如果iTi（u，v）= 1，则像素xi（u，v）的值为任务提供信息（否则为0）。注意，iT取决于预测任务。然而，为了便于标记，我们将在下文中省略iT接下来，考虑具有参数θ的图像分类模型fθ。我们的目标是学习一个最佳分类器fθ，它输出的预测yθ只依赖于任务相关的特征（其中i= 1）。由于i是不可观测的，我们不能通过简单地根据相关特征的位置掩蔽图像来学习fθ相反，我们希望估计概率图，其中每个条目xi，（u，v）对应于像素xi，（u，v）相关的概率。鉴于这种设置，我们的框架是三重的：首先，我们创建高级自然语言规范S，其描述与相关的语义概念。这是基于提供的类名（例如，预先训练的视觉和语言模型的能力视觉特征中的文本短语。然而，视觉和语言模型中的适当基础本身就是一个研究问题[24，35]。幸运的是，最近关于大规模图像语言预训练的工作已经带来了有希望的改进[21，33，51]。在这里，我们使用显着性方法Grad- CAM [40]来获得合理的注意力图。生成真实任务注意力的估计，这种方式提供了一种用于根据用户规范定位每个实例的任务相关特征的自动方法。它只需要对哪些语义概念与任务相关进行高级描述，我们将其视为机器学习系统用户的有效假设。用空间注意力指导分类器。接下来，对于每个图像xi，我们的目标是引导分类器fθ的空间注意力远离虚假的相关性，并转向任务相关的特征。为此，我们希望18095不我我一不我一ZLA我我我一- -一个我一不M Σ我我. dXi（1−Ai）。1ΣVLVLfθfθdyV+L图像编码器分类损失预测标签关注关注注意力丢失V+L文本编码器图2. GALS概述。我们的框架由三个部分组成。首先，我们创建一个语言规范% s基于提供的类任务的名称或描述。接下来，对于每个训练图像xi，我们使用预先训练的视觉和语言模型将文本信息以注意力图A V L的形式植入图像中。最后，当我们训练分类器fθ时，我们将AVL作为注意力我我监管这鼓励fθ将其注意力Afθ与任务相关的概念保持一致，远离干扰物。用在我们的框架的前一步中计算的s注意力映射VL来监督f θ的空间注意力。这需要一个函数Att fθ（x i，y i）来计算可微分注意力映射fθ。注意力图指定xi中与预测yi相关的空间位置。我们通过计算AVL和Afθ之间的损失Latt来监督分类器对每个训练图像xi的注意力。对于每个任务，然后结合（通过平均值或最大值）每个图像的相应注意力图，这作为我们的估计。一旦定义了提示，它们就被CLIP的文本编码器嵌入对于嵌入图像，我们使用CLIP的图像编码器，其具有由Radford等人[33 ]第33段。对于注意力函数AttVL（Ts，xi），最后的训练损失（θ，X，y，VL）为一批列车-具有m个样本的图像X被给出为：ML（θ，X，y，A）=−y·log（y）+λL（A，A）我们使用显着性方法GradCAM [40]之间的图像-文本相似性得分和图像编码器中最后一个卷积块之后的特征图。注意力整合。为了监督分类器的Mii=1我爱我我（一）请注意，我们采用了“为正确的原因而正确”的框架，即RRR [37]。存款准备金率的最初目标是提供其中λ是控制注意力监督强度的超参数我们提出的框架不需要对分类器fθ进行架构改变，并且仅将语言引导的空间注意力作为等式中的辅助损失项并入。（1）培训时间。因此，我们的框架在测试时不需要额外的知识。3.1. 模型设计选择视觉语言模型。我们使用CLIP（收缩式图像预训练模型）[33]作为我们的多模态V L模型。CLIP是在来自Web的4亿图像-标题对（x文本，x图像）上训练的。它由两个编码器组成，用于将x个文本和x个图像映射到一个共享的嵌入空间.对比目标鼓励形象和除了正确的预测之外，还需要对每个样本进行正确的解释。首先，用户提供与任务无关的区域的每图像二进制掩码。然后，它将这些区域中的输入梯度（输出y相对于输入x的梯度）进行归一化。因为我们的注意力地图VL指定任务的相关区域，我们采取1VL指定不相关的区域。然后我们计算这个和输入梯度之间的L1损失。我们将VL归一化为包含0到1之间的值（而不是使用二进制掩码），因为我们的目的是估计概率映射到真正的任务注意力Z。损失函数我们将GradCAM [40]应用于我们选择的VL模型（具有ResNet50主干的CLIP），以提供AV L，即预训练的ResNet50模型的输入梯度在ImageNet上作为为和基于RRR的损失，来自同一对的文本嵌入要靠近（由余弦距离测量），而来自不同对的嵌入要推开。我们包括使用基于CLIP的模式进行消融idXiatt.因此，我们在实验中使用的损失函数是：分类损失在附录[13，48]中对开源数据集进行了培训引起注意。对于语言规范，我们定义了一组CLIP风格的提示。这些是镶框的L（θ，X，y，AVL）=−100Mi=1 yxi`·log（yi）（二）作为简短的句子描述，如“a photo with类别文本细颗粒或+抽象“鸟”V+L型“A photo“一幅...+L18096λm。迪VL.M i=1与任务相关的概念。我们生成多个这样的提示`Attennmartiomartnlossx18097LAAL我一我们提出的框架不限于预训练模型V L，分类器fθ，生成注意力地图VL和fθ的机制以及注意力损失函数att的特定选择。下一节中的GALS指的是上述特定选项我们将消融纳入第二节。4.6和第C用于V L、Afθ和Latt的其他选择。4. 实验训练我们使用在ImageNet上预训练的ResNet50 [10]主干用于所有分类模型，输入图像分辨率为（224，224）。来自CLIP的GradCAM注意力图的大小为（7，7），这是来自最后一个卷积块的激活的空间分辨率。在计算L1损失之前，我们将它们重新调整到输入分辨率所有误差条显示10次试验的标准差。我们在附录中报告了关于训练参数（例如损失权重λ）和超参数扫描的更多细节基线。我们将我们的工作与几个基线进行比较，这些基线不需要每个实例的偏见特征知识。所有基线都使用相同的ResNet50主干以保持一致性。Vanilla的训练方式与我们框架中的fθ相同，只是没有注意力损失att。UpWeight与Vanilla相同，除了它使用类标签来解决类不平衡。它计算每个样本交叉熵的加权平均值。权重与样本类别在训练数据中的频率成反比，将权重1分配给样本最少的类别。注意力分支网络，或ABN[9]，在ResNet50的最后一个卷积块之前学习前馈注意力图，并将其与激活元素相乘，在传递到模型的其余部分它还基于注意力分支中的特征添加了额外的交叉熵损失项，以鼓励空间注意力是类特定的1。我们包括图的表格结果见附录。可视化。对于所有可视化，语言规范的注意力都是通过GradCAM生成的（如第二节所述）。3.1），并使用黑盒显着性方法RISE [30]生成分类器注意力。每个数据集的更多注意示例见附录。4.1. 数据集我们评估我们的方法在数据集上的显式和隐式的偏见。其他详细信息见附录，包括数据集大小和创建。每个数据集的许可证、PII和同意书详细信息见相应的论文。在显式偏置设置中，干扰项特征可以被清楚地定义和（潜在地）标记。我们使用合成的Waterbirds数据集进行实验[39]，其中偏差很容易控制。具体来说，来自CUB数据集[45]分为两类，陆地鸟类和水鸟。接下来，鸟类被分割出来并粘贴到Places数据集的随机陆地或水域背景上[53]。在训练过程中，大多数水鸟出现在水背景上，陆鸟出现在陆地背景上，而在验证/测试集中，每个类在陆地和水背景上具有相同数量的样本。我们考虑了两种情况，一种是训练数据中有一小部分样本（5%）与偏差相反（Waterbirds-95%），另一种是更具挑战性的，在训练过程中偏差和标签完全相关（Waterbirds-100%）。Food-101数据集[2]呈现了一种隐式偏差的情况，因为它是故意创建的，因此训练图像没有被清理-例如，图像包含错误标签，明亮颜色和视觉混乱形式的某些其他食物在某些类别中出现的频率高于其他类别（例如，酱汁出现更经常与婴儿背排骨比牛排）。另一方面，评价集被更彻底地清洁。我们构建了一个5向红肉分类任务之间的婴儿背肋骨，菲力牛排，猪排，肋排，牛排。我们提出了第二个具有隐式偏差的数据集MSCOCO-表观性别，它是基于MSCOCO标题[3]和先前的工作[11，52]构建的。在这个数据集中，明显的性别标签是根据人们在图像标题中反映的外表来定义的如[ 11 ]中所定义的，在讨论字幕中的人物时，有三种选择：“男人”、“女人”或中性术语，例如接下来，我们考虑一个针对明显性别的三向分类任务，使用提供的标题为类“Man”、“Woman”和“Person”（当注释者在标题中没有使用性别词时，后者）生成标签在这个数据集中有不同类型的虚假相关性，例如。女性在某些环境中出现的频率高于男性，或者干扰物与男性同时出现但不与女性同时出现，等等。4.2. 对水鸟的由于Waterbirds数据集的构建是为了鼓励模型关注背景而不是鸟，因此高级语言规范应该给出关注鸟的方向，将细粒度的区别性图像特征留给分类器来发现。具体来说，我们从两个CLIP提示中产生注意力，以减少噪音-“一只鸟的图像”和“一张鸟的照片”。我们将这些每个样本的注意力平均在一起，以获得VL2。在[39]之后，我们提出了每组的测试准确度，其中准确度在各组中权重相等（类别标签和背景的特定组合，即陆地上的陆鸟、水上的陆鸟、水上的水鸟和水上的水鸟），以及最差的群体准确性。我们特别1我们还试验了用局域网来监督ABN的注意力量规规格然而，其性能低于当前配方，我们将其纳入第4.6节的消融中。[2]在极少数情况下，对单个提示的注意力将为零。代替平均，我们使用第二个提示的非零注意力18098∼(a) 水鸟95%(b) 水鸟100%图3. 水鸟在Waterbirds-95%和Waterbirds-100%数据集上测试准确率。语言规范的重新定义导致比所有其他基线更高的准确性，包括零射击CLIP和用逻辑回归微调的CLIP。对最差的群体（通常是陆地上的水鸟）的表现感兴趣，当模型利用虚假的背景相关性时，这种表现受到的影响最大。概念为了说明像CLIP这样的大规模模型可能缺乏细粒度的任务特定知识，我们将我们的方法与零拍摄CLIP以及在CLIP图像编码器特征之上训练的逻辑回归进行了比较（以下[33]）。我们发现，CLIP的表现往往甚至不如Vanilla基线，这证明了通过将大规模多模态模型注意力与CNN结合在具有不熟悉概念的偏差数据集上来实现“两全其美”的价值水鸟-95%：如图所示3a，我们的方法在每组和最差组准确度上都优于所有基线。当考虑最差组准确度时，数据中的强偏差是明显的，这使Vanilla性能下降了约14%。我们的模型将最差组的性能从下一个最接近的类加权基线提高了2.88%，而不牺牲每组的准确性。水鸟-100%：因为类标签和背景是完全相关的，所以没有任何额外任务信息的分类器的性能取决于它是否更容易捕获真实信号或偏置信号。令人惊讶的是，ABN中的无监督注意力机制提供了7%的最差组性能提升，作为通过类别标签进行加权的补偿我们的模型在这方面有所改进，比ABN提高了15.15%。图4. 隐式偏倚的定性结果。注意红肉（上）和MSCOCO-AppartentGender（下）。在这些数据集上，由于隐含的偏见或噪声，香草分类器可能会注意到当我们将相关的特性与语言规范联系起来时，我们就能够将分类者4.2.1使用语言规范更改任务由于Waterbirds-100%训练集中的我们研究是否可以使用语言规范来选择模型在训练期间学习的假设：“鸟”或“背景”任务。为了研究这一点，我们保持训练集不变，但更新验证和测试标签以反映背景分类。我们使用短语“自然场景”，“户外场景”和“景观”，前面加上“照片”和“图像”，就像我们其他的实验一样。我们通过为每个像素取最大值来集成注意力地图一个普通的ResNet50基线达到86。测试集的每组准确度为75%，最差组准确度为72。百分之九十令人印象深刻的是，我们的方法在每组和最差组准确度上分别优于该基线2.22%和7.32%，证明了语言规范选择所需训练信号的灵活性4.3. 噪声数据除了帮助去除数据集中的显式上下文我们在Food-101数据集中与红肉有关的5个平衡类上进行训练，如前所述。我们从CLIP提示“肉的图像”和“肉的照片”中产生注意力我们的结果显示在表1中，并在图1中可视化4（顶部）显示我们的方法GALSVanilla ABN[9]准确度（%）71.20±0.8467.39 ±0.8869.44 ±1.12表1. 红肉。测试我们的方法，vanilla和ABN对红肉分类（Food-101数据集的子集）的准确性。注意语言规范香草CNN（GALS）CNN训练w/语言规范18099−ZZZZ人女人方法人女人其他女人人其他比率与结果发散香草83.606.2010.2066.8028.604.600.349 0.071荷兰银行[9]84.804.6010.6068.8025.405.800.339 0.068增加重量80.2011.208.6068.0028.603.400.272 0.040GALS79.8011.808.4074.2022.603.200.160 0.022表2.MSCOCO-表观性别。我们的方法的性能和MSCOCO-AppartentGender测试集的基线。每列中的最佳结果用粗体表示，次佳结果用下划线表示。整体表现优于ABN模型0.2%4.4. MSCOCO-表观性别的内隐偏见接下来，我们将讨论我们的方法在 MSCOCO-AppartentGender数据集上的另一种隐式偏差场景中的表现。我们遵循[11]的评估协议，并从CLIP提示“一个人的图像”和“一张人的照片”中产生注意力。表2总结了定量结果，图2总结了定量结果。图4（底部）显示了注意力地图的定性示例。对于每个分类为男人，女人，或其他。我们惩罚性别错误分类，但如果0 20 40 60指向游戏准确度（%）0 20 40 60指向游戏准确度（%）被预测到了。在这项任务中，我们关注几个方面。(1)训练数据是不平衡的（其中男性多于女性），因此我们的目标是减少测试时的偏差放大[11]。指标“比率三角洲”衡量预测的男性/女性比率与真实比率（等于1）的接近程度。0），即越低越好。我们的方法在这个指标中表现最好。(2)我们还力求确保男女获得平等的结果。在实践中，我们看到，男性往往比女性更准确地被识别，这可以从男性/男性值比女性/女性值更高看出Vanilla基线分别达到83.6%和66.8%的准确度）。正如我们所看到的，女性经常被错误地归类为男性（22 - 28%的方法）。“结果差异”度量测量两个类别的两组分数之间的詹森-香农差异[ 22 ]，即越低越好[11]。同样，我们的方法实现了最低的结果差异，在所有比较的方法中表现出最公平的行为。4.5. 注意力评估我们评估模型解释的质量，以确定语言规范除了提高准确性外，是否还能使模型出于正确的原因而为此，我们使用了指向游戏[50]，这是一种常见的模型解释评估。对于每个输入xi，指向游戏（PG）需要对应的模型解释ai和二进制掩码i，两者都具有与xi相同的维度。回想一下，i表示图像中与任务相关的像素。如果最大值图5. 指点游戏。 [50 ]第50章：你是谁？Waterbirds数据集的变体。MSCOCO-表观性别。我们测试使用RISE [30]生成的黑盒模型解释的峰值是否落在显著对象的分割标签内。它的解释Ai落在里面。换句话说，解释是“指向”图像中的正确区域。对于水鸟-95%和水鸟-100%，我们使用分段面膜鸟为。在MSCOCO-AppartentGender上，我们使用可用的人物分割掩码，如果存在多个人，则选择具有最大边界框的掩码以与我们的任务一致。Food-101中红肉的分割掩模不可用。为了生成模型解释，我们使用黑盒显着性方法RISE [30]。图5给出了我们的结果。我们的方法匹配MSCOCO上的ABN基线-表观性别。然而，我们的表现优于所有基准，水鸟9.4%-95%，水鸟12.8%-100%。4.6. 模型消融我们在表3中探索了V L模型和注意力方法的其他几种设计选择。更多V L模型消融可参见附录中的表10我们认为注意力分支网络（ABN）[9]作为分类模型，同时监督其前馈注意力地图（类似于[27]）。我们还尝试直接从ResNet50分类模型的最后一个卷积层为了生成语言规范，我们GALS香草ABN增加重量56.2069.3851.2059.98 55.8042.6051.7359.42 67.0064.4069.6059.2757.0046.4862.6025.96 57.8062.7026.3449.80数据集水鸟100%水鸟95%类人普通女性18100L注意语言规范香草CNN（GALS）CNN训练w/语言规范分类器注意力方法语言注意力来源验证精度每班陆鸟水鸟Cls. Att.方法浪Att.源男人女人人女人其他女人人其他R类ABN CLIP ViT 86.93 90.78 83.08ABN CLIP R50 86.10 90.25 81.95GradCAM CLIP ViT 87.2091.32 83.08GradCAM夹R50 84.44 89.92 78.95RR CLIP ViT88.25 92.2884.21电话：+86-051- 88888888传真： +86-051 - 88888888(a) 水鸟-95%ABN CLIP ViT84.4010.605.0068.4029.402.200.3060.274ABN CLIP R5090.605.4060.4037.601.800.485零点二八GradCAMCLIP ViT85.807.606.6070.2027.002.800.3100.331GradCAMCLIP R5083.407.409.204.00美元0.3110.298RRR CLIP ViT87.008.404.6029.801.600.3410.305RRR CLIP R5082.2010.607.2026.001.800.2350.309(b) MSCOCO-表观性别表3.不同分类器注意力方法和语言注意力来源在（a）水鸟95%和（b）MSCOCO-表观性别验证集上的比较在（a）中，我们报告类而不是组分数，因为我们不假设在验证时可以访问组标签第4节中的“GALS“方法使用CLIP ViT-B/32（表中的CLIPViT）进行实验我们表示为“GALS“的方法对应于具有RRR的行，作为用CLIPResNet50GradCAM注意力监督的分类器注意力方法。对于ABN和GradCAM 分类器注意力方法，我们以与RRR类似的方式计算att作为L1损失-在A VL较低的情况下惩罚A f θ，而不是将A fθ直接匹配到A VL，发现这会带来更好的性能。我们选择了RRR+CLIPR50，因为它在少数类别的准确性和公平性方面具有最一致的性能。5. 限制和更广泛的影响在这项工作中，我们专注于一个场景，在训练时的数据集偏差在测试时不存在。这是一个重要的问题，对自动驾驶或医学成像等高风险领域具有严重影响。一般来说，随着机器学习方法的普及并影响人们因此，我们设想我们为缓解这一问题所做的工作可能产生积极影响。本工作中使用的数据集之一（MSCOCO-表观性别）来自[11]中介绍的图像标题MSCOCO-偏差和MSCOCO-平衡分割。在[11]之后，我们考虑三种性别类别：男性，女性和性别中立（例如，人）基于视觉外观。性别标签是使用先前收集的公开发布的数据集确定的，其中注释者描述了图像[3]。重要的是，图像中的人没有被要求识别他们的性别。因此，我们强调，我们不是在对生物性别或性别认同进行分类，而是在对外在的性别外观进行分类。特别是，我们感兴趣的是减少性别与上下文特征的纠缠我们还想指出的是，在我们的实验中，我们使用了现成的大规模视觉语言模型（CLIP [33]），该模型可能已经编码了一些内部偏差，这些偏差是从训练数据中转移过来的。具体来说，CLIP是在400 M图像-标题对上训练的来源于网络，所以我们不能排除偏见或有害的存在（例如，性别或种族）的刻板印象。希望使用我们的方法的从业者应该注意这些偏见的来源。如第3，GALS限于可以从相关特征逐像素分离的偏差。作为一个反例，它不适用于对一个人的年龄进行分类的任务当视觉和语言模型不能为语言规范提供基础时，GALS也会遇到困难。（六）。在其他场景中，CLIP可能会在提示更复杂的情况下挣扎，例如6. 确认我们要感谢Dr. Sayna Ebrahimi进行了有益的讨论。这项工作得到了国防部的部分支持，包括DARPA的LwLL和/或SemaFor计划，以及伯克利人工智能研究（BAIR）工业联盟计划。除了NSF CISE ExpeditionsAward CCF-1730628之外，这项研究还得到了亚马逊网络服务、蚂蚁集团、爱立信、Face- book、Futurewei、谷歌、英特尔、微软、加拿大丰业银行和VMware的捐赠支持。图6. 局限性。对红肉（上）和水鸟（下）数据集的CLIP关注度差的示例。由于GALS是由语言规范的注意监督的，当语言规范产生的注意不本地化任务相关特征时，我们的分类器18101引用[1] Ehsan Adeli，Qingyu Zhao，Adolf Pfefferbaum，Edith VSul-Zhao，Li Fei-Fei，Juan Carlos Niebles，and Kilian MPohl.具有统计独立性的表示学习。在IEEE/CVF计算机视觉应用冬季会议论文集，第25132[2] Lukas Bossard、Matthieu Guillaumin和Luc Van Gool。Food-101 -用随机森林挖掘判别成分。2014年欧洲计算机视觉会议。二五十二[3] Xinlei Chen ， Hao Fang ， Tsung-Yi Lin ， RamakrishnaVedan- tam ， Saurabh Gupta ， Piotr Dollár ， and CLawrence Zitnick.Microsoft COCO字幕：数据收集和评估服务器。arXiv预印本arXiv：1504.00325，2015。五、八[4] Jinwoo Choi，Chen Gao，Joseph CE Messou，and Jia-Bin Huang.为什么我不能在商场里跳舞？学习在动作识别中对场景偏置进行调节。神经信息处理系统进展（NeurIPS），2019年。2[5] Christopher Clark，Mark Yatskar，and Luke Zettlemoyer.学习使用混合容量集合建模并忽略数据集偏差在计算语言学协会的调查结果中：EMNLP 2020，2020。2[6] Sayna Ebrahimi ， Suzanne Petryk ， Akash Gokul ，William Gan ，Joseph E Gonzalez，Marcus Rohrbach ，and Trevor Darrell.记住正确的理由：记忆减少了灾难性的遗忘。arXiv预印本arXiv：2010.01528，2020。3[7] Mohamed Elhoseiny、Babak Saleh和Ahmed Elgammal。写一个分类器：使用纯文本描述的零镜头学习。在Proceedings of the IEEE International Conference onComputer Vision，第2584-2591页，2013中。一、二[8] 安德烈·弗罗姆、格雷格·S·科拉多、乔纳森·施伦斯、萨米·本吉奥、杰弗里·迪恩、马克Devise：一个深度视觉语义嵌入模型。在2013年第26届神经信息处理系统国际会议的论文集-第2卷，第2121-2129页。2[9] HiroshiFukui，TsubasaHirakawa，TakayoshiYamashita，and Hironobu Fujiyoshi.注意分支网络：视觉解释的注意机制学习。在IEEE/CVF计算机视觉和模式识别会议论文集，第10705-10714页，2019年。三五六七[10] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。5[11] Lisa Anne Hendricks ， Kaylee Burns ， Kate Saenko ，Trevor Darrell和Anna Rohrbach。妇女也滑雪：克服偏见的字幕模式.在欧洲计算机视觉会议（ECCV）的会议记录中，第771-787页，2018年。二、五、七、八、十二[12] 胡荣航马库斯·罗尔巴赫和特雷弗·达雷尔。从自然语言表达中分割。在欧洲计算机视觉会议上，第108-124页。施普林格，2016年。2[13] Gabriel Ilharco、Mitchell Wortsman、Nicholas Carlini、Rohan Taori、Achal Dave、Vaishaal Shankar、HongseokNamkoong 、 John Miller 、 Hannaneh Hajishirzi 、 AliFarhadi和Ludwig Schmidt。打开弹夹，72021. 四、十三、十五[14] Sahar Kazemzadeh，Vicente Ordonez，Mark Matten，andTamara Berg.推荐游戏：在自然景物的照相照片中提到物体的。在 Proceedings of the 2014 conference onempiricalmethodsinnaturallanguageprocessing（EMNLP），pages 787-798，2014中。3[15] Byungju Kim、Hyunwoo Kim、Kyungsu Kim、Sungji

下载后可阅读完整内容，剩余1页未读，立即下载