降低上下文偏差：从背景学习特征表示

65 浏览量更新于2023-10-25 收藏 2.24MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

11070Don’tKrishna Kumar Singh1，Dhruv Mahajan2，Kristen Grauman2，3，Yong Jae Lee1，MattFeiszli2，Deepti Ghadiyaram21加州大学戴维斯分校，2Facebook AI，3德克萨斯大学奥斯汀分校摘要现有的模型通常利用对象及其上下文之间的共现来提高识别精度。然而，强烈依赖于上下文的风险模型这项工作的重点是解决这种上下文的偏见，以提高学习的特征表示的鲁棒性。我们的目标是在没有上下文的情况下准确地识别一个cat-egory，而不影响它与上下文同时出现时的性能。我们的核心思想是去相关的特征表示的一个类别，从其共同出现的背景。我们通过学习一个明确表示类别的特征子空间来实现这一点，该特征子空间在没有上下文的情况下出现-环，同时表示类别和上下文的联合特征子空间我们非常简单而有效的方法是可扩展的两个多标签任务在4个具有挑战性的数据集上，我们证明了我们的方法在减少上下文偏差方面的有效性1. 介绍视觉环境作为人类视觉系统的一个有价值的辅助线索，用于场景解释和对象识别[4]。上下文可以是以下内容的共现图1. 顶部（上下文偏差的原因）：类别“skateboard”的样本训练图像。注意它是如何经常与“人”一起出现的，在滑板只发生的罕见底部（这种偏差的影响）：这种数据偏斜导致典型的分类器依赖于我们所提出的方法克服了这种背景偏见，学习功能表示，从其背景下解相关的类别。突出的视觉数据集受到几种形式的偏差的困扰。让我们考虑一个物体类别“微波”。属于这一类别的图像的很大一部分可能是在厨房环境中捕获的，在厨房环境中，诸如“冰箱”、“厨房水槽”和“烤箱”之类的其他对象这可能会在无意中导致这些数据集中的上下文偏差，从而导致对象和场景（例如，“boat” is often present in水”）或给定场景中的两个或更多个对象（例如，“skis”经常与“skier”一起出现）。当视觉信号不明确或不完整时（例如，由于遮挡、场景捕获的视点等）。过去的研究明确地对上下文进行了建模，并显示了对标准视觉任务（如分类[30]和检测[13，3]）的好处。同时，卷积网络通过设计隐式地捕获上下文。深度网络依赖于大规模注释数据集的可用性[22，12]进行训练。强调的在[32，31]中，尽管它的创造者尽了最大的努力，转化为训练过的模型具体地，在学习在这样的（有偏见的）训练数据集中分离正面和负面情况的特征的过程中，深度区分模型通常也可以强烈地捕获与感兴趣的类别共现的上下文。这个问题在我们没有明确的位置注释的设置中加剧（例如，边界框和分割掩模），并且被训练的模型必须仅依赖于图像级注释来执行多标签分类。让一个模型隐式地学习在没有位置注释的情况下定位这种上下文偏向的类别是具有挑战性的。偏倚原因滑板与人vs.一种无人滑板效果滑板用凸轮拟议预算从正确的错误的事情中学习滑板用凸轮拟议预算无法识别即使上下文不存在时也11071如果一个模型无意中学习到了这种相关性，那又有什么关系呢？我们认为这可能会在两个方面造成问题： (1)没有在不同的地方识别“微波”- 例如“室外”场景或在没有“冰箱”的情况下的幻觉，共现偏差的问题在视觉属性中也很普遍[23，35]。例如，在DeepFashion数据集[23]中，属性这导致不太可信的分类器难以识别具有“花”的衣服中的“花”。最近的研究发现，由于语言和视觉数据集的固有偏见，训练模型会犯更严重的错误-由于数据中的偏差而导致的这种严重混乱阻碍了这些模型在现实世界应用中的部署。考虑到这些问题，我们的目标是训练一个无偏见的视觉分类器，它可以在存在和不存在上下文的情况下准确地识别类别。具体来说，给定两个具有强烈共现偏差的类别，我们的目标是在其中任何一个单独出现时准确识别它们，同时在它们共现时不损害性能。为此，我们提出两个关键的想法。首先，我们假设网络应该更多地依赖于其对应的像素区域而不是其上下文来了解一个类别。由于我们只有类标签，我们使用类激活图（CAM）[37]作为“弱”位置注释，并最大限度地减少它们的相互空间重叠。在此基础上，我们设计了第二种方法，该方法学习特征表示来将类别与其上下文解相关。虽然网络学习的整个特征空间共同表示类别和上下文，但我们明确地划分出一个子空间来表示远离典型上下文的类别。我们只从训练实例中学习这个特征子空间，其中在没有上下文的情况下发生有偏见的类别。在所有其他情况下，模型还应该利用上下文，从而利用整个特征空间。在测试时，我们不做这样的区分，整个特征空间都被平等地利用。因此，在图1的示例中，1、我们的目标是学习一个特征子空间来表示“滑板”，同时整个特征空间共同代表“滑板”和“人”。通过广泛的评估，我们证明了重要的-在困难的情况下，血淋淋的发生远离其典型的背景。至关重要的是，我们表明，我们的框架不会对识别性能产生不利影响时，类别和上下文共同出现。总而言之，我们做出了以下贡献：• 为了教会网络“从正确的事情中学习”，我们提出了一种方法，该方法最大限度地减少了协同神经网络的发生类别（Sec. 4.1）。• 基于基于CAM方法的见解，我们提出了第二种方法，该方法学习将上下文与类别解相关的特征4.2）。• 我们将这两种方法应用于两个任务：对象和属性分类，以及4个数据集，并实现了显著的提升超过强基线的困难情况下，一个范畴发生远离其典型的上下文（节。（五）。2. 相关工作消除偏见：先前的工作[32，19，33，31]已经表明，现有的数据集存在偏差，并且不能完全代表现实世界。因此，在这些数据上训练的模型将难以推广到无偏差的情况。减少数据集偏差的尝试包括域自适应技术[9]和数据重新采样[7，21]，例如，以便更好地代表少数类实例。数据重新采样的一个限制是它可能涉及减少数据集，导致次优模型。最近的对抗性学习方法[2，20]试图减轻来自学习的特征表示的偏差，同时优化手头任务的性能（例如，在对年龄进行分类时消除性别偏见）。然而，这些方法不能直接应用于减轻语境偏见，因为语境（偏见因素）仍然可以用于澄清，因此不能简单地将其删除。其他人研究图像字幕背景下的各种形式的偏见（例如，性别偏见）[16]，图像分类（例如，种族偏见）[28]，和物体识别（例如，社会经济偏见）[11]。总的来说，视觉识别中的上下文偏差仍然相对不足。共现偏倚：语境偏差是自然语言处理领域中研究得很好的问题[25，29]，但在计算机视觉领域的研究却相对较少在视觉方面，大多数努力都将上下文视为有用的线索[13，3]。一些努力已经表明，识别模型将无法识别没有共同出现的上下文的对象，但没有提出解决方案[8，26]。最近的一种方法减少了视频动作识别中的上下文偏差[34]，但它依赖于时间信息，因此不能应用于我们在这项工作中解决的图像识别问题。预深度学习方法[17]通过利用属性语义分组形式的额外知识来减少视觉属性之间的相关性（偏差）。最近[38]试图通过学习聚焦的前向特征来减少对象检测的上下文偏差，但它们需要昂贵的边界框注释。相比之下，我们的深度学习方法除了对象/属性类标签之外不需要任何额外的监督。最重要的是，据我们所知，没有以前的工作集中在减轻上下文偏见的对象分类，因为我们在本文中所做的。与少拍学习的关系：最后，上下文偏见11072B偏差（b，c）=克拉西菲耶河我们量化了b和z之间的bias的程度如下所示1Σp（i，b）|I∈ II|I∈I ∩I图2. 由于b与c的高共现率，量化b中的偏倚。也可以被表述为少数镜头[27，18，1]或类偏置（b，z）=1|Ib\Iz|ΣI∈Ib\Izp（i，b）、（1）不平衡[14，10]问题，因为图像中的对象出现时没有它们通常共同出现的上下文（例如，键盘旁边没有鼠标）相对较少。然而，正如我们在实验中所展示的那样，将这种罕见的（排他性的）图像作为一个单独的类或简单地赋予它们更高的权重可能是次优的。3. 问题设置我们的方法的前提下，对应于几个类别的训练因此，我们把它们称为有偏见的类别。我们对测试数据的分布不做这样的假设。例如，COCO-Stuff [6]有2209张图片中在这样的偏斜数据上训练的模型可能无法识别“滑雪”何时我们的目标是学习一个对这种训练数据偏差具有鲁棒性的特征特别是，给定一个（大概）无偏的测试数据集，我们的目标是（1）正确识别我们的方法的一个关键方面是识别给定数据集的最有偏见的类别，我们将在下面描述。3.1. 识别有偏见的类别假设我们正在学习一个多标签训练数据集上的分类器，该数据集具有M个类别的词汇表。这些类别中只有少数类别存在上下文1偏差;因此，我们方法的一个关键方面是找到这组K类别对S={（bj，cj）}，其中0≤jK，其遭受<大部分来自共同发生的偏见2。Having，bj（例如直觉：虽然有几种方法可以构建S，但我们的方法是建立在以下直觉上的：如果（1）在不存在C的情况下B的预测概率显著下降，以及（2）B与C频繁地共同出现，则给定类别B最受C的偏置。我们现在定义我们的方法来识别给定b的c。对于给定的范畴z，设Ib<$Iz和Ib\Iz分别表示b在有z和无z的情况下出现的像的集合。令p（i，b）表示通过训练标准多标签而获得的类别b的图像i的预测概率[1]在全文中，我们交替使用上下文和共现。[2]虽然我们自始至终都考虑成对的同现类别，但所提出的方法可扩展到任何数量的同现类别。哪里|. | denotes cardinality of a set.等式（1）测量了当有z和没有z时，类别b的平均预测概率的比率（见图2）。较高的值指示b对z的较高依赖性。我们确定c如下：c = arg最大偏差（b，z）（2）z也就是说，对于每个b，我们确定一个类别c，它（i）产生最高的偏差值，（ii）共现至少10-20%的次数（见第2节）。4.3）与B.然后我们用K个最有偏的类别对构造S我们注意到，上述-仿真是定向的，即，它仅捕获由于c而引起的b中的偏差。例如，bias（ski，person）仅捕获由于“person”而导致的“ski”中的bias接下来，我们提出了两种方法来对抗训练数据中的共现偏差。这两种方法的输入是（1）训练图像及其相关的弱（多个）类别标签，以及（2）由K个最有偏见的类别对组成的集合S（从等式2中识别）。①①）。我们强调，训练图像只有弱标签说明哪些类别存在;它们没有空间注释说明每个类别在图像中的位置4. 方法我们的第一种方法依赖于类激活图（CAM）作为“弱”自动推断的位置注释，并最大限度地减少它们在有偏见的类别之间的空间重叠。4.1）。基于这种基于CAM的方法的观察结果，我们提出了第二种方法，该方法通过在有偏见的类别与上下文共现时鼓励上下文共享来学习特征空间，而在孤立发生时抑制上下文（第二节）。4.2）。4.1. CAM作为我们的方法基于以下前提：因为B几乎总是与C同时出现，所以网络可以学习到不经意地依赖于对应于C的像素来预测B。当网络在没有c的情况下出现b的图像上进行测试时，这尤其成问题。我们假设克服这个问题的一种方法是明确地强制网络减少对c虽然这对于像“人”和“衬衫”这样的遮挡对b bb cz11073CAMpre（i，skateboard）CAM（i，滑板）分类CAM（i，人）CAM前（i，人）损失（卢布）特征提取器重叠损失OS图像i正则化损失（L和R）我们使用一个标准的二进制交叉熵损失（LBCE）的多标签分类的任务。因此，我们最后的损失是：滑板、人正则化损失（L和R）LCAM =λ1LO +λ2LR + LBCE，（5）图3为整个方法。正如我们在结果中所显示的那样（第二节）。5），我们的CAM为基础的方法成功地学会更多地依赖于偏见类别当一个有偏见的类别在没有其典型背景的情况下发生时，我们的方法会产生很大的但是，当出现以下情况时，图3. 我们基于CAM的方法在类别标签上操作，不需要地面实况位置注释。相反，我们利用CAM作为弱位置注释，并建议最大限度地减少有偏见的类别和它的共现上下文之间的相互重叠。类激活图：为此，我们建议使用类激活映射（CAM）[37]作为对象本地化信息的代理。对于给定的图像i和类别r，CAM（i，r）表示深度网络用于识别r的区分图像区域。具体而言，任何典型网络的最终卷积层（convf）之后是全局池化和全连接（fc）层，其预测图像i中的类别r的得分。CAM（i，r）是通过将r的fc层的权重投影回convf并计算特征图的加权平均值来生成的。虽然CAM通常被用作可视化技术，但在这项工作中，我们也使用它们来减少上下文偏差，如我们接下来所描述的。配方：在我们的设置中，对于S中的每个有偏类别对（b，c）（在第二节中定义），3.1），我们通过损失函数强制其CAM的最小重叠：ΣLO = CAM（i，b）|CAM（i，c）（3）i∈Ib<$IcCAM提供了两个很好的属性：（1）它只通过类标签学习，而不需要任何注释工作;（2）它是完全可区分的，因此可以在训练期间集成到端到端网络中。理想情况下，方程（3）应该学会减少同现类别之间的空间重叠，而不会损害分类性能。然而，当试图最小化重叠时，等式（3）也可能导致微不足道的解决方案其中b和c的CAM偏离它们的实际像素区域。为了在没有强监督空间注释的情况下防止这种情况，我们引入了正则化项LR。具体来说，我们为标准分类任务预训练一个单独的网络（离线），并从中为b和c生成CAM pre。然后，我们将每个类别的CAM接地，使其更接近从CAMpre预测的像素区域。因此，L R定义如下：Σ有偏见的类别与上下文共现（稍后在图（七）. 一个原因可能是围绕共现类别的像素区域也为识别有偏类别提供了有用由于不鼓励相互空间重叠，基于CAM的方法可能无法利用这些信息。这个关键的洞察力导致了我们下一个方法的制定，它将特征空间分成两部分，分别表示上下文和类别，同时对它们的空间范围没有任何限制。4.2. 特征分裂和选择性上下文抑制而不是优化CAM，我们建议学习一个特征空间，它对训练数据中固有的同现偏差具有鲁棒性。我们观察到，当一个有偏见的类别与上下文共现时，通常会在视觉上与它只出现的情况截然不同（见图2）。1）。这促使我们学习一个专用的特征（子）空间来表示偏离其典型上下文的有偏见的类别。虽然由模型学习的整个特征空间共同表示上下文和类别，但这个专用子空间应该将类别的表示我们只从训练实例中学习这个特征子空间，在训练实例中，有偏见的类别在没有典型上下文的情况下发生这些修改只影响训练;在推理时，架构与标准模型相同。公式化：给定深度神经网络φ，令x表示完全连接层（fc）之前的最终池化层的D维输出令与fc层相关联的权重矩阵为W∈RD×M，其中M表示给定多标签数据集中的类别数量的由分类器推断的预测分数（忽略偏差项）是y=WTx。（六）因为我们希望将类别的特征表示与其上下文分开，所以我们（按行）将W随机分为两个不相交的子集：W o和W s，每个维度D×M。因此，x被分成xo和xs，LR=i∈Ib<$Ic|+|+（四）2上述等式可以重写为：|CAM（i，c）−CAM（i，c）|y=WTxo+WTxs。（七）预11074|I\I|Cb滑滑雪，人训练数据独家？上下文共享xoWo+xsWsX Wo o+上下文抑制图4. 我们的特征分割方法，其中图像及其相关类别标签作为输入提供。在训练过程中，我们将特征空间分成两个相等的子空间：xo和xs。如果一个训练实例在没有上下文的情况下有一个有偏见的类别，我们抑制xs（没有反向传播），迫使模型利用xo。在所有其他情况下，xo和xs被同等对待。在推理时，整个特征空间被同等地利用。在一个有偏见的类别在没有上下文的情况下发生的情况下，我们希望通过抑制W s来强制网络只依赖Wo。这一步允许网络明确地捕捉有偏见的类别特定的信息时，它发生远离其上下文在W o。另一方面，当一个有偏见的类别与它的上下文同时出现时，我们希望鼓励网络利用W o和W s。这将允许网络在完整的特征空间中联合编码类别和上下文。为了实现这一点，我们做了两个小的修改，一个标准的分类时，发生偏离其典型的上下文的偏见类别。首先，我们通过W s禁用反向传播，从而迫使网络只能通过W o学习。其次，我们将xs设置为一个常数值。我们相信这两个简单的修改允许我们在选择性的情况下抑制上下文，即，当一个有偏见的类别发生偏离其上下文。例如，当ski在其典型的上下文人不存在的情况下出现时，我们的方法抑制W s，从而鼓励W o对其出现进行编码;当滑雪与人同时出现时，W o和W s都被利用。在实践中，我们设置x s= x <$s，其中x <$s是过去10个小批的x s的平均值，并允许更稳定的训练。此外，x 's更接近于测试时x s见证的值的范围。加权损失背后的直觉：我们的方法的一个基本方面是，在没有上下文的情况下，有偏见的类别很少出现，这使得训练数据不对称（见第二节）。（3）第三章。这是一个问题，因为Wo仅从（非常少的）样本中学习，这些样本在没有典型上下文的情况下发生偏见类别。我们通过将更高的权重与这样的训练样本相关联来解决这个问题所有其他样品均相等称重。具体来说，我们定义一个权重α，使得√会导致更多的数据偏态。3 .第三章。给定地面真值标签t和sigmoid函数σ，我们的加权二进制交叉熵损失定义如下：LBCE=−α（tlog（σ（y））+（1−t）log（1−σ（y），（9）图4说明了所提出的方法。虽然标准分类器联合编码类别和上下文，但它无法识别在没有上下文的情况下出现的有偏见的类别。相比之下，我们的方法分裂的特征空间和代表偏见的类别发生在一个dedicated子空间没有上下文。正如我们将在结果中显示的那样，由于选择性上下文抑制，该特征子空间成功地捕获了类别特定的信息。此外，在第二子空间中，我们的方法有效地利用上下文，并将其与类别联合编码。正如我们在结果中所示，在可用时利用上下文，将此方法与第2节中描述的基于CAM的方法区分开来。4.1并在识别绩效中起关键作用。此外，虽然我们选择性地抑制上下文时，有偏见的类别发生远离其上下文，基于CAM的方法优化相互空间重叠时，有偏见的类别与上下文共现。我们强调，这两种方法仅适用于K个有偏类别对;因此，对于其他（非偏置）类别的误分类损失也在学习中起重要作用。最后，我们的方法对类别的空间范围没有限制;因此，与我们基于CAM的方法，是可扩展的属性。4.3. 训练设置确定有偏见的类别：对于每个类别，我们首先确定其他频繁出现的类别（至少 10%-20% 次，基于数据集）。接下来，我们将训练数据划分为不重叠的80-20分裂。我们训练一个标准的多类分类器，|IbIc|、当b发生时，α=1其他（八）80%分离和计算偏差（等式10）（1）20%的分割。虽然在这项工作中提出的两种方法都可以应用于任何数量的有偏类别对，我们发现，K=20（秒）3.1）充分捕捉偏见的类别因此，α是类别在存在时发生的训练实例的数量与没有上下文。对于给定的有偏类别指数，我们在这里研究的所有数据集。3在实践中，我们确保α至少是αmin（常数值>1），当B只发生冷冻_xsWs分类损失特征提取器.....滑板、人滑板，狗................11075∪数据集任务#类#训练/#测试MS COCO + Stuff [6]UnRel [24]对象对象1714382 783/40 504- 1 071人[23]第二十三话AwA [35]属性属性25085209,222/40,00030 337/6 985表1. 评估数据集的属性。对于COCO-Stuff，我们使用COCO-2014split [ 22 ]中的对象训练和验证数据。b Exclusive的测试集：+的正负共现：+的正负图5.我们的评估设置有两种不同的测试数据分布：(1) （2）共同发生。我们的目标是在不影响（2）的情况下提高（1）的识别性能。最佳化：我们遵循两个阶段的培训程序：在第一阶段，我们从一个预先训练好的网络开始，一个主干，并在给定数据集的所有类别上对其进行微调。这一步确保网络学习目标任务的有用上下文线索在第二阶段中，我们微调我们的网络，并分别应用在每种方法中定义的修改后的损失。在基于CAM的AP中，通过这种方法，我们减少了|K|类别对;在特征分割方法中，当|K|有偏见的类别排他性地出现，并鼓励在所有其他场景中的上下文共享。实施详情：对于这两种方法，我们使用在ImageNet上预训练的ResNet-50 [15]作为骨干。对于第一阶段，初始学习率为0。使用1，其随后在用于学习速率的标准阶跃分解过程之后除以10接下来，在第二阶段的训练中，我们以0的学习率训练网络。01两种方法对于基于CAM的方法，我们将λ1和λ2设置为0。1和0。01分别输入图像的大小调整为最短边为256，随机裁剪大小为224×224用于训练。为了增加训练数据，我们水平翻转图像。我们使用200的批量大小和随机梯度下降进行优化。我们的模型使用PyTorch实现1.0. 这两种方法的总体训练时间与标准分类器的训练时间非常接近，并且它们的推理时间与标准分类器的推理时间完全相同。5. 实验在本节中，我们将研究我们的方法在两项任务中的有效性：对象和属性分类。我们首先描述我们的评估设置，然后报告四个图像数据集对竞争基线的定性和定量性能数据集：我们在四个多标签数据集上评估了我们的方法（总结见表1）。这些数据集的选择是由它们表现出强烈的协同作用这一事实驱动的。发生偏差我们在补充材料中总结了它们的共现统计学。 [23]第二十三话我们只考虑训练数据中的250个最频繁的属性，因为其他属性没有足够的训练样本。对于具有属性的动物（AwA）[17，35]，遵循惯例，我们在看到的（40）动物类别上训练属性预测网络，并在未看到的（10）类别上进行评估最后，UnRel数据集[24]包含不寻常背景下的对象图像，因为它们是从罕见和不寻常的三元组查询（例如，“人骑长颈鹿”，“狗骑自行车”）。我们在这个数据集上对我们在COCO-Stuff上预训练的模型的泛化能力进行了压力测试。Evaluation setup: We reiterate that our goal istoim-prove performance when highly biased categories occur ex-clusively, without losing much performance when they co-occur with other categories.为此，对于每个数据集，我们首先确定最有偏见的类别对（三）按照《办法》第二条的规定。第3.1条接下来，对于这些（b，c）类别对，我们报告了两种不同测试数据分布的性能：（1）exclusive：b永远不会与c发生，(2) 共现：b总是与c共现。我们说明了图中的两个测试分布五、我们报告了前3名召回，DeepFashion [23]和所有其他数据集的mAP。基线：除了使用每个类别的二进制交叉熵损失训练的标准分类器外，我们还比较了以下解决共现偏差问题的最先进方法：（1）类平衡损失[10]，通过将有偏见的类别仅作为尾类出现的场景处理;（2）属性去相关方法[17]，我们用深度网络特征（ResNet-50的conv 5特征）替换手工制作的特征，以进行更公平的比较。为了进一步测试我们的方法的强度，我们设计了以下有竞争力的基线：1. 删除同现标签，其中我们在训练期间为S中的每个b删除对应于c的标签。通过移除对共现类别的监督，我们打算软化模型上的上下文诱导的偏差。2. 删除同现图像的动机与(2)而是我们移除其中有偏见的类别和上下文共同出现的训练实例。3. 加权损失，当有偏见的类别只发生时，我们对损失应用10倍的权重4. 负惩罚，如果网络在有偏见的类别只出现的情况下预测共现类别，则我们分配一个大的负惩罚。5.1. 对象分类性能5.1.1总体结果在表2中，我们报告了COCO-Stuff在20个最有偏见的类别中的表现。首先，我们观察到，标准分类器具有更好的性能，共同出现相比，排他性的测试分裂。这清楚地表明了COCO-Stuff中存在的固有上下文偏见，因为标准分类器在有偏见的分类时会挣扎测试图像b bb c∪11076(a) 遥控器凸轮（b）滑板表2. COCO-Stuff在20个最有偏见的类别中的表现。我们的两种方法在所有基线上都表现得非常好，除了加权损失和删除独占测试分割上的共现图像，同时成功地保持了共现测试分割上的性能。血腥场面不会与上下文同时出现。类别平衡损失产生边际收益，表明单独权衡罕见的排他性情况不能解决上下文偏差。接下来，我们观察到ours-CAM和ours-feature- split都比标准高1。9%和4。3%，分别在排他性测试集上。ours-feature-split的下降幅度非常小，为0。2%的同时发生的分裂，与标准相比，而性能下降更高，为我们的- CAM。在诸如“ski”和“skateboard”之类的与“person”具有非常高的同现偏差的类别上，我们的特征分割的mAP提升为24。2%和19。5%（附录中两种方法的每类mAP）材料）。与其他基线的比较：我们注意到，去除共现图像的方法表现不佳，因为它只依赖于有偏见的类别的独家图像，而没有利用大量的共现图像提供互补的视觉信息。加权损失提高了独家测试分割与我们的功能分割的性能（30.4%对28.8%），但显著严重损害了同时发生的拆分的性能（ 60.8% 与66.0%）。负惩罚并不损害共现分裂，但与我们的方法相比，在独占分裂上具有较差的性能。我们还注意到，这些方法表现出的性能趋势在我们测试的所有其他数据集上都是一致的;对于所有未来的实验，我们将我们的方法与标准和类平衡损失进行比较。无偏见类别的表现：我们对COCO-Stuff的60个无偏见对象类别进行了评估，并观察到我们的CAM和我们的特征分割都与标准相当，只有非常轻微的下降0。2%总体mAP（详情见附录）材料）。这表明，我们的方法，同时成功地提高了性能，偏向的类别不会不利地影响其余的（非偏向的）类别。标准Ours-CAM标准Ours-CAM图6. 从正确的事情中学习：ours-CAM（a）“远程”是由“人”上下文偏置的。在没有“人”的情况下(b)“skateboard”与“person”同时出现。由于上下文偏差，标准错误地关注滑板凸轮我们的CAMOurs-feature-split Ours-CAMOurs-feature-split图7. 在图像上的ours-CAM与ours-feature-split，其中ours-feature-split能够识别ours-CAM失败的位置。我们的-CAM主要关注对象，不使用上下文，而我们的- feature-split使用上下文进行更好的预测。图8. 从正确的事情中学习：ours-feature-split前3列表示成功案例，其中ours-feature-split识别偏离其上下文而标准失败的有偏见的类别。最后一列：标准和我们的功能分割都失败的失败案例。有偏见的分类在两种情况下，一个有偏见的类别与上下文共同出现，以及在它的缺席发生，我们的- CAM集中在正确的类别，从而ours-CAM与ours-feature-split：图7呈现了ours-feature-split成功但ours-CAM努力识别有偏见的类别的情况。我们观察到，虽然我们的-CAM正确地集中在类别standardvs.ours-feature-split：图中的前3列。8提供了标准分类器失败但我们的特征分割成功的证据。例如，我们的方法5.1.2定性分析接下来，我们使用CAM作为可视化工具来分析我们的方法如何有效地解决上下文偏见。标准vs.ours-CAM：在图6中，我们给出了标准失败但ours-CAM成功识别的[4]当预测概率> = 0时，我们确定“成功”。5、在没有“人”的情况下能够识别“滑板”和“滑雪板”，在没有“烤箱”的情况下能够识别“微波炉”。相比之下，标准分类器更多地依赖于上下文，因此在这些图像上失败。最后一列展示了一些失败的案例，当没有上下文的情况下出现有偏见的类别时，我们的特征分割和标准都失败了常见的失败案例是具有挑战性的场景，当图像光线不足，对象缩小，滑雪板微波方法独家共现标准24.566.2平衡损失[10]25.066.1删除共现标签25.265.9删除同现图像28.428.7加权损失30.460.8消极惩罚23.866.1我们的CAM26.464.9我们的特征分割28.866.0滑板11077CAM wrt WoCAM wrt Ws图9. 通过将CAM与Wo（左）和Ws（右）可视化来解释我们的特征分割。Wo已经学会了始终专注于实际类别（例如，car）而Ws捕获上下文（例如，路）。方法标准我们的CAM我们的特征分割地图42.045.352.1表3. 跨数据集实验，其中在COCO-Stuff上训练的模型在UnRel上没有微调的情况下应用。我们的特征分割产生了巨大的提升，突出了它对看不见的数据的普遍性。因此非常小（例如，微波）。分析Wo和Ws：回想一下在第二节中。4.2，我们的特征分割被公式化，目标是通过Wo和通过Ws突出地捕获有偏见的类别特定特征。我们通过生成两个不同的类激活图来直观地验证这一点：（i）x o加权Wo，(ii) x s加权W s。从图9.很明显，W学会突出地集中在类别上（例如，手提包，汽车）和W在共现上下文上（例如，人，道路）。5.2. UnRel上的跨数据集实验接下来，我们执行一个跨数据集实验，我们的模型在COCO-Stuff上训练，并在UnRel数据集上直接测试它们-没有任何微调。Un-Rel具有脱离上下文的对象（例如，滑板上的猫）。因此，与严重依赖上下文（或将对象与上下文混淆）的模型相比，真正理解对象是什么的模型将能够正确地对其进行分类因此，这个设置是评估我们的方法的一个很好的测试平台因为我们不微调，我们只评估UnRel的3个类别，这些类别与COCO-Stuff的20个有偏见的从表3中，我们观察到我们的- CAM和我们的-特征-分裂都大大优于标准这清楚地表明，我们的两种方法都从正确的类别中学习，并克服了上下文偏见。5.3. 属性分类在这里，我们表明，我们的方法，减少上下文偏见一般化为属性。我们的基于CAM的方法不适用于属性，因为它们缺乏定义良好的空间范围（详见第2节）。4.1）。正如第5.1节所指出的，内在的背景偏见和识别偏见的难度，表4. 属性分类性能：在DeepFashion和Animals上，根据20个最有偏见的属性计算属性。我们的- feature-split提供了对所有方法的提升，而不会损害共同发生的拆分的性能。缺乏上下文的egories导致所有方法和数据集的排他性测试分裂得分较低。DeepFashion上的结果：作为惯例，我们在DeepFashion上报告每个班级的前3名召回[23]。从表4中，我们注意到我们的功能分割优于标准在两次测试中都有很大的差距对于分别与striped和lace表现出强烈共现的属性，如bluze和bell，我们的特征分割产生了21的提升。2%和17。4%的top-3召回率分别符合标准分类器。我们提出了每个属性的结果和比较与其他基线的供应。材料具有属性的动物的结果：具有属性的动物[35]在属性之间存在严重的偏差，例如蓝色和斑点分别与沿海和长腿高度相关。在这个任务中，目标是学习一个关于“看到的”动物类别的属性分类器（例如，来自动物类别“达尔马提亚”的“斑点”属性），并评估模型对看不见的动物类别的泛化能力（例如，在看不见的动物类别“leopard”上的“spots”属性）。从表4中，我们观察到我们的特征分割比其他方法在排他性测试分割上获得了收益，而不会损害共同出现的情况。特别是，我们的性能优于属性去相关[17]，它是专门为去相关属性而设计的.6. 结论我们展示了流行音乐中的语境偏见问题-通过显示标准分类器在偏离其典型上下文的情况下表现不佳，来描述对象和属性数据集。为了解决这个问题，我们提出了两种简单而有效的方法来将有偏见的类别的特征表示与其上下文去相关。这两种方法在识别偏离其共同出现的上下文的有偏见的类时表现更好，同时保持整体性能。更重要的是，我们的方法推广到新的看不见的数据集，并执行显着优于标准方法。我们目前的框架处理范畴对之间的语境偏差;未来的努力应该利用更多可用的（场景或分类）信息并对它们之间的关系建模。将所提出的方法扩展到对象检测和视频动作识别等任务是一个值得关注的未来方向。致谢。这项工作得到了NSF CAREER IIS-1751206的部分支持。手袋滑雪板车勺子远程DeepFashion（前3名回忆）动物属性（mAP）方法独家共现独家共现标准4.917.819.472.2平衡损失[10]5.219.420.468.4属性去相关[17]--18.470.2我们的特征分割9.220.120.872.811078引用[1] Amit Alfassy ，Leonid Karlinsky ，Amit Aides，JosephShtok，Sivan Harary，Rogerio Feris，Raja Giryes，andAlex M Bronstein.Laso：Label-set operations networks formulti-label few-shot learning。在CVPR，2019年。[2] MohsanAlvi，Andr e wZisserm an n，andChristo f ferNella˚k e r. 视而不见：从深度神经网络嵌入中显式去除偏差和在ECCV，2018。[3] 以笏巴尼亚和阿哈德本沙哈。探索用于对象检测的上下文的效用的界限。CVPR，2019年。[4] 放大图片作者：Robert J. Mezzanotte和Jan C.拉比-诺维茨。场景感知：在关系冲突中检测和判断物体认知心理学，1982年。[5] Tolga Bolukbasi ， Kai-Wei Chang ， James Y Zou ，Venkatesh Saligrama，and Adam T Kalai.男人对于计算机程序员就像女人对于家庭主妇一样？去偏置字嵌入。在NIPS，2016年。[6] Holger Caesar Jasper Uijlings 和 Vittorio Ferrari 可可 - 东西：上下文中的事物和东西类。在CVPR，2018年。[7] Nitesh Chawla ， Kevin Bowyer ， Lawrence Hall ， andPhilip Kegelmeyer. Smote：合成少数民族过采样技术。JAIR，2002年。[8] Myung Jin Choi，Antonio Torralba，and Alan S Willsky.上下文模型和上下文外对象。《模式识别快报》，2012年。[9] 加布里埃拉·楚卡视觉应用程序的域适应：全面调查。arXiv预印本arXiv：1702.05374，2017。[10] Yin Cui，Menglin Jia，Tsung-Yi Lin，Yang Song，andSerge Belongie. 基于有效样本数的类平衡损耗。在CVPR，2019年。[11] Terrance de Vries，Ishan Misra，Changhan Wang，andLau- rens van der Maaten.物体识别对每个人都有效吗？在CVPRW，2019年。[12] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. ImageNet：一个大规模的分层图像数据库。CVPR，2009。[13] Santosh K Divvala 、 Derek Hoiem 、 James H Hays 、Alexei A Efros和Martial Hebert。物体检测中语境的实证研究。CVPR，2009。[14] 查尔斯·埃尔坎成本敏感学习的基础。[15] Kaiming He，Xiangyu

下载后可阅读完整内容，剩余1页未读，立即下载