调查性别偏见在图像描述中的影响：一个新的均衡器模型

33 浏览量更新于2023-10-13 收藏 1019KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

女性也可以滑雪：克服字幕模型中的偏差Lisa Anne Hendricks*1[0000−0001−9340−5143]，KayleeBurns*1[0000−0001−5713−2774]，Kate Saenko2[0000−0002−5704−7614]，TrevorDarrell1[0000−0001−5453−8533]，以及安娜·罗尔巴赫1[0000−0003−1161−6006]1加州大学伯克利分校，2波士顿大学lisaanne@eecs.berkeley.edu，kayleeburns@berkeley.edu抽象。已知大多数机器学习方法捕获和利用训练数据的虽然有些偏见对学习有益，但其他偏见是有害的。具体地，图像字幕模型倾向于夸大训练数据中存在的偏差如果一个词存在于60%的训练句子中，则在测试时它可能在70%的句子中被预测由于过度依赖于学习的先验和图像上下文，这可能导致在期望或需要无偏字幕的领域中出现不正确的在这项工作中，我们调查的性别特定的字幕词（例如）的生成。男人，女人）基于人的外表或图像上下文。我们引入了一个新的均衡器模型，当性别证据在场景中被遮挡时，该模型鼓励平等的性别概率，当性别证据存在时，该模型鼓励confi- dent预测。由此产生的模型被迫看着一个人，而不是使用上下文线索来进行性别特异性预测。包括我们的模型的损失，外观混淆损失和置信损失，是一般的，可以添加到任何描述模型，以减轻描述数据集中不必要的偏见的影响我们提出的模型具有较低的错误比以前的工作时，描述与人的图像，并提到他们的性别和更密切地匹配的地面真理比的句子，包括妇女的句子，包括男子。最后，我们证明了我们的模型在预测性别时更经常地关注人们。1关键词：图像描述，标题偏向，正当理由1介绍利用上下文线索通常可以提高计算机视觉任务的性能[35，34，12]。例如，在视觉描述任务中，假设计算机也在图像中，预测“鼠标”可能更容易。然而，在某些情况下，根据上下文做出决策可能会导致不正确的，甚至可能是冒犯性的预测。在这项工作中，我们考虑这样一个场景：生成关于男人和女人的字幕。我们假设，当描述模型预测诸如“男人”或“女人”之类的性别词时* 作者的贡献是平等的。1https://people.eecs.berkeley.edu/www.example.com~lisa_anne/snowboard.html2洛杉矶Hendricks*，K.Burns*，K.Saenko，T.Darrell，A.Rohrbach错基线：一个男人坐在办公桌旁，手里拿着一台笔记本电脑。为正确的理由而正确我们的型号：坐在笔记本电脑前的女人为错误的理由而正确基线：在网球场上拿着网球拍的人为正确的理由而正确我们的型号：在网球场上拿着网球拍的人图1：我们提出的模型（均衡器）校正图像帽中的偏差的示例。覆盖的热图指示哪些图像区域对于预测性别词最重要。在左边，基线错误地预测了性别，大概是因为它看的是笔记本电脑（而不是人）。在右边，基线正确地预测了性别，但在预测性别时没有考虑人，因此是不可接受的。相比之下，我们的模型预测了正确的性别词，并在预测性别时正确地考虑了人。在场景中（例如，对于描述系统来说，避免惊人的错误（例如，总是预测滑雪场景中的“人”这个词例如，图1（左）显示了一个案例，其中先前的工作预测了不正确的性别，而我们的模型通过考虑正确的性别证据准确地预测了性别图1（右）显示了一个例子，其中两个模型都预测了正确的性别，但以前的工作在描述图像时没有考虑人（它是正确的，但原因是错误的）。由于任务的多模态性质，图像字幕中的偏差尤其难以克服;预测的单词不仅受图像的影响，而且受学习的语言模型的影响。虽然[47]研究了结构化预测任务的偏差（例如，语义角色标签），他们没有考虑图像字幕的任务。此外，[47]中提出的解决方案需要访问整个测试集，以便重新平衡性别预测，以反映训练集中的分布因此，[47]依赖于性别分布在训练和测试时间相同的假设我们不做这样的假设;我们考虑一种更现实的场景，其中为独立于其它测试图像的图像生成字幕。为了鼓励描述模型生成较少偏见的字幕，我们引入了均衡器模型。我们的模型包括两个互补的损失项：外观混淆损失（ACL）和置信损失（Conf）。外观混淆损失是基于这样的直觉：给定一个没有性别证据的图像，描述模型应该无法准确预测一个有性别的词。然而，当性别证据不存在时，混淆模型是不够的;我们还必须鼓励模型在存在性别证据我们的自信损失有助于增加模型克服字幕模型3这些互补损失允许均衡器模型在没有性别信息的情况下保持谨慎，并且在其存在时具有歧视性。我们提出的均衡器模型导致更少的偏见字幕：它不仅在预测有性别的单词时导致较低的误差，而且在测试集中的性别分布与训练集不一致时也表现良好。此外，我们观察到，当对性别不自信时，Equalizer会生成性别中性词（如此外，我们证明，均衡器在预测性别词时专注于人类，而不是专注于其他图像上下文。2相关工作不需要的数据集偏倚。不需要的数据集偏差（例如，[2019 - 03 - 29][2019 - 03 -29][2019 - 03 - 29][2019 - 03 - 03][2019 - 03][2019 - 03 - 29][2019 - 03 - 03][2019 -03 - 03][2019 - 03 - 19][2019 - 03][2019 - 03 - 19][2019 - 03 - 19][2019 - 03 - 19]一个共同的主题这是偏见放大的概念，其中偏见不仅是学习，但放大[47，4，31]。例如，在图像字幕场景中，如果70%的带有雨伞的图像包括女性，30%包括男性，则在测试时，模型可能会将此偏差放大到85%和15%。消除偏见放大并不像平衡特定类别的属性那么简单。[31]研究分类中的偏差，发现即使白人和黑人以相似的频率出现在“篮球”图像中一种解释是，尽管数据在“篮球”类方面是平衡的，但数据集中有更多的白人。因此，为了完美地平衡数据集，必须在所有可能的同现之间进行平衡，这是不可行的。自然语言数据易受报告偏倚[4，13，22，21]的影响，其中人们过度报告不太常见的共现，例如“男护士”[4]或“绿香蕉”[22]。[21]还讨论了视觉描述如何反映文化偏见（例如，假设带着孩子的女人是母亲，即使这不能在图像中确认我们观察到，即使在图像中无法确认性别时，注释者也指定性别（例如，即使性别证据被遮挡，滑雪板运动员也可能被标记为我们的工作与[47]最相似，他们考虑了语义角色标签和多标签分类（与图像字幕相反为了避免偏置放大，[47]重新平衡测试时间预测，以更准确地反映训练时间单词比率。该解决方案是不令人满意的，因为（i）它需要访问整个测试集，以及（ii）它假设测试时的对象分布与训练时的对象分布相同。我们在实验中考虑了一个更现实的场景，并表明即使测试分布与训练分布不同，我们预测的句子中女性与男性的比例也与地面真实句子中的比例公平。构建处理受保护属性的AI系统（例如，年龄，性别，性取向）以公平的方式越来越重要[14，9，43，25]。在机器学习文献中，我们认为是不同的场景，因为我们试图预测受保护的属性。分布匹配已被用于通过鼓励决策的分布在不同的受保护类中相似来构建公平系统[25]，以及用于其他应用，例如域自适应[36，46]和转导学习[24]。我们4洛杉矶Hendricks*，K.Burns*，K.Saenko，T.Darrell，A.Rohrbach外观混淆损失是类似的，因为当性别信息不可用时，它鼓励男性和女性类的预测分布相似。因为正确的理由而正确。确保模型“出于正确的原因”是当预测肺炎患者的结局[7]）或发现潜在的数据集偏倚[33]时。我们假设考虑适当性别证据的模型将在新的场景中表现得更好，特别是当测试和训练时的性别分布不同时。最近，[28]开发了一个损失函数，将决策的解释与地面事实解释进行比较。然而，[28]为视觉决策生成解释是一个困难而活跃的研究领域[26，30，11，27，48，42]。而不是依赖于我们的模型在训练过程中准确地解释自己，我们验证了我们的配方鼓励模型在测试时正确的原因是正确的。外观描述。大多数视觉描述工作（例如，[37，8，15，39，1]）专注于提高整体句子质量，而不考虑捕获的偏差。虽然我们在这项工作中特别关注性别，但所有在视觉描述数据上训练的字幕模型（MSCOCO[20]， Flickr 30 k[41]，MSR-VTT[38]仅举几例）都隐含学会区分性别。然而，目前的字幕模式并没有像人类那样讨论性别，而是放大了性别偏见;我们的目的是在讨论这一重要类别时生成更准确地反映人类描述的描述。性别分类。性别分类模型经常关注面部特征[18，45，10]。相比之下，我们主要关注的是复杂场景中的语境线索是否会在句子生成过程中偏向性别词的产生。性别分类也在自然语言处理中进行了研究（[2，40]，[6]）。伦理考量。通常，性别分类被视为二元任务：数据点被标记为“男人”或“女人”。然而，人工智能从业者，无论是在工业2和学术3设置，越来越关注性别分类系统应该是包容性的。我们的字幕模型预测了三种性别类别：男性、女性和中性性别（例如，人）基于视觉外观。在设计性别分类系统时，重要的是要了解标签的来源[16]。我们使用先前收集的公开发布的数据集确定性别标签，其中注释者描述图像[20]。重要的是，图像中的人没有被要求识别他们的性别。因此，我们强调，我们不是在对生物性别或性别认同进行分类，而是在对外在的性别外观进行分类。3均衡器：克服描述模型均衡器基于以下直觉：如果支持特定性别决策的证据不存在于图像中，则模型应该对要预测的性别感到困惑（由外观混淆损失项强制执行），并且如果支持性别决策的证据存在于图像中，则模型应该对其预测充满信心（由自信损失项强制执行）。为了训练我们的模型，我们不仅需要成对的图像I和句子S，而且还需要注释掩码M，其指示在一个示例中的哪些证据2 https://clarifai.com/blog/socially-responsible-pixels-a-look-inside-clarifais-new-demographics-recognition-model3 https://www.media.mit.edu/projects/gender-shades/fwww.example.com克服字幕模型5CNN人CNN标题正确性丢失外观混淆丢失？N信心丧失I =AI图2：分解器包括两个新的损失项：男性或女性图像上的自信损失（顶部）和男性和女性被遮挡的图像上的外观混淆损失（底部）。这些损失共同鼓励我们的模型在存在性别证据时做出正确的预测，并在缺乏性别证据时保持谨慎。我们还包括两种图像类型的字幕正确性损失（交叉熵损失）图像适于确定性别。虽然我们使用[37]作为基础网络，但均衡器是通用的，可以集成到任何深度描述框架中。3.1背景：描述框架为了生成描述，首先从Incep-tionV 3[32]模型中提取高级图像特征。然后使用图像特征来初始化LSTM隐藏状态。为了开始句子生成，将句子开始标记输入到LSTM中对于训练期间的每个后续时间步，地面真值字wt被输入到LSTM中。在测试时，之前预测的单词wt-1在每个时间步被输入到LSTM中。当生成序列结束令牌时，生成结束。像[37]一样，我们在训练过程中包括标准交叉熵损失（LCE）：LCE=-1Nlog（p（wt|w0：t−1，I）），（1）n=0t =0其中，N是批量大小，T是句子中的单词的数量，wt是在时间t处的地面实况单词，并且I是图像。3.2外观混淆丢失我们的外观混淆损失鼓励潜在的描述模型在做出性别决定时被混淆，如果输入图像不包含用于该决定的适当证据。为了优化外观混淆损失，我们需要地面实况基本原理，表明哪些证据适合于特定性别标题正确性丢失不6洛杉矶Hendricks*，K.Burns*，K.Saenko，T.Darrell，A.RohrbachN决定我们期望得到的基本原理是掩模M，其对于不应有助于性别决定的像素为1，并且对于在确定性别时适当考虑的像素为0。掩模和原始图像的Hadamard乘积I⊙M产生新图像I’，其中去除了实施者认为适合于分类的性别信息直观地，对于缺乏性别信息，预测男性或女性的概率应该相等。外观混淆损失通过断言情况是这样来强制公平先验。为了定义我们的外观混淆损失，我们首先定义混淆函数（C），其在词的预测分布p（w〜t）、女性性别词的集合（Gw）和男性性别词的集合（Gm）上操作C（w~t，I′）=|Σgw∈G wp（w）t=gw|w0：t−1，I′）−Σgm∈Gmp（w~t=gm|w0：t−1，I′）|.（二）在实践中，Gw仅由单词“woman”组成，这些是目前为止最常用的性别词汇在我们考虑的数据集中，我们发现使用这些“集合”与使用更完整的集合产生类似的我们现在可以将我们的外观混淆损失（LAC）定义为：LAC=1ΣΣN（wt∈Gw∪Gm）C（w~t，I′），（3）n=0t =0其中，是指示符变量，其表示wt是否是性别化单词。对于对应于图像I’的剩余的无性别词，我们应用标准交叉熵损失来鼓励模型讨论在I’中仍然可见的对象。除了鼓励句子在性别信息已经被移除时是图像相关的之外，这还鼓励模型学习不依赖于性别信息的单词如“狗”和“飞盘”的3.3信心丧失除了不确定性别证据何时被遮挡之外，我们还鼓励我们的模型在性别证据存在时保持自信。因此，我们引入自信损失项，其鼓励模型正确地预测性别词。我们的自信损失鼓励预测的性别词在存在性别信息的图像I上的概率很高。给定函数FW和FM，其分别测量模型预测女性和男性单词的置信度，我们可以将置信度损失写为：LCon=1ΣNΣT（<$（wt∈Gw）FW（wt，I）+<$（wt∈Gm）FM（wt，I））.（四）n=0t =0为了测量预测的性别词的置信度，我们考虑男人和性别词的预测概率之间的商（FM具有相同的形式）：ΣFW（w~t，I）= ∑gm∈Gmp（w~t=gm|w0：t−1，I）（ gw∈Gwp（w~t=gw|w0：t−1，I））+（五）不N克服字幕模型7其中是为数值稳定性而增加的小ε值当模型对性别预测有信心时（例如，对于单词考虑预测概率之间的商的一个很好的性质是我们鼓励模型在有性别的单词之间进行区分，而不迫使模型预测有性别的单词。例如，如果模型预测概率为0。2代表“男人”0 5代表“女人”，0代表“女人”。3对于“人”对“女人”的形象，我们的信心损失会很低。然而，该模型仍然能够以相对高的概率预测性别中性词，如“人”。这与其他可能的损失不同，例如在交叉熵损失中对性别词放置更大的权重，这迫使模型预测3.4均衡器模型我们的最终模型是上述所有损失的线性组合L=αLCE+βLAC+µLCon，（6）其中，α、β和μ是在验证集上选择的超参数（在我们的实验中，α、μ= 1，β=10我们的均衡器方法是通用的，我们的基本字幕框架可以用任何其他深度字幕框架取代。通过结合所有这些术语，均衡器模型不仅可以生成图像相关的句子，而且可以在足够的证据下做出自信的性别预测。我们发现，外观混淆损失和信心损失都是重要的，在创建一个自信而谨慎的模型。有趣的是，只有当这两种损失结合在一起时，才能达到最低的错误分类率，突出了这两种损失项的互补性。4实验4.1数据集MSCOCO偏倚。为了评估我们的方法，我们考虑[47]用于评估结构化预测问题中的偏差放大该数据集由来自MSCOCO[20]的图像组成，这些图像被标记为虽然如果至少有一个描述包含“男人”一词，并且没有描述包含“女人”一词，则图像被标记为同样，如果至少一个描述包括单词“女人”并且没有描述包括单词“男人”，则图像被标记为如果同时我们将该数据集称为MSCOCO-Bias。MSCOCO-平衡。我们还评估了一组我们故意改变性别比例。我们相信这是真实世界场景的代表，其中在测试时可能存在不同的男性和女性分布MSCOCO-Bias集具有8洛杉矶Hendricks*，K.Burns*，K.Saenko，T.Darrell，A.Rohrbach大约1：3的女性与男性比例，因为这一组，称为MSCOCO平衡，具有1：1的女性与男性比例。我们从MSCOCO-Bias集中随机选择了500张包含“女人”和500张包含“男人”的图像人面具。为了训练均衡器，我们需要地面真实的人类理论，为什么一个人应该被预测为男人或女人。我们使用来自MSCOCO数据集的人分割一旦创建了掩码图像，我们就用图像中的平均像素值填充分割掩码我们在训练时都戴面具以计算外观混淆损失，并在评估期间确保模型通过观察人来预测性别词。虽然对于MSCOCO，人员注释是容易获得的，但是对于其他数据集，例如，可以使用人员检测器4.2度量为了评估我们的方法，我们依赖于以下指标。错误. 由于受保护类（在我们的场景中为性别词）的预测的敏感性，我们强调低错误的重要性。错误率是男性/女性错误分类的数量，而性别中性术语不被认为是错误。我们期望最好的模型在性别不明显的情况下更倾向于预测性别中性词性别比例。第二，我们考虑的句子属于“女人”集的句子属于“男人”集的比率。我们认为一个句子属于并且如果它预测来自男性性别词的预编译列表的任何词，则分别落入因为正确的理由而正确。最后，为了衡量一个模型是否我们首先使用Grad-CAM方法[30]和显着性为通过以滑动窗口方式遮挡图像区域而创建的图。为了衡量我们的模型是否出于正确的原因是正确的，我们验证了解释热图中具有最高激活的点是否落在人分割掩码中。4.3培训详细信息所有模型都是从Show and Tell模型[37]初始化的，该模型在所有MSCOCO上预先训练了100万次迭代（没有通过视觉表示进行微调）。模型在MSCOCO-Bias集上进行额外的500，000次迭代训练，通过可视化表示（Inception v3[32]）进行微调，进行500，000次迭代。4.4基线和消融基线-FT。最简单的基线是通过LSTM和卷积网络使用我们的目标数据集MSCOCO-Bias数据集上的标准交叉熵损失来微调Show and Tell模型。平衡我们训练一个平衡的基线，在训练时重新平衡数据分布，以考虑训练数据中大量的男性实例。克服字幕模型9模型MSCOCO-偏倚MSCOCO-平衡误差率∆误差率∆基线-FT12.830.14 19.300.51平衡12.850.14 18.300.47增加重量13.560.08 16.300.35配置器，不带ACL配置器，不带配置10.10 0.2617.40 0.45均衡器7.02-.038.10 0.13表1：基于错误率和生成的性别词的比率的预测的性别词的评估包括“女人”词的句子到包括“男人”词的句子。均衡器实现了最低的错误率，并预测具有与相应的地面实况字幕（比率∆）最相似的性别比率的句子，即使测试集与训练集具有不同的性别词分布，如MSCOCO-Balanced数据集的情况。即使我们无法知道测试时数据的正确分布，我们也可以强化我们的信念，即预测女性或男性的可能性应该是相等在训练时，我们对女性的图像进行重新采样，使得女性的训练示例的数量与男性的训练示例的数量相同。增加重量。我们还尝试在标准交叉熵损失中增加性别词的损失值，以增加错误分类的惩罚。对于地面实况字幕显示单词“man”或“woman”的每个时间步在一个恒定的值（10在报告的实验）的损失项直观地说，增加权重应该鼓励模型准确地预测性别词。然而，与我们的自信损失不同，加权驱动模型做出消融术。为了隔离均衡器中两个损失项的影响，我们报告了仅具有外观混淆损失（均衡器w/o Conf）和仅具有置信损失（均衡器w/o ACL）的结果。然后，我们报告我们的完整模型的结果4.5结果错误. 表1报告了在MSCOCO-偏倚和MSCOCO-平衡测试集上描述男性和女性时的错误率。与基线相比，均衡器显示出持续的改进。重要的是，我们的完整模型始终改进了均衡器w/o ACL和均衡器w/o Conf.当将均衡器与基线进行比较时，我们看到MSCOCO-Balanced数据集的性能提升更大。如稍后所讨论的，这部分是因为我们的模型在减少mni-nority类（女性）的错误方面做得特别好。与基线模型不同，我们的模型在每个集合上都有类似的错误率。这表明我们的模型的错误率对测试时性别分布的变化不那么敏感有趣的是，基线FT模型和平衡模型的结果没有实质性差异。一种可能性是跨单词的同现不平衡（例如，如果存在性别不平衡，特别是对于具有“伞”刚刚包起来图像10洛杉矶Hendricks*，K.Burns*，K.Saenko，T.Darrell，A.Rohrbach模型妇女纠正错误其他男人纠正错误其他结局差异性别之间基线-FT46.2834.1119.6175.054.2320.720.62平衡47.6733.8018.5475.894.3819.720.64增加重量60.5929.829.5887.846.985.171.36不带ACL的56.1816.0227.8167.584.1528.260.49不带配置的均衡器50.9530.3918.6675.315.1019.600.63均衡器（我们的）57.3812.9929.6359.024.6136.370.37表2：MSC 0 C 0-偏倚数据集的每个类别的准确度虽然UpWeight实现了对于男性和女性图像的召回率最高，但也有很高的错误率，尤其是对于女性。“公平”制度的一个标准是，它在不同类别之间具有相似的结果。我们通过计算男性和女性图像的正确/不正确/其他句子之间的Jensen-Shannon散度来测量结果相似性（越低越好），并观察到均衡器在该度量上表现最好。基于性别单词计数来检查数据集不足以平衡数据集）。我们强调，在大规模的设置与大词汇量的所有共现词的平衡是困难的。性别比我们还考虑仅包括女性单词的字幕与仅包括男性单词的字幕在表1中，我们报告了地面真值比率与由每个字幕模型产生的比率之间的差异令人印象深刻的是，均衡器在两个数据集上都实现了与地面实况最接近的比率同样，ACL和Confident损失是互补的，均衡器具有最佳的整体性能。每个性别的表现。具有女性的图像包括比具有男性的图像小得多的MSCOCO部分。因此，跨类的总体性能（即男人，女人）可能是误导性的，因为它淡化了记忆类中的错误此外，与考虑模型被迫预测性别的分类场景不同，我们的描述模型还可以讨论性别中立的术语，如在表2中，对于每种性别，我们报告了其中性别被正确或错误预测的句子的百分比，以及当在MSCOCO-Bias集合上没有生成性别特定的单词时的百分比。在所有模型中，男性的误差都很低。然而，我们的模型显着改善了少数民族类，妇女的错误有趣的是，我们观察到平等者在两种性别之间具有相似的召回率（正确率），错误率（不正确率）和其他率。如果对于每个性别，可能的结果（提及的正确性别、提及的不正确性别、性别中性）是相似的，则可以认为字幕模型更这类似于公平文献[14]中的均等化几率的概念，其要求系统在各组中具有相似的假阳性和假阴性率。为了在我们的字幕系统中正式定义这种公平性概念，我们通过测量男性和女性的正确/不正确/其他结果之间的Jensen-Shannon[19]差异来报告性别之间的结果类型差异较低的差异表明女性和男性类别导致类似的结果分布，因此该模型可以被认为是更最小的发散度（0。37）。克服字幕模型11图3：不同模型的男性、女性和性别中性术语的准确性与注释者置信度的函数关系。当只有一个注释器用性别词描述图像时，分类器具有较低的准确性，因为它更可能预测性别中性词，但当更多注释提到性别词时，分类器具有比其他模型更高的准确性。注释器置信度。如上所述，从MSC0C0数据集中提供的字幕中挖掘性别标签。每个图像对应于五个字幕，但并非单个图像的所有字幕都包括性别化单词。计算包括性别词的句子的数量提供了对图像中性别的明显程度以及在描述场景时提及性别的重要性的粗略估计为了了解我们的模型如何捕捉注释者描述人的方式，而不是将图像标记为“男人”或“女人”，我们根据有多少注释者在他们的描述中提到性别将图像标记为“男人”，“女人”或“性别中立”。对于特定的阈值T，我们认为图像属于如果T个或多个注释者在其描述中提到性别，则将其分类为然后，我们可以测量这三类的准确性。尽管将词汇限制为不包括性别词的朴素解决方案将具有如表1中所定义的低误差，但它不会捕获人类在描述图像时使用性别词的方式事实上，MSCOCO训练集包括超过20万个描述人的单词实例。超过一半的用来描述人的词是有性别的。通过考虑三个类别的准确性，我们可以更好地衡量模型如何捕捉人类描述性别的方式。图3绘制了每个模型相对于置信度阈值T的准确度。在低阈值时，均衡器的性能较差，因为它往往更频繁地输出性别中性词，而几乎总是预测性别词的UpWeight模型的性能最好。然而，随着阈值的增加，均衡器比其他模型表现得更好，包括在阈值为3时，其对应于基于多数投票对图像进行这表明，当人类用性别或性别中立的词语描述图像时，自动识别器对象性别共现。我们分析了性别预测如何影响MSCOCO-Bias测试集上其他单词的预测。具体来说，我们考虑80MSCOCO类别，不包括类别我们采用偏置放大器12洛杉矶Hendricks*，K.Burns*，K.Saenko，T.Darrell，A.Rohrbachcount（person对象）count（person对象）基线-FT39.834.3 37.0平衡37.634.1 35.8增加重量43.336.4 39.9基线-FT45.340.4 42.8平衡48.542.2 45.3增加重量54.145.5 49.8均衡器，不带ACL 均衡器，不带配置均衡器（我们的）48.143.949.939.6 43.836.8 40.445.2 47.5均衡器，不带ACL 均衡器，不带配置均衡器（我们的）54.748.956.347.5 51.146.7 47.851.1 53.7(a) 视觉解释是Grad-CAM图。（b）视觉解释是显著图。表3：测量“男人”/“女人”词的视觉解释是否落入人物分割地面实况的指点游戏评估。对MSCOCO-Balanced上的地面实况字幕进行了评估。在 [47] 中提出的度量，并计算以下比率： c 〇 unt （ m_n_o_b_j_t ）和 c 〇 unt（w_m_n_o_b_j_t），其中man指的是所有男性词，woman指的是所有女性词，并且person指的是所有男性、女性或性别中性词。理想情况下，这些比率对于生成的字幕和地面实况字幕应该是类似的。如何- ever，e.g.对于人和摩托车，地面真值比为0.40，而对于基线FT和均衡器，该比率分别为0.81和0.65。虽然均衡器过度预测了这对，但该比率比将基线FT与地面实况进行比较时更接近地面实况。同样，对于女人和雨伞，地面真值比为0.40，基线-FT比为0.64，并且验证器比为0.56。作为一个更全面的度量，我们平均跨对象的地面实况和生成的字幕之间的比率差异（越低越好）。对于男性单词，均衡器实质上优于基线FT（0.147对0.147）。0.193）和女性单词相似（0.096 vs. 0.99）。标题质量。从质量上讲，我们所有模型中的句子在语言上都是流畅的（事实上，比较图4中的句子，我们注意到通常只有指人的词发生了变化）。然而，我们确实注意到MSCOCO-Bias的标准描述度量的性能略有下降（当将基线- FT与我们的完整均衡器进行比较时，METEOR[17]的性能从25.2下降到24.3）一种可能性是，我们的模型过于谨慎，并且由于为人类用性别术语描述的句子生成性别中立术语而受到惩罚因为正确的理由而正确。我们假设，许多误分类错误的发生是由于模型在错误的视觉证据，例如。根据上下文而不是根据人的外表来判断性别我们定量地证实了这一假设，并表明，我们提出的模型改善了这种行为，通过寻找适当的证据，即。就是为了评估这一点，我们依赖于两种视觉解释技术：Grad-CAM[30]和通过以滑动窗口方式遮挡图像区域生成的显着性图与将Grad-CAM应用于整个标题的[30]不同，我们将生成特定单词的证据可视化，即具体来说，我们采用的是...精度女人人所有精度随机女人22.6人19.5所有21.0随机25.117.5 21.3克服字幕模型13命中次数+未命中次数CAM到我们的图像处理网络InceptionV3 [32]的最后一个卷积层，我们获得了8x8的权重矩阵。为了获得显着图，我们将输入图像调整为299×299，并将其均匀划分为32×32像素区域，获得10×10网格（最底部/最右侧的单元较小）。接下来，对于网格中的每个单元格，我们将相应的像素归零，并将获得的字幕网络（类似于[42]中的遮挡敏感性实验）。然后，对于地面实况字幕，我们计算“信息损失”，即预测单词“男人”和“女人”的减少为−log（p（w t = gm））和- log（p（wt=gw））。这类似于图1的自顶向下显著性方法。[26] ，其将除一个之外的所有中间特征描述符归零。为了评估预测单词的视觉解释是否集中在一个人身上，我们依赖于从MSCOCO地面真实人物分割中获得的人物面具。我们使用指向游戏评估[44]。我们将视觉解释放大到原始图像大小。我们将“命中”定义为当具有最高权重的点包含在人物遮罩中时。准确度计算如下：#hits.MSCOCO平衡集的结果分别在表3（a）和（b）中给出，用于Grad-CAM和显著性图。为了进行公平的比较，我们为所有模型提供了真实的字幕。为了完整性，我们还报告了随机基线，其中随机选择具有最高权重的点。我们看到，均衡器获得了最佳的准确性，显著提高了基线FT和所有模型变体。对实际生成的字幕的类似评估显示了相同的趋势。看着物体。使用我们的指向技术，我们还可以分析哪些MSCOCO对象模型在预测“男人”/“女人”时没有指向人时正在具体地，如果最高激活是在所讨论的对象上，则我们计数“命中”。我们计算每个性别的以下比率：将其中对象被“指向”的图像的数量转换为具有该对象的图像的真实数量。我们发现性别之间存在差异，例如。在讨论女性时，“雨伞”、“长凳”、“手提箱”更常被提及，而例如：“卡车”，“沙发”，“披萨”-当讨论男人的时候。与基线FT相比，我们的模型将地面真值句子的性别之间的总体例如，对于定性结果。图4比较了从我们的模型预测的性别词的Grad-CAM可视化与基线FT、UpWeight和Equalizer w/o ACL。我们一直看到，我们的模型在描述性别词时会看人在图4（顶部）中，所有其他模型都关注狗而不是人，并预测性别为在该特定示例中，性别有些模糊，并且我们的模型保守地预测在图4（中）中，Baseline-FT和UpWeight示例都错误地预测了单词相比之下，不带ACL的均衡器和均衡器都看人并预测正确的性别。最后，在图4（底部）中，所有模型都预测了正确的性别（男性），但我们的模型是唯一一个看人的模型讨论我们提出了均衡器模型，其中包括一个外观混淆损失，以鼓励预测混淆时，预测性别，如果证据是14洛杉矶Hendricks*，K.Burns*，K.Saenko，T.Darrell，A.Rohrbach基线-FT牵着狗带遛狗的男人。一个拿着伞走在街上的女人一个男人站在厨房里准备食物。增加重量一个人和一只狗在雪地里。一个拿着伞走在街上的女人一个男人站在厨房里准备食物。不带ACL的一个人骑着滑雪板滑下一个被雪覆盖的斜坡。一个人撑着伞走在街上。一个男人站在厨房里准备食物。均衡器用皮带牵着狗散步的人一个人撑着伞走在街上。一个男人站在厨房里准备食物。图4：多基线和我们的模型的定性比较在上面的例子中，保守（在下面的例子中，基线正在寻找错误的视觉证据。模糊和信心损失，鼓励预测时，性别证据是有信心的。我们的外观混淆损失，需要人类的比例，什么是视觉证据是适当的考虑时，预测性别。我们强调的重要性，人的判断时，设计的模型，其中包括受保护的类。例如，我们的模型可以使用关于服装类型的信息（例如，连衣裙）来预测可能不适合所有应用的性别。虽然我们在这项工作中专注于性别，但我们相信我们的框架的一般性种族/民族，并相信我们的研究结果表明均衡器可以成为克服字幕模型偏见的有价值的工具。鸣谢。这项工作得到了美国国防部，DARPA XAI计划和伯克利人工智能研究（BAIR）实验室的部分支持。克服字幕模型15引用1. Anderson，P.他，X.，比勒角Teney，D.Johnson，M.，Gould，S.，Zhang，L.：自下而上和自上而下关注图像字幕和vqa。在：IEEE计算机视觉和模式识别会议论文集（CVPR）（2018）2. Argamon，S.，Koppel，M.，Pennebaker，J.W.，Schler，J.：挖掘博客圈：年龄，性别和自我表达的多样性。第一个星期一12（9）（2007）3. Barocas，S.，Selbst，A.D.：大数据的不同影响。加州法律评论104，671（2016）4. Bolukbasi，T.，Chang，K.W.，Zou J.Y. Saligrama，V. Kalai，A.T.：男人之于电脑程序员，就像女人之于家庭主妇一样？去偏置字嵌入。神经信息处理系统进展（Advances in Neural Information Processing Systems，NIPS）。pp. 43495. Buolamwini，J.A.：性别色调：面部数据集和性别分类器的交叉表型和人口统计学评估。博士论文，麻省理工学院（2017）6. 伯格JD Henderson，J. Kim，G.，Zarrella，G.：Twitter上的性别歧视自然语言处理经验方法会议（EMNLP）pp. 1301-1309.计算语言学协会（2011）7. 卡鲁阿纳河Lou，Y.，盖尔克，J.，Koch，P.，Sturm，M.，Elhadad，N.：适用于医疗保健的可理解模型：预测肺炎风险和30天再入院。第21届ACM SIGKDD知识发现和数据挖掘国际会议论文集。pp. 1721-1730. ACM（2015）8. Donahue，J.，安妮·亨德里克斯Guadarrama，S.，Rohrbach，M.，Venugopalan，S.，Saenko，K.达雷尔，T.：用于视觉识别和描述的长期递归卷积网络。在：IEEE计算机视觉和模式识别会议（CVPR）的会议记录中。pp. 26259. 德沃克角Hardt，M.，Pitassi，T.，Reingold，O. Zemel，R.：通过意识实现公平。第三届理论计算机科学创新会议论文集。pp. 214 ACM（2012）10. Eidinger， E. ，恩巴尔河哈斯纳， T. ：未过滤人脸的年龄和性别估计。 IEEETransactions on Information Forensics and Security9（12），217011. Fong，R.C.，Vedaldi，A.：用有意义的扰动对黑箱进行可解释的解释。在：IEEE计算机视觉国际会议（ICCV）（2017年）的会议记录12. Gkioxari，G.，格尔希克河Malik，J.：使用r* cnn进行上下文动作识别。IEEEInternational Conference on Computer Vision（ICCV）pp. 108013. Gordon，J.，Van Durme，B.：报告偏差和知识获取。在：自动化知识库建设2013年研讨会的会议pp. 25-30 ACM（2013）14. Hardt，M.，Price，E.，Srebro，N.，等：监督学习中的机会平等。神经信息处理系统进展（Advances in Neural Information Processing Systems，NIPS）。pp. 331515. Karpathy，A.，李菲菲：用于生成图像描述的深度视觉语义对齐。IEEE计算机视觉和模式识别会议（CVPR）。pp. 312816.

下载后可阅读完整内容，剩余1页未读，立即下载