视觉问答模型中显性偏差的发现

161 浏览量更新于2023-10-17 收藏 1.18MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9562视觉提问模型中的显式偏差发现VarunManjunatha 1、NiratSaini 2Larry S.戴维斯21Adobe研究2马里兰大学学院公园vmanjuna@adobe.com，{nirat@cs，lsd@umiacs}. umd.edu摘要研究人员观察到，视觉问答（VQA）模型倾向于通过学习数据中的统计偏差来回答问题。例如，他们对“草是什么颜色的？“通常是“绿色”，而像“这本书的书名是什么？”“不能通过推断统计偏差来回答。明确地发现这样的偏差对社区来说是有意义的，这既有利于理解这样的模型的行为，也有利于调试它们。我们的工作解决这个问题。在一个数据库中，我们存储的问题，答案和视觉词对应的区域感兴趣的注意力地图。通过在这个数据库上运行简单的规则挖掘算法，我们发现了人类可解释的规则，这些规则使我们对这些模型的行为有了独特的了解我们的研究结果还显示了模型在尝试VQA任务时学习到的不寻常的学习者的例子。1. 介绍近年来，视觉问答（VQA）问题--回答关于图像的问题--已成为计算机视觉界研究的热点虽然有几个公开可用的VQA数据集[6，23，26，29]，但本文的重点将放在[6]和[18]中提供的数据集上，这是最大的自然图像问答数据集，也是引用最多的数据集。即便如此，这个数据集上的VQA问题的简化版本并不是单一的-理想情况下，模型需要几种不同的技能来回答各种问题。在图1（左）中，一个类似“现在几点了？“需要后天的技能，能够阅读钟面上的时间，“最重要的需要类似OCR的能力来阅读句子，而问题在很大程度上可以用数据本身的统计偏差来回答（因为在这个数据集中，草通常是绿色的）。许多模型试图解决VQA问题，并取得了不同程度的成功，但其中绝大多数仍然试图通过利用VQA中的偏差来解决VQA任务。数据集[25，37，2，17，7等]，而较小的少数广告-处理个别问题类型[4，38，11等]。记住前者，在这项工作中，我们提供了一种方法来发现和枚举明确的，由VQA模型学习的各种偏见。为了说明，在图1（右）中，我们提供了通过强基线学习的一些规则的示例[25]。这个模型似乎学会了如果一个问题包含了{什么，时间，天}（例如：以及附带的图片包含明亮的天空（），则模型很可能是“下午”。该模型对同一问题的回答是另一方面，如果它包含一个钟面（），它倾向于用“HH：MM”格式的时间回答问题，而像“一年中的什么时候？“与无叶的树配对（）提示我们发现这种偏差的方法的核心是经典的Apriori算法[3]，该算法用于在大型数据库中发现规则-这里数据库指的是VQA验证集上的问题词和模型响应，可以挖掘这些规则。深度学习算法通过学习数据中的偏差来减少训练错误。这一点从以下观察中显而易见：来自数据分布长尾的验证/测试样本很难解决，仅仅是因为类似的示例在训练集中没有足够频繁地出现[41，31等]。然而，以人类可解释的形式明确列举这些偏差仅在少数问题中是可能的，例如VQA。VQA是特别说明性的，因为问题和答案是人类语言，而图像（和注意力图）也可以由人类解释。 VQA也很有趣，因为它多模态问题-需要语言和视觉两者来解决该问题。语言本身（即，图像不可知模型）可以对大多数问题产生合理的（但通常是语言本身能够产生令人满意的答案，这强烈表明VQA模型隐含地这部作品是作者在玛丽兰大学时完成9563号先行词词视觉词后件1什么时间下午 *2什么时间夜晚 *3什么，时间，时钟，显示11点30分 *4什么时间，年份下降 *图1.在左边，我们展示了来自[6，18]的VQA数据集的两个问题的示例，其中模型需要在右边，我们展示了一组包含短语“几点？“和各种视觉元素（前因）。请注意，此图中的每一行表示VQA验证集中的多个问题答案（或结果）旁边的 * 提醒我们它来自答案单词集有几个与下午和晚上有关的视觉词汇，但为了简洁起见，我们只提供了两个。.使用简单的规则来产生答案-我们在本文中努力找到一种可以发现这些规则的方法。最后，我们注意到，在这项工作中，我们不寻求改进现有技术。我们做了我们的大部分实验上的模型Kazemi等。al. [25]，这是这个问题的一个强基线。我们选择这个模型是因为它很容易训练和分析（第3.1节）。具体地说，我们的主要贡献是提供了一种方法，可以捕获宏观规则，VQA模型通常利用回答问题。据我们所知，这是第一个以这种方式分析[18]的VQA数据集的详细工作。本文其余部分安排如下：在第2节中，我们讨论了相关的工作，特别是那些研究在几个机器学习问题中识别病理性偏差和“调试”VQA模型的工作。在第3节中，我们讨论了我们的方法的细节。在第4节中，我们提供了实验结果，并列出了（在字面意义上）一些我们认为模型用来回答问题的规则。我们将在第5节讨论这种方法的局限性，并在第6节总结。2. 背景及相关工作VQA问题通常作为多类分类问题来解决。在该公式中，图像（I）通常通过CNN馈送，并且问题（Q）通过像LSTM [22]或GRU [13]这样的语言模块被联合映射到答案类别（“yes”，“no”，“1”，“2”等）。尽管给定QI数据集的所有答案的集合的基数可能是无限的，但研究人员已经观察到，一组几千个（通常为3000个左右）最频繁出现的答案可以占VQA数据集中所有答案的90%以上。此外，执行[6]和[18]中的VQA的评估，使得如果至少一个人和一个机器人，则答案接收部分信用注释者同意这一答复，即使这可能不是大多数注释者提供的答复。这进一步鼓励使用基于分类的VQA系统，该系统将答案的数量限制为最频繁的答案，而不是基于答案生成的VQA系统（例如，使用像[39]这样的解码器LSTM）。关于机器学习模型中的不良偏差：机器学习方法越来越多地被用作计算信用评分、利率、保险费率等的工具，这些都对普通人的生活产生了深刻的影响。因此，机器学习模型不基于性别、种族、国籍等进行歧视是至关重要的[19，5，9]。[36]专注于通过使用对抗性示例揭示基于图像的数据集中的种族偏见[43]探索了与对象分类和视觉语义角色标签相关的数据和模型，用于识别性别偏见及其放大。此外，[8]显示了在编码单词嵌入时存在性别偏见，在使用这些嵌入进行预测时进一步加剧了性别偏见。[21]提出了一种在对图像字幕任务进行预测时确保平等性别概率的验证器模型关于调试深度网络：[28]表明机器学习社区确实没有很好地理解解释一个模型意味着什么。特别是，这项工作阐述了事后可解释性-基于一些标准解释模型的行为，例如梯度的可视化[34]或注意力地图[42]，在局部可解释模型不可知论（LIME），[32] 通过扰动样本并使用扰动及其预测构建线性模型来解释分类器后续工作[33] 构造参数，这些参数是这样的特征，在这些特征存在的情况下，模型9564|一|措辞不变。这项工作是最相似的先前的工作，我们的，作者提供了一些结果VQA以及。然而，它们只假设模型的存在，并扰动数据的实例，而我们假设存在对数据集的响应，而不是模型本身。我们使用标准的规则发现算法，并提供更详细的结果VQA问题。在调试VQA时：[1]研究VQA 1.0数据集上模型的行为。通过一系列实验，他们发现VQA模型在新的情况下失败，倾向于在只部分阅读问题后回答，并且无法在不同的图像中改变答案在[2]中，认识到深度模型似乎使用了识别视觉概念和使用从数据中学习到的偏差预测答案的组合，作者开发了一种机制来解开这两者。然而，他们并没有明确地除非另有说明。关联规则的示例是{what，sport，playing，}→ {tennis*}，其可以被解释为打网球• 最后，后处理步骤通过考虑VQA问题的因果性质（即，只考虑那些遵守：图像/问题→答案）。对于第4节中的结果，我们使用类似{What，sport}的搜索词查询这些规则。更具体地说，让第i个（图像，问题）对导致网络预测答案ai。让问题本身包含单词{w i，w i，.........，w i}。此外，虽然答案-12k首先找到一种方法来发现这种偏见。在[18]中，作者介绍了VQA数据集的第二个更平衡的版本，该版本减轻了原始数据集中的偏见（特别是基于语言的偏见）。结果平衡回答这个问题，让网络关注的图像部分对应于视觉码字v i（3.2节和3.3节）。那么，这个QI+A对应于交易{w i，w i，，w k，v i，a i}。通过预先计算和12k数据集命名为VQA 2.0，是我们报告结果。在[24]中，作者平衡了是/否问题（指示对象存在或不存在的问题），并提出了两个新的评估指标，以补偿数据集偏差的形式。3. 方法我们将我们的偏见发现任务作为规则挖掘问题的一个实例，我们将在在VQA中发现偏差和规则挖掘之间的联系如下：每个（问题，图像，答案）或QI+A三元组可以转换为数据库中的事务，其中问题，答案和图像补丁（或视觉词，第3.2节和3.3节）中的每个词都类似于一个项目。我们的规则挖掘操作现在有三个组件：• 首先，频繁项集挖掘器挑选出在数据集中至少出现s次的所有项集的集合，其中s是支持度。因为我们的数据集200，000个问题（整个VQA验证集），项目数量超过40，000（所有问题词+所有答案词+所有视觉词），我们选择GMiner [14]，因为它的速度和高效的GPU实现。中的此类频繁项集的示例VQA的上下文包括{what，color，red*}，{what，sport，playing}，其中 * 的存在指示该词是回答词。• 接下来，规则挖掘器Apriori [3]形成所有有效的关联规则A→C，使得规则具有支持度> s和置信度>c，其中置信度定义为作为 |A/CN.9/2004/L.16|. 这里，项目集A被称为前件，项目集C被称为后件。我们选择c = 0。2结合问题、答案和视觉词汇表，事务中的每个项目都可以被唯一地索引这在图2中示出，并在以下子部分中更详细地解释。3.1. 基线模型我们在这项工作中使用的基线模型来自[25]，这是一种最先进的方法，比其他更复杂的模型具有我们选择这种模式有两个原因：首先，它的简单性（换句话说，没有“铃铛和哨子”）使其成为我们方法的良好测试平台，并已被其他探索VQA算法行为的作品所使用[30，16]。第二个原因是，在不使用外部数据或集合的情况下，该基线的性能在最先进模型的4%以内[37]我们使用https://github.com/Cyanogenoid/pytorch-vqa的实现。该模型的简要说明如下：VQA问题被公式化为多类分类问题（第2节）。模型的输入是一个图像和一个问题，而输出是具有最高置信度的答案类（在3000个Resnet-152[20]特征从图像中提取，并与LSTM的最后一个隐藏状态连接[22]。文本和视觉特征结合起来形成注意力地图，通过两个密集层馈送到softmax（输出）层。在这项工作中，我们专注于第二个注意力地图。3.2. 可视化码本生成我们使用[35]中的经典“特征提取后聚类”技术生成视觉码本。首先，我们使用边界框注释[27]和COCO-Stuff[10]中提取30万95654图2. [25]中的模型试图回答这样一个问题：“你想尝试哪种甜点？“.在这样做时，视觉注意力集中在包含甜甜圈的图像区域我们使用[12]的方法在该区域上放置一个边界框，该边界框映射到我们词汇表中代表甜甜圈因此，我们的项目数据库包含问题的所有单词，视觉单词和答案单词。然后使用Apriori算法提取规则[3].MSCOCO 训练集的补丁。在将每个补丁扩展到224×224像素后，我们为每个补丁提取ResNet- 152[20]特征，并使用k均值聚类将它们聚类我们在图3中注意到，集群既有预期的，也有未预期的。超越“客观性”和“物质性”的预期特征。预期的聚类包括MSCOCO数据集中的主要对象，如斑马、长颈鹿、大象、汽车、公共汽车、火车、人等。然而，其他集群具有纹理内容，不寻常的对象组合以及动作。例如，我们会注意到一些视觉词汇，如“peo-ple eating”、“cats standing on toilets”、“people in front of chain linkfences”等，如图3所示。这些更为折衷的码字的存在使我们对模型的学习动态有了更多的了解--对于一对QA（她在做什么？、吃）。3.3. 从注意力地图到边界框在这项工作中，我们假设网络只关注图像的一个部分，尽管我们的方法可以很容易地扩展到多个部分[12]。在第3节中对我们的方法进行了说明之后，给定一个注意力图，我们想计算最近的视觉码字。要做到这一点，需要选择一个能够覆盖图像足够显著部分的边界框，裁剪并将此补丁映射到视觉词汇表。虽然有可训练的（基于深度网络的）方法用于裁剪注意力地图[40]，但我们遵循[12]提出的更简单的公式，该公式指出：在注意力地图G内，给定百分比τ，找到满足以下条件的最小边界框B：由于我们遵循[25]使用ResNet-152架构进行视觉特征提取，因此注意力地图的大小为14×14。可以很容易地表明，给定一个m×n网格，可以在其上绘制的唯一边界框的数量该网格，即， num bboxes =m× n×（m+1）×（n+1），当m = n = 14时，num bboxes为11，025。因为m（=n）在这种情况下很小并且是固定的，所以我们预先计算并枚举所有11，025个边界框，并选择包含所需注意力的最小边界框，其中τ = 0。3 .第三章。τ选择保守较低的原因是我们不想裁剪图像的大区域，这些区域可能包含干扰块。图4描述了这部分管道。3.4. 管道概述现在，在包括图像的VQA数据集上进行实验的管道（图2）如下所示我们向网络提供输入-一个图像和一个问题。我们观察第二个注意力图，并使用3.3节的方法在模型关注的图像部分周围放置一个紧密拟合的然后，我们使用ResNet-152网络在这个边界框上提取特征，并执行k-最近邻搜索（k=1）以从词汇表中获得其最近的视觉单词。问题中的单词，整个验证集的视觉码字和预测答案作为频繁项集挖掘器的数据库[14]，然后使用Apriori算法[3]获得规则。4. 实验4.1. VQA中仅语言统计偏倚我们表明，大量的统计偏差，在VQAΣpeptideBG（ p）≥ τΣG（ p），τ[0，1]p仅仅是语言的原因。我们用一个明显的例子来说明这一点：一个纯语言模型，即，一个没有看到图像，但仍然尝试的问题，回答约回答softmaxResNet-152.........LSTM你想吃哪种甜点码本✓k近邻关注1. 什么，甜点，你，诱惑，尝试，，甜甜圈*2. 他们在玩什么运动棒球*3. .........甜甜圈蛋糕冰糕..VQA项目集“数据库”concat9566人的屁股猫在厕所塑料包装身着新娘装的妇女人吃穿西装的人黑色和白色的网球队携带冲浪板的人用电线的物体体育场人群图3.我们展示了由3.1节的方法生成的可视码字在第一列（最左边）中，我们注意到对应于MSCOCO中的对象或补丁的视觉代码词，但在后两列（右边）中，我们注意到对应于更复杂的视觉概念的代码词，图4.在第一个例子中，正确回答问题的关键是发现注意力热图中存在围栏（红色显示）。[12]的裁剪方法在该区域上放置保守框，其对应于视觉码本中的网状或栅栏状视觉码字，如网球网或棒球击球笼。类似地，在第二示例中，注意力对应于清楚地描绘船的视觉码字，并且在第三示例中，注意力对应于泰迪熊码字。VQA 2.0验证集上43%的问题正确，VQA 1.0验证集上48%的问题正确[18]。然而，在VQA 2.0中随机抽取的200个问题中，我们根据经验观察到，纯语言模型回答了88.0%的问题，即使用一个严格的标准来衡量什么是合理的。从表1中可以看出，其中一些反应相当复杂。我们注意到，例如，包含“kind of bird”的问题天空比萨灯giraffe斑马95674.2.2为什么？表1.我们运行了一个仅语言的VQA基线，并注意到尽管只有43%的问题在VQA2.0（[18]），在我们的实验中，大量的问题（88%）得到了合理的正确回答。例如，“太阳眼镜”将是一个完美的似是而非的答案的问题“什么是那个女孩在她的脸上？”“- 也许甚至比地面真相答案（最后一个例子显示了模型对这个问题提供的一个难以置信的答案。奶酪等因此，该模型映射出问题中的关键词或短语，并表面上试图通过一系列规则来映射它们以回答单词。这强烈表明这些是从数据中学习到的偏见，并且可以通过规则挖掘算法来挖掘表面规则。4.2. VQA中的视觉+语言统计偏差在应用第3节的方法之后，我们将检查在VQA中的一些流行的问题类型上，我们的方法已经学习了一些规则。问题类型取自[6]，为简洁起见，仅显示了每种问题类型的一些说明性规则。这些问题类型是：“他/她在做什么？“（第4.2.3节），“在哪里？“（图9），（第4.2.1节），“什么品牌？“（图8）为什么？“（第4.2.2节）。我们提出的表格可以这样解释：包含先行词的问题与包含先行视觉词的图像配对有时（但不总是）会导致结果答案。修补程序的两个实例映射到这个视觉词（第3.2节）。在后件后面出现一个“”是为了提醒读者，后件词来自于这组答案。4.2.1有几个？这个经过训练的VQA模型的特定实例似乎已经了解到长颈鹿有四条腿，停车标志有四个字母，厨房炉灶有四个燃烧器，斑马和长颈鹿分别有几个（100）条纹和斑点（图5）。经过仔细检查，我们发现了33个问题-在VQA验证集中包含单词{How，many，burners}的所有选项（>200 k）中，我们的模型预测的最常见的答案是4（这也类似于地面实况分布）。然而，他们中的一些人是沿着“有多少燃烧器被打开”的路线上？"，这导致答案与“4”不同传统上，“为什么？“VQA中的问题被认为是具有挑战性的，因为它们需要基于原因的答案。我们描述了一些据称是由我们的模型学习的规则，用于回答“为什么？“问题图6中的一些有趣但直观的信念，模型已经了解到运动会导致模糊照片（为什么，模糊→运动），伸展手臂有助于平衡（为什么，手臂→平衡），人们戴头盔或橙色背心是为了安全（为什么，头盔/橙色→安全）。在许多情况下，规则挖掘算法没有发现任何视觉元素，租m-这强烈表明，模型正在优化“为什么？“问题，而不是进行任何推理。换句话说，我们可以问这样一个问题：“为什么照片模糊？“到一个不相关的图像，并获得4.2.3他/她在做什么？更有趣的是我们对“他/她在做什么？“问题类型（图7）。虽然像“滑雪板”或“冲浪”这样的常见活动对于女性代名词（她/女人/女孩/女士），我们只观察到刻板的输出，如这可能反映了[6，18]的VQA数据集所基于的MSCOCO数据集的固有偏倚。奇怪的是，[21]的另一项工作对同样基于MSCOCO的图像字幕模型进行了类似的观察。5. 限制虽然简单性是我们方法的主要优点，但也有一些缺点：规则的确切性质受到用于生成视觉词汇表的过程的限制。换句话说，虽然我们的方法提供了对VQA模型行为的独特见解，但肯定存在一些模型似乎遵循的规则，这些规则无法通过这种方法捕获。例如，涉及颜色的规则很难识别，因为ResNets被训练成对颜色有点不变，所以纯粹基于颜色的视觉词很难计算。其他例子包括不准确的视觉代码字- 例如在图8的规则4中，先行视觉词确实表示摩托车，尽管不是哈雷戴维森。类似地，代码字包含组合在一起的剪刀和牙刷的图像，（什么，品牌→高露洁）关联规则（图8的规则5）。问题预测G.T Ans.什么鸟栖息在这树枝上？猫头鹰麻雀那女孩脸上是什么太阳镜没有什么披萨上有什么奶酪？mozzarellamozzarella长凳是什么做的？木材木材厨房里的炉子是什么牌子的？电动LG9568号先行词词视觉词后件支持x 10-5信心1许多，条纹，如何100*12.12950.762许多，斑点，如何100*9.796880.913许多，燃烧器，如何4*3.732140.384很多，腿，怎么样4*2.332590.335有多少，信，很多4*2.332590.71图5. 有几个？规则3-5表明炉子有4个燃烧器，长颈鹿有4条腿，停车标志有4个字母。长颈鹿和斑马分别有许多（100）斑点和条纹（规则1-2）。号先行词话先行的视觉蚂蚁话后件支持x 10-5信心1为什么下雨 *6.064730.312雨伞，为什么阴影 *6.064730.623为什么，模糊-运动 *6.064730.464头盔，为什么-安全性 *4.665180.775为什么，篱笆-安全性 *4.198660.476为什么，湿-冲浪 *3.732140.337手臂，为什么-余额 *3.265630.478橙色，为什么-安全性 *2.332590.5图6. 为什么？为什么？：超过支持阈值的规则表明，手臂伸展以保持平衡（规则7），雨伞可以防止下雨并提供阴凉（规则1-2），头盔，围栏和（穿着）橙色导致安全（规则4，5，8）。其中一些规则中没有视觉词，这表明模型仅基于问题词来预测答案。号先行词词视觉词后件支持x 10-5信心1干什么呢冲浪 *17.72770.642干什么呢滑板 *13.5290.813干什么呢滑雪板 *6.531250.54干什么呢玩Wii*2.799110.4695695做什么，女人发送短信 *1.866070.4图7. 他/她在做什么？我们观察到男性（滑板，滑雪，冲浪）和女性代词（发短信）的规则多样性的差异，即使在非常低的支持。这表明VQA，或者更有可能的是，MSCOCO数据集在性别方面无意中倾斜。9570号先行词词视觉词后件支持x 10-5信心1品牌，什么戴尔 *9.330360.412品牌，什么威尔逊 *5.598220.573品牌，电脑，什么苹果 *4.665180.454品牌，什么哈雷戴维森 *4.198660.385什么，布兰德高露洁 *3.265630.586品牌，什么jetblue*2.332590.38图8. 什么牌子？VQA模型似乎已经了解到威尔逊品牌与网球有关，戴尔和苹果制造笔记本电脑，捷蓝航空是航空公司的一个号先行词词视觉词后件支持x 10-5信心1哪里机场 *21.92630.612哪里动物园 *13.5290.543哪里非洲 *9.796880.384哪里浴室 *5.598220.235哪里滑板公园 *5.13170.246巴士，在哪里市中心 *5.13170.24图9. 在哪里？当前位置[25]的模型已经知道长颈鹿可以在动物园里找到，大象来自非洲，飞机可以在机场找到，公共汽车可以在城市6. 结论在这项工作中，我们提出了一种简单的技术来明确地发现VQA模型学习的偏差和相关性。为此，我们将问题中的单词、模型对问题的回答以及模型所关注的图像部分存储在数据库然后，我们的方法利用Apriori算法[3]从该数据库中发现规则。我们从实验中收集到，VQA模型似乎直观地将问题和图像中的元素（文本和视觉）与答案相关联。我们的工作与机器学习中关于公平性和问责制的现有技术一致[21]，这通常显示出对一组隐含因素（如性别）的倾斜，对比其他人。也可以使用这项工作中的思想来证明VQA系统的有效性-显示频繁项集和规则挖掘器呈现的数据集偏差是定量和定性结果之间的中间地带。最后，我们的方法不仅限于VQA，但任何离散词汇表的问题。这项工作的一个可能的未来扩展是跟踪这些规则的发展作为培训时间的函数。确认Manjunatha和Davis的部分研究得到了海军研究办公室的资助，资助号为N000141612713：视觉常识推理。9571引用[1] A. Agrawal、D.Batra和D.帕里克分析视觉问答模型的行为。在EMNLP，2016。[2] A. Agrawal、D. Batra，D. Parikh，和A.肯巴维不要只是假设;看一看并回答：克服视觉问答的前科。在CVPR，2018年。[3] R. Agrawal和R.斯里坎特大型数据库中关联规则的快速挖掘算法载于VLDB，1994年。[4] J. Andreas，M. Rohrbach，T. Darrell和D.克莱恩神经模块网络。在CVPR，2016年。[5] J. Angwin，J. Larson，S. Mattu和L.基什内尔机器偏差：全国各地都有预测未来罪犯的软件。对黑人有偏见InProPublica，2016.[6] S. 安托尔，A. 阿格拉瓦尔J. Lu，M. 米切尔D.巴特拉C. Lawrence Zitnick和D.帕里克VQA：可视化问答。在ICCV，2015年。[7] H. 本-塞塞斯河你好，M。 Cord和N. 托米MU-TAN：用于视觉问题回答的多模态塔克融合。InICCV，2017.[8] T.博鲁克巴西湾Chang，J. Y. Zou，V. Saligrama，and A.T.卡莱男人之于电脑程序员就像女人之于家庭主妇一样？去偏置字嵌入。在NIPS，2016年。[9] J. Buolamwini和T. Gebru性别色调：商业性别分类的交叉准确性差异。在公平，问责制和透明度会议上，FAT2018，2018年2月23日至24日，美国纽约州纽约市，2018年。[10] H. Caesar，J. Uijlings，and V.法拉利Coco-stuff：上下文中的事物和东西类。在CVPR，2018年。[11] P. Chattopadhyay，R.韦丹塔姆河R. Selvaraju，D. Ba- tra和D.帕里克在日常场景中计数日常物品。在CVPR，2017年。[12] J.Chen，G. Bai，S. Liang和Z.李自动图像裁剪：计算复杂性研究。在CVPR，2016年。[13] K. 乔湾，巴西-地在Merr ieenboer，C. Guül c ehre，D.巴赫达瑙F.布加雷斯Schwenk和Y.本吉奥。使用rnn编码器-解码器学习短语表示在EMNLP，2014年。[14] K.琼，S。Hwang和M. Kim. Gminer：一种基于gpu的大规模数据频繁项集快速挖掘方法。In Inf. Sci. ，第439-440卷，第19-38页[15] Y. 丁氏Y.Zhao，X.沈，M。Musuvathi和T.米特科维奇阴阳k-意思是：经典k均值的直接替代，具有一致的加速性能。ICML，2015。[16] S. Feng ， E. Wallace ， A. G. II ， M. Iyyer ， P.Rodriguez，andJ. 博伊-格雷伯神经模型的病态使得解释困难。在自然语言处理的经验方法，2018年。[17] A. 福井D.H. 帕克D。Yang，杨树A.Rohrbach，T.Darrell和M.罗尔巴赫多模态紧凑型双线性池用于可视化问题回答和可视化基础。在EMNLP，2016。[18] Y. 戈亚尔 T. 霍特 D. 萨默斯-留下来 D. 巴特拉和D.帕里克使VQA中的V变得重要：提升图像理解在视觉问答中的作用。在CVPR，2017年。9572[19] M. Hardt，E. Price和N. Srebro监督学习中的机会平等。神经信息处理系统进展29. 2016年。[20] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在CVPR，2016年。[21] L. A. Hendricks，K. Burns，K. Saenko，T. Darrell和A.罗尔巴赫女性也可以滑雪：克服字幕模型中的偏见。在ECCV，2018。[22] S. Hochreiter和J.施密特胡博长短期记忆。神经计算，9：1735[23] J. 约翰逊湾哈里哈兰湖范德马滕湖 Fei-Fei ， C.L.Zitnick和R.娘娘腔。CLEVR：用于合成语言和基本视觉推理的诊断数据集。在CVPR，2017年。[24] K. Kafle和C.卡南可视化问题回答算法分析。InICCV，2017.[25] 诉Kazemi和A.Elqursh 显示、询问、出席和回答：一个强大的视觉问答基线。2017年。[26] R. Krishna，Y.Zhu，O.Groth，J.约翰逊，K。Hata，J.克拉维茨S. Chen，Y.卡兰蒂迪斯湖J. Li，D. A. Shamma，M.Bernstein和L.飞飞可视化基因组：使用众包密集图像注释连接语言和视觉。2016.[27] T.林，M。迈尔，S。贝隆吉湖D.布尔代夫河B. 格希克，J。海斯角Perona，D. 拉马南山口Dolla'r，C. L.齐特尼克Microsoft COCO：语境中的共同对象。2014年[28] Z. C. 利普顿模型可解释性的神话。在排队，2018年。[29] M. Malinowski和M.弗里茨一种基于不确定输入的多世界真实场景问答方法。在NIPS，2014。[30] P. K. Mudrakarta，A.Taly，M.Sundararajan和K.达姆德-在这里。模型理解问题了吗？在ACL，2018年。[31] W.欧阳X. Wang，C. Zhang和X.杨用于具有长尾分布的对象检测的微调深度模型在CVPR，2016年。[32] M. T. Ribeiro，S. Singh和C. Guestrin.“我为什么要相信你？“：解释任何分类器的预测。在知识发现和数据挖掘（KDD），2016年。[33] M. T. Ribeiro，S. Singh和C. Guestrin.解释器：高精度的模型不可知论解释。2018年AAAI人工智能会议（AAAI）[34] R. R. 塞尔瓦拉朱M. 科格斯韦尔A. 达斯R. 韦丹坦D. Parikh和D.巴特拉Grad-cam：通过基于梯度的定位从深度网络进行视觉解释InICCV，2017.[35] J. Sivic和A.齐瑟曼。视频google：一种用于视频对象匹配的文本检索方法。载于ICCV，2003年。[36] P. Stock和M. 是的。网络与图像的超越准确性：理解错误与发现偏见。在ECCV，2018。[37] D. Teney，P. Anderson，X. He和A.范登亨格尔。提示和技巧的视觉问题回答。在CVPR，2018年。[38] A. 特罗特角Xiong，和R.索彻视觉问答的可解释计数在ICLR，2018年。9573[39] O. Vinyals，A. Toshev，S. Bengio和D.二汉展示和讲述：神经图像字幕生成器。2015年。[40] W. Wang和J. Shen.通过注意框预测和美学评估进行深裁剪。InICCV，2017.[41] Y. Wang，中国山杨D.K. Ramanan和M.赫伯特学习模拟尾巴。在第31届神经信息处理系统（NIPS）会议上，2017年12月。[42] K. Xu，J. Ba，R. Kiros、K. Cho，A.库维尔河萨拉胡特迪诺夫河Zemel和Y.本吉奥。Show，attend and tell：Neural image caption generation with visual attention.2015年。[43] J. Zhao，T.Wang，M.亚茨卡尔河谷Ordonez和K.-W. 昌男人也喜欢购物：使用语料库限制减少性别偏见放大。在EMNLP，2017年。

下载后可阅读完整内容，剩余1页未读，立即下载