VQA模型的子问题重要性感知网络调整

170 浏览量更新于2023-10-25 收藏 2.47MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

110003VQA模型的SQuINTing：带子问题的VQA模型的反思兰普拉萨河Selvaraju1Purva Tendulkar1Devi Parikh1Eric Horvitz2Marco Tulio Ribeiro2Besmira Nushi2EceKoudos21佐治亚理工学院，2微软研究院@ gatech.edu{horvitz，marcotcr，benushi，ecklord}@ microsoft.com摘要现有的VQA数据集包含不同复杂程度的问题。虽然这些数据集中的大多数问题都需要感知来识别实体的存在、属性和空间关系，但很大一部分问题提出了与推理任务相对应的挑战，这些任务只能通过综合感知和关于世界、逻辑和/或推理的知识来回答。通过分析这种区别的性能例如，在图1中，模型回答了复杂的推理问题“香蕉熟到可以吃了吗？”正确，但在相关的感知问题“香蕉主要是绿色还是黄色？”这表明该模型可能正确地回答了推理问题，但是出于错误的原因。我们通过创建VQA数据集的新推理分割并收集VQA-内省来量化这种现象发生的程度，VQA-内省是一个新的数据集1，目前由200 K个新的感知问题组成，这些问题作为与有效回答推理分割中的复杂推理问题所需的感知任务集相对应的子问题。我们的评估表明，最先进的VQA模型在回答感知和推理问题方面具有相当的性能，但存在一致性问题。为了解决这个缺点，我们提出了一种称为子问题重要性感知网络调整（SQuINT）的方法，该方法鼓励模型在回答推理问题和感知子问题时倾向于图像的相同部分SQuINT将模型一致性提高了1.7%，也略微提高了推理问题的性能，在VQA中，同时也显示更好的注意力地图。在微软研究院实习期间部分完成的研究1我们的数据集可以在aka.ms/vqa-introspect上找到。图1：一个潜在的推理失败：目前的模型回答了一个令人深思的问题：“香蕉熟了可以吃吗？””正确回答我们可以假设，这样做源于正确地感知但是当被问到模型用“绿色”错误地回答问题-指示模型可能由于错误的原因而回答了原始推理问题，即使答案是正确的我们量化这种现象发生在VQA的程度，并介绍了一个新的数据集，旨在刺激研究良好的接地推理。1. 介绍人类认知被认为本质上是合成的：视觉系统识别场景的多个方面，这些方面被组合成形状[7]和理解。同样，复杂的语言表达式也是由简单的语言表达式构建的[5]。类似地，像可视化问题推理（VQA）这样的任务例如，回答“香蕉熟了可以吃吗？”（图1），VQA模型必须能够检测香蕉并提取相关的属性，如大小和颜色（感知），理解问题所问的内容，并推理这些属性如何与可食用香蕉的已知属性（成熟度）以及它们如何表现（黄色与绿色）。While “abstraction” is complexand spans distinctions at multiple levels of detail, we focuson sepa- rating questions into Perception and Reasoningquestions.知觉问题只需要视觉感知来识别实体之间的存在、物理属性或空间关系，例如或110004“那人的左边是什么？“，而推理问题需要多个感知任务和知识的组合，这些感知任务和知识利用了逻辑和关于世界的先验知识，例如“香蕉熟得可以吃了当前的VQA数据集[3，6，15]包含感知和推理问题的混合体，这些问题被认为是评估和学习目的的等效问题。将问题分类为感知和推理，有望促进对模型的视觉感知和更高级别推理能力的更好评估，而不是将这些能力混为一谈。此外，我们认为，识别作为回答推理问题所需的合成过程中的子任务通过阐明这些例如，如果模型同时回答“香蕉可以吃吗？“”和“黄色”到“香蕉是什么颜色的？“，即使前一个问题的答案是正确的。高级推理任务与其所建立的低级感知任务之间的不一致性表明系统尚未有效地学习如何回答推理问题，并且将无法推广到具有另一图像的相同或密切相关的推理问题。这些子问题的形式相同（即，问题与相关答案）允许评估任何VQA模型，而不仅仅是经过训练以提供证明的模型，并且我们使用这个关键观察来开发推理问题的评估方法。用于教学模型回答VQA任务的主导学习范例假设模型被给予图像、问题、答案>三元组，而没有关于问题与获得答案所需的合成步骤之间的关系的附加注释。随着推理问题变得越来越复杂，用迄今为止使用的方法实现良好的覆盖和概括可能需要大量的数据。或者，我们采用分层分解策略，在那里我们识别并链接推理问题与适当的感知子问题集。这种方法有望通过组合建模实现新的效率，并提高回答推理问题的模型的一致性。推理任务和相应的感知任务之间的依赖关系的解释性表示也为推理问题提供了基于语言的基础，其中视觉基础[14，18]可能不足，例如，强调香蕉对于图1中的问题是重要的并没有告诉模型它有多重要（即，颜色是重要的属性而不是大小或形状）。同样，这种接地是以问答形式（模型已经必须处理）的事实是一个额外的好处。这种注释允许对于试图强制推理缺乏捷径，不概括，或不符合人类价值观和商业规则，即使是准确的（例如，种族主义行为）。我们提出了一个新的VQA数据集的分裂，只包含推理问题（前面定义的）。此外，对于分裂中的问题，我们引入了VQA-内省，这是一个新的132 k关联感知子问题的数据集，人类认为这些子问题包含回答原始问题所需的子问题。在验证了新数据集的质量之后，我们使用它来对最先进的模型进行细粒度评估，检查它们的推理是否符合它们的感知。我们发现，最先进的VQA模型在回答感知和推理任务中具有相似的准确性，但存在一致性问题;在模型正确回答推理问题的情况下，有28.14%的模型未能回答相应的感知子问题，突出了一致性问题以及模型可能通过学习常见答案和偏见来学习回答推理问题的风险。最后，我们介绍SQuINTSQuINT将VQA-内省注释与新的损失函数结合到学习中，该损失函数鼓励对子问题重要的图像区域在回答主要推理问题时发挥作用。实证评估表明，该方法的结果在模型中，是更一致的推理和相关的感知任务，而不会损失的准确性。我们还发现SQuINT改进了推理问题的模型注意力图，从而使模型更值得信赖。2. 相关工作视觉问题推理[3]是研究最广泛的视觉和语言问题之一，需要将图像内容与自然语言问题和答案相关联（从而结合感知，语言理解，背景知识和推理）。然而，模型有可能通过利用语言和数据集偏差来完成任务，例如。回答“黄色”到“香蕉是什么颜色的？”不考虑图像或回答这激励了其他形式的评估，例如：检查模型是否能够理解问题的重新表述[20]或者它是否表现出逻辑一致性[16]。在这项工作中，我们提出了一个新的评估问题，需要推理能力，我们检查之间的一致性模型如何回答更高层次的推理问题，他们如何回答相应的感知子问题。已经发布了各种数据集，图像上的注意力注释指向对回答问题很重要的区域（[4，10]），以及相应的工作110005[2017-04 -17][2017 - 04-17][2017 - 04 - 17]我们的工作是对这些方法的补充，因为我们提供了基于语言的基础（而不是视觉），并进一步评估了感知能力之间的联系，以及它们如何由回答推理任务的模型组成。与我们的工作更接近的是Lisa等人的数据集。[10]，其中自然语言理由与（问题，答案）对相关联。然而，所考虑的大多数问题（如VQA数据集的大部分）都涉及感知问题（例如，对于“这个人在做什么？滑雪板”，理由是“...他们在滑雪板上……”）。此外，很难使用自然语言理由来评估不产生类似理由的模型（即大多数SOTA模型），或者甚至为这样做的模型提出指标。相比之下，我们的数据集和评估处于模型已经训练处理的相同模态（QA）中3. 推理-VQA和VQA-内省在本节的第一部分中，我们分析了VQA数据集中常见的问题类型，并强调了将其分类为感知和推理问题的必要性。然后，我们定义感知和推理问题，并描述我们的方法来构建推理分裂。在第二部分中，我们描述了如何通过收集Reasoning拆分中的子问题和问题答案来最后，我们描述了为了验证我们收集的数据的质量进行的实验。3.1. 感知与推理VQA模型的细粒度评估的一种常见技术是按答案类型（是/否，数字，其他）或问题的第一个单词（什么颜色，多少等）对实例进行虽然很有用，但这样的切片是粗糙的，并且不能在抽象尺度的不同点上评估模型例如，“这是香蕉吗？””和“这是健康食品吗？”用同样的词开始，并期待是/否的答案。虽然两者都测试模型是否可以进行对象识别，但后者需要额外的能力，将识别与关于哪些食物是健康的，哪些不是健康的先验知识联系起来。这并不是说推理问题本身就更难，而是它们需要视觉理解和一套额外的技能（逻辑、先验知识等），而感知问题主要涉及视觉理解。例如，问题“在图像中最小的正方形对象的右边有多少个圆形黄色对象？”需要非常复杂的视觉理解，可以说比“香蕉熟了可以吃吗？”“，这需要相对简单的视觉理解（香蕉的颜色）和关于成熟香蕉特性的知识。不管有什么困难，将问题分类为感知或推理对于基于能力的详细模型评估和改进学习都是有用的，正如我们在后面的部分中所演示的我们现在开始更正式地定义这些类别。感知：我们将感知问题定义为那些可以通过检测和识别实体之间的存在，物理属性和/或空间关系，识别文本/符号，简单活动和/或计数，并且不需要超过一跳的推理或超出图像中视觉上存在的一般常识知识。以下是一些示例：“那是猫吗？“（存在），“球有光泽吗？”（物理属性），（空间关系），（文本/符号识别），“人们在看相机吗？”（简单活动）等。我们注意到，空间关系问题在以前的工作中被认为是推理任务[9]，因为它们需要回答组成中的较低水平的感知任务。为了我们的目的，将视觉理解与其他类型的推理和知识分开是有用的，因此我们将这种空间关系归类为感知。推理：我们将推理问题定义为非感知问题，这些问题需要将理解与先验知识和/或推理综合起来例如，“这个房间是完工了还是正在建造？“，“这顿饭什么时候供应？“，“这水看起来够鲜吗？“，“这是家还是酒店？“，“长颈鹿在它们的自然栖息地吗？”都是推理题。我们对VQA数据集中的感知问题的分析表明，大多数感知问题具有不同的模式，可以用基于正则表达式的高精度规则来识别。通过手工制作这样的规则（细节可以在[19]中找到）并过滤感知问题，我们发现18%的VQA数据集非常有可能是推理。为了检查我们的规则的准确性并验证其推理问题的覆盖范围，我们在Mechanical Turk上设计了一个众包任务，该任务指示工作人员将给定的VQA问题识别为感知或推理，并随后为推理问题提供子问题，如下所述。在94.7%的情况下，经过培训的工作人员将我们产生的问题归类为推理问题，这表明我们创建的基于regex的规则具有很高的精度3.2. VQA自检数据考虑到区分感知/推理以及为推理问题提供子问题的复杂性，我们首先通过资格考试在 AmazonMechanicalTurk（AMT）上培训和筛选员工，然后再依靠他们生成高质量的子问题。工人培训-我们手动注释100个问题110006从VQA数据集的知觉和100作为推理问题，作为例子。我们首先通过给出定义和展示每种问题的几个例子以及解释来教工作者感知问题和推理问题之间的区别。然后，工人被显示（问题，答案）对，并要求确定给定的问题是一个感知问题或推理问题2。最后，对于推理问题，我们要求工人添加所有感知问题和回答主要问题所需的相应答案（简而言之）（细节和界面可以在[19]中找到）。在这个资格HIT中，工人必须做出6个感知和推理判断，如果他们得到5个或更多的正确答案，他们就有资格。我们对通过第一轮资格认证的工人进行了进一步的试点实验，根据他们是否是基于图像的感知问题并足以回答主要问题，我们手动评估了他们的子问题的质量。在通过第一次资格测试的463名工人中，91名被选为（通过人工评估）高素质工人，最终有资格尝试我们的主要任务。主要任务-在主要数据收集中，所有通过regex规则识别为推理的VQA问题和识别为感知的问题的随机子集由工作人员进一步我们通过进一步过滤掉工人对答案存在高度分歧的问题来消除模糊问题。我们要求10名工人中至少有8名同意是/否问题的多数答案，10名工人中至少有5名同意所有其他问题的多数答案。这个标签步骤给我们留下了一个推理分割，对应于VQA数据集的13%。下一步。标记为推理的每个问题，图像>对具有由3个唯一工作者生成的子问题3。删除重复问题，每个推理问题平均保留2.60个子问题的答案对。图中给出了由此产生的数据集的定性示例。二、所得到的VQA-introspect v0.7序列包含VQAv 1序列的子问题，具有27441个推理问题和相应的79905个子问题。VQA-内省值有15448个推理问题（来自整个VQAv 2值）和52573个相应的子问题。这种推理划分并不是详尽无遗的，但精度很高（如下所示），包含的问题并不含糊，因此对评估和学习很有用。3.3. 数据集质量验证为了证实VQA-内省中的子问题确实是知觉问题，我们做了进一步的2我们还添加了一个对通过第3.2节所述工人资格鉴定任务但未提供主任务子问题的工人进行一这一轮，87。VQA-内省中8%的子问题被至少2/3的工人判定为感知问题。对于VQA-内省的语义来说，子问题与原始推理问题相关联是至关重要的在验证子问题对于回答原始问题是必要的同时，要求工作人员思考原始问题可以被回答的所有可能的方式（因此太难了），我们设计了一个实验来检查子问题是否提供至少足够的视觉理解来回答推理问题。在这个实验中，工人们被展示了子问题和答案，然后被要求在没有看到图像的情况下回答推理问题，因此只能依靠子问题传达的视觉知识。在该方案中，至少2/3的工作人员能够正确回答89.3%的推理问题（95.4%的二元推理问题）。相比之下，当我们要求工人在没有视觉知识的情况下回答推理问题（没有图像和子问题）时，准确率为52%（二元问题为58%）。这些实验使我们相信，VQA-内省中的子问题确实是传达视觉知识成分的感知问题，这些视觉知识成分可以被组合来回答原始的推理问题。4. 数据集分析我们的VQA-内省数据集中的问题分布如图3所示。有趣的是请注意，将这些图与VQA数据集[3]的图进行比较，表明VQA内省数据集的问题更具体。例如，数据集中有0个“为什么”问题，这些问题往往是推理问题。此外，对于“where”问题，VQA中非常常见的答案是“outside”，但在我们的VQA内省数据集中答案更具体（例如，“海滩”、“街道”）。图4显示了VQA的感知和推理分割以及我们的VQA内省数据集中的问题长度分布。我们看到大多数问题的范围从4到10个单词。感知和推理分裂中的问题长度非常相似，尽管VQA-内省中的问题稍微长一些（曲线稍微向右移动），可能是因为问题的特异性/细节增加了。一个有趣的问题是，主要问题和次要问题是否涉及相同的概念。为了探索这一点，我们使用名词组块替代概念4，并测量主问题和相关子问题之间3.少数工人在罢工后表现出下降的表现。鉴定轮，并手动过滤4概念是用Python spaCy库提取的。110007（a）（b）（c）（d）（e）（f）（g）（h）图2：我们的VQA-内省数据集中感知子问题的定性示例，用于VQA的推理分割中的主要问题主要问题为橙色，子问题为蓝色。一个工人可能为同一对（图像，主要问题）提供了多个子问题图3：左侧：按问题的前四个字分配问题。弧长与包含该单词的问题数量成正比。白色区域是贡献太小而无法显示的单词，右：每个问题类型的答案分布问题名词组块只是一个替代，可能会错过语义重叠，否则存在（例如，通过动词-名词连接，如有了这个警告，我们观察到只有19.19%的时间是重叠的，这表明在我们的分裂中，推理问题通常需要关于相应的感知问题中没有明确提到的缺乏重叠表明模型不能仅仅依靠视觉感知来回答Rea。听任务，但结合背景知识和常识的理解是必要的。例如，在问题“飞机是起飞还是降落？“，提出的概念是“飞机”和“着陆”，而对于相关的子问题“轮子出来了吗？“，这个概念是虽然110008图4：Sub-VQA数据集的train和val子问题中具有不同单词长度的问题的百分比。5. VQA推理VQA内省通过检查这些问题的正确性是否与相关感知子问题的正确性一致，能够更详细地评估当前最先进模型在推理问题上的性能。重要的是要注意，Perception失败（子问题的错误答案）可能是由于模型的视觉部分存在问题或者基础问题-虽然接地问题不是严格的视觉感知故障，但我们仍然认为它们是感知故障，因为VQA的目标是回答关于图像的自然语言问题，并且子问题被认为与前面定义的感知知识有关。有了这个警告，当评估推理问题和相关的感知子问题时，有四种可能的结果，我们将其分为四个象限：问题1：两个主要&的子问题都正确（MS）：虽然我们不能声称模型正确地预测了主要问题，因为子问题（例如，香蕉是成熟的，因为它们大部分是黄色的），事实上，它正确地回答了这两个问题，这与良好的推理是一致的，应该给我们更多的信心，在原来的预测。Q2：Maincorrectsub-questioninincorrect（MS）：感知失败表明可能存在推理失败。虽然模型可能正在构成未被所识别的子问题捕获的其他感知知识（例如，香蕉是成熟的，因为它们上面有黑点），也有可能（更有可能）模型使用了一个虚假的捷径，或者是随机正确的。Q3：主要不正确的子问题正确（M S）：这里的感知失败表明了一个清晰的推理失败，因为我们验证了子问题足以回答主要问题。在这种情况下，模型知道香蕉大部分是黄色的，但仍然认为它们不够成熟，因此它无法建立问题4：机器人无法回答子问题（M S）：虽然模型可能没有推理能力来回答这个象限中的问题，但感知失败可以解释错误的预测。总之，Q2和Q4肯定是感知失败，Q2可能包含推理失败，Q3包含推理失败，我们无法在Q4中判断推理。作为一个例子，我们沿着这些象限（表1）评估Pythia模型[11]（截至2018年的SOTA）5，该模型的总体准确率为60.26%，而推理问题的准确率为65.99%。我们注意到，对于28.14%的情况，模型是不一致的，即，它正确地回答了主要问题此外，我们观察到，14.92%的时候，皮提亚模型得到所有的子问题是错误的，而主要的问题是正确的它似乎是严重错误的看法和使用其他路径（捷径或偏见），以获得正确的推理问题。6. 使用VQA改进学习模型-内省在本节中，我们将考虑如何使用VQA内省来改进在VQA数据集上训练的模型我们的目标是减少可能的推理或感知失败（MS和MS）的数量，而不损害模型的原始准确性。6.1. Finetuning将VQA-内省合并到学习模型中的最简单方法是在其上微调模型然而，一些预防措施是必要的：我们确保子问题总是出现在与原始问题相同的批次中，并使用主问题和子问题的平均二进制交叉熵损失作为损失函数。此外，为了避免在微调过程中灾难性地忘记原始VQA数据[13]，我们使用来自原始VQA数据集的随机采样数据来增加每个批次。在我们的实证评估中，我们将这种方法与微调VQAv2中相同数量的随机抽样感知问题进行了比较。6.2. 子问题重要性感知网络调整（SQuINT）子问题重要性感知网络调优（SQuINT）背后的直觉是，模型在回答推理问题时应该关注图像中的相同区域，因为它在回答as-5来源：https://visualqa.org/roe_2018.html110009图5：我们的子问题重要性感知网络调优（SQuINT）方法：给定一个图像，一个推理问题，如“现在是什么季节？” 还有一个相关的感知子问题，比如“手机上有圣诞树的图片吗？“，我们让它们通过皮提亚体系结构[11]。为SQuINT定制的损失函数由三个部分组成：基于以子问题和图像特征为条件的图像嵌入来惩罚对主问题的注意力和对子问题的注意力之间的不匹配的注意力损失、针对主问题的答案的交叉熵损失和针对子问题的答案的交叉熵损失。损失函数鼓励模型同时获得主问题和子问题的正确答案，同时也鼓励模型使用正确的注意区域进行推理任务。关联的感知子问题，因为它们捕获了回答主要问题所需的视觉组件。SQuINT通过学习如何关注感兴趣的子问题区域并对其进行推理来回答主要问题。我们现在描述如何构造一个损失函数来捕捉这种直觉。注意力丧失-如第3节所述，我们数据集中的子问题是简单的感知问题，询问图像中有充分基础的对象/实体。当前基于注意力的性能良好的模型在被问及简单的感知问题时通常擅长在图像中的视觉接地区域为了使模型在回答主要问题时查看相关的子问题区域，我们在空间和边界框注意力权重上应用均方误差（MSE）损失。交叉熵损失--虽然注意力损失鼓励模型在给定复杂的推理问题时查看正确的区域因此，我们将常规的二进制交叉熵损失应用于给定子问题注意力的推理问题的预测答案之上此外，我们还使用预测和GT答案之间的二进制交叉熵损失的子问题。总SQuINT损失-我们共同训练的注意力和交叉熵损失。Let Areas and Asub be the model attention for the mainreasoning question and the associ- ated sub-question, andgtreas and gtsub be the ground-truth answers for the mainand sub-question respectively. 让奥雷阿斯|子问题是考虑到子问题的关注，推理问题的预测答案。斜视损失的正式定义是：LSQuINT =MSE（Areas，Asub）+BCE（oreas|Asub，gtreas）+BCE（osub，gtsub）第一个术语鼓励网络查看相同的区域进行推理和相关的感知问题，而第二个和第三个术语鼓励它对给定注意区域的问题给出正确的答案。损失很简单，可以作为任何使用注意力的模型的修改。7. 实验在本节中，我们使用SOTA模型Pythia[11]作为基础模型（尽管任何使用视觉注意力的模型都足够了），对VQA推理进行细粒度评估，如第5节所述。我们在VQAv 1上训练了基础模型，并在VQAv 2的推理分割和相应的VQA-内省子问题上评估了基线和所有变体。如第6节所述，Pythia + VQA-内省数据对应于对VQAv 1的训练VQA-内省v0.7子问题的基础模型进行微调，而Pythia + VQA-内省+ SQuINT微调Pythia + VQA-内省，使得它现在关注主问题和相关子问题的相同区域（再次，VQA-内省v0.7）。为了与Pythia + VQA-introspect+ SQuINT进行直接比较，在Pythia + VQA-introspect微调期间，我们在同一批中添加了主问题和子问题。在表1中，我们报告了第5节中详细说明的推理分解。我们还报告了一些额外的指标：一致性是指模型在正确回答主问题的情况下正确预测子问题的频率，而一致性（平衡）报告了子问题的平衡版本的相同指标（以确保模型不会利用偏见来获得一致性）。AttentionCorrelation refers to the correlation between the attentionembeddings of the main and sub-question.最后，我们报告总体准确性（在整个评估数据集上）和推理分割的准确性（推理准确性）。请注意，我们的方法在测试时不需要子问题.110010一致性指标VQA准确度方法MS↑MS↓MS↓MS↓稠度%↑稠度%（平衡）↑收件人更正↑整体↑推理（MS+MS）↑皮提亚47.4218.5720.7013.3171.8669.570.7160.2665.99Pythia + VQA-内省数据52.5413.5522.5011.4179.5075.440.7160.2066.09Pythia + VQA-内省+SQuINT52.5613.8422.3811.2279.2575.260.7460.3366.41表1：（1）第5节中描述的四个象限的一致性指标以及第5节（指标）中描述的一致性和注意力相关性指标，以及（2）总体和推理准确性的保持VQAv2验证集的结果推理准确度仅通过查看主要问题正确的次数（MS+MS）来获得。（a）（b）图6：定性示例显示了应用SQuINT前后的模型注意力（a）在推理问题“长颈鹿是从动物园逃出来的吗？”，Pythia模型看起来有点不相关的区域，并错误地回答请注意，同一个模型如何正确地看着围栏，以回答更简单的子问题，“长颈鹿被围栏围住了吗？”' .在应用SQuINT之后，它鼓励模型在回答推理问题时使用基于感知的子问题注意力，现在它会看着围栏并正确回答主要推理问题。表1中的结果表明，对VQA-内省的微调相应地，当它正确地回答推理问题时，我们对它实际上学习了必要概念的信心应该增加。注意力相关性数字表明，SQuINT确实帮助模型在测试时使用适当的视觉基础（主问题与子问题相同），即使模型在VQAv1上训练并在VQAv2上评估这种效果似乎并不发生在VQA内省的朴素微调中。我们在图6中给出了定性验证示例，其中基础模型在回答主问题时关注不相关区域（即使它回答正确），而在被问到子问题时关注相关区域。另一方面，在SQuINT上进行微调的模型关注的是在主问题和子问题中实际提供信息的区域（请注意，这是评估，因此模型在回答主问题时并不知道子问题这进一步表明，SQuINT正在帮助模型进行推理，当它正确回答推理问题时，它将进行泛化，而不是使用快捷方式。8. 讨论和未来工作VQA任务需要不同模态和不同抽象级别的多种功能。我们介绍-在知觉和推理之间引入了一个严格的区别特别是，将回答推理问题所需的感知组件（以及其他形式的推理）联系起来，除了改善对当前工作的评估外，还为未来的我们提出了一些初步的方法，似乎很有希望：对VQA内省和SQuINT的微调都提高了SOTA模型的一致性，而没有明显的准确性损失，SQuINT产生了质量更好的注意力图。我们希望未来的工作在建模方法中更明确地使用VQA-内省，类似于显式组成视觉知识以改善视觉推理的当前工作[8]。此外，类似的努力，我们可以采用在不同的点，在抽象的规模，例如。将复杂的感知问题进一步划分为更简单的部分，或者将推理部分进一步划分为不同形式的背景知识、逻辑等。我们认为这样的努力对于评估和训练真正泛化的模型至关重要，并希望VQA-内省能激励更多的研究。鸣谢。佐治亚理工学院的努力得到了 NSF ， AFRL ，DARPA，ONR YIPs，ARO PECASE，Ama的部分支持。带本文所载的观点和结论是作者的观点和结论，不应被解释为必然代表美国政府的官方政策或认可，无论是明示还是暗示。政府或任何赞助商。110011引用[1] Aishwarya Agrawal ， Dhruv Batra ， Devi Parikh ， andAnirud- dha Kembhavi.不要只是假设;看一看并回答：有视觉问答的前科。在IEEE计算机视觉和模式识别上，2018年。[2] Lisa Anne Hendricks ， Kaylee Burns ， Kate Saenko ，Trevor Darrell和Anna Rohrbach。妇女也滑雪：克服偏见的字幕模式.在ECCV，2018。[3] Stanislaw Antol ， Aishwarya Agrawal ， Jiasen Lu ，Margaret Mitchell，Dhruv Batra，C Lawrence Zitnick，and Devi Parikh.Vqa：可视化问答。在IEEE计算机视觉国际会议论文集，第2425- 2433页[4] Abhishek Das，Harsh Agrawal，C.劳伦斯·齐特尼克，德维·帕里克和德鲁夫·巴特拉。视觉问题处理中的人类注意力：人类和深度网络看的是同一个区域吗？在EMNLP，2016。[5] Jerry A Fodor和Zenon W Pylyshyn。连接主义和认知架构：批判性的分析。Cognition，28（1- 2）：3[6] Yash Goyal 、 Tejas Khot 、 Douglas Summers-Stay 、Dhruv Batra和Devi Parikh。让vqa中的v变得重要：提升图像理解在视觉问答中的作用。在CVPR，2017年。[7] 唐纳德 D 霍夫曼和惠特曼 A 理查兹。部分认知。Cognition，18（1-3）：65[8] Drew A Hudson和Christopher D Manning用于机器推理的组合注意力网络。arXiv预印本arXiv：1803.03067，2018。[9] Drew A Hudson和Christopher D Manning Gqa：一个用于真实世界视觉推理和组合问题回答的新数据集。在IEEE计算机视觉和模式识别会议集，第6700- 6709页[10] Dong Huk Park，Lisa Anne Hendricks，Zeynep Akata，Anna Rohrbach，Bernt Schiele，Trevor Darrell和MarcusRohrbach。多模态解释：为决策辩护并指出证据。在IEEE计算机视觉和模式识别会议论文集，第8779-8788页[11] Yu Jiang ， Vivek Natarajan ， Xinlei Chen ， MarcusRohrbach，Dhruv Batra，and Devi Parikh. Pythia v0. 1：2018 年VQA挑战赛的优胜者。 arXiv预印本arXiv：1807.09956，2018。[12] 李庆，付建龙，于东飞，陶梅，罗杰波。告诉并回答：使用属性和标题进行可解释的视觉问题回答。在2018年自然语言处理中，第1338-1346页，比利时布鲁塞尔，10月- 2018年11月。计算语言学协会。[13] Michael McCloskey和Neal J Cohen。连接主义网络中的灾难性干扰：顺序学习问题。《学习与动机心理学》，第24卷，第109-165页。爱思唯尔，1989年。[14] 乔婷婷，董建峰，徐端庆。视觉问答中的类人注意监控研究。在AAAI，2018。[15] Mengye Ren，Ryan Kiros，and Richard Zemel. 探索图像问答的模型和数据。神经信息处理系统的进展，第2953-2961页，2015年[16] Marco Tulio Ribeiro，Carlos Guestrin，and Sameer Singh.红玫瑰是红的吗？问答模型的一致性评价。在计算语言学协会第57届年会的会议记录中，第6174-6184页计算语言学协会[17] RamprasaathR Selvaraju ， Michael Cogswell ， AbhishekDas ， Ramakrishna Vedantam ， Devi Parikh ， DhruvBatra，et al. Grad-cam：通过基于梯度的定位从深度网络进行视觉解释。InICCV，2017.[18] 兰普拉萨河Selvaraju，Stefan Lee，Yilin Shen，HongxiaJin，Shalini Ghosh，Larry Heck，Dhruv Batra，and DeviParikh.我明白了利用解释使视觉和语言模型更有基础。在IEEE国际计算机视觉会议（ICCV）上，2019年10月。[19] Ramprasaath R Selvaraju ， Purva Tendulkar ， DeviParikh，Eric Horvitz，Marco Ribeiro，Besmira Nushi，and Ece Ka-mar. 斜视vqa模型：用子问题询问vqa模型arXiv预印本arXiv：2001.06927，2020。[20] 认识一下Shah、Xinlei Chen、Marcus Rohrbach和DeviParikh。稳健视觉问答的周期一致性。在IEEE计算机视觉和模式识别会议论文集，第6649-6658页[21] Peng Zhang ， Yash Goyal ， Douglas Summers-Stay ，Dhruv Batra，and Devi Parikh.阴阳：平衡和回答二元视觉问题。在CVPR，2016年。

下载后可阅读完整内容，剩余1页未读，立即下载