图像的视觉问题与弱监督的数据增强策略提高了VQA基准

109 浏览量更新于2023-10-16 收藏 1.43MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1问题中有什么卡耐基梅隆大学Abhinav Gupta摘要收集完全注释的图像数据集是费时且昂贵的。探索出了多种类型的监管不力：弱手动注释、web搜索结果、时间连续性、环境声音等。我们专注于一种特殊的未探索模式：关于图像的视觉问题。激励我们工作的关键观察是，问题本身提供了关于图像的有用信息例如，“狗的品种是什么？“ 通知AI场景中的动物是狗，并且只有一只狗存在。我们做出三个贡献：（1）对人类视觉问题中包含的信息进行了广泛的定性和定量分析，（2）对标准视觉问题回答模型提出了两个简单但令人惊讶的有效修改，允许它们以与图像相关的未回答问题的形式利用弱监督，（3）证明了受我们启发的简单数据增强策略洞察力的结果是7。比标准VQA基准提高1%1. 介绍监督学习在开发视觉人工智能方面显示出巨大的前景然而，收集手动注释的可视化数据集既具有挑战性又昂贵[36，14，28]。使用更便宜和更弱的监督是一个不断增长的研究方向[46，42，8，12，35，7，34，4]。随着人工智能越来越多地融入我们的日常生活，计算机视觉系统将通过不断观察人与人、人与物体、人与环境以及人与人工智能的交互来获得越来越多样化的信息来源。当我们致力于开发大规模、精确和适应性强的视觉系统时，有效地利用所有这些信息将变得越来越重要视觉提问（VQA）已经成为人类与AI之间交互的新模式[3]。目前，VQA主要用于评价计算机的视觉响应能力。然而，展望未来，这可能会成为一种自然的人机交互图1：我们检查了视觉问题中包含多少信息，并证明这些信息可以有效地用于训练计算机视觉模型。范例人类向计算机提出视觉问题将变得司空见惯，例如，“这是什么狗？“，“我以前见过这个人吗？“或者“她为什么要这么做“.与其将其视为人类从AI系统中获取信息的单边交互，我们考虑视觉问题本身如何作为一种监督形式来改进计算机视觉系统（图1）。与专注于提高AI的VQA能力的现有工作相比例如，在一个示例中，“这是什么品种的狗？“提供场景中的动物是狗的信息，并建议存在一只狗。问题是“他为什么这么做？“表明所描述的行为是不寻常的或意外的。这种自由、自然和开放式的监督可以为开发更丰富的认知AI铺平道路。我们着手研究这一假设，即人类的问题可以有效地用于提高计算机的视觉能力。我们首先使用大规模VQA数据集[3]对视觉问题中包含的信息进行广泛的定性和定量分析。我们对iBOWIMG [48] VQA模型提出了两个简单但令人惊讶的有效修改，允许它以与未回答问题相关的图像的形式使用弱监督。这证明了我们的假设，即未回答的问题可以有效地用作视觉监督的一种形式。受我们最初实验的启发241242然后，我们提出了一个简单的数据增强策略。关键的想法是，而不是使用图像-问题-答案三元组作为训练样本，我们生成2n个训练样本，将与图像相关的n个该策略获得7分。在标准VQA基准测试中，准确性提高了1%，这证实了我们的分析不仅对未来人工智能与人类的密切互动具有重要意义，而且对直接相关的基准测试也具有重要意义。我们的代码、型号和其他详细信息可在http://sidgan.me/whats_in_a_question/网站。2. 相关工作视觉与语言：计算机视觉模型通常被训练为识别视觉概念的固定词汇[14，28，36]。但最近，有一种趋势是更多描述性的开放世界图像理解。努力包括图像[41，15，9，40，23，25]和视频[13]字幕，自然语言表达的图像分割[19]，对齐视频和书籍[49]，自然文本的零拍摄识别[5，18]，从嘈杂的开放世界人类标签中学习对象模型[32]和其他方法。虽然视觉问题当然不意味着提供对图像的完整描述，但它们仍然包含一些关于以自然文本编码的场景的开放世界信息。在这项工作中，我们采取了初步措施，以提取和利用这些信息。可视化问答：关于构建可视问答系统的文献[6，47，45，22，18，24，31，2，38，16，33，20，43，44，48，37，26]太广泛，无法在此详细介绍。我们做了一些分析，通过建立关闭的iBOWIMG模型周等人。48.但是，我们的大部分调查是正交的视觉问题回答管道。我们在理解问题中嵌入的信息方面的工作更类似于Lin等人的工作。[29]关于利用VQA知识改进图像字幕或Goyal等人。[17]分析问题中不同词语的相对信息量。然而，与这些方法相反，我们专注于可以从问题中提取的知识，而不是问答组合。附带监督：随着我们走向大规模开放世界视觉理解，为每个任务和概念收集手动注释的数据集很快就会成为现实。不可行。开发使用自然和具有成本效益的监督形式的方法是一个不断发展的研究方向：弱手动注释[46，42]、基于网络搜索的监督[8，12]或额外模态，如时间连续性[35]、深度[7]、环境声音[34]或GPS信号[4]。沿着类似的思路，我们调查与图像相关的视觉问题是否提供了足够的监督来训练计算机视觉模型。我们认为，人工智能越来越多地融入日常人类环境，将有机地生成大量图像-问题对，可用于改进视觉AI系统。3. 灵感来源：不确定性问题包含哪些信息？我们首先从定性和定量分析的信息视觉问题可能包含。我们考虑一个设置，其中我们有一个图像和一个与之相关的问题（或一组问题），但没有相应的答案。我们从两个角度研究问题的信息内容：（1）这些问题是否可以提供一个很好的图像描述和（2）我们是否可以学习什么对象存在于图像中，给定这些问题。我们的分析为第4节中描述的方法提供了灵感，用于在学习视觉模型时利用未回答的问题。设置：我们在这里详细介绍了分析的设置。我们使用COCO数据集，其中包含82，783个训练和40，504个验证图像[28]。三种类型的注释与数据集相关联：（1）视觉问题，其中每个图像与关于视觉场景的三个人类生成的问题相关联[3]，（2）图像标题，其中每个图像与五个人类生成的自然语言描述相关联，以及（3）图像分类标签，其中每个图像用80个目标对象类的存在或不存在来注释。在本节中，我们3.1. 图像描述图片说明是描述图片的一种自然的开放世界方式[3]定性地指出了图像标题和视觉问题之间的信息差异：问题倾向于提供关于图像内的一个对象的特定信息，而字幕自然倾向于成为更丰富的信息源。然而，当一个人看到一个场景时，她很少会被迫提供一个标题（除非在社交媒体上发布图像）。相反，她可能会觉得有必要问一个问题，例如，“这是米粉汤吗？“或者“这些花是真的还是人造的？“.她问这些问题的事实提供了一些关于场景内容的信息。我们首先分析视觉问题是否包含足够的信息来提供对图像的准确描述。定量结果：我们使用两个标准的字幕度量来评估将视觉问题用作表1中的图像字幕：[11][12][13][14][15]我们首先考虑三个基线，它们不使用图像信息，但纯粹基于所提出的视觉问题生成标题：（1）一个Q：直接使用其中一个视觉问题作为标题，（2）三个Q：使用所有三个视觉问题连接在一起作为标题，以及（3）Seq2Seq [10]：在COCO训练集上训练的模型243公共汽车是什么颜色的？人们在等餐车吗图中有多少把雨伞这只鸟坐在一棵植物上吗？对象类问题表1：使用视觉问题为图像提供标题的定量评价，使用ME-TEOR [11] 和 SPICE [1]指标对图像标题任务的COCO验证集进行评价详情见第3.1节。它接受三个视觉问题的输入，并学习根据问题中包含的信息输出图像标题三个Q优于一个Q（SPICE得分为0.115 vs 0.058），表明不同的问题提供了关于图像内容的互补信息。1这两个人在舞台上做什么？右边那个人的帽子是什么颜色的？这张照片是白天拍的吗？白天戴帽子的人这是米粉汤吗？汤的右边是什么？哪个网站对照片进行了版权保护？受版权保护的汤面这婴儿在嚼什么？这孩子是5岁以下的吗？孩子睡着了吗？咀嚼型婴儿花在花瓶里吗？有多少种不同颜色的花这些花是真的还是假的？许多绿色的花上面的街道名称是一个有送报纸的箱子吗？路是什么颜色的？街这是3D照片吗灯柱上有几盏灯？这幢楼的颜色很特别吗？灯柱颜色浅训练Seq2Seq模型以从三个问题生成语义上更有意义的标题，将SPICE分数从0.115提高到0.140。2我们还调查了视觉问题是否可以提供补充信息，什么是包含在图像功能。我们使用计算机视觉模型NeuralTalk2（NT）[25]，它接收图像并输出图像标题。直接将该基于图像的标题与从问题（ NT +Seq2Seq）生成的标题连接，将SPICE分数从0.194提高到0.256，表明来自视觉问题的信号可以与图像中的信息互补。定性结果：最后，我们定性地展示了一些结果的标题生成的视觉问题。图 2 显示了在验证集上应用Seq2Seq模型以将3个视觉问题转换为与图像关联到单个图像标题。结果表明，视觉问题可以提供有关图像内容的详细信息。生成的标题包含对象类别、人的动作、颜色和情感信息，表明该信息可以容易地从问题中提取。3.2. 对象分类除了图像描述之外，视觉问题可以提供的另一个信息源是图像中存在的对象类。表2中示出了一些示例：例如，问“巴士是什么颜色的？“指示图像中总线的存在。算法：为了量化这种情况发生的频率，我们从视觉上提取了80个COCO类的对象标签。1 SPICE指标[1]考虑了字幕的精确度和召回率，从而可以在不同长度的字幕之间进行公平的比较。[2]我们的分析与Lin et al.的工作有些相似[29]关于图2：使用第3.1节中的Seq2Seq模型生成的三个视觉问题和标题。有些标题令人惊讶地准确（绿色），而另一些则不那么准确（橙色）。表2：指示图像中某些对象的存在的视觉问题问题. COCO中有64个问题类型：“有多少”、“有没有”、“什么颜色”等等。对于每种类型，我们手动确定这种类型的问题是否暗示对象的存在。例如，“howmany”类型的问题确实暗示了对象的存在：“桌子上有多少不同的花？“意味着鲜花和桌子的存在。相比之下，“在那里”类型的问题，如“照片中有斑马吗？“，并不意味着任何物体的存在。对于每一个暗示对象存在的问题，我们提取问题所指的80个COCO类（如果有的话）。我们使用NLTK [30]来消除时态和同义词的歧义，以及用于单复数的pattern.en3。对于两个词的类别，如结果：我们将得到的对象类向量与图像中对象存在的地面实况注释进行比较。我们的转换算法实现了平均每类29的重新调用。3%，精密度为82。4%，这表明虽然这三个视觉问题并不涉及图像中的所有对象，但它们仍然占据了超过四分之一的使用VQA对图像标题进行排名;然而，我们仅基于问题生成的图像和评价字幕3http://www.clips.ua.ac.be/pages/pattern-en信息模型流星香料一个Q0.0890.058仅限Qs三个Q0.1400.115Seq2Seq0.2060.140仅图像新台币[25]0.2670.194图片+QsNT + Seq2Seq0.3050.256244图3：我们使用与图像相关的问题来确定图像包含的对象我们展示了这种方法的每类召回率（左）和精度（右）常识：长长的影子是不是表明已经过了早晨？视觉关系：是人摔倒了吗？模棱两可：架子上有多少个相同的粉褐色花瓶？历史：这张照片是100多年前拍的吗？成分：女人的衣服是用真的水果和树叶做的吗？示能表示：这只猫躺在沙发上吗？80个COCO课程X轴对应于图像中该对象的平均尺寸。(If出现同一对象类的多个实例，我们将它们的面积相加，以计算每个图像中该类所占据的总面积。我们观察到，较大的物体在问题中被问到的频率更高，因此回忆率更高。大多数类都有>80%的精度，但也有一些值得注意的例外，例如作为用作形容词，因此具有19的低精度。百分之三。一些常见的物体，有一些误报。图3显示了每个类的查全率和查准率与图像中该类的平均大小的函数关系。正如预期的那样，较大的物体往往会被更频繁地询问。例如，“棒球手套”仅占0.8%的图像平均，并有一个接近零的重新调用0。7%，这表明它从未被询问过（或者我们无法用我们的算法解析出来）。相比之下，“火车”占据了25。8%的图像面积，召回率为79。5%，这表明如果一列火车出现在图像中，它几乎总是被询问。一个值得注意的例外是“餐桌”，它占据了31。7%的图像面积，但只有16召回。3%，因为它很少是感兴趣的目标对象。总体而言，在所有类别中，我们检测到的对象占18个。2%的图像区域，而我们未能检测到的对象仅占7。百分之一。结合视觉模型：此外，我们还证实，了解问题提供了有关图像的额外信息，超出了目前可以提供的信息。被现代计算机视觉模型所取代。我们在COCO的训练集上微调ILSVRC2012预训练的GoogLeNet模型[39，36]以识别80个目标对象类。它实现了53的图像分类mAP。验证集上的1%。然后，我们将80维分类器预测向量xc与使用max（xo，xc）从三个视觉问题中提取的对象类向量xo相结合。这显着增加图像分类，fication准确性为67。2%mAP。讨论：我们发现，视觉问题，即使没有答案，提供信息丰富的图像描述，图4：一个人被提示提出这个问题的事实表明，这个问题和图像之间存在着某种关系。蓝色文本是潜在信息的类型，黑色是示例问题。对象分类信息。此外，我们简要地注意到，视觉问题也可以提供额外的潜在信息，如图4所示。我们在这里不试图量化，但注意到这些信息也可能在未来的AI系统中被提取和利用4. 方法：有效利用未回答的视觉问题有了这样的结论，即视觉问题本身提供了关于图像内容的重要和有用的信息，我们现在开始研究如何使用这些问题来帮助开发改进的计算机视觉模型。我们专注于VQA任务，并研究如何有效地利用未回答的问题由于我们提出的公式非常简单，第5节中所展示的经验益处甚至更加惊人。标准VQA系统[6，47，45，22，18，24，31，2，38，16，33，20，43，44，48，37]将图像及其目标问题作为输入，期望产生问题的准确答案。在第3节中，我们做了两个关键观察：（1）不同的视觉问题提供彼此互补的信息，以及（2）视觉问题可以提供关于场景的信息，该信息可以是使用现代计算机视觉模型从图像中提取的信息的补充。因此，很自然地会问，4.1. 模型为了研究，我们建立在iBOWIMG模型上[48]。这个模型非常适合我们的调查，因为它非常245我我我图5：iBOWIMG-2x模型的框架该表征包括三个部分：（1）视觉形象特征，iBOWIMG的培训示例如下：相反，iBOWIMG-2x的训练示例是：（xi，qij，E，aij）i，j，EP（Qall）（2）其中P表示Qall的幂集，并定义了以关于同一图像的附加问题的形式提供给模型例如，考虑一个带有问题q的图像x，一个相应的答案a和另外两个未回答的问题q′和q′。对于iBOWIMG来说，1 2(2)目标问题的文本嵌入，以及（3）文本嵌入。把其他问题串在一起这种表示通过一个学习的完全连接的对应于该图像的样本将是（x，q，a）。对于iBOWIMG-2x，将有八个训练示例，E=m，q，q′，q′，[q，q′]，[q，q′]，[q′，q′]或[q，q′，q′]， 1 2 1 2 1 2 1 2层来预测目标问题的答案。易于修改和分析，同时在VQA任务上取得了令人印象深刻的结果。iBOWIMG使用从ILSVRC预训练的CNN[39，36]中提取的深度特征对图像进行建模，并使用通过单词嵌入层转换的单词袋文本特征对目标问题进行建模。图像和目标问题特征被连接并通过softmax层发送，以预测一组选择中的答案类。我们扩展了iBOWIMG，以额外考虑有关此图像的其他问题作为输入。我们以与目标问题相同的方式对这些额外问题进行建模：额外的问题被连接在一起成为长串，计算词袋文本特征，然后经由词嵌入层进行变换。这个额外的特征向量与图像和目标问题特征连接在一起，如图5所示。由于增加了维度，我们将此模型称为iBOWIMG-2x4在训练期间，模型的任务是预测目标问题和其他问题的答案可以被认为是图像的更丰富的特征表示。4.2. 培训为了训练更丰富的iBOWIMG-2x模型，我们需要从可用的训练数据中生成新的训练样本具体地，每个图像x i与一组问题{qij}j和对应的答案{aij}j 相关联。此外，图像还可以与不确定的问题{q′}k相关联。设Qall={qij}j<${q′}k为在培训期间以其他提问的形式使用关于该图像的可用额外信息。5所有这些样本的目标标签都是答案aij。在生成新样本后，模型使用随机梯度下降进行训练，就像iBOWIMG一样。4.3. 关于小说意象到目前为止所描述的方法的一个缺点是，它只能将来自额外问题的信息合并到提供了至少一个回答问题的图像上。然而，可能的情况是，我们可以访问大量的图像，只有与它们相关的未回答的问题：例如，没有相关基础事实的图像-问题对的数据集可以自然地从与现实世界中的用户交互的部署的VQA系统中出现。受3.2节发现的启发，我们使用Qall来学习可能更适合VQA任务的图像表示。而不是使用ILSVRC训练的视觉模型，我们使用一个视觉模型训练，以识别出现在问题中的单词。直观地说，ILSVRC训练的模型可能无法反映视觉概念或不同视觉场景的全部频谱这种新的图像模型可以被整合到 iBOWIMG- 2x （甚至iBOWIMG）中，作为更好的图像表示。4.4. 测试iBOWIMG-2x模型可以通过两种方式之一进行评估。在标准VQA公式的测试时间期间，模型只能访问新图像x和单个目标问题q。在这种情况下，我们可以简单地为额外的特征传递一个零初始化的向量，reduc-伊伊伊与图像相关联的所有问题的集合。将iBOWIMG-2x返回到iBOWIMG，但培训不同-ently然而，iBOWIMG-2x允许额外的灵活性[21]我们的模型与[21]的模型有一些相似之处，它们使词袋文本表示的维度加倍。然而，他们将问题，图像和答案特征连接起来，以预测这种图像-问题-答案三元组的正确性。相比之下，我们的特征向量利用了图像特征，目标问题和关于图像的其他问题。[5]虽然该模型是为了利用额外的未回答问题而制定的，但另一个好处是它可以被视为一种数据增强形式。例如，如果3个回答的问题可用于此图像，则iBOWIMG将具有3个训练示例，而iBOWIMG-2x将具有24个训练示例。246我1我 2即使在考试的时候也要利用未回答的问题例如，当测试图像提供有几个目标问题时，它们可以进一步帮助解释图像：例如，在一个实施例中，测试题“谁在狗的左边？“和“什么是人的权利？“提供可能有助于更好地回答这两个问题的补充信息。5. 实验我们现在经验验证了我们的直觉，即使是不确定的问题也可以显着提高VQA系统的准确性。特别是，我们评估了我们提出的iBOWIMG-2x模型，该模型在COCO [ 28 ]数据集的子集上训练，对应于两个不同的设置：（1）在第5.1节中，每张图像至少有一个已回答的问题和与之相关的可选未回答的问题，以及(2)其中一些图像只有5.2节中与之相关的未回答的问题。我们令人信服地证明，包括额外的问题显着提高VQA的准确性。最后，我们将我们的见解应用于第5.3节中的标准VQA基准。设置：我们使用COCO数据集，其中包含82，783张训练图像和40，504张验证图像。每幅图像都与三个问题及其相应的答案相关联，尽管我们有时只使用这些问题的一个子集。实验（详见下文）。我们在多项选择VQA任务上评估了该模型。我们分别对视觉特征和两个文本特征进行归一化，使L2范数为1.我们建立在[48]发布的代码上。5.1. 关于训练图像的未回答问题数据集：考虑我们可以访问一组训练图像的设置，每个图像都有一个已回答的问题和可选的未回答的问题。我们通过使用VQA数据集来模拟这一点，其中每个训练图像xi与3个问题qi1，qi2，qi3以及它们各自的答案ai1，ai2，ai3相关联。我们在每个图像中随机选择一个问题作为目标问题，并丢弃其他答案，留下N个训练图像xi，每个图像都有一个问题qi，一个答案ai和两个额外的未回答问题q'，未回答的问题准确度（不含aug）精度没有一47.3447.371问题48.7448.942个问题49.1950.37表3：iBOWIMG-2x的准确性，每个图像有一个回答问题和可选的未回答问题。模型在有和没有Eqn的数据扩充的情况下进行训练。二、The “None w/o aug” settingis equivalent to iBOWIMG [详情见第5.1节。未回答的问题，并实现了显著的3。1%的改进，提高精度到50。百分之四我们使用bootstrap- ping来建立统计显著性。 [14] 0。基线模型的999置信区间为[46.6%，48. 2%];从而提高了50的准确性。4%，当包括不确定性问题时，在α = 0时具有统计学显著性。001层。图6显示了定性结果。消融研究：我们研究了模型在精度改进方面的两个组成部分：（1）在训练时间访问额外的未回答问题的影响（2）利用基于等式11中的幂集的数据增强来生成每个图像的额外训练示例的影响。二、表3显示了结果。首先，如上所述，添加两个额外的unan-question将准确率提高3。1%，47。3%至50。百分之四更令人鼓舞的是，仅使用一个未回答的问题就可以实现大约一半的改进：的1. 6%，从47。3%基线至48。9%的准确率。这表明，添加更多未回答的问题（将在现实世界中免费提供）可能会进一步提高准确性。其次，我们调查了由于数据增强而改善的程度。而不是使用Eqn的数据扩充策略。2，我们简单地用每个图像的单个训练样本（ xi ， qi ， [q′q′] ， ai ）训练iBOWIMG-2x其准确度为49。2%，即1。2%，低于50。整个模型的准确率为4%7′i1qi2。我们在COCO训练图像上训练模型，在验证集上进行评估在这里，我们使用在ILSVRC2012 [36]上训练的GoogLeNet [39]作为视觉表示。关键实验：首先，我们将使用额外未回答问题训练的iBOWIMG-2x模型与[ 48 ]的iBOWIMG模型进行比较，后者不使用可用的未回答问题。训练后我们的数据集每幅图像有一个回答的问题，iBOW-IMG获得了47的准确率。3%的验证集。6这表明，虽然大多数改进来自简单地访问额外的问题，额外的问题允许我们生成多样化的增强训练集这一事实本身就是一个有意义的观察。我们将在第5.3节进一步探讨这一点。分析：深入挖掘，我们试图了解是什么让iBOWIMG-2x比iBOWIMG更有效首先，我们训练了一个纯文本模型，该模型学习在不看图像的情况下回答在这种情况下，iBOWIMG-2x相比之下，我们的模型有效地利用了所提供7一个自然的问题是，这种改善是否源于看到6在这里，我们在标准设置中评估模型，其中在测试时仅提供一个目标问题，并且期望模型产生答案;我们通过输入零初始化向量作为模型中的第二文本特征（代替未回答的问题）来实现这一点。（xi，qi，n，ai）示例，因为模型是在形式为（x，q，n）的测试示例上评估的。除了没有（xi，q i，qi，ai）示例之外，用增强训练的模型达到50。3%的准确度，表明这种影响很小。2471模型整体Number是/否词iBOWIMGiBOWIMG-2x45.8750.3726.8527.9274.5377.5434.0737.98这些人在锻炼吗？是是水里有什么塑料袋鱼什么物体在焦点上？消防栓3女孩面临什么围墙有多少个娃娃No2他在捣乱吗？是的红色表4：每种答案类型的准确性。模型每个图像都有一个回答的问题，但iBOWIMG-2x也使用了2个未回答的问题。然而，它在识别视觉概念的存在或不存在以及回答更一般的视觉问题方面变得明显更好。测试时间监督：最后，我们的模型的另一个优点是，它可以在测试时包含多个问题。具体地说，我们不是在测试图像x上询问单个测试问题q并将元组（x，q，n）传递给模型，而是考虑包括其他测试问题q′和女人是什么鹅的种类是什么东西卡在q′并传入元组（x，q，[q′，q′]）。这产生了一个这么认真地看？照片？三明治？2 1 2女性自行车后面是什么头盔救生衣加拿大红浴帘是什么颜色的白2没有牙签刀架里有多少把刀3 6额外0。精度提高5%：从50。4%ac-curacy（当测试的标准方式，只有目标问题可用）到50。9%的准确度（当所有三个问题同时可用时）。5.2. 关于小说意象数据集：在第5.1节中，我们考虑了在每个训练图像上都有答案的设置。图6：iBOWIMG-2x（左）和基线iBOWIMG（右）的定性比较。正确答案为绿色;红色的错误答案详情见第5.1节。精度达到47。3%，相比iBOWIMG的46. 7%的准确率。这表明iBOWIMG-2x的大部分好处在于学习如何更好地利用图像功能。我们将在第5.2节中对此进行进一步研究。其次，我们注意到iBOWIMG-2x更有可能预测与实际单词相对应的答案，而不是数字或是/否。具体地，iBOWIMG预测单词答案72。1%的时间，而iBOWIMG-2x预测一个单词的答案只有60。2%的时间。此外，iBOWIMG-2x预测数字答案的速度大约是iBOWIMG的一半：12个。4%，比23。百分之七。这表明我们的模型表4记录了按天线类型划分的准确度。能够访问额外的监控信号得到1。0%的数字问题的改进，一个大的- ger 3。0%的是/否问题的改进，以及3. 在具有挑战性的文字回答问题上提高了9% 我们的模型无法使用未回答的问题，学习如何更好地计算对象实例，相比之下，在这里我们考虑现实世界的场景，其中一些图像只有与它们相关的未回答的问题。为了模拟这种设置，我们随机选择10%的训练图像与已回答的问题相关联，其余的只使用未回答的问题我们评估完整的验证集。关键实验：我们使用所有可用的问题来训练更适合VQA任务的视觉表示。我们使用预训练的AlexNet[27，36]作为基线，并将其与在COCO训练图像上微调的相同网络进行比较，以从问题词汇表中识别13，759个我们使用这些网络作为训练时的视觉表示-使用iBOWIMG-2x模型对一小部分可用图像进行测试，并回答问题。基线网络达到43. 8%的准确率;微调网络有效地利用了未回答问题中捕获的信息，提高了1。1%，准确度为44。9%。消融研究：我们评估两个组成部分的框架. 首先，我们检查完整的词汇表是否如果过滤到80个单词（对应于COCO注释的对象类别并从第3.2节中的问题中提取）或1024个单词（对应于根据使用[48]的代码提取的tf-idf的最相关单词）就足够了。图7（左）展示了使用更大的词汇量后的持续改进。第二，我们评估是否需要完整的unan问题集，或者一个较小的子集将suf-248图7：有效地使用仅包含未回答问题的训练图像，通过学习视觉表示来提高VQA准确性这三个正方形对应于同一个模型。详情见第5.2节。费。图7（中）表明，使用更多的问题进行微调可以逐步提高准确性。回答与未回答的问题：我们问最后一个问题：与收集更多的问题相比，训练一个更好的视觉表征有多大帮助？在图7（右）中，我们考虑逐步增加可用图像的数量，并对有和没有微调的模型进行有趣的是，一个只有10%回答问题的模型可以达到44%的准确率。9%，与44%持平。在没有微调的情况下，在所有100%回答的问题上训练的模型的准确率为8%这表明，即使没有答案，问题本身也可能已经包含了大部分信息。然而，进一步的研究是必要的，以验证这一说法.5.3. VQA的数据扩充型号名称整体其他Number是/否iBOWIMGiBOWIMG-2x55.6862.8042.6153.1134.8737.9476.4980.72表5：多项选择VQA测试开发准确度模型改进了3. 1%的数字问题，由4。2%的是/否问题，令人印象深刻的10。5%，其他问题。这表明数据扩充策略可能对开放式VQA任务更有益，但我们将其留给未来的工作。这些实验表明，我们的研究结果提供了重要的见解，不仅为弱监督集，但也为全监督VQA的情况。为了完整性，我们的iBOWIMG-2x模型达到63。百分之十七我们的研究结果证明了一种非常简单但有效的方法，通过添加额外的未回答的问题来提高VQA的准确性。我们更进一步，提出一个直接的问题-我们是否可以考虑完整的数据集，但使用我们的模型作为数据增强的形式，其中所有问题都用作训练时的因此，我们训练iBOWIMG-2x，其中每个图像-问题-答案三元组现在由8个训练样本表示。我们使用[48]的设置，其中整个COCO训练集和70%的验证集用于训练。微调的GoogLeNet [39]模型用于可视化表示。我们在测试开发集上进行评估，作为标准，在测试期间每次只提供一个问题。iBOWIMG-2x的性能比基准iBOWIMG型号高出令人印象深刻的7. 1%：55。7%，iBOWIMG为62。8%的人使用iBOWIMG-2x可以访问完全相同的训练问题-答案对，但数据增强-位置。8表5按答复类型分列。结果与5.1节的发现一致;事实上，它们更加明显。通过数据扩充，有效利用所有问题，8 Zhou等人[48]报告了61。使用iBOWIMG测试开发的准确率为7%然而，尽管我们尽了最大的努力，我们无法复制这一结果。在test-dev上评估他们发布的预测文件，得到相同的55。与我们重新训练的iBOWIMG模型一样，准确率为7%测试标准。虽然这不是最先进的精确度，第七，重要性。1%的改进，我们开始与非常简单的模型表明，我们的见解可能是有益的，为改善目前最好的模型以及。6. 结论我们研究了一个以前未探索的设置，使用视觉问题本身作为一种监督形式，以改善计算机视觉模型。我们对问题中包含的信息量进行了定性和定量分析。我们的见解已经产生了显着的改进，超过基线的标准基准标记.更重要的是，我们相信，由于人类与人工智能的互动，视觉问题将变得免费，并可以作为改进视觉模型的监督形式这项工作是朝这个方向迈出的第一步。确认我们要感谢胡佩云、阿查尔·戴夫、阿尔温德·拉马钱德兰、贡纳尔·阿特利·西古德森和西达斯·圣图尔卡进行了有益的讨论。这项研究得到了 ONR MURIN000141612007的支持。249引用[1] P. Anderson ， B. 费尔南多 M. Johnson 和 S. 古尔德。SPICE：语义命题图像标题评估。欧洲计算机视觉会议（ECCV），2016。二、三[2] J. Andreas，M. Rohrbach，T. Darrell和D.克莱恩学习组成用于问答的神经网络。计算语言学协会（NAACL）北美分会，2016年。二、四[3] S. Antol，A. Agrawal，J. Lu，M.米切尔，D。巴特拉角L. zitnick和D.帕里克VQA：可视化问答。2015年，国际计算机视觉会议（ICCV）一、二[4] S. Ardeshir，A. Roshan Zamir和M. Shah. GIS辅助的目标检测和地理空间定位。欧洲计算机视觉会议（ECCV），2014。一、二[5] J. Ba，K. Swersky，S. Fidler和R.萨拉赫季诺夫使用文本描述预测深度零触发卷积神经网络。2015年，国际计算机视觉会议（ICCV）。2[6] K. Chen，J. Wang，L. Chen，H.高，W. Xu和R. 奈瓦提亚ABC-CNN：一个基于注意力的卷积神经网络，用于视觉问答。CoRR，abs/1511.05960，2015年。二、四[7] L- C. Chen，S.菲德勒，A. L. Yuille和R.乌塔松打败土耳其人：从弱3D监督自动图像标记。在计算机视觉和模式识别（CVPR），2014年。一、二[8] X. Chen ，中国山核桃 A. Shrivastava 和 A. 古普塔。NEIL：从Web数据中提取视觉知识在国际计算机视觉会议（ICCV），2013年。一、二[9] X. Chen和C.L. 齐特尼克学习图像标题生成的递归视觉在计算机视觉和模式识别（CVPR），2015。2[10] K. 乔湾，巴西-地 VanM e rri eenboer，C. Guülc ehre，D.巴赫达瑙F.布加雷斯Schwenk和Y.本吉奥。使用rnn编码器-解码器学习短语表示在自然语言处理的经验方法（EMNLP），2014年。2[11] M. Denkowski和A.拉维流星通用：针对任何目标语言的特定语言翻译评估。在EACL 2014统计机器翻译研讨会上，2014年。二、三[12] S. Divvala，A.Farhadi和C.Guestrin. 学习关于任何事情的一切：视觉概念学习。在计算机视觉和模式识别（CVPR），2014年。一、二[13] 多纳休湖A. Hendricks，S. Guadarrama，M. 罗尔巴赫S. Venugopalan湾Saenko和T.达雷尔。用于视觉识别和描述的长期回流卷积网络。在计算机视觉和模式识别（CVPR），2015。2[14] M.埃弗灵厄姆湖，澳-地凡古尔角，澳-地K. I.威廉斯，J.Winn和A.齐瑟曼。Pascal Visual Object Classes（VOC）International Journal of Computer Vision（IJCV），88（2）：303-338，2010年6月。一、二、六[15] H. Fang，S.古普塔F.扬多拉河K.斯利瓦斯塔瓦湖邓小平说，P. Dollr，J.Gao、X.他，M。米切尔，J。C. 普拉特角L.Zitnick和G.茨威格从标题到视觉概念再到后面。在计算机视觉和模式识别（CVPR），2015。2[16] A. 福井D.H. 帕克D。Yang，杨树A.Rohrbach，T.Darrell和M.罗尔巴赫多模态紧凑型双线性池用于可视化问题回答和可视化基础。在自然语言处理的经验方法（EMNLP），2016年。一、二、四[17] Y. Goyal，A. Mohapatra，D. Parikh和D.巴特拉解释视觉问答模型。ICML深度学习可视化研讨会，2016年。2[18] L. A. Hendricks，S.Venugopalan、M.罗尔巴赫河穆尼K. Saenko和T.达雷尔。深度合成字幕：在没有配对训练数据的情况下描述新的对象类别。在计算机视觉和模式识别（CVPR），2016年。二、四[19] R. Hu，M. Rohrbach和T.达雷尔。从自然语言表达式中分割。欧洲计算机视觉会议（ECCV），2016。2[20] I. Ilievski，S. Yan和J. Feng.视觉问答的聚焦动态注意模型。CoRR，abs/1604.01485，2016。二、四[21] A.贾布里河Joulin和L.范德马滕。重新审视视觉问答基线。欧洲计算机视觉会议（ECCV），2016。5[22] A. Jiang，F.Wang，F.Porikli和Y.李视觉问答的合成CoRR，abs/1511.05676，2015年。二、四[23] J. Johnson，A. Karpathy和L.飞飞Densecap：用于密集字幕的全卷积定位网络。在计算机视觉和模式识别（CVPR），2016年。2[24] K. Kafle和C.卡南视觉问题回答的预测器类型预测。在计算机视觉和模式识别（CVPR），2016年。二、四[25] A. Karpathy和L.飞飞用于生成图像描述的深度视觉语义对齐在计算机视觉和模式识别（CVPR），2015。二、三[26] J.金，S. Lee，D. Kwak，M。 Heo，J. Kim，J. Ha和B.张某用于视觉QA的多模态残差学习。在计算机视觉和模式识别（CVPR），2016年。一、二[27] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。在F. 佩雷拉角，巴西

下载后可阅读完整内容，剩余1页未读，立即下载