图像问题生成中的信息最大化

57 浏览量更新于2023-10-19 收藏 14.46MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

120080最大化信息的视觉问题生成0Ranjay Krishna, Michael Bernstein, Li Fei-Fei斯坦福大学0{ ranjaykrishna, msb, feifeili } @stanford.edu0摘要0尽管图像到序列生成模型在人机交流中变得非常流行，但它们往往偏向于生成安全的通用问题（“这张图片里有什么？”）。生成无信息但相关的问题是不够的或没有用处的。我们认为一个好的问题是一个具有紧密目标的问题，即针对期望的特定类型的回答。我们构建了一个模型，最大化了图像、预期答案和生成问题之间的互信息。为了克服离散自然语言标记的不可微性，我们引入了一个变分连续潜在空间，预期答案投影到该空间上。我们用第二个潜在空间对这个潜在空间进行正则化，以确保相似答案的聚类。即使我们不知道预期答案，这个第二个潜在空间也可以生成针对提取对象（“人在扔什么”）、属性（“人穿着什么样的衬衫”）、颜色（“飞盘是什么颜色”）、材质（“飞盘是什么材质”）等目标驱动的问题。我们定量地展示了我们的模型能够保留关于预期答案类别的信息，从而产生更多样化、目标驱动的问题。我们在一组真实世界的图像上启动我们的模型，并提取了以前未见过的视觉概念。01. 引言0将视觉场景转化为语言、问题[47,44]、答案[64,2]或标题[56,30]的任务，广泛采用了图像到序列的架构，通过卷积神经网络（CNN）[33]对图像进行编码，然后通过循环神经网络（RNN）[42]对语言进行解码。整个框架可以通过最大似然估计（MLE）进行高效训练，并在各种任务中展示了最先进的性能[60,8,10,11,38]。然而，这种训练过程不适用于生成问题或发现新概念。事实上，大多数基于MLE的训练方案已经表明会产生通用的问题，这些问题0图像预期答案类别0物体人在扔什么？人头上有什么？0属性那些白色裤子是由什么材料制成的？飞盘是什么颜色？0关系右边的人在做什么和飞盘？左边的人是扔还是接住了飞盘？0生成的问题0输入输出0图1.我们的新架构生成了目标驱动的视觉问题，最大化了获得预期答案的可能性。当试图了解对象或其属性时，它可以生成旨在获得这些答案类别的问题。0生成无信息的答案（例如“是的”）[22]，问题（例如“这个人在做什么？”）[23]，标题（例如“晴朗的天空”[60]）或对话（例如“我不知道”）[35，51]。仅仅生成一个通用的问题对于发现新概念来说是不够的或没有用处的。问题生成模型不应该生成通用的问题，而应该是目标驱动的——我们展示了如何训练它们来提问旨在提取特定答案类别的问题。视觉问题生成不是一个双射，即可以从同一张图片生成多个正确的问题。以前的研究摒弃了监督式的问题生成方法，采用了可以通过对潜在空间进行采样来生成多个问题的变分方法[23]（见图2）。然而，以前的方法不是目标驱动的——它们不能保证问题会导致特定类型的答案。为了解决这个问题，我们可以在生成问题之前将答案与图片一起编码。虽然这种方法允许模型根据答案来确定问题，但它在技术上不可行也不实际。技术上的不可行性是因为变分模型经常导致后验坍缩问题[4]，即模型在生成问题时可能会忽略答案。不切实际性是因为提问的主要目的是获得答案，这意味着知道答案会破坏生成问题的目的。为了解决第一个挑战，我们设计了一个视觉问题生成架构，它最大化了生成的问题与图片以及预期答案之间的互信息（见图2）。我们称之为20090类别图像0答案0问题0图像z问题0图像0z问题0答案0图像0z0问题（在训练期间）0t0最小化KL散度0问题（在推理期间）0传统的监督式问题生成0传统的变分问题生成0我们的愿景：一个好的问题生成器最大化与预期答案的互信息0我们的最终架构：一个最大化互信息但不需要知道预期答案的变分问题生成器0图2。由于任何图像可能有多个问题，先前的方法从监督式问题生成转向变分方法[23]。然而，这导致了通用的、无信息的问题。我们认为一个好的问题应该最大化与预期答案的互信息。但是这样的模型是不实际的，因为知道答案会破坏生成问题的目的。此外，这样的模型经常导致后验坍缩问题[4]。相反，我们提出了一种架构，它在最大化图像、答案和问题之间的互信息的同时，基于答案类别维持正则化。我们的最终模型使用两个潜在空间，可以在有答案和无答案的情况下生成问题。0模型信息最大化视觉问题生成器，因为它最大化了与图像和预期答案的相关性。不鼓励产生安全、通用的问题，因为它们与任何一方的互信息都很低。然而，为了最大化互信息往往是棘手的，鉴于我们希望生成的离散标记（单词），不存在无偏、低方差的梯度估计器[24,40,16,52,45,58,27]。我们将我们的模型构建为一个变分自动编码器，试图学习图像、问题和预期答案之间的联合连续潜在空间。我们不直接优化离散的话语，而是训练问题、图像和预期答案，以最大化与这个潜在空间的互信息。通过重构图像和预期答案的表示，我们可以最大化证据下界（ELBO）并控制生成的问题请求的信息。0第二个挑战来自于现实世界部署中缺乏预期答案。由于我们需要一个答案将图像映射到潜在空间中，没有答案的情况下无法生成问题。枚举所有可能的答案是不可行的。因此，我们提出创建一个第二个潜在空间，该空间是从图像和答案类别而不是答案本身中学习的。答案类别可以是对象、属性、颜色、材料、时间等。在训练过程中，我们最小化这两个潜在空间之间的KL散度。这不仅允许我们生成与预期答案最大化互信息的视觉问题，还作为对原始潜在空间的正则化器。它防止学习到训练集中特定答案并迫使它们推广到问题类别。0我们使用VQA数据集[2]对前500个答案的15个类别进行注释，并用它来训练我们的模型，查询特定的答案类别。我们评估我们的模型与图像的相关性以及对答案类型的期望能力。最后，我们在1000个真实世界图像上运行我们的模型，发现80个新对象、40个新属性、17个新颜色和8个新材料。02. 相关工作0随着大规模视觉问答（VQA）数据集[2,64,31,25]的出现，视觉理解已经得到了广泛的研究。当前的VQA方法遵循传统的监督式MLE范式，通常依赖于CNN +RNN编码器-解码器的形式[56]。通过堆叠注意力[62,37]、模块化组件[1,26,21]、添加关系网络[49]、增加记忆[59]和添加代理任务[13,57]，连续的模型改进了性能。虽然VQA模型的性能令人鼓舞，但它们需要一个带有预定义词汇的大型标记数据集。相比之下，我们专注于生成问题的替代任务，希望通过发现新的视觉概念来增强现实世界的代理能力。与回答问题相比，生成问题迄今为止受到的关注很少。在自然语言处理领域，一些方法已经尝试使用基于规则的[50]或基于深度学习的系统[12]从知识库自动生成问题。在计算机视觉领域，一些最近的项目探索了视觉问题生成的任务，以构建好奇的视觉代理[61,23]。这些项目要么遵循算法规则[54,50]，要么遵循学习方法[44,47]。较新的论文将生成过程视为变分过程[23]，或将其置于主动学习[43]或强化学习[61]的环境中。我们的工作受到了这些先前方法的启发，并通过将问题生成视为最大化互信息的过程来扩展它们，不仅考虑图像，还考虑预期答案的类别。我们认为一个好的问题生成器应该是目标驱动的——它应该生成问题以获得特定的答案类别。有大量的工作探索生成模型和学习潜在表示空间。早期的工作主要集中在堆叠自动编码器上，然后是受限玻尔兹曼机[55,18,19]。这些应用的最新成功主要是变分的结果。...20100图像0答案0它是绿色的0h a0h i0这是什么颜色的0问题0L2损失0L2损失0答案类别0属性0KL散度0最大似然损失（MLE loss）0h c t0µ tσ t0ϵ0z0µ zσ z0ϵ0图3.训练我们的模型：我们将图像和答案嵌入到潜在空间z中，并尝试重构它们，从而最大化与图像和答案的互信息。我们还使用z生成问题，并使用MLE目标对其进行训练。最后，我们引入了第二个潜在空间t，通过最小化与z的KL散度进行训练。t使我们能够在生成问题时去除对答案的依赖，而是能够根据答案类别生成问题。0变分自编码器（VAEs）[29]和生成对抗网络（GANs）[14]是常用的生成模型。通过重参数化技巧，VAEs可以学习半监督潜在空间以生成图像[29]。它们还被扩展到连续状态空间[32, 3]和序列模型[15,9]。GANs则可以学习支持基本线性代数的图像表示[46]，甚至通过使用贝叶斯程序的概率推理实现一次性学习[34]。VAEs和GANs都根据类别标签或其他视觉变化对其表示进行了解耦[28,41]。虽然我们没有明确解耦表示，但我们将在后面演示第二个潜在空间如何规范化原始空间并解耦不同答案类别的表示。0生成模型通常需要一系列技巧来进行成功的训练[48, 46, 5,4]。即使使用这些技巧，使用离散标记训练它们仅能通过使用梯度估计器来实现。正如我们之前提到的，这些估计器经常遇到两个问题之一：高偏差[27,27]或高方差[58]。像Gumbel-Softmax[24]、CONCRETE分布[40]、语义哈希[27]或向量量化[53]这样的低方差方法会导致有偏估计器。同样，像REINFORCE[58]与蒙特卡洛推演一起使用的低偏差方法会导致高方差[16, 52,45]。我们通过引入一个连续的潜在空间来解决这个问题，该空间最大化与图像、问题和答案的编码的互信息。这个潜在空间可以使用现有的VAE训练过程进行训练，该过程试图重构图像和答案表示。我们进一步扩展了这个模型，引入了一个条件于答案类别的第二个潜在空间，从而在生成问题时不需要实际答案。03. 信息最大化的视觉问题生成器0我们的目标是生成具有紧密目的的问题，即具有学习图像中某些特定内容的问题。能够请求特定类别信息的代理可以更有效地从现实世界中提取新概念。在本节中，我们详细介绍如何设计一个信息最大化的视觉问题生成器。回想一下，我们模型的目标是在给定图像和答案类别的情况下生成问题。例如，如果我们想了解材料或二元答案，我们的模型应该生成问题“这张桌子是由什么材料制成的？”或“桌子在椅子的右边吗？”。我们面临的两个挑战是：（1）由于不可微分的离散标记和变分后验坍缩而导致的技术上的不可行性，以及（2）要求答案来生成问题的不切实际性。我们首先给出问题的正式定义，解释为什么当前方法失败，然后详细说明我们的训练和推理过程。03.1. 问题定义0设 q 表示我们想要为图像 i生成的问题。这个问题应该导致类别为 c 的答案 a。例如，问题“红色的人在做什么？”应该导致答案“踢球”，属于类别“活动”。我们最终的目标是定义一个模型 p( q | i, c ) 。但首先，让我们尝试定义一个更简单的模型 p (q | i, a ) ，它最大化了图像和问题之间的互信息 I ( i, q )，以及预期答案和问题之间的互信息 I ( a, q ) 。这个CNNhi...tµtσtϵhtMLPmax I(i, q) + λI(a, q)s. t. q ∼ p(q|i, a)(1)maxθI(q, z|a, i) + λ1I(a, z) + λ2I(i, z)s. t. z ∼ pθ(z|i, a)q ∼ pθ(q|z)(2)I(z, i) = H(i) − H(i|z)= H(i) + E z∼p(z,i)[E ˆi∼p(i|z)[log p(ˆi|z)]]= H(i) + E i∼p(i)[DKL[p(ˆi|z)||pθ(ˆi|z)]+ E ˆi∼p(i|z)[log pθ(ˆi|z)]]≥ H(i) + E i∼p(i)[E ˆi∼p(i|z)[log pθ(ˆi|z)]]](3)I(z, a) ≥ H(a) + E a∼p(a)[E ˆa∼p(a|z)[log pθ(ˆa|z)]]](4)I(z, q|a, i) ≥ H(q)+E q∼p(q|i,a)[E ˆq∼p(q|z,a,i)[log pθ(ˆq|z, i, a)]]]s. t. p(q|z, a, i) = p(q|z)p(z|a, i)(5)Putting Eq. 3, 4 and 5 together in Eq. 2:maxθE pθ(q,i,a)[ log pθ(q|i, a, z) + λ1 log pθ(a|z)+ λ2 log pθ(i|z)]s. t. pθ(q, i, a) = pθ(q|z)pθ(z|i, a)p(i, a)(6)20110图像0什么颜色是0问题0答案类别0属性0图4. 对我们的模型进行推理：给定一个图像输入和一个答案类别（例如属性），我们将两者编码为一个潜在表示 t ，由均值 µ t 和 σ t参数化。我们用噪声 � 从 t 中采样，生成与图像相关且答案属于给定答案类别的问题。0目标可以写成：0其中 λ是一个超参数，用于调整它们在优化中的相对重要性。03.2. 连续潜在空间0正如前面提到的，直接优化这个目标是不可行的，因为精确计算互信息是困难的。此外，通过估计离散步骤之间的梯度进行优化是困难的，因为估计器需要具有低偏差和低方差。为了克服这个挑战，我们引入了一个连续、密集的潜在 z空间。我们学习一个由图像和预期答案参数化的映射 p θ ( z| i, a ) ，通过这个潜在空间。有了这个 z空间，我们的新优化变为：0其中 λ 1 和 λ 2是超参数，用于相对权衡优化中的互信息项。03.3. 变分互信息最大化0到目前为止，我们已经避免了离散标记。然而，这种互信息最大化仍然是不可行的，因为它需要知道真实的后验概率 p( z | i ) 和 p ( z | a )。幸运的是，我们可以选择最大化其ELBO：0其中 H ( ∙ ) 是熵函数，E 是期望。p θ ( ∙ ) 是由 θ参数化的函数。这种优化通常被称为变分信息最大化[6]。类似地，0第三个和最后一个条件互信息项 I ( q, z | a, i )也可以被界定为：0请注意，我们忽略与训练数据相关的熵项，因为它不涉及我们试图优化的参数θ。因此，通过最大化图像和答案表示的重构以及最大化生成问题的MLE目标，可以实现优化方程6。0通过重构图像和答案表示来生成问题0为了对上述优化进行功能化，我们首先使用CNN将图像编码为密集向量hi（参见图3）。类似地，我们使用长短期记忆网络（LSTM）[20]对答案a进行编码，这是RNN的一种变体，编码为另一个密集向量ha。接下来，我们将hi和ha馈送到一个VAE中，将它们都嵌入到一个潜在的z空间中。在实践中，我们假设z遵循具有对角协方差的多元高斯分布。我们使用重参数化技巧[29]生成均值µz和标准差σz，并将其与采样的单位高斯噪声�结合起来生成z = µz + σz�。20120从z中，我们重构ˆhi和ˆha，并通过最小化以下l2损失来优化方程6中的前两项：0Li = ||hi - ˆhi||², La = ||ha - ˆha||² (7)0接下来，我们使用一个解码器LSTM从z空间生成问题ˆq。我们通过最小化MLE目标LMLE来使ˆq和训练集中的真实问题q之间的差异最小化，这导致了方程6中的第三个和最后一个项。0使用第二个潜在空间进行正则化0到目前为止，我们提出了构建一个模型的方法，该模型最大化了潜在空间、图像和预期答案之间的互信息的下界。这使得我们可以在我们知道预期答案的情况下生成问题。然而，这并不符合我们最初的目标，即在模型不事先知道答案的真实世界情况下部署它。如果我们已经知道问题的答案，那么生成一个问题就没有意义。为了解决这个问题，我们提出了第二个潜在的t空间。我们不再使用a和i来将ha和hi编码到z空间中，而是舍弃答案，只使用其类别c。我们将答案分类为几个预定义的类别之一，例如对象（例如“猫”），属性（例如“冷”），颜色（例如“棕色”），关系（例如“骑”），计数（例如“1”）等。这些类别被表示为一个独热向量，并编码为hc，并与hi一起用于嵌入到变分t空间中。我们通过最小化与z空间的KL散度来训练t空间：0Lt = DKL(pθ(z | i, a), pφ(t | i, c))0= log σt - log σz + σz + (µt - µz)²02σt - 0.5 (8)0其中，φ是用于嵌入到t空间的参数。这使得我们现在可以利用pφ(t | i,c)来嵌入到一个与z空间非常相似的空间中。由于我们假设z空间和t空间都遵循具有对角协方差的多元高斯分布，KL项具有上述解析形式。我们不再需要知道答案a来嵌入和生成问题。直观地说，t空间也可以被看作是对z空间的正则化器，防止模型过度拟合训练数据中的答案，而是依靠利用答案类别。将它们结合起来，我们模型的最终损失为：0L = LMLE + λ1La + λ2Li + λ3Lt (9)0其中，λ1和λ2已经被引入，λ3是一个超参数，用于控制我们模型中使用的正则化的程度。请注意，我们省略了相对于以零为中心的单位正态分布的KL损失，该分布维持了两个潜在空间的先验分布。03.6. 推理0在推理过程中，我们给定一张图像i和答案类别c，需要生成问题。我们将输入编码为第二个潜在的t空间，并从中进行采样以生成问题，如图4所示。这使我们能够为任何图像生成以目标为导向的问题，专注于提取其对象、属性等。03.7. 实现细节0我们使用PyTorch实现了我们的模型，并计划发布我们的所有代码。我们使用ResNet18[17]作为我们的图像编码器，并且不微调其权重。h i，ha和ht都是512维向量。z空间和t空间都是100维。图像和答案的编码器仅从L MLE进行训练，而不是从L i，L a或Lt进行训练，以防止编码器仅仅为了重构损失而优化，而无法生成问题。我们优化了超参数，使得λ 1 = 0.01，λ 2 =0.001，λ 3 =0.005，学习率为0.001，每4个epoch衰减一次，总共进行10个epoch。04. 实验0为了测试我们的视觉问题生成模型，我们进行了一系列实验，并在多个维度上评估了模型。我们首先讨论使用的数据集和评估指标。然后，我们展示了模型在给定答案的条件下生成的问题的示例。接下来，我们展示了模型仅在给定答案类别的条件下的能力。我们将这两种情况与一系列基线和消融实验进行了比较。我们分析了每个答案类别中生成的问题的多样性。最后，我们报告了我们的模型在在线找到的真实世界图像上的一个小型概念验证部署，并展示了它可以学习新的概念。04.1. 实验设置0数据集。为了实现我们可以指定输入答案类别的交互方式，我们需要一个将答案进行分类的VQA数据集。VQA数据集[2]对问题进行了一些基本分类，但没有对答案进行分类。我们使用一组15个类别对VQA[2]数据集的答案进行注释，并标记了它们的前500个答案。这些类别包括对象（例如“猫”，“人”），属性（例如“冷”，“旧”），颜色（例如“棕色”，“红色”），关系（例如“骑”，“跳”），计数（例如“1”，“10”）等。前500个答案占VQA数据集的82％，共有367K个训练+验证示例。我们将它们的验证集作为我们的测试集，因为它们的测试集答案不公开。我们将训练集分为80％的训练集和20％的验证集。评估指标。过去的问题生成论文使用了各种评估指标来计算...20130表1。我们使用多个指标报告了我们模型的效果。我们使用语言建模指标来衡量其生成与真实问题相似的能力。接下来，我们通过从潜在空间嵌入中预测答案或其类别来衡量模型最大化互信息的能力。最后，我们衡量问题与图像的相关性。请注意，语言建模分数乘以100以显示更多有效数字，互信息和相关性分数以百分比报告。语言建模互信息相关性0模型 Bleu-1 Bleu-2 Bleu-3 Bleu-4 METEOR CIDEr 回答类别图像类别0z空间0IA2Q [ 57 ] 32.43 15.49 9.24 6.23 11.21 36.22 11.48 35.33 91.10 36.80 V-IA2Q [ 23 ] 36.91 17.79 10.21 6.25 12.39 36.3911.13 36.91 90.10 39.00 我们的模型没有使用A 38.88 20.74 12.75 6.29 12.78 40.13 10.02 40.44 98.10 42.70我们的模型没有使用AC 38.99 21.48 12.73 6.57 13.01 42.13 10.10 60.00 96.80 42.80 我们的模型没有使用C 50.09 32.32 24.6116.27 20.58 94.33 33.44 61.04 98.00 82.40 我们的模型 48.09 29.76 20.71 15.17 18.78 92.13 30.23 91.02 97.10 91.200t空间0IC2Q 30.42 13.55 6.23 4.44 9.42 27.42 9.88 40.23 90.00 38.80 V-IC2Q 35.40 25.55 14.94 10.78 13.35 42.54 10.11 60.2392.20 45.00 我们的模型去除A 31.20 16.20 11.18 6.24 12.11 35.89 9.35 68.23 98.00 52.50 我们的模型 47.40 28.95 19.93 14.4918.35 85.99 28.23 99.02 97.20 98.000从我们的模型中去除z后的t空间0从我们的模型中去除A后的z空间0图5. TSNE[39]对潜在编码的可视化。当我们不重构答案时，嵌入显示答案或其类别之间没有分离，从而证实了后验崩溃。与此同时，通过重构答案，z空间和t空间的编码在视觉上是可分离的。不同的颜色代表答案的类别，我们只显示了8个类别以美观为考虑。0评估问题的质量。虽然一些研究侧重于最大化多样性[54,23, 63]，但其他人则将其视为改进问题回答的代理任务[36,47,57]。多样性度量包括使用变种的束搜索[54]，测量新颖的问题或独特的三元组[23]，或创建基于规则的数据集[63]。代理任务通常使用多项选择答案的准确性来衡量问题生成的性能。0我们也报告了各种不同的评估指标，以突出我们模型的不同组成部分。首先，我们使用语言建模评估指标如BLEU、METEOR和CIDEr[7]来计算我们生成的问题与测试集中的真实问题的匹配程度。接下来，我们通过训练一个分类器来分类在潜在空间中编码的答案类别，来衡量潜在空间中保留的互信息。这个指标揭示了我们的方法在保留输入答案或答案类别的信息方面的效果如何。接下来，我们衡量问题的相关性，确保问题对给定的图像有效，并得到预期的答案类别。相关性结果是通过雇佣3名众包工人进行多数投票来计算的，他们对于是否可以根据相应的图像回答一个问题进行投票。最后，我们为每个类别报告多样性分数，这衡量了生成的唯一问题的数量。0基线。我们将一系列过去的CNN-RNN模型调整为在生成问题时接受答案或答案类型。第一个模型IA2Q是一个监督的、非变分的模型，它将图像和答案作为输入并生成问题[57]。这个模型类似于常用于回答问题的VQA模型[57]，只是现在答案是输入，问题是输出[2,64]。接下来，V-IA2Q是IA2Q的变分版本，它将答案和问题嵌入到潜在空间中，然后生成问题[23]。我们还训练了这些模型的版本，它们接受答案类别而不是答案：IC2Q和V-IC2Q。在生成变分模型时，我们设置z = µz或t =µt，以保持其输出在除多样性以外的所有度量上的一致性。0我们将我们的完整模型称为Ours，并可以从答案潜在空间z或类别潜在空间t生成问题。我们通过去除特定组件来对该模型进行消融。Ours w/oA不最大化与预期答案的互信息，但也可以从z空间和t空间生成问题。Ours w/oC不包括t空间，只能从答案生成问题。最后，Ours w/oAC没有使用重构损失进行训练，也没有第二个潜在空间t。我们的评估从实证上证明了这些消融对我们模型设计的合理性。20140计数二进制对象颜色属性材料空间形状位置时间活动0照片中有多少人？0这是一条繁忙的街道吗？0男人在骑什么？0交通灯是什么颜色的？0这个人有多有才华？0路是由什么材料制成的？0路标的方向是什么？0消防栓是什么形状的？0男人在骑什么？0这是一天中的什么时间？0男人在做什么？0有多少个滑板？0男人戴着帽子吗？0这个人拿着什么？0男孩的衬衫是什么颜色的？0这个人有多高？0男人站在什么上面？0太阳在图片的左边还是右边？0杆子的形状是什么？0男人是在女孩的右边吗？0是白天还是晚上？0人们在看什么？0有多少种蔬菜？0前景中的食物有刺吗？0碗里有什么？0盘子是什么颜色的？0碗的名字是什么？0桌子是由什么材料制成的？0叉子在照片的前景吗？0盘子是什么形状的？0这个食物在哪里？0这是一天中的什么时间？0碗的名字是什么？0有多少种水果？0这个食物健康吗？0那是什么食物？0垫子是什么颜色的？0食物的味道如何？0容器是由什么材料制成的？0碗的名字是什么？0盘子是什么形状的？0锅在哪里？0食物是什么时候吃的？0碗的名字是什么？0照片中有多少人？0这是一个城市场景吗？0公交车的名字是什么？0公交车是什么颜色的？0食物的味道如何？0这个围栏是由什么材料制成的？0司机在哪一边？0建筑物是什么形状的？0这辆公交车可能在哪里？0这是一天中的什么时间？0这个人在做什么？0照片中有多少人？0这是一条繁忙的街道吗？0公交车前面有什么？0汽车是什么颜色的？0这张照片的天气如何？0路是由什么材料制成的？0这个人在哪一边？0路是什么形状的？0这辆公交车要去哪里？0这张照片是什么时候拍摄的？0那个男人在做什么？0有多少匹马？0照片中有动物吗？0这是什么动物？0谷仓是什么颜色的？0这个动物园干净还是脏？0这个围栏是由什么材料制成的？0这是什么动物？0围栏是什么形状的？0这是哪个房间？0现在是什么季节？0牛在做什么？0那里有多少头牛？0照片中有一头牛吗？0后面有什么动物？0马是什么颜色的？牛怎么样？0这个围栏是由什么材料制成的？0牛躺在哪里？0房子的形状是什么？0这是什么动物？0现在是几点？0这些动物在做什么？0这张照片中有多少人？0这个人戴着头盔吗？0这个男人站在什么上面？0汽车的颜色是什么？0这个人的性别是什么？0长凳是由什么制成的？0这个人的眼睛看向哪个方向？0这个人的性别是什么？0男孩在哪里？现在是晚上吗？男人在做什么？0这张照片中有多少个球？0这个人拿着球棒吗？0这个人站在什么上面？0球棒的颜色是什么？0天气如何？0球棒是由什么制成的？0这个人用哪只手拿着？0球棒的形状是什么？0比赛在哪里？0这是什么时间？0这个人在做什么？0图6.为一组图像和答案类别生成的示例问题。灰色显示不正确的问题，当给定图像和答案类别时无法生成相关问题。04.2.最大化互信息0我们检查了我们的模型是否改善了与输入答案在潜在空间中保留的互信息。我们冻结了训练模型的权重，并将输入图像、答案和类别嵌入到z空间或t空间中，具体取决于模型。我们训练了一个简单的3层MLP，试图将潜在代码分类为15个答案类别之一或500个答案之一。我们在测试集上评估了我们的模型，随机准确率分别为6.67%和0.20%。表1显示，基线模型在实际记住答案或类别方面表现不佳，这证明了最大化互信息的必要性。由于这些模型无法保留关于输入答案的信息，这也解释了为什么它们经常生成安全、通用、无信息的问题。由于我们的模型可以嵌入到z空间和t空间，我们报告了这两个空间保留信息的情况。我们发现，Ours从t空间保留了接近完美的输入答案类别信息，准确率为99.02%，从z空间保留了32.44%的信息。我们发现，当没有t空间训练时，Ours w/oC保留更多信息，因为它不再需要约束相同类别的答案。我们还在图5中可视化了这两个空间的TSNE[39]表示。不重构答案的模型（例如Ours w/o A，Oursw/o AC或任何基线模型）显示出视觉上不可分离的类别。04.3.根据答案生成问题0由于我们的模型可以根据答案和答案类别生成问题，我们分别评估了这两种情况。表1中的语言建模部分展示了各种模型在从z空间生成问题时的表现，即从答案生成问题。我们发现，在所有基线模型和我们模型的所有消融实验中，Oursw/oC的表现最好。这可能是因为当潜在空间不受t空间的正则化约束时，潜在空间的容量更大。我们发现，Ours w/oA的表现比Ours和Ours w/oC差6个METEOR分，这意味着强制模型重构答案可以提高生成问题的质量，使其更好地匹配真实情况。04.4.生成带有答案类型的问题0表1的下半部分评估了在没有实际答案的情况下，仅在答案类别存在的情况下，我们的模型和基准模型在生成问题时的表现如何。我们发现，总体而言，所有语言度量指标都略低于从z空间生成问题时的情况。这是预期的，因为现在问题需要仅使用编码在t空间中的答案类别生成，而不知道答案的确切内容。因此，当答案期望问题关注“马鞍”而模型提问关于“马”的问题时，模型会受到惩罚。我们20150表2.不同答案类别的多样性度量。我们报告生成强度，通过唯一生成的问题数量与唯一的真实问题数量进行归一化，以及生成创新度，通过在训练期间未见过的唯一生成的问题数量与所有唯一生成的问题进行归一化。所有问题都是从我们模型的t空间生成的，以与V-IC2Q进行公平比较。V-IC2Q 我们的模型0强度创新强度创新0计数 15.77 30.91 26.06 41.30 二进制 18.15 41.9528.85 54.50 物体 11.27 34.84 24.19 43.20 颜色 4.0313.03 17.12 23.65 属性 37.76 41.09 46.10 52.03 材料36.13 31.13 45.75 40.72 空间 61.12 62.54 70.17 68.18食物 21.81 20.38 33.37 31.19 形状 35.51 44.03 45.8155.65 位置 34.68 18.11 45.25 27.22 人物 22.58 17.3836.20 31.29 时间 25.58 15.51 34.43 25.30 活动 7.4513.23 21.32 26.530总体 12.97 38.32 26.06 52.110我们还定性地对我们模型生成的一组随机问题进行采样，并在图6中报告。我们发现我们的模型经常使用图像中的概念来确定问题的基础。它会提出具体的问题，比如“蝙蝠是由什么制成的？”或者“男人是在女孩的右边吗？”然而，像“时间”这样的类别在训练问题的多样性方面较低，并导致不可避免的“这是一天的什么时间？”这样的问题。我们观察到的定性错误通常发生在模型被迫提出关于图像中不存在的类别的问题时；当没有食物时，很难提问“食物”相关的问题。04.5. 问题多样性的测量0对于我们测试集中的所有177K张图像，我们为每个答案类别生成了一个问题，总共生成了2M个问题。我们使用两个现有的度量指标在表2中报告多样性：（1）生成强度：通过唯一生成的问题数量与唯一的真实问题数量进行归一化，（2）生成创新度：通过在训练期间未见过的唯一生成的问题数量与所有唯一生成的问题进行归一化。我们将我们的模型与基准模型V-IC2Q进行比较，V-IC2Q不重构答案或图像。我们发现我们的方法在大多数类别中生成了更多样的问题。要求“形状”和“材料”的问题往往会生成最多的未见问题，因为模型学会了生成像“[形状/材料]是由[什么制成]？”这样的问题，并将给定图像中的对象注入到缺失的空白中。与图像内容无关的答案，比如“时间”，生成的新问题数量最少。0表3.我们将1000张图像分类到一个答案类别中，生成问题并要求众包工人回答。我们报告了每个类别提出的问题数量以及我们的模型与基准模型相比发现的新概念数量。我们还展示了新发现概念的示例。类别问题数量 V-IC2Q 我们的模型示例0物体 411 10 80 黑刺、知更鸟属性 205 8 40 亵渎、加冕颜色164 12 17 酒红色、雪花白材料 220 4 8 涤纶、氨纶04.6. 我们模型的实际部署0为了检验我们的模型在实际部署中的表现，我们从在线公共社交媒体帖子中获取了带有标签#food、#nature、#sports、#fashion的1000张图像。由于我们的模型需要一个输入答案类别来提问，我们使用一个简单的ResNet18 CNN[17]对VQA图像进行训练，以输出4个类别之一（见表3）。我们使用CNN生成答案类别，并将其输入到我们的模型中生成问题。问题被发送给两个众包工人：一个回答问题，另一个报告问题与图像的相关性以及答案与答案类别的相关性。我们发现Ours和V-IC2Q提出的所有问题都与图像相关，而97.2%和56.8%与答案类别相关。我们的方法生成的问题导致了更多未见的概念。05. 结论0我们认为，视觉问题生成应该是从图像中提取特定类别概念的任务。我们定义一个好的问题是不仅与图像相关，而且设计为期望特定答案类别的问题。我们构建了最大化信息的视觉问题生成器，最大化生成的问题、输入图像和预期答案之间的互信息。我们扩展了这个模型，以克服与最大化离散标记的互信息和折叠后验相关的技术挑战，同时允许它在预期答案缺失时生成问题。我们使用语言建模、多样性、相关性和互信息度量来分析问题。我们进一步展示了通过这个系统的实际部署，它可以发现新的概念。0致谢。我们感谢Justin Johnson、AndreyKurenkov、Apoorva Dornadula和VincentChen对本文的有益评论和编辑。这项工作部分资助来自布朗媒体创新研究所和丰田研究院（“TRI”），但本文仅反映作者的意见和结论，不代表TRI或任何其他丰田实体的观点。20160参考文献0[1] J. Andreas, M. Rohrbach, T. Darrell, and D. Klein.学习组合神经网络进行问题回答。arXiv预印本arXiv:1601.01705，2016年。20[2] S. Antol, A. Agrawal, J. Lu, M. Mitchell, D. Batra, C.Lawrence Zitnick, and D. Parikh. Vqa:视觉问题回答。在计算机视觉国际会议的论文集中，页码2425-2433，2015年。1，2，5，60[3] E. Archer, I. M. Park, L. Buesing, J. Cunningham, and L. Paninski.状态空间模型的黑盒变分推断。arXiv预印本arXiv:1511.07367，2015年。30[4] S. R. Bowman, L. Vilnis, O. Vinyals, A. M. Dai, R. Jozefow- icz, andS. Bengio.从连续空间生成句子。arXiv预印本arXiv:1511.06349，2015年。1，2，30[5] Y. Burda, R. Grosse, and R. Salakhutdinov.重要性加权自编码器。arXiv预印本arXiv:1509.00519，2015年。30[6] X. Chen, Y. Duan, R. Houthooft, J. Schulman, I. Sutskever,and P. Abbeel. Infogan:通过最大化信息的生成对抗网络进行可解释的表示学习。在神经信息处理系统的进展中，页码2172-2180，2016年。40[7] X. Chen, H. Fang, T.-Y. Lin, R. Vedantam, S. Gupta, P.Doll´ar, and C. L. Zitnick. Microsoft coco captions:数据收集和评估服务器。arXiv预印本arXiv:1504.00325，2015年。60[8] K. Cho, A. Courville, and Y. Bengio.使用基于注意力的编码器-解码器网络描述多媒体内容。IEEE多媒体交易，17(11)：1875-1886，2015年。10[9] J. Chung, K. Kastn

下载后可阅读完整内容，剩余1页未读，立即下载