视觉问题生成模型：从通用视觉问题到视觉图灵测试

190 浏览量更新于2023-10-18 收藏 865KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10472全部回答面向通用的视觉问题生成模型Robik Shrestha1 Kushal Kafle1 Christopher Kanan1，2，31 RochesterInstitute of Technology2 PAIGE3 Cornell Tech{rss9369，kk6055，kanan}@ rit.edu摘要视觉化提问（VQA）研究分为两个阵营：第一个侧重于需要自然图像理解的VQA数据集，第二个侧重于测试推理的合成数据集。一个好的VQA算法应该能够实现这两种功能，但只有少数VQA算法是以这种方式进行测试的。我们比较了五个国家的最先进的VQA算法在八个VQA数据集涵盖这两个领域。为了使比较公平，所有的模型都尽可能标准化，它们使用相同的视觉特征、应答词汇等。我们发现，方法不概括在这两个域。为了解决这个问题，我们提出了一个新的VQA算法，竞争对手或超过国家的最先进的这两个领域。1. 介绍视觉问题推理（VQA）需要一个模型来理解和推理视觉语言概念，以回答关于图像的开放式问题。正确回答这些问题需要大量的功能，包括对象定位、属性检测、活动分类、场景理解、推理、计数等。第一个VQA数据集包含真实世界的图像和众包的问题和答案[36，9]。人们认为这将是一个非常困难的问题，并提出作为视觉图灵测试的一种形式，以基准测试计算机视觉中的性能。然而，很明显，许多高性能的算法只是利用偏见和肤浅的相关性，而没有真正理解视觉内容[24，3]。例如，在VQAv 1 [ 9 ]中对所有是/否问题回答后来的自然图像VQA数据集的endeeding来解决这个问题。通过将每个问题与互补图像和不同答案相关联，VQAv2 [16]减少了某些形式的语言偏见。TDIUC[24]分析了对多种问题和更罕见答案的概括当训练和测试分布不同时， CVQA [5] 测试概念组合性，VQACPv2 [4]测试图1：许多VQA算法不能很好地在自然和合成数据集之间传输我们认为有必要做好这两个领域，并提出了一个算法，实现这一目标。虽然后来的自然图像数据集减少了偏见，但这些数据集中的绝大多数问题并没有严格测试推理能力。作为补救措施，创建了几个合成数据集[20，7]它们包含简单的视觉场景，10473表1：本文中使用的数据集比较。2. 相关工作数据集Num.的Num.的问题图像2.1. VQA数据集在过去的四年中，已经提出了许多VQA数据集。在这里，我们简要回顾了我们实验中使用的数据集。这些数据集的统计数据见表1。见[25]和[51]的评论。VQAv1/VQAv2。VQAv1 [9]是从人类注释者收集的最早的开放式VQA数据集之一。VQAv1具有多种语言偏见，包括一些与特定答案高度相关的问题。VQAv2[16]试图通过收集导致不同答案的每个问题的补充图像来减轻这种语言偏见，但仍然存在其他类型的语言偏见，例如，推理问题与检测问题相比是这两个数据集都是挑战性的问题，测试多步推理，计数-和逻辑推理。为了正确评估算法然而，几乎所有最近的论文都只报道了这两个领域中的一个。CLEVR的最佳算法未在自然图像VQA数据集上进行测试[19，21，37，44，53]，反之亦然[10，6，28，39，13]。在这里，我们在八个数据集上测试了五个最先进的VQA系统。我们发现，大多数方法在这两个域上都没有很好的表现（图1）。1），有些人在业绩上遭受了巨大损失。我们提出了一个新的模型，可以在所有评估的数据集上与最先进的方法相媲美。我们的主要贡献是：1. 我们在八个VQA数据集上对五种最先进的算法进行了严格的比较，我们发现许多算法并没有跨域推广。2. VQA算法通常使用不同的视觉特征和答案词汇表，这使得很难评估性能增益。我们致力于标准化跨型号使用的组件，我们比较的所有算法都使用相同的视觉特征，这需要将用于合成场景的方法提升到使用区域建议。3. 我们发现，大多数VQA算法是不能够理解现实世界的图像和执行组合推理。所有这些方法在一般化测试中表现不佳，表明这些方法仍然在利用数据集偏差。4. 我们描述了一种新的VQA算法，该算法在所有数据集上都可以与最先进的方法相媲美，并且整体表现最佳。VQAv2是自然图像VQA的事实上的基准。TDIUC [24]试图解决各种偏见通过将问题分类为12种不同类型，实现细致入微的任务驱动评估，它有指标来评估跨问题类型的泛化。CVQA[5]是VQAv1的重新分裂，以测试对训练期间未看到的概念组合的泛化，例如，如果列车组询问CVQA测试以看不见的方式组合以前看到的概念的能力VQACPv2[4]重新组织了VQAv2，使得每种问题类型的答案在训练集和测试集中分布不同，例如，‘blue’and ‘white’ might be the most问题，但这些答案很少出现在测试集中。以来它在训练集和测试集中有不同的偏差，在VQACPv2上表现良好表明系统通过克服训练集中的偏差来泛化。CLEVR[20]是一个综合生成的数据集，由具有简单几何形状的视觉场景组成，旨在测试“组合语言和基本视觉推理”。CLEVR的问题通常需要长链的复杂推理。为了能够对推理能力进行细粒度评估，CLEVR的问题分为五个任务：“查询属性”、“比较属性”、“存在”、“计数"和”整数比较“。由于所有问题都是以编程方式生成的，因此创建了CLEVR-Humans[21]数据集，以提供CLEVR场景的人工生成问题，以测试对自由形式问题的泛化。CLEVR-CoGenT测试处理看不见的概念组合和记住旧概念组合的能力。它有两个分裂：CoGenT-A和CoGenT-B，具有相互排斥的形状+颜色组合。如果在CoGenT-A上训练的模型在CoGenT-B上表现良好而没有微调，图像QA对源源VQAv1204K614K人类自然VQAv2204K1.1M人类自然TDIUC十六万七千1，6M两自然C-VQA123K369K人类自然VQACPv2219K型小行星603K人类自然Clevr100K999K合成合成CLEVR-H32K32K人类合成CoGenT-A100K999K合成合成10474它表示对新组合物的推广。如果在CoGenT-B上微调的模型在CoGenT-A上仍然表现良好，则表明它具有记住旧概念组合的能力这些数据集中的问题比CVQA中的大多数问题更复杂单独使用VQAv1和VQAv2很难衡量一个算法是否能够执行鲁棒的组合推理，或者它是否使用超线性相关来预测答案。在某种程度上，这是由于寻求众包问题和答案的局限性，人类倾向于更经常地为某些图像提出某些类型的问题，例如，如果场景中有两个相同类型的东西，计数问题最常被问到，虽然 CVQA 和VQACPv2试图克服这些问题，但合成数据集[20，7，22]在更大程度上最大限度地减少了这种偏差，并作为衡量特定推理技能的重要试金石，但合成视觉场景缺乏复杂性和变化。自然和合成数据集服务于互补的目的，合成数据集的创建者认为两者都应该使用，例如，类似于CLEVR的早期VQA数据集SHAPES的创建者写道虽然这一建议在很大程度上被社区忽视，但我们强烈认为有必要证明VQA算法能够在自然和合成领域中处理VQA，只需很少的否则，算法2.2. VQA算法已经提出了许多自然图像VQA的算法，包括贝叶斯方法[23，36]，使用空间注意力的方法[52，33，40，6]，合成AP [52，33，40，6]proaches [7，8，18]，双线性池方案[29，14]，和其他[50，41，26]。空间注意机制[6，33，38，14，10]是自然语言VQA最广泛使用的方法之一注意力计算视觉和文本特征的相关性分数，允许模型只处理相关信息。其中，我们评估 UpDn [6] ， QCG [41] 和 BAN[28]。我们在第二节中更详细地描述了这些算法。4.第一章类似地，已经为合成VQA数据集创建了许多方法通常，与自然图像的算法相比，这些算法常见的方法包括模块化网络，其中一些使用地面实况程序[21，37]，而另一些则隐式地学习组合规则[18，19]。其他方法包括使用关系网络（RN）[48]，早期融合[34]和条件特征变换[44]。在我们的实验中，我们评估RN [48]”[19]这一点，在《易经》中有更详细的解释4.第一章尽管存在罕见的例外情况[18]，但大多数这些算法仅在天然或合成VQA数据集上进行评估，而不是两者兼而有之。此外，一些声称特定能力的算法没有在设计用于测试这些能力的数据集上进行测试，例如，QCG [41]声称具有更好的合成性能，但未在CVQA [5]上进行评估。在这里，我们评估了自然和合成VQA数据集上的多个最先进的算法，我们提出了一种新的算法对两者都很有效。3. RAMEN VQA模型我们提出了递归聚合的多模态嵌入网络（RAMEN）模型的VQA。它被设计为一个概念上简单的架构，可以适应自然场景的复杂性，同时也能够回答需要复杂的组合推理链的问题，这些问题发生在像CLEVR这样的合成数据集中。如示于图2、RAMEN分三个阶段处理视觉和问题特征：1. 视觉与语言功能的早期融合。视觉和语言特征之间的早期融合和/或使用语言对视觉特征的早期调节已被证明有助于组合推理[34，44，12]。受这些方法的启发，我们提出了早期的融合，通过级联的空间本地化的视觉功能与问题的功能。2. 通过共享投影学习双峰嵌入。串联的视觉+问题特征通过共享网络传递，产生空间本地化的双峰嵌入。这个阶段帮助网络学习视觉和文本特征之间的相互关系。3. 习得双峰嵌入的反复聚集。我们使用双向门控递归单元（bi-GRU）来聚集场景中的双峰嵌入，以捕获双峰嵌入之间的相互作用。最后的前向和后向状态基本上需要保留回答问题所需的所有信息。虽然用于自然图像的最新最先进的VQA模型使用注意力[6]或双线性池机制[28]，但RAMEN能够在没有这些机制的情况下执行搜索同样，与CLEVR的最新模型相比，RAMEN不使用预定义的模块[37]或推理单元[19]，但我们的实验证明它能够进行组合推理。3.1. 形式化模型定义RAMEN的输入是一个嵌入q∈Rd的问题以及一组N个区域建议ri∈Rm，其中每个ri具有10475图2：我们经常聚合的多模态嵌入网络（RAMEN）。视觉外观特征和空间位置两者。RA-MEN首先将每个建议与问题向量连接起来，然后进行批量规范化，即，ci=BatchNorm（riq），（1）其中，r表示级联。所有N个ci向量然后通过函数传递f （ ci ），其混合特征以产生双峰嵌入 bi= F（ci），其中F（ci）使用具有残余连接的多层感知器（MLP）来建模。接下来，我们通过将每个双模态嵌入与原始问题嵌入连接起来来执行后期融合，并使用a= A（b1<$q，b2<$q，. . . ，bNq）， ⑵其中，使用bi-GRU对函数A进行建模，其中A的输出由前向和后向GRU的最终状态的级联组成。我们将a称为RAMEN嵌入，然后将其发送到预测答案的分类层。虽然RAMEN比大多数最近的VQA模型更简单，但我们表明它在数据集上具有竞争力，不像更复杂的模型。3.2. 实现细节输入表示。我们将问题词表示为用预训练的GloVe向量初始化的300维嵌入[43]，并用GRU处理它们以获得1024维问题嵌入，即， q∈R1024。每个区域建议ri∈R2560由视觉fea组成。图与空间信息连接。视觉感受-tures是由基于Faster R-CNN [47]的自底向上架构[6]空间信息通过将每个建议划分为16×16的（x，y）坐标网格来编码，然后将其平坦化以形成512维矢量。型号配置。投影仪F被建模为具有1024个单元的4层MLP，具有swish非线性激活函数[45]。它在层2、3和4中具有剩余连接。聚合器A是具有1024维隐藏状态的单层双GRU该嵌入通过2048维全连接swish层进行投影，然后是输出分类层，该层在数据集中每个可能的答案都有一个单元培训详情。拉面是用Adamax训练的[30]。在[28]之后，我们使用渐进学习率预热（2。5epoch10−4），5到10的epochs为510−4，然后以0的速率衰减。每2个时期为25，使用早期停止。最小批量大小为64。4. 评价的VQA模型在本节中，我们将简要描述在我们的实验中评估的模型。自底向上注意力和自顶向下（UpDn）[6]结合了自底向上和自顶向下注意力机制来执行VQA，自底向上机制从Faster R-CNN [47]生成对象提案，自顶向下机制预测这些提案的注意力分布。自上而下的注意是任务驱动的，使用问题来预测图像区域上的注意权重。该模型在2017年VQA研讨会挑战赛中获得第一名。为了公平比较，我们将其自底向上的区域特征用于所有其他VQA模型。条件图（QCG）[41]将图像表示为图形，其中来自自下而上区域提议[6]的对象级特征充当图形节点和边，这些节点和边对条件区域之间的交互进行编码。以下问题对于每个节点，QC-图选择具有最强边连接的节点的邻居，导致问题特定的图结构。该结构由补丁算子处理以执行空间图形卷积[31]。选择该模型的主要动机是检查所提出的图表示和组合推理操作双线性注意力网络（BAN）[28]融合了视觉和文本模态之间的相互作用，所有区域建议（可视通道）和所有问题词（文本通道）。与双重注意机制不同[38]，BAN处理所有通道之间的交互。它可以被认为是低秩双10476图3：我们的模型RAMEN与其他现有方法相比的一些示例预测。联合表示每个通道对的线性池化方法[33，29]。BAN通过连接的剩余连接支持多个注意一瞥。它在VQAv2的测试标准分离上达到70.35%，这是最好的公开结果之一。关系网络（RN）[48]接受每一对区域建议，嵌入它们，并将所有N2对嵌入相加，以产生一个编码对象之间关系的向量。这种成对特征聚合机制能够实现组合推理，正如其在CLEVR数据集上的表现所证明的那样。然而，RN最近已经尝试通过减少馈送到RN的输入对象的数量来减少成对比较的数量[35，2]。记忆，注意力和组成（MAC）网络[19]使用自动学习执行基于注意力的推理的计算细胞。与需要预定义模块来执行预定义推理功能的模块化网络[7，18，8每个MAC单元保持代表推理操作的控制状态和作为推理操作的结果的存储器状态。它有一个类似计算机的结构，有读、写和控制单元。在CLEVR数据集上评估MAC，并报告了在检查计数和数值比较任务上的显著改善。4.1. 标准化模型VQA模型通常使用与过去模型不同的视觉特征实现最先进的为了使跨模型的比较更有意义，我们使用相同的视觉特征，所有数据集的所有算法。具体来说，我们使用了2048维在[49]之后，我们将自然图像的建议数量固定为36，尽管当使用额外的建议时性能会增加其他人报告说，使用100个Pro-10和BAN可以略微提高其性能[28]。这种更快的R-CNN模型在Vi- sual Genome上进行对象定位，属性识别和边界框回归的训练[32]。虽然CNN特征图在CLEVR中很常见，但CLEVR的最先进方法也一直在向区域建议转变[53]。对于使用CLEVR图像的数据集为此，我们使用场景注释中指定的3D坐标/旋转来估计边界框。我们将CLEVR区域的数量固定为15。我们还用512维矢量来增强这些特征，该矢量表示关于盒子的位置信息，如第12节所述3.2适用于TDIUC 、 CLEVR 、 CLEVR-Humans 和 CLEVR-CoGenT。在[6]之后，我们将候选答案集限制为在训练+验证集中至少出现9次的答案，导致VQAv1的词汇表为2185个答案，VQAv2的词汇表为3129个答案。在[4 ， 5] 之后，我们将答案词汇限制为 CVQA 和VQACPv2的1000个最常见的训练集答案。对于VQAv2，我们在训练和验证分割上训练对于其余的数据集，我们在训练分割上训练模型，并在验证分割上报告性能保持兼容性。UpDn、QCG和BAN都被设计为对区域提案进行操作。对于MAC和RN，我们需要修改输入层以接受10477表2：在所有数据集中使用相同视觉特征评价的6个VQA模型的总体结果我们突出显示每个数据集的前3个模型，使用较深的颜色表示表现更好。为了研究泛化差距，我们在对CLEVR-CoGenT和CLEVR-Humans进行微调对于VQAv2，我们在训练和验证分割上训练模型对于CLEVR-CoGenT-B，我们报告了验证拆分的子拆分结果。对于其他数据集，我们在训练分割上训练模型，并在验证分割上报告结果。数据集/算法UpDnQCG禁令MacRN我们VQAv160.6259.90 六十二点九十八54.0851.84 六十一点九八VQAv2六十四点五五57.08 六十七点三九54.3560.96 六十五点九六TDIUC六十八点八二65.57 七十一点十分66.4365.06 七十二点五二CVQA五十七点零一分56.45 五十七点三十六分50.9948.11 五十八点九二VQACPv238.0138.3239.3131.9626.70 三十九点二一Clevr80.0446.7390.7998.0095.97九十六点九二CLEVR-人54.5128.1260.2350.2057.65五十七点八七CLEVR-CoGenT-A82.4759.6392.5098.0496.45九十六点七四CLEVR-CoGenT-B72.2253.4579.4890.4184.68八十九点零七分是说64.1851.69 69点66.0565.2671.02自下而上的特征，而不是卷积特征图。这样做是为了在所有数据集上使用相同的功能，并升级 RN 和MAC，以便它们在通常使用这些功能的自然图像数据集上具有竞争力[6]。对于MAC，我们用自底向上特征的线性投影替换初始2D卷积操作这些都是通过MAC对于RN，我们删除了初始卷积网络，并直接将自下而上的特征与问题嵌入作为输入。这些变化后两个模型的性能与使用学习的卷积特征图作为输入的版本相当，在CLEVR验证集上MAC达到98%，RN达到5. 实验和结果5.1. 主要结果在本节中，我们将展示当前的VQA算法无法在自然和合成数据集上进行推广，并表明RAMEN在所有数据集上都是性能最好的模型我们还提出了一个比较分析的偏差电阻，组合性，和泛化能力的所有六个算法。表2提供了我们在所有八个数据集上使用所有六种算法的主要我们对所有数据集使用标准度量，即，我们对CLEVR系列数据集使用简单的精度，对TDIUC使用平均每类型，对VQAv1、VQAv2、CVQA和VQACPv2使用“10选3”。图中给出了RAMEN与其他模型比较的一些示例输出。3 .第三章。VQA中的泛化数据集。RAMEN在TDIUC和CVQA上取得了最高的结果，并且是 VQAv1 、 VQAv2 、VQACPv2和VQACPv3的第二好模型。所有的CLEVR数据集。平均而言，它在数据集上的得分最高，表明它可以在测试推理的自然数据集和合成数据集上进行推广。BAN达到下一个最高平均得分。BAN适用于自然图像数据集，在VQAv1，VQAv2和VQACPv2上优于其他模型。然而，BAN的组合推理能力有限。尽管在概念上比BAN简单得多，但RAMEN在 CLEVR 上的表现优于 BAN6% （绝对值），在CLEVR-CoGenT-B上的表现优于BAN 10%。RAMEN在所有成分推理测试中均在MAC的1.4%以内。UpDn和QCG在CLEVR上表现不佳，QCG的得分低于50%。跨问题类型的泛化。我们使用TDIUC来研究跨问题类型的泛化。TDIUC具有多个精度度量，其中每类型平均值（MPT）和归一化每类型平均值（N-MPT）补偿偏差。如表3所示，所有方法的简单准确率得分均超过82%;然而，MPT和N-MPT评分均低13-20%。较低的MPT分数表明所有算法都难以推广到多个任务。拉面获得最高的 MPT 得分为 72.52% ，其次是 BAN 为71.10%。对于所有算法，“物体存在”、“物体识别”和“场景识别”是最简单的任务，所有方法的准确率都超过84%;然而，这些任务都具有相对大量的训练数据（每个60 K-657 K QA对）。所有的方法在“运动识别”（31K QA对）上都表现良好这表明无法用较少的例子概括问题类型。为了强调这一点，TDIUC Pro-10478表3：使用三种不同度量的TDIUC性能比较。MPT测量任务泛化，N-MPT测量对罕见答案的泛化。我们突出了前三名的模特，鼓励了获胜者。度量/算法UpDnQCGBANMACRNOursMPT68.8265.67 七十一点十分 66.4365.06七十二点五二表4：CLEVR查询类型的性能存在查询属性比较属性相等大于小于计数UpDn83.0790.0879.8765.6580.4385.7664.03QCG66.1131.1151.4759.7669.3570.5744.19禁令94.7290.5698.4472.3581.3586.3986.47Mac99.1899.5999.3385.4496.8297.5595.46RN98.4098.1997.8177.3093.4084.2790.90拉面98.9098.9399.3079.4093.4188.5394.10提供了归一化MPT（N-MPT）度量，该度量通过考虑答案频率来衡量对罕见答案的泛化。所有模型的标准化和非标准化得分之间的差异都很大RAMEN的差距最小，表明对回答分布偏差的抵抗力更好，而BAN的差距最大。对新概念作文的概括。我们使用CVQA 和CLEVR-CoGenT-B评估概念组合性。如表2所示，CVQA的得分MAC的性能下降最大，这表明它的推理细胞无法有效地组成现实世界的视觉语言概念。为了评估在合成数据集上推广到新概念组合的能力，我们在CLEVR-CoGenT-A的训练分割上训练模型，并在没有微调的情况下在[44]之后，我们从“B”的验证集获得了一个所有算法的性能都有很大的与CVQA结果不同，MAC的性能下降较小。同样，拉面有一个比较小的性能下降。VQACPv2的更改优先级的性能。所有的出租车都有一个很大的下降，在不断变化的先验性能。这表明，还有更多的工作要做，使VQA算法克服语言和视觉先验，使他们能够更有效地学习使用可推广的概念。计数和数值比较。对于CLEVR，计数和数字比较MAC在这些任务上表现最好，其次是RAMEN。除了MAC和QCG之外的算法展示了大的（>4. 8%）之间的差异这种差异在RN（9.13%）中最为明显，表明语言理解困难。BAN使用计数模块[54];然而，它在CLEVR的计数任务上的性能所有的算法也都在自然图像中进行计数。尽管TDIUC有超过164K的计数问题，但所有方法在这些问题上的得分都低于62%。其他CLEVR任务。如表4所示，RAMEN在除数量比较外的所有任务上都在MAC性能的0.03-1.5%范围内。UpDn和QCG是所有查询类型上性能最差的模型。除QCG外，所有的模型都很容易回答关于对象属性和存在性的问题除了UpDn和QCG之外的模型在需要比较这些属性的属性比较问题上表现良好令人惊讶的是，BAN发现需要更多推理的属性比较比简单的属性查询任务更容易。我们目前的结果CLEVR人类没有微调，以检查如何以及算法处理自由形式的语言，如果他们只训练CLEVRBAN表现出最好的泛化能力，其次是RAMEN和RN。N-MPT38.9337.4340.65三十九点零二分35.7546.52简单准确八十二点 82.05 八十四点八一八 84.6186.8610479表5：比较视觉和问题特征之间的早期与晚期融合以及比较替代聚集策略的消融研究。VQAv2Clevr没有早期融合61.8177.48无晚期融合65.6496.63通过均值池进行63.0192.45无消融65.9696.925.2. 消融研究表5给出了几项消融研究的结果，以测试RAMEN成分的我们发现，早期融合对RAMEN的性能至关重要去除晚期融合对CLEVR和VQAv2的影响很小。我们还探索了使用bi-GRU进行聚合与使用均值池的效用，并发现这会导致两个数据集的性能下降。我们认为，经常性的聚合有助于捕获双峰嵌入之间的相互作用，这对于推理任务至关重要，并且它还有助于通过执行非最大抑制形式来去除重复的5.3. 较新的型号自从我们开始这个项目以来，已经发布了其他VQA算法，其中一些算法的得分比我们在一些数据集上评估的模型更高。通过使用地面实况函数程序来训练网络，跨设计（ TBD ）网络 [37] 在 CLEVR 上获得了99.10%的准确性，这对于自然 VQA数据集不可用。神经符号VQA（NS-VQA）[53]在CLEVR上的得分为99.80%，但使用问题解析器来分配功能模块以及高度专业化的基于分割的CNN功能。他们没有进行消融研究来确定使用这些视觉特征的影响。我们比较的模型都无法访问这些额外的资源。通过使用来自其他VQA数据集的附加数据和组合，可以显著改善VQAv2的结果，例如，2018年挑战赛的获胜者使用Visual Dialog [11]中的对话作为额外的问题答案对和30个模型的集合。这些增强可以应用于我们评估的任何模型，以提高性能。VQACPv2的结果也可以使用专门的架构来改进，例如。GVQA [4]和UpDn与对抗正则化[46]。然而，它们在VQACPv2上的性能仍然很差，具有逆向正则化的UpDn获得了42.04%的准确率，仅比非正则化模型提高了2.98%。6. 讨论：一个模型来统治他们所有人？我们进行了第一次系统研究，以检查在合成数据集上工作的VQA系统是否推广到真实世界的数据集，反之亦然。这是我们项目的最初范围，但当我们发现没有一种方法在数据集上工作得很好时，我们感到震惊。这促使我们创建一个新的算法。尽管比许多算法简单，但RAMEN可以与其他方法相媲美，甚至超越其他方法。我们认为，一些最先进的架构可能被过度设计，以利用它们最初测试的领域中的偏差，导致在其他数据集上测试时性能恶化。这使我们质疑在一个特定数据集上实现最先进结果的高度特殊化机制的使用是否会导致该领域的重大进步，因为我们在概念上更简单的算法在没有这种机制的情况下在自然和合成数据集上进行我们提倡开发一个单一的VQA模型，该模型可以很好地应对各种挑战。在持续学习范式中训练该模型将评估向前和向后迁移[17，27，42]。另一个有趣的途径是将VQA与视觉查询检测等相关任务结合起来[1]。无论如何，现有的算法，包括我们的算法，在展示视觉语言概念理解和推理方面还有很长的路要走。正如CVQA和VQACPv2上的大的性能下降所证明的，当前算法在学习组合概念方面表现不佳，并且受到这些数据集中的偏差的影响，这表明依赖于表面相关性。我们观察到，仅为合成封闭世界场景开发的方法通常无法处理不受约束的自然图像和问题。尽管VQAv2和CLEVR在这些基准上的性能接近人类水平，但我们的结果表明VQA还远未解决。我们认为，未来的工作应该集中在创建一个模型，以及跨域工作。在通用训练集上训练数据集，然后在多个测试集上对其进行评估，每个测试集需要不同的技能集，这将是很有趣的。这样做将有助于寻找一个可以统治所有这些的VQA模型。7. 结论我们的工作致力于为VQA算法设定一个新的标准：在自然场景和具有挑战性的合成基准上都有良好的表现。我们希望我们的工作将导致未来的进步VQA。鸣谢。我们感谢英伟达的GPU做国家。这项工作得到了Adobe Research的部分支持。10480引用[1] M. Acharya，K. Jariwala和C.卡南VQD：自然场景中的视觉查询检测。在NAACL，2019年。[2] M. Acharya，K. Kafle和C.卡南TallyQA：处理复杂的计数问题。在AAAI，2019年。[3] A. Agrawal、D.Batra和D.帕里克分析视觉问答模型的行为。在EMNLP，2016。[4] A. Agrawal、D. Batra，D. Parikh，和A.肯巴维不要只是假设;看一看并回答：克服视觉问答的前科。在CVPR，2018年。[5] A. Agrawal、A. Kembhavi，D. Batra和D.帕里克C-vqa：视觉问答（ vqa ） v1.0 数据集的组成分割 CoRR ，abs/1704.08243，2017。[6] P. Anderson，X.他，C.Buehler、D.Teney，M.约翰逊先生，S. Gould和L.张某自下而上和自上而下的图像字幕和视觉问答注意。在CVPR，2018年。[7] J. Andreas，M. Rohrbach，T. Darrell和D.克莱恩用神经模块网络回答深度组合问题.在CVPR，2016年。[8] J. Andreas，M. Rohrbach，T. Darrell和D.克莱恩学习组成用于问答的神经网络。在NAACL，2016年。[9] S. Antol，A. Agrawal，J. Lu，M.米切尔，D。巴特拉角L. zitnick和D.帕里克VQA：可视化问答。在ICCV，2015年。[10] H. 本尤尼斯河Cadene，M.Cord和N.托米Mutan：用于视觉问答的多模态折叠融合。在CVPR，2017年。[11] A. 达斯， S 。科图尔湾古普塔 A 。辛格山，加 - 地Yadav，J. M. Moura，D. Parikh和D.巴特拉可视化对话框。在CVPR，2017年。[12] H. De Vries，F. Stub，J. Mary，H.拉罗谢尔岛Pietquin和A. C.考维尔通过语言调节早期视觉处理。NeurIPS，2017。[13] M. R. Farazi和S.汗王视觉问答的交互注意融合。在BMVC，2018年。[14] A. 福井D.H. 帕克D。Yang，杨树A.Rohrbach，T.Darrell和M.罗尔巴赫多模态紧凑型双线性池用于可视化问题回答和可视化基础。在EMNLP，2016。[15] R.娘娘腔。快速R-CNN。CVPR，2015。[16] Y. 戈亚尔 T. 霍特 D. 萨默斯-留下来 D. 巴特拉和D.帕里克使VQA中的V变得重要：提升图像理解在视觉问答中的作用。在CVPR，2017年。[17] T. L.海斯D. Cahill和C.卡南用于流式学习的存储器高效体验重放。在ICRA，2019年。[18] R. Hu，J. Andreas，M. Rohrbach，T. Darrell和K.萨恩科学习推理：用于可视问答的端到端模块网络。InICCV，2017.[19] D. A. Hudson和C. D.曼宁用于机器推理的组合注意力网络。在ICLR，2018年。[20] J. 约翰逊湾哈里哈兰湖范德马滕湖Fei-Fei，C.L. Zitnick和R.娘娘腔。CLEVR：用于合成语言和基本视觉推理的诊断数据集。在CVPR，2017年。[21] J. Johnson，B.哈里哈兰湖van der Maaten，J.霍夫曼L. Fei-Fei，C. L. Zitnick和R. B.娘娘腔。推理和执行程序的视觉推理。在ICCV。[22] K. Kafle，S.科恩湾Price和C.卡南DVQA：通过问答了解数据可视化。在CVPR，2018年。[23] K. Kafle和C.卡南视觉问题回答的预测器类型预测。在CVPR，2016年。[24] K. Kafle和C.卡南可视化问题回答算法分析。InICCV，2017.[25] K. Kafle和C.卡南可视化问答：数据集、算法和未来的挑战计算机视觉和图像理解，2017年。[26] K. Kafle，M. Yousefhussien和C.卡南用于视觉问答的数据InINLG，2017.[27] R. Kemker，M. McClure，A. Abitino，T. L. 海耶斯，C. 卡南在神经网络中测量灾难性遗忘。在AAAI，2018。[28] J. - H.金，J. Jun，和B.- T.张某双线性注意力网络。NeurIPS，2018。[29] J. - H.金，K.- W.上，J.金，J. - W.哈，B。- T.张某低秩双线性池的Hadamard乘积。在ICLR，2017。[30] D. P. Kingma 和J. BA. Adam ：随机最佳化的方法。CoRR，abs/1412.6980，2014。[31] T. N. Kipf和M。威林基于图卷积网络的半监督分类。在ICLR，2017。[32] R. Krishna，Y.Zhu，O.Groth，J.约翰逊，K。Hata，J.克拉维茨S. Chen，Y.卡兰蒂迪斯湖J. Li，D. A. Shamma，M. S.Bernstein和L.飞飞可视化基因组：使用众包的密集图像注释连接语言和视觉。International Journal of ComputerVision，123（1）：32[33] J. Lu，J. Yang，D. Batra和D.帕里克用于视觉问答的分层问题图像共注意。InNeurIPS，2016.[34] M. Malinowski和C. Doersch视觉QA魔鬼在细节：早期融合与批次规范对clevr之影响。arXiv预印本arXiv：1809.04482，2018。[35] M.马林诺夫斯基角多尔施A. Santoro和P.巴塔利亚通过引导注意力来学习视觉问题回答。在ECCV，2018。[36] M. Malinowski和M.弗里茨一种基于不确定输入的多世界真实场景问答方法。NeurIPS，2014。[37] D. Mascharka山口特兰河，巴西-地Soklaski和A.玛朱达尔透明设计：缩小视觉推理中的性能和可解释性之间的差距。在CVPR，2018年。[38] H.南，J W.哈哈，还有J·金。用于多模态推理和匹配的双注意力网络。在CVPR，2017年。[39] D.- K. Nguyen和T.冈谷通过密集对称共同关注改进视觉和语言表示的融合，在CVPR，2018年6月。[40] H. Noh和B.韩训练用于VQA的联合损失最小化的循环应答单元。arXiv预印本arXiv：1606.03647，2016年。10481[41] W. Norcliffe-Brown，E. Vafeais和S.帕里索学习条件图结构可解释的视觉问题回答。NeurIPS，2018。[42] G. I. 帕里西河Kemker，J.L. Part，C.Kanan和S.Wermter使用神经网络进行持续终身学习：审查. 神经网络，2019。[43] 彭宁顿河Socher和C。曼宁Glove：单词表示的全局向量。在EMNLP，第1532- 1543页[44] E. Perez，F.Strub，H.De Vries，V. Dumoulin，andA.考维尔影片：视觉推理与一般条件层。在AAAI，2018。[45] P. Ramachandran，B. Zoph和Q. V. Le.搜索激活功能。CoRR，abs/1710.05941，2017。[46] S. Ramakrishnan，A. Agrawal和S.李你用对抗正则化克服视觉问答中的语言先验。在NeurIPS，第1548-1558页[47] S. Ren，K.赫利河Girshick和J.太阳更快的R-CNN：用区域建议网络进行实时目标检测。InNeurIPS，2015.[48] A. Santoro，D. Raposo，D. G. Barrett，M. 马林诺夫斯基R. Pascanu，P. Battaglia，and T. Lillicrap一个用于关系推理的简单神经网络模块。NeurIPS，2017。[49] D. Teney，P. Anderson，X. He和A.范登亨格尔。视觉

下载后可阅读完整内容，剩余1页未读，立即下载