TA学生VQA：自我提问训练多智能体

42 浏览量更新于2023-10-25 收藏 2.06MB PDF 举报

考试准备

标准问题

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1考试准备STD.1问：？问：？T.A.STD.2考试T.A.问：？答：-是的教授STD. 1标准TA-Student VQA：通过自我提问进行多智能体训练熊培西与吴英西北大学2145 Sheridan Road，埃文斯顿，IL 60208{peixixiong2018，yingwu}@ u.northwestern.edu摘要视觉化问题回答（VQA）面临两个主要挑战。第一个是，每个模型都是... 在应用于若干问题时，指出了它的优点和缺点;此外，专业问题的“天花板效应”也难以通过简单的对比训练克服。第二个挑战是，即使是最先进的数据集也是大规模的，针对单个图像的问题在格式上是不一致的，并且在内容上缺乏多样性。我们介绍了我们的自我提问模型与多智能体训练：TA学生VQA。该框架不同于标准的VQA算法，涉及问题生成机制和问答代理之间的协作学习。因此，TA学生VQA克服了问题的内容多样性和格式变化的限制，提高了多个问答代理的整体我们在VQA-v2 [1]上评估了我们的模型，该模型优于没有此类机制的算法。此外，TA-student VQA实现了更大的模型容量，除了注释数据集中的问题之外，还允许它回答更多生成的问题。1. 介绍近年来，视觉问题检索（VQA）引起了极大的关注[45，16，35，51]，因为它涉及多学科研究，如自然语言理解[58]，视觉信息检索[19，62]，多模态推理[4，39]。许多方法[56，18]在这一领域开发了用于不同目的的数据集[36，65，59，1，15，21，25]。然而，对于专注于一个方面的每个高性能算法，该算法在其他方面获得了相应的缺点（例如，某些算法擅长于颜色相关的问题，但不擅长推理，而其他算法擅长于推理，反之亦然）。与此同时，在训练阶段，即使问题数据集规模很大，Q/A的数量也很大，(1) 以前的工作(2) 我们的方法图1：（1）以前的工作只有一个学生代理 to train训练on the annotated 注释data数据. (2)TA-Student VQA范式。我们提出了一个框架的视觉问题生成（VQA）中，TA代理生成的问题由给定的图像，和两个学生代理回答他们。当他们的答案收敛时，来自标注数据集的问题-答案对将用于评估这些代理，并更新它们。该方法突破了单一图像问题的局限性，充分发挥了两个学生Agent的优势。10065考试问：？答：-是的教授STD.110066一个图像的配对是有限的。这种不足不仅表现在语义相似的问句形式上，而且表现在缺乏形象针对性的问句。关于视觉问题的训练方面作为考试准备和测试部分作为期末考试（图1），以前的工作使用注释数据来训练一个模型，并使用结果更新参数。这种情况类似于当学生准备考试时。学生只有通过考试才能提高自己;但从经验上看，试题有限，难以强化学习，缺乏概括性。在我们的工作中，我们涉及到一个代理，发挥类似的作用，作为一个教学助理（TA），其中generating问题的基础上给定的图像。此外，本文还介绍了利用两个学习代理实现协同学习的思想，类似于两个学生在没有解题手册的情况下准备考试;只有互相讨论才能取得进展。我们的主要贡献如下：1. 我们克服了障碍，从而为每个图像的训练Q/A对是有限的，在解决模型容量的不足，通过添加一个TA模型的系统。2. 在自我提问阶段，我们采用两个提问代理（Agt），以合作学习的方式结合两种方法的优点3. 我们通过自我问答过程获得对给定图像的更好理解，其中应用策略来选择最具信息性的问题/内容以最好地改善视觉问答性能。2. 相关工作2.1. 视觉问题回答近年来，人们提出了许多视觉问答算法。这些算法可以分为四个主要类别。第一类是标准的深度学习模型，通常使用卷积神经网络（CNN）[26]来嵌入图像，并实现递归神经网络（RNN）（例如，长短期记忆单元（LSTM）[20]和门控递归单元（GRU）[8]）来嵌入自然语言。[63，13]等方法直接将视觉特征和纹理特征融合在一起，而[46，34，36]则将这些特征纳入一个新的网络中实现组合。尽管这种标准的深度学习方法并不总是获得出色的性能，但标准方法已经在VQA任务中建立了里程碑，并在发现这两种类型的特征之间的关系时保持了直觉。第二类是基于注意力的深度学习技术。这种机制通常通过关注图像、问题或两者的关键部分来应用[32]，从而有效地针对输出答案。[48，64，57，60]等方法对任务取得了良好的效果。然而，它们具有某些缺点，类似于标准的深度学习方法。利用人类注意力或执行直接学习并不能消除深度学习方法缺乏良好的可解释推理的问题，并且仅通过简单地记忆关于Q/A对的统计数据就可以获得相当好的结果这就导致了模型能力的不足，也就是说，如果你用一种与训练集和测试集中的问题在格式或内容上不同的语气问一个问题，即使这个问题与图像有关，模型也会产生很差的结果。尽管深度学习方法在VQA领域占据主导地位，但非深度学习方法通常通过提供解释性特征或中间结果来创造创新。相关的工作，如[23，35，28]，试图建立一个概率模型，并推断隐藏的信息，以完成模型。这样的方法不太可能遭受过拟合，并可以保持泛化。尽管如此，他们需要特征工程，根据经验，选择适应新问题的模型需要时间。知识库支持方法是另一种类型的算法，包括[54，50，37，52，33，40]，并利用有关图像中对象及其关系的事实这些方法在需要外部知识帮助的困难情况下显示出它们的力量。然而，这种力量需要额外的时间和努力来建立知识库。目前，VQA方法保留了它们的优势，但缺乏图像理解。数据集中Q/A对的限制也导致模型缺乏泛化能力。我们的自问答方法克服了标注数据集的局限性，从而实现了基于给定图像的信息性问题的生成，避免了模型容量不足的影响。2.2. 可视化问题生成作为图像字幕的跨学科方向[27，11，9，7，10]，视觉问题生成[24，61，42]最近被提出作为基于给定图像生成问题而不是字幕的方法。一个好的生成问题应该紧紧地集中在图像上，而不是一般性的陈述，如“这张照片里有什么？“.我们的TA-Student VQA系统具有高度相关性。然而，与我们的方法的主要区别在于，而不是生成最大化图像和问题之间的相互信息的问题，我们的方法更多地关注于生成最适合搜索代理的问题。更具体地说，如果一个问题，如“什么是在这张照片？”有助于提高代理10067（AT，AT）收敛~自我质量保证阶段督导阶段TAQT问题生成代理（Qg）带注释的数据集RL更新标准标准VQA模块（V1）的~VQA模块（V2）的TOracleImg（Img，QG，AG）监督和更新（Img，QG，图2：我们的方法概述该系统由两个阶段组成，自我质量保证阶段和监督阶段，这两个阶段将迭代执行。在第一阶段，有三个代理，一个问题建议代理TA和两个问题回答代理Std1和Std2。一旦TA代理提出问题QT，Std1和Std2将输出相应的答案AT和AT。一旦答案确定，第二阶段就开始了。Oracle将监督Self-QA块中的模型，根据结果更新Std1和Std2的参数，并使用强化学习方法更新TA.2.3. Boosting方法Boosting指的是一组算法，将弱学习者变成强学习者;更具体地说，它是一种用于改进学习算法的模型预测的集成方法。 Boosting的思想是按顺序训练弱学习者，每个学习者都试图纠正其前任。Boosting在[12]中首次引入，后来的作品，如[2，6]，也遵循相同的路径来实现更好的弱分类器训练。我们的方法将这一思想转化为协作学习，并连续训练两个预测代理，以提高预测性能。2.4. 生成对抗网络生成对抗网络（GAN）首先在[17]中提出;它们通过对抗过程估计生成模型。其主要思想是同时训练生成模型（G）和判别模型（D）。G负责捕获数据分布，而D负责估计样本来自训练数据而不是G的概率。许多作品[53，41，49]已经使用GAN来执行图像合成和图像检索。我们借用这种对抗的想法，我们的TA学生VQA系统的对抗生成的问题，为一个给定的图像和评估生成的问题，我们的代理和Oracle。3. 方法3.1. 概述我们现在正式介绍一种新的方法，称为TA-学生VQA。VQA任务的测试阶段可以被表示为通过argmaxaP （ a ）在候选答案词 Ans的空间中找到正确答案a |Img，Q G），a ∈Ans，其中Img是来自数据集的给定图像，QG是相应的问题。然而，对于训练阶段，与以前的VQA方法不同，我们通过涉及自我QA阶段来改变策略。TA模型负责对给定图像提出问题（QT）Img，并且两个V QA模型被设置为输出对应的答案（AT和AT）。一旦AT和ABNT一致，则执行监督阶段有一个神谕O，问题（QG），而地面实况答案（AG）结合QG和Img用于更新两个V QA模型和TA模型。为了促进自我提问，可以构建两个代理，每个代理负责生成问题并回答问题;然而，为了获得一个紧密的结构和清晰的职责划分，我们设计了如图2所示的系统。我们提出的方法包括两个阶段，自我QA阶段和监督阶段。第一阶段包括问题生成代理（Qg）和两个可视问题生成代理（Agt），将在第3.2节和第3.3节中详细介绍。第二阶段涉及oracle（O）如何更新Agts和Qg的参数，这将在第3.4节中解释。3.2. 问题生成代理（Qg）问题生成代理（Qg）充当TA，其被设计为在与给定图像Img相关的条件下生成一组具有格式和内容多样性的问题。为了获得这些属性，构建并组合三个子模型：（1）问题生成模型（g），其负责基于给定图像Img提出问题;（2）问题验证模型（v），其检查所生成的问题在语法上是否正确并且是否与内容相关;以及（3）10068TA问题生成代理（Qg）问题和建议图3：问题生成代理（Qg）。A set of ques- tions areproposed by Question Generation Model (g), then thesequestions are filtered by Question Validation Model (v), toachieve the grammarly validation and the content rel-evance of questions. 信息选择模型（i）是两个检验器用作滤波器以保留来自QT0的QT1，其中QT1= v（QT0，Img），并保留更有效的信息。–为了选择最翔实的问题QT2，我们亲-提出了信息选择模型，它是一个策略 π（QT2|Img，QT1，θ）用于通过给定图像Img选择QT2，QT1是来自最后一个模型的问题，θ是该模型的参数。这个任务现在变成了一个政策学习问题。给定图像Img和一组候选问题{QT2（i）∈ QT2：1 ≤ i ≤ n}，我们输出一个包含动作序列[a1，a2，a3，. - 是的- 是的，an]。是用于确定问题候选QT2（i）是否是信息性的二进制值每一个动作都没有基础事实，只有最终的奖励。指示在该策略π下，换言之，在本轮所选择的建议问题QT2下，监督阶段的预测结果是否显著改善。详情见第3.4节。我们使用蒙特卡罗概念来学习策略，这将指导问题选择。这样的策略网络需要在损失中获得额外的奖励值用于选择对改进问题查询代理（Agt）贡献最大的问题L政策Σ（θ）=i∈<$QT2<$logπ（ai|Img，QT1，θ）<$（Q，A）（一）信息选择模型（i），其从先前的问题中选择信息量最大的问题以提高训练效率。图3展示了Qg的结构。– 问题生成模型（g）该模型基于给定的图像Img生成问题QT0，表示为QT0=g（Img）。我们建立一个类似于[38]的结构。为了更好地处理大规模数据[3]，我们使用长短期记忆（LSTM）代替门控递归单元（GRU）。此外，为了提高QT0的多样性，我们将问题类型作为生成问题的首词，并在每次生成前对其进行随机抽样。在这里，我们使用[1]中定义的64种问题类别– 问题验证模型（v）为了进一步过滤生成的问题QT0，我们签署两个机制。第一种机制是语法检查器，它确保生成的问题在自然语言方面是有效的。第二种机制检查问题中提到的主要组件是否存在于图像Img中，这避免了询问无效对象。为了在句子中定位感兴趣的主语，[5]用于用语法关系解析问句。这些其中ai是基于当前状态采取的动作，π（·）是将状态映射到动作的策略函数，其中策略是输出的概率基于当前状态放置下一个动作模块ai，并且（·）是基于整个动作模块序列[a1，a2，a3，. . .，an]。因为所有的动作都是离散的，这导致了一个不可微的问题，回到-传播将不起作用。在训练过程中使用策略梯度[29我们迭代地生成问题QT2，直到有100个问题建议，这被认为是这个问题生成代理的输出，表示为QT。模型Qg提出的问题建议缓解了图像问题有限的情况，并且自动显示的机制保证了问题的相关性和信息性。3.3. 提问代理（Agt）两个可视问题回答代理（Agt）充当两个学生来回答由TA，也就是Qg。它们的输出At和AT是从两个异质结构的视觉问题回答模型（这两个模型的细节将被亲，见第3.5节）。一旦At和AT10069我（这意味着他们获得了语义相似性，如[43]所检测到的），这意味着经过几轮讨论，这两个学生最终达成了一致。然后，是真正的考试时间，而不是助教提供的问题换句话说，Oracle将在监督阶段（第3.4节）中使用来自注释数据集的（Img，QG，AG）对来更新Qg和两个Agts中的参数。3.4. Oracle检查模型（O）Oracle检查模型（O）的工作原理与用于激活学习的模型类似[47];但是，它不标记生成的问题的答案QT。相反，它计算其信息得分，如第3.2节所示，以决定这些问题是否在训练阶段最有帮助。-强化学习更新问题信息一旦At和AttT软连接，Oracle检查Model（O）从标注的数据集（Q G）中选择几个问题，两个Agt输出它们对应的答案;具有较高置信度的答案将是他们的“同意答案”。有了来自Agts的答案和地面真实答案AG，softmax可以计算公式1中的损失Δ（·）LSTM。因此，没有动态迭代。选择这些模型存在显著差异;然而，唯一的限制是它们在结构上应该是不同的，我们不认为这样的VQA模型是我们的贡献。此外，我们在第4节中测试了结构化模型以进行验证。3.5.2培训详细信息我们为前80k次迭代预先训练了g和两个Agt作为热身。然后，Qg在过滤掉无效问题并基于初始信息分数选择100个问题之后生成问题提议QT 两个Agt输出它们的相应答案At和AT基于Img和QT。一旦At和AttT轻轻地结合，它就来到了苏-pervision阶段，而O从注释的数据集询问问题QG。两个Agts的性能将是更新其参数的基础;此外，它们将有助于计算公式1中的奖励值并更新Qg。经过几轮这样的训练后，Agts和Qg被训练得很好，可以进行进一步的评估。3.5.3测试阶段在测试阶段，我们禁用了Qg的问题生成功能。问题Q和图像Img的答案a由以下等式给出。– 除了更新模型之外，aj= argmax{aj，aj∈ Ans，j ∈||阿格茨||}Pj（a j|Img，Q）（2）我我建议的问题是否提供信息，（A，P）={（a j，Pj）|j∈||阿格茨||，方程式（3）OracleO还负责监督和更新对两个Agt的参数进行几次迭代。a= argmax{aj，（aj，Pj）∈（A，P），j∈||阿格茨||}P（4）这将防止两个Agt收敛到局部最优。3.5. 实现细节3.5.1车型配置对于问题生成模型g，我们遵循与[38]类似的结构，并将GRU替换为LSTM，以更好地处理大规模数据。此外，我们增加了一个离散变量来表示问题类型，并将其作为模型的第一个标记，以提高问题的多样性为了检查问题的语法正确性，我们应用[30]。此外，[5]用于解析句子以提取相关的对象和主题，以便它将检查如果目标组件存在于Img.对于回答视觉问题的两个Agt，我们选择了两个异质结构的模型。第一个模型是[55]，而第二个模型是[44]。主要区别在于，在将输入转换为内部表示之后，第一个模型迭代地检索相关事实，而第二个模型直接使用图像特征作为问题的第一个单词，随后将它们馈送到等式2和等式3是预测一组通过选择具有最高概率的一个，等式4旨在通过其置信度得分Pj从每个Agtj的答案集合aj中选择最终答案。4. 实验4.1. 数据集我们在 VQA- v2 [1] 数据集上评估了我们的 TA-Student VQA系统，该数据集包括82，783张训练图像。我们使用8，000张图像及其相应的Q/A对作为预训练数据。我们在其验证集上评估模型，其中包括40，504张图像。4.2. 模型我们使用以下四个模型作为我们的候选问答代理（Agt）。VIS CNN[44]，它使用一个概念，将图像视为一个单词，并将其输入到LSTM中。DMN[55]是一种神经网络架构，它处理输入序列和问题，形成情节分类，并使用其改进10070（一）问：场上有多少人？我们的：3地面真相：3（f）第（1）款问：这个人在拍照吗？我们的：没有Ground Truth：是（b）第（1）款问：墙上有镜子吗？我们的：是的Ground Truth：是（g）问：什么是木制品？Ours：cabinet地面真相：碗碟架（c）第（1）款问：这是什么运动我们的：棒球Ground Truth：棒球(1) 成功案例（h）问：今天是放风筝的好日子吗？我们的：是的真实情况：否(2) 失败案例（d）其他事项问：这是什么样的房间？我们的：厨房Ground Truth：厨房（一）问：猫在哪里？我们的：床Ground Truth：沙发（e）问：天上有云吗？我们的：没有真实情况：否（j）问：墙上有时钟吗？我们的：是的真实情况：否图4：（1）我们模型的成功案例和（2）失败案例。迭代100k：女孩骑的是什么？迭代200k：背景里有山吗迭代300k：摩托车在哪里迭代400k：他们在开露天派对吗？迭代100k：路上有人迭代200k：太阳出来了吗？迭代300k：照片是什么时候拍的迭代400k：天空中的橙色线是什么原因造成的迭代100k：穿红衣服的人拿着什么？迭代200k：有穿制服的女孩吗迭代300k：这些人是在专注于游戏吗？迭代400k：如果有人摔倒会弄脏吗迭代100k：那人拿的是什么迭代200k：运动员的裤子有条纹吗？迭代300k：这是什么运动迭代400k：这是职业棒球运动员吗迭代100k：水里有船吗迭代200k：水面上有多少艘船迭代300k：你觉得这是早期的场景吗迭代400k：这是一艘商船吗？迭代100k：沙发是什么颜色的迭代200k：墙上有画吗迭代300k：这是什么迭代400k：房间的主题是什么图5：每个迭代的问题建议。随着Question Generating Agent的不断更新，问题的提出也越来越复杂。首先，它会问一些需要简单视觉任务的问题（例如，对象检测），然后询问需要通过对象及其连接来检测场景的位置问题;此外，它将询问需要复杂推理的问题存储器和输入模块。LSTM CNN[31]，它分别通过CNN和LSTM对图像和问题进行编码，然后选择一个从候选空间转向多层反射器。MCB[14]，这是一种利用MCB来执行有效地和富有表现力地结合视觉和文本特征。除非另有说明，否则我们使用VIS CNN和DMN作为我们的人工智能代理（Agt），因为与LSTM CNN和MCB相比，它们获得了异构结构。这些设置10071见第4.4.1节。4.3. 定性结果4.3.1成功的结果为了获得关于我们的TA-Student VQA系统的能力的更深入的结果，我们在图4（1）中显示了来自不同图像-问题对的几个代表性示例。结果表明，我们的模型如何能够回答需要多个任务的问题，例如计数，寻找对象和执行直接推理（其中需要对象来推断场景）。例如，在一个实施例中，图4（1）c和图4（1）d）。4.3.2失败案例我们的一些失败案例如图所示-图4（2）.我们的TA-Student VQA系统无法处理没有对象作用的操作（例如，图4（1）a），以及具有高度相似外观的对象的情况图4（1）g和图4（2）j）。对于由于缺乏信息而需要复杂推理的某些问题，我们的系统总是输出与问题中的目标对象具有最高相关性的答案（例如，图4（2）i，在训练数据集中，“猫”与“床”的关系比“沙发”的关系更大。此外，模型倾向于直观地给出答案，而不是首先执行更深入的推理（例如，4.3.3问题复杂性图5显示了进一步迭代生成的问题。问题的格式各不相同，从此外，问题的复杂性和多样性增加，从简单的询问对象属性开始，并进展到计数，然后推理。4.4. 定量结果4.4.1整体性能VIS LSTMvDMNvVIS LSTM+DMN（我们的）Acc.52.7757.1062.86LSTMCNNMCBvLSTM CNN+MCB（同质结构）Acc.45.8246.8748.14表1：总体性能比较（%）表1是我们的总体结果。我们通过使用LSTM CNN和MCB的组合作为代理代理（Agt）与VIS CNN和DMN的性能进行了比较。对于第一种组合，与标准方法LSTM CNNv相比有5.06%的改进（即，没有自我质量保证机制）;而第二种组合，比标准提高了10.59题型我们DMN平方VIS LSTMsqDMNvVIS LSTMv是19.6918.7021.7421.3121.79有24.6111.299.009.7110.32这些是11.604.207.925.385.37他们在18.7910.4321.9820.1026.71你能15.6310.4918.1014.1121.47可以10.6813.3322.1324.0329.38你8.7912.3018.1414.9720.85做/做8.734.927.134.935.20这是否7.7815.248.1110.265.37具有29.3516.3418.3419.0129.92如何8.526.5018.5516.8020.00多少15.085.3025.0926.8927.63是31.4121.8638.8537.9641.71是obj。25.7112.8225.8628.9829.87是18.127.2520.0217.9420.49什么17.6822.2320.2637.7945.22什么颜色9.5013.9230.0526.3231.70是什么15.3314.6315.0915.1615.32什么是/是11.265.9119.5116.2822.03什么麻木。5.578.507.947.778.13什么目标是8.2511.9212.2414.5715.79几点3.544.374.903.294.12什么类型18.377.5121.4418.3022.67哪里8.3912.7630.4632.1634.56这14.0317.9415.8520.7220.77谁14.517.8014.7810.0514.92为什么13.846.4619.7317.5620.52别人8.695.709.584.845.02总14.4111.0917.9617.7620.60表2：数据集中每个生成问题的准确度（%）方法VISLSTMv.这表明任何一种组合都将改善结果。此外，结构差异越大，改进越大。4.4.2每个注释问题的性能图6展示了带注释的数据集中每个问题的准确性。该图表明，我们的模型对于诸如“was/is/are”、“could”、“have/has”、“what”和“who”问题是典型有效的对于需要深入推理的问题（例如，4.4.3每个生成问题为了验证我们的问题生成模型，我们评估我们的模型对我们的问题建议。对于每个类别，我们测试100个生成的问题。我们通过人工检查来评估结果。结果示于表2中。在这里，LSTM CNNv和MCBv是标准方法，用作基线，没有其他机制。10072图6：数据集中在LSTM CNNsq和MCBsq中，实现了自我提问机制;然而，只有一个问题回答代理（分别是LSTMCNN或MCB）用于获得结果。最后，我们提出了一种技术，其中实现了自我提问机制，并将LSTM CNN和MCB用作问答代理;在这两个代理生成的结果之间，选择置信度得分较高的一个作为最终结果。该表告诉我们：（1）该模型具有较大的容量，能够通过一般化处理问题。(2)通过这样的问题提议机制，我们的模型获得了改进的推理问题（例如，”how”, ”where”（3）通过LSTM CNNsq和MCBsq两个代理之间的协作学习，与标准方法相比，获得了更好的性能LSTM CNNv和MCBv，并且两个Agt4.4.4问题生成策略不含Qgw/Qg，=0。1w/Qg，=0。4w/Qg，=0。7VIS LSTM+DMN（我们的）58.9259.1461.0862.86表3：不同问题生成策略的准确性（%）为了验证问题生成模型（Qg），我们使用几种不同的设置对其进行评估，如表3所示。从最后三列中，我们观察到当在epsilon-greedy [22]中使用更高的k值时，问题命题将更加多样化，从而提高整体准确性。5. 结论和未来工作本文介绍了一种自问答模式，并基于此思想设计了一个问答系统。我们的TA-Student VQA系统利用一个TA代理（Qg），负责生成信息性问题，和两个学生代理（Agts），回答提出的问题。O模型起到监督的作用，并对前三个模型进行更新，以保证训练阶段的高效。与传统的工作不同，我们的机制克服了每个图像的训练Q/A对有限的障碍，因为我们的系统可以生成不同格式和内容的问题此外，利用两个问答代理（Agt）结合了两种方法的优点，并增加了系统容量。我们的研究结果还表明，这样的自我QA机制不仅在注释数据集上表现得更好，而且对于偏离训练数据分布的问题也表现得很好，从而提高了泛化能力。对这一问题的研究尚处于起步阶段。要解决的一个问题是代理商（Agt）的数量。我们尝试使用两个以上的Agt，但训练阶段的时间成本使其比两个Agt的竞争力更低，因为当尝试说服三方或更多方时，需要更新更多的参数和更多的计算。这为今后的工作指明了方向：提出了一种有效的方法来减少计算量，提高参数更新效率。其次，我们的问题生成代理（Qg），系统实现了改进的性能。因此，我们未来工作的另一个方向是开发一个系统，不仅负责生成虔诚的，多样的，信息丰富的问题，而且可以产生可靠的相应的答案，实现自我标记的VQA。确认这项工作得到了国家科学基金会资助IIS-1619078，IIS-1815561和陆军研究办公室ARO W 911 NF-16-1-0138的部分支持。10073引用[1] S. Antol，A. Agrawal，J. Lu，M.米切尔，D。巴特拉角L. zitnick和D.帕里克VQA：可视化问答。在2015年IEEE计算机视觉国际会议，ICCV 2015，智利圣地亚哥，2015年12月7日日，第2425-2433页一、四、五[2] L.布莱曼把边缘弄弯。技术报告，技术报告486，统计系，加利福尼亚大学。- 是的- 是的，1997年。3[3] D. Britz，A.戈尔迪，M.- T. Luong和Q.乐对神经机器翻译架构的大量探索。在2017年自然语言处理经验方法会议的会议记录中，第1442-2017年。计算语言学协会4[4] R. 你好，H。Ben-Beses，M. Cord和N. 托米MUREL：用于视觉问题回答的多模态关系推理。在IEEE计算机视觉和模式识别会议上，CVPR 2019，长滩，加利福尼亚州，美国，2019年6月16日至20日，第1989-1998页，2019年。1[5] D. Chen 和C.D. 曼宁使用神经网络的快速准确的在Proceedings of the 2014 Conference on Empirical Methodsin Natural Language Processing，EMNLP 2014，October25-29，2014，Doha，Qatar，A meeting of SIGDAT，aSpecial Interest Group of the ACL，pages 740-750，2014中。四、五[6] T. Chen和C. Guestrin. Xgboost：一个可扩展的树提升系统。在第22届ACM SIGKDD知识发现和数据挖掘国际会议集，KDDACM。3[7] X. Chen和C. L.齐特尼克Mind's eye：一种用于图像标题生成的循环视觉表示。在IEEE计算机视觉和模式识别会议，CVPR 2015，Boston，MA，USA，2015年6月7-12日，第24222[8] K. 乔湾，巴西-地 vanMerrienboe r，C. Guülc ehre，D. 巴赫达瑙F.布加雷斯Schwenk和Y.本吉奥。使用RNN编码器-解码器学习短语表示用于统计机器翻译。在Proceedings ofthe 2014 Conference on Empirical Methods in NaturalLanguage Processing，EMNLP 2014，October 25-29，2014，Doha，Qatar，A meeting of SIGDAT，a SpecialInterest Group of the ACL，pages 1724-1734，2014中。2[9] W. Daelemans ， M.Lapata 和 L.各位编辑。 EACL2012，第13届计算语言学协会欧洲分会会议，法国阿维尼翁，2012年4月23-27日。计算机语言学协会，2012年。2[10] H. Fang，S.古普塔F. N.扬多拉河K.斯利瓦斯塔瓦湖邓小平说，P. 多尔，J。Gao、X. 他，M。 M i tagh，J. C. 普拉特角L. Zit-nick和G.茨威格从标题到视觉概念再到后面。在IEEE计算机视觉和模式识别会议，CVPR 2015，波士顿，MA，美国，2015年6月日，第1473-1482页，2015年。2[11]A. Farhadi，S.M. M. Hejrati、M.A. Sadeghi，P.年轻的，C. Rashtchian，J. Hockenmaier和D. A.福赛斯每图片讲述了一个故事：从图像生成句子。计算机视觉-ECCV 2010，第11届欧洲计算机视觉会议，伊拉克利翁，克里特岛，希腊，2010年9月5日至11日，会议记录，第IV部分，第15-29页，2010年。2[12] Y. Freund和R. E.夏皮尔在线学习的决策理论一般化及其在Boosting中的应用。在计算学习理论，第二届欧洲会议，EuroCOLT'95，巴塞罗那，西班牙，1995年3月13-15日，1995年，《会议记录》，第23-37页。3[13] A. 福井D.H. 帕克D。Yang，杨树A.Rohrbach，T.Darrell和M.罗尔巴赫多模态紧凑型双线性池用于可视化问题回答和可视化基础。在2016年自然语言处理经验方法会议（EMNLP 2016，Austin，Texas，USA）上，2016年11月1日至4日，第457-468页，2016年。2[14] A. 福井 D. H. 帕克 D 。 Yang ，杨树 A.Rohrbach ， T.Darrell，M.罗尔巴赫多模态紧凑双线性池的视觉问题回答和视觉接地。arXiv：1606.01847，2016年。6[15] H. Gao，J. Mao，J. Zhou，Z.黄湖，澳-地Wang和W.徐你在跟机器说话吗？多语言图像问题的数据集和方法。神经信息处理系统的进展，第2296-2304页，2015年。1[16] D. Geman，S.Geman，N.Hallonquist和L.尤尼斯计算机视觉系统的视觉图灵测试 Proc. Natl. Acad.Sci. U.S.A. ，112（12）：3618-3623，2015. 1[17] I. J·古德费洛 J. Pouget-Abadie， M. 米尔扎 B. 许、D.沃德-法利，S。奥扎尔A. C. Courville和Y.本吉奥。生成性对抗网。在神经信息处理系统的进展27：2014年神经信息处理系统年会，2014年12月8日至13日，蒙特利尔，魁北克，加拿大，第2672-2680页，2014年。3[18] D. Gurari和K.格劳曼Crowdverge：预测人们是否会同意视觉问题的答案。在2017年CHI计算机系统人为因素会议上，丹佛，CO，美国，2017年5月6日至11日。，第3511-3522页，2017年。1[19] D.古拉里角Li，长穗条锈菌A. J. Stangl，A. Guo，C. Lin，K.格劳曼J. Luo和J. P·比格姆。Vizwiz大挑战：回答盲人的视觉问题。在2018年IEEE计算机视觉和模式识别会议上，CVPR 2018，美国犹他州盐湖城，2018年6月18日至22日，第3608-3617页，2018年。1[20] S. Hochreiter和J.施密特胡博长短期记忆。Neural Computation，9（8）：1735-1780，1997. 2[21] D. A. Hudson和C. D.曼宁GQA：一个用于真实世界视觉推理和组合问题回答的新数据集。在IEEE计算机视觉和专利识别会议上，CVPR 2019，长滩，加利福尼亚州，美国，2019年6月16日至20日，第6700-6709页，2019年。1[22] J. D. Johnson，J. Li，and Z.尘强化学习：介绍：R.S.萨顿巴托，麻省理工学院出版社，剑桥，马萨诸塞州1998年，322页。ISBN 0-262-19398-1。神经计算机，35（1-4）：205-206，2000年。8[23] K. Kafle和C.卡南视觉问题回答的预测器类型预测。在2016年IEEE计算机视觉和模式识别会议上，CVPR2016，美国内华达州拉斯维加斯日，第4976-4984页，2016年。210074[24] R.克里希纳，M。Bernstein和L.飞飞信息最大化可视化问题生成. 在IEEE计算机视觉和模式识别会议上，CVPR 2019，长滩，加利福尼亚州，美国，2019年6月16日至20日，第20082[25] R. Krishna，Y.Zhu，O.Groth，J.约翰逊，K。Hata，J.克拉维茨S. Chen，Y.卡兰蒂迪斯湖Li，D. A. Shamma，M. S.Bernstein和L.飞飞可视化基因组：使用众包的密集图像注释连接语言和视觉。International Journal of ComputerVision，123（1）：321[26] A. 克里热夫斯基岛Sutskever和G.E. 辛顿使用深度卷积神经网络进行图像网通讯员。ACM，60（6）：84-90，2017. 2[27] G. 库尔卡尔尼河谷Premraj，S.Dhar，S.Li，Y.Choi，A.C. Berg和T. L.伯格。婴儿语：理解和生成简单的图像描述。在The 24 th IEEE Conference on Computer Visionand Pattern Recognition ， CVPR 2011 ， ColoradoSprings，CO，USA，2011年6月20-25日，第16012[28] X. Lin和D.帕里克视觉问题回答的主动学习：实证研究。CoRR，abs/1711.01732，2017。2[29] S. Liu，Z. Zhu，N.叶，S。Guadarrama和K.墨菲通过蜘蛛策略梯度优化改进图像字幕。2017年10月在IEEE计算机视觉国际会议（ICCV）上发表。4[30] E. Loper 和 S. 鸟 . Nltk ：自然语言工具包。ACLWorkshop on Effective Tools and Methodologies forTeachingNaturalLanguag

下载后可阅读完整内容，剩余1页未读，立即下载