基于无监督任务发现的视觉问答模型

27 浏览量更新于2023-10-19 收藏 1.6MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1基于无监督任务发现的视觉问答Hyeonwoo Noh1，3Taehoon Kim2，3Jonghwan Mun1，3BohyungHan31计算机视觉实验室。2OpenAI3计算机视觉实验室，ECE ASRI韩国首尔国立大学1 {shgusdngogo，jonghwan.mun}@ postech.ac.kr2carpedm20@gmail.combhhan@snu.ac.kr摘要我们研究了如何利用现成的视觉和语言数据来处理视觉问答任务中的词汇外答案。现有的大规模视觉数据集与注释，如图像类标签，边界框和区域描述是学习丰富和多样的视觉概念的良好来源。然而，由于问题相关回答模型和没有问题的视觉数据之间的链接缺失，如何捕获视觉概念并将其转移到视觉问题回答模型并不简单。我们分两步解决这个问题：1）基于无监督任务发现学习任务条件视觉分类器，该分类器能够解决不同的特定于问题的视觉识别任务; 2）将任务条件视觉分类器转换为视觉问答模型。具体地说，我们采用语言知识源，如结构化词汇数据库（例如，WordNet）和视觉分类器进行无监督任务发现，并将学习到的任务条件视觉分类器作为视觉问答模型中的回答单元。我们的经验表明，该算法推广到词汇表外的答案成功地使用从视觉数据集转移的知识1. 介绍人类对视觉场景的认识和理解是基于各种视觉概念的.例如，从一张椅子的图像中，人类毫不费力地识别出不同的视觉概念，如它的颜色、材料、风格、用途等。这种不同的视觉概念可以与定义每个视觉概念的识别任务的自然语言中的不同问题相关联（例如，椅子是什么颜色的？）.最近，视觉问答（VQA）[5]被提出作为学习深度神经网络模型的努力这项工作是在Devsisters进行的具有执行由问题自适应定义的各种视觉识别任务的能力。VQA的方法依赖于图像、问题和答案三元组的大规模数据集，并训练分类器，将图像和问题作为输入并产生答案。尽管最近取得了显着的进展[3，12，43]，但这个方向有一个关键的限制，即数据集中的图像，问题和答案三元组是学习视觉概念的唯一来源。这样的缺点可能导致缺乏可缩放性，因为三元组可能是由人类注释者以有限的质量控制人工收集的事实上，VQA数据集[1，13]存在固有的偏差，这阻碍了从数据集中学习真正的相反，人类基于从不同来源（如书籍、图片、视频和个人经验）学习的视觉概念来回答问题，这些视觉概念不一定与目标问题相关联。即使对于机器，也存在更自然和可扩展的来源来学习视觉概念：图像类别标签、边界框和图像描述。这些信息已经大规模可用[9，24，22]，并且可以以合理的成本进一步扩展[31，32]。这种观察带来了一个自然的问题;我们是否可以在没有问题注释的情况下学习视觉概念，并将其转移到VQA？为了解决这个问题，我们引入了一个VQA问题与词汇表外的答案，这是在图1所示。外部可视数据集提供了一组标签A和只有这些标签的子集B A出现在VQA序列中-设置为答案。该任务的目标是通过利用从外部视觉数据集学习的视觉概念来成功处理词汇表外的答案a∈ A-B本文研究了如何在无问题的情况下学习视觉概念，以及如何将学习到的概念转换到VQA模型中。为了学习可转移的视觉概念，我们训练了一个任务条件视觉分类器，其任务由任务特征定义。分类器被用作回答单元，其中任务特征从问题推断。训练任务条件视觉分类器，83858386图1. VQA用词汇表外的答案。给定视觉数据集A中的一组标签和VQA训练集B中的一组答案，我们在VQA测试集上评估一个模型，答案为a∈ A-B。外部视觉数据集为VQA训练集和测试集中的所有答案提供了一组边界框标签和视觉描述。详情见正文任务注释，我们提出了一种基于语言知识源的无监督任务发现技术，例如结构化词汇数据库，WordNet [10]和区域描述[22]。我们声称，所提出的迁移学习框架有助于在VQA与词汇表外的答案泛化。本文的主要贡献有三个方面：• 提出了一种基于任务条件视觉分类器的视觉问答迁移学习算法。• 我们提出了一个无监督的任务发现技术学习任务条件视觉分类器没有明确的任务注释。• 我们表明，所提出的方法处理词汇表外的答案，通过知识转移从视觉数据集没有问题的注释。本文的其余部分组织如下。第2节讨论了与我们的方法相关的先前工作。我们在第3节中描述了整体迁移学习框架。通过无监督任务发现学习视觉概念在第4节中描述。第五节对实验结果进行了分析，第六节给出了我们的结论.2. 相关作品标准VQA评估假设训练集和测试集分布相同[5，29，45]。由于这种评估设置被证明容易受到利用训练集[13]中的偏差的模型的影响，因此提出了几种替代方案。一种方法是通过平衡各个问题的答案来减少观察到的偏差[13]，或者通过故意提供不同的偏差来训练和测试集[1]。另一种方法是构建合成概括分裂[2，18]，其测试集中的问题和答案对由视觉概念的新颖组合形成，出现在训练集中的问题类型。这种分割是通过重新利用现有的VQA数据集[2]或通过构建合成数据集[18]来构建的。本文研究的问题设置与[19，36]类似，因为词汇表外的答案用于测试，但与之前的工作不同，我们将问题制定为迁移学习，其中词汇表外的答案是从外部视觉数据中学习的为了更好地通用化，VQA经常使用外部数据在ImageNet [9]上预训练的卷积神经网络[15，23]是各种VQA模型[12，43]的广泛接受的标准。作为替代方案，使用在Visual Genome数据集[22]上训练的对象检测器[34]来提取预训练的视觉特征[3]。预训练的语言模型，如单词嵌入[33]或句子嵌入[21]经常用于初始化问题编码器的参数[12，30，35]。在[39，40，41]中研究了从知识库[6，7]或外部视觉算法[40]中检索信息以向VQA模型提供额外输入VQA数据集之间的传输在[16]中进行了研究。在VQA模型和图像分类器之间共享对齐的图像-单词表示已经在[14]中提出，以利用外部视觉数据。在VQA中几乎没有研究从外部数据迁移学习以应对词汇外的单词，但在新对象字幕中进行了积极的研究[4，28，37，44]。例如，[4]和[37]将图像captioning任务分解为视觉分类和语言建模，并利用不成对的视觉和语言数据作为额外的资源来分别训练视觉分类器和语言模型。最近的方法结合了指针网络[38]并学习指向单词候选日期的索引[44]或相关区域[28]，其中单词候选由多标签分类器[44]或使用外部视觉数据训练的对象检测器[28然而，这些算法并不直接适用于8387θ，φ图2. 所提出的算法概述。（a）无监督任务发现对采样的视觉数据的任务规范进行采样（a，I，b），其中I、b和a分别是图像、边界框和标签（答案）。它利用语言知识源，如视觉描述和WordNet。(b)采用具有任务规范的视觉数据（由（a，I，b，t）表示）来预训练任务条件视觉分类器。(c)将预训练的任务条件视觉分类器转移到VQA，并冻结参数。注意力层和问题编码器是从VQA数据集从头开始学习的标签和答案这两个术语可以互换使用我们的问题设置，因为他们专注于预测目标词没有任务规范，而任务条件视觉识别是需要VQA。我们的问题设置与零射击学习密切相关[11，17，25，26，42]，其中在分类中考虑词汇外的答案。零射击学习旨在识别在训练过程中看不到的对象或类由于它旨在推广到完全看不见的类，因此严格禁止在训练期间暴露于零射击类[42]。相反，我们的目标是利用外部数据集中可用的类标签。3. 迁移学习框架我们工作的主要目标是通过从现成的视觉数据集中学习视觉概念并将概念转移到VQA来回答问题，从而处理VQA可以被认为是一个任务条件分类问题，其中任务由问题定义，受此启发，我们引入了一个a∈[0，1]l，其中术语答案和标签基于下文的上下文可互换地使用。该分类器用一个参数为θ的神经网络来描述一个条件分布p θ（a|v，τ）。注意，两个输入v和τ通常由编码器vφ（·）和τn（·）获得。在所提出的迁移学习场景中，任务控制-视觉分类器是用现成的视觉数据集预先训练的，例如，Visual Genome [22]，并转移到VQA。在预训练阶段，联合学习分类器和两个特征编码器θ、φpre和ηpre的参数。该阶段允许任务条件视觉分类器通过学习任务特征τ来处理不同的视觉识别任务。通过重用参数θ和自适应新的编码器vφvqa（·）和将τηvqa（·）映射到学习的任务条件视觉分类器r。3.2. 预训练学习任务条件视觉分类器自然地被公式化为最大化以下预期对数似然的问题：任务条件视觉分类器，其生成答案从视觉输入和任务规范，作为学习和转移视觉概念的媒介。图2-∗ ∗预∗预 = argmaxEpDθ，φpre，η preΣlogp θ（a|vφ预（I，b），η预Σ(t))、阐明了拟议办法的总体框架。我们通过无监督的任务发现，使用没有问题或任务规范的视觉数据集来预训练任务条件视觉分类器，并通过传递学习到的参数来使其适应VQA模型。在本节的其余部分，我们将描述任务条件视觉分类器以及它是如何预训练和转移到VQA的。3.1.任务条件视觉分类器任务条件视觉分类器是一个函数，它取视觉特征v∈Rd和任务特征τ∈Rk，并产生答案或标签的概率分布（一）其中vφpre（I，b）是基于图像I和边界框b的视觉特征，并且τηpre（t）是从任务规范t编码的任务特征，a是从数据分布采样的答案并且它满足a∈A，并且{θ，φpre，ηpre}是模型参数。我们使用一个可学习的注意力网络来获得vφpre（I，b），该网络由φpre参数化，货架特征提取器[3]，其中边界框位置b被用作注意力的关键在Eq.（1）需要一个联合分布pD（a，I，b，t），在我们的设置中的外部数据集中不可访问，到缺少任务规范t. 第4节描述了如何使用可视化的，η8388QQQQQQ监管不力的根源。我们优化间接损失−Eτ（a|v）[logpθ（a|（v），（v），（v以τ_n和τ_n为条件的swer分布VQA （q）拟─ilar。通过假设真实任务条件答案分布，布申τα|v）在VQA数据集中隐式建模，我们采用Eq.（2）作为弱监督任务回归的目标函数。图3. 具有两种不同语言知识源的无监督任务发现。（a）对于视觉描述，通过将描述中的视觉词（标签）替换为空白来生成任务规范。(b)对于WordNet，任务规范是来自标签上位词之一我们使用反向词集从输入标签中抽取同义词集。详情见第4注释和语言知识源。3.3. VQA的迁移学习如图2所示，所提出的VQA模型包含任务条件视觉分类器p θ（a|v，τ）。预训练的视觉概念通过共享学习的参数θ被转移到VQA。然后，学习VQA模型现在被公式化为学习p θ（a）的输入表示v和τ|v，τ），由下式给出：我们通过调整输入表示来学习VQA模型，同时固定预训练的任务条件视觉分类器p θ（a|v，τ）。该策略允许模型专注于学习从问题推断视觉识别任务τηvqa（q），这不需要所有可能答案的数据一旦推断出任务特征τ，则学习到的任务条件视觉分类器p θ（a|v，τ）可以回答预先训练的视觉概念，包括词汇表外的视觉概念。匹配视觉特征为了在VQA中重用预训练的视觉分类器而无需微调，视觉特征v的语义不应通过使用VQA数据集进行学习而改变。这在最近的VQA模型方法中得到了实现，这些方法没有微调预训练的视觉特征提取器，而是专注于在提取的特征图上学习注意力机制[20]在我们的设置中，我们简单地使用相同的视觉特征提取器[3]进行预训练和VQA。4. 无监督任务发现使用现成的视觉数据集[22]学习任务条件视觉分类器并不简单，因为缺少任务规范的注释，这是必要的。∗VQA∗VQA= argmaxEφvqa，η vqa普夫卡Σlogp θ（a|vφvqaΣ（I， q），τηvqa（q）），学习用于任务规范向量τ的编码器。为了解决这个问题，我们提出了无监督的任务发现（二）其中vφvqa（I，q）是使用具有参数φvqa的注意力机制和现成特征提取器的具有图像I和问题q的编码视觉特征[3]。任务特征ηvqa（q）使用参数ηvqa对问题q进行编码。VQA的训练数据集的联合分布pvqa（a，I，q）是优化所必需的，其中来自该分布的答案满足a∈ A-B。我们通过最大化目标的可能性来学习φvqa和ηvqa，当量（2）当预训练的任务条件视觉分类器θ的参数保持固定时。弱监督任务回归利用预训练的任务条件视觉分类器进行由问题q指定的视觉识别，需要推断最佳任务特征τn。此要求引入了一个优化编码器的学习问题-任务回归其从通过利用语言知识源建模的任务分布中采样任务规范T。4.1. 利用语言知识来源由问题给出的视觉识别任务通常定义从视觉输入到一组可能的视觉概念（即，词组）的映射。例如，一个问题定义了视觉识别，在图像中找到可保持的对象的认知任务，其是在词组上的分类 { 球、球拍、杯子、 .{\fn 方正粗倩简体\fs12\b1\bord1\shad1\3cH2F2F2F} 这种直觉导致了一种简单的方法来建模任务描述t的分布，将任务视为一个词组（即，可保持的物体）。使用语言知识源进行无监督任务发现的主要原因是，词组通常在语言中是可访问的。知识来源。我们考虑两种语言知识腾冲（q）预测ττ正确因为我直接-来源：1）提供视觉数据最小化误差E（τn，τnVQA （q））需要额外的监督-2）一个结构化的词汇数据库WordNet [10]。关于这些任务，我们转而利用VQA数据，如图3所示，概述了我们的方法。φ，η8389任务测试词组appliance.n.02 冰箱，吹风机，冰箱，冰箱，烤箱，洗碗机，洗衣机，.opening.n.10人孔，后窗，出口，喷嘴，车窗，投币口，喷口，通风口，.food.n.02土豆，炸薯条，鸡肉，融化的奶酪，番茄，香肠，蔬菜，.move.v.03扭曲的，褶皱的，弯曲的，弯曲的，轮状的，滚动的，盘绕的，转动的，波纹的，.act.n.02钓鱼、滑板、航海、打棒球、冲浪、旅行、开车.area.n.01中间，在角落，中心，停车位，操场，景观，邻里，.color.n.01黄色，粉红色，红色，米色，皇家蓝，琥珀色，水绿色，暗红色，橄榄绿，蓝绿色，...图4. WordNet的插图和构建的单词组表。（左）WordNet的子图[10]。词的复杂层次结构揭示了每个词的不同分类。（右）在树中共享共同父项的一组单词被分组为单个单词组。不同的词分组揭示了不同的视觉识别任务，可以定义在每个词组。4.2. 视觉描述我们使用Visual Genome [22]作为现成的可视化数据集，它确定了数据分布pV（a，I，b，d）基于一组四元组（a，I，b，d），包括视觉描述D. 该数据集中的描述旨在明确提及答案a，以便答案和描述之间的关系清晰。为此，我们定义了任务规范td，将视觉描述中的答案替换为一个特殊的词blank>，形式上表示为td=ρ（d，a），其中ρ（d，a）是生成空白描述的函数。td中的子脚本意味着基于视觉描述提取任务规范根据这一定义，关节脱位tribution，pD（a，I，b，td）=p（a，I，b，td，d）dd，带任务规格由下式给出：p（a，I，b，td，d）=p（td|d，a）p V（a，I，b，d）（3）这个词的上位词在孩子。在WordNet中，我们将任务规范定义为多个单词的共同祖先节点的同义词集，因为共享共同祖先的单词集合构成单词组，并且单词组还可以定义视觉识别任务。图3b中示出了基于WordNet和可视数据（a，I，b，d）对任务规范tw进行该过程的主要思想是建立一个以答案p（tw ）为条件的任务分配模型|a）作为答案所属的可能词组上的统一分布，其中任务说明tw是词组中单词的共同代表。对分布p（tw ）进行建模|a）需要两个阶段：1）构建词组表，其将任务规范映射到词组，2)构建一个倒排词组表，将一个答案词映射到一组任务规范。倒排词组表用于检索一组可能的任务.Σ其中p（td|d，a）=δtd，ρ（d，a）是δ函数，答案a和分布p（tw ）的规格|a）、是任务规格的均匀分布，如果两个输入相同则返回1，否则返回0。就像-如图3a所示，我们通过首先采样视觉数据（a，I，b，d），然后从p（t d）中采样任务规范td，来采样预训练（a，I，b，t w）所需的数据|d，a）。该过程也导致采样描述d但是当我们预训练任务相关视觉分类器时，我们不关心它。对于预训练，我们基于门控递归单元[8]将td编码为任务特征τnpre（td），因为td是一个单词序列。对任务使用空白描述的主要原因规范的一个优点是定义一组候选词是有效的例如，一个空白的描述“一个人正在举行-ing“将空白的候选词限制为一个集合of objects对象that can be holded持有.因此，空白的描述可以用于隐式地确定表示视觉识别任务的词组。4.3. WordNetWordNet [10]是一个词汇数据库，用一个被消除歧义的词实体的有向非循环图表示，称为同义词集。WordNet的示例子图如图4（左）所示。该图表示单词的层次结构，其中节点的父节点对应于集 G iv endi stit|a），联合分布，pD（a，I，b，tw）=p（a，I，b，tw，d）dd，由下式给出：p（a，I，b，tw，d）=p（tw|a）p V（a，I，b，d）.（四）因此，我们从可视化数据集中采样四元组（a，I，b，d），并随后采样任务规范。虽然此过程也对描述进行了采样对于预训练，我们基于从头开始学习的词嵌入函数将tw编码到任务规范向量τηpre（tw）通过选择WordNet中节点的同义词集作为任务规范tw并将其映射到与其所有后代相对应的单词集（单词组）来构造单词组表任何词组都可以被定义，而不管它在WordNet层次结构中的级别和它的成员的词性;最大的词组包含WordNet中的所有词，并且其任务规范对应于WordNet的根。我们在图4中举例说明了构建的单词组表。倒排词组表的构造方式与词组表的倒排索引类似，但映射的范围不是一组索引，而是一组任务规范。8390图5. 模型比较。利用外部数据与无监督的任务发现显着提高所提出的模型和可分离的分类器的性能，而可分离的分类器显示有限的增益属性答案与大的变化。图6. 数据比较。使用视觉描述和WordNet显示不同的泛化特性，并将它们结合起来带来额外的改进。图7. 数据的互补特征。视觉描述和WordNet在不同答案的VQA得分方面表现出互补性。5. 实验我们评估如何有效地利用所提出的框架的外部数据没有问题来回答视觉问答词汇表外的话我们将所提出的方法与配备了零拍摄图像分类[11]和新对象字幕[4，37]的基线进行了比较，这些基线与所提出的问题有关。我们还分析了所使用任务回归值得注意的是，评估设置与零射击学习文献[42]不可比较，因为我们的目标不是推广到完全看不见的类，而是利用外部数据中暴露的类标签。我们开源了实验中使用的所有代码和数据集，以便于复制本文中的结果1。5.1. 数据集预训练我们学习Visual Genome数据集中最常见的3，000个对象和1，000个属性的视觉概念[22]。为了预训练任务条件视觉分类器，我们构造外部视觉数据与绑定框注释，这是提供区域de-tensioning。然后，从区域描述中提取视觉词（答案）以构建视觉数据四元组（a，I，b，d）。我们使用80，602张图像中的1，169，708个区域来构建训练数据。为了使用WordNet[10]，我们使用来自Vi- sual Genome数据集的同义词集注释将视觉单词映射到同义词集，并且使用Textblob[27]将注释未覆盖的单词映射到同义词集数据集构建我们重新使用VQA v2数据集来构建训练/测试分割，如图1所示。我们使用VQA v2的训练和验证集。确保预训练，并可视化问题之间的映射通过弱监督学习的1https://github.com/HyeonwooNoh/vqa任务发现8391图8. 词汇表外的答案与不同类型的概念。绿色表示正确答案。所有预测的答案都来自词汇表外的答案。所提出的模型成功地预测不同的词汇答案取决于问题。表1. 弱监督任务发现的结果。我们检索的问题，每个任务规范的基础上与任务特征的相似性得分。结果表明，适当的任务规格从每个问题回归。请注意，没有明确的监督用于学习问题和任务规范之间的映射。任务规格tw问题有机工艺运动游戏时间段工具.n.01头发长颈鹿在做什么？动物们在做什么？/这张照片里的长颈鹿在做什么？显示的是什么类型的运动球？/男子参加什么运动？猫坐在哪件家具上？猫坐在什么家具上？动物吃什么水果？柜台上有什么果汁现在是什么季节？这是什么季节？现在是什么节日？现在是什么季节？这个人手里拿的是什么器具？/什么器具放在面包旁边？那个冲浪者是什么发型？这个人是什么发型？每个词汇表外的答案都出现在预训练期间，我们从用于预训练的所有视觉词中随机选择词汇表外的答案（3，813个中的954个）。由于我们专注于视觉词汇的可转移性，因此在我们的评估中不考虑关于是/否和数字的答案。基于所选的词汇表外答案，我们生成3个问题分割-462，788用于训练，51，421用于验证，20，802用于测试。训练和验证部分不包含词汇表外答案，而测试部分仅包含词汇表外答案为了评估模型，我们遵循标准VQA协议，每个问题有10个真实答案[5]。5.2. 基线由于利用外部视觉数据回答具有词汇表外答案的视觉问题几乎没有被探索过，因此没有适当的评估基准，我们采用以下基线与我们的算法进行比较：1）答案嵌入，其采用来自零拍摄图像分类[11]的思想，该零拍摄图像分类学习从视觉特征到预训练答案嵌入的映射，其中我们使用GloVe [33]来嵌入每个答案，以及2）可分离分类器，其采用来自新颖对象字幕[4，37]的思想，该新颖对象字幕[4，37]分别学习视觉和语言分类器，并通过对数的元素和将它们组合在一起。这是联合推理。请注意，可分离分类器和我们提出的模型是用相同的数据训练的。5.3. 结果模型比较图5显示了模型与基线的比较结果。对于这个实验，我们用6个不同的随机种子执行VQA适应，并绘制它们的平均值和标准差。标准VQA模型不能预测任何词汇表外的答案（即，0 VQA评分），因为没有用于推断词汇表外答案的线索。答案嵌入基线通过利用答案词在嵌入空间中的相似性而稍微好一点，但改进是边际的。使用现成的视觉数据和任务规范，阳离子从语言知识源显着提高-证明性能的可分离分类器和建议的模型。然而，独立考虑视觉数据和任务规格的可分离分类器有一个关键的限制，建模任务规格和视觉特征之间的联合交互。特别是，该基线显示属性答案的性能显著降低，属性答案根据任务而具有显著变化请注意，VQA训练集中的偏倚不能在拟定的评价设置中使用，因为评价仅使用分布外的答案进行。数据比较图6说明了我们算法中不同语言来源分别使用视觉描述和WordNet学习的两个模型具有互补的特征，并且通过利用这两种数据实现了额外的改进。更详细的介绍-8392图9. 结合VQA和外部视觉数据的知识。测试集上的评估结果包含词汇外答案和训练答案。该模型在训练答案上表现出相对较低的性能，但在词汇表外的答案上表现得更好。总的来说，所提出的模型表现出最好的性能。图7中展示了模型的特征，其中我们可视化了20个答案的平均VQA得分。定性结果图8显示了所提出的模型的预测答案的示例。所提出的模型正确地预测出的词汇答案的问题，要求不同的视觉概念，如类型的地板，材料，类型的运动和品牌。弱监督任务回归考虑到从WordNet模型中提取的任务规范不同的视觉识别任务，将它们与相关问题进行匹配对于VQA数据的分类和模型解释是有用的。当我们通过任务回归学习VQA模型时，可以通过比较编码的任务来执行这种匹配。在实验中，测试集还包含训练答案，其包括逻辑答案、数字和视觉词。词汇表外答案的列表与主实验的列表相同在172，681个测试问题中，有103，013个问题只能用培训答案回答。为了将来自VQA数据集的知识与外部视觉数据相结合，我们学习了一个带有两个任务相关视觉分类器的VQA模型;我们微调一个分类器以适应需要视觉推理的答案（即，数字和是/否），并为包括词汇表外答案在内的可视答案修复另一个分类器在训练VQA模型后，我们通过元素求和将两个logit组合起来，并选择推理中得分最高的答案。结果示于图9中。模型在每个问题特征τηVQA （q）和来自任务方法用6种不同的随机种子训练，规格τη预（tw）。对于每个τη预（tw），我们排序ques-绘制平均值和标准偏差。总的来说，亲-按点积相似性的降序排列的选项是-模型表现最好。虽然标准的VQA吐温预（tw）和τnVQA （q）。在排序问题列表中，模型在训练答案时达到最佳性能，大多数类似的问题可见于表1。可视化表明，弱监督任务回归成功地训练了一个问题编码器，该编码器将问题与相关任务特征相匹配。5.4. 结合VQA虽然我们专注于从外部视觉数据中学习视觉概念，但VQA数据集仍然是学习各种知识的宝贵来源。特别是，有些答案不是视觉文字，需要视觉推理。例如，是和否是VQA数据集中最常见的答案之一[5]，但仅使用外部视觉数据来学习这些答案并不简单。因此，我们考虑将从VQA数据集和外部视觉数据中学习到的知识结合起来。我们构建了一个VQA数据集的分裂，包括405，228个训练，37，031个验证和172，681个测试问题。训练和验证集不包含任何词汇表外答案，测试集包含词汇表外答案。然而，与主要的前-它无法预测任何词汇表外的答案。安-SWER嵌入基线在一定程度上推广到词汇表外答案，但答案嵌入中的约束降低了其在训练集答案上的性能。6. 结论我们提出了一种迁移学习的方法，视觉问题回答与词汇外的答案。我们预先训练的任务条件视觉分类器与现成的视觉和语言数据的基础上，无监督的任务dis细化。预训练任务条件视觉分类器自适应地转移到VQA。实验结果表明，利用外部视觉和语言数据提高了性能，在所提出的设置和训练与无监督的任务发现是重要的模型之间的相互作用的视觉特征和任务规范。鸣谢本研究得到了MSIP/IITP资助的 Kakao 和KakaoBrain 以及韩国 ICT 研发项目的部分支持 [2016-0-00563，2017-0-01778]。8393引用[1] Aishwarya Agrawal、Dhruv Batra、Devi Parikh和Aniruddha Kembhavi。不要只是假设;查看和回答：克服视觉问题回答的先验知识。在CVPR，2018年。一、二[2] Aishwarya Agrawal，Aniruddha Kembhavi，DhruvBatra，and Devi Parikh. C-VQA：视觉问题分类（VQA）v1的组成部分。0数据集。arXiv预印本arXiv：1704.08243，2017。2[3] Peter Anderson ， Xiaodong He ， Chris Buehler ，Damien Teney，Mark Johnson，Stephen Gould，and Lei Zhang.自下而上和自上而下关注图像字幕和视觉提问。在CVPR，2018年。一、二、三、四[4] Lisa Anne Hendricks ， Subhashini Venugopalan ，Marcus Rohrbach ， Raymond Mooney ， KateSaenko ， Trevor Darrell ， Junhua Mao ， JonathanHuang，Alexan- der Toshev，Oana Camburu，et al.深度复合字幕：在没有成对训练数据的情况下描述新的对象类别。在CVPR，2016年。二六七[5] Stanislaw Antol，Aishwarya Agrawal，Jiasen Lu，Mar-Martt Mitchell ， Dhruv Batra ， C LawrenceZitnick，and Devi Parikh.VQA：可视化问答。在ICCV，2015年。一、二、七、八[6] SohenAuer ， ChristianBizer ， Geor giKobilarov ，JensLehmann，Richard Cyganiak和Zachary Ives。DB- pedia：开放数据网络的核心. 语义网，第722-735页。Springer，2007. 2[7] Kurt Bollacker，Colin Evans，Praveen Paritosh，Tim Sturge，and Jamie Taylor. Freebase：一个用于构建人类知识的协作创建的图形数据库在ACMSIGMOD国际数据管理会议上，2008年。2[8] Junyoung Chung 、 Caglar Gulcehre 、 KyungHyunCho和Yoshua Bengio。门控递归神经网络在序列建模中的经验评估。 arXiv 预印本 arXiv ：1412.3555，2014。5[9] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，Kai Li，and Li Fei-Fei. ImageNet：一个大规模的层次化图像数据库。CVPR，2009。一、二[10] 克里斯蒂安·费尔鲍姆WordNet：一个电子词汇数据库。Bradford Books，1998. 二、四、五、六[11] Andrea Frome ， Greg S Corrado ， Jon Shlens ，Samy Bengio，Jeff Dean，Tomas Mikolov，et al.DeViSE：一种深度视觉语义嵌入模型。在NIPS，2013年。三六七[12] Akira Fukui ， Dong Huk Park ， Daylen Yang ，Anna Rohrbach ， Trevor Darrell ， and MarcusRohrbach.用于可视化的8394问题回答和视觉接地。在EMNLP，2016. 一、二[13] Yash Goyal ， Tejas Khot ， Douglas Summers-Stay，Dhruv Batra，Devi Parikh.使VQA中的V重要：提升图像理解在视觉问题解决中的作用在CVPR，2017年。一、二[14] Tanmay Gupta 、 Kevin Shih 、 Saurabh Singh 和Derek Hoiem。对齐的图像-单词表征改善视觉-语言任务之间的归纳迁移。在CVPR，2017年。2[15] Kaiming He，Xiangyu Zhang，Shaoying Ren，and Jian Sun.用于图像识别的深度残差学习。在CVPR，2016年。2[16] 胡鹤翔，赵伟伦，沙飞。学习答案嵌入的视觉提问。在CVPR，2018年。2[17] 黄胜，穆罕默德·埃尔侯赛尼，艾哈迈德·埃尔-加马勒，杨丹.学习Hypergraph-正则化属性预测器。CVPR，2015。3[18] Justin Johnson，Bharath Hariharan，Laurens vander Maaten ， Li Fei-Fei ， C Lawrence Zitnick ，and Ross Girshick. CLEVR：一个用于组合语言和基本视觉推理的诊断数据集。在CVPR，2017年。2[19] 库沙尔·卡夫勒，布莱恩·普莱斯，斯科特·科恩，克里斯托·菲尔·卡南. DVQA：通过提问理解数据可视化。在CVPR，2018年。2[20] Jin-Hwa Kim 、 Kyoung-Woon On 、 WoosangLim 、 Jeonghee Kim 、 Jung-Woo Ha 和 Byoung-Tak Zhang 。低秩双线性池的 Hadamard 积。ICLR，2016年。4[21] RyanKiros，YukunZhu，RuslanSalakhutdinov ， Richard S Zemel ， AntonioTorralba，Raquel Urtasun，and Sanja Fidler.跳跃思维向量2015年，在NIPS中。2[22] RanjayKrishna，Yuke Zhu，Oliver Groth，JustinJohn son，Kenji Hata，Joshua Kravitz，StephanieChen ， Yannis Kalantidis ， Li-Jia Li ， David AShamma，et al.视觉基因组：使用众包密集图像注释连接语言和视觉。IJCV，123（1）：32-73，2017。一、二、三、四、五、六[23] Alex Krizhevsky，Ilya Sutskever，和Geoffrey EHin-ton. 图像网分类与深度卷积神经网络。NIPS，2012年。2[24] Alina Kuznetsova、Hassan Rom、Neil Alldrin、Jasper Uijlings、Ivan Krasin、Jordi Pont-Tuset、ShahabKa-mali 、 StefanPopov 、 MatteoMalloci、Tom Duerig和Vittorio Ferrari。开放影像数据集V4：统一的图像分类，目标检测，和视觉关系检测的规模。 arXiv 预印本 arXiv ：1811.00982，2018。18395[25] Christoph H Lampert，Hannes Nickisch，andStefan Harmeling.基于属性的零分类镜头视觉对象分类。TPAMI，2014年。3[26] Hugo Larochelle、Dumitru Erhan和YoshuaBengio。零数据学习新任务在AAAI，2008年。3[27] 史蒂文·洛里亚。TextBlob：简化的文本处理。http://textblob.readthedocs.io/en/dev/，2018. 6[28] Jiasen Lu，Jianwei Yang，Dhruv Batra，and DeviParikh.神经宝宝谈话在CVPR，2018年。2[29] 马特乌斯·马林诺夫斯基和马里奥·弗里茨一种基于不确定输入的真实场景多世界问题检索方法。在NIPS，2014。2[30] HyeonwooNoh ， Paul HongsuckSeo ， andBohyung Han.基于动态参数预测卷积神经网络的图像问题回答在CVPR，2016年。2[31] Dim P Papadopoulos 、Jasper RR Uijlings、 FrankKeller和Vittorio Ferrari。我们不需要边界框：训练对象类检测器只使用人工验证。在CVPR，2016年。1[32] Dim P Papadopoulos 、Jasper RR Uijlings、 FrankKeller和Vittorio Ferrari。极端点击效率对象注释.InICCV，2017. 1[33] 杰弗里·彭宁顿理查德·索彻克里斯托弗·曼宁Glove：Global Vectors for Word Representation.在EMNLP，2014年。二、七[34] 任少卿、何开明、罗斯·格尔希克、孙健。更快的R-CNN：用区域建议网络实现实时目标检测。2015年，在NIPS中。2[35] Damien Teney，Peter Anderson，Xiaodong He，and Anton van den Hengel.可视化问答的提示和技巧：从2017年的挑战中学习。在CVPR，2018年。2[36] 达米安·特尼和安东·范登亨格尔。零射击视觉问题分类. arXiv预印本arXiv：1611.05546，2016。2[37] Subhashini Venugopalan ， Lisa Anne Hendricks ，Marcus Rohrbach ， Raymond Moo

下载后可阅读完整内容，剩余1页未读，立即下载