面向视觉推理的Web监督知识嵌入模型

47 浏览量更新于2023-10-23 收藏 896KB PDF 举报

图像描述

弱监督学习

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

12445面向视觉推理的Web监督知识嵌入模型郑文波1，2兰艳2，4苟超3*王飞跃2，41西安交通大学软件工程学院2中国科学院自动化研究所复杂系统管理与控制国家重点实验室3中山大学4中国科学zwb2017@stu.xjtu.edu.cn yanlan2017@ia.ac.cn gouchao@mail.sysu.edu.cn feiyue.wang @ ia.ac.cn摘要完全注释的数据集Web图像视觉图像和自然语言描述之间的视觉推理是计算机视觉领域的一个长期挑战虽然最近的方法通过组合性或关系计算提供了很大的希望，但它们中的大多数都受到了训练数据集的挑战，这些数据集只包含有限数量的图像和地面真实文本。此外，通过注释数百万幅图像来构建更大的数据集问：还有其他的东西吗？问：有多少其他的东西和棕色的东西形状一样，有同样的大物体？A：是和发光物体一样大吗A：1问：水是什么颜色的问：右边的云玻璃是什么颜色的？就像时钟一样。问：还有其他的东西吗？问：有多少其他的东西和棕色的东西形状一样，有同样的大物体？A：是和发光物体一样大吗A：6问：水是什么颜色的问：右边的云玻璃是什么颜色的？就像时钟一样。文字描述很可能会导致双-碗？ A：白色A：是碗？ A：白色A：是ased模型受大多数成功的网络监督学习的启发，我们利用现成的网络图像及其噪声注释来学习鲁棒的表示。我们的核心思想是在网络图像和相应的标签以及完全注释的数据集上进行知识嵌入学习。我们提出了一个两阶段的任务，可以增加知识，通过一个有效的嵌入模型与弱监督的Web数据的方法。该方法不仅学习基于知识的嵌入从关键值记忆网络，使联合和充分利用文本和视觉信息，但也利用知识，以提高性能与基于知识的表示学习，适用于其他一般的推理任务。实验结果表明，与现有方法相比，该方法显著提高了性能，保证了模型对视觉推理任务和其他推理任务的鲁棒性1. 介绍视觉推理需要一个强大的模型来学习关系计算以及组合性和泛化能力，即，理解和回答复合词* 郭超为通讯作者。图1. Visual Reasoning Task视觉推理任务剩下的样本（图像及其问题）来自完全注释的数据集。正确的样本（图像及其问题）来自弱注释数据集。当输入相应的样本时，答案是我们模型的输出。没有见过类似的语义组合之前[10，20，21，31]。此外，视觉推理任务，即询问关于图像的问题的一般任务，具有其自己的数据集，其一般集中于询问关于图像的一系列简单问题，通常一眼就能回答。图示的示例如图1所示。成功的视觉推理任务与图像文本（问题，答案）对从手标记的图像数据集（例如，GQA [16]，CLEVR[19]）已经通过以监督学习的形式训练联合嵌入模型来实现。虽然这些数据集覆盖了大量图像（例如，在GQA中约为20 M，在CLEVR中约为100 K），使用图像-文本对来创建更大的数据集是劳动密集型的，并且是困难的[17]。此外，通常只有有限数量的用户才能注释训练图像，这可能导致模型有偏差[25，35]。因此，尽管这些数据集提供了方便的建模假设，但考虑到人类可以进行的大量丰富描述，12446训练集2（Web图像和噪声文本标记）……问：还有别的吗？问：云的形状和大物体的颜色一样吗？是的，那件衣服呢？A：是知识嵌入在视觉推理图2.我们的论文的开放世界设置。我们专注于使用干净的图像和地面真实文本学习鲁棒的知识嵌入，并通过利用网络图像及其噪声相关标签来更新这种学习。在这个过程中，潜在空间通过我们的网络数据集的图像和文本描述进行学习和测试。起来因此，在开放世界环境下，应用在基准数据集上具有优异性能的训练模型可能无法满足其他视觉推理任务的良好泛化要求。带有噪声标签的图像流很容易从数据集中获得考虑到大量的Web图像，开发一个有效的视觉推理系统可能是鲁棒的。然而，它可能会增加模糊性和减少使用弱注释图像的概率。基于上述观察，我们在本文中提出了一个基本问题：可以充分利用大量的噪声注释的网络图像与完全注释的图像，以学习更好的联合知识嵌入视觉推理？图2显示了此场景的说明。在这项工作中，我们专注于如何合理和谨慎地使用Web图像开发一个强大的视觉推理系统。我们提出了一种新的机制和框架，可以通过一个有用的嵌入模型与弱监督的Web数据来增强知识在视觉推理任务中，我们的方法总是优于以前的方法。它揭示了有效地学习大规模Web数据的重要性，我们希望并相信我们的工作能为研究者提供一些启示.1.1. 我们的方法概述在视觉推理任务中，我们提出了一种新颖、有效、鲁棒的互调知识记忆嵌入视觉推理模型，该模型在整个推理过程中充分利用知识。在这项工作中，我们的目标是改善联合嵌入，这是由图像和文本（问题，地面真相答案）的描述，使用带有噪声标签的Web图像进行然而，在嵌入训练过程中，我们将web图像-标签对与图像-文本（问题，地面-事实答案）对结合起来是很重要的，因为它们之间文本描述和标记表示。为了弥合这一差距，我们提出了一个两阶段的方法来学习联合图像-文本的表示。在第一阶段，我们利用了来自一个数据集的可用的干净的图像-文本（问题，地面真相答案）对，在一个监督的公式。特别地，我们首先设计了一个能够学习文本和视觉信息的先验知识表示的键值记忆网络，然后我们获得基于知识的问题信息的嵌入。接着，我们更新互调制以获得基于网络的问题信息。最后，我们的框架将基于知识的表示与基于网络的问题信息的嵌入相关联。在阶段II中，我们使用来自网络的弱注释图像标签对来更新先前学习的基于知识的表示（例如，Google Photo）. 到这个阶段，我们可以从我们更好的视觉推理系统中转移弱注释图像的知识。1.2. 我们的贡献在本文中，我们提出了一个新颖而实用的问题针对上述问题，我们的主要贡献如下：我们提出了一种网络监督的方法来学习鲁棒的基于知识的表示，其中我们利用来自干净数据集的图像-文本描述和来自网络的带有噪声标签的网络图像。针对视觉推理任务，提出了一种有效的、鲁棒的互调制知识嵌入记忆模型。我们设计了基于知识的表示学习，使我们的模型具有推广到其他推理任务的能力实验结果表明，该方法具有较强的鲁棒性，在两个基准测试中，特别是在demon-Train Set1（带有清晰文本描述的图像）……问：还有别的吗？问：和云一样形状的物体的颜色和大物体的颜色一样吗？A：是的，时钟。A：是测试图像...问：有多少其他棕色的东西与发光的物体大小相同？A：112447平均准确率为99。7个百分点的CLEVR数据集，并实现14。在NLVR数据集上，Test-P准确性比最佳基线高8%2. 相关工作视觉推理。大多数的方法已经提出来解决视觉推理任务。多步模型（例如，MAC [14]、神经模块网络（NMN）[1]）执行视觉推理任务。这些类模型创建图像和问题的布局，并执行这些布局来获得答案。特别地，该方法的变体构建记忆网络以记录信息。这些方法也被应用于REF，例如，[13][14][15][16][17]电影[29]使用条件批量归一化来调制图像和问题的表示，其中两种模态可以相互调制。电影可以扩展与多步推理。这些模型可以执行复杂的关系推理，但它们的推理表示是建立在视觉外观特征上的，不包含太多基于知识的信息以及关于文本和视觉特征之间的关系的信息相反，为了对关系进行推理，它们主要关注手动设计的推理结构或模块，并且适合于特定任务。为了解决这些问题，本文提出了一种新颖、有效、鲁棒的互调知识记忆嵌入模型，该模型在整个推理过程中充分利用了先验知识。Webly监督计算机视觉。利用网络图像来监督计算机视觉算法的想法已经在几个任务中进行了探索，例如对象分类[41]，对象检测[7]，对象部分局部化[26]和对象分割[32]。受这些努力的启发，我们的工作动机是通过实现Web数据的可行性来学习更强大的模型。我们认为，对于改进基于图像-文本的知识嵌入模型的泛化，我们用网络图像补充稀缺的干净图像文本（问题，答案）数据到我们的模型中是非常重要和实用的据我们所知，这是首次尝试提出用于视觉推理的网络监督模型。基于知识的推理。许多知识库已经利用图像-文本对或视觉推理任务建立[49-51]。这些知识库是回答我们数据集中问题的潜在有用资源在自然语言处理（NLP）领域，基于知识的问题回答已经成为焦点（例如，[45，47]）。3. Webly监督方法在本节中，我们首先描述网络结构。然后，基于我们的网络结构，我们提出了基于知识的表示学习的视觉推理。最后，我们提出了我们的策略，将嘈杂的我们的方法的训练过程如图3所示。3.1. 网络结构图4显示了拟议网络的概况首先，图像I和视觉问题Q被馈送到我们设计的相互调制中，其产生基于网络的问题信息q网络n和基于网络的视觉信息{Vi，i=1，2，3，...，n}。然后，使用给定的知识库，我们可以得到基于知识的问题信息q知识H+1通过我们的基于知识的键值记忆网络，经过H次迭代。从基于知识的问题信息和基于网络的问题信息的最终表示中，可以使用下一小节中提到的基于知识的表示学习来获得知识-注意表示q，其用于预测视觉问题的答案a为了更好地整合视觉模态和语言模态来解决视觉推理问题，我们根据Yao等人的工作[46]第46段。在每个步骤i（i= 1，2，3，···，n），我们将视觉调制与语言调制级联具体来说，我们通过q网络i-1的参数将Vi-1输入到视觉调制中来计算Vi，然后控制语言的进程利用来自Vi的参数进行调制，以计算新的问题向量q网络i。基于知识的键值记忆网络我们基于Miller等人的记忆网络架构设计了键值记忆网络。[24]和Sukhbaatar等人[39]第39段。首先，我们设计一个内存，它可能是一个巨大的插槽阵列。我们可以使用记忆来编码短期和长期的上下文。我们将内存槽定义为M维向量的键值对，并表示问题Q。然后，我们使用密钥寻址和从存储器读取值的迭代过程来寻找相关信息以回答Q。注意，这些迭代也称为“跳”。在每一步中，从记忆中接收到的信息被累积地添加到原始问题中，以构建下一轮的知识表示。经过固定的H次跳数后，我们可以得到最终的基于知识的问题信息表示q知识H+1。此外，我们使用Pezeshkpour et al。[30]建立知识库。12448生成器（生成规则）物，形，物，...有没有其他东西和这个大物体形状一样？有多少其他棕色的东西和这个闪亮的物体有同样的大小？...问题...标签谷歌...模型...Web图像是的基于全标注数据集的初始知识嵌入有没有其他东西和这个大物体形状一样？问题回答图像利用Web图像更新知识嵌入有;6个;...答案图3.简要说明拟议的框架。我们使用来自干净数据集的图像-文本对和来自网络的图像-标签对来学习知识嵌入模型。首先，我们使用干净的图像及其文本描述来学习我们的模型。然后，我们使用Web图像及其标签更新我们的模型。3.2. 基于知识的表示学习我们引入了门控机制，嵌入知识表示，以加强表示学习，考虑抑制非信息特征，并允许信息特征通过基于知识的键值记忆网络的指导下。类似于[5，6]，我们引入一个门控机制，表示为其中d×D矩阵B能够是相同的并且被约束到A。我们最小化a和正确答案a之间的标准交叉熵损失[48]来训练端到端网络，该网络学习执行迭代访问以输出所需的目标a。3.3. 使用嘈杂的Web图像进行q=σ（g（q网络n，q知识H+1））网络n（一）在本小节中，我们利用图像-标记对从网络上提高我们的知识嵌入训练-其中，σ是逻辑sigmoid，σ表示逐元素乘法运算，g是一个神经网络，它采用网络的最终表示的级联基于知识的问题信息。我们使用一个具有1024个ReLU隐藏单元的全连接层[27]作为我们的答案生成器。它需要q和{Vi，i=1，2，3，···，n}作为输入，并预测最可能的答案α：使用图像-文本（问题，答案）对清洁数据集。我们的目标是得到一个优秀的图像-文本知识嵌入表示，它可以很好地推广，并在理想情况下能够依赖于数据的噪声抵抗。这种方法本质上是一种隐式数据扩充，因为有效使用网络数据会增加用于训练模型的然而，我们不能直接应用网络数据来使用图像标签对更新我们的训练模型此外，考虑到a=argmaxi=1， 2，3，···，nsoftmax（qT×B×Vi）（2）标签，传统的NLP方法无法处理任何se-在文本中的mantic上下文（问题）。......模型12449ConvReLU1X1 ConvReLU1X1转换ReLU最大池化MLPConvConvReLU转换ReLU全球平均池Conv+GAP图4.我们的网络模型。我们首先设计了一个能够学习文本和视觉信息的先验知识表示的键值记忆网络，然后我们获得基于知识的问题信息的嵌入。接着，我们更新互调制以获得基于网络的问题信息。最后，我们的框架将基于知识的表示与基于网络的问题信息的嵌入相关联。在我们的论文中，我们可以在训练过程中使用额外的标签模态，并利用这些容易获得的信息来训练更出色的模型。干净的数据集（例如， CLEVR [19]，NLVR [38]）只给出了图像-文本（问题，答案）对，不能给出更多的标签信息。相反，网络资源总是提供图像及其标签，但不提供任何文本描述。为了弥合这一差距，我们提出了一个两阶段的方法来获得优秀的图像-文本对的表示。在第一阶段，我们利用干净数据集的图像-文本对在第二阶段，我们使用来自网络数据集的图像-文本对更新第一阶段中的训练模型3.3.1第一阶段：使用干净的数据集进行训练我们利用标注数据集的图像-文本对来学习知识嵌入。对于知识表示的学习，我们使用对称交叉熵，它提供了对各种类型和速率的标签噪声的有效性。Lsce=τ× Lce+τ× Lrce（3）其中τ和τ是两个超参数，Lce表示标准交叉熵损失[48]，Lrce表示反向交叉熵损失[42]。有关Lsce的详细信息见参考文献[42]。由方程式在图3中，τ和τ是针对不同损耗的预定义权重。在我们的第一阶段中，不使用反向交叉熵损失（τ = 1和τ = 0），而在第二阶段中，使用两种损失（τ=1和τ= 1）。3.3.2嘈杂的Web图像Web图像集我们使用Google Photo API [2]通过从NUS-WIDE数据集输入标签来检索Web图像[8]。我们想利用这个网络形象没有任何手工制作的标签.我们使用GQA [16]和CLEVR [19]数据集文本（问题，答案）描述构建了1000个最常见的关键字列表。我们将这些关键字按频率降序排序，并删除停用词。然后，我们组相似的话后，执行- ing词形还原。我们利用这个关键字列表来查询和检索大约200个图像，每个查询记录它们的标签。总而言之，我们使用上述方法收集了大约20多万张带有标签的图像。在此过程中，我们只保留具有至少2个英文标签且来自同一网站来源的图片不超过4张的图片。我们还使用前五个标签来删除重复的图像。与其他合成基准数据集类似（例如，CLEVR [19]，GQA [16]，EQA [9]，TextVQA [36]），我们选择根据功能模板样式表示（例如，基于知识的键值记忆网络知识键值记忆源[Key散列][关键词]【价值解读】基于知识的表示学习问题加权平均回答问题嵌入密钥嵌入价值嵌入啤酒花...级联调制中的步骤i图像...互调制残余CNNGRU相互调制GRU相互调制GRU互调制内积ConvMLPConvReLUConvBN膜ReLUConv+GAP膜分类器MLPConv融合12450<<“How<房间类型>？“）. 这有助于实例化一旦已经生成并分析了对应轨迹的图像，就可以使用地面实况标签此外，我们可以很容易地执行相应的程序来确定答案，这相当于对地面实况执行一系列基本操作，如input（），filter（），count（），unique（），get attr（）问题生成过程首先从28个模板中随机选择一个进行实例化。一个有效的问题将始终有标记实例化与地面实况值.例如，如果有一个<房间类型>标签，而我们只看到了厨房和客厅在我们的轨迹上，那么可能的实例化的集合是{厨房，客厅}。使用这个原则，我们为模板中的每个标签构建了一组可能的值为了生成一个有效的（问题，答案）对，我们随机作为-对每个标记从其集合中签名一个值，然后运行模板函数程序来计算问题是否有效并且是否可以使用地面事实来回答。为了说明这个过程，请考虑模板<< objtype>？”input（objs）→filter（obj type）→filter（attr）→unique（）→get attr（color）我们通过实例化的对象类型进行过滤，然后通过实例化的属性（在标记值分配期间强制不为颜色）进行过滤。然后，我们确保结果是唯一的（即，该问题是明确的）并检索对象的颜色作为答案。3.3.3第二阶段：网络图像训练而第一阶段（即，第一阶段）已经实现，我们得到了图像和文本（问题、答案）描述的表示以及学习到的知识嵌入模型。在第二训练阶段（即，第二阶段），我们使用来自嘈杂网络图像的弱注释图像-文本（问题，答案）对来更新第一阶段训练的学习知识嵌入模型。这使我们能够将知识从数千个易于获得的webly注释的图像转移到学习的模型中。我们以这种方式设置了较低的学习率，因为网络在第一阶段之后获得了出色的性能，并且根据webly注释的图像以高学习率调整我们的网络可能会导致灾难性的遗忘。由于Web数据很容易获得，并且它们的标签是嘈杂的，因此在许多情况下，学习用于视觉推理任务的良好表示是具有挑战性的因此，在第二阶段，我们采用课程学习策略[3]进行培训。课程学习使我们的模型能够从简单的案例学习到复杂的案例。换句话说，我们可以先从更简单的例子中学习，用作学习更复杂示例的基础，从而在最终任务中获得更好的性能。以往的许多研究表明，适当的课程策略可以引导学习者更好地掌握地方知识[23，42]。我们逐渐将困难的信息注入到我们的网络中，并且在训练的早期阶段，网络输出的特征与干净训练集中频繁出现的知识有关。与很少出现的知识有关的特征在稍后阶段显示。由于第一阶段训练的网络对频繁出现的知识具有突出的代表性，网络图像的噪声标签可能不会降低我们的网络性能。4. 实验和结果在本节中，我们在两个基准数据集上通过实验评估了该模型的性能，并将其性能与其他最先进的深度表示学习模型进行了比较。4.1. 数据集描述4.1.1CLEVR数据集CLEVR由700，000个（图像、问题、答案、程序）元组组成 [19] ，是一个合成数据集。像 filtershape[cube]、relate[right]和count这样的程序，都是由一步一步的指令组成的。此外，在如何回答问题的过程中，它们是一个附加的监督信号.答案是从一组28个可能的答案中选出一个单词。问题本质上是多步骤和组合的。图像包含各种形状、材质、颜色和大小的3D渲染对象。它们的范围从计数问题到比较问题，可以超过40个单词。4.1.2NLVR数据集NLVR [38]是由NLP领域的研究人员提出的视觉推理数据集。NLVR有74460个样本用于训练，5940个样本用于验证，5934个样本用于公开测试。在每个样本中，在具有3个子图像的图像上存在人类姿势的自然语言描述，并且需要假/真响应。4.2. 实验装置在本小节中，我们将概述用于评估的标准，然后描述实施细节。4.2.1评价标准CLEVR数据集上的实验我们可以使用问题的程序表示来分析模型在不同形式的推理上的性能。我们用一个评估-12451评估指标，准确率（%），六个问题类型，包括总体，存在，计数，比较，查询属性和比较属性。这是一个传统的方法来评估以下的工作李等人。[19]第10段。NLVR数据集上的实验NLVR分为训练集、开发集和测试集。测试集是公共的（Test-P），并且可以与数据一起使用。对于这两个数据集，我们使用一个评估指标：精度准确度（Acc）计算为模型正确预测真值的示例（图像-图像对）的比例。4.2.2实现细节所有实验都使用4 核 PC进行，具有12 GB NVIDIATITAN XP GPU，16 GB RAM和Ubuntu16.我们继续训练第一阶段，最初的120个时期。然后，我们开始在第一阶段使用第二阶段的Web图像更新学习模型，再进行120个epoch。互调制和基于知识的键值记忆网络的具体实现如下：我们将问题词嵌入到一个200维的连续空间中，并使用一个具有4096个隐藏单元的GRU生成1024维的问题表征。问题用NULL标记填充到最大长度T = 50。特征图编号C被设置为128。使用在ImageNet上预训练的ResNet101 网络对图像进行预处理 [33] ，以提取1024×14×14个视觉特征。我们使用具有128个内核（3×3）的可训练单层CNN将提取的特征编码为V（128×14×14）。我们用SGD训练模型[18]使用1e-5的学习率和64的批量大小，0的情况。9个动量，微调120个纪元。基于知识的键值记忆网络我们使用Pezeshkpour et al.[30]第30章建立知识库我们的模型使用SGD [18]进行训练，学习率η = 0。001，每25个周期退火η/2，直到达到120个周期。没有使用动量或重量衰减。权重从具有零均值的高斯分布随机初始化，σ=0。1.一、所有训练都使用32的批量大小（但成本不是在一个批次上平均的）。4.3. 与最先进方法的比较我们将最先进的方法与我们的模型在两个基准上进行比较，分别包括CLEVR [19]数据集和NLVR [38]数据集。在这一小节中，4.3.1CLEVR数据集的比较在CLEVR数据集上，我们将我们的方法与最先进的方法进行了比较，包括 Q 型基线 [19] ， LSTM [19]，CNN+LSTM [19]，CNN+LSTM+SA表1. CLEVR数据集的比较结果模型整体计数存在比较数字查询属性比较属性人类92.686.796.686.595.096.0Q型基线[19]41.834.650.251.036.051.3LSTM [19]46.841.761.169.836.851.8CNN+LSTM [19]52.343.765.267.149.353.0CNN+LSTM+SA [34]68.552.271.173.585.352.3CNN+LSTM+RN [34]95.590.197.893.697.997.1CNN+LSTM+RN+[34]90.986.797.490.090.293.5SAN [44]76.764.482.777.482.675.4N2NMN [12]83.768.585.784.990.088.7PG+EE-9K [19]88.679.789.779.192.696.0CNN+LSTM+multiRN [4]92.385.296.593.695.192.9CNNh+LSTM+multiRN [4]97.294.198.998.398.697.6CNNh+LSTM+multiRN+ [4]97.794.999.297.298.798.3PG+EE-700K [19]96.992.797.198.798.198.9RN [34]95.590.197.893.697.997.1COG模型[43]96.891.799.095.598.598.8电影[29]97.794.399.196.899.199.1[29]第二十九话97.694.399.393.499.399.3DDRprog [37]98.396.598.898.499.199.0加拿大[15]98.997.199.599.199.599.5[46]第四十六话98.696.899.297.799.499.1CMM-ensemble [46]99.097.699.598.599.699.4Ours w/o Web Images99.398.599.999.299.799.5我们99.899.799.999.999.799.7[34] ， CNN+LSTM+RN[34] 、CNN+LSTM+RN+[34] ， SAN [44] ， N2NMN [12] ， PG+EE-9K [19] ，CNN+LSTM+multiRN [4] ， CNNh +LSTM+multiRN[4]，CNNh+LSTM+multiRN+[4]、PG+EE-700K[19][34] 、 RN [34] 、 COG- 模型 [43] 、 FiLM [29] 、FiLM-原始[29]、DDRprog [37]、CAN [15]、CMM-单个[46]和CMM-集成[46]。结果示于表1中。建议的Webly监督培训的效果。为了评估我们的方法的性能，我们比较了表1中“Ours w/o Web Images”和“Ours”行中报告的结果。我们的方法利用了相同的损失函数和功能在行-“我们的w/o网络图像”进行公平的比较。从表1中，我们发现我们的方法在所有情况下都一致地提高了性能。很明显，使用网络监督训练可以提高我们方法的有效性。我们的方法的效果。从表1中可以明显看出，我们的方法优于其他方法。分别为58.0%，53.0%，47.5%，31.3%，4.3%，8.9% ， 23.1% ， 16.1% ， 11.2% ， 7.5% ， 2.6% ， 2.1% ，2.9%，4.3%、3%、2.1%、2.2%、1.5%、0.9%、1.2%和0.8%高于 Q 型基线， LSTM ， CNN+LSTM ，CNN+LSTM+SA，CNN+LSTM+RN，CNN+LSTM+RN+ ， SAN ，N2NMN，PG+EE-9K ，CNN+LSTM+multiRN，CNNh+LSTM+multiRN ， CNNh+LSTM+multiRN+ ，PG+EE-700K，RN，COG-模型，FiLM，FiLM-raw，DDR-prog、CAN、CMM-单个和CMM-集成，分别表示总体。在计数类型、存在类型、比较数字类型、查询属性类型和比较属性类型方面，存在与上述类似的场景。再说，我们的表演比人类的好。综上所述，我们的方法比CLEVR数据集上的最先进方法更有效和更强大4.3.2NLVR数据集的比较12452在NLVR数据集上，我们将我们的方法与最先进的方法进行了比较，包括CNN-BiATT [40]，N2 NMN12453表2.NLVR数据集的比较结果模型偏差(Acc/%）测试-P（Acc/%）人因绩效94.6 95.4美国有线电视新闻网-BiATT [40]N2NMN [12] 65.3 69.1神经网络模块[1] 63.1 66.1电影[29] 60.1 62.2多数类[38] 55.3 56.2MAC-Network [14]，55.4 57.6[46]第46话[28]第28话Ours w/o Web Images我们的81.3 80.61009590858075706560Dev（一）测试-P[12][29]第一章：学习与学习的关系ity Class [38]、MAC-Network [14]、CMM [46]和W-MemNN [28].建议的Webly监督培训的效果。 “我们的”比“我们的无网络图像”高8.9%和6.3%。这些改进再次表明，通过利用覆盖各种知识的大规模Web数据进行学习，可以为视觉任务提供强大的知识嵌入。我们的方法的效果。从表2中可以看出，10099.59998.59897.59796.59695.5总计数存在比较数字查询属性比较属性（b）第（1）款我们的方法比其他人更好具体来说，我们的方法是10.9%，11.5%，14.5%，18.4%，24.4%，23%，与CNN-BiATT、N2 NMN、神经模块网络、FiLM、多数类、MAC-网络、CMM和W-MemNN相比，在Test-P方面分别提高了10.7%和14.8%。从上面可以看出，我们的方法比NLVR数据集上的最新技术更有效和鲁棒。4.4. 消融研究为了验证我们设计的注意力机器各部分的合理性和有效性在图5（b）和图5（a）中，“Ours w/o LM andKVMN“表示Ours的变体，其去除了语言调制和键值存储器网络;“Ours w/o LM”是指Ours的变体，它删除了语言调制;“Oursw/oKVMN“表示Ours的一个变体，它删除了键值内存网络。我们从以下两个方面进行分析：与“我们的”相比正如我们所看到的，“我们的”比其他人更好。这些我们认为，联合使用文本和视觉信息有助于我们提高视觉推理任务。与“Ours w/o KVMN”相比，“正如我们所看到的，“Ours w/o KVMN”比“Our without LM”更糟糕。这表明充分利用文本信息和视觉信息的重要性。通过以上分析，我们得出以下两个方面的结论：图5.消融研究结果;（a）消融结果NLVR数据集;（b）CLEVR数据集上的消融结果(1) 很明显，语言调制和键值记忆网络的设计提高了视觉推理。(2) 这表明键值记忆网络的设计比我们的这表明键值记忆网络的设计更加健壮和有效。此外，通过分析CLEVR数据集上图5（b）所示的消融结果，我们可以得到类似的结论。5. 结论和未来工作在这项工作中，我们展示了如何利用带有标签的Web图像来帮助构建强大而有效的知识嵌入模型，以完成有限的标记数据的视觉推理任务为了解决这个问题，我们提出了一个两阶段的方法，可以通过有效的嵌入模型与弱监督的Web数据，以提高知识。实验结果表明，我们的方法显着提高了性能的视觉推理任务在两个基准数据集。按照这种方式，我们将通过利用其他类型的元数据（例如，医疗数据、传感器数据、社交媒体数据）。感谢您发送编修。我们会重新检视您的建议。这项工作得到了中国科技部和国家自然科学基金会的部分支持（ 2008AAA0101502 ， 61533019 ， 61806198 ，U1811463），松鼠AI学习Ours w/o LM andKVMN我们的，不带LM和KVMNOurs w/o LM我们81.380.670.570.170.468.162.360.4累积九十九点九九十九点九99.999.999.899.799.799.799.699.499.6九十九点六99.6九十九点六99.5我们的不含LM和KVMN99.299.098.8Ours w/o KVMN97.997.897.597.097.0Ours w/o LM96.7我们12454引用[1] Jacob Andreas，Marcus Rohrbach，Trevor Darrell，andDan Klein.神经模块网络。在IEEE计算机视觉和模式识别会议（CVPR）上，2016年6月。[2] GooglePhotoAPI，https://developers.google.com/photos。[3] YoshuaBengio ， Je´ ro meLouradour， RonanCollobert ，andJa-son Weston.课程学习。第26届机器学习国际年会集，ICML'09，第41-48页，美国纽约州纽约市，2009年ACM。[4] Simyung Chang，John Yang，SeongUk Park，and NojunKwak.用于视觉关系推理的广播卷积网络。在VittorioFerrari ， Martial Hebert ， Cristian Sminchisescu 和 YairWeiss ，编辑，计算机视觉 Springer InternationalPublishing.[5] 陈天水，吴文喜，高月芳，董乐，罗晓南，林亮。利用层次语义嵌入的细粒度表示学习和识别。在第26届ACM国际多媒体会议集，MMACM。[6] 陈天水，于伟豪，陈日泉，林亮。用于场景图生成的知识嵌入路由网络在计算机视觉和模式识别会议上，2019年。[7] 陈新蕾和Abhinav Gupta。卷积网络的Webly监督学习。在IEEE计算机视觉国际会议（ICCV），2015年12月。[8] Tat-Seng Chua ， Jinhui Tang ， Richang Hong ， HaojieLi，Zhiping Luo，and Yantao Zheng.Nus-wide：新加坡国立大学的真实网络图像数据库。在Proceedings of theACM International Conference on Image and VideoRetrieval，CIVRACM。[9] Abhishek Das、Samyak Datta、Georgia Gkioxari、StefanLee、Devi Parikh和Dhruv Batra。具身问答。在IEEE计算机视觉和模式识别会议（CVPR）研讨会上，2018年6月。[10] 就在哈尔博达，麦克·埃莱·M。M. 马兹·佐科和丽莎·费根的儿子。非言语数字敏锐度的个体差异与数学成绩相关。Nature，455（7213）：665[11] Ronghang Hu，Jacob Andreas，Trevor Darrell，and KateSaenko.通过堆栈神经模块网络进行可解释的神经计算。在欧洲计算机视觉会议，2018年9月。[12] Ronghang Hu ， Jacob Andreas ， Marcus Rohrbach ，Trevor Darrell，and Kate Saenko.学习推理：用于可视问答的端到端模块网络。在2017年IEEE国际计算机视觉会议（ICCV）上[13] Ronghang Hu ， Marcus Rohrbach ， Jacob Andreas ，Trevor Darrell，and Kate Saenko.使用组合模块网络对引用表达式中的关系进行建模。在IEEE计算机视觉和模式识别会议（CVPR），2017年7月。[14] 德鲁Hudson和Christopher D.曼宁用于机器推理的组合注意力网络。CoRR，abs/1803.03067，2018。[15] 德鲁·阿拉德·哈德森和克里斯托弗·D.曼宁用于机器推理的合成注意力网络。在2018年国际学习表征会议[16] Drew A Hudson和Christopher D Manning Gqa：一个用于真实世界视觉推理和组合问题回答的新数据集。计算机视觉与模式识别会议（CVPR），2019年。[17] B. 金，M.诉O. Segovia和S.Ssstrunk。Webly监督语义分割。 2017 年 IEEE 计算机视觉和模式识别会议（CVPR），第1705- 1714页[18] 李文，李文. Kakade和Michael I.约旦.随机梯度下降有效地逃脱鞍点。CoRR，abs/1902.04811，2019。[19] Justin Johnson ， Bharath Hariharan ， Laurens van derMaaten ， Li Fei-Fei ， C Lawrence Zitnick ， and RossGirshick.Clevr ： A diagnostic dataset forcompositelanguage and elementary visual reasoning.在CVPR，2017年。[20] 李国浩，王欣，朱文武。具有知识传播的感知视觉推理。在第 27 届 ACM 国际多媒体会议论文集，MMACM。[21] 刘大庆，张汉旺，冯武，查正军。学习组装用于视觉基础的神经模块树网络在IEEE计算机视觉国际会议（ICCV）上，2019年10月。[22] Kenneth Marino、Mohammad Rastegari、Ali Farhadi和Roozbeh Mottaghi。 Ok-vqa：一个需要外部知识的可视化问答基准。在IEEE计算机视觉和模式识别会议（CVPR）上，2019年6月。[23] T. Matiisen，A.Oliver，T.Cohen和J.舒尔曼师生课程学习。IEEE Transactions on Neural Networks and LearningSystems，第1-9页[24] 亚历山大·H米勒，亚当·费

下载后可阅读完整内容，剩余1页未读，立即下载