无监督视觉语言解析：连接视觉场景图和语言结构

186 浏览量更新于2023-10-25 收藏 18.42MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

tablechairplatesdrinksfoodtablearekettlein front ofsittingofononeon top ofwhiteandbrowna156070无监督的视觉语言解析：通过依赖关系无缝地连接视觉场景图和语言结构0Chao Lou 1, 2*，Wenjuan Han 1†，Yuhuan Lin 3，Zilong Zheng 1*01 北京智能科技研究院(BIGAI)，中国北京 2 上海科技大学，中国上海 3清华大学，中国北京0louchao@shanghaitech.edu.cn, hanwenjuan@bigai.ai0lin-yh20@mails.tsinghua.edu.cn, zlzheng@bigai.ai0https://github.com/bigai-research/VLGAE0摘要0理解现实中的视觉场景图像以及语言描述是通向通用视觉理解的基本任务。以前的研究已经通过分别构建视觉场景(例如，场景图)和自然语言(例如，依赖树)的分层结构，展示了引人注目的综合结果。然而，如何构建联合的视觉语言(VL)结构几乎没有被研究过。更具挑战性但也更有价值的是，我们引入了一个新任务，旨在以无监督的方式诱导这样一个联合的VL结构。我们的目标是无缝地连接视觉场景图和语言依赖树。由于缺乏VL结构数据，我们首先构建了一个新的数据集VLParse。我们提出了一种自动对齐过程来生成粗糙的结构，然后通过人工改进来生成高质量的结构。此外，我们通过提出一个基于对比学习(CL)的框架VLGAE（Vision-Language GraphAutoencoder）来评估我们的数据集。我们的模型在两个衍生任务上取得了优越的性能，即语法归纳和VL短语定位。消融实验证明了视觉线索和依赖关系对细粒度VL结构构建的有效性。01. 引言0长期以来，视觉场景理解一直被视为计算机视觉的首要目标。超越成功0* 相等贡献。作者顺序被剪辑。本工作是在Chao Lou和YuhuanLin担任BI-GAI研究实习生时进行的。†通讯作者。0食物和饮料盘子放在桌子上0输入联合VL结构依赖树场景图0图1.VLParse的任务说明。不同的节点类型通过它们的背景颜色进行标识，黄色区域表示一阶关系(§ 3.1)。0在复杂环境中进行高精度个体目标检测的同时，为了实现更高级的视觉理解，人们进行了各种尝试，例如从场景图像中预测可解释的、结构化的、语义对齐的表示[18, 22,41]。这些表示不仅为低级别识别任务提供了细粒度的视觉线索，还在许多高级视觉推理任务中展示了它们的应用，例如视觉问答(VQA)[34, 50]、图像字幕[3, 44]和场景合成[18,21]。0场景图(SG)是最流行的视觉结构之一，它是对场景图像中对象及其复杂关系的抽象[22,26]。传统的场景图生成模型纯粹从自然图像中识别和预测对象、属性、关系及其对应的语义标签，以完全监督的方式[33,43]。尽管这些方法在大规模的SG基准测试中取得了有希望的性能，但它们在现有数据集和任务设置[13]上存在一些限制。首先，一个全面的场景图需要不同语义层次的视觉理解[27]，而大多数当前数据集只捕捉了一小部分可访问的内容。156080对于分类任务来说，这种不平衡的标签分布会导致预测模型偏向于那些最常见的标签。其次，构建这样的数据集需要对边界框、关系和相应的语义进行详尽的标注，这是耗时且低效的。第三，仅从视觉输入中诱导出一个语义一致的图形结构通常是困难的，这通常需要一个具有重型手动标注监督的额外视觉关系识别模块。0与密集且嘈杂的视觉信息不同，自然语言直接提供符号化和结构化信息（例如语法）来支持理解过程。关于语言结构诱导的研究可以追溯到早期的计算语言学理论。在深度学习技术的推动下，提出了各种神经结构预测算法，用于分析更复杂的结构信息并将其应用于自然语言任务。依赖树（DT）解析作为语言结构预测的一个重要分支，旨在生成一个由表示每个单词的语义和句法含义的顶点以及表示它们之间依赖关系的有向边组成的解析树。值得注意的是，这种树结构与SG中的思想相似。然而，地面真实结构（通常称为“金标准结构”）需要专业语言学家的标注。为了缓解数据问题，先驱性工作还展示了在无监督模式下学习DT的成功。0在这项工作中，我们充分利用了两种模态的优势，并引入了一项新任务 -无监督的视觉语言（VL）解析（简称为VLParse），旨在设计一个将视觉场景图与语言依赖树无缝连接的联合VL结构。通过“无缝”，我们指的是VL结构中的每个节点都应呈现SG和DT中某个节点的良好对齐信息，它们之间的关系也是如此，如图1所示。据我们所知，这是第一个正式定义VL结构与依赖关系联合表示的工作。在尊重语义一致性和独立特性的基础上，联合VL结构考虑了两种模态的共享多模态实例和独立实例。在这样一个异构图中，两个图（DT和SG）之间的语义一致的实例在不同的层次上对齐，从而最大限度地保留了两种模态的表示。一些先前的尝试已经显示出探索多模态信息用于结构化理解的好处。例如，Shi等人首次提出了一个基于视觉的语法解析器来诱导语言结构。[46,48]进一步利用视觉语义来改进语言结构。然而，这些结构仍然是用于语言句法分析而不是联合视觉-语言理解的。0与我们最接近的工作是VL-Grammar[17]，它通过复合PCFG[23]分别构建图像结构和语言结构。然而，这些注释（即分割部分）是提前提供的。VLParse旨在进行深思熟虑的跨模态理解，并弥合多个子任务之间的差距：图像和语言分别的结构诱导和无监督视觉定位。作为一个复杂的任务，它由几个实例组成，例如对象、属性和不同级别的关系。不同实例和子任务之间的相互作用可以提供丰富的信息，并在识别和理解过程中发挥互补或限制作用。为了解决这个具有挑战性的任务，我们提出了一种新颖的对比学习（CL）架构，即视觉-语言图自编码器（VLGAE），旨在同时构建多模态结构和对齐VL信息。VLGAE由特征提取、结构构建和跨模态匹配模块组成。特征提取模块从两种模态中提取特征，并为DT和SG中的所有实例构建表示。结构构建模块遵循编码器-解码器范式，其中编码器使用注意机制从图像-标题对中获取压缩的全局VL表示；解码器使用内部算法递归地构建VL结构，并计算跨度的后验概率。VL结构诱导通过最大似然估计（MLE）进行优化，使用负对数似然损失。对于跨模态匹配，我们计算视觉图像区域和语言上下文之间的视觉-语言匹配得分。我们进一步通过结构构建模块获得的后验值增强匹配得分。这个得分用于通过CL策略促进图像-标题对的跨模态细粒度对应关系；详见图3和第5节。总之，我们的贡献有五个方面：（i）我们设计了一个将视觉场景图和语言依赖树连接起来的联合VL结构；（ii）我们引入了一个新的任务VLParse，以更好地进行跨模态视觉场景理解（§4）；（iii）我们提出了一种两步VL数据集创建范式，无需耗时的标注，并提供了一个新的数据集（§3）；（iv）我们使用一种新颖的基于CL的框架VLGAE对我们的数据集进行基准测试（§5）；（v）实证结果表明，所提出的框架在单模态结构诱导和跨模态对齐方面取得了显著的改进。02. 相关工作0弱监督视觉定位视觉定位（VG）旨在定位最相关的对象或匹配。156090图像中的区域由自然语言表达引用，例如短语[39]，句子[1,34]或对话[50]。仅使用图像-句子对推断区域-短语对应关系的弱监督视觉短语定位引起了研究人员的关注。有多种方法可以进行弱监督视觉短语定位。Gupta等人[14]利用对比学习基于图像-句子对数据训练模型。Wang等人[38]为短语构建了与视觉表示更好对齐的视觉感知语言表示。Wang等人[36]开发了一种从FasterR-CNN中提取知识用于弱监督短语定位的方法。语言句子包含丰富的语义和句法信息。因此，一些研究关注如何从句子中提取和利用有用的信息以促进视觉定位。例如，Xiao等人[42]使用自然语言描述的语言结构进行视觉短语定位。Yu等人[45]学习将标题自动解析为与主题外观、位置和其他对象的关系相关的三个模块化组件，从句子中获取不同类型的丰富信息。在这项工作中，我们提出在没有任何结构注释或短语-区域对应注释的情况下，从现实图像-标题对中引入结构。请注意，与Wang等人[37]预测给定一组名词短语对应的区域不同，VL语法归纳中的名词短语是未知的，VL结构中的所有跨度都是图像中的对应区域。语言依赖解析依赖解析是自然语言处理（NLP）中的一个基本挑战，旨在找到句子中单词之间的句法依赖关系。由于实现所有可用语言语料库的黄金结构的挑战，无监督依赖解析在近年来引起了更多关注，其目标是在不使用注释的句子的情况下获得依赖解析器。先驱性工作Dependency Model with Valence (DMV)[25]提出将依赖解析建模为依赖语法的生成过程。NDMV[19]利用深度学习技术来捕捉词性标签之间的相似性，并基于DMV学习语法。然而，生成模型通常受到独立性假设的限制，因此更多的研究者开始关注基于自动编码器的方法[2]，例如，Discriminative NDMV (D-NDMV)[15]。视觉辅助语法归纳视觉辅助词表示学习和句子表示学习取得了积极的结果。Shi等人[31]首次提出了视觉上有根据的语法归纳任务，并提出了一个基于视觉的神经语法学习器（VG-NSL）。他们使用一种自底向上的简单优先解析器[12]，并使用REINFORCE [40]作为图像-标题的梯度估计器。0匹配。Zhao和Titov [49]提出了一种用于复合PCFG[24]的端到端训练算法，这是一种强大的语法诱导器。Jin和Schuler[20]制定了一个不同的视觉定位任务。他们使用自动编码器作为视觉模型，并在隐藏状态上融合语言和视觉特征。与视觉上有根据的语法归纳不同，我们不仅关注语言结构的准确性，还关注细粒度的对齐准确性。03. VLParse数据集0在本节中，我们首先对联合VL结构进行形式化，以表示视觉和语言的共享语义。然后我们介绍了如何以半自动的方式形成数据集VLParse。03.1. 联合视觉-语言结构0视觉-语言（VL）结构由视觉结构SG、语言结构DT和SG与DT之间的层次对齐组成。场景图（SG）我们将SG定义在图像I上，它是由三种类型的节点组成的结构化表示：T“tOBJECT，ATTRIBUTE，RELATIONSHIPu，表示图像的对象特征、概念属性特征和两个对象之间的关系特征。每个OBJECT节点与一个ATTRIBUTE节点相关联；在每对OBJECT节点之间，存在一个RELATIONSHIP节点。设R为所有关系类型（包括“none”关系）的集合，我们可以将SG中的所有变量表示为tvclsi，vbboxi，vtypei，viÑju，其中vclsi是第i个边界框的类标签，vbboxi PR4表示边界框偏移量，vtypei P T是节点类型，viÑj PR是从节点vi到vj的关系。依赖树（DT）传统的DT是一个具有有向依赖关系的层次结构。给定以N个单词w“tw1，w2，...，wNu表示的文本描述，DT中的每个依赖关系可以表示为三元组pw i，w j，wiÑjq，分别表示父节点wi，子节点wj和从wi到wj的直接依赖关系。与SG类似，对于每个节点的表示，我们还附加了节点的类型标签wtypei PT。因此，DT中的所有变量变为twi，wtypei，wiÑj；i‰ju。对齐DT和SG之间的对齐可以看作是在语言结构的不同层次上实现视觉定位的一种实现。我们在此定义了三个层次的对齐（见图1示例）：0•零阶对齐。它定义了DT中每个节点wi与SG中的节点vi之间的连接。0• 一阶对齐。一阶关系可以定义为一个三元组pw i, w j,wiÑjq，包括两个节点和一个有向依赖关系。然后一阶OBJECTOBJECTRELATIONSHIPRELATIONSHIPOBJECT156100桌子0水壶0在...前面0小0在...上面0在...上面0白色0DT-SG对齐0类型0分类0父节点0识别0食物和饮料的盘子放在桌子上0盘子饮料坐着桌子0显示0椅子0图2.自动基于规则的对齐过程的示例。在DT重写和DT-SG对齐过程之后，DT中的每个实例都可以与SG中的实例对齐。通过SG，DT中的实例可以与图像区域匹配。0对齐旨在将DT中的三元组与SG中的类似三元组pvij, vj,viÑjq对齐。0•二阶对齐。二阶关系建立在一阶关系之上，表示三个节点之间的依赖关系，例如DT中的wi,wj和wk。与一阶对齐类似，二阶对齐将DT和SG之间具有相似语义的关系对齐。03.2. 自动基于规则的对齐0在实践中，SG和DT之间的对齐工作量大且昂贵，而未标记的数据成本低且规模大。因此，我们设计了一组规则，将DT的语言实例自动关联到SG的视觉实例。这种自动对齐提供了有益的信息，可以减轻工作人员的标注负担。具体而言，我们引入了一个两步对齐过程，即基于规则的DT重写（DTRewriting）后跟DT和SG之间的对齐（DT-SGAlignment）。DT重写我们首先介绍扩展和变形DT的重写过程，以减轻DT和SG之间的差异。重写考虑了两个模块：类型分类我们为传统DT附加了类型标签xtypei。具体而言，我们使用以下方式为DT中的单词标记三个节点类型：0•OBJECT：DT中的OBJECT节点指的是可以与特定图像区域关联的单词/短语。除了属性之外，包含所有相关单词的名词短语被设计为一个OBJECT节点。0•属性：ATTRIBUTE节点大多是用于装饰其关联的OBJECT节点的形容词。在我们设计的规则中，我们将具有依赖类型acomp（形容词补语）的单词设置为ATTRIBUTE节点。0•关系：两个OBJECT节点通过有向依赖与一个RELATIONSHIP节点相连。OBJECT节点通过一个0RELATIONSHIP节点。例如，在图2中，“sitting”作为两个OBJECT节点“drinks”和“table”之间的RELATIONSHIP节点。父节点识别由于很难为属性节点或功能词（如并列连词和限定词等）在图像中确定一个关联区域，因此我们定义这些类型的单词共享相应OBJECT节点的父节点的关联区域。父节点是表示名词短语的核心语义的名词，而ATTRIBUTE节点作为从属节点对其进行修饰。这种父从属关系通过DT的依赖类型和依赖方向进行编码[7]。通过我们设计的规则，DT中的每个单词都被赋予了一个节点类型和一个父节点。我们为OBJECT-ATTRIBUTE设计了7条规则，为RELATIONSHIP-OBJECT设计了12条规则，为OBJECT-OBJECT设计了1条规则，为OBJECT-RELATIONSHIP设计了10条规则，为功能词处理设计了22条规则。10基于重写的DT，我们进行DT-SG对齐，将重写的DT映射到SG。具体而言，我们计算SG节点与单词的父节点之间的相似度得分，并选择前k个结果作为对齐结果。标记为属性的单词利用父节点在SG中检索其属性的OBJECT节点。然后，我们通过计算单词与ATTRIBUTE节点名称之间的相似度得分，检索以OBJECT节点为根的子树中的ATTRIBUTE节点。图2展示了从单词到SG节点的对齐过程的示例。03.3. 众包人工细化0为了获得高质量的数据集，我们采用了人工细化阶段，提供自动注释的VL结构，并要求注释者输出精细化的结构。我们利用亚马逊机械土耳其（AMT）雇佣远程的母语使用者进行众包调查。人工细化我们在AMT中创建了一个调查，允许工人评估和改进从自动基于规则的对齐阶段生成的数据。我们为工人提供全面的说明和一组明确定义的示例，以评判对齐的质量，并修改那些不满意的部分。在任务过程中，我们将向工人展示一个界面，其中包含按图像分组的成对图像和标题。我们要求工人检查DT、SG和跨模态对齐。然后，工人在必要时纠正不适当的区域。最终结果使用多数投票合并。01这里使用的依赖关系基于斯坦福类型依赖关系[7]，这是一种用于语法注释的框架（词性和句法依赖关系https://catalog.ldc.upenn.edu/LDC99T42）[29]。根据[49]，使用这些注释数据的学习解析器[47]用于标记依赖关系的存在和依赖关系类型。156110质量控制我们在校准过程中采用一系列质量控制措施。在提交任务之前，调查将首先检查工人对修改部分的修改，以确保修改部分满足基本要求：DT中的依赖与SG中的RELATIONSHIP节点对齐。如果我们在注释过程中发现这种不对齐，我们将提示工人重新检查他们的注释。我们逐个向工人发布数据集，并要求至少两个工人处理同一样本，以检查是否存在分歧。为了确保高质量的标注，我们限制参与的工人在标注历史中完成了500个高准确性的人类智能任务（HITs）。在人工细化之后，我们进行后处理的双重检查。我们从几个工人那里收集多个决策的不一致标记。所有存在不一致的样本都由第三方工人进行手动双重检查。我们还标记了工人注释工作不足的注释，并从最终的数据集中过滤掉他们的结果。03.4. 数据集分析0对于训练数据集，我们继承了MSCOCO训练数据集[28]2。我们基于MSCOCO dev + test数据集和VisualGenome[26]的交集对VL结构进行注释。我们收集了一个带有850个图像和4250个标题的注释数据集（每个图像关联5个标题）。然后，我们按照1:1的比例将这850个图像分为dev和test数据集。dev +test中剩下的部分合并到训练数据集中。表1显示了数据概要。0训练集开发集测试集0# 图像 83933 425 4250# 句子 419665 2125 21250# 平均值。DT中的实例 - 20 210# 平均值。SG中的实例 - 135 1340表1. VLParse的数据分析。#平均值：平均数量。实例包括零阶实例、一阶关系和二阶关系。03.5. 人类表现0要求五个不同的工人对测试集中的100个句子的解析树进行标注。另一组五个工人在AMT上被要求对相同句子及其对应的图像上的视觉术语和语言术语进行对齐。然后计算平均人工性能为96.15%。基于这些观察结果，我们设计的数据集呈现了语言表示和跨模态的特点。02我们使用了Zhao和Titov[48]的训练数据集划分。它包含82,783个训练图像，1,000个验证图像和1,000个测试图像。0清晰地理解并保持视觉语言对齐的具体性。通过手动审核，它展示了我们的新数据集和基准的可靠性。04. 无监督视觉语言解析0在本节中，我们介绍无监督视觉语言（VL）解析任务，简称为VLParse。我们对VL解析任务进行了形式化，并介绍了评估指标。04.1. 任务公式化0给定输入图像I和与之关联的由N个单词w“tw1，w2，...，wNu组成的句子，任务是以无监督的方式预测联合解析树pt。具体而言，目标是仅从图像-标题对中诱导VL结构，而不需要DT、SG或短语-区域对应的注释进行训练。值得注意的是，我们使用预训练的目标检测器获取50个边界框作为候选框，但不提供边界框的标签。对于完全无监督的设置，获取边界框的过程可以由目标提议方法（例如[35]）替代。与[32]中的弱监督场景图对齐任务相比，VLParse中的场景图是未知的。语言DT中的每个OBJECT节点将被映射到给定图像的M个候选对象提议O“toi uMi“1的框区域oiPR4。关系也是如此。04.2. 评估指标0由于VL结构缺乏注释，我们通过每个模态的两个派生任务间接评估我们的模型，即语言依赖解析和短语对齐。有向/无向依赖准确率（DDA/UDA）DDA和UDA是依赖解析的两个广泛使用的评估指标。DDA表示被正确分配父节点的标记的比例。UDA表示被正确预测的无向依赖关系的比例。零阶对齐准确率（Zero-AA）Zero-AA评估零阶级别上的对齐结果。如果满足以下两个条件，一个词被认为是成功对齐的。首先，如果ground-truth是OBJECT节点或ATTRIBUTE节点，则语言顶点的预测边界框与ground-truthSG顶点的边界框至少有0.5的IoU（交并比）。或者，如果ground-truth是RELATIONSHIP节点，则连接的两个边界框都至少具有0.5的IoU分数。其次，尽管OBJECT节点和ATTRIBUTE节点共享相同的区域，但我们要求模型区分它们。一阶/二阶对齐准确率（First/Second-AA）我们还对第一阶和第二阶的对齐情况感兴趣。w1st,parenti, w1st,childi“ MLP1st,parent{childpwiqw1stiÑj “ Biaffinepw1st,parenti, w1st,childiqBiaffinepwi, wjq “ wTi W1wj ` pwi ` wjqTW2 ` b,simpv, cq “ xv, cy,(1)simpI, cq “ maxvPV simpv, cq,(2)156120二阶关系在对齐到另一模态后是否保留。也就是说，一阶关系中的两个零阶实例（主语和谓语）在对齐的SG中是否保持相邻。对于二阶关系，我们考虑三个零阶实例（主语、谓语和宾语）是否保持相邻。对于二阶关系，有多种方法可以连接三个词obj-pred-sub（例如，objÑpredÑsub和objÐpredÑsub）。我们认为它们都是正确的，因为对于无监督解析器来说，区分它们的相邻性更重要，以确定语义。05. 视觉-语言图自编码器0在本节中，我们介绍了一种新颖的基于CL的体系结构VLGAE，用于评估VLParse任务。该体系结构由特征提取、结构构建和跨模态匹配模块组成；图 3描述了整体计算框架。下面我们将讨论每个模块的细节，然后是学习和推理算法。05.1. 建模0特征提取对于视觉特征，我们首先使用现成的目标检测器Faster R-CNN[30]在输入图像 I上生成一组对象提议（RoIs）O “ t o i u M i “1，并提取相应的特征 t v o i u M i “ 1 P R D 作为OBJECT 节点的特征，其中 D 是每个 RoI特征的维度。对于每个 OBJECT 节点 v o i，我们附加一个ATTRIBUTE 节点，并将其特征表示为 v a i “ MLP p v o iq。对于任意的 OBJECT 节点 v o i 和 v o j，我们将零阶RELATIONSHIP 节点表示为 v img i Ñ j,0。我们还添加一个代表完整图像的虚拟节点，并将所有OBJECT 节点的特征取平均作为其特征。对于除 OBJECT节点以外的所有节点，我们使用随机初始化的神经网络来表示特征。对于文本特征，句子 w 中的每个单词 w i被表示为预训练的词嵌入 w i 和随机初始化的 POS标签嵌入 t i 的连接。与 SG 中的 RELATIONSHIP节点类似，两个单词之间的依赖关系表示通过馈送 p w i , wj q 给神经网络进行提取。我们使用 Biaffine评分器[8]来计算一阶关系：0其中 MLP 表示多层感知机，W 1 、W 2 和 b是可训练参数。计算二阶关系的分数遵循类似的方式。0受神经DT构造算法[15]启发，我们使用了一个编码器-解码器框架，该框架采用动态规划算法（即内部算法），并在结构构建过程中递归地计算出实例 p p pt | w , I q的后验概率。编码器用于生成输入图像 I 及其对应的标题 w的联合表示。具体而言，我们通过注意机制将文本特征与视觉信息融合，得到上下文编码 c P C，其中 C表示用于注意语言上下文的空间。对于标题中的每个标记 tw i u 和 SG 表示 V “ t v i , v i Ñ ju，我们计算它们之间的注意力分数，然后对所有项进行加权求和，即 c i “ ř Attn p w i , v i q wi。最后，我们使用平均池化层将所有信息汇总为一个连续的上下文向量s，该向量表示视觉-语言上下文的全局信息。解码器根据联合表示 s 条件生成标记序列 t 和解析树 pt，即给定联合概率p p t , pt | sq。为了考虑可能的解析树的指数级规模，我们使用动态规划来考虑句子上所有可能的依赖关系。有关学习过程，请参阅第 5.2节。跨模态匹配我们使用跨模态匹配来对齐不同层次的视觉和语言特征。匹配分数我们将 sim p¨ , ¨q定义为跨模态匹配函数。根据 Wang等人[38]的方法，我们首先计算每个 c P C 和每个 v P V之间的相似度分数：0其中 x¨ , ¨y是一个内积函数。从启发上讲，我们可以定义实例 c与整个图像 I 之间的相似度分数为0通过后验增强的匹配分数。为了利用上下文信息，我们使用从解码器计算得到的后验概率 p p c | s q来反映在给定联合表示 s 的情况下，c存在的可能性。然后，我们将匹配分数与后验概率融合，提供一个增强的相似性函数，sim ` p I , c q “ sim p I , c q ˆ p p c | s q 。05.2. 学习0最大似然估计（MLE）。使用图像-句子对 p I i ， w i q的压缩表示 s i ，VLGAE生成标签序列 t i 和解析树 pt。学习目标是最大化.....................sNNS IN NN CC NNS VBP VBG IN DT NNLmle “ ´ 1KKÿi“1log pΘpti|wiq“ ´ 1KKÿi“1logÿptPP T psiqpΘpti, pt|wiq(3)Lclpw, Iq “ Epppt|wqÿcPptℓpI, cq,(4)ℓpI, cq “ ´ logexprsim`pI, cqsˆIPbatch exprsim`pˆI, cqs,(5)Ltot “ p1 ´ λq ¨ Lmle ` λ ¨ Lcl,(6)pt“ arg maxptPP T psqpppt|s; Θq(7)156130词嵌入0文本编码0词性嵌入0对象0属性0关系0特征提取0FasterR-CNN0结构构建0池化0解码器0上下文编码0跨模态匹配0食物和饮料的盘子放在桌子上0图像0标题0词性0反向传播0图3.VLGAE的示意图。首先从两种模态中提取特征，并为DT和SG中的所有实例构建表示。然后，结构构建模块的编码器使用视觉线索对语言特征进行编码，并输出一个压缩表示 s 。使用这个压缩的全局表示 s，解码器结合内部算法递归地构建VL结构，并计算后验概率。在从结构构建模块生成的后验概率的基础上，使用语言上下文 c 与图像区域 v之间的增强匹配分数来促进跨模态的细粒度对应关系。0K个训练句子的条件对数似然：0其中， Θ 参数化编码器-解码器神经网络， PT p s i q表示所有可能的解析树的集合。给定一些 Θ ，方程（ 3）可以使用内部算法计算，即一个 O p n 3 q的动态规划过程。因此，我们通过期望最大化（EM）过程进行结构构建和参数学习。具体而言，E步是计算给定当前Θ 的可能结构，M步是通过梯度下降优化 Θ，使其与方程（ 3）相对应。值得注意的是，用于匹配分数的后验概率 p p c| s q 可以在反向传播过程中计算[ 11]。对比损失由于无监督设置中缺乏细粒度的注释，对齐相关的目标被用于对比损失中。对比学习策略基于最大化配对细粒度实例之间的匹配分数。对于每个 c，句子对应的图像是一个正例，当前批次中的所有其他图像都是负例。值得注意的是，与粗粒度的图像-句子对相比，我们设计的细粒度视觉-语言对齐为对比训练提供了更强的负例对。形式上，给定一个视觉-语言对0在一个批次中，对比损失可以定义为，p w , I q0其中pt是一个有效的解析树，ˆI是批次中排名高于其他未对齐样本的可能对齐的一对。最后，总损失定义为：0其中λ是预先定义的，用于平衡两个损失之间的不同标量。05.3. 推理0给定一个训练好的模型和训练好的参数Θ，模型可以预测VL结构，进而预测句子的解析树和其在场景图上的视觉定位。解析树可以通过在所有有效解析树PTpsq中搜索具有最高条件概率的pt˚来解析，使用动态规划[25]：0对于每个c∈C，我们可以使用增强的相似度分数预测其对应的图像区域omc，如公式（1）所示：UDADDAv˚ “ arg maxvsim`pv, cq(8)VLGAE:42.367.241.815.9--204681012142304050607080156140仅语言0左分支 53.61 30.75 右分支53.19 23.01 随机 32.44 19.29DMV [25] 58.06 41.36D-NDMV [15] 70.77 65.880视觉-语言（VL）VLGAE71.43 67.570表2. 测试集上的依赖结构归纳结果。0值得注意的是，当句子的真实依赖树已知时，我们可以根据公式（8）直接检索对应的场景图。06. 实验06.1. 设置0候选边界框的设置如下。对于输入图像，我们使用外部目标检测器FasterR-CNN作为MAF[38]，生成前50个目标提议。对于每个提议，我们使用RoI-Align[16]和全局平均池化来计算目标特征[38]。由于我们没有标题的真实结构，我们按照[31]和[49]的方法使用外部解析器生成的预测作为真实标签。我们报告了三次使用不同随机种子运行的平均得分。06.2. 语言结构归纳评估0我们在语言结构归纳上将VLGAE与之前的仅语言基线进行了比较，使用UDA和DDA指标，结果见表2。在融合视觉线索之后，我们可以观察到性能的提升。特别地，VLGAE在DDA上的得分比D-NDMV高出1.69%，在UDA上的得分比D-NDMV高出0.66%。06.3. 视觉短语定位评估0除了语言结构归纳之外，我们还在弱监督的视觉短语定位任务上评估了我们的方法。表3中的实验结果表明，VLGAE相比之前的多模态基线MAF[38]提高了1.0%的性能。此外，我们观察到了显著的改进，特别是对于高阶关系，这表明了我们多阶对齐的有效性。我们还报告了使用真实边界框（和关系）作为参考而不是提议（和密集连接）的性能，详见表3中的VLGAE。03我们将MAF的学习策略应用于弱监督的DT视觉定位，而不是在训练阶段给定名词短语。0所有目标属性关系第一第二0随机 12.2 15.9 9.4 0.0 0.0 0.0 MAF* 27.7 38.5 20.70.1 0.0 0.0 VLGAE 28.7 36.1 21.0 10.2 3.4 0.20表3.测试集上的视觉定位结果。˚表示重新实现的结果。:表示使用真实场景图的实验。All:所有零阶实例的零对齐率。Obj.:目标节点的零对齐率。Attr.:属性节点的零对齐率。Rel.:关系节点的零对齐率。First:第一对齐率。Second:第二对齐率。06.4. 弧长消融分析0我们进一步研究了图中不同长度弧的召回率 len p w i Ñ j q在图 4 中。实验是在开发集上进行的。在表 2中，我们证明了通过视觉线索增强的VLGAE比其非视觉版本(D-NDMV)提高了DDA/UDA。此外，这种提升不仅出现在短弧上，也出现在长弧上。这一现象与VC-PCFG[49]相反，表明VLGAE中的依存结构对于所有弧都有益处，无论弧长如何，与成分结构相比。0方法D-NDMVVLGAE0图 4. 开发数据集上不同弧长的DDA。07. 结论0在这项工作中，我们引入了一个新的任务VLParse，旨在以无监督的方式构建一个联合的VL结构，利用视觉场景图和语言依存树。同时，我们提供了一种半自动的策略来创建该任务的基准。最后，我们设计了一个基于对比学习的基线框架VLGAE，旨在同时构建这种结构和构建VL对齐。在结构归纳和视觉短语定位的评估中，我们发现通过视觉线索增强的VLGAE可以提高性能，而非视觉版本的性能则不佳。尽管取得了令人信服的提升结果，但在这两个任务上的性能仍然远远不够令人满意。然而，这项工作为可解释的多模态理解提供了启示，并呼吁未来在这个方向上进行研究。156150参考文献0[1] Arjun Akula，Spandana Gella，YaserAl-Onaizan，Song-Chun Zhu和Siva Reddy.单词不足以说明问题，它们的顺序很重要：关于视觉指代的鲁棒性。在计算语言学协会年会论文集中，页码6555–6565，2020年。计算语言学协会。0[2] Jiong Cai，Yong Jiang和Kewei Tu.无监督依存解析的CRF自编码器.在自然语言处理会议论文集中，页码1638–1643，哥本哈根，丹麦，2017年9月。计算语言学协会。0[3] Shizhe Chen，Qin Jin，Peng Wang和Qi Wu.随心所欲地生成图像标题：通过抽象场景图进行细粒度控制。在计算机视觉和模式识别IEEE会议论文集中，页码9962–9971，2020年。0[4] Noam Chomsky. 语言描述的三个模型.信息理论IRE交易，2(3):113–124，1956年。0[5] Noam Chomsky.关于语法的某些形式属性。信息与控制，2(2):137–167，1959年。0[6] Noam Chomsky. 句法结构. De Gruyter Mouton，2009年。0[7] Marie-Catherine De Marneffe和Christopher D Manning.斯坦福类型依存关系手册。技术报告，斯坦福大学技术报告，2008年。0[8] Timothy Dozat和Christopher D. Manning.神经依存解析的深度双仿射注意力.在国际学习表示会议(ICLR)上，OpenReview.net，2017年。0[9] Andrew Drozdov，Subendhu Rongali，Yi-Pei Chen，TimO’Gorman，Mohit Iyyer和Andrew McCallum.基于深度内外递归自编码器的无监督解析。在自然语言处理会议论文集中，2020年。0[10] Andrew Drozdov, Pat Verga, Mohit Yadav, Mohit Iyyer,and Andrew McCallum.无监督深度内外递归自编码器的潜在树归纳.在北美计算语言学协会年会论文集中，2019年。0[11] Jason Eisner. 内外和前后算法只是反向传播(教程论文).在结构化预测与自然语言处理研讨会论文集中,页码1-17,奥斯汀,德克萨斯州,2016年11月. 计算语言学协会.0[12] Yoav Goldberg和Michael Elhadad.一种用于易于优先非定向依赖解析的高效算法.在北美计算语言学协会2010年年会论文集中,页码742-750,加利福尼亚洛杉矶,2010年. 计算语言学协会.0[13] Jiuxiang Gu, Handong Zhao, Zhe Lin, Sheng Li, JianfeiCai和Mingyang Ling. 带有外部知识和图像的场景图生成.0知识和图像重建.在计算机视觉和模式识别IEEE会议论文集中,页码1969-1978,2019年.0[14] Tanmay Gupta, Arash Vahdat, Gal Chechik, XiaodongYang, Jan Kautz和Derek Hoiem. 弱监督短语定位的对比学习.在欧洲计算机视觉会议论文集中,页码752-768. Springer, 2020年.0[15] Wenjuan Han, Yong Jiang和Kewei Tu.增强的无监督生成依赖解析器与上下文信息.在计算语言学年会论文集中,页码5315-5325,2019年.0[16] Kaiming He, Georgia Gkioxari, Piotr Doll´ar和Ross Gir-shick. Mask r-cnn. 在计算机视觉国际会议论文集中,2017年.0[17] Yining Hong, Qing Li, Song-Chun Zhu和Siyuan Huang.Vlgrammar: 视觉和语言的基于实例的语法归纳.IEE

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

无监督视觉语言解析：连接视觉场景图和语言结构

教学视频中的无监督视觉语言参考解析

结构编码辅助任务在视觉和语言导航中的应用

自然图像中基于视觉语言信息传递的场景图

"基于图像-句子对的弱监督方法学习视觉语言短语的空间注意掩模

pointnet结构解析

视觉惯性SLAM理论与源码解析

计算机视觉的本质是什么

对比计算机视觉与人类视觉的认知过程。

机器学习和机器视觉的关系

写一段关于计算机视觉技术的概述

matlab神经网络算法解析

深度学习算法和计算机视觉有什么关系

表格结构识别涉及哪些技术

gerber 解析库 opencv

视觉几何三维重建-openmvs源码解析

请问机器人视觉和机器人学习那个学习起来难度大？

计算机视觉工作原理图示

数字图像处理和计算机视觉的区别

open ai 解析pdf

最新资源