基于条件生成模型的视觉描述的弱监督生成和定位

40 浏览量更新于2023-10-25 收藏 15.4MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

155440基于条件生成模型的视觉描述的弱监督生成和定位0Effrosyni Mavroudi和Ren´e Vidal数据科学数学研究所，生物医学工程系，约翰霍普金斯大学0{emavrou1，rvidal}@jhu.edu0摘要0在图像或视频字幕对的弱监督下，我们解决了描述视觉输入的地面真实或生成句子中的每个对象词的定位（定位）问题。最近的弱监督方法利用区域提议并基于字幕模型的区域注意力系数来定位单词。为了预测句子中的每个下一个单词，他们使用前面单词的摘要作为查询，通过关注最多的区域来定位单词。然而，这导致了次优的定位，因为注意力系数是在不考虑需要定位的单词的情况下计算的。为了解决这个缺点，我们提出了一种新颖的基于条件生成模型的GroundedVisual Description Conditional VariationalAutoencoder（GVD-CVAE），并利用其潜在变量进行定位。特别地，我们引入了一个离散的随机变量，模拟每个单词到区域的对齐，并学习给定完整句子的近似后验分布。在具有挑战性的图像和视频数据集（Flickr30kEntities，YouCook2，ActivityNetEntities）上的实验证实了我们条件生成模型的有效性，表明它在定位方面可以显著优于基于软注意力的基线。01. 引言0将单词与视觉区域进行链接提供了视觉和语言模态之间的细粒度桥梁，是许多应用的基础模块，例如人机交互[57,60]，视觉问答[27,61]，甚至无监督神经机器翻译[58]。因此，视觉定位已成为视觉和语言交叉领域的重要研究领域[12,16,29,51]。训练视觉定位系统通常需要文本描述的注释，结合每个可定位单词（例如，物体名词）的边界框。由于构建具有如此细粒度边界框注释的数据集相当耗时和昂贵，我们将重点放在0一个足球运动员正在追逐0一个足球运动员正在追逐0+图像字幕定位0视觉对象定位0+图像字幕定位0视觉描述基础0视觉+语言任务0GT：一个男人正在0戴着帽子。0GT：一个男人正在0穿着夹克。0(a) 基于软注意力的Grounding（之前的工作）(b) GVD-CVAE（我们的）0图像字幕定位0相同 vs0软注意力：0基于前面的单词计算。0CVAE后验：0基于整个句子计算。0GT：一个男人正在0戴着帽子。0GT：一个男人正在0穿着夹克。0图1.我们提出的框架在输入图像（或视频）和区域提议的条件下共同建模视觉描述和单词到区域的对齐。在训练过程中不使用任何边界框注释，它可以处理两个任务：视觉对象定位和视觉描述基础。与之前的工作[74]不同，该工作利用软注意力进行定位，并且在给定相同的视觉输入和部分字幕上下文的情况下始终预测相同的区域，我们的模型可以通过考虑完整的地面真实或生成的句子来定位单词。0关于弱监督训练的视觉基础系统，只需要图像-标题对进行训练。具体而言，我们考虑了两个任务，如图1所示：（1）弱监督视觉对象基础（WS-VOG），在给定输入图像（或视频）及其视觉描述的情况下，目标是在视觉输入中定位所指的语义实体；（2）弱监督基础视觉描述（WS-GVD），在给定输入图像（或视频）的情况下，我们必须同时生成自然语言描述并定位生成的单词。大多数先前的工作都集中在学习如何通过学习如何正确匹配图像和句子[8, 26, 56,65]来对齐单词和区域。然而，这些基于匹配的方法只能处理第一个任务（WS-VOG），不能生成基础化的视觉描述。另一方面，基于字幕的方法[40,74]旨在通过学习如何基于区域提议生成字幕来学习如何基础化单词，因此可以处理这两个任务。例如，基于字幕的GVD模型[74]通过使用辨别性编码器-解码器字幕模型的区域注意机制来选择具有最大注意系数的区域来基础化单词。然而，利用软注意作为基础化机制存在两个主要限制。首先，尽管注意是一种有效的、可端到端学习的机制，用于总结相关上下文，但它并没有明确地鼓励捕捉有意义的对齐，并且可能导致基础化效果差[36]，除非进行监督。其次，每个单词是使用从总结先前生成的单词的查询计算的注意系数生成的。因此，这些系数不考虑待基础化的单词。例如，考虑给定句子“A man is wearing a hat”和“A man is wearing ajacket”，基础化单词“帽子”和“夹克”。如图1所示，现有的基于注意力的基础化方法错误地预测了相同的框用于“帽子”和“夹克”，因为部分字幕是相同的。In summary, this work makes three key contributions.First, we introduce the GVD-CVAE, a novel conditionalgenerative model of visual descriptions with a sequentialdiscrete latent space and attention-based parameterizationof the prior and approximate posterior alignment distribu-tions. Second, we propose a training objective that encour-ages our model to learn latent variables that capture mean-ingful word-to-region alignments. Third, we evaluate ourmethod on three challenging image and video datasets anddemonstrate that both our “prior” and “approximate poste-rior” alignment distributions improve upon soft attention.This leads to a 12% absolute improvement in WS-VOG onFlickr30k Entities. Our model also achieves state-of-the-artor competitive grounding and captioning performance com-pared with a diverse family of state-of-the-art methods thatare tailored to WS-VOG or WS-GVD.155450总之，本研究有三个关键贡献。首先，我们引入了GVD-CVAE，这是一种新颖的条件生成模型，具有顺序离散潜在空间和基于注意力的先验和近似后验对齐分布的参数化。其次，我们提出了一个训练目标，鼓励我们的模型学习捕捉有意义的词-区域对齐的潜在变量。第三，我们在三个具有挑战性的图像和视频数据集上评估了我们的方法，并证明我们的“先验”和“近似后验”对齐分布相对于软注意有所改进。这导致了在Flickr30kEntities上WS-VOG的12%绝对改进。与针对WS-VOG或WS-GVD的一系列最先进方法相比，我们的模型在基础化和字幕性能方面也达到了最先进或有竞争力的水平。0为了克服这些限制，我们提出了一种条件生成模型，用于给定输入图像（或视频）和一组区域提议的句子和潜在的词-区域对齐的联合概率分布。也就是说，我们通过引入离散的潜在变量来建模词-区域对齐，以解决缺乏基础注释的问题。我们使用最先进的视觉编码器、语言解码器和注意力模块对模型进行参数化，并利用摊余变分推断[30,59]来学习其参数。由此产生的基于图像描述的条件变分自编码器（GVD-CVAE）既可以生成句子，也可以根据整个句子（包括待基础化的词）推断出潜在的词-区域对齐。因此，它可以在激励示例中正确地基础化“帽子”。02. 相关工作0基于图像的描述定位。开发既能生成句子又能将生成的单词与视觉区域关联的模型是一个新兴的研究领域，其动机是需要更可信和可解释的字幕模型[24,36,50]。这样的模型可以看作是早期图像自动注释方法[7]、生成具有视觉基础的故事情节的方法[20]或生成具有基于共指的人物的描述的方法[52]的演变。Zhou等人[74]通过利用基于注意力的字幕模型的区域注意力系数来对单词进行定位。然而，与计算整个短语作为查询的短语定位的先前工作相反[51]，[74]中的区域注意力是基于先前的单词（部分生成的句子）计算的，因此对于正在定位的单词是不可知的。最近的一系列工作试图缓解这个问题。Ma等人[40]提出了一个循环训练机制，用于WS-GVD的图像和视频，其中涉及两个注意力机制：一个基于部分字幕，另一个基于可定位单词。通过强制使用这两个注意力机制生成的单词与地面真实单词匹配，这些机制在训练过程中隐式地被规范化，以产生类似的注意力权重。其他方法在图像-字幕对的训练过程中明确监督区域注意力，要么使用基于未来相关单词的注意力系数[37]，要么利用单独训练的图像-文本匹配模型的单词到区域对齐[77]。总之，先前工作的一个共同线索是使用基于UpDown[2]字幕模型的常规区域注意力模块进行定位，该模块仅在基于辅助模型或注意力机制的训练过程中进行规范化。相反，受离散潜变量模型在图像字幕/神经机器翻译[13, 45, 54,66]中的启发，我们的关键创新是将单词到区域的对齐视为基于条件生成模型的离散潜变量，在推断潜在的单词到区域对齐时利用先验或近似后验对齐分布。这使我们能够考虑过去、未来和当前的单词来定位输入图像或视频中的每个对象单词。0视觉对象定位。在视觉和语言的交叉领域中，将单词（而不是整个句子[71]或短语[21,65]）与图像和视频进行定位是一个活跃的研究领域。早期对于通过图像和视频的文本描述进行弱监督视觉定位的尝试依赖于图形模型[47,68]。受到区域提议生成的进展的推动，最近的一大批方法[11,29]将该任务视为多实例学习（MIL）问题。这些方法通过单词到区域的对齐确定图像-句子匹配分数，并学习如何正确地将图像与句子匹配。155460排序损失。这些方法也已经扩展到视频[26, 56,75]，使用帧-句子匹配分数和机制来处理缺失的对象。然而，这些基于MIL的方法不能同时生成句子和定位对象。基于字幕的GVD-Grd方法[74]解决了这个限制，该方法基于区域注意力系数对每个单词进行定位，该系数是使用先前的单词作为查询计算的，并结合了区域-类别相似性系数。这些系数是通过从外部数据集转移对象类别知识获得的。在这项工作中，我们也将字幕作为下游任务，但是我们使用条件生成模型的分布来定位单词，利用完整的句子上下文。0联合视觉-语言表示学习。受到预训练NLP模型[14]的进展的启发，研究人员也开始使用大规模的视觉-文本语料库来学习跨模态的视觉-语言表示。存在基于Transformer的模型[35,38]，这些模型也是仅使用带有物体提议和相关文本描述的图像对进行训练的。然而，我们不是专注于使用大规模语料库来学习任务无关的视觉-语言表示以促进下游任务，而是对小规模数据集上的视觉定位系统进行训练感兴趣。重要的是，我们依赖于文本作为弱监督来学习如何在目标数据集上进行定位，而不是直接使用边界框注释。相反，这些预训练模型需要在较小的完全注释数据集上进行微调，以解决诸如指代表达定位[38]之类的下游任务。0使用变分自动编码器对序列数据进行建模。我们提出的基于CVAE的字幕生成模型也与用于NLP应用中建模序列数据的常规或条件VAE相关。特别是，与驱动整个序列生成过程的单个潜在变量不同，具有序列潜在变量[3, 9, 10, 18, 53,69]的VAE与我们的工作更为相关。然而，这些大部分模型具有不可解释的连续潜在变量，而不像我们的离散潜在词到区域对齐。值得注意的例外是Graber等人的方法[19]，该方法使用序列离散变量来建模交互系统中的实体之间的相互作用。然而，所有这些工作都共享相同的目标，即建模序列数据的似然性，而我们提出利用潜在变量进行关联。为此，我们需要避免训练一个产生与先验几乎相同的后验的推理模型，从而忽略待关联的单词。研究人员正在积极探索各种技术来减轻这种后验崩溃问题，例如修改训练目标[1, 17, 34, 42,48,55]，修改训练过程[22]或修改解码器架构[15]。类似地，我们提出控制句子重构项和先验正则化项之间的相对因子[1,6,55]。0足球运动员追逐0之后的___0“关注” “告诉”0“关联”0�( � � | � <� , � , �) �( � � | � ≥� , � <� , � , �) � � � �( � � | � � , � <� , � , �)0足球运动员追逐0之后的_球_0足球运动员追逐0之后的_球_0追逐0球0�0� <� 部分字幕 � 输入图像 � � 第t个对齐区域索引 � � 第t个输出单词0图2.我们提出了一个深度条件生成模型，用离散潜在变量zt建模每个词到区域的对齐。它能够在输入图像（或视频）上对区域提案进行关注，通过从联合分布中边缘化出潜在的词到区域对齐，告诉它显示的是什么，并通过利用学习到的近似后验词到区域对齐分布来关联每个单词。03. 方法03.1. 问题表述0设Y为给定视觉输入I的视觉描述（即图像或视频）。我们将Y={y1,...,yT}表示为来自词汇表V的T个单词的序列，其中yt是第t个单词的独热编码，即yt∈{0,1}|V|0在VOG任务中，目标是将单词与视觉输入的真实描述进行关联，即我们对于每个可关联的单词都有一个边界框bt。在GVD任务中，目标是生成一个视觉描述Y并将每个生成的可关联单词yt与边界框bt进行关联。在这项工作中，我们提出设计一个模型，可以在图像和视频领域同时处理这两个任务，并且可以通过弱监督的方式进行训练，即通过对齐的视觉输入和视觉描述对{(I(n),Y(n))}Nn=1进行训练。为了实现这一目标，我们将关联问题视为一个词到区域对齐的问题，通过利用一个现成的物体检测器[23]得到的M个候选区域提案R={rm}Mm=1。然后，定位问题被简化为识别变量zt∈{0,1}M，其中∥zt∥=1，表示第t个单词对应的区域。我们的关键思想是将词到区域对齐建模为深度条件生成模型中的潜在变量。为此，我们提出了一种新颖的基于Grounded Visual DescriptionConditional Variational Autoencoder(GVD-CVAE)的模型。如图2所示，学习这样一个模型使我们能够利用词到区域对齐的后验分布来基于整个句子进行单词的关联，而不同于基于注意力的关联方法。𝒙𝟏 𝒙𝟐 𝒙𝟑𝒙𝑴− log 𝑝𝜃 𝑦𝑡 = 𝑦𝑡∗ 𝑧𝑡(𝑠), 𝑦<𝑡, 𝑅, 𝐼)𝒉1𝒉2𝒉𝑡𝒉𝑡−1𝜙𝜃X =CNN…𝐼RoIAlign𝑝𝜃 = 𝐶𝑎𝑡(𝒂𝜃𝑡 )𝑞𝜙 = 𝐶𝑎𝑡(𝒂𝜙𝑡 )𝒛𝒕(𝒔)LSTM 𝒉𝑡+1𝑋𝑋𝑲𝑳(𝒒||𝒑)𝜃𝜃pθ(yt | y 足球0� � = 足球运动员0q-注意力0网络0p-注意力0网络0区域特征0提议0嵌入0球体 � 区域集合 � 输入图像0� � 第 t 个对齐的区域 � �第 t 个词0采样的区域索引0先验0近似后验0解码器0图3.我们提出的GVD-CVAE架构。输入图像和提议通过视觉编码器传递，产生区域嵌入。先前的单词计算出先验的词到区域对齐，而完整句子计算出近似后验。在训练过程中，从近似后验中采样一个区域，并将其输入到语言解码器中预测下一个词。03.2.基于注意力的条件变分自编码器用于基于视觉描述的建模0令 Z = { z 1 , . . . , z T }为与单词和区域对齐对应的潜变量序列，其中 z t ∈ { 0 , 1} M 是一个二进制离散随机变量，当第 i个区域提议对应于第 t 个词 y t 时，z t,i = 1。给定输入视频（或图像）I和候选区域R，字幕Y和对齐序列Z的联合条件分布p θ ( Y, Z | R, I)可以按照自回归的方式分解为：0T0其中 y

下载后可阅读完整内容，剩余1页未读，立即下载