图像中对象的引用表达式生成方法

108 浏览量更新于2023-10-15 收藏 736KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1理解引导的指称表达罗若天TTI-Chicagorluo@ttic.edu格雷戈里·沙赫纳罗维奇greg@ttic.edu摘要我们认为自然语言的生成和理解涉及图像中的对象的表达。与缺乏自然标准评估标准的通用“图像字幕”不同根据这种直觉，我们提出了两种方法来利用为计算任务训练的模型来生成更好的表达式。首先，我们使用一个理解模块训练人类生成的表达式，作为一个理解模块充当人类评价的可区分其次，我们在生成和重新排序管道中使用理解模块，该管道根据模型在理解任务中的表现从模型生成的候选表达式中进行选择我们表明，这两种方法导致多个基准数据集上改进的引用表达式生成。1. 介绍图像字幕是描述图像的文本的自动生成，近年来受到广泛关注 . 深度学习，特别是递归神经网络（RNN），已经导致了最新技术的显着改进然而，目前用于评估图像字幕的指标这错过了许多场景的适当字幕的自然多模态分布。指称表达是意象表达的一种特殊情况。这样的表达描述了图像中的对象或区域，目的是为收听者唯一地识别它。因此，与通用字幕相比，引用表达式生成具有自然的评估度量：人应当容易地理解该描述并识别所描述的对象。在本文中，我们考虑两个相关的任务。一是生成任务：为图像中的对象生成区别性指代表达式。另一个是COM-最大可能性：左边有一碗食物MMI：左边有一碗食物代理：左下角的一碗食物重新排名：左下角碗最大可能性：绿色鸟英文名：Bird with Green Leaves代理：模糊鸟英文名：Blurry Bird图1：对于每个图像，顶部的两个表达式由[23]中提出的基线模型生成;底部的两个表达式由我们的方法生成。扩展任务（在[15]中称为自然语言对象检索）：在给定指称表达式的图像中定位对象。大多数先前的工作都通过建立序列生成模型来解决这两个任务。这样的模型可以用于区分的理解任务，通过推断的区域，最大化的表达后验。相比之下，我们从生成对抗网络[10，26]中的生成器结构中获得灵感。在GAN中，生成器模块试图生成信号（例如，自然图像），并且该识别模块试图将真实图像与生成的图像区分开。对于我们的任务，生成器生成引用表达式。我们希望这些表达式对人类来说既可理解/流利又明确。可以通过使用关于人类生成的表达的标准交叉熵损失来鼓励流畅性）。另一方面，我们采用了一个理解模型作为“符号”，它告诉我们表达式是否可以被正确地解引用。请注意，我们也可以将理解模型视为生成器所做的“动作”的我们的架构是协作的，而不是GAN中71027103理解模块“告诉”生成器如何改进它生成的表达式。我们的方法比GAN简单得多，因为它避免了交替优化策略我们调整压缩-图像LSTMhension模型，因此它变得相对于其表达式输入可微。因此，我们把它变成人类理解的代理，为生成器提供额外的训练信号这（第一，据我们所知）试图将自动指称表达生成与一个区分理解模型集成在一个协作框架中是我们的主要争议。具体来说，我们有两种方式利用压缩模型。generate-and-rerank方法使用动态理解，类似于[1]，他们试图为剪贴画图像生成明确的标题。的生成模型生成一些候选表达式，并将它们传递给理解模型。最终输出表达式是具有最高生成理解分数的表达式，我们将在后面描述。代理方法的训练在精神上更接近GAN。将生成模型和理解模型连接起来，并对生成模型进行优化，以降低区分性理解损失（除了交叉-熵损失）。我们研究了这种方法的几种训练策略，以及一种通过标准反向传播使代理模型可训练的技巧。与generate-and- rerank方法相比，代理方法的训练2. 相关工作现代图像字幕文献[32，17，22]的主要方法是使用卷积神经网络（CNN）对图像进行编码，并将其作为输入馈送到RNN，能够生成任意长度的单词序列。虽然字幕通常旨在描述整个图像，但一些工作考虑了区域，通过将它们纳入注意力机制[35，21]，将句子中的单词/短语与区域对齐[17]，或通过在每个区域的基础上定义后者包括在不要求明确的情况下收集的标题的数据集，因此它们不能被视为指涉表达。基于文本的图像检索被认为是一项依赖于图像字幕的任务[32，17，22，35]。然而，在这方面，它也可以被视为多模态嵌入任务。在以前的作品[7，33，34]中，这样的嵌入已经分别针对视觉和文本输入进行了训练，目标是最小化匹配损失，例如，余弦距离上的铰链损失，或者在标题和图像上强制偏序[31]。[28]尝试了不同的文本嵌入网络来进行细粒度的图像检索。更接近本文的重点，图2：生成模型如何描述蓝色边界框内的区域的说明和eos>代表句子的开始和结束。图像查询图3：使用软最大损失的理解模型的说明。蓝色边界框是目标区域，红色边界框是错误区域。CNN共享权重。在标准数据集发布后引起了人们的兴趣[18，36，23]。在[15]中，通过评估给定图像P（S）的句子的概率，将字幕生成模型用于生成任务|I）作为匹配分数。同时，[23]还提出了一个联合模型，其中理解和生成方面使用最大余量最大互信息（MMI）训练进行训练。这两篇论文都使用了整体图像，区域和位置/大小特征。基于[23]中的模型，[25]和[37]都试图在其框架中对上下文区域进行建模。我们的方法是试图结合简单的模型，并取代最大利润损失，这是正交的建模上下文，与代理更接近最终的目标-这就需要一个理解模型，在给定一个指称表达式的情况下，它可以推断出图像中的适当区域。在文献中提出的理解模型中，[29]使用多模态嵌入并将理解任务设置后来，[8]通过用紧凑的双线性池化层替换级联层实现了轻微的改进。本文所用的压缩模型就属于这种多模态嵌入的范畴.[ 1 ]中的演讲者被训练来生成字幕，而听众则被训练来预先生成字幕。白衬衫CNN白衬衫EOS>CNNCNNCNNCNN白衬衫EOS>平均池化Bi-LSTM单词嵌入SoftMax点积7104G我给出正确的图片，而不是错误的图片。在测试时，听众重新排列从扬声器采样的字幕。我们的generate-and-rerank方法是基于将此思想转化为引用表达式生成。3. 生成和理解模型我们首先定义了我们提出的协作架构中使用的两个模块每个都可以作为一个独立的机器进行训练，以解决它所解决的任务，给定一个具有地面真值区域/引用表达式的数据集。3.1. 表达式生成模型我们使用[36，23]中介绍的一个简单的表达式生成模型生成任务获取图像的输入I和内部区域r，并输出表达式w，G：I×r→w。考虑一个模型 PG（w|I，r），其中G（I，r）= argmax P G（w|第一条（r）款（1）W给定一组（图像，区域，表达式）元组，{（i，wi，ri）}，我们通过最大化似然来训练PG其中，wi，t是基础真值表达式wi的第t个字，Ti是wi的长度。在实践中，不是精确地推断argmax w P G（w|I，r），使用波束搜索、贪婪搜索或采样来获得输出。3.2. 理解理解任务是从查询表达式q和图像I的一组区域R={ri}gi中选择一个区域（边界框）ri。C：I×q×R→r，r∈R（ 5）我们还将理解模型定义为后验分布P C（r|I，q，R）。给出了一个压缩模型的估计域为：r_（max）=argm_（max）r_（ PC ）（r|I，q，R）。总的来说，我们的理解模型非常相似（29）。为了建立模型，我们首先定义一个相似性函数f sim。我们使用与生成模型中相同的视觉特征编码器结构。对于查询表达式，我们使用一层双向LSTM[12]对其进行编码。我们对每个时间步的隐藏向量进行平均，以便我们可以为任意长度的查询获得固定长度的表示。h=fLSTM（EQ），（6）P= argmaxPGΣlogP G（w i|I i，r i）（2）我其中，E是从预-训练的word2vec[24]，Q是查询表达式的独热表示，即Qi，j=1（q i= j）。与[29]不同，它使用级联+ MLP来计算。具体地，生成模型是编码器-解码器网络。首先我们需要对来自ri和Ii的视觉信息进行编码。如[15，36，25]所示，我们使用的编码包括：目标对象表示O i、全局上下文特征G i和位置/大小特征L i。在我们的实验中，在相似性之后，我们使用一个简单的点积，如[4]。f sim（I，ri，q）= v Th.（七）我们认为两个公式的理解任务分类。区域物流损失是在最后一个完全P（r|I，q）= σ（f（I，r，q）），（8）VGG-16的连接层fc 7[30];gi是fc 7acti-Ci辛伊Σ在整个图像Ii上的vation;Ii是5D矢量编码R1的边界框的对角以及相对于图像大小的边界框大小该区域的最终视觉特征向量Vi是线性变换，L bin= − log P C（r i|I，q）−我log（1−P C（r i|I，q）），i*（九）三个特征[oi，gi，li].图2显示了生成模型的结构。为了生成序列，我们使用单向LSTM解码器[14]。LSTM在每个时间步的输入包括视觉特征和先前的单词嵌入。LSTM在一个时间步的输出是预测的下一个单词的分布。训练模型以最小化交叉熵损失，相当于最大化可能性，我的天7105eCG其中r i 是地面真实区域，对应于每个-区域分类：这个区域是否与表达式匹配。softmax损失esiPC（ri|I，q，R）=Si，（10）我L multi=−logP C（r i|I，q，R），（11）其中si=fsim（I，ri，q），将任务框定为多类分类：集合中的哪个区域应该与表达式匹配。该模型经过训练，以最小化理解Lgen=我t=1llogPG（wi，t|wi，

下载后可阅读完整内容，剩余1页未读，立即下载