持续语言教学的图像生成和修改模型

5 浏览量更新于2023-10-12 收藏 690KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10304讲述、绘制和重复：基于持续语言教学的图像生成和修改Alaaeldin El-Nouby1，4， Shikhar Sharma2Hannes Schulz2Devon Hjelm2，3，5Layla El Asri2Samira Ebrahimi Kahou2Yoonge Bengio3，5，6 Graham W.Taylor泰勒1，4，61圭尔夫大学2微软研究院3蒙特利尔学习算法研究所4Vector Institute for Artificial Intelligence5蒙特利尔大学6加拿大高等研究院摘要有条件的文本到图像生成是一个活跃的研究领域，有许多可能的应用。现有的研究主要集中在从可用的条件反射信息一步生成单个图像。一步生成之外的一个实际扩展是迭代地生成图像的系统，以正在进行的语言输入或反馈为条件。这明显比一步生成任务更具挑战性，因为这样的系统必须理解其生成的图像关于反馈历史、当前反馈以及反馈历史中存在的概念之间的相互作用的内容。在这项工作中，我们提出了一个经常性的图像生成模型，它既考虑到生成的输出到当前的步骤，以及所有过去的指令生成。我们表明，我们的模型是能够生成的背景，添加新的对象，并适用于简单的转换，前对象。我们相信我们的方法是迈向互动生成的重要一步。代码和数据可从以下网址获得： https：www.microsoft.com/en-us/research/project/generative-neural-visual-artist-geneva/.1. 介绍视觉是人类体验、互动、理解和学习周围世界的最重要方式之一。能够为人类用户生成图像和视频的智能系统具有广泛的应用，从教育和娱乐到追求创造性艺术。这些系统也有可能作为身体残疾者的无障碍工具;现在许多现代和创造性的作品都是使用数字图形设计工具生成或编辑的，这些工具的复杂性可能导致无障碍问题，特别是对于技术知识或资源不足的人。一个系统，可以遵循语音或文本为基础的*工作是在微软研究院实习期间完成的空画布在中心添加一个黄色1号弯在它后面右边加一个紫色的立方体2号弯在它的左边前面和黄色球体的左边前面分别添加一个蓝色球体GeNeva-GAN图1.我们提出了生成神经视觉艺术家（GeNeVA）任务。从一个空画布开始，一个Drawer（GeNeVA-GAN）根据一系列指令和来自Teller的反馈迭代地构建一个场景。指令，然后执行相应的图像编辑任务，可以大大提高可访问性。这些益处可以容易地扩展到图像生成的其他领域，诸如游戏、动画、创建视觉教学材料等。在本文中，我们通过引入神经视觉艺术家任务，在这个令人兴奋的研究方向上迈出了一步条件生成模型允许从其他输入源生成图像，例如标签[1]和对话[2]。以自然语言为条件的图像生成是一个困难但有吸引力的目标[3，4，5，6]。虽然这些模型能够为简单的数据集（例如鸟、花、家具等）生成高质量的图像，复杂数据集的好的标题条件生成器，如Microsoft CommonObjects in Context（MS COCO）[7]是不存在的。缺乏好的生成器可能是由于字幕的信息内容有限，这些内容不够丰富，无法描述整个图像[2]。组合ob-10305在生成最终图像之前，使用生成边界框和对象掩模的中间步骤来进行对象注释可以改善结果[5]。而不是构造图像给定的标题，我们专注于学习迭代生成图像的基础上，连续的语言输入。我们称这个任务为生成神经视觉艺术家（GeNeVA），灵感来自于将空白画布逐渐转换为场景的过程。经过训练来执行此任务的系统应该能够利用文本条件下的单个图像生成的进步。1.1. GeNeVA任务和数据集我们在图1中展示了GeNeVA任务的示例对话，其中涉及Teller向Drawer提供一系列语言指令，以实现图像生成的最终目标。出纳员能够通过所生成的图像的视觉反馈来衡量进展这是一项艰巨的任务，因为绘图者需要学习如何将复杂的语言指令映射到画布上的现实对象，不仅维护对象属性，而且维护对象之间的关系（例如，相对位置）。绘图员还需要以与先前图像和说明一致的方式修改现有绘图，因此需要记住先前的说明。所有这些都涉及理解场景中对象之间的复杂关系，以及这些关系如何以与给出的所有指令一致的方式在图像中表达。对于这项任务，我们使用合成协作绘图（CoDraw）数据集[8]，它由图像序列以及相关的指令对话和语言反馈组成（图 2 ）。此外，我们还介绍了交互式CLEVR（i-CLEVR）数据集（图4），这是组合语言和基本视觉推理（CLEVR）[9]数据集的修改版本，用于基于语言指令增量构建CLEVR场景通过使用两个经过充分研究的合成数据集来减轻生成自然图像的难度，虽然照片级逼真的图像无疑更具挑战性，但我们的模型绝不限于合成图像生成。我们期望从这种设置中获得的见解对于在自然图像设置中取得成功至关重要。与GeNeVA最相似的任务是CoDraw作者提出的任务。它们需要模型通过将各个对象的剪贴画图像放置在正确的位置来构建场景换句话说，模型预测将在坐标空间中用于其任务，而对于GeNeVA任务的模型，它们将在像素空间中自然图像在GeNeVA任务的范围内，其中生成对抗网络（GAN）目前是最先进的。非基于像素的方法将限于放置对象的预分割的特定姿态。对于这样但是，如果使用这种方法，获得所有对象的所有可能姿态的预分割集合将是极其困难的，例如，在不同的光照条件下。此外，基于像素的模型不一定需要对象标签，因此它可以在没有此类注释的情况下轻松缩放。1.2. 贡献我们的主要贡献概述如下：• 我们介绍了GeNeVA任务，并提出了一种新的循环GAN架构，专门用于plausi-在教学史的背景下对图像进行简单的修改• 我们介绍了i-CLEVR数据集，这是CLEVR [9]的顺序版本，具有相关的语言描述，构建每个CLEVR场景的要素，并为其建立基线。• 我们提出了一个关系相似性度量，评估模型位置与指示相符。• 我们证明了复杂场景的迭代生成的重要性，通过显示我们的方法执行非迭代基线。我们在CoDraw和i-CLEVR数据集上的实验表明，我们的模型能够生成基于先前生成的图像并按照所提供的说明进行增量构建的图像。该模型能够学习复杂的行为，例如绘制新对象、在图像中移动对象以及重新调整这些对象的大小。除了报告定性结果外，我们还训练了一个对象定位器，并通过比较地面实况与生成的图像。2. 相关工作GANs [10]代表了一个强大的生成模型家族，其优势和优势扩展到条件图像生成。存在几种调节方法，例如在标签上调节生成器和判别器[1]，以及训练辅助分类器作为分类器的一部分[11]。更接近于GeNeVA基于文本的条件反射，Reed等人。[3]根据所提供的字幕生成图像。Zhang等人[4]提出了一种称为StackGAN的两阶段模型，其中第一阶段生成以字幕为条件的低分辨率图像，第二阶段生成以先前图像和字幕为条件的较高分辨率图像。Hong等人[5]提出了一个三步生成过程，其中他们使用外部分割和MS COCO的边界框注释，首先生成边界框，然后是对象的掩码，然后是最终图像。 AttnGAN [6] 在StackGAN的基础上引入了注意力生成器网络，使生成器能够在注意力机制的条件下合成图像中的不同空间位置10306˜˜不不不转1转2转3转4左上角的大太阳，或者-部分切割。右边最右边中等苹果树。我看见四个苹果出纳员：左边的女孩大尺寸，运行-宁，面朝右。在Hori- zon上面出纳员：覆盖在树上上画面的右边是一个男孩，踢着脚，脸朝左。头在绿色部分上。大块头，黑眼镜踢球。出纳员：使树变大，往上往左移一点。男孩的手覆盖树干。抽屉：ok ready抽屉： ok抽屉： ok图2.一个来自CoDraw [8]数据集的例子数据集中的每个例子都涉及出纳员和抽屉之间的对话出纳员可以访问最终图像，并且必须迭代地向绘图员提供文本指令和反馈，以引导他们绘制相同的图像。抽屉在收到指示或反馈后更新图像在最初的CoDraw设置中，Drawer预测对象的位置和属性来组成场景。在GeNeVA中，我们的任务是直接在像素空间中生成图像在标题中的文字上的nism它还引入了一个图像-文本相似性模块，鼓励生成与所提供的标题更相关的图像。从纯粹的标题数据出发，Sharma et al.[2]提出了一种称为ChatPainter的非迭代模型，该模型使用对话数据生成图像。ChatPainter对来自MS COCO的标题和与标题相关的递归神经网络（RNN）编码对话（从VisualDialog（VisDial）[12]数据集获得）进行条件分析以生成图像。作者表明，基于问题回答的对话捕获了比标题更丰富的图像信息，这使得Chat- Painter能够生成比单独使用标题更自从VisDial对话被收集以来，基于连续的文本指令修改中间图像，使得每个生成的图像与过去的指令一致3. 方法在本节中，我们描述了用于GeNeVA任务的条件递归模型架构的概述如图3所示。3.1. 模型在出纳员和绘图员之间的n步交互期间，出纳员提供绘图画布x0和指令序列Q=（q1，. . . ，qn）。对于对话中的每一个回合，条件生成器G输出一个新的从MS COCO数据集来看，没有中间体，在对话的每一轮中吃增量图像。的图像x~=G（z，h，f），（1）因此，模型仅读取整个对话并生成单个最终图像，因此该设置与现实生活中的草图艺术家场景不同，在现实生活中，艺术家必须根据反馈不断对当前草图进行更改。最近还在执行文本到图像生成任务之外的循环图像生成方面进行了工作Yang等人。[13]以递归步骤执行无监督图像生成，首先生成背景，随后对其进行调节以生成前景和掩模，最后使用仿射变换来组合前景和背景。Lin等人[14]解决了将前景对象放置在自然位置的背景图像上的图像合成任务。然而，该方法限于固定的对象模板，并且代替直接生成图像，模型递归地生成变换的参数以继续应用于对象模板，直到图像足够接近自然图像流形。他们的方法也不会修改图像中的前对象这两种方法都旨在生成单个最终图像而不结合任何外部反馈。据我们所知，所提出的模型是第一个可以递归生成和其中，是从正态分布采样的噪声向量N（0，1）的维数为Nz。G以两个变量ht和fGt−1为条件，其中ht是上下文感知的条件，fGt−1是上下文无关的。上下文无关条件fGt−1=EG（xt−1）是使用编码器EG对先前生成的图像xt−1进行的编码，该编码器EG是浅卷积神经网络。美国有线电视新闻网（CNN）.假设输入为正方形，编码器产生维数为（Kg×Kg×Ng）的低分辨率特征图.上下文感知条件ht需要能够访问对话历史，使得它可以在直到时间t-1的对话历史的上下文中学习指令的更好的编码。每个指令qt使用双向GloVe单词嵌入之上的门控递归单元（GRU）该指令编码由dt表示。我们将ht表示为递归函数R，它将指令编码dt以及前面的条件ht−1作为输入。我们用第二GRU实现R，其产生具有维度Nc的ht：h t= R（d t，h t−1）。（二）Gt−110307不t t-1t+1t+1 t中文（简体）ND（x，h，x）辅助检测器D（x，h，x）辅助检测器htDht+1D融合融合ED EDEDxt-1x txtxt+1fGt-1GhtfGtGht+1调节t增强htzt+1调节增强ht+1ht-1不Dtht+1dt+1图3.GeNeVA-GAN架构概述对于每个时间步长t，使用双向GRU将指令qt编码为dt。前一个时间步长生成的图像x~t−1（在训练时间使用地面真值xt−1 进行教学）使用E G编码为fGt−1。一个G R U输出一个context-aw areconditionhtasafunctionofdtandthepreviousconditionht−1. 生成器G生成以ht和fGt-1为条件的图像x~t。 fGt−1被连接到G的具有相同空间维度的特征映射，而ht被用作条件批归一化的输入。来自当前时间步的图像（地面实况xt或生成的x~t）和前一时间步地面实况图像使用ED来编码。来自两个图像的特征被融合，然后作为输入被传递到CXD。最后，使用上下文感知条件ht来调节D。在D中还增加了一个检测场景中所有物体的辅助目标。上下文无关条件f Gt−1表示由最近生成的图像（即当前画布的表示）。另一方面，上下文感知条件ht表示柜员在新图像中描述的修改。在我们的模型中，在应用条件增强[4]之后，上下文感知条件与噪声向量zt级联，如图3所示。与Miyato和Koyama [16]类似，它也用于将条件批归一化应用于所有生成器与上下文无关的条件fGt−1与生成器的中间层L f G的特征映射相连接修改的质量，而不仅仅是整体图像质量。这为生成器提供了更好的训练信号此外，上下文感知条件ht−1通过类似于[16]的投影用作D的条件第二，对于错误损失，除了将真实图像标记为正例和将生成图像标记为负例之外，我们还添加了一个术语来表示[真实图像，错误指令]的组合，类似于Reed等人。[3]。最后，我们添加了一个辅助目标[11]，即在当前时间步检测场景中的所有对象。交替训练生成器和训练器以最小化对抗铰链损失[17，18，19]。鉴别器最小化由于我们正在对图像的迭代修改进行建模，因此在每一步都只区分真实图像和生成图像的CXD是不够的。哪里LD=L1D真实+2（LD假+LD错）+βL辅助，⑶鉴别器还应识别图像被不正确地修改为指令LDreal =−E（xt，ct）p数据（0：T）[min（0，−1+D（xt，ct））]LD错误 =−E（xt，c<$t）p数据（0：T）[min（0，−1−D（xt，c<$t））]或者根本不修改。为了实现这一点，我们引入了三个LD=−Ez <$N，c<$p[min（0，−1−D（G（zt，ct），ct））]，对鉴别器的修改。首先，图像编码器假t t数据（0：T）ED用于编码当前时间步长图像（真实的或生成的）和先前时间步长地面实况图像，如图3所示。输出的特征图的尺寸（Kd×Kd×Nd）通过融合层。我们尝试了元素减法和级联，将特征图作为用于融合的不同选项。融合的特征通过鉴别器D。将当前图像和前一图像的融合表示传递给鉴别器会鼓励它关注其中c={ht，fGt−1}，ct={ht，xt−1}。最后，y，c_t与c_t相同，但是具有错误的指令，并且T是指令序列Q的长度。辅助任务的损失函数是在该时间步处所有N个Laux=L−（yilog（pi）+（1−yi）log（1−pi）），i=0时其中yi是每个对象的二进制标签，指示是否疯狂男孩踢足球面向左Qt疯男孩踢左Dt双向GRU语言编码EGt-1xt-1图像编码GRUGRU中文（简体）zH10308γ˜˜它在当前时间步出现在场景中。请注意，我们没有用t来索引损失以简化符号。在应用具有ht的投影调节之前，将维度为N的线性层添加到最后一个非线性层。将S形函数应用于N个输出中的每一个，产生pi，对象i的模型检测预测。发电机损耗项为LG=−Ezt <$pz，ct<$pdata（0：T）D（G（zt，c<$t），ct）+βLaux （四）此外，为了帮助训练稳定性，我们将零中心梯度惩罚正则化应用于仅具有权重因子γ的真实数据上的判别器[20]，4.1. CoDrawCoDraw [8]是最近发布的一个类似剪贴画的数据集。它由场景组成，这些场景是孩子们在公园里玩耍的图像序列。孩子们有不同的姿势和表情，场景包括其他物体，如树木，桌子和动物。总共有58个对象类型。与每个场景相对应的是，Teller和Drawer（都是Amazon Mechanical Turk的工作人员）之间用自然语言进行的对话。Drawer根据Teller的指示更新抽屉也可以提出问题以澄清。该数据集由9，993个不同长度的场景一例这样的GPReg（Φ）=E2pD（x）[DΦ（x）第2段]。（五）场景如图2所示初始绘图画布x0“为国为民”的背后，3.2.实现细节生成器和判别器的网络架构遵循Miy- ato和Koyama[16]使用的ResBlocks架构。继SAGAN [19]之后，我们将自我注意力层添加到具有空间的中间层尺寸为16×16，用于整流器和发电机。我们使用光谱归一化[18]中的所有层鉴别器对于训练动态，生成器和鉴别器参数在每个时间步长更新，而EG、R和文本编码器的参数在每个序列更新。文本编码器和网络R仅针对训练目标进行训练我们将层规范化[21]添加到文本编码GRU，以及实现R的GRU。我们将批归一化[22]添加到图像编码器EG的输出。我们发现，添加这些归一化方法对于所有模态的梯度流都很重要。在训练中，我们使用了教师强制，使用的是真实图像x t−1，而不是生成的图像x t−1，但我们在测试时使用x t−1。我们对GAN使用Adam [23]优化器，学习率为0.0004。0.0001用于发生器，使用相同数量的更新进行训练。我们也将Adam用于学习率为0.003的文本编码器和学习率为3·10−4的GRU。在我们实验的跟随超参数效果最好，N Z =100，N c=1024，K g =16，Ng=128，Kd=16，Nd=256，γ=10，β=20。更多详情见附录。4. 数据集对于GeNeVA任务，我们需要一个包含描述绘制操作的文本指令的数据集，以及只有天空和草地的地面。预处理：在原始数据集的一些实例中，Drawer在修改图像之前等待多个Teller轮次。在这些情况下，我们将连续的转弯连接成单个转弯，直到抽屉修改图像。我们还连接转弯，直到添加或删除新对象。因此，每一轮都有一个图像，其中的对象数量自上一轮以来发生了变化。我们将时间步t处的Drawer和Teller的级联话语视为指令，在Teller和Drawer之间注入特殊的定界令牌Teller和Drawer文本包含几个拼写错误，我们在整个数据集上运行 Bing Spell Check API1 进行更正。对于GloVe词汇表中不存在的单词，我们使用来自GloVe的我们使用原始CoDraw数据集中提出的相同训练有效测试分割。4.2. i CLEVRCLEVR [9]是一种编程生成的数据集，在可视化问题分类（VQA）社区中很受欢迎。CLEVR由不同形状、颜色、材料和大小的物体集合的图像组成每个图像都被分配了关于对象计数、属性或存在的复杂问题。我们在CLEVR的开源生成代码2的基础上创建了迭代CLEVR（i-CLEVR）。数据集中的每个示例由5个（图像、指令）对的序列组成。从一个空的画布（背景）开始，每个指令描述一个对象，以根据其形状和颜色添加画布该指令还描述了对象应相对于场景中现有对象放置的位置为了使任务更加复杂，并强制模型使用上下文，我们用“it”来指代最近添加的对象，而来自i-CLEVR数据集的示例每个指令对应的地面实况图像。到据我们所知，唯一公开的此类数据集是CoDraw。此外，我们还创建了一个名为i-CLEVR的新数据集，专门为这项任务设计。1https://azure.microsoft.com/en-us/services/cognitive-services/spell-check/2https://github.com/facebookresearch/clevr数据集生成10309在中心添加一个青色圆柱体在它后面左边加一个红色的立方体在它的右边和青色圆柱体的在它的右边后面和红色立方体的右边前面添加一个紫色立方体在左侧紫色圆柱体的后面和右侧图4.来自i-CLEVR数据集的图像指令对的示例序列。如图4所示。i-CLEVR的初始绘图画布x0模型的任务是学习如何基于文本指令在合理的位置添加具有正确属性的对象。关于数据集生成的更多细节可以在附录中找到。i-CLEVR数据集由10，000个序列组成，总计50，000个图像和指令。训练分割包含6,000个序列，而验证和测试分割各有2,000个序列。5. 实验在本节中，我们首先定义我们的评估指标，然后描述在CoDraw和i-CLEVR数据集上进行的实验。5.1. 评估指标用于评估GAN模型的标准指标，损失第二个头是一个线性层，我们回归所有对象的坐标。这个头是用L2损失训练的，其中掩码应用于仅计算在数据集中提供的地面实况图像中发生的观测损失。我们使用在ILSVRC 12（ImageNet）数据集上训练的预训练权重初始化模型，并在CoDraw或i-CLEVR数据集上进行微调。其性能报告见附录。关系相似性：为了定性地比较对象的布置，我们使用上述对象检测器/定位器来确定地面实况和生成的图像中对象的类型和位置。我们估计每个图像的场景图，其中检测到的对象和图像中心的顶点。有向边由顶点之间的左右和前后关系给出。为了计算场景图上的关系相似性度量，我们确定生成的图像中存在多少个地面真值关系：因为初始得分或Fre´ chet初始距离（FID）仅捕获相对于rsim（EGgt 、EG基因|EGgen ∩ EGgt|）=回忆×|E Ggt|（六）真实的图像它们无法检测模型是否根据GeNeVA任务指令正确修改了图像。一个好的评估指标需要确定是否所有的对象描述的出纳员都存在于生成的图像。它还应该检查对象的位置和关系是否与指令相匹配。为了捕获所有这些约束，我们在训练数据集上训练一个对象定位器。对于每一个例子，我们比较了这个定位器在真实图像和生成的图像上的检测。我们提出了这个对象检测任务的精度，召回率和F1分数。我们还构建了一个图，其中节点是图像中存在的对象，边缘是位置关系：左，右，后，前我们比较从真实图像和生成图像构建的图，以测试对象的正确放置，而不需要模型在相同的确切位置绘制对象（这将违背其生成性质）。对象检测器和定位器基于Inception-v3架构。我们修改了最后一层的对象检测和替换为两个头。第一个头是具有S形激活函数的线性层用作对象检测器。它是用二进制交叉熵其中，对于在地面实况图像中检测到的对象的已生成图像。EGgt是与地面实况图像和生成图像两者共同的顶点相对应的地面实况图像的关系边的集合，并且EGgen是与地面实况图像和生成图像两者共同的顶点相对应的生成图像的关系边的集合。完整数据集的图形相似性通过取整个数据集上每个示例的最终时间步长值的平均值来报告。该度量是实际关系准确性的下限，因为它基于对象如何在地面实况图像中定位来惩罚关系然而，相同的指令可以允许不同的关系图。我们提出了一些例子，低评分的高分图像在这个指标，以及额外的讨论rsim在附录中。5.2. 消融研究我们尝试了不同的变化，我们的archi- tecture，以测试每个组件的效果。我们定义架构的不同实例化如下：• Baseline模型的最简单版本。赔偿损失只包括对抗条款10310˜CoDrawi-CLEVR模型精度召回F1得分rsim（EGgt，EGgen）精度召回F1得分rsim（EGgt，EGgen）非迭代50.6043.4244.9622.3325.4920.9522.6311.52基线55.6142.3148.0525.3169.0956.3862.0845.19失配62.4748.9554.8932.7471.1560.5765.4450.21G先验60.7849.3754.4833.6082.8077.2279.9163.93Aux54.7851.5153.1033.8383.6375.6379.4355.36DConcat66.3851.2757.8533.5788.4783.3585.8370.22D减法66.6452.6658.8335.4192.3984.7288.3974.02表1.CoDraw和i-CLEVR数据集上GeNeVA-GAN消融研究的结果型号LD错fGt−1维融合Lauxconcat减因此，基线模型在两个数据集的所有指标上都具有最弱的性能。这是因为它需要在每一个时间步从零开始构建一个全新的图像;在连续的代之间不强制一致性。至于失配模型，尽管遭受与基线相同的问题，但训练D以区分错误和正确（图像，指令）对导致生成更好地匹配指令的图像。这在表1中是清楚的，表2.我们对每个型号中存在的组件进行了描述，在消融研究中进行测试。我是假的，我是真的。生成器仅使用上下文感知条件进行调节：x t=G（z，h t）. 对于时间步长，它不能访问先前的时间步长图像特征。只有x~t使用E_D编码，然后在没有任何融合操作的情况下传递到鉴别器D。• 失配L错误的长期被添加到歧视，或损失。模型的其余部分与基线相似• G先验我们在上下文无关条件fGt−1上加上等式（1）中的ht来约束生成器• 在这个模型中，我们将Laux项添加到发生器和鉴别器损耗。损失函数对于该模型，遵循等式（3）和（4）。• 在这个模型中，鉴别器的输入是来自x t − 1和x t（或x ~ t）的融合特征，融合是一个简单的连接，渠道维度。• D减法这与“D Concat”相同，• 非迭代非迭代基线使用与“不匹配”基线相同的模型。所有的输入指令都连接成一条指令，最终图像在单个步骤中生成。消融研究中我们测试的每个型号的组件总结见表2。5.3. 结果定量结果：我们在表1中给出了消融研究的结果。正如预期的那样，在迭代模式中与基线相比，所有指标都有所改善。G先验模型试图通过使用上下文无关条件fGt−1来强制世代之间的一致性。添加此条件可显著改善i-CLEVR数据集的所有指标。然而，对于CoDraw数据集，它在召回率和关系相似性方面的改善不太显著，而精度则有所下降。这些结果可以通过以下事实来解释：i-CLEVR在对象之间具有复杂得多的关系，并且指令对场景中的现有对象具有很强的依赖性。因此，该模型受益于访问对象在最近的迭代中是如何放置的对于CoDraw，对象之间的关系相对简单。然而，添加上下文感知条件有助于正确放置对象，如关系相似性度量的改进所示。使用上下文无关条件的一个可能的缺点是，很难从过去的错误中恢复过来，特别是当它与大型对象有关时。这个缺点可以解释精度的下降。对于Aux模型，它对两个数据集有不同的影响。对于CoDraw，它有助于提高召回率和关系相似性，但导致精确度显著下降。对于i-CLEVR，它有助于提高精度，但会损害召回率和关系相似性。每个数据集的这种不同行为可以通过存在的对象的类型来解释。而对于CoDraw，几乎总是存在像女孩或男孩一样的物体，对于i-CLEVR，物体存在的随机性很高。添加辅助目标鼓励模型确保频繁对象存在，导致召回率增加，同时损害精度。最后，我们观察让D访问先前的图像xt-1显示im-基线✗✗✗✗✗失配✓✗✗✗✗G先验✓✓✗✗✗Aux✓✓✓✗✗DConcat✓✓✓✓✗D减法✓✓✓✗✓10311抽屉：准备好了出纳员：大苹果树左侧树干开始23路绿色和大约1和14距左侧英寸出纳员：大云右边几乎碰到苹果树12英寸，变成蓝色出纳员：在云下面，全尺寸的女孩，她的头接触绿色的手的顶部，在云出纳员：男孩112到左边的女孩在右边的树下相同的高度，女孩面向右伸出右手，在双方出纳员：沙盒中等大小左下角面向屏幕的右左侧右下角等于树干的末端抽屉：是在中心添加一个蓝色立方体在它后面左边加一个红色的圆柱体在它的右边和蓝色立方体在它的后面右边加上一个青色的圆柱体，在红色圆柱体的前面右边加上一个青色的圆柱体在左边的红色圆柱体前面和蓝色立方体图5.我们的模型（D减）在CoDraw（顶行）和i-CLEVR（底行）上生成的示例图像;与所提供的说明一起显示。我们在预处理步骤中将两个数据集的图像缩放到128x128。对两个数据集的几乎所有指标进行了证明。我们还观察到，减法融合始终优于串联融合，并优于所有其他模型的两个数据集。这表明，鼓励训练器专注于修改为生成器提供了更好的训练信号。非迭代模型的性能比所有迭代模型都差。这可能是因为语言编码器难以理解冗长的连接指令中的依赖关系和对象关系。使用迭代模型的好处在i-CLEVR数据集中更明显，因为在其中，空间关系总是根据现有对象定义的。这使得很难在一个步骤中理解不同转弯的所有关系通过多个步骤，迭代生成使这项任务更容易。该实验的结果为复杂文本条件图像生成任务中的迭代生成提供了一个案例，这些任务传统上是非迭代执行的。定性结果：我们在图5中展示了一些由我们的模型生成的图像示例。由于空间限制，附录中提供了更多示例图像。在CoDraw上，我们观察到该模型能够生成与会话和生成历史一致的场景，并正确获得大部分粗略细节，例如大型对象及其相对位置。但它很难捕捉细粒度的细节，如微小的物体，面部表情和物体姿态。当一条指令要求同时添加多个对象时，该模型也会遇到困难。对于i-CLEVR，该模型可非常准确地捕获空间关系和颜色，如图5.然而，在某些情况下，当图像已经拥挤并且没有空间添加它而不移动其他对象我们还尝试在测试时使用中间地面真实图像作为初始图像，并且模型也能够在该场景中正确地概括和放置对象。实验结果见附录。6. 结论和未来工作我们为GeNeVA任务提出了一个递归GAN模型，并表明该模型能够迭代地为所提供的指令绘制合理的图像它也显著优于非迭代基线。我们提出了一项消融研究，以突出不同组件的贡献。由于该任务可能有几个合理的解决方案，并且没有现有的度量可以捕获所有这些解决方案，因此我们提出了一个关系相似性度量来捕获可能的关系。对于未来的研究方向，有一个系统，也可以问用户的问题时，它需要澄清可能会更有用。收集照片般逼真的图像、这些图像之间的转换以及这些转换的指令形式的注释是极其昂贵的;因此，公开地不存在适合于该任务真实照片数据集。需要这样的数据集来将该任务扩展到照片逼真的图像。确认我们感谢菲利普·巴赫曼的宝贵讨论。10312引用[1] Mehdi Mirza and Simon Osindero ， “Conditionalgenerative adversarial nets ， ”arXiv ： 1411.1784[cs.AI]，2014.[2] ShikharSharma ， DendiSuhubdy ， VincentMichalski，SamiraEbrahimiKahou和YoonyBengio，[3] Scott Reed ， Zeynep Akata ， Xinchen Yan ，Lajanugen Logeswaran ， Bernt Schiele 和 HonglakLee，[4] Han Zhang ， Tao Xu ， Hongsheng Li ， ShaotingZhang ， Xiaogang Wang ， Xiaolei Huang ， andDimitris N. Metaxas，“StackGAN：Text to photo-realistic im-age synthesis with stacked generativeadversarial networks ， ”in International Conferenceon Computer Vi- sion（ICCV），2017.[5] Seunghoon Hong ， Dingdong Yang ， JongwookChoi和Honglak Lee，[6] Tao Xu，Pengchuan Zhang，Qiuyuan Huang，HanZhang，Zhe Gan，Xiaolei Huang，and XiaodongHe，[7] Tsung-Yi Lin，Michael Maire，Serge Belongie，JamesHays ， PietroPerona ， DevaRamanan ，PiotrDolla'r，andC. 劳伦斯 · 齐特尼克， “ 微软 COCO ： Commonobjects in context” ，欧洲计算机视觉会议（ECCV），2014年。[8] Jin-Hwa Kim ， Nikita Kitaev ， Xinlei Chen ，Marcus Rohrbach ， Beng-Tak Zhang ， YuandongTian，Dhruv Batra，and Devi Parikh，“CoDraw：Collabo- rative drawing as a testbed for groundedgoal-driven communication，”in Proceedings of the57thConferenceoftheAssociationforComputational Lin-guistics，2019，pp. 6495-6513.[联机]。可用网址：https：//www.aclweb.org/anthology/P19-1651[9] Justin Johnson ， Bharath Hariharan ， Laurens vander Maaten ， Judy Hoffman ， Li Fei-Fei ， CLawrence Zit- nick和Ross Girshick，[10] Ian Goodfellow ， Jean Pouget-Abadie ， MehdiMirza ， Bing Xu ， David Warde-Farley ， SherjilOzair，Aaron Courville，and Yoshua Bengio，ial nets，[11] Augustus Odena ， Christopher Olah 和 JonathonShlens，[12] Abhishek Das，Satwik Kottur，Khushi Gupta，AviSingh ， Deshraj Yadav，Jose´ M.F.Devi Parikh 和Dhruv Batra，“Visual Dialog”，计算机视觉和模式识别会议（CVPR），2017年[13] 杨建伟、 Anitha Kannan 、 Dhruv Batra 和 DeviParikh，“LR-GAN：Layered recursive general- tiveadversarial networks for image generation ， ”inInternational Conference on Learning Representations（ICLR），2017.[14] Chen-Hsuan Lin，Ersin Yumer，Oliver Wang，EliShechtman，and Simon Lucey，“ST-GAN：用于图像合成的空间Transformer生成对抗网络，“计算机视觉和模式识别会议（CVPR），2018年。[15] Jeffrey Pennington ， Richard Socher 和 ChristopherManning，[16] Takeru Miyato和Masanori Koyama，[17] Jae Hyun Lim and Jong Chul Ye，[18] Takeru Miyato ， Toshiki Kataoka ， MasanoriKoyama和Yuichi Yoshida，[19] Han Zhang，Ian Goodfellow，Dimitris Metaxas和Augustus Odena，[20] Lars Mescheder ， Andreas Geiger 和 SebastianNowozin，2018年国际机器学习会议[21] Jimmy Ba，Ryan Kiros，and Geoffrey E. Hinton，“Layernormalization ， ”arXiv ： 1607.06450[stat.ML]，2016.[22] Sergey Ioffe和Christian Szegedy，“批次正常化：通过减少内部协变量偏移来加速深度网络训练， ”JournalofMachineLearningResearch（JMLR），2015年。[23] 迪德里克山口Kingma和Jimmy Ba，2015年国际学习表征会议（ICLR）

下载后可阅读完整内容，剩余1页未读，立即下载