故事可视化：使用StoryGAN模型生成连贯的图像序列

161 浏览量更新于2023-10-18 收藏 1.05MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

16329StoryGAN：一个用于故事可视化的李一彤1、甘哲2、沈业龙4、刘晶晶2、成宇2、吴跃新5、劳伦斯·卡林1、大卫·卡尔森1、高剑锋31杜克大学，2微软Dynamics 365人工智能研究，3微软研究4腾讯人工智能研究院、5卡内基梅隆大学摘要真/假？与文本一致？一致？在这项工作中，我们提出了一个新的任务称为故事可视化。给定一个多句子段落，通过生成一系列图像来可视化故事，每个句子一个图像。与视频生成相比，故事可视化较少关注生成的图像（帧）中的连续性，而是更多地关注动态场景和角色之间的全局一致性-这是任何单一图像或视频生成方法都没有解决的因此，我们提出了一个新的故事到图像序列生成模型，StoryGAN，基于顺序的CONSTRUCTURAL GAN框架。我们的模式是独一无二的，“波罗罗和克朗在一起钓鱼。克朗正在看水桶。波罗罗的钓竿上有一条鱼。”“波罗罗和克朗在一起钓鱼。克朗正在看水桶。波罗罗的钓竿上有一条鱼。““波罗罗和克朗在一起钓鱼。克朗正在看水桶。波罗罗的钓竿上有一条鱼。”由一个深度上下文编码器组成，+++故事流，以及故事和图像级别的两个鉴别器，以提高图像质量和一致性波罗罗和克朗是一起钓鱼。克朗正在看水桶。波罗罗的钓竿上有一条鱼。生成的序列。为了评估模型，我们修改了现有数据集以创建CLEVR-SV和Pororo- SV数据集。从经验上看，StoryGAN在图像质量、上下文一致性指标和人类评估方面优于最先进的模型。1. 介绍学习从自然语言故事生成有意义且连贯的图像序列是一项具有挑战性的任务，需要对自然语言和图像进行理解和推理。在这项工作中，我们提出了一个新的故事可视化任务。具体来说，目标是生成一系列图像来描述用多句段落写成的故事，如图1所示。这项任务有两个主要挑战。首先，图像序列必须连贯一致地描述整个故事。该任务与生成图像的文本到图像生成[35，28，17，36，34]这项工作是在第一作者在Microsoft Dynamics 365 AI Research实习时完成的。图1：输入的故事是“Pororo和Crong一起钓鱼。克朗正在看水桶。波罗罗的钓竿上有一条鱼。”每个句子都用一个图像可视化。在这项工作中，每个句子的图像生成丰富了上下文编码器的上下文信息两个不同级别的鉴别器指导生成过程。基于一个简短的描述。然而，通过将文本到图像的方法顺序地应用于故事将不会生成连贯的图像序列，从而在故事可视化任务上失败。例如，考虑这个故事然后在右边加一个绿色的橡胶方块。”第二句话本身并没有捕捉到整个场景。第二个挑战是如何展示故事情节的逻辑。具体来说，对象的外观和背景中的布局必须随着故事的进展以连贯的方式发展。这类似于视频生成。然而，故事可视化和视频生成的不同之处在于：（i）视频剪辑是连续的，具有平滑的运动过渡，因此视频生成模型专注于提取动态特征以保持逼真的运动[32，31]。图像发生器图像发生器图像发生器16330相反，故事可视化的目标是生成一系列关键静态帧，在运动特征不太重要的情况下呈现正确的故事情节。（ii）视频剪辑通常基于简单的句子输入，通常具有静态背景，而复杂的故事需要模型捕捉情节线所需的场景变化。从这个意义上说，故事可视化也可以被视为通过捕捉尖锐的场景变化来生成真实世界长视频的关键一步。为了应对这些挑战，我们提出了一个StoryGAN框架，灵感来自生成对抗网络（GANs）[10]，这是一个生成器和一个代理之间的双人为了考虑句子输入序列中的上下文信息，StoryGAN被设计为顺序条件GAN模型。给定一个多句子段落（故事），StoryGAN使用递归神经网络（RNN）将先前生成的图像合并到当前句子的图像生成中上下文信息提取与我们的上下文编码器模块，包括一个堆栈的GRU细胞和我们新提出的Text2Gist细胞。上下文编码器将当前句子和故事编码向量转换为高维特征向量（Gist）以用于进一步的图像生成。随着故事的进行，Gist会动态更新，以反映故事流中对象和场景的变化。在Text2Gist组件中，句子描述被转换为过滤器并适应故事，因此我们可以通过调整过滤器来优化混合过程。类似的想法也用于动态过滤[18]，注意力模型[34]和元学习[27]。为了确保生成的图像序列的一致性，我们采用了两级GAN框架。我们使用一个图像级的判别器来衡量句子及其生成图像的相关性，使用一个故事级的判别器来衡量生成图像序列和整个故事。我们从现有的CLEVR [19]和Pororo [21]数据集创建了两个数据集，分别称为CLEVR-SV和Pororo-SV。从经验上讲，与现有的基线相比，StoryGAN更有效地捕捉了故事的全貌及其演变方式[36，24]。配备了深度上下文编码器模块和两级判别器，StoryGAN显著优于以前的最先进模型，生成一系列更高质量的图像，这些图像在图像质量和全局一致性指标以及人工评估方面与故事一致。2. 相关工作变分自动编码器（ VAE ） [23] ，生成式广告网（GAN）[10]和基于流的生成模型[7，8]）已被广泛应用于各种各样的生成、样式转换和图像编辑。故事可视化属于生成任务的广泛分类，但有几个不同的方面。与故事可视化任务非常相关的是条件文本到图像转换[28，17，38，35]，它现在可以生成高分辨率的逼真图像[36，34]。文本到图像生成中的一个关键任务是理解更长和更复杂的输入文本。例如，这已经在对话到图像生成中进行了探索，其中输入是完整的对话会话而不是单个句子[29]。另一个相关的任务是文本图像编辑，其根据文本编辑查询编辑输入图像[3，30，4，9]。该任务要求原始图像和输出图像之间的一致性。最后，还有一个任务是从文本描述中将预先指定的图像和对象放置在图片中[20]。此任务还将文本关联到一致的图像，但不需要完整的图像生成过程。第二个与故事可视化密切相关的任务是视频生成，特别是文本到视频[24，13]或图像到视频生成[1，31，32]。现有的方法仅生成没有场景变化的短视频剪辑[13，5，12]视频生成中最大的挑战是如何确保连续视频帧之间的平滑运动过渡。在现有工作中使用轨迹、骨架或简单地标来帮助对运动特征进行建模[12，37，33]。为此，研究人员对运动和背景的动态和静态特征进行了分类，并进行了重新分类[32，24，31，6]。在我们的故事可视化建模中，整个故事设置静态特征，每个输入句子编码动态特征。但是，存在以下几个差异：（i）有条件的视频生成具有只有一个输入，而我们的任务是连续的，不断发展的-放置;以及（ii）视频剪辑中的运动是连续的，而使故事可视化的图像是离散的并且通常具有不同的场景视图。在文献中还有其他几个相关的任务。例如，从预先收集的训练集中检索故事图像，而不是图像生成[26]。卡通一代已经探索了一种然而，这两种技术都需要大量的标记训练数据。与故事可视化相反的任务是视觉讲故事，其中输出是描述输入图像序列的文本生成模型或强化学习经常被强调用于视觉叙事[16，25，15]。3. StoryGANStoryGAN旨在创建一系列图像来描述输入故事S。故事S由句子序列S=[s1，s2，·· ·，sT]组成，其中长度T可以变化。每个传感器有一个生成的图像生成任务，包括文本到图像生成、视频张力，记作X张力=[x<$1，x<$2，· ··，x<$T]，这两者都是1633112图像鉴别器故事鉴别器生成系列图像故事编码器��1��2��3…��完整故事…图像发生器10Text2Gist1GRU图像发生器21Text2Gist图像发生器32Text2Gist3……图像发生器��−1Text2Gist12GRU2GRUGRU（），diag（）||、&&&…&图2：StoryGAN的框架。灰色实心圆中的变量是输入故事S和各个句子s1，. ..，sT具有随机噪声ε1， . ..... . 你好。，J. 生成器网络包括故事编码器、连续文本编码器和图像生成器. 在第3.2节中详细介绍了拟议的组件Text2Gist。在顶部有两个鉴别器，其鉴别每个图像-句子对和每个图像-序列-故事对是真实还是虚假。局部（场景-图像）和全局（故事-图像）一致。对于训练，地面实况图像被表示为X=[x1，x2，...，xT]。如果每个图像在语义上与其对应的句子匹配，则图像序列是局部一致的。如果所有图像全局地保持在一起作为与其可视化的完整故事S一致，则图像序列是全局一致的在我们的方法中，故事S中的每个句子都使用预训练的句子编码器[2]编码到嵌入向量稍微滥用一下符号，每个句子都是通过向量st2R128编码的.在下文中，我们假设st和S都是编码的特征向量，而不是原始文本。StoryGAN的整体架构如图2所示。它被实现为顺序GAN模型，其由以下组成：（i）故事编码器，其将S编码为低维向量h0;（ii）基于双层递归神经网络（RNN）的上下文编码器，其将输入句子st及其上下文信息编码为每个时间点t的向量ot（Gist）;（iii）图像生成器，其基于每个时间步t的ot生成图像xtt;以及（iv）一个图像和一个故事，指导图像生成过程，以确保生成正态分布h0E（S）=N（µ（S），（S）），µ（·）和（·）实现为两个神经网络。在这项工作中，我们限制了diag（S）=diag（diag2（S））的对角矩阵的计算易处理性。使用重新参数化技巧，编码后的故事h0可以写成h0=μ（S） +2（S）2S，其中SN（0，I）。表示元素乘法，平方根也是元素乘法。μ（S）和μ2（S）被参数化为具有单个隐藏层的多层感知器（MLP）。卷积网络也可以根据S的结构使用。采样的h0被提供给基于RNN的上下文编码器作为初始状态向量。通过使用随机采样，故事编码器处理原始故事空间中的不连续性问题，从而不仅导致故事可视化的S的紧凑的语义表示，而且还增加了生成过程的随机性。编码器因此，为了加强潜在语义空间中条件流形的平滑性，并避免塌陷到单个生成点而不是分布，我们添加了正则化项[36]，经认证的图像序列X是局部和全局一致的，分别.LKL=KL N.Σµ（S），diag（µ（S））||N(0,I)Σ、（1）3.1. 故事编码器故事编码器在图2的粉色虚线框中给出。遵循Stack-GAN [36]中的调节机制，故事编码器E（·）学习从故事S到低维嵌入向量h0的随机映射。h0对整个故事进行编码，它作为上下文编码器的隐藏单元具体地，故事编码器从以下中采样嵌入向量h0：这是学习分布和标准高斯分布之间的Kullback-Leibler（KL）发散3.2. 上下文编码器视频生成与故事可视化密切相关，它通常假设具有平滑运动过渡的静态背景，需要静态和动态特征的不相交嵌入[32，16，31]。在故事可视化中，16332挑战的不同之处在于，人物，运动和背景往往改变从图像到图像，如图1所示。这就要求我们解决两个问题：（i）如何更新上下文信息以有效地捕捉背景变化;以及（ii）如何在生成每个图像时将新输入和随机噪声相结合以可视化可能显著移位的字符的变化。我们通过提出基于深度RNN的上下文编码器来解决这些问题，以在顺序图像生成期间捕获上下文信息，如图2中的红框所示。上下文可以定义为故事中对当前一代有用的任何相关深度RNN由两个隐藏层组成下层使用标准 GRU 单元来实现，上层使用所提出的Text2Gist单元，其是GRU单元的变体并且在下面详细描述。在时间步t，GRU层将句子st和等距高斯噪声t的级联作为输入，并输出向量it。Text2Gist单元格将GRU的输出与故事相结合contextht（由故事编码器初始化）以生成0t，0 t对用于在时间t生成图像的所有必要信息进行编码。ht由Text2Gist单元格更新，以反映潜在上下文信息的变化。令gt和ht表示GRU的隐藏向量，Text2Gist单元格。上下文编码器分两步生成输出：it，gt=GR U（st，t，gt−1），（2）ot，ht= Text2Gist（it，ht−1）.（三）我们称ot为“Gist”向量，因为它在时间步t分别从h t-1和i t组合了所有全局和局部上下文信息（即它捕获了信息的“gist”）。Story Encoder的值为h0，而g0是从等距高斯分布中随机采样的。接下来，我们给出Text2Gist的底层更新给定ht-1和时间步t处的it，Text 2Gist生成隐藏向量ht和输出向量ot，如下所示：使用神经网络的Cout11len（ht），其中Cout是输出通道的数量。由于ht是一个向量，因此该滤波器被用作标准卷积层中的1D滤波器。Eq.中的卷积算子（7）注入来自H t的全局上下文信息和来自It的局部信息。 ot是Text2Gist单元在时间步长t的输出。由于it对来自st和来自S的ht的信息进行编码，这反映了整个故事的画面，因此等式中的卷积运算可以被（7）可以看作是在生成过程中帮助t从故事中挑选出重要的部分根据经验，我们发现Text2Gist比传统的RNN更有效地进行故事可视化。3.3. 鉴别器StoryGAN使用两个判别器，一个图像和一个故事图，分别确保故事可视化的局部和全局一致性。图像判别器测量所生成的图像x_t是否匹配给定在h0中编码的其初始上下文信息的句子s_t。它通过比较生成的三元组{st，h0，xt}到实数三元组{st，h0，xt}。与先前的文本到图像生成工作[36，28]相比，相同的句子可以根据上下文具有显着不同的生成图像，因此将编码的上下文信息也提供给用户也很重要。例如，考虑第1节中给出的例子，“一个红色金属圆柱体立方体位于中心。然后在它的右边加一个绿色的橡胶立方体。”第二个图像将在没有上下文的情况下变化很大（即，第一句）。“Pororo一起钓鱼“Pororo在他的鱼竿上。zt= σz（Wzit+Utht−1+bz），（4）rt=σr（Writ+Urht−1+br），（5）ht=（1-zt）ht−1+zt<$σh（Whit+Uh（rt <$ht−1）+bh），（6）真/假？“Crong桶”。ot=Filter（it）ht，（7）其中zt和rt分别是来自更新门和复位门的输出更新门决定从前一步中保留多少信息，重置门决定从ht-1中忘记什么。σz、σr和σh是S形非线性函数。与标准GRU单元相比，输出ot是Filter（it）和ht之间的卷积。滤波器it被学习以适应ht。具体来说，Filter（·）将vectorit转换为大小为⨀文本编码器文本编码器文本编码器16333图3：故事的结构故事中的图像/句子的特征向量被连接起来。“元素”是指元素的乘积。图像和文本特征的乘积被输入到具有S形非线性的全连接层，以预测它是假的还是真的故事对。故事序列有助于在给定故事S的情况下强制所生成的图像序列的全局一致性。它不同于用于视频生成的鉴别器，鉴别器通常使用3D卷积[32，31，24]来平滑16334t=1帧之间的变化。图3展示了故事库的总体架构。左部分是图像编码器，其将图像序列编码为特征向量序列Eimg（X）=[Eimg（x1），·· ·，Eimg（xT）]，其中X是实数或实数。同时在两个循环中更新图像生成器的参数Text2Gist层的初始隐藏状态是由故事编码器产生的编码故事特征向量h0网络的详细配置见附录A。生成的图像（用X表示）。这些向量连接成一个单一的矢量，如图中蓝色的直角3 .第三章。类似地，右侧部分是文本编码器，其将多句子故事 S 编码成特征向量序列 E txt （ S ） =[E txt（s1），·· ·，E txt（sT）]。同样地，这些连接成一个大向量，如图中的红色矩形所示。3 .第三章。图像编码器是一种...算法1StoryGAN的训练过程输入：编码句话向量Sn=[sn1，sn2，·· ·，sn T]和对应图像Xn=[xn1，···，xn T]，其中n=1，···，N。输出：发电机参数GI和GS。作为一个深度卷积网络和文本实现，编码器作为多层感知器。两者都输出相同维度的向量。全局一致性得分计算为foriter= 1tomax iterdoforiterI = 1 tokIdo样品一小批量的故事-句子对D S= σ（w|（Eimg（十） txt（S））+b）、（8）{（st，S，xt）}从训练集。计算h0作为Text2Gist的初始化其中，k是元素级乘积。权重w和偏置b在输出层中学习。σ是一个sigmoid函数，它将分数归一化为[0，1]中的值。通过将每个句子和图像配对，故事推理机可以同时考虑局部匹配和全局一致性。图像和故事鉴别器都是在正对和负对上训练的后者是通过用生成的图像替换正对中的图像（序列）来生成的3.4. 算法概要设G_i、G_I和G_S分别表示整个生成器G（·; G_i）StoryGAN的目标函数是最小最大αL图像+ βL故事+LKL，（9）✓I，S其中α和β平衡三个损失项。LKL是（1）中定义的故事编码器的正则化项L形象和L故事被定义为P层和KL正则化项作为等式。（一）. 生成单个输出图像xxxx。更新GI和G I。端对于iterS= 1 tokS，对故事-图像对{（S，X）}进行小批量从训练集。在每个时间步t计算h0并更新ht生成图像序列X。更新GS和C。首尾相接在我们的实验中，我们使用Adam [22]进行参数更新1。我们还发现，对图像和故事判别器使用不同的小批量大小可以加速训练收敛，并且在一个时期内以不同的时间步长更新生成器和训练器是有益的4. 实验在本节中，我们评估StoryGAN模型，L图像=（E（x，s）[logDI（xt，st，h0;GI）]玩具和一个卡通数据集据我们所知t=1t t+E（λt，st）[10g（1-DI（G（λt，st;λ），st，h0;GI））]）（十）目前还没有关于我们提出的故事可视化的工作，任务故事可视化的最接近的替代方案是连续视频生成[24]，其中故事被视为LStory=E（X，S）[logDS（X，S;GS）]Hi单输入，并生成视频来代替序列+E（m，S）l〇g（1-DS（[G（t，st;t）]T），S;GS））。（十一）的图像。然而，我们根据经验发现，生成结果太模糊，无法与Story-GAN相比因此，我们的比较主要是消融版本DI（·;GI）和DS（·;GS）分别是由GI和GS参数化的图像和故事用于训练StoryGAN的伪代码在Al-租m1中给出。故事和图像判别器的参数GI和GS在两个单独的for循环中更不16335新，我们提出的模型。为了进行公平的比较，所有模型都使用相同的图像生成器、上下文编码器和鉴别器（如果适用）。所比较的1代码可在https://github.com/yitong91/ StoryGAN16336框架故事鉴别器鉴别器生成系列图像故事编码器12……图像发生器图像发生器图像发生器完整故事…GRUGRU…GRU&&&L（），diag（）||、基线模型是：ImageGAN：ImageGAN遵循[28，36]中的工作，不使用故事编码器，故事编码器和上下文编码器。每个图像都是独立生成的。然而，为了进行合理的比较，我们将st、编码的故事S和噪声项连接起来作为输入。否则，模型将无法完成任务。这是Sto- ryGAN的最简单版本。SVC ：在 “Story Visualization by Concatenation”（SVC）中与ImageGAN相比，SVC包括额外的故事模型，如图4所示。图4：基线模型SVC的框架，其中故事和单个句子连接起来形成输入。SVFN：在“过滤网络的故事可视化”（SVFN）中，SVC中的串联被过滤网络取代。句子st被转换成过滤器并与编码的故事卷积。具体地，图像生成器输入是0t=Filter（it）h0，而不是Eq.7 .第一次会议。4.1. CLEVR-SV数据集CLEVR [19]数据集最初用于视觉问答。我们通过从随机分配的对象布局中生成图像（图5顶行中的示例），修改了故事可视化的数据我们将此数据集命名为CLEVR-SV，以区别于现有的CLEVR数据集。具体而言，使用四个规则来构建CLEVR-SV：（i）每层楼最多可放置4件物品。（ii）物体由八种不同颜色和两种不同尺寸的金属/橡胶制成。（iii）物体形状可以是圆柱体、立方体或球体。（iv）每次添加一个对象，导致每个故事的四个图像序列我们生成了10000个图像序列用于训练，3000个用于测试。对于我们的任务，故事是对象的布局描述。输入st是当前对象由两个实数给出的表示坐标的位置。例如，图1的左列的第一图像。5是从“黄色，大，金属，球体，（-2.1，2.4）”生成的。以下对象以相同的方式描述。给定描述，生成的对象它们的相对位置应该相似。图5给出了结果比较。ImageGAN [28]未能保持“故事”的一致性，并且当对象数量增加时，它会混淆属性。SVC通过在底部包括故事识别器和GRU单元来解决这个一致性问题，因为图5的第三行在图像序列中具有一致的对象。然而，SVC在序列中生成不真实的前向图像。我们假设，使用简单的向量关联不能有效地平衡当前描述与整个故事的重要性SVFN可以在一定程度上缓解这个问题，但不是完全缓解。相比之下，StoryGAN比竞争对手生成更多可行的图像。我们将性能改进归因于三个组成部分：（i）Text 2Gist单元跟踪故事的进展;（ii）故事和图像鉴别器在生成过程中保持对象的一致性;（iii）使用故事编码器来初始化Text2Gist单元在第一生成图像上给出更好的结果。最后一点的更多经验证据出现在第4.2节的卡通数据集中。为了进一步验证StoryGAN模型，我们签署了一个任务，以评估模型是否可以通过改变第一句描述来生成一致的图像。具体来说，我们随机替换了第一个对象这个比较表明，只有Story-GAN可以通过正确利用后面帧中第一个对象的属性来保持故事一致性，如上所述。在补充图9中，我们给出了仅使用StoryGAN更改初始属性的其他示例无论初始属性如何，StoryGAN在帧之间都是一致的。ImageGAN [28]SVCSVFNStoryGANSSIM0.5960.6410.6540.672表1：CLEVR-SV数据集上的SSIM比较。我们还比较了生成的图像和地面实况之间的结构相似性指数（SSIM）得分[14]。SSIM最初用于测量从失真图像恢复的结果。这里，它用于确定生成的图像是否与输入描述对齐表1给出了测试集上每个方法的SSIM度量。请注意，虽然这是一个生成任务，但使用SSIM来测量结构相似性是合理的，因为在给定描述的情况下几乎没有变化。在这项任务中，Story- GAN的表现明显优于其他基线。4.2. 卡通数据集Pororo数据集[21]最初用于视频问答，其中每一秒的视频剪辑都是-16337Loopy笑了，但倾向于生气。波罗罗又唱又跳，鲁比很生气。 Loopy说停在Pororo。波罗罗停了下来。Loopy问理由pororo。波罗罗吓了一跳。波罗罗在给糊涂找借口。地面实况ImageGANSVCSVFNStoryGAN埃迪对现在发生的事情感到震惊。 Pororo告诉EddyCrong被克隆了。波罗罗告诉埃迪，克朗进入了机器。埃迪说这不是问题。埃迪告诉他们，埃迪制造了一台机器来逆转克隆。地面实况ImageGANSVCSVFNStoryGANGroundTruthImageGANSVCSVFNStoryGAN图5：CLEVR-SV数据集上不同方法的比较。图6：Pororo-SV数据集上生成的两个样本。与一个以上的手工书写的描述相关联。大约40个视频片段组成了一个完整的故事。每个故事都有几个QA对。总的来说，Pororo数据集包含16K个关于13个不同角色的1秒视频手工书写的描述平均长度为13。6个词，描述正在发生的事情，以及每个视频剪辑中这些16K的视频剪辑被分类为408个电影故事[21]。我们修改了Pororo数据集，以适应故事可视化任务，将每个视频片段的描述视为故事对于每个视频片段，我们在训练过程中随机挑选一帧（采样率为30Hz）作为真实图像样本。五个连续的图像组成一个故事.最后，我们最终得到了15336对推理故事对，其中13000对被用作训练，剩下的2336对用于测试。我们称这个数据集为Pororo-SV，以区别于原始的Pororo QA数据集[21]。文本编码器使用具有固定预训练参数的通用编码[2]。训练一个新的文本编码器经验上几乎没有性能增益。两个可视化的故事图6中给出了竞争方法。文本输入在顶部。 ImageGAN不生成一致的图像序列;例如，所生成的图像随机地从室内切换到室外。此外，字符PororoSVC和SVFN在一定程度上提高了图像的一致性，但其局限性表现在初始图像的不理想。相比之下，StoryGAN的第一个图像的质量比其他基线高得多，因为使用了Story Encoder来初始化重新流单元。这显示了使用故事编码器的输出作为第一个隐藏状态优于随机初始化的优势。为了探索不同的模型如何表示故事，我们进行了实验，其中只改变了故事中的角色名称，如图7所示。从视觉上看，StoryGAN在图像质量和一致性方面优于其他基线。此外，我们执行两个不同的定量任务。第一个是确定这一代人是否能够封顶-16338表3：成对人体评价的结果。±表示度量的标准误差。C1=Pororo，C2=Loppy，C3=CrongGTC1=波罗罗，C2=埃迪，C3=罗迪ImageGANSVCSVFN表4：基于排名的人类评价的结果。±在度量上标注标准误差方法ImageGANSVCSVFNStoryGAN秩2.91±0.052.42±0.042.77±0.041.94±0.05故事GAN图7：在同一故事中改变角色名字的生成结果故事模板在顶部给出，故事的两个实例中的角色名称为c1、c2和c3，每一个都显示在一列中。在故事中扮演相关的角色九个最常见的字符是从数据集中选择的。其名称和图片见附录D中的补充图9。接下来，在来自训练集的真实图像上训练字符图像分类器，并将其应用于来自测试集的真实图像和生成图像。我们比较每个图像/故事对的分类准确性（只有所有字符的精确匹配才算正确），作为生成是否与故事描述一致的指标。分类器在测试集上的性能为86%，这被认为是该任务的上限。从这些结果中可以清楚地看出，与基线模型相比，StoryGAN提高了字符一致性。请注意，标签中存在特殊性，因为人类标记的描述有时可能包含框架中未显示的字符。此外，训练分类器是在真实图像上。真实图像和生成图像之间的域间隙也会损害性能。然而，这些应该平等地伤害所有算法，这是一个公平的比较。上界ImageGAN [28]SVCSVFNStoryGANAcc.0.860.230.210.240.27表2：Pororo-SV数据集上的字符分类准确度（精确匹配率）比较。上界是与故事相关联的真实图像上的分类器准确度。人工评估自动指标无法完全评估StoryGAN的性能。因此，我们在Pororo-SV上对Amazon Mechanical Turk进行了成对和基于排名的人体评价研究。对于这两个任务，我们使用从测试集中采样的170个生成的图像序列，每个序列分配给5个工人以减少hu。人方差每个分配中的选项顺序被打乱，以进行公平的比较。我们首先在StoryGAN和ImageGAN之间进行成对比较。对于每个输入故事，工作人员都会看到两个生成的图像序列，并要求他们从三个方面做出决定：视觉质量2、一致性3和相关性4。结果总结在表3中。这些估计的标准误差很小，表明StoryGAN在这项任务上大大优于接下来，我们进行了基于排名的人类评估。对于每个输入的故事，工作人员被要求对从四个比较模型中生成的图像的整体质量进行结果总结在表 4 中。StoryGAN的平均排名最高，而ImageGAN的表现最差。这些估计几乎没有不确定性，因此我们相信人类平均更喜欢StoryGAN。5. 结论我们研究了故事可视化任务作为一个顺序的条件生成问题。所提出的StoryGAN模型通过联合考虑当前输入句子和上下文信息来处理任务。这是通过在上下文编码器中提出的Text2Gist组件来实现的根据消融测试，两级判别器和输入上的递归结构有助于确保生成的图像和要可视化的故事之间的一致性，而上下文编码器有效地为图像生成器提供局部和全局条件信息。定量和人工评估研究都表明，StoryGAN提高了与基线模型的生成一致性随着图像生成器的改进，故事可视化2生成的图像看起来很有视觉吸引力，而不是模糊和难以理解。3.生成的图像相互一致，背后隐藏着共同的主题，自然形成故事，而不是看起来像5个独立的图像。4生成的图像序列准确地反映了输入的故事，并涵盖了故事中提到的主要人物。输入故事：C1和C2站在雪地里。 C1告诉C3一个故事。 C3想要连接C1和C2。 C1继续说话。 C1向下看。他们突然注意到有东西躺在雪地上。StoryGAN与ImageGAN选择（%）StoryGANImageGAN铁视觉质量74.17 ±1.3818.60±1.387.23一致性79.15 ±1.2715.28±1.275.57相关性78.08 ±1.3417.65±1.344.2716339引用[1] Haoye Cai，Chunyan Bai，Yu-Wing Tai，and Chi-KeungTang.深度视频生成、预测和完成人体动作序列。arXiv预印本arXiv：1711.08682，2018。2[2] Daniel Cer，Yinfei Yang，Sheng-yi Kong，Nan Hua，Nicole Limtiaco ， Rhomni St John ， Noah Constant ，Mario Guajardo- Cespedes，Steve Yuan，Chris Tar，et al.通用语句编码器。arXiv预印本arXiv：1803.11175，2018。三、七[3] Jianbo Chen ， Yelong Shen ， Jianfeng Gao ， JingjingLiu，and Xiaodong Liu.基于语言的图像编辑与循环注意模型。CVPR，2018年。2[4] Yu Cheng ， Zhe Gan ， Yitong Li ， Jingjing Liu ， andJianfeng Gao.通过对话进行交互式图像编辑的顺序注意力。arXiv预印本arXiv：1812.08352，2018。2[5] 艾米丽·丹顿和罗伯·费格斯具有学习先验的随机视频生成。在ICML，2018。2[6] Emily L Denton等.从视频中分离表示的无监督学习在NIPS，2017年。2[7] Laurent Dinh ， David Krueger ， and Yoshua Bengio.Nice ：非线性独立分量估计。 arXiv预印本 arXiv ：1410.8516，2014。2[8] Laurent Dinh，Jascha Sohl-Dickstein，and Samy Ben-gio.使用实 nvp 的密度估计。 arXiv 预印本 arXiv ：1605.08803，2016。2[9] Alaaeldin El-Nouby，Shikhar Sharma，Hannes Schulz，De- von Hjelm ， Layla El Asri ， Samira EbrahimiKahou，YoonyBengio，and Graham W Taylor.继续画：基于迭代语言的图像生成和编辑。arXiv预印本arXiv：1811.09845，2018。2[10] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在NIPS，2014。2[11] Tanmay Gupta ， Dustin Schwenk ， Ali Farhadi ， DerekHoiem，and Aniruddha Kembhavi.想象一下！从脚本到合成再到视频。ECCV，2018年。2[12] 郝泽坤，黄勋，和Serge Belongie。具有稀疏轨迹的可控视频生成。在CVPR，2018年。2[13] Jiawei He ， Andreas Lehrmann ， Joseph Marino ， GregMori，and Leonid Sigal.使用整体属性控制的概率视频生成arXiv预印本arXiv：1803.08085，2018。2[14] Alain Hore和Djemel Ziou图像质量指标：Psnr vs.国际公民权利和政治权利委员会，2010年。6[15] Qiuyuan Huang，Zhe Gan ，Asli Celikyilmaz，DapengWu，Jianfeng Wang，and Xiaodong He.分层结构强化学习用于局部连贯视觉故事生成。arXiv预印本arXiv：1805.08191，2018。2[16] Ting-Hao Kenneth Huang ， Francis Ferraro ， NasrinMostafazadeh，Ishan Misra，Aishwarya Agrawal，JacobDevlin ， Ross Girshick ， Xiaodong He ， PushmeetKohli，Dhruv Batra，et al.视觉故事。在NAACL，2016年。二、三[17] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei AEfros.使用条件对抗网络的图像到图像翻译。CVPR，2017年。一、二16340[18] Xu Jia，Bert De Brabandere， Tinne Tuytelaars ，andLuc V Gool.动态过滤网络。在NIPS，2016年。2[19] Justin Johnson ， Bharath Hariharan ， Laurens van derMaaten ， Li Fei-Fei ， C Lawrence Zitnick ， and RossGirshick.Clevr ： A diagnostic dataset for compositelanguage and elementary visual reasoning. 在 CVPR ，2017年。二、六[20] Jin-Hwa Kim，Devi Parikh，Dhruv Batra，Bing-TakZhang，and Yuandong Tian. Codraw：用于协作绘图的可视对话框. arXiv预印本arXiv：1712.05558，2017。2[21] Kyung-Min Kim ， Min-Oh Heo ， Seong-Ho Choi 和Byoung-Tak Zhang。深度故事：视频故事问答由深嵌入式记忆网络.在IJCAI，2017。二六七[22] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。5[23] Diederik P Kingma和Max Welling。自动编码变分贝叶斯。arXiv预印本arXiv：1312.6114，2013。2[24] 李一彤，闵仁强，沈鼎汉，大卫·卡尔森，劳伦斯·卡林.从文本生成视频AAAI，2018年。二、四、五[25] Xiaodan Liang ， Zhiting Hu ， Hao Zhang ， ChuangGan，and Eric P Xing.用于可视化段落生成的循环主题转换gan。 arXiv预印本arXiv：1703.07022，2017。2[26] Hareesh Ravi ， Lezi Wang ， Carlos Muniz ， LeonidSigal，Dim- itris Metaxas，and Mubbasir Kapadia.给我讲个故事：以连贯的神经故事为例。在CVPR，2018年。2[27] Sylvestre-A

下载后可阅读完整内容，剩余1页未读，立即下载