CookGAN：基于因果关系的文本到图像合成

105 浏览量更新于2023-10-25 收藏 13.5MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

55190CookGAN: 基于因果关系的文本到图像合成0香港城市大学朱斌0binzhu4-c@my.cityu.edu.hk0香港城市大学吴宗华0cscwngo@cityu.edu.hk0摘要0本文从新的角度解决了文本到图像合成的问题，即图像生成中的因果关系链。因果关系是烹饪中的常见现象。菜肴的外观会根据烹饪动作和原料的不同而改变。合成的挑战在于生成的图像应该描绘出动作对物体的视觉结果。本文提出了一种新的网络架构，CookGAN，模拟因果关系链中的视觉效果，保留细节并逐渐提高图像分辨率。特别地，提出了一个烹饪模拟器子网络，根据原料和烹饪方法之间的相互作用逐步改变食物图像。在Recipe1M上的实验证明，CookGAN能够生成具有相当令人印象深刻的Inception分数的食物图像。此外，这些图像在语义上是可解释和可操作的。01. 引言0文本到图像合成旨在从自然语言描述中生成图像。生成的图像应该是照片和语义逼真的。具体来说，一张图像应该具有足够的视觉细节，与文本描述在语义上相一致。自从生成对抗网络（GAN）[1]的提出以来，已经有许多进展解决了照片逼真度[11, 18, 19,20]和语义一致性[17]的问题。虽然这两个方面都强调图像质量，但文献中忽视的一个方面是图像生成中的因果关系视觉场景。例如，与文本“将鸡肉切成丁并与炒熟的花生拌匀”相对应的图像很难用当前的文本到图像合成范式生成。原因是该句子是以动作为导向的。预期的图像细节是像“切成丁的鸡肉”和“炒熟的花生”这样的实体，以及搅拌这两个实体的视觉结果。依赖于文本和视觉实体之间的映射的当前最先进技术无法处理这种因果关系和逼真的图像生成。0效果逼真的图像生成。本文研究了食谱到图像的合成，具体来说，从烹饪食谱生成食物图像。与描述图像内容的视觉叙述句不同，食谱提供了作为实体的原料和烹饪步骤，以文本方式指导菜肴的准备。预期的图像是在一系列烹饪步骤中呈现最终准备好的菜肴作为视觉结果。需要注意的是，烹饪步骤不一定与视觉相关。它意味着在采取步骤后，原料实体的新状态。我们提出了一种名为CookGAN的新网络架构，以解决图像生成中的因果效应。与其他GAN [18, 19, 20, 16,23,17]不同，CookGAN是专门为食物图像生成而设计的GAN。CookGAN的输入包括一个单词列表（即原料）和一系列步骤描述（即烹饪步骤）。CookGAN解决了生成因果逼真食物图像的四个问题。首先，网络允许烹饪步骤和原料之间的显式交互。其次，学习不同步骤下菜肴的演变，使得可以实时修改原料和指导以可视化菜肴的新效果。第三，可以建模原料-动作的综合效果。例如，鸡蛋的形状会根据是煮、炒还是蒸而改变。第四，学习原料对菜肴的可见性和影响。例如，“糖”可能是不可见的，而“番茄酱”可以显著改变菜肴的外观。除了这些问题，还考虑了照片和语义逼真的图像生成。与其他GAN [19, 20,16]类似，CookGAN从低分辨率逐渐提高图像分辨率。计算每个原料对生成图像的子区域的相对重要性，以呈现细粒度的原料细节。使用现有的原料编码器[13]可以对生成的食物图像进行语义解释。本文的主要贡献是解决图像生成中的因果效应。据我们所知，此问题尚无先前的研究。我们提出了一种新颖的网络架构，CookGAN，以解决因果效应在图像生成中的问题。3. CookGAN55200网络CookGAN，通过逐步学习因果关系场景中的烹饪过程，生动地模拟了烹饪过程。实验证明，CookGAN能够生成逼真的食物照片和因果关系真实的食物图像。02. 相关工作0条件生成对抗网络（CGAN）[9]推动了文本到图像合成的快速进展。通过使用CGAN，Reed等人[11]提出了一个完整和标准的文本到图像合成流程，以从文本描述中生成图像。然而，图像的尺寸只有64×64。为了解决这个问题，StackGAN[18]提出了一个两阶段生成更高分辨率图像的方法。第一阶段的CGAN捕捉低分辨率图像中对象的基本形状和基本颜色。第二阶段的CGAN结合文本描述对图像进行更详细的细化。然而，StackGAN中的两个阶段是独立学习的，导致两个相关阶段之间缺乏交互。通过训练一个端到端的多阶段GAN来解决这个问题。StackGAN++ [19]和HDGAN[20]都采用了类似树状结构的多对生成器和判别器，逐步从低分辨率生成图像到高分辨率。树的不同分支捕捉了不同分辨率尺度上的图像分布。渐进的上采样方式使生成器能够从前一阶段继承中层特征，以实现有效的图像生成。然而，这些方法的一个局限性是图像生成对于表达句子含义的不同方式非常敏感。最近，SDGAN[17]解决了一致语义的问题。通过Siamese机制和语义条件批归一化分别保证了一致的高层语义和多样的低层语义。上述方法只考虑句子级特征作为条件。因此，在生成的图像中通常缺少细粒度的图像细节。AttnGAN [16]和DMGAN[23]通过进一步利用词级特征作为条件来解决这个问题。通过为单词分配权重，AttnGAN[16]能够在图像的不同区域生成细粒度的图像细节。此外，生成器通过确保文本描述和生成的图像之间的跨模态相似性来进行训练。DMGAN[23]通过使用记忆网络根据初始生成的图像确定单词的重要性。通过融合图像内容和单词注意力文本，图像动态地细化了细粒度的细节。CookGAN继承了文本到图像合成现有GAN的大部分特性。具体而言，CookGAN采用了类似[19, 20,16]的多阶段渐进上采样，并强调了类似[16]的词级条件来生成细粒度的0图像生成。与这些GAN不同，CookGAN旨在解决因果效应。特别地，食物图像的因果演变在顺序网络中隐式地捕捉到，而细粒度的成分细节则通过类似注意力的网络明确地建模。目前只有很少几篇论文[4, 6, 2, 21,10]研究食物图像合成问题。在[4]中，基于食物风格生成图像，而不是使用食谱。在[6,2]中，只利用成分生成食物图像，而忽略烹饪步骤。在[10]中提出了PizzaGAN，通过学习不同的操作符来添加、删除和烹饪成分来合成食物图像。与CookGAN不同，PizzaGAN的输入是食谱，而不是图像级标签，以模拟烹饪过程的逐步生成图像。虽然有趣，但这种方法只适用于披萨图像生成，考虑的成分种类和烹饪方法有限。对于其他菜肴的扩展并不直接。与本文最相关的工作是[21]，该工作使用R2GAN从食谱生成64×64的缩略图像。然而，R2GAN的设计不是从因果效应的角度出发，而是为了学习可解释的食谱搜索的跨模态特征空间。具体而言，R2GAN将成分和烹饪步骤独立处理，然后将它们合并为图像生成和跨模态学习的特征。与本文不同的是，本文没有考虑烹饪步骤的原因如何导致成分的新效果。据我们所知，考虑因果关系的高分辨率食物图像生成仍然是一个未开发的问题。03.1. 模型架构0CookGAN的架构如图1所示。给定一个文本食谱，我们使用一个食谱编码器R2GAN[21]来提取食谱特征。R2GAN将从配料和烹饪指导中提取的特征分别嵌入到与食物图片兼容的潜在空间中。正如R2GAN所示，嵌入特征 ϕ r可以用于生成一个分辨率为64×64的缩略图。CookGAN的基本思想是逐渐将小尺寸的图片上采样到256×256的分辨率。CookGAN的关键组件是CookingSimulator（第3.2节），它生成因果关系的视觉场景。CookGAN包含三对生成器和判别器 { ( G 0 , D 0 ) , ( G 1 , D 1 ), ( G 2 , D 2 ) }。最初，嵌入特征 ϕ r 与从高斯分布 Z � N (0, I ) 中采样的随机噪声 z进行连接。结果被输入到一个上采样块，它是一个多层前馈网络，将扰动的特征转换为隐藏的图片特征 V 0。第一个生成器 G 0 生成64×64的图片。Picnic Caviarrice vinegar; vegetable oil; garlic cloves; dried oregano; dried basil; black beans; red onion; corn kernels…1.Whisk together vinegar, oil, sugar, garlic, oregano, and basil in large bowl.2.Stir in black and pinto beans, corn, bell pepper, onion, chiles, and …3.…Z~N(0, 1)D064×64128×128G2D1D2256×256G0G1256×256L =2�i=0LGi + λLCA,(1)LGi =+.(2)+++),(3)55210标题0配料0指导0食谱0配料编码器0指令编码器0食谱编码器0上采样0配料特征0指令特征0食谱特征0上采样 Cooking Simulator0上采样 Cooking Simulator0图片特征图片特征0真实数据0图1. 从64×64的分辨率逐步上采样到256×256的食物图片。CookingSimulator是一个定制的子网络，用于隐式地建模烹饪过程中的因果关系的视觉变化。0使用 V 0 生成64×64的图片。特征 V 0也被输入到CookingSimulator中，为下一轮图片上采样的特征准备。这个过程重复两次，其中 G 1 和 G 2分别生成128×128和256×256的图片。0CookGAN以端到端的方式学习不同尺度上的图像分布。每个生成器负责捕捉特定尺度上的分布，并且有一个判别器来区分真实和假图片。与传统的GAN[1]一样，生成器和判别器以对抗的方式进行训练。具体来说，三个判别器分别进行单独的训练，每个判别器用于训练相应的生成器。同时，包括三个上采样块、生成器和CookingSimulator在内的不同尺度的图像生成网络的整个流程是联合训练的。目标函数定义如下：0其中 L G i 是第 i 个生成器的损失，L CA 是条件增强 [19]的损失。参数 λ 是一个权衡两个损失的超参数。0生成器损失由无条件损失和条件损失项组成。前者是由鉴别器在区分真实和假图片时得到的损失。后者用于评估生成图片与其嵌入特征之间的匹配程度，这些特征最初是从生成图片中提取的。0从 R2GAN 中提取的嵌入特征。第 i 个生成器的损失定义如下：02 ( E ϕ r � p r ,z � p z [log (1 − D i ( G i ( ϕ r , z ))] � �� 无条件损失0E ϕ r � p r ,z � p z [log (1 − D i ( G i ( ϕ r , z ) , ϕ r )]) � �� 条件损失0判别器损失同样包含两对无条件和条件损失项，如下所示：0LDi = -102(Exi�pdatai[log Di(xi)])0Exi�pdatai,ϕr�pr[log Di(xi, ϕr)]0Eϕr�pr,z�pz[log(1 − Di(Gi(ϕr, z)))]0Eϕr�pr,z�pz[log(1 − Di(Gi(ϕr, z), ϕr))]0其中xi是从真实食物图像分布的第i个尺度中采样得到的。注意，第i个判别器只负责区分第i个尺度中的真实图像xi和伪造图像Gi(ϕr,z)。受到StackGAN++中条件增强的有效性的启发，LCA损失被用作正则化项，以避免过拟合并强制从食谱嵌入流形中进行平滑采样。具体而言，条件向量从独立的高斯分布N(μ(ϕr),Σ(ϕr))中采样得到，其中均值μ(ϕr)和对角协方差矩阵Σ(ϕr)由食谱特征ϕr参数化。LCA定义为N(μ(ϕr), Σ(ϕr))和高斯分布N(0,I)之间的Kullback-Leibler散度：+Ingredient features φingImage features ViImage attended ingredient features FiattendInstruction features φinsCooked features Ficook.55220Conv1×10GRU GRU GRU0残差块0f(φing)0图2. CookingSimulator为食物图像的上采样准备了图像注意的成分特征和“烹饪”特征。GRU以图像注意的成分特征初始化。在每个烹饪步骤中，GRU单元将图像注意的成分特征转化为新的隐藏状态，模拟烹饪动作导致成分发生变化。0tribution N(μ(ϕr),Σ(ϕr))，其中均值μ(ϕr)和对角协方差矩阵Σ(ϕr)由食谱特征ϕr参数化。LCA定义为N(μ(ϕr), Σ(ϕr))和高斯分布N(0,I)之间的Kullback-Leibler散度：0LCA = DKL(N(μ(ϕr), Σ(ϕr)) || N(0, I))。03.2. Cooking Simulator0CookingSimulator的直觉是模拟真实的烹饪场景，其中不同的切割和烹饪动作会随着时间的推移逐步施加在成分上。每个动作都会将一些成分转化为具有成分组成、颜色或形状变化的新形式。例如，“胡萝卜”被切成片，“意大利面”在与“鱿鱼酱”炒制时变黑。下一个后续动作可以在烹饪过程中对这个形式进行累加性的改变。图2描述了CookingSimulator的网络。将ϕing = {ϕingm}Mm=1 ∈RM×ding表示为成分列表，其中ϕingm表示列表中第m个成分的ding维向量。此外，将第i个尺度的图像特征表示为Vi = {vj}Cj=1 ∈ RC×L，其中C是通道深度，L = W ×H是特征图的分辨率。最初，将图像特征Vi与成分特征ϕing融合，生成图像注意的成分特征图，每个图的大小为C×L。计算Fiatte的第j个通道如下：0Fiattej =0m=0 σ(vTj ∙ f(ϕingm)) f(ϕingm)0其中，f(∙)是一个1×1卷积，将成分特征映射到与第i个尺度的隐藏图像特征Vi具有相同维度的空间。操作符σ(∙)是softmax函数，输出一个大小为L的注意力图，其中的概率值表示成分的空间分布。通过softmax函数，可以得到一个注意力图，即σ(vTj ∙ f(ϕingm))。0为每个成分生成一个图。通过将地图与相应的成分特征f(ϕing)相乘，可以关注成分的空间位置。方程5对每个成分的结果进行加权线性求和，形成第j个通道的图像注意的成分特征图。接下来，使用门控循环单元(GRU)对烹饪步骤进行顺序编码。GRU单元以图像注意的成分特征Fiatte初始化，如图2所示。这个设计旨在模拟烹饪过程，其中成分逐步地被“烹饪”。烹饪的结果，即GRU的隐藏状态，被馈送到下一个GRU单元进行后续的烹饪动作。将ϕins = {ϕinsn}Nn=1 ∈RN×dins表示为烹饪步骤的序列，其中ϕinsn表示序列中第n个指令的dins维向量。对于煮熟特征图的第j个通道，最后一个GRU的隐藏状态被形式化为：0F i cookj = GRU(F i attendj, ϕ ins)。 (6)0其中F icookj表示第i个尺度上第j个通道的“烹饪”特征图。最终的烹饪特征图与Vi具有相同的维度，具有C个通道和大小为W×H。为此，特征图的三组，V i，F i attend和F icook，被连接并输入到残差块[3]中。转换后的特征图成为下一轮图像上采样的输入。03.3. 实现细节0从R2GAN[21]中提取的初始嵌入特征是1024维的，即ϕ r ∈R1024。成分编码器使用word2vec嵌入将成分从单词转换为高维向量，即ϕ ing ∈ R300。指导者编码器基于skip-thoughts技术[8]，与[14]中一样，将一个步骤句子编码为固定长度的向量。生成的指令特征为1024维，即ϕ ins ∈ R1024。隐藏图像特征的通道深度设置为32（图1和图2）。受到PatchGAN[5, 22]的启发55230和局部对抗图像损失[20]，图像关注的成分特征（图2）中的每个特征图被划分为32×32的块。CookingSimulator最多处理10个烹饪步骤。考虑到计算时间，超过十个步骤的指令被截断。按照[19,16]，采用学习率为0.0002的Adam求解器[7]来训练所有模型。方程1中的平衡因子设置为λ=1。所有模型从头开始训练50个epochs。04. 实验0我们通过视觉质量评估（第4.2节）、语义解释（第4.3节）和内容可操作性（第4.4节）来验证CookGAN。语义解释包括三个任务：（a）对CookGAN生成的图像进行成分识别，（b）使用生成的图像作为查询检索食谱，以及（c）检索使用相同食谱制作的食物图像作为生成的查询图像。内容可操作性是测试生成的图像对烹饪过程中的变化如何反应，例如通过添加或删除食谱中的成分。04.1. 实验设置0数据集。实验使用的是Recipe1M[14]，这是唯一一个公开可用的具有配对食谱和图像的大规模数据集。该数据集提供了340,922个食谱-图像对，其中70%用于训练，15%用于验证，15%用于测试。由于生成高分辨率食物图像的CookGAN学习过程缓慢且占用内存，因此仅使用验证集进行模型训练。R2GAN[21]用于提取食谱特征的初始阶段，分别在训练集和验证集上进行训练和验证。原始验证集中每个食谱的平均指令数为9。评估指标。使用Inception分数（IS）评估生成图像的视觉质量。如[12]所研究的，IS与人类感知相关。较高的IS值表示更好的视觉多样性和质量。我们从测试集中随机抽样30,000个食谱进行图像生成。与StackGAN++[19]和R2GAN[21]等最先进的技术进行比较。检索性能基于对测试查询检索的真正阳性的中位数排名（MedR）。较低的MedR值表示更好的检索能力。根据[21,14]，检索数据集是通过从测试集中随机抽样1,000个食谱形成的。这1,000个食谱轮流生成图像作为测试查询。04.2. 视觉质量评估0我们将CookGAN与StackGAN++[19]进行比较，StackGAN++是最先进的文本到图像合成方法。0R2GAN[21]，一个生成低分辨率图像的基准。还进行了消融研究，与仅考虑成分（即IngredientGAN）或仅考虑烹饪步骤（即StepGAN）的两个不同版本的CookGAN进行比较。请注意，StepGAN仍然利用成分信息。与CookGAN的主要区别在于，CookingSimulator中残差块的输入特征不涉及图像关注的成分特征（F i attend），即仅使用图像特征（V i）和烹饪特征（F icook）来生成下一轮的图像。另一方面，IngredientGAN跳过F i cook，仅利用V i和F i attend。0结果列在表1的第2列中。与基线方法相比，基线方法是通过线性插值将R2GAN[21]生成的64×64缩略图插值到256×256分辨率。所有其他方法都显示出更高的Inception分数（IS）。其中，CookGAN在模拟不同成分组合时在建模颜色和纹理分布方面明显优于其他方法，包括StackGAN++。参考图3，CookGAN生成的图像显示出与真实样本图像相似的成分组合模式。以“野餐鱼子酱”为例，图像以黄色呈现“玉米粒”和棕色呈现“红腰豆”。此外，模拟图像以小尺寸生动地模仿各种成分的模糊组合，结果是与原始图像相似的视觉和结构相似的图像。虽然StackGAN++设法呈现了一些成分的红色和黄色，但是未能模拟原始成分的形状和大小使生成的图像显得不自然。总的来说，StackGAN++无法处理相对较多成分的食谱。StackGAN++生成的模拟图像通常只由几个主要成分组成。得益于图像注意的成分特征，CookGAN能够直观地捕捉主要和辅助成分。再通过烹饪模拟器进行程序化编码指令，这些成分有时以与真实世界情景中的食物制备类似的方式组合。0如表1所示，仅利用成分或烹饪步骤时，IS分数会急剧下降。消融研究表明，成分和烹饪指导都在食物图像生成中起到重要作用。一方面，与不考虑烹饪步骤的情况相比，IngredientGAN的IS分数较低，比CookGAN下降了11.5%。如图3所示，尽管IngredientGAN能够生成相对细腻纹理模式的图像，但菜肴颜色单调且缺乏视觉多样性，导致IS分数较低。颜色单调的原因是，55240R2GAN [21] 4.54 ± 0.07 500.0 476.00StackGAN++ [19] 5.03 ± 0.09 144.5 147.00IngredientGAN 4.79 ± 0.08 84.5 115.50StepGAN 5.30 ± 0.09 77.0 123.00CookGAN 5.41 ± 0.11 64.0 108.00表1. 以Inception分数和中位数排名（MedR）进行的视觉质量和语义比较。 “↑”表示较高为较好，“↓”表示较低为较好。0GT0乡村风味猪排骨炖菜0菜籽油; 植物油; 乡村风味猪排骨; 盐; 黑胡椒;番茄酱; 红酒; 鱼露...01. 在荷兰炖锅中用中高火加热油。2.用盐和胡椒调味猪排骨。3.分两批，将猪肉煎至浅金黄色...0CookGAN StepGAN IngredientGAN StackGAN++0野餐鱼子酱0米醋; 植物油; 大蒜瓣; 干牛至; 干罗勒; 黑豆;红洋葱; 玉米粒; 红腰豆...01.在一个大碗中搅拌醋、油、糖、大蒜、牛至和罗勒。2.加入黑豆、红腰豆、玉米、甜椒、洋葱、辣椒和香菜。3. 用盐和胡椒调味...0切成丝的萝卜和橄榄油炒0切成丝的萝卜; 胡萝卜; 黄豆; 培根; 橄榄油;黑胡椒; 粗盐。01.将切成丝的萝卜浸泡在水中，挤去多余的水分。2. 如果罐装黄豆中有水，将其沥干。3.将胡萝卜切丝...0食谱0图3. CookGAN、StepGAN、IngredientGAN和StackGAN++生成的食物图像的比较。0在CookGAN的设计中，成分主要是为了优先处理不同重要级别的图像区域进行上采样。没有改变成分外观的烹饪模拟器，学习逼真的图像是无效的。与StepGAN相比，CookGAN将IS从StepGAN的5.30提升到5.41。结果验证了关注成分对于将小尺寸图像顺序上采样到更高分辨率版本的优势。根据结果，图像中关注的成分特征确实有助于防止小尺寸和数量通常作为辅助成分的成分在图像上采样过程中被忽略。如图3所示，StepGAN生成的图像无法捕捉到CookGAN中丰富的颜色和纹理变化。04.3. 语义解释0我们认为生成的图像不仅应该具有视觉吸引力，还应该具有语义解释性。我们设计了三个任务来衡量生成图像的可解释性。0任务1：成分识别是对食物图像进行多标签分类。我们使用在Recipe1M上预训练的成分解码器[13]来完成此任务。将CookGAN生成的图像与其对应的真实图像进行比较。使用预测标签和真实标签之间的交并比（IoU）作为度量标准，真实图像和合成图像的性能几乎相同，IoU =0.29。结果基本上验证了CookGAN合成图像与真实图像一样具有可解释性。图4列出了CookGAN生成的两个样本图像的识别成分。不仅可以识别可见成分，还可以识别不可见成分，例如“Bajan sweetbread”中的“黄油”和“Spanishpisto”中的“胡椒”。结果与原始图像的结果相似。由于解码器的准确性限制，无论是真实图像还是合成图像，都无法区分“鸡肉”和“土豆”。同样，“鸡蛋”和“苏打粉”在饼干食谱中常见，对于这两种图像都被错误地检测到。55250GT0CookGAN0图像0糖；黄油；面粉；盐；椰子；葡萄干；干樱桃；肉豆蔻；提取物；牛奶；水；黄油。0糖；黄油；薯片；鸡蛋；面粉；盐；苏打粉；提取物。0成分图像0土豆；番茄；洋葱；盐；胡椒；茄子；大蒜；油；西葫芦；水。0洋葱；胡椒；番茄；油；鸡肉；盐。0成分0西班牙Pisto巴兰甜面包0图4. CookGAN生成的图像中的成分识别结果。在真实图像中出现的成分以红色和蓝色突出显示，否则以蓝色突出显示。0查询0GT0由CookGAN生成的图像真实图像0图5. 使用CookGAN生成的食物图像进行真实图像检索的示例。红色边界框标记了真实图像。0任务2：图像到食谱的检索（I2R）。这是一个逆向工程任务，将生成的图像作为查询从由1K个食谱-图像对组成的数据集中检索其食谱。我们使用R2GAN提取图像和食谱的跨模态特征。根据余弦相似度，将食谱按与查询图像的相似性降序排列。表1的第三列显示了使用不同GAN生成的图像的性能。当直接使用R2GAN生成的缩略图进行检索时，性能接近于随机排列的食谱。相反，通过学习从低分辨率到高分辨率的逐步上采样，所有其他GAN显著提高了性能。0有趣的是，MedR的性能与基于IS的视觉质量并不一定相关。虽然IngredientGAN的IS得分低于StackGAN++，但其MedR比StackGAN++好60个排名。结果清楚地表明CookGAN在编码食物语义方面的能力优于StackGAN++。StepGAN显示出轻微的改进，能够区分具有相似成分但不同切割和烹饪方法的食谱。总之，CookGAN在所有方法中表现最佳。然而，与使用原始图像作为查询相比，其中MedR可能高达1.0[15]，使用真实和合成图像进行检索仍存在性能差距。0食谱操作具体操作操作前真实图像操作后图像0任务3：图像到图像检索（I2I）。该任务是使用生成的图像检索真实食物图像。结果列在表1的第4列中。观察到与I2R不同的性能趋势。具体而言，IngredientGAN的性能优于StepGAN。我们认为这是由于数据集的组成，大多数食谱仅与一张食物图像相关联。因此，当StepGAN生成与数据集中样本图像在成分组成上视觉上不同的图像时，它们的相似性可能会降低。IngredientGAN仅基于成分内容检索相似图像，因此可以避免成分组成中模糊变化的问题。Figure 6. Examples of generated images by CookGAN with different recipe manipulation operators.55260减去成分 - 胡萝卜0添加成分 + 胡萝卜0替换成分胡萝卜生菜0操作前真实图像添加糖添加番茄酱0炒蛋酱蛋煎蛋0图7.CookGAN处理（a）成分的可见性，（b）成分上的不同烹饪操作的示例。0因此，MedR较低。图5显示了由CookGAN生成的查询的前5个检索图像。检索到的图像不仅在视觉上相似，而且在语义上也相似。04.4. 内容可操作性0CookGAN的一个优势是可以通过对食谱进行逐步操作，例如通过语义上更改成分列表，即时生成图像。在本节中，我们对与原始食谱略有不同的成分准备的食物图像的视觉呈现进行对比。图6显示了在添加、删除或用生菜替换“胡萝卜”时的菜肴示例。在添加的情况下，可以看到胡萝卜（或橙色物品）分布在整个菜肴中。另一方面，当删除“胡萝卜”时，菜肴中的胡萝卜消失了，橙色的数量明显减少。0橙色的数量明显减少。在替换的情况下，意大利面从橙色变为奶油白色，并覆盖着类似生菜的物体。更令人印象深刻的是，CookGAN能够学习到菜肴中成分的可见性。如图7（a）所示，当添加“糖”时，菜肴的外观保持不变。相反，当添加“番茄酱”时，颜色会发生变化。图7（b）展示了示例，以演示成分+行为的捆绑效应。根据烹饪方法的不同，“鸡蛋”的外观变化很大。05. 结论0我们提出了CookGAN用于视觉建模因果效应。实证结果表明，CookGAN能够合成逼真的视觉场景，描述烹饪行为的因果关系。与StackGAN++相比，CookGAN能够模拟由于烹饪行为而产生的成分的适当颜色、形状和组合。此外，CookGAN对于处理成分的透明效果和成分-行为捆绑效应等操作符表现出常识性的响应。在识别合成图像的成分时，与真实图像相比，也报告了类似的性能。尽管如此，CookGAN并未考虑成分数量和烹饪风格（例如，家常风格、酸甜口味），这将是我们未来的工作。0致谢0本文所描述的工作得到了中国香港特别行政区研究资助局的资助（CityU 11203517）。55270参考文献0[1] Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, BingXu, David Warde-Farley, Sherjil Ozair, Aaron Courville, andYoshua Bengio. 生成对抗网络.在神经信息处理系统进展中，页码2672-2680，2014年。[2]Fangda Han, Ricardo Guerrero和Vladimir Pavlovic. 美食的艺术:从食材合成餐食图像. arXiv预印本arXiv:1905.13149，2019年。[3]Kaiming He, Xiangyu Zhang, Shaoqing Ren和Jian Sun.深度残差学习用于图像识别.在IEEE计算机视觉和模式识别会议论文集中，页码770-778，2016年。[4] Daichi Horita, Wataru Shimoda和Keiji Yanai.通过将现有食物图像与条件StyleGAN混合来创建未见过的食物.在第5届国际多媒体辅助饮食管理研讨会论文集中，页码19-24.ACM，2019年。[5] Phillip Isola, Jun-Yan Zhu, TinghuiZhou和Alexei A E- fros. 条件对抗网络的图像到图像翻译.在IEEE计算机视觉和模式识别会议论文集中，页码1125-1134，2017年。[6] Yoshifumi Ito, Wataru Shimoda和Keiji Yanai.使用大量食物图像的条件GAN生成食物图像:ramengan和recipegan.在烹饪和进食活动多媒体联合研讨会论文集中，页码71-74.ACM，2018年。[7] Diederik P Kingma和Jimmy Ba. Adam:一种随机优化方法. arXiv预印本arXiv:1412.6980，2014年。[8]Ryan Kiros, Yukun Zhu, Ruslan R Salakhutdinov, RichardZemel, Raquel Urtasun, Antonio Torralba和Sanja Fidler.跳过思考向量.在神经信息处理系统进展中，页码3294-3302，2015年。[9]Mehdi Mirza和Simon Osindero. 条件生成对抗网络.arXiv预印本arXiv:1411.1784，2014年。[10] Dim PPapadopoulos, Youssef Tamaazousti, Ferda O�i, In- gmarWeber和Antonio Torralba. 如何制作披萨:学习一个基于组合层的GAN模型.在IEEE计算机视觉和模式识别会议论文集中，页码8002-8011，2019年。[11] Scott Reed, Zeynep Akata, Xinchen Yan, LajanugenLo- geswaran, Bernt Schiele和Honglak Lee.生成对抗文本到图像合成.在机器学习国际会议上，页码1060-1069，2016年。[12] TimSalimans, Ian Goodfellow, Wojciech Zaremba, Vicki Cheung,Alec Radford和Xi Chen. 改进的GAN训练技术.在神经信息处理系统进展中，页码2234-2242，2016年。[13]Amaia Salvador, Michal Drozdzal, Xavier Giro-iNieto和Adriana Romero. 从食物图像生成食谱.在IEEE计算机视觉和模式识别会议论文集中，页码10453-10462，2019年。[14] Amaia Salvador, Nicholas Hynes, Yusuf Aytar,Javier Marin, Ferda O�i, Ingmar Weber和Antonio Torralba. 学习0用于烹饪食谱和食物图像的跨模态嵌入.在IEEE计算机视觉和模式识别会议论文集中，页码3020-3028，2017年。[15] Hao Wang, Doyen Sahoo, Chenghao Liu, Ee-pengLim和Steven CH Hoi.使用对抗网络学习烹饪食谱和食物图像的跨模态嵌入.在IEEE计算机视觉和模式识别会议论文集中，页码11572-11581，2019年。[16] Tao Xu, Pengchuan Zhang, Qiuyuan Huang, HanZhang, Zhe Gan, Xiaolei Huang和Xiaodong He. Attngan:带有注意力生成对抗网络的细粒度文本到图像生成.在IEEE计算机视觉和模式识别会议论文集中，页码1316-1324，2018年。[17] Guojun Yin, Bin Liu, Lu Sheng, Nenghai Yu,Xiaogang Wang和Jing Shao. 文本到图像生成的语义分解.在IEEE计算机视觉和模式识别会议论文集中，页码2327-2336，2019年。[18] Han Zhang, Tao Xu, Hongsheng Li, ShaotingZhang, Xiaogang Wang, Xiaolei Huang和Dimitris N Metaxas.S- tackgan: 基于堆叠生成对抗网络的文本到逼真图像合成.在IEEE国际计算机视觉会议论文集中，页码5907-5915，2017年。[19] Han Zhang, Tao Xu, Hongsheng Li, Shaoting Zhang,Xiao- gang Wang, Xiaolei Huang和Dimitris N Metaxas. Stack-gan++: 基于堆叠生成对抗网络的逼真图像合成.IEEE模式分析与机器智能交易，41(8):1947-1962，2018年。[20]Zizhao Zhang, Yuanpu Xie和Lin Yang.具有分层嵌套对抗网络的照片文字到图像合成.在IEEE计算机视觉和模式识别会议论文集中，页码6199-6208，2018年。[21] Bin Zhu, Chong-Wah Ngo, Jingjing Chen和YanbinHao. R2GAN: 基于生成对抗网络的跨模态食谱检索.在IEEE计算机视觉和模式识别会议论文集中，页码11477-11486，2019年。[22] Jun-Yan Zhu, Taesung Park, Phillip Isola和AlexeiA Efros. 使用循环一致性生成对抗网络的非配对图像到图像翻译.在IEEE国际计算机视觉会议论文集中，页码2223-2232，2017年。[23] Minfeng Zhu, Pingbo Pan, Wei Chen和Yi Yang. DM-GAN:用于文本到图像合成的动态内存生成对抗网络.在IEEE计算机视觉和模式识别会议论文集中，页码5802-5810，2019年。

下载后可阅读完整内容，剩余1页未读，立即下载