基于组合层的GAN模型能够分割、去除和推断比萨浇头的排序

31 浏览量更新于2023-10-19 收藏 1.45MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1如何制作披萨：学习基于组合层的GAN模型迪姆山口Papadopoulos1 Youssef Tamaazousti1Ferda Ofli2Ingmar Weber2AntonioTorralba11麻省理工学院2卡塔尔计算研究所{dimpapa，ytamaaz，torralba}@ mit.edu，{fofli，iweber}@ hbku.edu.qa摘要食物食谱是一套有序的说明，用于准备特定的菜肴。从视觉角度来看，每个指令步骤都可以被视为通过添加额外的对象（例如，添加成分）或改变现有成分的外观（例如，烹饪菜肴）。在本文中，我们的目标是教机器如何通过建立一个生成模型，反映这个一步一步的过程，使比萨饼。为了做到这一点，我们学习组合模块操作，它能够添加或删除特定的成分。每个操作符都被设计为生成对抗网络（GAN）。鉴于只有薄弱的形象层面的监督，运营商是添加去除添加去除库克不煮训练生成需要添加到或者从现有图像中移除。该模型能够将图像分解成有序的层序列，通过顺序地应用相应的去除模块，在正确的顺序在合成和真实披萨图像上的实验结果表明，我们提出的模型能够：（1）以弱监督的方式分割比萨浇头，（2）通过揭示它们下面被遮挡的东西来去除它们（即，修补），以及（3）推断浇头的排序而无需任何深度排序超视。代码、数据和模型可在线获取1.1. 介绍食物是生活中不可或缺的一部分，对从健康到文化的各个方面都有着深远的为了教机器虽然已经在使用多模态嵌入的食谱到图像映射的理解上取得了进展[6，39]，但是仍然存在的挑战包括（i）食谱中正确步骤的重建，以及（ii）处理食物成分的部分遮挡，1http://pizzagan.csail.mit.edu图1. 如何制作披萨：我们提出了PizzaGAN，一个基于组成层的生成模型，旨在反映制作比萨饼的一步一步的过程。由不同的层组成。典型的例子是比萨饼（图）。1（左））。制作比萨饼的配方通常需要在比萨饼面团的顶部以特定顺序依次添加几种配料。添加操作的这种排序定义了配料之间的重叠关系。换句话说，创建该比萨饼图像需要在比萨饼面团图像的顶部顺序地呈现不同的配料层。按照相反的顺序依次去除成分的相反程序，对应于将给定图像分解为其层表示（图1）。1（右））。移除配料不仅需要检测所有配料实例，还需要通过生成其不可见部分的外观来除了食物，“层”的概念在本文中，我们提出了PizzaGAN，这是一个基于组成层的生成模型，它反映了制作比萨饼的一步一步的过程。给定一组仅具有图像级标签的训练图像（例如，8002pizzaPepperoniOlives（）：add（pepperoni）;add（olives）;cook（pizza）;8003对于每个对象类（例如，“pepperoni”），我们学习一对能够添加和移除目标对象类的所有实例的模块运算符（例如，“add pepperoni”和“remove pepperoni”）。每个这样的模块运算符被设计为生成对抗网络（GAN）。代替生成完整的新图像，每个添加GAN模块被训练以生成（i）添加的层的外观和（ii）指示在添加层之后在图像中可见的新层的像素的掩模。类似地，每个移除模块被训练以生成（i）被移除层下方的被遮挡区域的外观，以及（ii）指示在移除该层之后将在图像中不可见的被移除层的像素的掩模。给定一幅测试图像，该模型可以检测图像中出现的对象类别（分类）。依次应用相应的去除模块会导致将图像分解成其层。我们对合成和真实的比萨饼进行了广泛的实验，以证明我们的模型能够（1）以弱监督的方式检测和分割比萨饼浇头，而无需任何像素监督，（2）用下面的东西填充被遮挡的东西修补），以及（3）推断浇头的排序而无需任何深度排序监督。2. 相关工作生成对抗网络（GANs）。生成对抗网络（GAN）[2，11，16，36，38]是一种生成模型，通常试图将输入随机噪声向量映射到输出图像。GAN由两个网络组成，一个生成器和一个并行训练器。生成器被训练成生成真实的假样本，而训练器被训练成区分真实样本和假样本。GAN已用于各种重要的计算机视觉任务，在图像生成[21，36]，图像翻译[8，23，31，55]，高质量面部生成[26]，超分辨率[29]、视频生成[12，44，45]、视频翻译[3]等。Image-to-Image翻译.条件GAN（cGAN）能够根据输入图像生成输出图像。这使得这些模型适用于解决图像到图像的翻译任务，其中来自一个特定域的图像被翻译到另一个域。已经提出了几种基于cGAN的图像到图像转换方法[5，8，22，23，31，34，47，55，56]。Isola等人[23]提出了一种通用的图像到图像的翻译方法，使用cGAN训练来自两个域的一组对齐的训练图像。CycleGAN [55]通过引入一个循环一致性损失来避免两个训练样本的对齐对，生成器之间的矛盾，并解决了GANs的模式崩溃问题。在本文中，我们制定了每个对象操作算子（例如，添加/删除）作为一个不成对的图像到图像的翻译，并建立在循环GAN的开创性工作[55]。我们的工作提供了额外的元素以上的图像到图像的翻译方法，通过构建可组合的模块，执行不同的对象操纵操作，生成一个分层的图像表示或预测图像中的对象的深度排序图像层。将图像分解成层是一项在90年代已经解决的任务[10，20，42，43，46]。最近，Yang et al.[51]提出了一种用于对象检测和分割的分层模型，该模型估计图像像素的深度排序和标记在[50]中，作者使用了图像层的概念，并提出了一种分层的GAN模型，该模型学习分别递归地生成背景和前景图像，然后将它们合成为最终的合成图像。还提出了几种方法用于非模态检测[25]或分割[15，30，57]，检测或分割对象的全部范围的任务，包括任何不可见和被遮挡的部分。最近的工作Ehsani等人。[13]不仅尝试分割不可见的对象部分，而且还揭示它们的外观。生成残留图像。最近，研究人员已经探索了使用cGAN模型来仅生成残差图像的想法，即，只有当图像被转换到另一个域时需要改变的图像部分，用于面部操作任务[35，40，53]。例如，这些模型能够学习如何改变头发颜色，打开/关闭嘴巴，或者通过仅操纵面部的相应部分来改变面部表情。相反，在本文中，我们利用残差图像的生成来推断图像的层表示。模块化GAN。我们的工作也与研究GAN的模块化和可组合性有关[17，53]。最近，赵等。[53]提出了一种模块化的多域GAN体系结构，它由若干个可组合的模块化操作组成。然而，他们假设所有的操作都是顺序不变的，这对于在图像中添加和删除重叠对象来说是不正确的。相反，我们的模型考虑了层排序，并能够在测试时推断它，而无需任何监督。图像修复。从自然图像中移除对象需要通过绘制相应的像素来预测其背后的内容图像修复是重建图像丢失或恶化区域的任务，在过去已经被图形界广泛探索[4，9，18]。最近，已经提出了几种使用GAN的方法[33，49，52]来解决这个任务。我们删除模块的主要区别是，一个单一的GAN8004C+C-CCIadv模块添加（辣香肠）：G+pepA++M+我-If+模块移除（意大利辣香肠）：IR+G-pepA--我-+我-图2. 模块操作员接受过在给定图像上添加和删除意大利辣香肠的培训。每个算子是生成添加或移除层的外观A和掩码M所生成的合成图像通过将输入图像与所生成的残差图像进行合成而被合成。模型负责分割期望的对象并生成它们下面的像素。3. 方法我们现在描述我们提出的PizzaGAN模型。本文给出了一组高H、宽W的训练RGB图像I2RH×W×3，这些图像只有图像级标签。设C={c1，c2，.，c k}是所有k个不同标签的集合（即，比萨饼浇头）在我们的比萨饼数据集中。对于每个训练图像Ij，我们被给予长度为k的二进制向量，其编码图像级标签（即，这张图片的信息。我们的目标是为每个对象类c学习两个映射函数，以将没有类c的任何实例的图像转换为具有类c的实例的图像（即，添加类C）并且反之亦然（即，除去C类）。为了做到这一点，对于每个类c，我们将训练样本分为两个域：一个具有包含类c的图像（X+），另一个具有不包含类c的图像（X-）。3.1. 模块架构发生器模块。设G+为生成器模块，注意，M+和M-的所有非零值表示输出合成图像中发生变化的像素。鉴别器。我们的模型包含一个单一的判别- torD，其负责评估所生成的合成图像的质量。该网络被训练为（i）区分输入图像是真实的还是假的（Dadv），以及（ii）对所有类别的输入图像执行多标签分类任务（Dcls）。这两个目标是至关重要的，迫使生成器生成逼真的图像，更重要的是，添加或删除特定的对象类的图像，而不修改其他类标签的图像。具有额外辅助分类输出的鉴别器网络已成功用于各种GAN模型[8，32，35]。3.2. 学习模型所有添加G+和移除G−生成器模块以及CJD都是联合学习的完整的客观损失函数包含四个不同的术语：（a）鼓励生成的图像看起来逼真的对抗性损失，（b）阻止G+和G−添加或删除属于不同类别的实例的分类C在输入图像Ir-1上添加类别c的层（映射（c）防止G+和G-相互矛盾的周期一致性损失，（d）c c c c c c c生成器模块，其移除类C的层（映射-pingG−：X+！ X−）。这对发电机模块是掩盖正则化损失，鼓励模型使用生成的层和输入图像。C c c示于图2为班pepperoni。下面，为了简单起见，我们经常从符号中省略类c输出生成的图像If+=G+（Ir-）和If−=G−（Ir+）由下式给出If+=M+<$A++（1-M+）<$Ir−（1）对抗性损失。与原始GAN [16]一样，我们使用对抗性损失，以鼓励生成的图像看起来现实的（即，匹配真实图像样本的分布）。对于每个加法模G+和WMD，对抗损失由下式给出：If−=M−<$A−+（1-M−）<$Ir+（2）其中，M+、M−2[0，1]H×W是层掩码，其指示添加层或移除层的每个像素如何表示。Ladv（G+，D）=EIr+[logDadv（Ir+）]+Er−[log（1-D（G+（Ir−）））]（三）否则，将影响最终合成生成的图像。A+2RH× W×3是捕获添加层外观的RGB图像，而A−2 RH× W×3是捕获被移除层遮挡的部分外观的RGB图像。图2，我们观察到A+捕捉了意大利辣香肠的外观，而A-捕捉了意大利辣香肠下面的奶酪的外观表示逐元素乘积。其中G+旨在生成逼真的图像，而D旨在以区分真实图像Ir+和伪图像If+。G+试图最小化这种损失，而D试图最大化它。类似地，我们为每个移除模G-和D引入对抗损失Ladv（G-，D）。分类损失。如上文所解释的，CNOD还执行多标签分类任务。我们在这里引入了一个分类损失，它鼓励生成8005L（¨¨CYCL（¨¨CCcls我cls−分类订购去除意大利辣蘑菇橄榄去除顶部去除顶部顶部图3. 测试时间推断。给定一个测试图像，我们提出的模型首先检测比萨饼中出现的浇头（分类）。然后，我们预测浇头的深度顺序，因为它们出现在输入图像中从上到下（排序）。图像中的绿色圆圈突出显示了预测的要删除的顶级成分。使用这种排序，我们顺序地应用相应的模块，以便向后重建制作输入比萨饼的一步一步的过程。将图像正确分类到正确的标签。这种丢失迫使生成器添加或删除对于上述损失，我们在两个方向上应用第二个一致性损失：只属于目标类，同时保留类la-图中所有其他类的bels。如果没有这次损失，M G+CYC，G−¨）=EIr−[？M+（I）r−）-M −（I）f+¨）1]+会出现某些不希望的效果，例如删除不应删除的类实例或替换¨EIr+[？M−（I）r+）-M +（I）f−¨（1）（七）当添加新类时，会调用现有类的实例。这种损失包括两个方面：我们用来优化D的真实图像的域分类损失，以及与[55]类似，我们对两个循环一致性损失都采用L1范数。每对G+和G−的最终一致性损失Lcyc由两项之和给出我们用来选择的假图像的分类损失将G+和G-混合。更正式地说，我们有：我CYC和LM。Lr（D）=Er[kD（lr）-lrk2]（4）掩码正则化。对所提出的模型进行了训练没有任何像素监控的访问，因此，我们不能直接在生成的掩码MfG+CLS，G−¨，D）=EIr−[？Dcls（ G+（Ir−））-lf+<$2]+以及外观图像A. 这些都是隐性学习的¨EIr+[？Dcls（G（Ir+））-lf−<$2]（五）所有其他损失都适用于最后的复合物-网站生成的图像。然而，我们经常观察到掩码可能会收敛到零，这意味着生成器具有其中Dcls表示由D计算的所有类别标签上的概率分布。lr表示向量，没有效果。为了防止这种情况，我们对掩码M+和M-应用正则化损失：图像Ir的类级信息，而lf+和lf−<$表示所生成图像的目标类别标签。Lreg（G+，G−）=Er−[<$1-M+（Ir−）<$]+¨ ¨2（八）Er+[]循环一致性损失。使用对抗和I2以上分类损失，发电机经过培训，以发电-评价看起来真实的图像，并将其分类到目标标签集。然而，仅凭这一点并不能保证生成的图像将保留核心内容。全输了。用于鉴别器D和用于每对添加和移除模块（即，G+和G−）定义为：响应输入图像。与[55]类似，我们对生成元G+和G-应用了循环一致性损失。这个想法是，当我们在原始图像上添加一些东西，然后试图删除它时，我们应该最终重建LD=- XKc=1XKLadv（G+，D）-XKc=1Ladv（G−，D）+（九）L我L8006原始图像更正式地说，我们有：λclsrcls（D）I+−−+r−r−¨c=1+−L循环（G，G）=EIr−[？G（I））-I？1]+LGc =Ladv（Gc，D）+Ladv（Gc，D）++−R+r+<$f+f−EIr+[？G（G（I））-I[1]（六）λ cls（Lcls（Gc，D）+Lcls（Gc 、D））+λcyc（Lcyc（G+，G−））+ λreg（Lreg（G+，G−））循环一致性损失不仅可以定义在C ccC（十）图像，而且在生成的层掩模上。当我们首先添加一个层，然后从输入图像中删除它时，生成的两个层掩码M+和M-应该以相同的方式影响图像的完全相同的像素。类似其中λcls、λcyc和λreg是控制分类损失、循环一致性损失和掩码正则化损失与对抗性损失相比的相对重要性的超参数。8007去除a）、的r1去除一个g1Mg2Mr1Mg1Mg1b）、Mr2Mg2Mr2Mg2Mr2图5. 合成比萨饼的地面实况多层分割。它捕捉所有的闭塞之间发生的不同的浇头。例如，青色像素（右）表示洋葱被番茄遮挡的部分。图4. 预测层的顺序。(a)一个有两个重叠的圆形物体的玩具示例（红色在绿色之上）。在第一行中，我们首先删除红色对象，然后删除绿色对象，而在第二行中，我们遵循相反的顺序。(b)每个排序排列的两个生成掩码之间的交集。我们观察到，在第一种情况下，两个生成的掩模M高度重叠，而在第二种情况下，重叠为零。3.3. 测试时间推断在测试时，可以任意堆叠不同的可组合加法模块，并构造特定的运算符序列。这导致生成特定序列的层，这些层被渲染到图像中以创建新的合成图像。这可以看作是给定一组有序指令生成（制作）比萨饼图像的抽象。相反的情况是预测用于创建图像的指令的有序集合。换句话说，给定一个没有任何监督的测试图像，这里的目标是预测我们可以应用于图像的移除操作符的序列，以将其分解为有序的层序列。推理过程如图所示3，并在下面描述。分类. 我们首先将图像送入判别器，以预测图像中出现的浇头，即。应该应用哪些移除模块。订购。这里出现的一个重要问题是应用这些模块操作来重新移动层的正确顺序为了回答这个问题，我们应该推断出哪个物体在哪个物体的上面。我们在这里利用所提出的模型的能力，以揭示什么是下面删除的对象。特别是，我们使用生成的dmasks的重叠来推断层的排序，而不需要任何监督。在图4中，我们用一个玩具例子来更详细地解释这个想法。该图像包含两个重叠的圆形对象，红色圆圈位于绿色圆圈之上。我们研究两种不同的排列顺序（红色，绿色和绿色，红色）。我们观察到，在第一种情况下，模块的两个生成的掩码高度重叠，而在第二种情况下，这种重叠为零（图11）。第四条（b）款）。这发生这种情况是因为第一种情况下的模型揭示了红色圆圈下方的绿色像素（参见图4（a）中的外观图像Ar1否则，结果图像将包含绿色新月（假对象）而不是绿色圆圈（真实对象）。因此，我们可以通过查看哪个排序排列导致生成的掩码之间的更高重叠来预测两个对象之间的排序。在预测m个不同层之间的排序的一般情况下，理想情况下应该尝试所有不同的m！排列顺序这在实践中是不可行的。相反，我们仍然可以通过只看k层之间的成对排序来预测完整的排序这些结果仅在m（m-1）个成对排列中，使得排序推理相当有效。我们还使用重叠的差异作为不确定性度量来解决成对预测中的矛盾（例如，A在B的顶部，B在C的顶部，C在A的顶部）。4. 收集披萨在本节中，我们将描述如何使用剪贴画风格的比萨饼图像创建合成数据集（第二节）。4.1）以及我们如何在亚马逊机械土耳其人（AMT）上收集和注释真实的比萨饼图像。4.2）。4.1. 制作合成披萨使用合成披萨创建数据集有两个主要优点首先，它允许我们以零人工注释成本生成任意大的比萨饼示例集。其次，更重要的是，我们可以获得准确的地面实况排序信息和浇头的多层这使我们能够准确地定量评估我们提出的模型的排序和语义分割任务。合成比萨饼的地面实况多层分割如图所示。五、注意，与标准语义分割相比，图像的每个像素可以采用多于一个黄色像素显示在图。5（右）表示番茄和意大利辣香肠的存在）。我们使用各种不同的背景纹理，不同的剪贴画图像的平原比萨饼，和不同的剪贴画红色绿色顺序：红色，Mr1删除Ar1绿色Mg1删除Ag1红色顺序：绿色，8008背景比萨饼浇头图7.真正的比萨上配料的分布。输入图像-培根-蘑菇-橄榄-洋葱- 番茄图6. 合成披萨。上图：背景纹理、比萨饼底图和用于制作合成比萨饼的浇头的例子.下图：合成披萨的例子。图像的每个浇头，以获得合成比萨饼（图中的例子）。6（顶部））。这为合成数据集添加了更真实的色调，并使添加和重新移动浇头的任务变得更具挑战性。的实例输入图像输入图像- 菠萝-培根-新鲜罗勒- 橄榄-番茄-洋葱-意大利辣香肠获得的合成比萨饼如图1B所示6（底部）。该数据集由具有各种不同浇头配置的比萨饼组成（即，浇头的数量、浇头的数量、浇头的每个实例的位置以及浇头层的顺序）。4.2. 收集真正的披萨数据披萨是Instagram上被拍照最多的食物，有超过3800 万条使用 #pizza 标签的帖子。首先，我们从Instagram下载了50万张图片，使用了几个流行的与披萨相关的标签。然后，我们使用基于CNN的分类器过滤掉不需要的图像，该分类器在一小组手动标记的比萨饼/非比萨饼图像上训练。图像级注释。我们在 Amazon Mechanical Turk（AMT）上为比萨饼浇头提供众包图像级标签。给定一个比萨饼图像，指示注释器标记比萨饼顶部可见的所有浇头。每个潜在的注释者首先被要求通过注释五个简单的比萨饼图像来完成资格测试。当众包图像注释时，资格测试是一种常用方法，因为它通过过滤掉不良注释器来提高众包数据的质量[14，24，28，37，41]。注释比萨浇头可能具有挑战性，因为几种成分具有相似的视觉外观（例如，培根-火腿、罗勒-菠菜）。为了进一步保证高质量，每幅图像由五个不同的注释器进行注释，并且最终图像标签使用多数表决来获得。数据统计。我们的数据集包含9，213个带注释的比萨饼图像，标记的浇头分布如图所示。7 .第一次会议。每个比萨饼的平均浇头数（包括奶酪）为2.9，标准差为1.1。图8.我们预测去除操作符的序列，并将它们顺序地应用于输入图像。请注意，每次当前的顶级成分都是删除的成分。这个过程揭示了几个不可见的部分的成分时，删除顶层，闭塞他们。5. 实现细节架构生成器模块和转换器的架构基于[55]中提出的架构，因为CycleGAN在不成对的图像到图像转换方面取得了令人印象深刻的结果。通过在倒数第二层的顶部引入额外的卷积层并与现有的最后一层并行来修改生成器架构。这一层只有一个输出通道，我们使用sigmoid激活函数作为掩码。对于机器学习，我们采用流行的PatchGAN架构[23，55]，我们稍微修改了它，以执行多标签分类任务。培训详情。我们使用Adam求解器[27]训练我们的模型，前100个epoch的学习率为0.0002然后，我们在接下来的100个历元中线性衰减到零。所有的发电机模块和发电机都是从头开始训练的对于下面的所有实验，我们设置λ cls=1，λ cyc=10和λ reg=0。01.对于真正的比萨饼，我们首先获得输入图像的居中平方裁剪，然后将其调整为256 × 256。6. 实验结果6.1. 合成披萨数据我们创建了一个包含5,500个合成披萨的数据集。每个比萨饼最多可以包含以下列表中的10种配料：培根罗勒花椰菜蘑菇橄榄洋葱胡椒辣香肠培根蘑菇辣椒黑橄榄番茄罗勒8009加法运算符输入图像添加图层最终图像删除操作符输入图像去除层最终图像表1.弱监督分割mIoU在合成披萨上的性能。所有比较方法都是在ILSVRC上预先训练的，而PizzaGAN是从头开始训练的。在Resnet38+中，GAP和FC层被三个atrous卷积取代[7]。洋葱，辣椒，菠萝，西红柿}。我们将图像分为5,000张训练图像和500张测试图像。我们使用带有图像级标签的训练图像来训练我们的模型，并在测试集上测量其性能。定性结果。图8示出了合成测试图像的定性结果。我们展示了如何预测比萨饼是如何制作的：我们预测了删除操作符的序列，我们可以将其应用于图像，将其分解为有序的层序列。评价下面，我们在以下任务上评估我们的模型：（i）多标签顶层分类，（ii）层或-蒸煮操作工不蒸煮操作工预测（见第二节）（3）弱监督语义分割。我们使用平均精度（mAP）来衡量分类性能。我们使用DamerauLevenshtein距离（DL）作为将地面实况排序改变为通过地面实况类标签数量归一化的预测排序所需的我们使用标准的 Intersection-over-Union（IoU）方法计算分割精度，然后计算所有类的平均值（mIoU）。分类. 对合成比萨上的浇头进行分类是一项简单的任务。我们的模型实现了99.9%的mAP。作为参考，基于ResNet18 [19]的CNN分类器使用二进制交叉熵损失从头开始训练，实现了99.3%mAP。订购。我们的PizzaGAN的平均归一化DL距离为0。三十三岁。作为参考，随机标签的随机序列达到0。91，而oracle标签的随机排列达到0。四十二这些数字表示归一化距离，因此较低的值表示较高的准确度。我们还评估排序的准确性，只包含两个浇头的测试图像的一个子集。我们发现，我们的方法是能够预测正确的顺序，ING 88%的时间。细分我们比较了各种弱监督分割方法（Tab. ①的人。类激活图（ CAM ） [54] 使用 ResNet18 架构实现22.8%。ResNet18拥有图9. 实piz- zas上个别算子的定性结果。（顶部）添加和删除运算符。（底部）烹饪和不烹饪操作员。与我们的发电机架构参数相同。拥有更深网络的CAM达到39.9%。AffinityNet [1]是一个强大的CNN，它建立在CAM基础上，并在PASCAL VOC 2012数据集上实现了最先进的结果。尽管AffinityNet将CAM提高了约8%，但我们的方法比它高出10%。当在CAM和AffinityNet的预测段之上应用denseCRF时，性能达到51.5% mIoU，这明显低于我们模型的性能。我们提出的PizzaGAN没有任何排序推理（在输入图像上并行应用移除模块）实现了56.7%的按顺序应用移除模块（基于预测排序）会带来额外的+2%mIoU。这反映了我们的模型通过首先去除最上面的成分来揭示成分中不可见部分有趣的是，使用Oracle深度排序，我们实现了60.9%，仅比使用预测排序高出3%。这个上限（oracle或- dering）提供了一种替代方法来评估分割任务的深度排序的影响。遮挡和非遮挡区域。为了进一步研究排序的影响，我们测量了分割性能，分为图像的遮挡和非遮挡区域。在没有任何排序预测的情况下，我们在非阻塞重新上实现了70.4%的mIoU。菠萝生成的图像输入图像意大利辣蘑菇新鲜罗勒方法架构mIoU（%）[54]第五十四话[19]第十八话22.8[54]第五十四话免费WiFi [48]39.9AffinityNet [1]免费WiFi [48]48.2CAM [54]+CRF免费WiFi [48]51.5AffinityNet [1]+CRF免费WiFi [48]47.8PizzaGAN（无订单）PizzaGAN（带订单）56.758.2芝麻菜8010输入图像-芝麻菜-橄榄-番茄未煮输入图像-玉米-意大利辣香肠-培根图10. PizzaGAN：我们预测运算符的顺序，并将它们顺序地应用于输入图像。该模型的目标是每次删除顶部成分。这导致向后重构用于制作输入比萨饼的食谱过程。gion和0% mIoU的闭塞。使用预测的深度排序，我们实现了类似的性能（70.5%）上的非遮挡区域和18.2%上的occluded的。该分解示出了深度排序使得能够预测对象的被遮挡和不可见部分，这对于各种食物识别应用是非常有用6.2. 在真正的披萨上做实验数据在本节中，我们将在真实的piz- zas上进行实验。我们在12个类别的9，213张图像上训练我们的模型（浇头）：{芝麻菜，培根，花椰菜，玉米，新鲜罗勒，蘑菇，橄榄，洋葱，意大利辣香肠，胡椒，菠萝，西红柿}。为了评估的目的，我们手动注释了一个小的50个图像与准确的分割掩模（见地面实况分割图。第11段）。我们使用与合成披萨相同的评估设置，并评估分类和弱监督语义分割性能。定性结果。图9（顶部）示出了在真实图像上单独添加和移除模块的效果。我们观察到，添加模块通过检测比萨饼来学习在哪里添加，以及如何通过以统一和现实的方式将新块放置在比萨饼上来添加。去除模块通过准确检测浇头来学习去除什么，以及通过尝试预测去除的配料下面图我们展示了如何预测比萨饼是如何制作的：我们预测可以应用于图像的操作符序列，以将其分解为有序的层序列。分类. 我们的模型实现了77.4%的mAP。作为参考，基于ResNet18 [19]的CNN分类器使用二进制交叉熵损失从头开始训练，实现了77.6%mAP。细分我们的方法没有任何顺序推断（并行应用删除模块的输入图像）达到28.2% mIoU。应用移除图11.分割结果的例子在真正的比萨饼。模块顺序使用预测排序实现29.3%的mIoU。正如预期的那样，性能明显低于在合成数据上观察到的性能，因为真实图像比合成图像更具挑战性。使用ResNet38+，CAM [54]实现了14.2%，当在预测之上应用密集CRF时，它们实现了22.7%。我们提出的模型优于这两个模型的大幅度（+6。6%）。图第11话一个人的秘密心理预测的例子，从CAMs+CRF和我们的PizzaGAN。烹饪模块。除了添加和删除操作，烹饪比萨饼的过程在食谱程序中是必不可少的我们在这里手动将932个比萨饼的子集标记为烹饪或未烹饪，以训练旨在烹饪或未烹饪给定比萨饼的模块这些模块的训练类似于添加/删除模块，一些定性结果如图所示。9（底部）。7. 结论在本文中，我们提出了PizzaGAN，一个生成模型，反映了比萨饼的制作过程。为此，我们学习了可组合模块操作（使用GAN实现）来添加/删除特定成分，甚至烹饪/取消烹饪输入比萨饼。特别地，我们将层分解问题公式化为几个顺序的不成对的图像到图像的平移。我们对合成和真实比萨饼图像的实验表明，我们的模型(1)以弱监督方式检测和分割比萨浇头，而没有任何像素方面的监督，（2）用下面的东西填充被遮挡的东西，以及(3) 推断浇头的顺序而无需任何深度或深度监督。虽然我们只在比萨饼的背景下评估了我们的模型除了食物，看看我们的模型在数字时尚购物助理等领域的表现会很有趣，其中一个关键操作是不同衣服层的虚拟组合。测试图像GTCAM+CRFPizzaGAN辣椒橄榄西红柿8011引用[1] 安智云和郭淑华。学习像素级语义亲和力与图像级监督弱监督语义分割。在CVPR，2018年。7[2] M. Arjovsky，S. Chintala和L.博图Wasserstein GANarXiv，arXiv预印本arXiv：1701.07875，2017. 2[3] Aayush Bansal 、 Shugao Ma 、 Deva Ramanan 和 YaserSheikh 。再生甘：无监督视频重定向。在 ECCV，2018。2[4] Marcelo Bertalmio、Guillermo Sapiro、Vincent Caselles和Coloma Ballester。图像修复。SIGGRAPH，2000年。2[5] Konstantinos Bousmalis 、 Nathan Silberman 、 DavidDohan、Dumitru Erhan和Dilip Krishnan。无监督像素级域自适应生成对抗网络。在CVPR，2017年。2[6] MicaelCarv alho ， Re' miCade' ne ， Da vidPicard ，LaureSoulier，Nicolas Thome，and Matthieu Cord.烹饪环境中的跨模态检索：学习语义文本图像嵌入。在SIGIR，2018。1[7] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE关于模式分析和机器智能的交易，2018。7[8] Yunjey Choi，Minje Choi，Munyoung Kim，Jung-WooHa，Sunghun Kim，and Jaegul Choo. Stargan：用于多域图像到图像翻译的统一生成对抗网络。在CVPR，2018年。二、三[9] AntonioCriminisi，PatrickPe'rez，和KentaroToyama. 基于样本的图像补绘的区域填充和目标去除 IEEETransactions on Image Processing，2004。2[10] 特雷弗·达雷尔和亚历山大·彭特兰。多层运动表示的鲁棒估计。在Visual Motion，1991年，IEEE研讨会论文集，第173- 178页。IEEE，1991年。2[11] E. Denton，S.Chintala、A.Szlam和Fergus R.使用对抗网络的拉普拉斯金字塔的深度2015年，在NIPS中。2[12] 艾米丽·丹顿和罗伯·费格斯具有学习先验的随机视频生成。在ICML，2018。2[13] Kiana Ehsani 、 Roozbeh Mottaghi 和 Ali Farhadi 。SeGAN：分割和生成不可见的。在CVPR，2018年。2[14] I. Endres和D.霍伊姆类别独立对象程序。ECCV，2010年。6[15] Patric kFollmann，RebeccaK？ nig，PhilippH？rtinger，andMichael Klostermann.学习看不见的东西：端到端可训练的非模态实例分割。 arXiv 预印本 arXiv ：1804.08864，2018。2[16] I. Goodfellow，J. Pouget-Abadle，M.米尔扎湾，澳-地Xu，L.沃德-法利，S。奥扎尔A.Courville和Y.本吉奥。生成对抗网络。在NIPS，2014。二、三[17] 劳拉·格雷瑟和阿南特·古普塔可组合的不成对图像到图像翻译。arXiv预印本arXiv：1804.05470，2018。2[18] J. Hays和A.埃夫罗斯使用数百万张照片完成场景。SIGGRAPH，2007年。2[19] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。七、八[20] Li-wei He，Jonathan Shade，Steven Gortler，and RichardSzeliski.分层深度图像。在siggraph，1998年。2[21] Xun Huang ， Yixuan Li ， Omid Poursaeed ， John EHopcroft，and Serge J Belongie.叠加生成对抗网络。在CVPR，2017年。2[22] Xun Huang ， Ming-Yu Liu ， Serge Belongie ， and JanKautz.多模态无监督图像到图像翻译。arXiv预印本arXiv：1804.04732，2018。2[23] P. Isola，J.Y. Zhu，T.Zhou和A.A. 埃夫罗斯使用条件对抗网络的图像到图像翻译。在CVPR，2016年。二、六[24] S. Johnson和M. Everingham从不准确的注释中学习有效的人体姿势估计。CVPR，2011。6[25] Abhishek Kar ，Shubham Tulsiani，Joao Carreira ，andJiten- dra Malik.自然场景中的非模态完成和大小恒定性在ICCV，2015年。2[26] Tero Karras ， Timo Aila ， Samuli Laine ， and JaakkoLehtinen.为提高质量、稳定性和变异性而进行的干细胞生长。在ICLR，2018年。2[27] Diederik P. Kingma和Jimmy Lei Ba。Adam：随机最佳化的方法。2015年，国际会议。6[28] Jonathan Krause，Michael Stark，Jia Deng，and Li Fei-Fei.用于细粒度分类的3d对象表示。ICCV 3D表示和识别研讨会，2013年。6[29] Chri s tianLedig ， LucasTheis ， FerencHus za'r ， Jo seCaballero ， Andrew Cunningham ， Alejandro Acosta ，Andrew P Aitken ， Alykhan Tejani ， Johannes Totz ，Zehan Wang，et al.使用生成式对抗网络的照片级真实感单幅图像超分辨率。在CVPR，2017年。2[30] Ke Li和Jitendra Malik。非模态实例分割。在ECCV，2016。2[31] Ming-Yu Liu，Thomas Breuel，and Jan Kautz.无监督图像到图像翻译网络。在NIPS，2017年。2[32] Augustus Odena，Christopher Olah，and Jonathon Shlens.辅助分类器gans的条件图像合成。arXiv预印本arXiv：1610.09585，2016年。3[33] Deepak Pathak 、 Philipp Krahenbuhl 、 Jeff Donahue 、Trevor Darrell和Alexei A Efros。上下文编码器：通过图像修复进行特征学习。在CVPR，2016年。2[34] GuimPerarnau ， JoostvandeWeijer ， BogdanRaducanu，and JoseMA'lv arez. 用于图像编辑的不可验证的条件gans。arXiv预印本arXiv：1611.06355，2016。2[35] Albert Pumarola、Antonio Agudo、Ale

下载后可阅读完整内容，剩余1页未读，立即下载