基于语义对齐和生成的实体级文本引导图像操作方法ManiTrans

111 浏览量更新于2023-10-25 收藏 22.28MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

107070ManiTrans: 基于标记级语义对齐和生成的实体级文本引导图像操作0Jianan Wang 1 Guansong Lu 2 Hang Xu 2 Zhenguo Li 2 Chunjing Xu 2 Yanwei Fu 101 数据科学学院，复旦大学 2 华为诺亚方舟实验室0{ jawang19, yanweifu } @fudan.edu.cn { luguansong, xu.hang, li.zhenguo, xuchunjing } @huawei.com0文本0bird1:这只鸟有一个黑色的头和一个黄色的肚子。0bird2:一只鸟是橙色和黑色的，有一个蓝色的冠0和黑色的眼圈。0原始图像0bird1:这只鸟有一个黑色的头，黑色的翅膀和一个白色的肚子。0bird2:一只红色的鸟有一个黄色的头和一个黄色的肚子0有一个红色的冠。0ManiGAN Lightweight-GAN0我们的ManiTrans0图1. 使用ManiGAN [26]、Lightweight-GAN[28]和我们的ManiTrans根据不同的文本操作多个实体的结果。我们的ManiTrans可以相应地操作不同的实体，而两种基线方法则失败了。0摘要0现有的文本引导图像操作方法旨在修改图像的外观或编辑虚拟或简单场景中的几个对象，这与实际应用相去甚远。在这项工作中，我们研究了一个新颖的任务，即在现实世界中基于文本引导的实体级图像操作。该任务有三个基本要求：(1)根据文本描述编辑实体，(2)保留与文本无关的区域，(3)将操作后的实体自然地融入图像中。为此，我们提出了一种基于Transformer的新框架，即ManiTrans，它不仅可以编辑实体的外观，还可以根据文本指导生成新的实体。我们的框架包括一个语义对齐模块，用于定位需要操作的图像区域，以及一个语义损失，帮助对齐视觉和语言之间的关系。我们在真实数据集CUB、Oxford和COCO上进行了大量实验证明，我们的方法可以区分相关和不相关的区域，并实现更精确、更灵活的操作，相比基线方法有更好的效果。0与基线方法相比，我们的方法可以更精确、更灵活地操作图像中的实体，实现更精确、更灵活的操作，并实现更精确、更灵活的操作。01. 引言0图像操作有各种各样的活跃分支，例如风格转换[16]、图像翻译[21,62]和文本引导图像操作(TGIM)，利用最近的深度生成架构，如GANs [17]、VAE [25]和自回归模型[50]。特别是，以前的TGIM方法要么通过文本指令操作一些对象[12, 15,60]，例如在简单的玩具场景中“添加”和“删除”，要么操作对象的外观[4]或图像的风格[23,52]。在这项工作中，我们对实体级文本引导图像操作(eL-TGIM)这一新颖的挑战性任务感兴趣，即在给定文本描述的情况下，操作自然图像上的实体，如图所示。关键是，我们的eL-TGIM比普通的TGIM任务要困难得多，因为它在细粒度的实体级别上需要更强的操作能力。因此，直接扩展以前的方法是非常困难的。107080以往的TGIM方法无法有效地识别和编辑实体的属性，如图所示。通常，TGIM任务的主要障碍在于区分图像中哪些部分需要改变，哪些部分不需要改变。为了解决这个问题，现有的TGIM方法[10, 26, 28,34]提出了许多不同的操作机制，例如基于单词的鉴别器[28,34]和文本-图像仿射组合模块[26]，以区分候选编辑区域和其他图像部分。然而，这些方法仍然很难应用于自然图像中的实体操作。例如，图中显示，以前的方法只能操作对象的纹理/颜色，而无法根据文本描述生成合理的实体级操作结果。为此，我们提出了一种新的ManipulatingTransformers(ManiTrans)框架，通过逐标记的语义对齐和生成来解决eL-TGIM问题。因此，为了解决这个任务，我们提出了两个关键思想：基于Transformer的图像合成器(Trans)和实体级语义操作器(Mani)。具体而言，最近提出的基于Transformer的架构[14, 37,43]已经用于图像合成，并展示了很强的表达能力。因此，我们首先通过学习自动编码器将图像降采样和量化为一系列离散的图像标记，然后使用基于Transformer的自回归模型拟合该序列的联合分布，从而提出了Trans的新组件。此外，为了成功识别要编辑的实体，我们提出了包括语义对齐模块和对比语言-图像预训练(CLIP)模块的Mani组件。前者帮助生成模型Trans根据文本指导定位和修改与文本相关的图像标记。因此，我们的ManiTrans生成模型可以在局部操作图像并在更大程度上保留不相关的内容，如图所示。另一方面，我们将最近的CLIP模块重新用作一种语义损失，以进一步提高输入文本指导和操作图像之间的视觉-语义对齐。本质上，我们在ManiTrans中提出的这种语义损失是对标记级分类损失的补充，因此有效地作为像素级监督信号来训练我们的模型。我们在多个数据集上评估了我们的方法，包括：CUB [51]，Oxford [36]和COCO[32]。与以前的方法进行定量和定性比较表明，我们的方法可以更好地通过文本操作图像的实体，同时保持背景区域不变。除了操作一个对象的纹理/颜色，我们的方法还展示了根据不同的文本描述操作对象结构的优越能力，如图和图所示。0以前的方法无法完成。总之，我们的贡献如下：•我们提出了一种基于Transformer的实体级文本引导图像操作框架，具有令牌级的语义对齐和生成，名为ManiTrans，它不仅可以操作单个对象的纹理/颜色，还可以操作对象的结构和操作多个对象。•我们提出了一个语义对齐模块，用于定位与文本相关的图像令牌，以进行灵活的操作，并提出了一个语义损失，以实现更好的视觉-语义对齐和详细的训练信号。•我们重新利用和利用基于Transformer的图像合成器和CLIP模块作为我们ManiTrans框架中的语义损失，这在技术上是非常重要的。•我们在CUB、Oxford和COCO数据集上进行了定量和定性评估，与基线方法相比取得了优越/竞争性的结果。02. 相关工作0文本到图像生成文本到图像生成的重点是生成图像以可视化文本描述的内容。有许多优秀的基于GAN的模型[44, 55,57,58]。Li等人[27]进一步引入了一个词级鉴别器网络，为生成器网络提供细粒度的反馈。除了GAN，最近的研究还探索了应用基于Transformer的网络进行文本到图像生成[9, 13,42]。相比之下，我们不是根据文本生成图像，而是根据文本对输入图像进行实体级操作。文本引导的图像操作文本引导的图像操作引起了广泛关注，因为它使用户能够使用自然语言灵活地编辑图像[4, 10, 12, 15, 23, 24, 26, 28, 34, 52,54,60]。特别是，Li等人[26]引入了一个多阶段网络，带有一种新颖的文本-图像组合模块，用于生成高质量的图像。Li等人[28]提出了一个新的词级鉴别器，以及明确的词级监督标签，为生成器提供与每个词相关的详细训练反馈，实现了轻量级和高效的生成器网络。最近，由于StyleGAN的良好合成能力，研究人员致力于通过预训练的StyleGAN模型进行图像操作[39,54]。Patashnik等人[39]采用CLIP模型进行文本和图像之间的语义对齐，并提出将文本提示映射到StyleGAN的样式空间中与输入无关的方向，实现交互式文本驱动的图像操作。相反，我们的图像合成模块是从头开始训练的，而不是建立在预训练的StyleGAN模型之上。因此，我们的框架原则上更加灵活，可以部署到真实世界的视觉应用中。语义图像合成语义图像合成的任务旨在从一个107090语义标签。Isola等人[21]提出了一个基于条件GANs[33]的统一框架，用于各种图像到图像的转换任务，包括语义标签�照片、边缘→照片、白天→夜晚等。Chen和Koltun[5]采用了修改后的感知损失来合成高分辨率图像，以解决对抗训练的不稳定性。Wang等人[53]提出了一种新的对抗损失和新的多尺度生成器和判别器架构，用于生成具有细节和逼真纹理的高分辨率图像。Park等人[38]提出了一种空间自适应归一化层，用于使用输入语义布局调节激活，并有效地传播网络中的语义信息。这些工作使用户能够使用与语义标签相关联的有限数量的语义概念合成图像，而我们的方法侧重于根据输入文本操纵输入图像，这更加灵活，并且具有无限数量的语义概念。视觉和语言表示学习视觉语言预训练模型的数量[6, 22, 29-31, 41, 48, 59,63]学习用于各种下游任务的跨模态表示，包括图像-文本检索、图像字幕、视觉定位等。他们采用ResNets[18]和/或Transformers[11,50]的网络架构，并主要使用两种类型的学习任务进行预训练：跨模态对比学习和遮蔽语言建模。具体而言，最近的CLIP[41]模型在大规模数据集上进行训练，并在零样本任务上显示出优越的性能。我们重新利用CLIP模型作为一个监督损失，以帮助训练我们的eL-TGIM框架。03. 方法0图2显示了我们的ManiTrans框架的架构，由Mani和Trans组成。在本节中，我们首先介绍我们模型的架构。然后介绍用于模型训练的语言引导和视觉引导机制。最后，我们介绍用于推理阶段的语义对齐模块，以实现灵活的图像操作。03.1. 操作变压器模型0我们基于变压器的图像操作模型由自编码器模型和变压器模型组成，用于将输入图像降采样和量化为离散标记，并拟合图像标记的联合分布。基于自编码器的Trans模型由三个组件组成，卷积编码器E，卷积解码器G和包含Knz维潜变量的码本Z∈RK×nz。它们都是可学习的。给定图像X∈RH×W×3，E将图像编码为二维潜在特征图Q∈Rh×w×nz。码本用于将潜在特征图量化为0将每个像素嵌入替换为其在码本中最接近的潜变量，如下所示：0ˆQij = arg min zk ∥ Qij − zk ∥2. (1)0对于重构，解码器G将量化的潜在特征图ˆQ作为输入，并返回一个接近原始图像的生成图像ˆX，即ˆX ≈X。对于图像生成，量化的特征图ˆQ可以建模为一个离散标记序列，表示为离散标记索引序列I∈{0, ..., K - 1}h×w。每个标记大致对应于大小为H×W的图像补丁0w。因此，预测标记序列等效于合成图像。在实践中，我们参考单向Transformer[50]来自回归地预测图像序列，如下所示：0P(I ≤ i | T) =0i0j P(Ij | I

下载后可阅读完整内容，剩余1页未读，立即下载