LayoutVAE：基于文本描述的随机场景布局生成模型

66 浏览量更新于2023-10-12 收藏 1.73MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9895LayoutVAE：从标签集随机Akash Abdu Jyothi1，3，Thibaut Durand1，3，Jiawei He1，3，Leonid Sigal2，3，GregMori1，31 Simon Fraser University2 University of British Columbia3 Borealis AI{aabdujyo，tdurand，jha203}@ sfu.calsigal@cs.ubc.camori@cs.sfu.ca摘要近年来，研究界对场景生成的兴趣越来越大。然而，用于从文本描述生成场景布局的模型在很大程度上忽略了文本所指示的结构内的合理视觉变化。我们提出LayoutVAE，一个变分自动编码器为基础的框架，用于生成随机场景布局。LayoutVAE是一个通用的建模框架，允许生成完整的图像布局给定的标签集，或每标签布局现有的图像给定一个新的标签。此外，它还能够检测不寻常的布局，潜在地提供了一种方法来评估布局生成问题。在MNIST-Layouts和具有挑战性的COCO 2017 Panop- tic数据集上进行的大量实验验证了我们提出的框架的有效性。1. 介绍场景生成是计算机视觉领域的一个核心前沿问题，它通常包括多个物体在语义布局下的真实感生成尽管在对象生成方面取得了快速进展和最近的成功（例如，名人脸、动物等）[1，9，13]和场景生成[4，11，12，19，22，30，31]，很少关注为随机语义布局生成设计的框架具有用于布局生成的鲁棒模型将不仅允许我们生成可靠的场景布局，而且还提供先验和手段来推断对象之间的潜在关系，推进场景理解领域的进展。一个合理的语义布局要求场景中对象之间合理的空间和计数关系（不同标签的实例数量之间的关系）[5，27]。例如，一个人要么骑在马上，要么站在马旁边，但很少会在马下面另一个例子是领带的数量很可能小于或等于图像中的人数。第一个示例显示了一个看似合理的空间关系的实例，第二个示例显示了一个图1：来自COCO的几个图像具有相同的标签集：人，冲浪板和海。给定这个简单的标签集，我们观察到一个大的和不同的布局集是合理的。这是一个通用的计数关系。这种隐藏在高维视觉数据中的内在关系通常通过将文本描述映射到视觉数据来然而，由于文本描述总是可以被视为可视化数据的抽象，因此该过程变成了一对多的映射。换句话说，给定相同的文本信息作为条件，一个好的模型应该能够生成多个看似合理的图像，所有这些图像都满足语义描述。以前的工作集中在上面描述的问题的一个流行的简化实例：基于句子描述的场景生成[6，11，12，19，24，25，30]。一个典型的句子描述包括背景和物体的部分信息，以及物体外观和场景布局的细节这些框架在很大程度上依赖于句子提供的额外关系信息。因此，尽管这些方法设法生成逼真的场景，但它们往往忽略学习对象之间的内在关系，从而禁止广泛采用提供较弱描述的此类模型。在这项工作中，我们考虑一个更复杂的问题：9896基于标签集描述的场景生成。标签集作为一种弱得多的描述，仅提供图像中存在的标签集（没有任何额外的关系描述），需要模型从视觉数据中学习空间和计数此外，这种类型的标签集监督的模糊性要求多样化的场景生成。例如，给定标签集人、冲浪板、海，对应场景可以具有每个标签的多个实例（在合理的计数关系下），定位在各种位置（在合理的空间关系下）。例如，在COCO数据集[21]中，训练集中有869个图像，其标签集为人，海和冲浪板。图1示出了具有该标签集的多个似然图像的示例我们提出LayoutVAE，一个随机模型能够生成场景布局给定的标签集。所提出的框架可以很容易地嵌入到现有的场景生成模型中，这些模型将场景布局作为输入，例如[10，31]，为它们提供合理和多样化的布局。我们的主要贡献如下。• 我们提出了一个新的模型，随机场景布局生成给定的标签集输入。我们的模型有两个组成部分，一个是模拟计数的分布，对象与另一个对象之间的空间关系来建模对象之间的空间关系的分布• 我们提出了一个新的合成数据集，MNIST布局，捕捉场景布局生成问题的随机性• 我们使用MNIST- Layouts和COCO [21]数据集（包含复杂的真实世界场景布局）实验验证了我们的模型。我们分析我们的模型，并表明它可以用来检测不太可能的场景布局。2. 相关工作句子调节图像生成。已经提出了多种模型来生成给定句子的图像。Reed等人[25]使用以文本编码为条件的GAN [7]来生成图像。Zhang等人[30]提出了一种基于GAN的图像生成框架，其中图像在两个阶段中以递增的分辨率逐步生成。Reed等人[24]利用句子输入以及关键点或边界框形式的附加信息Hong等人[11]将从句子生成图像的过程分解为多个阶段。输入句子首先用于预测场景中存在的对象，然后预测边界框，然后是语义分割掩码，最后是图像。虽然在这项工作中的场景布局生成预测的概率分布的边界框布局，它无法模拟预测每个边界框的随机性固有的。Gupta等人[8]使用类似于[11]的方法来预测用于从脚本生成视频的布局。Johnson等人[12]使用从输入语句生成的场景图作为图像生成模型的输入给定一个场景图，他们的模型只能生成一个场景布局。Deng等[6]提出PNP-Net，这是一个VAE框架，用于从基于文本的程序中生成抽象场景的图像，该程序完全描述了它。虽然PNP-Net是一种随机生成模型，但它在只有少量类的合成数据集上进行了测试。此外，它试图将整个图像编码为单个潜在代码，而在LayoutVAE中，我们将布局生成步骤分解为两个阶段，每个阶段中有多个基于这些原因，目前还不清楚PNP-Net是否可以扩展到具有大量类别的真实世界图像数据集Tao等人[29]提出了一个基于GAN的模型，注意到句子到图像的生成。最近的工作从李等人。[19]遵循类似于[11]从一个句子生成一个图像，其关键创新之处在于使用注意力机制在图像中创建更逼真的对象。其他上下文中的布局生成。Chang等[3]提出了一种通过放置来自3D对象库的对象来基于文本描述生成3D室内场景的方法，并且随后在[2]中通过学习具有3D对象的更详细的文本描述的基础来改进。Wang等人[28]使用卷积网络，通过一次添加一个对象来迭代生成3D房间场景。Qi等人[23]提出了一种空间与或图来表示室内场景，可以从中采样新场景。与大多数其他作品不同的是，他们使用人类的启示和活动信息，在场景中的对象建模可能的空间布局。Li等[18]提出了一种基于VAE的在生成期间，递归地解码潜在代码以获得单个对象及其布局的细节。最近，Liet al. [17]提出了LayoutGAN，一种基于GAN的模型，可以生成图形元素（矩形，三角形等）的布局。虽然这项工作在问题焦点方面与我们的工作接近，但LayoutGAN基于输入噪声生成标签集，并且它不能为给定的标签集生成布局。在场景中放置对象。Lee等[16]提出了一种条件GAN模型，用于将新对象的分割掩码添加到图像的语义分割中的问题。Lin等[20]解决了将对象RGB掩模添加到背景图像中的类似问题。9897φKc ck kKK3. 背景在本节中，我们首先定义从标签集生成场景布局的问题，然后概述构建LayoutVAE的基本模型。3.1. 问题设置我们有兴趣在场景中的对象之间的上下文关系建模，并进一步生成不同的，但似是而非的场景布局给定的标签集作为输入。这个问题可以用公式表示如下。给定M个对象类别的集合，我们将与数据集中的图像相对应的标签集表示为L{1，2，3，.，M}，其指示图像中存在的类别。请注意，这里我们使用的“对象”一词的形式非常普遍：车，猫，人，天空和水都是存在的对象。对于每个标签k ∈ L，令nk是图像中该标签的对象的数量，并且Bk={bk，1，bk，2，…bk，nk}是边界框的集合。bk，i=[xk，i，yk，i，wk，i，hk，i]表示图像的左上角坐标、宽度和高度类别k的第i个边界框。我们训练一个生成模型来预测{Bk：k∈L}的不同但合理的集合，给定标签集L作为输入。3.2. 基础模型可变自动编码器。变分自动编码器（VAE）[15]描述了一类生成模型pθ（x，z）= pθ（x）的实例|z）pθ（z）与复似然函数pθ（x|z）和摊销推理网络qφ（z|x）来近似真实的后验pθ（z|X）。这里x表示可观察的数据示例，z表示潜在代码，θ生成模型参数，φ为推理网络参数。为了防止潜在变量z仅仅复制x，我们强制qφ（z|x）接近先验分布pθ（z）。通常在在VAE模型中，pθ（z）是一个固定的高斯分布N（0，I）。两者生成和推理网络实现为非线性神经网络生成数据似然logp（x）上的证据下限（ELBO）L（x;θ，φ）用于联合优化θ和φ：L（x; θ，φ）= Eq（z|x）[log pθ（x|z）] − KL（qφ（z|x）||pθ（z））（一）条件性VAE。条件VAE（CVAE）[26]定义了VAE的扩展，该扩展以数据的辅助描述c为条件。辅助条件变量使得可以推断条件后验qφ（z|x，c）以及执行生成pθ（x|z，c）基于给定的描述C.因此，ELBO更新为：4. 用于随机场景布局生成的LayoutVAE算法在本节中，我们将介绍LayoutVAE并描述给定标签集的场景布局生成过程。正如第1节所讨论的，这个任务具有挑战性，解决它需要回答以下两个问题：每个类别的对象数量是多少？以及每个对象的位置和大小是什么？LayoutVAE自然分解为两个模型：一个用于预测每个给定标签的计数，称为CountVAE，另一个用于预测每个对象的位置和大小，称为BBoxVAE。所提出的LayoutVAE的总体结构如图2所示。每个标签的对象数量（ count ）首先由 CountVAE 预测，然后BBoxVAE预测每个对象的边界框。随机模型的两步方法自然允许LayoutVAE生成不同的布局。此外，它提供了处理各种类型输入的灵活性，因为它允许我们独立使用每个模块。例如，BBoxVAE可用于生成布局（如果计数可用），或在给定新标签的现有图像中添加单个边界框。CountVAE的输入是标签集L，它自回归地预测对象计数{nk：k∈L}的分布，其中nk是类别k的对象计数。BBoxVAE的输入是标签的集合以及每个标签{nk：k ∈ L}的计数，并且它预测每个边界框bk，i的自回归分布。4.1. CountVAECountVAE是条件VAE的一个实例，旨在以自回归方式预测标签的条件计数分布。我们对标签集使用预定义的顺序（我们凭经验观察到预定义的顺序优于样本间的随机顺序;学习顺序是一种潜在的扩展，但增加了复杂性）。在实践中，CountVAE预测第一标签的计数，然后预测第二标签的计数等，在每个步骤中，以已经预测的计数为条件。它对给定标签集L、当前标签k和计数的计数nk的分布进行对于在{nm：m k}之前预测的每个类别。CountVAE的调节输入为：cc=（L，k，{nm：m k}）（3）其中（·，·）表示元组。我们使用上标c的符号表示它与CountVAE相关我们使用泊松分布来模拟发生在每一步的当前标签：（λ（zc，cc））（nk−1）e−λ（zc， cc）LCVAE（x，c;θ，φ）=E[logp（x|z，c）]pθc（nk|z，c）=（四）q φ（z|x，c）θ（二）kk（nk− 1）！- KL（qφ（z|x，c）||pθ（z|c））cc在CVAE模型中，潜变量z的先验由辅助输入c调制。其中pθc（nk|zk，ck）是随机变量n k上的概率分布，θc表示生成模型参数，其中，λ（zc，cc）是依赖于K K9898c c c2cKK图2：模型。LayoutVAE由两个模型组成：CountVAE预测每个类别的对象数量，BBoxVAE预测每个对象的边界框。补充资料附录A中给出了图形模型。算法1CountVAE：图像标签计数nk的损失计算由下式给出：输入：标签集L，实例计数{nk：k∈L}C C C C C计数L（nk，ck; θ，φ）=Eqφc（zc |nk，cc）[logpθc（nk|zk，ck）]（7）1：L=0k k-KL（qφc（zc|nk，cc）||pθc（zc|（c））2：对于k∈L，3：计算类别kc的条件输入cck k kKk其中φ表示的推理模型参数（等式3）4：计算变分下界CountVAE使用预测泊松分布下的地面真值计数的对数似然来计算Lc（nk，cc;θc，φc）（等式7）c cK计数计数cC c cpθc（nk|zk，ck），而两者之间的KL散度5：L=L6：结束，输出：L计数|L|+L（nk，ck;θ，φ）高斯分布是解析计算的。在算法1中给出了标记集L的损失的计算。潜在变量样本zc和条件输入一代给定标签集合L，CountVAE autore-ck通过以下方式对每个类别的对象计数进行灰色预测：ck. 注意，我们学习了nk−1上的分布，因为在这个问题设置中，每个标签的计数总是1或更大潜变量在学习过程中从近似后验中采样潜变量对场景布局中的模糊性进行建模。近似后验和先验均建模为具有对角协方差的多变量高斯分布，参数如下所示：qφc（zk|nk，ck）= N（μφc（nk，ck），σφc（nk，ck））（5）Ccc2c从计数分布中采样（等式4）。我们现在介绍生成过程来预测cat e goryk的对象计数。我们首先计算条件输入c′c：c<$c=（L，k，{n<$m：mk}）（8）其中n=m是类别m的预测实例计数。注意，为了预测类别k的实例计数，模型e利用先前类别m k的预测计数nm来获得更一致的计数。然后，我们从条件先验中采样一个潜在变量zcpθc（zk|ck）= N（μθc（ck），σθc（ck））（6）Kz<$c<$pθc（zc|（9）22kkK其中μφc （分别 μθc）和σφc （分别 σθc）是函数估计近似值后（或prior）。补充资料第B.1小节详细介绍最后，从预测的泊松计数分布中采样计数：nkpθc（nk|zc，c<$c）（10）K K学习通过在{nk：k∈L}上最大化ELBO来优化模型。ELBO对应于该标签计数进一步用于CountVAE的未来步骤的条件变量9899k、jk、jk、jk、jk、jθb算法2BBoxVAE：图像输入：标签集L，实例计数{nk：k∈L}，边界框集{Bk：k∈L}1：LBBox= 02：对于k∈L，3：对于j ∈ {1，. . . ，nk}做4：计算第j个的调节输入cb类别k的边界框（等式11）5：计算变分下界图3：来自MNIST-Layouts数据集的样本。我们随机抽取适当标签的MNIST数字来填充边界框。计数和空间布局的规则（例如，大的2在中间，小的3在底部等。）在补充资料的第C.1小节Lb（bk，j，cb;θb，φb）（等式13）学习我们以类似的方式训练模型，6：LBBox=LBBox+Lb（bk，j，cb7：结束;θb，φb）通过最大化整个边界框集上的变分下限来计算CountVAE。对于边界框bk，j，第八章：端Output：LBBox，.ΣΣk∈Lnk下限由下式给出（省略等式中所有变量的下标k，jLb（b，cb;θb，φb）=Eqφb（zb |b、c和b）Σ对数pθb（b）|zb，cb）Σ（13）4.2. BBoxVAE-我是说...BbBbΣKL qφb（z|b、c）||pθb（z|c）、给定标签集L和每个类别的对象计数{nm：m∈L}，BBoxVAE自回归地预测边界框的坐标分布。我们遵循与CountVAE中相同的预定义标签顺序，标签空间，并为每个标签从左到右排列边界框在移动到下一个标签之前，对给定标签的所有边界框进行预测 BBoxVAE是条件VAE，其在给定标签集合L以及每个标签的计数、当前标签k以及先前预测的所有边界框的坐标和标签信息的情况下，对标签k的第j个边界框b k，j进行建模。先前的预测包括先前标签的所有边界框当前标签：Bprev={bm，：：m< k}<${bk，i：i

下载后可阅读完整内容，剩余1页未读，立即下载