自我注意力：理解和生成布局中的上下文关系

111 浏览量更新于2023-10-14 收藏 2.28MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1004天空其他海天空其他海上冲浪板天空其他布局变压器：具有自注意力的版图生成与完成Kamal Gupta1，Justin Lazarow2， Alessandro Achille3，Larry Davis1，3， Vijay Mahadevan3，AbhinavShrivastava11马里兰大学帕克分校2加州大学圣地亚哥分校3亚马逊AWS摘要我们解决的问题，场景布局生成不同的领域，如图像，移动应用程序，文档，和3D对象。大多数复杂的场景，自然的或人类设计的，可以表示为一个有意义的安排更简单的组成图形原语。生成新布局或扩展现有布局需要理解这些要素之间的关系为了做到这一点，我们提出LayoutTransformer，一个新的框架，利用自我注意来学习布局元素之间的上下文关系，并在给定的领域生成新的布局。我们的框架允许我们从空集或从基元的初始种子集，并且可以容易地缩放以支持每个布局的任意基元。此外，我们的分析表明，该模型能够自动捕获的语义属性的基元。我们提出了简单的改进，在两个表示的布局图元，以及训练方法，以证明在非常不同的数据域，如对象的边界框在自然图像（COCO边界框），文件（PubLayNet），移动应用程序（RICO数据集）以及三维形状（零件网）的竞争力的表现。代码和其他材料将在https://kampta.github.io/layout上提供。1. 介绍在现实世界中，在同一环境中发现的不同对象之间存在很强的关系[43，47]。例如，餐桌周围通常有椅子，冲浪板在海边，马不骑汽车等[3]在认知神经科学中提供了强有力的证据，即感知和理解场景涉及两个相关的过程：感知和理解。感知处理视觉信号通讯作者。工作开始于亚马逊实习期间。(a)自回归2D布局生成和下游布局到图像应用(b)自回归生成3D对象图1：我们的框架可以合成各种自然以及人类设计的数据域中的布局，或场景的外观。理解涉及理解场景的图式，其中该图式（或布局）可以由上下文关系（例如，上下文关系）来表征。支持、遮挡和相对可能性、位置和大小）。对于合成场景的生成模型，该证据支持有助于生成场景的真实性或合理性的两个因素的重要性：布局，即不同对象的排列以及它们的外观（以像素表示）。生成逼真的场景需要两个因素都是合理的。用于图像合成的生成模型的进步主要针对外观信号的似然性，通过生成通常具有单个实体（例如面部[23，24]或动物[4，61]）的令人难以置信的逼真图像。在大型复杂场景的情况下，以强非1005由于不同元素之间的局部关系，大多数方法需要用于布局的代理表示作为输入（例如，场景图、分割掩模、句子）。我们认为，要合理地生成大型场景，没有这样的代理，有必要理解和生成的场景布局，在上下文关系之间的各种对象存在于场景中。学习生成布局对于需要在有/没有用户交互的情况下生成布局或模板的若干独立应用程序是有用的。例如，在移动应用程序和网站的UI设计中，用于生成合理布局的自动化模型最后，创建布局的模型可能有助于为各种任务生成合成数据[5，6，54，55，59]。图图1示出了由我们的方法在诸如文档、移动应用、自然场景和3D形状的各种领域中自回归生成的一些布局形式上，场景布局可以表示为图形基元的无序集合。原语本身可以是离散的或连续的，这取决于数据域。例如，在文档的布局的情况下，图元可以是来自诸如“文本”、“图像”或“标题”的离散类的边界框，并且在3D对象的情况下，图元可以是对象的部分的3D占用网格，诸如在椅子的情况下的另外，为了使图元合成，我们通过相对于原点的位置向量和定义包围图元的边界框的尺度向量来表示每个图元再次，基于域，这些位置和比例矢量可以是2D或3D的。布局的生成模型应该能够查看所有现有的图元，并提出新图元的放置和属性我们提出了一个新的框架LayoutTransformer，首先映射的不同参数的原始独立到一个固定长度的连续的潜在向量，其次是一个掩蔽的变压器解码器，看看现有的原始布局中的表示和预测下一个原始（一个参数的时间）。我们的生成框架可以从一个空集或一组原语开始，并且可以迭代地生成一个新的原语，一次一个参数。此外，通过预测停止或生成下一个原语，我们的方法可以生成可变长度的布局。我们的主要贡献可概括如下：• 我们提出了LayoutTransformer一个简单而强大的自回归模型，可以合成新的布局，完成部分布局，并计算现有布局的可能性。自我关注方法允许我们可视化哪些现有元素对于生成序列中的下一个类别是重要的。• 我们分别对布局元素的不同属性进行建模-这样做可以让attention模块更好地轻松专注于重要的属性。这一点非常重要，尤其是在具有固有对称性的数据集（如文档或应用程序）中，并且与现有的连接或融合布局基元的不同属性的方法形成对比。• 我们提出了一个令人兴奋的发现-这展示了布局生成任务作为用于学习语义表示的代理任务的效用。• LayoutTransformer显示了良好的性能，在非常不同的领域中具有基本相同的架构和超参数。我们在四个布局数据集上展示了模型的适应性：MNIST 布局 [29] 、 Rico 移动应用线框 [9] 、PubLayNet文档[65]和COCO边界框[32]。据我们所知，MMA是第一个在4个不同的数据域中与最先进的方法竞争的2. 相关工作生成模型。基于CNN的深度生成模型，如变分自动编码器（VAE）[26]和生成对抗网络（GANs）[11]，最近在忠实地学习给定的数据分布并从中采样也有关于连续生成数据的研究[7，37]，即使数据没有自然顺序[49]。这些方法中的许多方法通常依赖于低级信息[14]，例如在生成图像[4，24]，视频[50]或3D对象[13，38，56，58]时的像素，而不是数据中的语义和几何结构。场景生成。生成以句子[31，40，62]、场景图[ 1，21，28 ]、场景图[2，21，28]、场景图[3，21，22]、场景图[3，22，23]、场景图[4，24，25]、场景图[5，26，27]、场景图[5，28，29为条件的2D或3D场景。布局[10，17，20，53]或现有图像[27]在视觉社区中引起了极大的兴趣给定输入，一些作品生成固定的布局和不同的场景[63]，而其他作品生成不同的布局和场景[21，31]。这些方法涉及管道经常训练和评估端到端，令人惊讶的是，很少的工作已经完成，以评估布局生成组件本身。布局生成作为这些工作的补充任务，可以与这些方法相结合。在这项工作中，我们评估了两个最近的作品[21，31]的布局建模能力，这些作品将布局生成作为中间步骤。我们还使用Layout2Im[63]演示了我们的模型的结果，用于图像生成。布局生成。版面的自动生成是平面设计中的一个重要问题许多最近的数据驱动方法使用特定于数据的约束，以便1006§联系我们G天空p草人埃尔森人天空图2：针对玩具示例描绘的架构。LayoutTransformer将布局元素作为输入，并预测下一个布局元素作为输出。在培训过程中，我们使用教师强迫，即。使用地面实况布局令牌作为多头解码器块的输入。该块的第一层是掩蔽的自我注意层，其允许模型仅看到先前的元素以预测当前元素。我们在每个布局的开头和结尾分别填充了一个特殊的bos标记。来模拟布局。例如，[30，41，51，52]生成了自顶向下的室内房间布局视图，但对墙壁、屋顶等的存在进行了若干假设。，并且不能容易地扩展到其他数据集。在本文中，我们专注于具有较少特定领域的约束的方法。LayoutGAN [29]使用GAN框架来生成固定数量的场景元素的语义和几何属性LayoutVAE [22]以标签集开始，即、布局中存在的所有元素的类别，然后生成场景的可行布局[64]尝试在给定图像、关键字和文档类别的情况下生成文档布局。[39]提出了一种使用递归变分自动编码器构造文档布局的层次结构的方法，并对新的层次结构进行采样以生成新的文档布局。[34]开发了一个使用Graph Networks 的布局自动编码框架。3D-PRNN[66]、PQ-Net [57]和ComplementMe [45]通过顺序部件组装生成3D形状虽然3D-PRNN仅生成边界框，但PQ-Net和ComplementMe可以从部分或无输入形状开始合成完整的3D形状。我们的方法提供了几个优势，目前的布局生成方法，而不牺牲他们的好处适合。通过分解图元为结构参数和组成几何参数，我们可以生成高分辨率的图元使用分布式表示，因此，完整的场景。该模型的自回归性质允许我们生成任意长度的布局以及从部分布局开始。此外，将基元的位置和大小建模为离散值（如3.1中所讨论的）帮助我们在数据集上实现更好的性能，例如文档和应用程序线框，其中布局的边界框通常是轴对齐的。我们评估我们的方法定量和定性与国家的最先进的方法具体到每个数据集，并显示在非常不同的领域的竞争结果。3. 我们的方法在本节中，我们将在布局生成问题的背景下介绍我们的注意力网络。我们首先讨论我们的布局属于不同领域的原语表示。接下来，我们将讨论LayoutTrans-former框架，并展示如何利用Trans-former [48]对布局的概率分布进行建模。MMA允许我们学习布局基元之间的非局部语义关系，并且还为我们提供了处理可变长度布局的灵活性。3.1. 布局表示给定一个布局数据集，可以将单个布局实例定义为一个图形其中每个节点i1，. . .，n是图形基元。我们假设图是完全连接的，并让注意力网络学习节点之间的关系。节点可以具有与其相关联的结构或语义信息。对于每个节点，我们将与之相关联的信息投影到由特征向量si表示的d维空间。注意，信息本身可以是离散的（例如，部分类别）、连续的（例如，、颜色）或多维向量1007J联系我们Y（例如：部分的符号距离函数）。具体而言，在我们的ShapeNet实验中，我们使用MLP将部分嵌入投影到d维空间，而在2D布局实验中，我们使用学习的d维类别嵌入，这相当于使用具有零偏置的MLP将独热编码类别向量投影到潜在空间。每个图元还携带几何信息g明确地将权重分配给各个坐标维度。注意模块类似于Transformer Decoder [48]，由L个注意层组成，每个注意层包括（a）掩蔽的多头注意层（hattn）和（b）全连接前馈层（ hfc）。每个子层还添加残余连接[16]和LayerNorm [2]。θj=LayerNorm（θl−1+hatt n（θl−1，. . . ，θl-1））（2）ij1j−1我们将其分解为位置矢量和比例矢量。对于R2中的布局，例如图像或文档，gi=[xi，yi，hi，wi]，其中（x，y）是图元的质心的坐标，并且（h，w）是包含图元的边界框的高度和宽度，相对于整个布局的尺寸进行归一化。用离散变量表示几何。我们apply- ply一个8位的均匀量化的几何领域和模型，它们使用分类分布。对连续信号进行离散化是在用于图像生成的先前工作（诸如PixelCNN++ [42]）中采用的实践，然而，据我们所知，它在布局建模任务中尚未被探索。我们观察到，即使离散化坐标引入近似误差，它也允许我们表达任意分布，我们发现这对于具有强对称性的布局（例如文档和应用程序线框）特别重要。我们将基元的每个几何场独立地投影到θl=LayerNorm（θj+hfc（θj））（3）其中l表示层索引。执行掩蔽使得θ也仅关注所有输入潜在向量作为先前预测的潜在向量。最后一层的输出对应于下一个参数。在培训和验证时，我们使用教师强制，即。，而不是使用前一步的输出，我们使用地面实况序列来有效地训练我们的模型。损失如果下一个参数是离散的，我们使用softmax层来获得概率。代替使用标准交叉熵损失，我们最小化软最大值预测之间的KL散度，并使用标签平滑输出独热分布[46]，这防止模型变得过于自信。如果下一个参数是连续的，我们使用L1损失。L= E θ圆盘[DKL（SoftMax（θL）p（θ′））]相同的d维，使得R2中的第i个本原可以是表示为（si，xi，yi，hi，wi）。我们把所有的元素-+λE θ续的||θ −θ′||第1页]段以其参数的展平序列显示。我们还附加了两个额外参数s和s的嵌入来表示序列的开始和结束。R2中的布局现在可以由5n+2个潜在向量的序列表示。G=（s; s1; x1; y1; h1; w1;. . . ; sn; xn; yn; hn; wn;seos）为了简洁起见，我们使用θj，j1，. . .，5n+2表示上述序列中的任何元素。我们现在可以提出这个问题，将这个联合分布建模为一系列条件分布的乘积：5n+23D图元自动编码。PartNet数据集[60]由分解为更简单的有意义的原语的3D对象组成，例如椅子由背部、手臂、4条腿等组成。我们提出的3D形状生成的问题，生成这样的图元的布局。我们使用[8]的基于MLP的隐式参数解码器将本征向量投影到图元的表面占用网格。原语的顺序。自回归建模方法的局限性之一是基元序列是一个重要的考虑因素，以便训练生成器。p（θ1：5n+2）=p（θj|θ1：j−1）（1）j=1即使布局为了从任何部分布局生成布局，我们使用基元的随机排列作为3.2. 模型架构和培训我们的整体架构如图所示。二、给定K个可见基元的初始集合（其中当从头生成时K可以是0），我们的基于注意力的模型将可见节点的随机排列π=（π1，. . .，π K），并且因此d维向量（θ1，. . .，θ5K）。我们发现这是一个重要的步骤，因为通过将原始表示分解为几何和结构场，我们的注意力模块可以模型对于输出，我们总是以基元的质心的光栅顺序生成序列，即，我们按照图元的（x，y，z）坐标的升序对图元进行排序。在我们的实验中，我们观察到元素的排序对于模型训练很重要注意类似在布局生成[19，22，31，52]、图像生成[12，42]和3D形状生成[57，66]中，当代作品面临着限制。在任意数量的基元的顺序不变集上生成分布是一个令人兴奋的问题，我们将在未来的研究中探索它。1008图3：生成的3D对象。顶行显示模型的输入基元。底行示出了通过我们的方法获得的布局其他细节。在我们的基础模型中，我们使用d =512，L = 6，nhead=8（多注意头部的数量）。标签平滑使用ε = 0。1，且λ = 1。我们使用Adam opti-mizer [25]，其中β1= 0。9，β2= 0。99，学习率为10−4（PartNet为10−5）。我们使用基于验证损失的早期停止在附录中提供的消融研究中，我们证明了我们的模型对这些选择以及其他超参数（布局分辨率、元素排序、场排序）非常鲁棒要对新布局进行采样，我们可以从序列嵌入的开始或初始的基元集合开始。几种解码策略可以从初始集合递归地生成原语。在为这项工作生成的样本中，除非另有说明，否则我们使用原子核采样[18]，其中top-p = 0。9，与贪婪采样和波束搜索[44]相比，其表现更好。4. 实验在本节中，我们将讨论我们的模型在不同数据集上的定性和生成模型的评估是困难的，并且大多数定量测量未能提供从生成模型采样的数据的新颖性和真实性的良好测量。我们将使用各种基线方法所使用的特定于数据集的定量指标，并讨论其适用的局限性。我们将提供代码和预训练模型来重现实验。4.1. 3D形状合成（在PartNet数据集上）PartNet是一个大规模的常见3D形状数据集，这些形状被分割成语义上有意义的部分。我们使用PartNet中最大的两个类别-椅子和灯。我们将形状体素化为643，并训练自动编码器来学习部分嵌入，类似于PQ-Net [57]所遵循的总的来说，我们的数据集中有6305把椅子和1188盏灯。我们使用来自PartNet的官方训练、验证和测试分割虽然扩展我们的方法来训练类条件生成是相当为了公平地与基线进行比较，我们为每个类别训练单独的模型。生成的样品。图3显示了PartNet数据集的形状完成示例给定随机基元，我们使用我们的模型来迭代地预测下一部分的潜在形状编码，以及其在3D中的位置和比例。然后，我们使用部分解码器对物体表面上的点进行采样对于可视化，我们使用的行军立方体算法来生成一个网格和渲染网格使用一个固定的摄像机的观点。定量评价。我们的模型的输出是在3D形状的表面上采样的点云。我们使用倒角距离（CD）和地球移动器在之前的工作之后，我们使用4个不同的指标来比较从模型生成的形状和测试数据集中的形状的分布：(i)Jensen Shannon散度（JSD）计算生成集中的点云的边缘分布与测试集中的点云的边缘分布之间的KL散度。（ii）覆盖（Cov）-将生成集中的每个点与测试集中的其最近邻点之间的距离进行比较，（iii）最小匹配距离（MMD）-计算测试集中的每个点到其生成集中的最近邻居的平均距离，以及（iv）1-最近邻准确度（1-NNA）使用1-NN分类器来查看所生成样本的最近邻是来自生成集还是测试集。我们的模型执行compet-与现有的方法来生成点云。表1显示了我们的模型在“椅子”类别中的生成性能，相对于最近提出的方法。我们的模型4.2. 自然场景使用COCO Panoptic 2017数据集[32]中的边界框注释获得COCO边界框数据集。遵循LayoutVAE [22]方法，我们忽略isCrowd边界框来自所有80个事物和91个事物类别。我们的最终数据集有来自COCO列车的118280个布局，其中1009----表1：在椅子类别中生成的形状的评估最好的数字用粗体表示，次好的用下划线表示方法JSD↓ MMD（CD）↓ MMD（EMD）↓ Cov（CD）↑ Cov（EMD）↑ 1-NNA（CD）↓ 1-NNA（EMD）↓[58]第五十八话1.742.427.8746.8346.9860.8859.89StructureNet [36]4.770.9715.2429.6731.775.3274.22IM-Net [8]0.840.7412.2852.3554.1268.5267.12PQ-Net [57]0.830.8314.1654.9160.7271.3167.8我们0.810.797.3855.2555.4460.6759.11图4：生成的布局。顶行显示输入到模型的种子布局。底行显示了用细胞核取样获得的布局。为了清楚起见，我们跳过了42个元素的中值长度和5000个布局，来自COCO有效分割，中值长度为33。我们在实验中使用来自COCO的官方验证拆分作为测试集，并使用5%的训练数据作为验证。基线方法。我们将我们的工作与4种先前的方法进行比较- LayoutGAN[29]，LayoutVAE [22]，Obj-GAN [31]和sg 2 im [21]。由于LayoutVAE和Layout-GAN不是开源的，我们实现了我们自己的基线版本。请注意，像许多GAN模型一样，LayoutGAN是出了名的难以训练，尽管我们尽了最大的努力，但我们的实现（因此结果）可能与作者的实现不同我们能够在COCO数据集上重现LayoutVAE的结果，如原始论文中所提出的，并为不同的数据集训练我们自己的模型。我们还使用 LayoutVAE 中提到的指南重新使用 ObjGAN 和sg2im。尽管评估生成模型具有挑战性，但我们试图尽我们最大的能力进行公平的比较。对于我们的模型，我们在数据集上保持架构超参数相同。对于基线，我们在各自工作中提到的超参数上进行网格搜索，根据验证损失选择最佳模型。附录中提供了一些消融研究。生成的样品。图4显示了在COCO数据集上使用我们的模型的布局完成任务。虽然模型是用所有171个类别训练的，但为了清楚起见，在图中我们只显示了我们还将生成的布局用于场景生成的下游应用[63]。语义通过布局出现。我们在前面假定，捕获布局应该捕获各种元素之间的上下文关系我们提供了进一步的证据图5：下游任务。使用布局生成图像[63]。生成图像的FID和IS评分见表3。我们在Fig.中的论证六、我们可视化的2D-tsne图的学习嵌入类别。我们观察到，从COCO的超类别聚集在一起的模型的嵌入空间。某些类别，如百叶窗和窗帘（属于不同的超级类别）也出现彼此接近。这些观察结果与[ 15 ]的观察结果一致，[15]使用视觉共现来学习类别嵌入。表2显示了word2vec [35]风格的类比被我们的模型学习的嵌入所捕获请注意，模型经过训练以生成布局，并且我们没有为类比推理任务指定任何最后，我们还绘制了图中各种类别的边界框中心的分布。7.第一次会议。框中心的y坐标是直观的，因为诸如“天空”或“飞机”的类别通常在图像的顶部，而“海”和“道路”在底部。在真实和生成的布局中都观察到这种趋势。边界框的x坐标更加分散，并且不显示这种趋势。定量评价。按照布局VAE的方法，我们使用重要性抽样计算验证数据中所有布局的负对数似然（NLL）NLL方法对于验证样本的评估是好的，但是对于生成的样本是失败的。理想情况下，我们希望评估生成模型在下游任务上的性能为此，我们采用Layout2Im [63]从每个方法生成的布局生成图像。我们计算初始得分（IS）和Fre'chet初始距离（FID），以比较生成图像的质量和多样性。我们的方法是有竞争力的现有方法在这两个指标，并优于现有的完成的布局输入布局我们+L2Im布局VAE+L2Im房+L2Im1010§1.000.750.500.250.000.0 0.51.0Bbox中心（x）天空-其他飞机云人海公路车超类配件电子大厦个人体育用品汽车厨房室内结构户外食品纺织原料动物家具植物地板天花板天空地下水食品固体墙窗其他图6：学习的类别嵌入的TSNE图。单词由COCO中提供的它们的超类别着色。观察语义相似的类别聚集在一起。猫和狗比绵羊、斑马或牛更接近。表2：类比。我们通过尝试word2vec [35]风格的类比来展示我们的类别嵌入所捕获的语言细微差别类比最近的邻居滑雪板：雪：：冲浪板：？水滴、海、沙汽车：公路：：火车：？railway，platform，gravel sky-other：clouds：：playingfield：？网、笼、墙板鼠标：键盘：：勺子：？刀，叉，烤箱水果桌子花盆栽，镜子在NLL方面的方法。注意，ObjGAN和LayoutVAE以标签集为条件。因此，我们提供每个验证布局中存在的对象的标签作为输入。该模型的任务是预测这些对象的数量和位置。因此，这些方法比我们的方法具有不公平的优势，ObjGAN 确实比我们的方法和LayoutGAN 表现得更好，这是无条件的。我们在IS和FID指标上明显优于LayoutGAN。4.3. 应用程序和文档Rico移动应用线框图。Rico移动应用程序数据集[9，33]由来自9300多个Android应用程序的66000每个布局由25个类别的图形元素中的一个或多个组成，例如文本、图像、图标等。.补充材料中提供了完整的要素清单。总的来说，我们在Rico中得到了62951个布局，平均长度为36.由于数据集没有正式的分割，我们使用5%的随机选择的布局进行验证，15%用于测试。图7：边界框中心的xy坐标的分布。生成的布局和真实布局的分布类似。y坐标倾向于提供更多信息（例如，，顶部为天空，底部为道路和大海）表3：对C0C0的定量评价。验证集中所有布局的负对数似然（NLL）（越低越好）。我们使用[22]中描述的重要性抽样方法来计算。我们还使用[63]并计算IS和FID。在[21]之后，我们将测试集样本随机分为5组，并报告各组的标准差使用组合测试集报告平均值。型号NLL↓ IS↑ FID↓LayoutGAN [29]-3.2（0.22）89.6（1.6）布局VAE [22]3.297.1（0.41）64.1（3.8）ObjGAN [31]5.247.5（0.44）62.3（4.6）[21]第二十一话3.43.3（0.15）85.8（1.6）我们2.287.6（0.30）57.0（3.5）PubLayNet. PubLayNet [65]是一个大规模的文档数据集，包含超过1。从PubMed Central收集了100万篇文章布局使用5个元素类别进行注释-文本、标题、列表、标签和图。我们过滤掉超过128个元素的文档布局。我们最终的数据集有335703个来自官方列车分割的布局，中位数长度为33个元素，11245个来自开发分割的布局，中位数长度为36。我们使用dev分割作为我们的测试集，并使用5%的训练数据进行验证。已生成布局示例。图8和图10显示了我们的模型从RICO移动应用程序线框和PubLayNet文档中生成的一些样本。注意，两个数据集在元素的分布方面共享相似性，诸如在空间方面的高覆盖率、元素的非常少的碰撞、以及最重要的是元素沿着X轴和y轴两者的对齐。我们的方法能够保留这些属性中的大部分，我们将在下一节中讨论。图9显示了我们的模型对同一个初始元素进行的多次补全。与基线比较。我们使用4.2中讨论的相同基线。图10显示我们的方法能够以比竞争方法更好地保持边界框之间的对齐。请注意，我们没有使用任何后处理来生成这些布局.我们的假设-Bbox中心（y）房生成1011图8：RICO布局。为RICO数据集生成布局。为了清楚起见，我们跳过边界框的类别初始布局完成1完成2完成3图10：文档布局。生成的样本LayoutVAE（顶部）和我们的方法（底部）。我们的方法为各种元素产生对齐的边界框。表4：使用在RICO和PubLayNet数据集上训练的模型生成的样品的空间分布分析Overlap和Coverage值越接近真实数据，性能越好。表中的所有值均为百分比（括号中为std）RICO PubLayNet方法NLL ↓覆盖重叠NLL ↓覆盖重叠。图9：来自同一初始元素的SIS是：（1）尺寸/位置的离散化，以及（2）注意力模块中的去耦合几何场，在具有对齐框的数据集中特别有用。为了定量地衡量这一性能，我们引入了2个重要的统计数据。Overlap表示各种布局元素的交集（IoU）通常在这些数据集中，元素彼此不重叠，重叠很小。Coverage表示布局元素覆盖的画布百分比表4显示，由我们的方法生成的布局比LayoutGAN和LayoutVAE更像真实数据统计。4.4. 失败案例我们的模型有几个失败的情况下，例如。在图3中，在第三对象（灯）中，部件没有连接，这表明了我们的方法的局限性，该局限性是由单独（而不是联合）训练部件自动编码器和布局生成器引起的。类似地，在2D域（如COCO）中，我们观察到模型在生成开始时偏向于生成高频类别。这示于图图7示出&了人和汽车的实际生成的布局的分布的差异。5. 结论我们提出了LayoutTransformer，一个自我关注的框架，工作来生成图形元素的布局。我们的模型使用自我注意模型来捕捉语境关系在不同布图元素之间进行交互，并生成新颖的布图或完整的部分布图。通过将布局元素建模为可组合属性的联合分布，我们的模型在非常多样化的数据集（如Rico Mobile App线框、COCO边界框、PubLayNet文档和3D形状）上与最先进的方法具有竞争力。我们在各个领域对我们的模型进行了全面的我们将发布我们的代码和模型，并希望我们的模型将为各种数据域中的布局建模应用程序提供一个良好的起点。我们的方法有一些值得注意的局限性。首先，我们的模型需要一个布局或一个场景被decomposed到组成原语。在许多情况下，这样的原语甚至可能没有被定义。其次，与大多数数据驱动方法一样，生成的布局由数据集中的高频对象或形状主导我们可以使用改进的采样技术在一定程度上控制多样性，然而，生成不仅从数据学习，而且从人类先验或预定义规则学习的多样性布局是我们将继续探索的重要研究方向鸣谢。我们感谢 Luis Goncalves 、 Yuting Zhang 、Gowthami Somepalli和Pulkit Kumar对本文进行了有益的讨论并审阅了本文的初稿。该项目由DARPA SAIL-ON（W 911 NF 2020009）计划资助完成的布局输入布局我们布局VAE[21]第二十一话7.12 30.2（26）3.4（12）ObjGAN [31]4.2139.2（33）36.4（29）4.2038.9（12）8.2（7）布局VAE [22]2.5441.5（29）34.1（27）2.4540.1（11）第十四条第五款（十一）项[29]第二十九话-37.3（31）31.4（32）-45.3（19）8.3（10）1012引用[1] 奥伦·阿舒尔和里奥·沃尔夫。在交互式场景生成中指定对象属性和关系在IEEE计算机视觉国际会议论文集，第4561-4569页二个[2] Jimmy Lei Ba，Jamie Ryan Kiros，and Geoffrey E Hin-吨层归一化。arXiv预印本arXiv：1607.06450，2016。四个[3] 欧文·比德曼对一个场景的一瞥的语义。知觉组织，213：253，1981。一个[4] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模gan训练。arXiv预印本arXiv：1809.11096，2018。一、二[5] Samuele Capobianco和Simone MarinaiDocemul：a生成结构化历史文档的工具包。 CoRR ，abs/1710.03474，2017。二个[6] 天使 X Chang ， Will Monroe ， Manolis Savva ，ChristopherPotts和Christopher D.曼宁文本到3D场景生成，具有丰富的词汇基础。CoRR，abs/1505.06289，2015。二个[7] Mark Chen ， Alec Radford ， Rewon Child ， Jeff Wu ，Hee-woo Jun 、 Prafulla Dhariwal 、 David Luan 和 IlyaSutskever。从像素生成预训练。在2020年第37届机器学习国际会议上。2[8] 陈志勤和张浩。学习隐式字段生成式形状建模在IEEE计算机视觉和模式识别会议论文集，第5939-5948页四、六[9] Biplab Deka，Zifeng Huang，Chad Franzen，Joshua Hib-Schman，Daniel Afergan，Yang Li，Jeffrey Nichols，and Ran- jitha Kumar.Rico：用于构建数据驱动设计应用程序的移动应用程序数据集。在第30届用户界面软件和技术年度研讨会中，UIST '17，2017. 二、七[10] 董浩、司淼宇、吴超、郭一珂。通过对抗学习进行语义图像合成。在IEEE计算机视觉国际会议论文集，第5706-5714页，2017年。二个[11] Ian Goodfellow ， Jean Pouget-Abadie ， Mehdi Mirza ，BingXu ， David Warde-Farley ， Sherjil Ozair ， AaronCourville，and Yoshua Bengio.生成性对抗网。在神经信息处理系统的进展中，第26722014. 二个[12] Karol Gregor 、 Ivo Danihelka 、 Alex Graves 、 DaniloJimenez Rezende和Daan Wierstra。抽签：一递归神经网络图像生成。arXiv预印本arXiv：1502.04623，2015。四个[13] Kamal Gupta，Susmija Jabbireddy，Ketul Shah，AbhinavShrivastava，and Matthias Zwicker. 改进的三维形状建模与多视图深度图。arXiv预印本arXiv：2009.03298，2020。二个[14] Kamal Gupta，Saurabh Singh，and Abhinav Shrivastava.PatchVAE：学习本地潜在代码进行识别。在IEEE/CVF计算机视觉和模式识别会议论文集，第4746-4755页，2020年。二个[15] 坦迈·古普塔亚历山大·施温和德里克·霍伊姆Vico：来自视觉共现的词嵌入IEEE国际计算机会议论文集Vision，第7425-7434页，2019年。六个[16] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。四个[17] Tobias Hinz，Stefan Heinrich，and Stefan Wermter. Gener-在空间上不同的位置处绘制多个对象。 CoRR ，abs/1901.00686，2019。二个[18] Ari Holtzman、Jan Buys、Maxwell Forbes和Yejin Choi。神经文本退化的奇怪案例。arXiv预印本arXiv：1904.09751，2019。五个[19] Seunhoon Hong，Dingdong Yang，Jongwook Choi，and李弘乐推理语义布局的分层文本到图像合成。在IEEE计算机视觉和模式识别会议论文集，第7986- 7994页，2018年。四个[20] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei A埃夫罗斯使用条件对抗网络的图像到图像翻译。arxiv，2016. 二个[21] 贾斯汀·约翰逊，阿格里姆·古普塔，李飞飞。图像生成器-从场景图中提取。在IEEE计算机视觉和模式识别会议论文集，第1219-1228页二、六、七、八[22] Akash Abdu Jyothi，Thibaut Durand，Jiawei He，LeonidSi-gal和Greg Mori。Layoutvae：从标签集随机生成场景布局arXiv预印本arXiv：1907.10719，2019。三四五六七八[23] Tero Karras ， Timo Aila ， Samuli Laine ， and JaakkoLehtinen.为提高质量、稳定性和变异性而进行的干细胞生长。arXiv预印本arXiv：1710.10196，2017。一个[24] Tero Karras Samuli Laine和Timo Aila 基于样式的生成对抗网络的生成器架构。在IEEE计算机视觉和模式识别会议论文集，第4401-4410页一、二[25] Diederik P Kingma和Jimmy Ba。亚当：一种方法随机优化arXiv预印本arXiv：1412.6980，2014。五个[26] Diederik P Kingma和Max Welling。自动编码变量National Bayes，2013. 二个[27] Donghoon Lee，Sifei Liu，Jinwei Gu，Ming-Yu Liu，Ming-Hsuan Yang，and Jan Kautz.对象实例的上下文感知合成和放置CoRR，abs/1812.02350，2018。2[28] 李博仁、庄博宇、李明阳、顾健。Seq-sg2sl：通过序列到序列学习从场景图推断语义布局。在IEEE计算机视觉国际会议论文集，第7435- 7443页，2019年。二个[29] Jianan Li ， Jimei Yang ， Aaron Hertzmann ， JianmingZhang，和徐廷发。Layoutgan：使用线框识别器生成图形布局。arXiv预印本arXiv：1901.06767，2019。二三六七八[30] Manyi Li ， Akshay Gadi Patil ， Kai Xu ， SiddharthaChaudhuri，Owais Khan ，

下载后可阅读完整内容，剩余1页未读，立即下载