基于语义的图像外绘与场景图扩展

152 浏览量更新于2023-10-25 收藏 1.4MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

15617草对女孩女孩树旁边掷飞盘(a)SGE(b)G2l(c)L2i语义引导的图像外绘场景图扩展杨乔安1，谭正友1，范万源1，杨正福1，吴梦林2，王玉强11国立台湾大学、2高通科技公司joeyang@ntu.edu.tw，{cy.ugo.tan，jamine5200312，joeyy5588}@ gmail.commenglinw@qti.qualcomm.com，ycwang@ntu.edu.tw摘要在本文中，我们解决的任务语义引导的图像outpainting，这是完成一个图像生成语义上的实际内容。与现有的大多数图像外画工作不同，我们通过在场景图层次上理解和完成图像语义来实现上述任务。特别地，我们提出了一种新的场景图 Transformer（SGT）网络，它被设计为将节点和边特征作为输入来建模相关的结构信息。为了更好地理解和处理基于图的输入，我们的SGT在节点和边缘级别上都独特地执行特征关注。前者将边视为关系正则化，后者观察节点的共现以指导注意过程。我们证明了，给定一个部分输入图像的布局和场景图，我们的SGT可以应用于场景图扩展和转换到一个完整的布局。通过最先进的布局到图像的转换工作，可以完成图像外画的任务，在MS-COCO和Visual Genome数据集上进行了大量的实验，定量和定性地证实了我们提出的 SGT 和outpainting框架的有效性1. 介绍给定不完整的图像或部分图像输入，人类通常能够描绘出相应完整版本的上下文。这样的推理技巧在很大程度上是基于我们从不同的图像及其语义观察到的先前经验和知识。在机器学习的范围内，该目标通常应用于图像完成的任务，旨在基于观察到的输入生成或预测在计算机视觉和图像处理领域，一些内容创建应用程序，如对象删除编辑[21]，图像全景创建[30]，纹理cre，图1. 语义引导的图像外绘图解。我们的工作可以分为（a）场景图扩展（SGE），（b）场景图到布局（G2L）和（c）布局到图像（L2I）转换的阶段场景图中的蓝色节点和红色边分别表示生成的对象和关系。[24]和视图扩展[29]与上述任务密切相关。根据丢失的部分将被重新覆盖的位置，图像完成的任务通常分为两类，图像修补（也称为图像空洞填充）和图像外绘（也称为图像外绘）。与图像修复相比，图像外绘需要在单面上合成未知区域，因此被认为更具挑战性。基于图像修复工作[8，16，18，27，31]，研究人员提出了局部和全局GAN [8]，部分卷积[16]，门控卷积[31]和边缘信息[18]用于外绘任务[11，17，20，23，26，29]。然而，尽管令人印象深刻的性能，大多数现有的方法没有被设计来预测输出图像中的新语义区域。也就是说，它们主要关注于扩展周围纹理或完成分数对象，从而导致具有重复结构或图案的外推图像区域。如何在外饰过程中引入新的语义，并与现有语义建立合理的关系，目前尚不清楚。因此，我们选择接近这一挑战-15618通过在语义层次上对图像进行建模和操作，解决面向语义的图像外画问题。为了解决上述任务，场景图将是理想的表示，由于它们在描述图像中语义对象的存在及其关系方面的能力。因此，基于最近的工作，如[9]，[6]和[19]，人们可以描述和分类一个给定的图像分为三个层次。第一级是图像级，包含像素级信息。第二个是布局级别，它描述了感兴趣对象的位置/大小，包括它们相应的类别标签。最后一层是场景图层，其描述语义对象及其关系（例如，右边的，扔）在图像中。层次越高，它包含的抽象和语义信息越多。在本文中，我们选择将语义引导的图像外画任务分解为三个阶段，如图1所示。场景图扩展（SGE）的第一阶段利用提出的场景图Transformer（SGT）对输入场景图进行扩展，该场景图唯一地执行节点级和边缘级G2L的下一阶段进一步将这种扩展的场景图转换为完整的布局。最后，布局到图像（L2I）模型可用于产生最终图像输出。我们注意到，SGE和G2 L阶段都利用了我们提出的SGT模块，将场景图数据作为输入，引入独特的目标来执行所需的对象/关系属性，如稍后在Sect. 3 .第三章。我们的工作贡献如下：• 本文研究了语义引导的图像外绘任务，它能够合成新颖而语义实用的对象，并具有关联关系，以完成图像输出。• 我们提出了一个场景图Transformer（SGT），它采用节点和边缘特征，具有独特的节点级和边缘级注意机制，用于建模相关的结构信息。• 期望场景图中对象关系的稀疏性，我们的SGT被设计成利用对象之间的逆关系，使得语义上实用的节点及其对应的边可以被适当地恢复或扩展。2. 相关工作2.1. 图像外绘对抗学习[20]已被应用于图像外绘，生成朝向水平方向的图像区域通过采用递归神经网络，[29]在单个方向上扩展输出图像，长度至于[17]，它填补了左和右部分图像输入之间的中间间隙，用于外画目的。虽然[26]的方法允许在所有四个方向上进行外绘，但它们需要额外的信息（即，图像边缘）。虽然这些要求后来被[22]缓解，但大多数现有的工作只能扩展背景纹理区域或修补碎片对象。目前尚不清楚是否可以将新颖但语义上实用的图像区域添加到输出图像中。最近，[11]提出了基于外推分割图的外绘图像，作为生成新对象实例的指导。2.2. 从场景图到图像如[10]所述，场景图是一种数据结构，每个节点编码图像中的对象，每个边描述相关关系。场景图的生成可以看作是一个图像到文本的转换任务。然而，从场景图生成图像是一项更具挑战性的任务，并且首先由[9]以端到端的学习方式解决将图像布局作为中间表示，通常将场景图转换为图像布局，然后执行布局到图像转换任务。对于场景图到布局，[6]利用了关系的逆和转换属性[19]提出了Spade，一种用于描述图像语义布局的体系结构。[6]扩展了Spade，用于操作生成对象的属性。随着Transformer [25]的最新进展，最近的方法（如[2，28，32]）利用基于Transformer的架构来处理场景图形数据，用于场景图形生成或场景图形到布局生成。然而，这些方法不能很容易地应用于场景图扩展，这是关键，我们专注于语义引导的图像outpainting。然而，由于Trans- former处理顺序数据，因此需要将输入场景图转换为三元组序列，每个三元组由主语、谓语和宾语组成。此外，由于这将导致长的三重序列，使得Transformer的学习效率低下。三元组表示的另一个潜在问题是，如果一个对象节点具有多个关系边，则该对象节点将出现在多个三元组中，这可能导致具有不一致语义输出的冗余表示。在本文中，我们提出了一种替代的新颖的架构，场景图Transformer（SGT）。如在下面的部分中所详述的，我们的SGT将缓解上述问题，并且可以应用于场景图扩展和场景图到布局生成。15619共享主题h2Wevhe21teWeSH21sha reobjecthn1hn1he11he21Wehe31vteWeShe31HE11HN1he21he22he23氢氮he21氢氮hn1氢氮3HN1HN2HN3Wnv胡志he21氢氮he23he22tnWnS联系我们SSS×××∈--×Σ√12M我我我我我y{···}{}21he22he23每个关系D=（d）∈RN×N ×4，其中每个X xyIJywwhh(a) 节点级注意力dij=b我bj，bibj，log（bi/bj），log（bi）/log（bj）描述边界之间的空间位移每个主体-客体对的盒子。算法概述。为了执行语义引导的图像外绘，我们的模型将引入具有语义实用性的现实关系的新对象实例，可以分解为以下三个nhn22019年10月21日星期二下午2时23分stages：场景图扩展（SGE）阶段基于不完整的图像部署我在他们的布局L在=（Bin，Din ）和场景图in= （ Oin ， Rin ），因此模型 T SGE 将扩展为 op=（Oop，Rop）。在场景图到布局（G2L）阶段，我们学习了第二个基于SGT的模型TG2Lop其将扩展的场景图转换为布局L在我的指导下，最后，对于布局到图像（L2I）阶段，我们生成最终的外画图像Iop通过模型G第二语言I. 虽然不是主要的焦点，(b) 边缘级注意力图2. 场景图Transformer。（a）节点一级的关注：在相关边的指导下跨节点的注意。(b)边缘水平注意力：以边缘为条件的跨边缘注意力共享节点。注意，Wn、Wn、We We表示MLP在这项工作中，我们的模型GL2I基于SPADE [19] resnet块，由图像编码器和生成器组成。3.2.场景图Transformer在本文中，我们提出了一种新的架构场景图Transformer（SGT），这是专门设计来处理图形结构的数据。通过描述图像场景图中的节点及其关系，SGT在节点层和边缘层之间执行独立但相互关联也就是说，v s v s转换层用于相应的特征模态。3. 方法3.1.符号和算法概述图像外绘。给定一个h1的不完全像w1pixels，图像外画是生成一个h2的扩展图像w2像素，其中h2>h1且w2>w1。在训练期间，我们从（h2的）完整图像Igt中部分地裁剪出VeIW2像素），旨在产生Iop以恢复Igt。场景图和布局。为了描述图像中的语义信息，场景图S=（O，R）包括SGT将场景图中的边视为不同节点之间自注意过程中的正则化，而节点的同现将引导跨不同边的自注意。由于我们的外绘任务中的SGE和G2L两个阶段都将场景图形数据作为输入，因此我们的SGT将在两个阶段中使用，并适当引入和执行目标为了完整起见，我们简要地回顾了标准的Transformer，并解释了如何将其应用于处理具有N个节点的图形结构数据。作为序列到序列模型，Transformer由多个变换层组成，这些变换层映射输入序列H={hi}i=1：3N 2到输出H={hi}i=1：3N 2。请注意，N个对象（节点）的列表O=oii=1 ：N和关联关系（边）矩阵R=（rij）RN×N，其中oi是对象标签，rij表示边la。在对象oi和oj 之间的 bel 。注意，rij属于y R，yR，，yR0，其中每个y R表示关系标签（例如，骑、穿、上等），M是它的标号。并且，r ij=0指示对应对象对之间没有关系。另一方面，布局是图像中每个对象的边界框的列表，即，B={bi}i=1：N，其中每个bi=（bx，b，bw，bh）de-对于输入图中的N个节点和N2=N N条边，[2，28，32]中的Transformer需要将这样的输入数据转换成序列，由于三元组表示“主语-谓语-宾语“，该序列的长度至少为3N2对于每个Transformer层，首先将输入向量h转换为查询向量q、键向量k和值vec。穿过MLP层。输出矢量h是com-作为值向量vj 的加权和，即，hi=jsijvj，权重sij=softmax（qi·kj/dk），其中dk是k的维数，·表示内部15620画出中心坐标和边界的大小包装盒。我们还计算边界框视差，产品操作而不是将场景图视为单个序列15621IJ我我IJIJikIJKLKL{|}我⊙IJS我IJ我JIJSIJIJi j ij⊕⊕ijij联系我们伊季不=h ee在三元组中，我们SGT中的转换层将节点（对象）和边（关系）特征视为不同但相互关联的数据模态。因此，我们有节点特征序列的输入和输出，表示为Hn={hn}i=1：N和Hn={hn}i=1：N。至于3.2.2边缘级注意对于场景图中的边缘特征He，只有He有助于计算tn=hnhnHE。如果一个简单地在tn个相似的节点将意味着并导致相同的时间，这是可见的对于边缘特征矩阵的那些，它们被表示为He=hei，j=1：N和He=河i，j=1：N。对于每一种模态，我们都部署了独特的注意力机制，场景图结构，如下所示3.2.1节点级注意在我们的SGT中，第一种类型的注意力是在节点级别上执行的，而节点之间的交叉注意力是由观察到的边缘关系强制执行的。回想一下IJ由于边缘塌陷问题，即，导致重复或与相同节点i相关的冗余边。例如，可能的是，对于都链接到节点i的节点j和节点k，产生相同的h_ e和h_ e（例如，两个男人拿着同样的网球拍）。为了解决上述问题，我们在SGT中提出了边级注意，而边之间的交叉注意由共享感兴趣边的节点正则化，如图2（b）所示。为了利用边间信息并考虑共享节点，我们有对于标准的Transformer，它只是简单地输入边缘特征HE节点对i，j，我们graph as a sequence of (nodei-edgeij-nodej) triplets withconsider edges linking to either node i or j for attention.它的注意力机制不区分数据因此，我们有特征he对于表示为模态，也不考虑固有的图形结构。以场景图节点为输入，我们的SGT计算节点特征hn和hn之间的相似度，hek = il = j. 并且，边缘级注意力的三元组特征计算如下：iej。hn，如果k=iJ相关联的边缘特征hij的引导，该节点hn的输出作为每个节点j上的值。因此，我们有e伊杰ij⊕hkl⊕我hn，如果l=j.（二）n而不是得到边缘水平的注意力矩阵当N2×N2=N4时，只有N2（边数）×2N（N次）hi=（1）第一次见面Jn+N个对象）= 2N3个边对需要考虑。这大大减少了比较时的计算负荷其中vn是节点j的值特征，sn指示从具有节点i的每个三元组导出的注意权重（即，节点i、边ij和节点j），并且表示逐元素乘法。如图2（a）所示，上述计算允许将与感兴趣节点相关联的边并入注意力过程，这有效地基于其对应的节点规则化了跨节点的注意力。到使用标准的Transformer来在图中的所有边上执行注意。其余的注意力机制遵循前面讨论的节点级注意力机制。如图2（b）所示，上述计算允许将与感兴趣的边相关联的节点并入注意过程中，这有效地基于它们的共享节点来规则化跨边的注意为了提供更多细节，我们计算每个边的值向量vE，通过关系。为了提供更多细节，我们计算KL单个MLPWeKL 边缘通过单个MLP的每个节点hn的值向量vn共享节点-v. ij的“边三重特征”通过连接它们的Rep来获得边缘k1Wv. 而不是利用查询或关键向量计算，如等式2所示。与MLPWe通过注意力权重sn，我们采用以下三重特征：S以e e节点i-边ijIJ-节点j ，通过连接它们的表示tij，kl作为输入，输出权重向量s ij，kl因此在he和he之间，即，se=We（te）。如tn= hnhnhe。另一个MLPWn带着tn伊季KL伊杰S伊杰因此，作为输入，输出权重向量snhn和hn，即sn=Wn（tn）.3.3. 语义引导的图像外绘i j ij斯伊季3.3.1场景图扩展最后，我们没有遵循标准的Transformer使用内积和softmax来生成注意力权重。这是因为我们的边正则化注意机制提供了结构信息的指导所以，我们有了出路。把向量hn作为逐元素乘法的总和在sn和vn之间的阳离子，如等式（1）所示。为了扩展从输入图像中提取的场景图，我们的基于SGT的SGE模型TSGE通过引入关联和必要的关系边来学习添加新的对象节点。受掩码语言模型[4]的启发，我们通过观察一个完整的场景图gt=（Ogt，Rgt）来训练这个模型，其中Ogt中的一些对象被分配了一个特殊的标记[MASK]。国际新闻报15622树旁边掷飞盘扔女女onon on草EO ERCO CRRB RD我在OTSGETG2LfO：对象fR：关系fB：边界框fD：视差fI：图像掩模EBED EI树旁边掷飞盘女孩面具草SIJIJIJIJIJIJ纪∈Σ我我◦LL#in=（Oin，Rin）#op=（Oop，Rop）（Lin，Iin）=（Bin，Din，Iin）Lop=（Bop，Dop）(a) SGE(b) G2L图3. （a）SGE和（b）G2L的流程图。请注意，特征立方体的颜色表示其数据模态，灰色和深色表示屏蔽和生成的数据模态。对于SGE，对象和关系类分别用作节点和边对于G2L，我们将对象类、边界框和相关视觉特征的级联特征作为节点输入，而将级联关系标签及其边界框视差作为边输入。随后，R中链接到被屏蔽节点（主体或客体）的关系也将被屏蔽。这导致部分输入场景图in=（Oin，Rin）。为了执行节点和边缘级别的注意，我们的SGE模型T SGE包含对象和关系嵌入编码器E O和ER，用于从节点和边提取特征，对象和关系分类器CO和C R用于识别导出的输出特征，如图所示。第3（a）段。也就是说，TSGE将对象类别词嵌入fO=EO（oin）作为节点输入hn，在场景图中，通常仅观察到这样的关系对中的一个。因此，当呈现r ij或r ji时，可以隐式地推断上述逆关系，从而导致关系矩阵朝向斜对称（即， rji=ri j）。在实践中，在场景图中仅指定有限数量的关系，因此可以观察到稀疏的真实关系矩阵Rgt，缺少逆关系对。此外，在我们的SGT中引入的注意力机制之一是节点级注意力，这是由我我我关系类词嵌入fR=ER（rin）作为关系矩阵输入he。CO学会预测对象类oop=CO（hn），关系分类器兴趣节点如果没有正确的生成和复制-使用上述相反的关系对，注意力将部分地被偏置，并导致不期望的结果。我我CR预测关系标签rop=CR（he）。从以上过程，训练TSGE的目标是从S in重新覆盖完整场景图Sop=（Oop，Rop）。因此，目标可归纳如下：LSGE= LCE（oop，ogt）+ LCE（rop，rgt），（3）产出上述挑战使得学习SGE模型TSGE非常困难。为了解决上述问题，我们选择如下处理Rgt对于每个非空的r gt=y R，我们手动地将相反的标签yR赋给相关联的空的rgt。（例如，逆向骑行与骑行，以及逆向开启与开启）。是我我ii，jijij值得注意的是，上述标签处理是用于培训的仅限TSGE，不用于以后的G2L和L2I培训目的。其中LCE指示交叉熵分类损失。利用逆向关系。如Sect中所述。3.1，R=（r ij）RN× N表示场景图中每个对象对之间的关系。然而，该矩阵不一定被预期为对称矩阵，因为rij=yR和rji=yR被视为关系反义词，并且因此具有相反的关系，甚至两个边都连接到相同的节点对。给定输入此外，为了加强一对一的映射之间的关系和它的逆版本，我们部署了一个额外的功能转换器EC，它需要输入relationshipER（yR），并产生其逆版本。这一切都依赖于分类器CR来预测其lalely_blog_R。因此，EC是用分类损失训练的：conv=iCE（CREC ER（yR），y<$R）。通过强制执行逆关系，可以预期SGE模型的斜对称性质，这可以15623关进gtSS我我我IJIJS我我我我我我IJIJIJIJL sym= L CE（C RE C E R（r），r）.（四）IJ⊕我我我我输出，并被训练以在地面实况Dgt的监督下预测边界框的边界Dop。与ij ij上面的定义，我们训练TG2L，损失如下LG2L=0我LcIoU（b+b 、b）i，如果oinn=mask我我我（五）+LcIoU（bop，bgt）+|dop− dgt|、图4. 我们的L2I型号GL2 I的插图。基于AttSpade [6]，GL2I的解码器（即，GSPADE）采用语义i，ifoin=maski i ij ij iji、j地图作为产生图像输出的指导。通过以下损失函数计算：操作gt伊济IJop其中Lc IoU（·）是[ 34 ]中使用的完全IoU损失。3.3.3布局到图像（L2I）有了扩展的场景图和布局，我们的最后一个阶段是执行布局到图像的转换。改编自注意，r=CR（he）表示关系标签de。ij ij从输出关系HE导出。最后，我们的TSGE是用等式（3）和（4）的组合训练。3.3.2场景图到布局（G2L）给定部分输入图像Iin和相应的布局Lin以及扩展的场景图 op，我们工作的第二阶段是学习G2L模型TG2L，用于生成合理的布局Lop。基于archi-AttSpade [6]，我们的L2I模型G L2I学习将部分输入图像外绘到Iop中，以op和Lop为条件。为了增强视觉一致性，我们选择将图像特征fI=E I（Iin）与布局特征图fL连接起来以形成语义信息图fS。这允许我们的模型生成一个逼真的输出图像的指导下，通过层的SPADE块的f S。由于在训练过程中可以获得地面实况图像，除了对抗性损失之外，我们还可以使用SGT的结构，但不同于TSGE 我们的TG2L 考虑到Iop和Igt之间的重建损失。将边界框编码器EB与回归量RB进行编码，并且将视差编码器ED与回归量RD进行编码。此外，委员会认为，如图3（b）所示，图像编码器E1被配置为区分非掩蔽对象是否具有缺失部分。例如，Iin可能由一匹马组成，它的腿从图像中被裁剪出来，因此具有较小的不完整Lin。通过给TG2L提供Iin的视觉特征，它有望加入部分马，从而相应地扩展其不完整的边界框利用SGT，TG2L的输入布局也被描述为一个图（Hn，He）. 每个节点hn通过连接对象类别嵌入fO=E O（o i）、边界框特征fB=E B（bi）和vi来获得。值得重复的是，由于我们专注于SGT的设计（及其在SGE和G2L中的使用），因此产生高质量的图像输出并不在本工作的主要范围内。因此，如果需要的话，基于AttSpade的设计可以被最先进的图像转换模型所取代。4. 实验4.1. 数据集我们在具有边界框注释的场景级图像数据集上评估我们提出的方法，即COCO- stuff [1，15]，VG-MSDN[13，14]和CityScapes [11]。详见补充资料。sualfeature f I，即 hn= f Of B f I. 注意f可以通过从输入特征图中裁剪出关联区域f I= E I（I）来直接获得。至于边缘，4.2. 评价与分析He，每边输入he是通过连接场景图扩展。比较输出前，关系范畴嵌入fR=ER（rij）和将扩展场景图Sop映射到地面实况Sgt，我们重新视差特征f D= E D（dij），即 he= f Rf D.我们注意到TG2L中的回归量RB预测了边界盒信息.如果节点i表示新的/掩蔽的对象，则训练回归器以预测边界框bop，在ground truthbgt的监督下。否则分别针对对象和关系预测两者，端口正确预测的平均秩（rAVG）和前k个准确度（Hits@k）的度量。请注意，我们忽略gt中的这是由于场景图的稀疏性。我我它将预测f=bgt-bin的fset b的边界（即，为了评估这一点，与蒙面人的训练相比-语言模型（MLM），无论我们提出的SGT学习上、下、左和右）。对于回归量RD，它被用来保持节点输出和边之间的一致性来自NTU的作者下载、评估并完成了数据集上的EIG铲我在fI我操⋯⋯fL15624表1. 场景图扩展的定量评价。请注意，M和E的掩蔽策略表示使用标准MLM和我们基于扩展的学习计划，如节中所述。四点二。掩蔽VG-MSDN COCO-stuff对象关系战略rAVG↓点击率@1/5↑rAVG↓点击率@1/5↑rAVG↓点击率@1/5↑rAVG↓点击率@1/3↑TransformerM28.969.55/29.75.3237.4/70.131.1411.1/29.72.4128.7/78.2LTNetM24.729.86/36.44.6242.7/74.830.7612.0/30.32.4027.9/77.8GTwEM10.9328.3/58.85.2634.9/73.112.2524.6/54.12.9220.1/61.9SgtM9.4034.7/64.53.9248.7/81.711.3226.0/58.52.2036.4/81.5TransformerE33.7710.6/28.95.3035.3/65.822.3514.7/37.82.3729.4/78.5LTNetE24.4513.9/34.84.7034.8/74.617.2220.1/45.82.3629.1/78.4GTwEE11.9127.0/57.25.3635.8/72.511.8128.4/57.22.8920.4/63.3SgtE8.3839.7/68.93.4355.3/84.311.0329.6/59.02.1945.5/82.2表2.现场图的定量结果到布局。（）指示是否在有或没有输入图像和布局指导的情况下训练和测试该方法VG-MSDN COCO-stuffL的MiouMiouSg2Im✗16.829.0Canonical✗18.041.9LTNet✗18.349.0Sgt✗25.354.6Transformer✓5.1 1999年1月至1999年12月，10.4 1999年12月31日至1999年12月31日GCN✓11.4/ 70.6 /50.021.1 2008年12月31日GTwE✓12.3 1999年1月至1999年6月，21.3 1999年12月31日至1999年12月31日Sgt✓14.5 1999年1月至1999年12月，28.2 1999年1月至1999年12月策略将有利于SGE的任务，我们考虑/比较以下两个训练方案。首先（也是我们提出的），在训练过程中随机删除一个对象对于第二种情况，我们遵循现有的MLM工作[32]，随机屏蔽总对象和关系的α=30%，用于训练SGE模型。除了标准Transformer之外，我们还应用LT- Net [28]和GTwE（具有边缘特征的图形Transformer [5]）进行比较，结果列于表1中。从这个表中可以看出，我们的TSGE在VG-MSDN和COCO上的基线和最先进的模型上都有明显的优势，无论是对象生成还是关系预测。更具体地说，在两种训练方案之间，我们发现故意和随机删除单个对象（及其边缘）的设置导致更有效的性能。由于此设置与场景图的扩展任务一致，因此可以验证基于SGT的TSGE的使用。SGE的选定可视化示例在图中显示和比较。第五条（a）款。场景图到布局。为了评估该阶段的性能，我们测量输出布局Lop和地面真实值Lgt之间的mIoU。我们注意到，根据对象是引入的还是现有的，我们分别显示它们的mIoU，总mIoU作为它们的加权平均值。我们将基于SGT的T G2L与其他两个模型进行比较：Transformer [25]，GCN [6，12]和GTwE [5]。表2列出了上述方法的性能，我们看到我们的模型在不同设置下对GCN和Transformer的性能一致。从图5所示的可视化示例中，可以观察到我们的模型更好地扩展了扩展的场景图和给定的部分输入，因此预测的布局在语义上更实用。此外，我们证明了我们的模型的鲁棒性，该模型在没有任何输入图像或布局指导的情况下进行训练。因此，这与Sg2Im [9]、Canonical [6]和LTNet [28]中使用的设置一致。除了我们的扩展场景图之外，没有输入指导，所有对象都将被视为屏蔽（新），因此仅报告一个从表2中所示的结果可以看出，我们的模型仍然实现了最高的mIoU，因此在这种情况下是优选的。语义引导的图像外绘。最后，我们评估了语义引导的图像外绘的性能。从图5（c）和（d）中所示的视觉示例。我们看到，在扩展的场景图和完成的布局的指导下，我们的模型在像素级更好地生成新颖的对象实例，例如，一片草地（图二）5（c）），天空（图的第一行5（d）），或者将现有对象扩展到合理的尺寸，例如，熊的下巴（图的第一行）。5（c））。补充材料中提供了其他可视化结果。我们注意到，大多数图像外画作品考虑受约束场景中的图像（例如，城市景观[11]和ADE20K [11]）或具有单个类别对象的那些（例如，CUB [26]，CelebA[26，33]或DeepFashion [26]）。而且，15625SSS图5. SGE、G2L和图像外画的可视化示例。从左至右：（a）输入场景图，输出场景图，来自LTNet，GTwE和我们的。绿色的节点和边表示正确的预测，而蓝色的节点和边在语义上是实用的，但与地面实况不同最后，红色表示不正确的预测。（b）输入布局Lin，输入场景图gt，GCN和Ours的输出布局Lop，以及地面实况Lgt。来自新（生成）对象的边界框用蓝色表示而现有的则显示为绿色。(c)以及（d）：输入图像Iin，来自Boundless、AttSpade和我们的输出图像Iop请注意，我们还根据（b）中的协议突出显示了选定的节点及其边界框。据我们所知，我们是第一个在各种类别的对象之间具有丰富交互的野生图像数据（例如，VG-MSDN和COCO-stuff）。因此，只能进行有限的定量比较。具体而言，我们考虑城市景观[3]，并将Fre'chet起始距离（FID）[7]作为度量。我们的模型报告的FID为60.99，超过 Outpainting-SRN [26]的 66.89 ，Boundless [23]的77.86，以及修改后的AttSpade [6]的68.91（仅相当于我们的GL2I）。虽然SemIE [11]最近的一项工作报告了47.67的改进的FID分数，但它是为受限的街景（城市景观）或室内场景（ADE 20K [35]）而设计的，并且不能像我们一样轻松地应用于野外的图像数据。SemIE的另一个要求是使用分割掩码作为学习指导，而我们只需要场景图级别的指导。从而验证了该模型的有效性和实用性消融研究。为了评估SGT的设计，我们考虑了VG-MSDN并报告了SGE的性能。对于Hits@1，仅具有节点级注意力的基线SGT在对象/关系预测上报告了35.7/46.1，而添加边缘级注意力和偏对称的正则化结果为38.7/48.6和38.2/52.0。最后，我们的SGT与完整的目标取得了39.7/55.3，这证实了它的设计和学习计划。更多细节可以在补充材料中找到。5. 结论我们提出了一种新的场景图Transformer（SGT）的语义引导的图像outpainting的任务通过将任务分解为阶段SGE、G2L和L2I，我们提出的模型利用从部分输入场景图中的节点和边缘观察到的信息，推断出看似合理的对象同现，从而产生最终的图像输出。我们的SGT独特地在节点和边缘级别对输入结构信息进行建模。此外，为了完成一个语义上实用的图像，我们的SGT利用场景图扩展的边缘之间的逆关系我们的实验证实，我们提出的SGT对SGE和G2L上最先进的基于变压器的模型表现通过引入新的对象及其关系，可以实现令人满意的图像输出。鸣谢本工作部分由台湾科技部MOST 110-2634-F-002-036资助，部分由Qual-Cable Technologies，Inc.支持。通过台湾大学的研究合作项目。我们还要感谢国家高性能计算中心（NCHC）提供的计算和存储资源。15626引用[1] Holger Caesar Jasper Uijlings 和 Vittorio Ferrari 可可 - 东西：上下文中的事物和东西类。在CVPR，2018年。 6[2] Yuren Cong ， Wentong Liao ， Hanno Ackermann ，Michael Ying Yang，and Bodo Rosenhahn.用于动态场景图生成的时空TransformerCoRR，2021年。二、三[3] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。在CVPR，2016年。8[4] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。BERT：用于语言理解的深度双向变换器的预训练。在NAACL-HLT，2019年。4[5] 维杰·普拉卡什·德维迪和泽维尔·布列松。Transformer网络到图的推广。CoRR，2020年。7[6] Roei Herzig 、 Amir Bar 、Huijuan Xu、Gal Chechik、Trevor Darrell和Amir Globerson。学习场景图到图像生成的规范表示在ECCV，2020年。二、六、七、八[7] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。在NIPS，2017年。8[8] Satoshi Iizuka，Edgar Simo-Serra，and Hiroshi Ishikawa.全局和局部一致的图像完成。 2017. 1[9] 贾斯汀·约翰逊，阿格里姆·古普塔，李飞飞。从场景图生成图像。在CVPR，2018年。二、七[10] Justin Johnson，Ranjay Krishna，Michael Stark，Li-JiaLi，David Shamma，Michael Bernstein，and Li Fei-Fei.使用场景图进行图像检索。CVPR，2015。2[11] Bholeshwar Khurana 、Soumya Ranjan Dash 、 AbhishekBha tia、Aniruddha Mahapatra、Hrituraj Singh和KuldeepKulkarni。Semie：语义感知图像外推。ICCV，2021。一二六七八[12] 托马斯·N Kipf和Max Welling。使用图卷积网络的半监督分类。在ICLR，2017。7[13] Ranjay Krishna ， Yuke Zhu ， Oliver Groth ， JustinJohnson，Kenji Hata，Joshua Kravitz，Stephanie Chen，Yannis Kalantidis，Li-Jia Li，David A Shamma，et al.可视化基因组：使用众包密集图像注释连接语言和视觉。2017. 6[14] 李益康，欧阳万里，周波磊，王坤，王晓刚.从对象、短语和区域字幕生成场景图InICCV，2017. 6[15] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。2014年，在ECCV。6[16] Guilin Liu，Fitsum A Reda，Kevin J Shih，Ting-ChunWang，Andrew Tao，and Bryan Catanzaro.基于部分卷积的不规则孔洞图像修复。在ECCV，2018。1[17] 卢嘉妮，张雅珠，邱伟臣。弥合视觉鸿沟：宽范围图像混合。在CVPR，2021年。一、二[18] Kamyar Nazeri ， Eric Ng ， Tony Joseph ， FaisalQureshi，and Mehran Ebrahimi.边缘连接：基于边缘预测的结构引导图像修复。在ICCV研讨会，2019年。1[19] Taesung Park ， Ming-Yu Liu ， Ting-Chun Wang ， Jun-Yan Zhu.具有空间自适应归一化的语义图像合成。在CVPR，2019年。二、三[20] 马克·萨比尼和吉利·鲁萨克。在盒子外面画画：用甘斯画出图像。CoRR，2018年。一、二[21] RomanSuvorov ， ElizavetaLogacheva ， AntonMashikhin ， Anastasia Remizova ， Arsenii Ashukha ，Aleksei Silvestrov ， Naejin Kong ， Harshith Goka ，Kiwoong Park，and

下载后可阅读完整内容，剩余1页未读，立即下载