交互式多样化场景图生成方法

120 浏览量更新于2023-10-12 收藏 2.15MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4561交互式场景生成中对象属性和关系的指定特拉维夫大学oron. gmail.com利奥尔·沃尔夫特拉维夫大学和Facebook AI研究网址：wolf@cs.tau.ac.il，wolf@fb.com摘要我们介绍了一种从输入场景图生成图像的方法该方法在布局嵌入和外观嵌入之间进行分离双重嵌入导致生成的图像更好地匹配场景图，具有更高的视觉质量，并支持更复杂的场景图。此外，嵌入方案支持每个场景图的多个和不同的输出图像，这可以由用户进一步控制。我们演示了两种逐对象控制模式：（i）从其它图像导入元素，以及（ii）通过选择外观原型在对象空间中导航。我们的代码可在https：//www.github.com/ashual/scene_generation。1. 介绍David Marr将视觉定义为从图像中发现世界上存在什么以及它在哪里的过程[15]。什么和哪里的组合在语义层面上捕捉图像的本质，因此，在定义图像合成工具的期望输出时也起着至关重要的作用。在这项工作中，我们采用场景图与每个对象的位置和外观属性作为一个可访问的和易于操作的方式，为用户表达他们的意图，见图。1.一、what方面是分层捕获的：对象被定义为属于某一类（马、树、船等）并且具有某些外观属性。这些属性可以（i）从通过聚类先前看到的属性获得的预定义集合中选择，或者（ii）从样本图像复制。Where方面由通常称为场景图的内容捕获，即，在图中，场景对象被表示为节点，并且它们的相对位置（诸如我们的方法采用双重编码的图像中的每个对象。第一部分编码对象它是基于场景图，通过采用图卷积网络生成的。工作，接着是随机向量z的级联。第二部分对对象的外观进行编码并且可以被替换，例如，通过从与其出现在另一图像中的相同对象导入该图像，而不直接改变图像中的其他对象在图像之间复制对象是以语义方式完成的，而不是在像素级别。在我们使用的场景图中，每个节点配备了三种类型的信息：（i）对象的类型，被编码为固定维度的向量，（ii）对象的位置属性，其表示近似位置，在所生成的图像中，使用粗5×5网格及其大小，离散化为十个值，以及（iii）外观上面提到的嵌入。边表示关系：“的右侧”、“的左侧”、“上方”、“下方”、“周围”和“内部”。该方法在一个方便的用户界面中实现，该界面支持对象的动态放置和场景图的创建。给定对象的相对位置，自动推断这消除了对大多数不必要的用户干预的需要。渲染是实时完成的，支持以交互方式创建新的场景，见图。1和补充中的更多示例。我们使用的神经网络有多个子部分，如图所示.2：（i）图卷积网络，其将输入场景图转换为每对象嵌入到它们的位置。(ii)CNN将每个对象的位置嵌入转换为对象(iii)将位置嵌入转换为边界框位置（放置对象遮罩的位置）的并行网络。(iv)将图像信息转换为嵌入向量的外观嵌入CNN。这个过程是离线完成的，当创建一个新的图像时，矢量可以从其他图像中导入，或者从一组原型中选择。(v)一个多路复用器，它将对象掩码和外观嵌入信息相结合，以创建一个一维张量，其中不同的层组表示不同的对象。(vi)创建输出图像的编码器-解码器残差网络。我们的方法与最近的工作[9]，谁创建图像的基础上场景图。他们的方法还使用了一个图卷积网络来获得掩码，一个多4562图1.图像创建过程的示例。(top行）用户界面的示意图面板，用户可在其中排列所需的对象。(2nd行）基于此布局自动推断的场景图。(3rd行）从场景图形创建的布局。（底行）生成的图像。顶行中GUI颜色的图例：紫色-添加对象，绿色-重新显示，红色-替换其外观。(a)一个简单的布局，一个天空对象，一棵树和一个草对象。所有对象外观都初始化为随机原型外观。(b)一只长颈鹿被添加。(c)长颈鹿被放大了。(d)天空的外观被改变为不同的原型。(e)一只小绵羊被添加。(f)一架飞机被添加。(g)树被放大了。在一个实施例中，图像处理器包括多路复用器，其组合布局信息和随后的编码器-解码器架构以用于获得最终图像。然而，存在着重要的区别：（i）通过将布局嵌入与外观嵌入分离，我们允许对对象选择机制的更多控制和自由，（ii）通过添加位置属性作为输入，我们允许直观和更直接的用户控制，（iii）我们所采用的架构能够实现更好的质量和更高的分辨率输出，（iv）通过在创建掩模之前添加随机性，我们能够在每个场景图中生成多个结果，（v）这种效果通过用户通过改变每个单独对象的属性来操纵结果图像的能力而放大，（vi）我们引入一个在产生合理的掩模中起关键作用的掩模匹配，（vii）另一个新颖的掩模匹配以反事实的方式捕获外观编码，以及（viii）我们引入基于掩模匹配网络的特征匹配，以及（ix）感知损失项以更好地捕获对象的外观，即使该对象的姿态或形状已经改变。2. 以前的工作基于GANs [3]的图像生成技术在分辨率、视觉质量、生成图像的多样性以及覆盖训练期间呈现的整个视觉域的能力方面不断提高在这项工作中，我们解决条件图像生成，即，创建与特定输入相匹配的图像。条件图像生成的早期工作包括基于类别的图像生成[16]，其生成与给定文本描述匹配的图像[18，25]。在许多情况下，调节信号是源图像，在这种情况下，问题通常被称为图像平移。Pix2pix [7]是一种完全监督的方法，需要来自两个域的匹配样本对。[24]最近提出的Pix2pixHD架构具有很大的影响力，许多最近的视频或图像映射作品都采用了它的元素，包括我们的工作。最近在[9]中提出了基于场景图的图像生成。场景图表示通常用于基于文本的检索[10，17]，并且一些数据集包括此信息，例如，COCO-stuff [2]和视觉4563我我图2.我们的复合网络的架构，包括子网络G，M，B，A，R，以及创建布局张量t的过程。场景图被传递到网络G以创建每个对象的布局嵌入ui。边界框bi使用网络B从该嵌入创建。将随机向量zi连接到ui，并且网络M计算掩码mi。然后添加由网络A编码的外观信息以创建具有c+d5个通道的张量t，c是类的数量。自动编码器R从该张量生成最终图像p。基因组[12]。同样相关的是从给定的边界框输入布局合成图像（而不是由网络从场景图中推断出的），这是最近由[27]针对小的64x64图像进行的研究。在另一种工作中，生成图像以匹配输入句子，而不构建场景图作为中间表示[18，25，6]。最近，基于GAN解剖的新概念引入了一种交互式工具[1]。该工具允许使用绘图界面操纵控制特定对象在图像上出现的良好定位的神经元。通过添加或减少这些神经元的激活我们在这里提供的操作既更语义化（与特定位置的相关性更小，而与对象之间的空间关系的相关性更大），也更精确，因为我们提供了对对象的确切实例的完全控制，而不仅仅是对所需类的完全控制。3. 方法输入场景图中的每个对象i与单个节点ni=[oi，li]相关联，其中oi∈Rd1是学习的en。编码的对象类和l∈ {0，1}d2+d3是一个位置pairwise关系的类型。每个生成的对象的位置被给出为伪二进制掩码mi（ S 形模型的输出）和边界框 bi=[x1 ， y1 ， x2 ，y2]∈[0，1]4，其将边界框的坐标编码为图像尺寸的比率遮罩而不是边界框也由每个对象的随机向量zi=N（0，1）d4确定，在生成的掩码中创建一个变量，其中d4=64任意设置，不测试其他值。该方法采用多种方式嵌入输入信息。类标识和每个对象间关系都取离散值，由嵌入捕获- Ding维度为d1的向量，其作为端到端训练的一部分被学习。在训练期间看到的对象i的对象外观ai∈Rd5通过应用CNNA到该对象的（地面实况）裁剪图像I'，调整大小为64×64的固定分辨率。d5被任意地设置为32以反映其具有比嵌入在Rd1中的整个对象的信息少的信息。数据流经子网的方式，如图所示2，由以下等式捕获u i=G（{n i}，{e ij}）（1）ai=A（I′）（4）我vector.对象类嵌入oi是c个可能的嵌入向量之一，c是类的个数，oi是t=T（{ci，mi，bi，ai}）（5）bi=B（ui）（3）p=R（t）（6）根据对象i的类设置，表示为ci。嵌入大小d1被任意设置为128。li的前d2=25位表示使用5×5网格的粗略图像位置，其余表示对象的大小，使用d3=10值的比例边信息eij∈Rd1存在于可能的节点对的子集中，并使用一个学习的嵌入，节点之间的关系。换句话说，eij的值取自一个有六个可能值的学习字典，每个值与一个其中G是生成每个对象布局嵌入的图卷积网络[9，20]，M和B分别是生成对象掩码及其边界框的网络Fi-R 是编码器 - 解码器网络，它根据 t 输出图像p∈RH×W×3。补充资料中提供了每个网络函数T将张量t构造为每个的和4564我我K我K对象张量ti∈ RH×W×（d5 +c），其中c是对象的个数. 首先，根据边界框bi来移位和缩放掩模m i，从而产生大小为H × W的掩模m HW。然后，形成大小为H ×W×d5的第一张量t1以及mi，生成的掩码，其取决于随机变量zi。与掩码判别器相关联的GAN损失由下式给出：作为mHW和ai的张量积。类似地，第二个L=[logD（m′，c）]+张量t2我∈RH×W×c形成为的张量积D-掩模面具我我HWiE[log（1-Dmask（M（u i，z），ci）]（10）和长度为c的独热向量编码类ci。张量ti是两个张量t1和t2的连接z<$N（0，1）64沿着第三维度。我我为的目的训练D掩码，我们最小化为了执行外观嵌入网络A的对抗训练，我们创建了两个其他张量：t′和t′′。第一个是通过采用对象i的真实边界框b′和真实片段a来获得的。−LD−面罩。第二鉴别器D图像用于以对抗的方式训练三个网络R、M和A. LD图像的损失是复合损失，其被给出为′iL D-image = L real − L fake-image − L fake-layout + L alt-appearance我的面具第二个是通过合并在计数器中使用相同的地面真值边界框和掩码通过用ak替换a i，其中ak是来自同一类ci的不同对象的对象图像I′的外观嵌入，即，ak=A（I′），ci=ck，t′=T（{c，m′，b′，a}）（7）哪里Lreal=logDimage （ t′ ， p′ ）（ 11 ） Lfake-image= log （ 1-Dimage （ t′ ，p′））（ 12 ） Lfake-layout= log （ 1-Dimage （ t ，p′））（ 13）我我我我t′′=T（{c，m′，b′，a}）（8）Lalt-appearance=log（1-D image（t′′，p′））（14）我我Ik在训练期间，在一半的训练样本中，位置和大小信息向量li被归零，以便允许网络生成布局，即使当该信息不可用时。3.1. 培训损失条款用于优化网络的损失包含多项，这并不奇怪，因为需要训练五个网络（不包括下面提到的对抗鉴别器）和两个向量嵌入（oi和eij）。L=LRec+λ1L box+λ2L perceptual+λ3L D-mask+λ4L D-image+λ5LD-对象+λ6LFM-掩模+λ7LFM-图像（9）复合损失的目标是确保给定地面实况布局张量t'的生成图像p与真实图像p'不可区分，并且这是真的，即使布局张量t基于估计的边界框和掩码（与t'不同）。此外，我们希望地面实况图像与反事实外观向量的匹配较差，如t′′中所示。下面[24]我们使用具有两个尺度的多尺度LS-GAN。换句话说，在全尺度和半尺度（使用两个不同的鉴别器）下计算LD图像，并且将两项相加以获得实际的LD图像。第三个对象，D对象，保证生成的一个接一个的物体看起来很真实。为此，我们使用边界框bi来裁剪p以创建对象图像Ii。回想一下，我是图像的地面真实作物其中在我们的实验中，我们设置λ1=λ2=λ6=λ7=i′10，λ3=λ4 =1，λ5=0。1 .一、从地面实况图像p获得，使用地面真值边界框b′。重建损失L_Rec是L1差值在重建图像P和地面实况训练之间ΣL=logD（I′）−logD（一）（十五）ing图像。箱损失L框之间的MSE对象i=1对象我对象我计算的bi（对所有对象求和）和地面真值边界框b′。注意，与[9]不同，我们不使用掩码损失，因为我们的掩码包含随机元素（等式10）。 2）的情况。感知损失L感知=u∈U1||Fu（p）−F u（p′）||1[8]比较生成的D对象在训练期间最大化这种损失。掩模特征匹配损失LFM-掩模和图像特征匹配损失LFM-图像类似于感知损失，即，它们基于活动中的L1差异4565我我u′图像与地面实况训练图像P，使用AC-VGG网络[21]在预定义层U的集合中的层u处的激活Fu。我们的方法采用了三个鉴别D掩模，D对象，和D图像。掩码递归采用最小二乘GAN（LS-GAN[14]），并以对象回想一下，m′是对象i的真实掩码vation. 然而，代替VGG损失，鉴别-[19]如：在这些损失中，使用所有层。LFM-mask比较生成的掩码mi和真实掩码m′的激活（PMD掩码也将类ci作为输入）。另一个特征匹配损失LFM-图像将D图像（t，p）的激活与地面实况布局张量和图像D图像（t′，p′）的激活进行比较。4566（a）（b）（c）（d）（e）（f）（g）图3. 基于给定场景图的图像生成每一行都是不同的示例。（a）场景图，（b）从中提取布局的地面实况图像，（c）当我们使用图像的地面实况布局时的结果，类似于[27]，（d）我们的方法的结果，其中外观属性呈现随机原型，并且位置属性粗略地描述地面实况边界框，（e）当我们使用地面实况图像来生成外观属性并且位置属性被归零时的结果，（f）我们的结果，其中li= 0，并且外观属性是从原型中采样的，以及（g）[9]的结果。（a）（b）（c）（d）（e）（f）（g）图4. 当保持位置属性li固定为零并且对不同外观原型进行采样时获得的多样性。（a）场景图，（b）从中提取布局的地面实况图像，（c-g）生成的图像。3.2. 生成原型GUI使用户能够从预先存在的对象外观中进行选择，以及从另一个图像复制外观矢量。现有的对象外观是每个对象类100个原型。这些是通过将学习网络A应用于训练集中给定类中的所有对象并采用k均值聚类来获得的，以便获得100个类均值。在GUI中，原型沿着滑块线性呈现沿着滑块的顺序是通过对100个原型应用1-D t-SNE [23]嵌入来获得的。3.3. 从布局面板推断场景图图形用户界面让用户把对象放在一个示意图布局，见图. 1.一、每个对象都被描绘为十种不同字体大小之一的字符串，以便捕获li的大小元素。布局中的位置决定了5 ×5网格放置，其被编码在li的另一部分中。然而，注意，位置和大小被提供为图形布局的结构的指示，而不是作为绝对位置（或场景布局）。生成网络保持对象放置的自由度以匹配场景中对象的语义属性。由用户进行的粗略放置比指定场景图更直观且更不费力。为了避免给用户增加不必要的工作，根据对象的相对位置和大小例如，直接位于另一个对象左侧的对象被标记为对象插入布局的顺序如果对象i被插入到对象j之前，那么内部和周围的关系是确定类似的，通过考虑不同大小的对象，其中心附近。4567（a）（b）（c）（d）（e）（f）（g）图5。当保持外观向量固定并从位置分布中采样时获得的多样性。(a)场景图，（b）从中提取布局的地面实况图像，（图6.在生成的图像中复制对象基于场景图创建图像，使得外观取自五个不相关图像中的一个。在这个例子中，天空3.4. 培训详情所有网络都使用 ADAM [11] solver 进行训练，beta1 = 0。5次，每次迭代100万对于除LD-掩码之外的所有组件，学习率都设置为1e-4，其中我们设置它的学习率更小，为1e-5。不同学习利率帮助我们稳定口罩网络。在我们的 64×64 、128×128、256×256的解析中，我们分别使用32、16、4请注意，由于每个图像最多包含8个对象，因此每个批次最多包含8×32= 256个不同的对象。4. 实验我们使用文献中的各种指标将我们的结果与[9]和[27]的最先进此外，我们进行消融分析，研究我们的方法的各个方面的相对贡献。我们的实验是在COCO-Stuff数据集[2]上进行的，该数据集使用与以前的作品相同的分割，包含大约25，000张训练图像，1000张验证图像和2000张测试图像。我们采用两种实验模式：使用地面实况（GT）布局或推断布局。第一种模式是唯一适合[28]的方法的模式在可能的情况下，我们报告了在调查工作中报告的统计数据。[9]报告的一些统计数据是我们根据已公布的模型计算的。我们报告三个决议的结果642，1282和2562。该literature报告的数值结果，只有第一个决议。虽然[9]提供了128x128的可视化结果，但我们尝试使用此解决方案上的已发布代码来训练他们的方法，尽管付出了一些努力，但仍导致性能低于标准因此，我们倾向于不提供这些非竞争性基线数字。[28]的代码尚未提供。我们采用多种可接受的文献评价指标来评价生成的图像。接收分数[19]衡量生成图像的质量及其多样性。正如在以前的工作中所做的那样，采用预先训练的初始网络[22]以获得用于计算分数的网络激活初始分数越大越好。FID[5]测量生成的4568图像和真实的测试图像，两者都被建模为多元高斯。FID分数越低越好。不太常见，但与我们的任务相关的是分类准确性评分，由[28]使用ResNet-101模型[4]经过训练，在将它们裁剪和调整大小为224 x224像素的固定大小后，对训练数据集中在测试图像上，我们报告了该分类器应用于生成的对象图像的准确性，使用图像布局的边界框更高的精度意味着该方法创建更真实的或至少可识别的对象。我们还报告了多样性得分[26]，这是基于两个图像之间的感知相似性[10]。该分数用于测量在给定相同输入的情况下生成的图像对之间的距离。理想情况下，用户将能够获得多个不同的替代输出以供选择。具体而言，AlexNet [13]的激活与LPIPS视觉相似性度量[26]一起使用。多样性得分越高越好。此外，我们还报告了用于评估边界框质量的三个分数IoU得分是也被生成的边界框（交集）覆盖的地面实况边界框的面积与被任一框（并集）覆盖的面积之间的比率。我们还报告了两个不同阈值的回忆分数。R@0.5测量具有至少0.5的IoU的对象边界框的比率，并且对于R@0.3类似。选项卡. 1比较我们的方法与基线和真实的测试图像使用的inception，FID，和分类精度得分。我们确保不使用[9]的基线方法没有使用的信息，并使用随机抽样的零位置属性和外观属性（见3.2）。[28]使用边界框而不是掩码。然而，我们遵循他们论文中给出的相同比较（与基于掩码可以看出，我们的方法在所有这些分数上都显著领先于基线方法，无论何时可以进行这样的比较在使用地面实况布局和生成布局时都是如此正如预期的那样，地面实况布局获得了更好的分数。我们的256 x256模型的样本结果如图所示。3、使用COCO-stuff数据集的测试图像。在这里和其他地方，补充有更多的样本。每行呈现场景布局、从中提取布局的地面实况图像、我们的方法的结果（其中对象属性呈现随机原型并且位置属性被归零（l i = 0））、我们在使用图像的地面实况布局时的结果（包括掩模和边界框）、我们的结果（其中每个对象的外观属性从地面实况图像复制）、以及我们的结果（其中每个对象的外观属性从地面实况图像复制）。年龄和位置向量为零，我们的结果中，位置属性粗略地描述了对象的位置和外观属性是随机选择的从原型。此外，我们在64x64分辨率下呈现了[9]的基线方法的结果，该模型已发表。可以看出，我们的模型在所有设置中产生了逼真的结果，这比基线方法更令人满意。使用地面实况位置和外观属性，结果图像更好地匹配测试图像。选项卡. 2报告的多样性，我们的方法相比，两个基线方法。我们采用的随机性的来源（在等式中使用的随机向量zi2）产生比两个基线方法（其也包括随机元素）更高的多样性，即使在不改变位置矢量L1或外观属性A1时。改变这些因素中的任何一个都会增加相当大的多样性。在该表的实验中，位置属性在变化时使用适合于训练集图像的位置向量的每类高斯分布进行采样图4呈现了当对外观属性进行采样时获得的样品。在每种情况下，对于所有i，li=0，并且嵌入a i的对象这导致了相当大的视觉多样性。图5呈现了其中外观被固定为该类别的所有对象的平均外观向量并且位置属性向量Ii从上述高斯分布中采样的结果。在几乎所有情况下，生成的图像都是视觉上令人愉悦的。在某些情况下，采样的位置属性与真实图像不兼容。然而，请注意，在我们的方法中，li的默认值为零，而不是随机向量。选项卡. 3提出了与[9]的方法的比较，关于边界框的放置精度。即使在不使用位置属性向量li时，我们的边界框放置也更好地匹配测试图像。正如预期的那样，添加位置向量改善了结果。我们的方法复制现有图像对象的外观的能力在图中展示。六、在这个例子中，我们生成了相同的测试场景图，同时根据从训练过程中看不见的图像中提取的五个不同的选项来改变单个对象。尽管在五个源中呈现的外观的可变性，但是所生成的图像大多保持其视觉质量。这些结果以256x256的分辨率显示，这是我们GUI的默认分辨率。在此分辨率下，系统在16.3ms内处理图形。用户研究在[9]之后，我们执行用户研究以与基线方法比较所生成图像的真实性、对场景图的坚持，以及验证场景图中的对象出现在输出图像中。用户研究涉及n=20名计算机图形学和计算机视觉学生。每个学生都被展示了来自COCO-stuff数据集的30个随机测试场景图的输出图像，并被要求根据两个标准选择首选方法：4569Res方法多样性64x64Johnson等人[9]第一章Zhao等人[27]第二十七话我们的固定外观属性和归零位置属性我们的归零位置属性我们的固定外观属性我们的完整方法0的情况。15 ±0。080的情况。15 ±0。060的情况。23 ±0。010的情况。35 ±0。010的情况。37 ±0。010的情况。43 ±0。07256x256我们的固定外观属性和归零位置属性我们的归零位置属性我们的固定外观属性我们的完整方法0的情况。48 ±0。090的情况。61 ±0。070的情况。62 ±0。050的情况。67 ±0。05a完整管道的初始得分[9]取自他们的论文。其他分数没有报告。[27]的初始分数是作者报告的分数。b[9]和[27]仅报告了分辨率为64x64的数值结果。c未报告，由于缺少编码/结果，无法计算。d[27]报告的准确性不一致（不同的分类）。表1.使用各种图像生成分数进行定量比较为了支持一个公平的比较，我们的模型不使用位置属性，并采用随机外观属性。”和“哪个图像更好地反映了场景图”。此外，场景图中的对象列表被呈现，并且用户被要求对出现在每个图像中的对象的数量进行计数。两个图像，一个用于[9]的方法，一个用于我们的方法，以随机顺序呈现。为了进行公平的比较，外观原型是随机选择的，所有对象的位置向量都设置为零，我们有使用了我们的64×64分辨率模型中的图像。结果列于表1。4、表明我们的方法显著在测试的所有方面都优于基线方法。烧蚀分析各种损失的相对重要性是近似的，通过从方法中去除它并且训练128x128模型。在这项研究中，我们使用了初始和FID评分。结果报告在表1中。五、如可以看到的，去除每个损耗导致明显的降级。消除感知损失是极其有害的。在三个鉴别器中，重新移动掩模鉴别器是最有害的，因为由于随机分量Z1，我们在掩模上没有直接损失。最后，用[9]中的图像鉴别器替换我们的图像鉴别器，会导致精度损失。5. 结论我们提出了一个图像生成工具，其中的输入包括一个场景图与潜在的位置信息。每个对象都与位置嵌入和外观嵌入相关联。后者可以从另一个图像中提取，表2.[26]的多样性得分 [9]的结果是一致的。我们提出的，并大大高于[27]相同方法的报告[27]的结果来自他们的论文。IOUR@0.5R@0.3Johnson等人[9]a0.440.320.52我们的（无位置属性）0.480.450.66我们的（带位置属性）0.650.680.87a摘自文件本身表3.预测边界框的比较用户研究[9]第一章我们更真实的输出百分之十六点七百分之八十三点三更好地遵守场景图百分之十九点三百分之八十点七观测对象27.31%45.38%在所有COCO对象观测对象46.49%65.23%在所有COCO的东西表4.用户研究结果模型成立FID完整方法10个。4±0. 475.4无L知觉六、2±0。1125.1无LD掩模五、2±0。1183.6无LD图像7 .第一次会议。4±0. 2122.5无LD对象8. 7 ±0。194.5使用[9]的D图像8. 1 ±0。3114.2表5.消融研究Reso-卢廷B方法初始aFIDAccu-活泼真实图像十六岁3±0。4054.5[9]第九话7 .第一次会议。3±0。186.533.964x64[27]第二十七话9 .第九条。1 ±0。1CD我们的GT布局10个。3±0。148.746.1[9]第一章六、7 ±0。1103.428.8我们7 .第一次会议。9±0。265.343.34570将现有对象复制到一个新的图像，其中它们的布局发生了巨大的变化。除了双重编码，我们的方法提出了一个新的架构和新的损失条款，这导致了现有的基线性能的提高。确认该项目已获得欧洲研究委员会（ERC）在欧盟地平线 2020 研究和创新计划下的资助（授予 ERCCoG725974）。4571引用[1] David Bau ， Jun-Yan Zhu ， Hendrik Strobelt ， ZhouBolei，Joshua B.作者：William T. 弗里曼和安东尼奥·托拉尔巴.肝解剖：可视化和理解生成对抗网络。arXiv预印本arXiv：1811.10597，2018。3[2] 作者： Holger Caesar ， Jasper R R. Uijlings 和 VittorioFerrari。Coco-stuff：上下文中的事物和东西类。在IEEE计算机视觉和模式识别会议（CVPR），2018。二、六[3] Ian J. Goodfellow、Jean Pouget-Abadie、Mehdi Mirza、Bing Xu 、 David Warde-Farley 、 Sherjil Ozair 、 AaronCourville和Yoshua Bengio。生成性对抗网。神经信息处理系统进展。2014. 2[4] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议（CVPR），2016年。7[5] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。神经信息处理系统进展。2017. 6[6] Seunhoon Hong，Dingdong Yang，Jongwook Choi，andHonglak Lee.推理语义布局的分层文本到图像合成。CoRR，abs/1801.05091，2018。3[7] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei AEfros.使用条件对抗网络的图像到图像翻译。在IEEE计算机视觉和模式识别会议（CVPR），2017。2[8] 贾斯汀·约翰逊，亚历山大·阿拉希，李飞飞。实时风格转换和超分辨率的感知损失。2016年欧洲计算机视觉会议。4[9] 贾斯汀·约翰逊，阿格里姆·古普塔，李飞飞。从场景图生成图像。在 IEEE 计算机视觉和模式识别会议（CVPR），2018。一二三四五六七八[10] 作者：Justin Johnson，Ranjay Krishna，Michael Stark，Li-Jia Li，David A.作者：Michael S.伯恩斯坦和李飞飞。使用场景图的图像检索。IEEE计算机视觉和模式识别会议（CVPR），第3668- 3678页，2015年。二、七[11] Diederik P. Kingma和Jimmy Ba。Adam：随机最佳化的方法。ICLR，2016年。6[12] Ranjay Krishna ， Yuke Zhu ， Oliver Groth ， JustinJohnson，Kenji Hata，Joshua Kravitz，Stephanie Chen，Yannis Kalantidis，Li-Jia Li，David A.作者：Michael S.伯恩斯坦和李飞飞。可视化基因组：使用众包密集图像注释连接语言和视觉。International Journal of ComputerVision，123：32-73，2016。3[13] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。在神经信息处理系统的进展25。2012. 7[14] Xudong Mao ， Qing Li ， Haoran Xie ， Raymond YKLau，Zhen Wang，and Stephen Paul Smolley.最小二乘生成对抗性网络IEEEInternational Conference on ComputerVision（ICCV），2017年。4[15] 大卫·马尔视觉：对人类视觉信息表示和处理的计算研究。亨利·霍尔特公司股份有限公司、美国纽约州纽约市，1982年。1[16] Mehdi Mirza和Simon Osindero条件生成对抗网。arXiv预印本arXiv：1411.1784，2014。2[17] 马克斯·H.放大图片作者：John M.威特和梅兰妮·米切尔。基于视觉情境的语义图像检索。2018 IEEE第12届语义计算国际会议（ICSC），第172-179页，2018年。2[18] Scott Reed ， Zeynep Akata ， Xinchen Yan ， LajanugenLo- geswaran，Bernt Schiele，and Honglak Lee.生成对抗性文本到图像合成。InICML，2016. 二、三[19] 作者：Tim Salimans Goodfellow，Wojciech Zaremba，Vicki Cheung，Alec Radford，and Xi Chen.改进的gans训练技术。在神经信息处理系统的进展，2016年。四、六[20] Franco Scarselli、Marco Gori、Ah Chung Tsoi、MarkusHa-genbuchner 和 Gabriele Monfardini 。图神经网络模型。IEEE Transactions on Neural Networks，20：613[21] Karen Simonyan和Andrew Zisserman用于大规模图像识别的非常深的卷积网络。 arXiv 预印本 arXiv ：1409.1556，2014。4[22] Christian Szegedy ， Wei Liu ， Yangqing Jia ， PierreSermanet ， Scott Reed ， Dragomir Anguelov ， DumitruErhan，Vincent Vanhoucke，and Andrew Rabinovich.更深的回旋。在 IEEE 计算机视觉和模式识别会议（CVPR），2015年6月。6[23] Laurens van der Maaten和Geoffrey Hinton使用t-SNE可视化数据。 Journal of Machine Learning Research ， 9 ：2579-2605，2008。5[24] Ting-Chun Wang，Ming-Yu Liu，Jun-Yan Zhu，AndrewTao，Jan Kautz，and Bryan Catanzaro.用条件gans实现高分辨率图像在IEEE计算机视觉和模式识别会议论文集，2018。二、四[25] Han Zhang，Tao Xu，Hongsheng Li，Shaoting Zhang，Xiaolei Huang，Xiaogang Wang，and Dimitris N.MetaxasStackgan：使用堆叠的生成对抗网络进行文本到照片般逼真的图像合成。IEEE国际计算机视觉会议，第5908-5916页，2017年。二、三[26] 放大图片作者：Richard Zhang，Phillip Isola，Alexei A.艾弗罗斯，伊莱·谢克特曼，奥利弗·王.深度特征作为感知度量的不合理有效性。在IEEE计算机视觉和模式识别会议，2018。七、八[27] Bo Zhao，Lili Meng，Weidong Yin，and Leonid Sigal.从布局生成图像。CoRR，abs/1811.11389，2018。三五六八[28] 韩赵、上杭张先生，冠航吴先生，赵敖P. Costeira，Jose 'M.F. 和Geoffrey J.戈登多源域适应与对抗学习。在ICLR研讨会，2018年。六、七

下载后可阅读完整内容，剩余1页未读，立即下载