空间多条件图像生成的神经架构解决了多条件标签的异质性和稀疏性问题，通过像素级操作将可用标签合并到学习到的标签的均匀空间中，通过条件生成对抗训练实现图像生成

88 浏览量更新于2023-10-16 收藏 1.48MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

734空间多条件图像生成3*Ritika Chakraborty1*Danda Pani Paudel1Thomas Probst1Luc Van Gool1，21瑞士苏黎世联邦理工学院计算机视觉实验室2VISICS，ESAT/PSI，KU Leuven，比利时{nipopovic，critika，paudel，probstt，vangool} @ vision.ee.ethz.ch摘要在大多数情况下，条件图像生成可以被认为是图像理解过程的反转。由于通用图像理解涉及解决多个任务，因此很自然地旨在通过多条件作用生成图像。然而，多条件图像生成是一个非常具有挑战性的问题，由于异质性和稀疏性（在实践中）可用的条件标签。在这项工作中，我们提出了一种新的神经架构，以解决空间多条件标签的异质性和稀疏性的问题我们对空间条件作用的选择，例如语义和深度，是由它对更好地控制图像生成过程的承诺所驱动的。所提出的方法使用了一种类似于变换器的架构，以像素为单位进行操作，该架构接收可用的标签作为输入令牌，以将它们合并到学习到的标签的均匀空间中。然后，合并的标签通过条件生成对抗训练用于图像生成。在该过程中，由于所提出的逐像素操作架构，通过简单地丢弃与期望位置处的缺失标签相对应的输入令牌来处理标签的稀疏性。我们在三个基准数据集上的实验表明，我们的方法明显优于最先进的基线和比较基线。源代码可以在https://github.com/96ritika/TLAM找到。1. 介绍近年来，在用户控制下的自动图像生成已变得越来越现实。这种过程通常使用所谓的条件图像生成方法[32，19]。人们可以将这些分别视为完全无条件[14]和纯粹基于渲染[6]的生成之间的中间体。属于这两种极端情况的方法要么不提供用户控制，要么依赖于*同等贡献。基于用户提供的图像形成的所有必要信息。在许多情况下，两个极端都不可取。因此，已经提出了几种条件图像生成方法，完全绕过渲染过程这些方法通常以文本[32，43]或空间本地化语义类[19，37，45]的形式接收图像解压缩。在本文中，我们的目标是条件的图像生成不仅仅是所需的语义。在这方面，我们做了一个通用的实际假设，即所需图像的任何语义或几何方面都可以用作条件反射的标签（例如语义分割、边缘、深度、法线等）。此外，这些标签不必在所有空间位置处定义。例如，增强现实应用可能需要使用已知对象的3D模型和指定姿态来渲染该已知对象，但是缺少纹理和照明细节。在这种情况下，几何和语义标签在该对象的位置处变得立即可用这为图像生成过程提供了多条件输入。以多条件的方式对所有这些信息进行分析以生成所需的图像，是我们面临的主要挑战。另一个例子是3D图形设计，其中提到的标签自然是设计和渲染过程的一部分。设计师现在可以专注于为重要对象构建详细从某种意义上说，我们的方法弥合了生成和基于渲染的图像合成之间的差距。在本文的上下文中，多条件图像生成的两个主要挑战是可用标签的异质性和稀疏性异质性是指不同标记的表示的差异，例如，深度和语义。另一方面，稀疏性或者仅仅是由标签定义引起的（例如，天空没有法线）或由于缺少注释[40]。重要的是要注意，图像的一些几何方面，例如735输入标签生成的图像发生器图像合成网络输入标号生成的图像发生器标签合并块图像合成网络我们标准图1. 空间多条件图像生成。我们的模型使用多个标签来生成图像，相比之下，标准的方法，只使用语义分割标签。多个输入标签，来自不同的来源，由建议的标签合并块处理。对象这允许用户在存在或不存在3D模型的情况下几何地控制图像（超出基于语义的控制）。不言而喻，任何图像的几何处理都可以通过首先使用现有方法[40，47，56]推断其几何属性，然后在处理后生成。为了解决异质性和多样性的问题，我们提出了一个标签合并网络，学习合并提供的条件标签像素。为此，我们引入了一种新的基于变压器的架构，这是专为每个像素单独操作。所提供的标签首先由特定于标签的多层感知器（MLP）处理以生成用于每个标签的令牌。然后由Transformer模块处理令牌与执行空间注意力的标准视觉转换器[8，57]相比，我们的转换器模块在标签维度上应用自注意力，从而避免了高计算复杂性。可用标签的逐像素交互将不同标签均质化为输出标记的公共表示。然后对输出标记进行平均以获得齐次空间中的融合标签以形成局部概念。这通过在输入标签映射上滑动逐像素Transformer来对所有像素并行高效地执行。最后，这些概念通过条件生成对抗训练用于图像生成，使用最先进的方法[45]。在标签合并过程中，始终保持空间对齐。标签的稀疏性通过简单地在相应的像素位置丢弃丢失标签的输入令牌来处理。通过这种方式，Transformer学习为每个像素构造概念，即使不是所有标签都可用。我们在三个不同的基准数据集上研究了几个空间条件标签的影响，包括语义，深度，法线，曲率，边缘。的影响标签的稀疏和密集的标签可用性的情况下进行了研究。在这两种情况下，所提出的方法提供了突出的结果，清楚地证明了超出常用的图像se-mantics调节标签的好处。本文的主要贡献可以概括为以下几点：1. 本文首次研究了空间多条件图像生成问题。2. 我们提出了一种新的神经网络架构来融合为手头任务提供的异构多条件标签，同时还处理标签的稀疏性。3. 我们分析了图像生成的各种条件类型的效用，并提出了所提出的方法在基准数据集上获得的出色结果。2. 相关工作条件图像合成。要生成的期望图像的描述可以以各种形式提供，从类条件[33，2]，文本[32，43]，空间局部-[19，37，45]，sketches [19]，style infor-[12][13][14][15][16][17][18][19][19][19] 最近，不同的数据结构（例如，文本序列）也在文献中受到关注[59，54]。空间多条件图像生成的问题与统一不同（非空间）模态的问题正交，因为它寻求将异构空间本地化标签融合到概念中，同时保留用于图像生成的空间布局。Isola等人[19]后来引入了Pix2Pix范式将草图转换为照片级逼真的图像，利用图像到图像转换UNet [44]骨干作为与卷积判别器相结合的生成器。这项工作是由王等人改进。支持Pix2PixHD中的高分辨率图像转换[53]和Vid2Vid中的视频转换[52]。最近，Shaham et al.介绍了ASAP-Net [45]，它在几个图像翻译任务上实现了推理时间和性能的卓越权衡。我们采用ASAP网络作为我们的架构中的一个组成部分。调节机制。条件反射机制是语义可控神经网络的核心，通常与规范化技术结合实现[9，17]。Perez等引入了一个简单的特征线性调制电影[39]用于视觉推理。在神经风格转移的背景下[11]，Huang et al.介绍了自适应实例规范化AdaIN [18]。Park等人在SPADE中扩展了AdaIN用于空间控制[37]，其中归一化参数来源于语义分割。Zhu等人[60]进一步扩展SPADE以允许独立应用全局和局部样式。最后，通用规范化方案，736KKKXK∈K--ijij·K×KKKK12N›→∈K图2. 逐像素Transformer标签合并块（TLAM）。每个像素xij的异构标签首先被投影到相同的维度eij中，然后被传递到概念生成块。Transformer模块促进标签之间的交互，然后通过对每个像素位置处的同质标签表示zij求平均来最终将它们提取为概念向量zij使用核预测网络来实现任意全局和局部控制包括动态实例归一化（DIN）[20]和自适应卷积（Ada-Conv）[4]。虽然非常灵活，但它们也增加了推理时间，不像ASAP-Net使用自适应隐式函数[46]来提高效率。不同的渲染方法。由于渲染是这是一个复杂且计算量大的过程，因此提出了几种近似方法以便于将其用于训练神经网络。已经提出了从这些算法也被纳入流行的深度学习框架[42，27，36]。可重构渲染器已成功用于几种神经网络，包括用于面部[50，49]和人体[28，38]重建的神经网络。我们请感兴趣的读者参考Tewari等人的优秀调查[48]和Kato等人[23]的详细信息。与需要设置大量场景参数的渲染方法相比，我们的方法直接从一组稀疏的选定标签生成逼真的图像。3. 方法我们首先介绍几个正式的符号。作为输入，我们有一组标签X ={X1，X2，.，XN}，其中每个标签Xk∈RH× W × Ck具有高度H，宽度W和输入标签ij的不同像素位置独立地执行，并且在所有像素上高效地并行执行。我们根据经验发现这是足够的。在该过程中，我们感兴趣的是针对每个像素位置将所有可用的异构标签xij合并到潜在向量zij中。因此，我们得到了一个潜在的张量Z，我们可以使用它来合成图像I，同时避免了标签异质性和稀疏性的问题。输入标签是异构的，因为它们来自不同的源，并且可以具有不同数量的通道Ck，以及不同的值范围（即，语义分割用离散值表示，而表面法线是连续的）。输入标签可以是稀疏的，因为它们不必对每个像素位置都此外，标签合并由两个块执行：投影块和概念生成块，我们在下面描述3.1.1投影块该块将每个异构输入标签Xk投影到嵌入空间EkRH×W ×d中，其中d是嵌入空间的维数。它通过用投影函数fk变换每个元素xij来做到这一点，fk：xije，其中eRd. 给定标签Xk的所有元素共享相同的投影函数fk，但不同的输入标签k具有不同的fk。我们使用仿射变换，然后是GeLU非线性度a（）[15]作为嵌入函数，eij=fk（xij）=a（Akxij+bk），（1）Ck频道。Xk中对应于像素k k k位置（i，j）记为xij∈ RCk。因此，其中Ak∈Rd× Ck 且bk∈Rd. 我们实现fk，形成集合X ij ={xij，xij，.， xij}。该模型将标签集X作为输入，并产生I = R（X），其中I ∈ RH×W ×3是生成的图像。3.1. 标签合并我们描述了标签合并组件的机制，此组件处理对于每个输入标签X使用不同的11卷积模块，随后是GeLU激活函数。当标签Xk的值在某个空间位置缺失时（由于稀疏性），通过将其设置为零向量来丢弃其元素xij这将向概念生成块发送标签k不存在于位置（i，j）处的信号，并且其应当从其他标签提取信息。同样，不存在整个标签Xk的情况也被类似地处理。737·EE{}OXX∈X12N1NN（m）（m）（m）k1 2NZ {}Z Z {}输入标号生成的图像发生器标签合并块图像合成网络鉴别器真实图像图3. 网络概述。不同的输入标签被嵌入到一个齐次空间的标签合并块。图像合成器使用该嵌入来生成图像。在训练过程中，训练器使用标签、真实图像和生成图像来优化标签合并器和图像合成器。3.1.2概念生成模块对应于不同标签的嵌入向量集=e1，e2，.，eN用作我们概念生成块的kens的输入（为了简单，我们丢弃空间索引ij这个模块使用一个新的注意力模块来模拟标签之间的交互，并且这个模块在所有像素位置上共享。因此，它不需要像标准视觉变换器那样昂贵的空间注意力[51，8]。换句话说，我们在每个像素上单独应用相同的标签- Transformer。变换器自然地鼓励不同标签之间的交互，因此标签共享其标签特定的信息，同时形成最终的同质表示。在馈送到Transformer之前，我们应用标签特定编码以获得z（0）=ek+pk。然后我们传递（0）=z（0），z（0），...， z（0）到l个Transformer块Bm。每个块Bm取前一个块Z（m-1）的输出，并产生Z（m）=Bm（（m-1）），其中（m）= z，z ，. . . ，z.每个Transformer块Bm由一个多头自注意块（MSA），然后是多层感知器块（MLP）[51，8]。MSA是一个全局操作，其中每个标签令牌与每个其他令牌交互，因此信息在标签之间共享。MSA块执行以下操作：Z（m）=MSA（LN（Z（m−1）+Z（m−1），（2）其中LN表示层归一化[1]。MSA块之后是MLP块，它使用相同的多层感知器单独处理每个令牌在MSA块中进行全局交互之后，该块通过在所有通道中共享和细化每个标记的表示来进一步处理标签标记。MLP块执行以下操作：Z（m）=MLP（LN（Z（m）+Z（m）。（三）最后，输出集合Z=Z（l）=Z（l）的所有元素都是注意，对于在M个空间元素上操作的标准视觉变换器[8]（例如，pixels/patches），则自注意的计算复杂度为（M2）。我们的像素式Transformer，只在N个标签令牌上操作，将自注意力的复杂度降低到O（N2）（对于每个像素），标签的数量为N<$M。3.2. 网络概述所提出的生成模型分为两个组成部分：标签合并块和图像合成网络。这在图3中描绘。标签合并块。该块将一组异质标签作为输入，并将它们合并到一个异质空间Z=W（）中，其中ZRH×W ×d是概念张量。重要的是要注意，标签合并块不需要为每个像素位置定义所有输入标签。标签合并块首先使用投影块将所有标签Xk转换为具有相同维数的嵌入Ek然后，它使用概念生成块将嵌入Ek转换为概念张量Z。简而言之，标签合并块将输入标签的异质集合融合成同质表示 Z 。我们将此块命名为 Transformer LAbelMerging（TLAM）块，如图2所示。图像合成网络。图像合成网络的任务是获取产生的概念十或Z并生成图像I=g（Z），如图3所示。为此，我们采用了最先进的ASAP模型[45]。该模型使用轻量级和高度并行化的运算符合成高分辨率像素ASAP以非常粗糙的分辨率执行大多数计算我们通过提供概念张量Z作为输入来修改ASAP的输入，而不是仅给出一个特定的输入标签Xk（即语义）。因此，合成网络利用来自所有可用输入标签的合并信息X.多条件作用的对抗训练。我们遵循ASAP-Net的优化协议[45]。我们使用多尺度补丁识别器对抗性地训练我们的生成器模型，如pix2pixHD [53]所建议的那样。为了实现这一点，我们通过使用概念张量Z而不是特定的标签Xk来修改输入。4. 实验实作详细数据。我们遵循ASAP-Net的优化协议[45]。我们用多尺度补丁训练我们的生成器，正如pix2pixHD[53]所建议的那样。训练包括对抗性铰链损失、感知损失和特征匹配损失。生成器和DIS的学习率{z（l），. z（l）}是一个平均值，以获得z=1，z（l）。犯罪分子是0。0001和0。0004，分别。我们使用k=1：NK这给出了概念张量Z∈RH×W ×d。ADAM[25]，β1= 0，β2= 0。999.第999章【37】738全致密的[45]第四十七话：我的世界TLAMSparse-TLAM（Ours）（Ours）图4. Taskonomy数据集上的视觉比较。列12&：五个不同的标签水平平铺密集和50%稀疏的情况。第5列和第6列：我们的方法使用第1列和第2列中的标签生成的图像第3列和第4列：由密集语义方法生成的图像我们的方法生成更逼真的图像与精细的几何和视觉细节从密集和稀疏标签。Taskonomy数据集性能806040200黑桃ASAP初治基线初始基线蛤蜊基线TLAM（我们的）蛤蜊基线TLAM（我们的）（SPADE）（尽快）（稀疏）（稀疏）（密集）（密集）表1. Taskonomy数据集。我们的TLAM图5. 模型比较。与已建立的基线以及仅使用语义分割标签的SotA模型相比，我们的TLAM方法执行得更好。方法生成的图像具有显着更好的视觉质量的稀疏和密集的标签。Symbol对应密集标签，而Symbol对应50%标签稀疏度。S代表语义，E代表边，C代表曲率，D代表深度，N代表法线。请参阅图4以获取相应的图像。标签稀疏性。在这里，我们解释如何生成具有S%标签稀疏度的输入。首先，像素空间被划分成不同的区域对应的语义分割的instances。然后，对于每个区域，我们重复以下过程：对于每个可用的标签，我们以S %的概率丢弃该区域中的所有值。请参见补充资料中的图1-4进行直观演示。4.1. 数据集我们在三个不同的数据集上进行实验，以证明我们的方法的通用性和有效性。Taskonomy数据集[58]是室内场景的多标签注释数据集。整个数据集由来自大约500个不同建筑物的超过400万幅图像组成，具有高分辨率RGB图像、分割掩模和其他标签。我们选择这个数据集作为我们的主要实验，因为它的语义和几何标签的选择范围很广。在我们的实验中，我们使用以下标签：语义分割、深度、表面法线、边缘和曲率。我们从大型数据集中选择了两个建筑物，总共得到18，246张图像，分为14，630/3，619张训练/验证图像。Cityscapes数据集[7]包含来自50个不同城市的城市街道场景图像及其30个类别的密集像素注释。训练和验证部分分别包含3000和500个样本。为了获得进一步的标签，我们使用最先进的深度估计网络[13]进行深度。估计的深度，以及相机的内在被用来计算局部分块的表面法线。此外，我们使用Canny滤波器进行边缘检测。这为城市景观带来了四个标签。NYU depth v2数据集[34]由1449个密集标记的对齐RGB图像对和室内场景的深度，法线，语义分割和边缘图组成我们将数据分为1200/249个训练/验证集。所呈现的定性和定量结果是在相应的保持测试集上生成的，图9是例外，其中我们遵循[53]的方案与其他方法进行比较。72.373.874.666.1语义稀疏密集43.837.937.130.6FID骨干方法标签稀疏性FIDSECDNSPADE [37]定期72.3初始基线66.1[45]第四十五话定期73.8初始基线74.6CLAM基线43.8TLAM（我们的）37.9CLAM基线37.1TLAM（我们30.6739KK4.2. 基线和指标由于这是空间多条件图像生成的第一项工作，我们构建了自己的基线。朴素基线获取所有可用的标签，并沿着通道维度将它们连接起来以创建输入，该输入被馈送到 ASAP-Net/SPADE主干。这相当于没有明确标签合并的空间多条件反射，因此它也可以作为研究标签合并块的有效性和必要性的消融。卷积标签合并（CLAM）基线堆叠多个连续块，类似于（1）中的投影块。第一个块正好是（1），而下面方法Miou精度FIDCRN [5]52.477.1104.7SIMS [41]47.275.549.7[19]第十九话39.578.380.7[53]第五十三话58.381.495.0SPADE [37]62.381.971.8[45]第四十五话44.978.672.5TLAM（我们的）45.585.368.3表2. 城市景观的定量结果。我们的方法使用ASAP作为图像合成网络，与独立的ASAP相比，它显著提高了性能。方法SPADE [37]Miou33.1精度47.4[45]第四十五话36.249.1TLAM（我们的）38.353.1l块执行相同的操作，其中Al∈Rd×d，bl∈保持维数d。在最终块之后，对应于相同空间位置的所有输出元素被平均，就像在TLAM块之后一样。这个基线是一个深度网络，具有非常简单的标签合并机制。因此，我们使用它来评估TLAM的更复杂的标签合并机制的有效性。SotA仅语义方法。我们还将我们的方法与最先进的语义图像合成模型进行了比较，包括SPADE [37]，ASAP-Net [45]，CRN [5]，SIMS [41]、Pix2Pix [19]和Pix2PixHD [53]。绩效指标。我们遵循先前方法的评价方案[45，37]。我们使用Fre'chet初始距离（FID）[16]来衡量生成图像FID总结了两组图像在视觉特征统计方面第二个度量是分割分数，通过评估应用于生成的图像的语义分割模型的平均交集（mIoU）和我们使用最先进的语义分割网络DRN-D-105 [55]用于Cityscapes，DeepLabv 3 plus[3]用于NYU深度v2数据集。4.3. 定量结果图像生成。表1报告了在Taskonomy数据集上获得的FID分数。我们比较了我们的方法与几个基线和不同的标签稀疏。我们的 TLAM显著优于SPADE和ASAPSotA方法，后者仅使用语义分割图作为输入。这表明使用不同的空间输入标签确实可以提高生成质量。此外，当SPADE和ASAP简单地将多个标签连接起来作为输入时（简单的基线），它们并不比仅仅使用语义更好地执行这强调了合并多个空间标签的难度，这些标签本质上是异质的。一些标签表示语义图像属性，而另一些表示几何属性。此外，一些标签是连续的，而另一些是离散的。此外，我们的TLAM比CLAM基线更好，显示了具有更好的标签合并的价值表3.纽约大学的定量结果我们的方法证明了空间多条件反射在基线ASAP上的好处。ing块来处理输入标签中存在的异质性最后，我们比较TLAM和CLAM基线与密集和稀疏标签。正如预期的那样，具有密集的标签实现了更好的图像质量。此外，使用50%稀疏标签时的视觉质量接近使用密集标签时的视觉质量。这是有趣和可取的，因为在实际情况下，人们往往最终会有稀疏的标签[40]。Cityscapes 和 NYU 的结果总结见表 2 和表 3 。在Cityscapes数据集上，我们将我们的方法与SotA方法进行了比较，并报告了FID、分割mIoU和准确性。与其他方法相比，我们的方法实现了更好的准确性。如[37]所述，SIMS模型产生较低的FID，但在Cityscapes上的这是因为SIMS通过首先拼接来自训练数据集的图像块来合成图像在纽约大学数据集上，我们的方法实现了更好的mIoU和准确性。不幸的是，我们无法计算FID，因为验证集中只有249张图像。训练收敛。图6a显示了在Taskonomy培训期间FID的演变。我们每20个时期评估一次TLAM验证集上的FID，以及初始和CLAM基线。可以观察到TLAM快速地实现非常好的FID，甚至在20个时期之后。在这种情况下，TLAM的FID分别比nave和CLAM基线的FID好2.5倍和1.3倍。我们还可以看到，TLAM比其他模型收敛得更快图6a中的一个训练时期在一个GeForce GTXTITAN X GPU上大约需要1.7小时。4.4. 定性结果为了直观地比较我们的TLAM标签合并，我们在图4中的Taskonomy数据集上展示了密集标签和稀疏标签的定性结果，以及仅语义的基线。具有全密集和全稀疏标签的TLAM生成高保真图像。我们的方法生成精细的结构细节，如灯光，装饰，740稀疏标签所有标签N？vebaselineCLAMbaselineTLAM（我方）∈10080不同模型的FID收敛性（ASAP）不同标签稀疏度555045删除输入标签80606040404035200 20 40 60 80 100时代3010 20 30 40 50 60 70标签稀疏度[%]0语义下降边缘下降正常值下降下降深度曲率下降(a) 不同模式的融合。我们比较了FID分数在我们的TLAM方法的训练过程中，以天真和CLAM基线。与训练过程中每个点的基线相比，我们的方法收敛更快，并实现了更好的FID(b) 不同标签稀疏度的影响。即使在推理过程中出现一小部分标签，我们的模型也能获得良好的FID分数。有了更多的标签，我们的模型实现了更好的性能，即使它是针对50%的标签稀疏度进行训练的。(c) 删除输入标签的效果我们研究了丢弃特定标签如何影响TLAM模型的图像质量。丢弃任何标签都会降低FID，从而得出所有标签都为图像合成提供有用信息的结论。图6. 训练收敛性和标签敏感性。我们分析模型在训练和标签方面的行为方面。甚至镜面反射也明显优于SPADE和ASAP。Cityscapes数据集上的结果如图8所示。值得注意的是，我们使用稀疏标签的方法实现了与其他方法相似的视觉质量。图9显示了NYU数据集上的定性结果，其中Pix2PixHD也以良好的质量呈现图像，但与我们的方法相比，它无法捕获光照条件。值得注意的是，我们的方法捕获了丰富的几何结构（如天花板上），这要归功于几何标签。请参阅我们的补充材料以获得更多的视觉效果。总体而言，定性结果证明了TLAM的有效性，TLAM利用新颖的逐像素标签变换器，即使对于稀疏标签也是如此。4.5. 标签敏感性研究我们分析了我们的方法对Taskonomy数据集上提供的标签的敏感性标记稀疏性。图6b显示了FID如何受到标签稀疏性的影响在将稀疏度从10%增加到70%的情况下进行的实验表明，FID的稳定退化与较少的可用标记。请注意，我们的模型仅使用30%的可用标签就已经实现了良好的FID。实验使用50%稀疏度训练的单个模型进行。它还显示了我们的方法在不同稀疏度水平上的可推广性。删除标签。在图6c中，我们使用在具有50%稀疏度的Taskonomy上训练的TLAM模型，绘制了从输入中删除每个标签我们观察到，在五个标签中，边缘起着最重要的作用。另一方面，语义和深度是最重要的。然而，去除任何标签都会导致FID恶化至少1.3倍。这表明，所有的标签提供不同的信息，图像生成的关键，而相互补充。我们的结论是，建议的标签合并块可以成功地处理不完整的标签，并能够exploit信息从所有可用的标签。4.6. 概念可视化与图像编辑概念可视化。为了可视化概念张量ZRH×W ×96，我们使用主成分分析[10]将其投影到3个通道，并将其与相应的图像和标签一起呈现在图7中。可以观察到，可视化的概念张量确实类似于输入标签的不同方面（例如，边缘和法线）。使用用户输入进行几何图像编辑。为了为了演示我们的方法的直观应用，我们通过将新对象插入到场景中来执行图像编辑。图10显示了我们的方法如何在允许对图像进行几何操作的同时模仿渲染我们在给定的图像中渲染电视，通过简单地使用用户提供的电视标签来增强不同的标签。5. 结论在这项工作中，我们提供了一个新的角度对图像生成的逆图像理解。与图像理解涉及解决多个不同任务的方式相同为此，我们设计了一个神经网络架构，能够处理稀疏和异构标签，通过映射到一个均匀的概念空间，在一个像素明智的方式。通过我们提出的模块，我们可以为空间条件发电机配备所需的属性。从我们对具有挑战性的数据集的实验中，我们得出结论，这一额外控制层的好处和灵活性让位于超越最先进技术的令人兴奋的结果。致谢这项研究是由Innosuisse在"知道哪里看“项目下共同资助的。59189.1 IP-ICT88.561.460.851.452.2FIDFIDFID741标签参考SPADE[37][45]第四十五话TLAM（我Sparse-TLAM（我们概念图像语义法线边缘深度曲率图7. 概念张量可视化。从左到右：投影到RGB的概念张量;原始图像;五个不同的输入标签。图8.城市景观的视觉对比。我们的方法达到了与比较方法相当的视觉质量。[37]第19届中国国际纺织品博览会[2019图9.纽约大学的视觉对比。我们的方法生成的图像可以更好地捕捉光线和几何形状的更多细节。[37]第四十七话：我的世界，我的世界图10. 对象插入。从左至右：原始图像;插入对象的掩码;分别使用SPADE、ASAP和我们的方法生成图像。该图示出了通过在她/他选择的位置处插入由用户提供的标签来插入TV[45]第四十五话TLAM（我们的）742引用[1] Jimmy Lei Ba，Jamie Ryan Kiros和Geoffrey E.辛顿图层正常化，2016年。[2] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模gan训练。arXiv预印本arXiv：1809.11096，2018。[3] Jinming Cao，Hanchao Leng，Dani Lischinski，DannyCohen-Or，Changhe Tu，and Yangyan Li.Shapeconv：用于室内rgb-d语义分割的形状感知卷积层arXiv预印本arXiv：2108.10528，2021。[4] Prashanth Alberran ， Gaspard Zoss ， Paulo Gotardo ，Markus Gross，and Derek Bradley.结构感知风格转换的自适应卷积。在IEEE/CVF计算机视觉和模式识别会议（CVPR）的会议记录中，第7972-7981页[5] Qifeng Chen和Vladlen Koltun。用级联细化网络进行摄影图像合成第1520[6] Robert L Cook，Loren Carpenter，Edwin Catmull.雷耶斯图像渲染架构。ACM SIGGRAPH Computer Graphics，21（4）：95[7] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集在IEEE计算机视觉和模式识别会议（CVPR）的会议记录中，2016年6月。[8] AlexeyDosovitskiy、LucasBeyer、AlexanderKolesnikov、Dirk Weissenborn、Xiaohua Zhai、ThomasUnterthiner 、 Mostafa Dehghani 、 Matthias Minderer 、Georg Heigold、Syl-vain Gelly、Jakob Uszkoreit和NeilHoulsby。一张图片相当于16x16个单词：用于大规模图像识别的变压器ICLR，2021年。[9] Vincent Dumoulin 、 Ethan Perez 、 Nathan Schucher 、Florian Strub、Harm de Vries、Aaron Courville和YoonneBengio。智能转型。蒸馏，2018。[10] 卡尔·皮尔逊莉莉最接近空间点系的直线和平面上。哲学杂志系列1，2：559[11] 利昂·AGatys，Alexander S.Ecker，and Matthias Bethge.艺术风格的神经算法，2015年。[12] 利昂·A Gatys，Alexander S. Ecker，and Matthias Bethge.使用卷积神经网络的图像风格转换。2016年IEEE计算机视觉和模式识别会议（CVPR），第2414-2423页[13] C le'mentGodard ， OisinMacAodha ， andGabrielJ. 兄弟 -拖。具有左右一致性的无监督单目深度估计。在CVPR，2017年。[14] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。《神经信息处理系统进展》，2014年第27期。[15] 丹·亨德里克斯和凯文·金佩尔。高斯误差线性单位（gelus），2020年。[16] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。Gans由a训练两个时间尺度更新规则收敛到局部Nash 平衡。在NIPS，2017年。[17] 雷煌、杰琴、伊州、范铸、李流、凌少。培训dnns的规范化技术：方法学，分析和应用，2020年。[18] Xun Huang和Serge Belongie。实时任意样式传输，具有自适应实例规范化。在IEEE国际计算机视觉会议（ICCV）的会议记录中，2017年10月。[19] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei AEfros.使用条件对抗网络的图像到图像翻译。CVPR，2017年。[20] Yongcheng Jing ， Xiao Liu ， Yukang Ding ， XinchaoWang，Errui Ding，Mingli Song，and Shilei Wen.用于任意样式传输的动态实例规范化，2019。[21] 贾斯汀·约翰逊，亚历山大·阿拉希，李飞飞。实时风格转换和超分辨率的感知损失。 Bastian Leibe 、 JiriMatas、Nicu Sebe和Max Welling，编辑，计算机视觉施普林格国际出版社.[22] Tero Karras Samuli Laine 和 Timo Aila A style-basedgeneratorarchitectureforgenerativeadversarialnetworks，2019.[23] Hiroharu Kato、Deniz Beker、Mihai Morariu、TakahiroAndo、Toru Matsuoka、Wadim Kehl和Adrien Gaidon。可扩展渲染：一项调查，2020年。[24] Hiroharu Kato、Yoshitaka Ushiku和Tatsuya Harada。神经三维网格渲染。在IEEE计算机视觉和模式识别会议（CVPR），2018。[25] Diederik P. Kingma和Jimmy Ba。Adam：随机最佳化的方法。CoRR，abs/1412.6980，2015。[26] Samuli Laine、Janne Hellsten 、Tero Karras 、YeonghoSeol、Jaakko Lehtinen和Timo Aila。用于高性能微分渲染的模块化图元。ACM Transactions on Graphics，39（6），2020。[27] 李子茂、艾塔拉、杜兰德神父、李嘉诚.通过边缘采样的可微蒙特卡罗射线追踪。ACM事务处理图表（Proc.SIGGRAPH Asia），37（6）：222：1 -222：11，2018.[28] Kevin Lin，Lijuan Wang，and Zicheng Liu. 2021年，使用变压器进行端到端人类姿势和网格重建[29] Shichen Liu，Tianye Li，Weikai Chen，and Hao Li. Softrasterizer ： A differentiable renderer for image-based 3dreasoning，2019.[30] Guillaume Loubet ， Nicolas Holzschuch ， and WenzelJakob.重新参数化不连续的被积函数以进行可微渲染。图形学报（SIG-GRAPH亚洲会议录），38（6），12月。2019年。[31] 马丽倩、徐佳、孙倩茹、Bernt Schiele、Tinne Tuyte-laars和Luc Van Gool。姿势引导的人物图像生成。在NIPS，2017年。[32] Mehdi Mirza和Simon Osindero条件生成对抗网。arXiv预印本arXiv：1411.1784，2014。[33] Mehdi Mirza 和 Simon Osindero 条件生成对抗网。ArXiv，abs/1411.1784，2014年。[34] Pushmeet Kohli Nathan Silberman，Derek Hoiem和RobFergus。室内分割和支持从rgbd图像推断。ECCV，2012年。743[35] MerlinNimier-David ， Se'bastienSpeierer ， BenoZahitRuiz，andWenzel Jakob.辐射反向传播：一种闪电般快速的可微分绘制的伴随方法。 Transactions onGraphics （ Proceedings of SIGGRAPH），39 （ 4 ），2020年7月。[36] Merlin Nimier-David 、 Delio Vicini 、 Tizian Ze

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

空间多条件图像生成的神经架构解决了多条件标签的异质性和稀疏性问题，通过像素级操作将可用标签合并到学习到的标签的均匀空间中，通过条...

最新资源

空间多条件图像生成的神经架构解决了多条件标签的异质性和稀疏性问题，通过像素级操作将可用标签合并到学习到的标签的均匀空间中，通过条...

一种基于条件生成对抗网络的图像隐写方法研究与实现.docx

怎么解决区域水足迹的空间异质性问题

对于数据和神经网络而言，异质性和异构性是一个意思吗

对于神经网络而言，异质性和异构性是一个意思吗

数据异质性会影响深度学习变化检测模型的迁移能力，请列出提升模型迁移性的解决思路

区域异质性分析用stata怎么做

基于图神经网络的路网异质性评估

如何通过决策树图像对异质性减少程度进行分析

多模态情感计算领域，不同模态数据的异质性差异怎么解决，请详细写出方法和步骤

解释“区域尺度水足迹空间异质性解析”研究的必要性

空间异质性是什么意思

怎么用stata做空间异质性分析

为什么充分利用这种高度异质性的多模态数据是一件十分具有挑战性的工作

联邦学习中数据异质性的几种情况

焦作矿区生态系统服务价值估算与空间异质性修正研究

异质性分析和did的区别

stata异质性代码

moderation analysis异质性

异质性 python

最新资源