纹理可控合成与插值网络

194 浏览量更新于2023-10-17 收藏 2.15MB PDF 举报

纹理合成

用户研究

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

12164纹理混合器：一种纹理可控合成与插值网络NingYu1，2，4ConnellyBarnes3，4EliShechtman3SohrabAmir ghodsi3MichalLuka`c31马里兰大学2马克斯普朗克信息学3Adobe Research4弗吉尼亚大学ningyu@mpi-inf.mpg.deconnelly@cs.virginia.edu{elishe，tamirgho，lukac} @ adobe.com摘要本文讨论了视觉纹理的插值问题我们制定了这个问题，要求（1）的例子可控性和（2）现实和光滑的插值之间的任意数量的纹理样本。为了解决这个问题，我们提出了一个神经网络同时训练的重建任务和生成任务，它可以投影纹理的例子到一个潜在的空间，他们可以线性插值和投影回图像域，从而确保直观的控制和现实的结果。我们展示了我们的方法优于一些基线根据一套全面的指标以及用户研究。我们进一步展示了几个应用程序的基础上，我们的技术，其中包括纹理刷，纹理溶解，和动物杂交1。1. 介绍许多材料表现出局部外观的变化，以及不同材料之间的复杂过渡。然而，编辑图像中的材料可能会非常困难，因为我们在自然世界中看到的材料组合丰富，空间变化一个普遍的研究挑战是尝试启用这些类型的编辑。特别是，在本文中，我们专注于纹理。我们将“纹理”定义我们进一步专注于允许用户能够准确地控制纹理的放置，以及在它们之间创建合理的过渡。由于纹理的复杂外观，在像素域上通过在它们之间插值来创建过渡是困难的。这样做会导致不愉快的工件，如重影，可见的接缝，明显的重复。因此，纹理合成的研究人员1演示、视频、代码、数据、模型和补充材料可在GitHub上获得。图1.在动物纹理数据集上使用我们的网络进行纹理插值和纹理绘制。上半部分显示了一个1024×1024的调色板，它是通过在调色板外的四个角上插入四个源纹理而创建的。底部显示一幅512×2048的字母画，从palette。这些字母由我们的方法插值，背景，也是由我们的插值生成的。开发了复杂的算法来解决这个问题。这些方法可以分为两类：非参数方法，如基于块的合成（例如，[10，9，2]）和参数方法（例如，[15，32]），包括神经网络合成方法（例如，[11、37、20、26、27]）。在此之前，研究人员使用了复杂的基于补丁的插值方法[7，8]，并精心设计了目标函数。然而，这种方法非常缓慢。此外，由于其目标的手工制作性质，它们无法从自然世界中的各种纹理中学习，并且正如我们在比较中所展示的那样，它们通常是明亮的，并且经常导致不太令人愉快的过渡。此外，我们不知道任何现有的前馈神经网络方法，提供细粒度的可控合成和多纹理之间的插值。用户可控的纹理插值是实质性的，12165这比普通纹理合成更具挑战性，因为它需要结合对用户提供的边界条件的遵守和插值纹理的平滑过渡。在我们的论文中，我们开发了一种神经网络方法，我们称之为我们将纹理插值定义为一个广义的术语，包括以下各项的任何组合：（1）两个或多个不同纹理之间的渐进或快速空间过渡，如图1中的调色板、字母和背景所示，以及（2）纹理溶解，我们可以想象将两个纹理放在不同的层中，并根据用户控制的透明度交叉溶解它们，如我们在视频中所示。以前的神经方法可以通过改变潜在变量来创建类似于我们的解的插值[17，21，27，28，5]。因此，在本文中，我们主要关注高质量的空间插值：这要求纹理共存于同一图像平面中，而没有可见的接缝或空间重复，这是更难以实现的。我们的前馈网络是在一个大型纹理数据集上训练的，并以交互速率运行。我们的方法通过将这些纹理投影到一个潜在的域上，在那里它们可以被线性插值，然后将它们解码回图像域以获得所需的结果，从而解决了在图像域上插值纹理的困难为了满足可控性和视觉真实感这两个目标，我们同时为这两个任务训练我们的重建任务确保当纹理通过编码器然后通过解码器（自动编码器）时，结果将与输入相似。这允许用户通过示例指定输出的任何给定点处的纹理。一个插值任务使用一个插值器来确保潜在张量的线性插值也解码成合理的纹理，这样用户没有直接指定的输出区域是真实的和无伪影的。对于这个任务，我们可以将我们的网络视为条件生成对抗网络（GAN）。实际上，我们使用共享的权重和共享的潜在空间同时训练自动编码器和卷积GAN。为了执行插值任务，我们采用用户指定的纹理样本，并使用学习的编码器将它们投影到潜在空间中。给定这些潜在张量，我们的网络然后使用三个直观的潜在空间操作：平铺、插值和洗牌。平铺操作将纹理空间扩展到任意大小。插值操作使用潜在域中洗牌操作交换潜在张量内的任意小方块以减少重复。然后对这些新的潜在张量进行解码以获得插值结果。我们的主要贡献是：（1）一种新颖的互动技术-（2）基于我们的技术的几个实际的和创造性的应用;（3）一套新的指标，评估用户的可控性，插值平滑性和插值的现实性;（4）最先进的性能优于以前的工作都基于这些指标，并基于用户的研究，如果我们考虑他们的整体。2. 相关工作用户可控制的纹理插值的问题，到目前为止还没有得到充分的探讨。然而，它与其他几个问题密切相关，最重要的是纹理合成，修复和风格化。纹理合成算法可以分为两大类。第一个是参数化的，具有生成纹理模型。这些算法包括较旧的非神经方法[15，32]，以及基于优化[11，12，33，35]或训练前馈模型[37，20，26，27]。在底层模型允许组合的空间变化权重的情况下，其可以用于交叉溶解纹理。然而，我们不知道任何现有的纹理合成技术，在这个家庭，使不同的纹理之间的空间过渡。第二类纹理合成算法是非参数的，其中该算法产生的输出在某种外观度量下被优化为尽可能接近输入[10，38，9，24，23，30，25，39，2，7，22]。这些可以用公式表示，以接受两个不同的输入，并在空间上变化，这是比较，促进插值[7，8]。正如我们之前提到的，这种方法是缓慢的，并且由于其对象的手工制作性质，它们往往是易碎的。最近，生成对抗网络（GAN）[13，34，1，14]在图像合成和翻译任务中显示出更好的真实感[18，45，46]。GAN也直接用于纹理合成[26，19，44]，然而，它们仅限于训练的单个纹理。最近一种称为PSGAN的方法[3]学会了合成一张照片中的纹理集合，使其更通用，适用于纹理插值;然而，它不是针对我们的问题设计的，因为它不能插入现有的图像。我们展示了与PS-GAN的比较，它不能重建许多输入纹理，即使在运行复杂的优化或联合关联PSGAN与编码器。此外，PSGAN可能遭受模式崩溃。纹理合成和图像修复算法往往是密切相关的。好的孔填充算法需要能够在孔的相对端上的纹理之间产生某种过渡，并且因此可以在纹理插值任务中使用。最近一些基于深度学习的方法显示出了有希望的结果[40，42，29，41]。12166zL1zL1zL2zL2传奇分别为S1、S2和组合数据α线性混合使用插值参数瓦片操作Shu Shoe操作随机作物zL1zG2zL2zG1Eg源纹理S1G重构纹理S^重构损失El1Eg源重构纹理SG2纹理S^重构损失2Elα内插纹理IG插值损失 α插值损失α我zL1zL2图2.我们的方法图。背景颜色突出显示每个任务。梯形表示如果名称匹配则共享权重的可训练组件。圆形矩形代表损失。箭头和圆圈表示对张量数据的操作。最后，一些基于将图像分离为内容和风格分量的神经风格化方法[12，26，17，28]已经表明，通过对噪声内容图像进行风格化，它们可以有效地合成纹理[11]。通过在空间上改变样式分量，因此可以实现纹理插值3. 我们的网络：纹理混合器在本节中，我们将解释我们的网络如何工作。我们首先在3.1节解释我们的方法是如何训练的。然后，我们在3.2节中展示了我们的训练损失是如何设置的。最后，我们在3.3节中解释了我们的方法如何被最终用户测试或使用。3.1. 训练设置我们的目标是同时为两个任务训练我们的网络：重建和插值。重建任务确保每个输入纹理在被编码然后被解码之后产生相似的纹理。同时，插值任务确保潜在张量的插值也被解码为合理的纹理。我们的方法可以被视为训练包含编码器和生成器的网络的一种方式，使得生成器有效地是GAN的一部分网-工作接受源纹理S作为输入。全局编码器sort zl，其具有比输入纹理的大小小因子m的空间大小：我们使用m=4。生成器G（zl，zg）连接zl和zg，并且可以将这些潜在张量解码回纹理块，使得理想情况下G（El（S），Eg（S））=S，其包含重建任务。我们的生成器是完全卷积的，因此它可以生成任意大小的输出纹理：输出纹理大小与局部张量zl的大小成正比。一个candidrec是重建损失的一部分。一个完全相同但单独训练的CNODitp评估插值的真实性。请注意，在实践中，我们的生成器网络是以全局张量作为输入来实现的，全局张量与局部张量具有相同的空间大小。这是因为，对于纹理插值的某些应用，zg实际上可以在空间上变化。因此，当我们提到G采取全局LA时，空间大小为1×1的帐篷向量zg作为输入，我们的意思是这个zg向量首先在空间上重复以匹配大小为zl，生成器在结果上运行。我们在图2中展示了完整的训练设置。我们也将在这里用公式解释我们的设置。如图2的左上角所示，网络被给予来自真实纹理的两个真实源纹理图像S1和S2。数据集S.每个局部编码器E1将Si（i∈ {1，2}）编码为局部潜张量zl=El（Si）。与此同时，每个全球我Eg（S）将S编码为潜在向量zg，也可以是gg编码器E将S1编码为全局潜在向量Z1，表示为被视为空间大小为1×1的潜在张量。局部编码器E1（S）将源纹理编码成潜在的十-如zg=Eg（Si）。这些潜在变量显示在图2左上角的绿色和蓝色框中。插值任务重建任务121671212我我我pix我我对于重建任务，。然后我们评估侦察情况结构化图像S_i=G_z_l，z_g）。这些都显示在工作训练使用一个单一的输入纹理和上面的shuf- fling过程，它将工作为单一的纹理合成。怎么-我我图2的上中心。对于每个重建图像Si，然后我们对原始纹理Si施加三个损失的加权和。我们描述这些损失在更多详情见3.2节。对于插值任务，我们提出了多纹理插值过程的问题，同时（1）合成一个较大的纹理，（2）两个不同的纹理之间的插值。通过这种方式，网络学会以往，对于多个纹理插值，我们另外AP-在调用G之前，在潜在空间中进行层插值，如[27，17 ， 3] 所启发的。我们随机采样一个插值参数α<$U[0，1]，然后使用α对潜在张量进行插值。这由中标记为α的圆圈表示。图102. 我们线性地将混洗的局部张量PT（zl）和P（T（zl）），这导致最终的整数，极化潜在张量Zl：对于单个和多个纹理合成都表现良好。对于单一纹理合成，我们放大生成的图像，年龄是3×3的系数。我们通过在空间上平铺zl来做到这一点Zl=αPβ。T（zl）+（1−α）P。T（zl）（二）以同样的方式，我们混合zg和zg，得到是3×3的倍数。我们用T（zl）表示这种平铺，并且通过图2左下方的平铺图标指示平铺。我们Zg=αzg+（1−α）zg（三）选择因子3，因为这是12的最小整数可以在z1的四个边缘上合成跃迁。这样的我较小的平铺因子使计算成本最小化。铺设操作对于规则纹理是有益的然而，在半规则或随机纹理中，平铺引入了两个伪像：不期望的空间重复和平铺之间的边界上的不期望的我们通过对平铺的潜在张量T（zl）应用随机洗牌来减少这些伪影。在图2中，该洗牌操作由骰子图标指示。潜在空间中的随机混洗不仅导致更多样的解码图像外观，从而减少视觉重复，还通过在跨越两个Z1张量的边界的潜在空间中空间交换像素来软化接缝。我们实现了随机洗牌的行和列交换在几个尺度从粗到细。对于这个从粗到精的过程，我们使用2的幂的尺度：s i=2i，i=0，2，.。. .，n. 我们将粗尺度n设置为给出一个尺度sn，它是局部张量zl的一半。为最后，我们将平铺和混合的张量送入生成器G以获得内插纹理图像I=G（Z1，Zg），其在图2中的右侧示出。从插值的纹理中，我们随机裁剪与输入纹理大小相同的图2中的红色虚线显示了作物。然后使用适当的α加权损失将作物与每种源结构进行比较。我们在训练时使用空间均匀的权重α，因为所有真实世界的示例都是空间均匀的，并且我们不希望我们的对抗机器人检测到我们的合成纹理，因为它具有空间变化。相比之下，在测试时，我们使用空间变化的权重。3.2. 训练损失对于重建任务，我们使用三个损失。第一损失是针对每个输入Si的逐像素L1损失。第二我每个尺度si，我们在平铺的潜在张量上定义一个网格第二损耗是针对每个输入Si的格拉姆矩阵损耗，基于在ImageNet预训练的VGG-19模型上。我们定义T（zl），其中每个网格单元的大小为si×si。用于每个尺度si，然后我们对网格的单元格应用随机洗牌，克氏损失L 克以与Johnson等人相同的方式。[20]，我们用Pi表示。这种洗牌首先以自上而下，然后自下而上的顺序在网格行中进行：每行与下一行随机交换的概率为0.5。类似地，这在网格列上重复，列从左到右和从右到左交换因此，整个混洗操作是：并使用特征relu i1，其中i=1，. . .、5。第三损失是基于WGAN-GP的对抗性损失Ladv[14]，其中，重建的PROVIDrec试图对重建的图像是来自真实源纹理集还是由网络生成进行分类。损失如下：Lrec=S1−S11+S2−S21（4）.lΣ.lΣ联系我们P T（zi）=P0P1···PnT（zi）（一）L克=L克（S1，S1）+L克（S2，S2）（5）我们在补充材料中设想了这种洗牌过程。我们还希望合成的纹理能够在有用户指定纹理约束的区域和没有约束的区域之间平滑过渡。因此，我们覆盖原始zl而不进行混洗在平铺的潜伏区的4个角上。索河我们把这种带角覆盖的树记为PT（zl）.12168Lrec=Lad v（S1，S1|Dre c）+Lad v（S2，S2|Drec）（6）Ladv项由WGAN-GP [14]定义为：Ladv（A，B|D）= D（A）− D（B）+GP（A，B|D）（7）这里A和B是一对输入图像，D是反向训练的判别器，GP（·）是梯度惩罚如果我们将全卷积生成器G应用于净正则化项。12169Adv图3.动物纹理数据集上大小为1024×1024的一系列溶解视频帧样本，其中每个帧也具有插值效果对于插值任务，我们期望大插值纹理图像类似于两个输入纹理的某种组合具体地，如果α= 1，则插值图像应该类似于源纹理S1，并且如果α = 0，则它应该类似于S2。然而，我们不需要像素级的相似性，因为那会鼓励重影. 因此，我们只施加一个Gram矩阵和一个对抗损失。我们选择一个随机作物作物我作物从插值纹理图像。然后，用于插值的Gram矩阵损失被定义为每个源纹理的α加权损失在图像域中。这些纹理各自被编码到潜在域。在大多数情况下，给定输入纹理，我们的方法能够实现固有的边界匹配和连续性。然而，由于重建和插值损失之间的权衡，在某些情况下可能会有轻微的不匹配。为了使纹理在边界条件下更好地一致，我们对图像进行了如下后处理。假设用户放置源纹理化区域作为边界条件。我们首先将重建的区域替换为ITP革兰氏阴性杆菌=αL 克（我作物，S1）+（1−α）L克（我作物，S2）（8）源纹理。然后，在源纹理内，我们使用图切割[24]来确定我们可以在源纹理和重建之间切割的最佳接缝Fi-同样，我们逆向训练插值分布，- 用于插值任务的criminatorDitp，以分类其输入图像是来自真实源纹理集还是其是合成生成的插值：最后，我们使用泊松混合[31]来最小化该接缝的可见性。纹理笔刷。我们可以允许用户按如下方式使用纹理进行笔刷。我们假设有一个有纹理的背面-国际贸易促进委员会=αLad v（Icrop，S1|Dit p）+（1−α）Lad v（Icrop，S2|Dit p）（九）地面区域，我们已经将其编码为潜在空间。用户可以选择任何纹理刷，通过第一次编码我们的最终培训目标是刷纹理，然后刷在潜在的空间。为例如，在图1中，我们展示了一个选择最小最大E（λ1Lrec+λ2Lrec+λ3Lrec纹理从调色板创建插值四稀疏El，Eg，GDrec，DitpS1，S2Spix克Adv创建纹理。我们发现刷纹理ITP革兰氏阴性杆菌+λ5Litp）（十）张量，并使用高斯加权画笔应用它们。在这里，画笔中的全部权重导致背景潜在张量被完全替换，而其他权重导致其中λ1=100，λ2=λ4=0。001和λ3=λ5=1来平衡每个损失项的数量级，这些损失项对数据集不敏感我们在补充文档中提供了与培训和架构相关的详细信息，例如我们如何在培训期间使用渐进式增长[21]。3.3. 测试和用户交互在测试时，我们可以以几种不同的方式使用我们的网络：我们可以插入稀疏放置的纹理，用纹理刷，在纹理之间溶解，以及在一个图像中混合不同的动物区域。这些applica- tions利用空间变化的插值权重。稀疏放置纹理的插值。这个选项显示在图1的调色板和背景中。在这种情况下，一个或多个纹理是由用户LL+λ4L12170比例递减效应。画笔可以很容易地在空间上放置，因为潜域和图像域与与架构相关的可调因子m对齐。我们在补充材料中显示更多结果。纹理溶解。我们可以在任意两个纹理之间创建交叉溶解效果，方法是将它们都编码到潜在域，然后使用空间均匀的混合权重在它们之间混合。此效果在视频中最好可视化，其中时间控制溶解效果。请看我们的补充视频了解这些结果。图3示出了具有逐渐变化的权重的视频帧样本的序列动物杂交。我们将纹理插值推广到一个更实际和更有创造性的应用--动物杂交。图4示出了示例。给定一张图片中两个对齐的动物区域，12171图4.一个大小为1260 ×1260的狗和熊之间的动物杂交例子。我们在两种动物皮毛之间的插值比朴素混合更平滑，重影更少，也更真实。过渡区，我们可以采样源纹理补丁adjournalto孔和进行空间插值之间的纹理。我们用插值纹理填充这个洞。最后，我们使用图割[24]和泊松混合[31]后处理边界。技术细节和更多的例子显示在补充材料。4. 实验在本节中，我们将演示实验比较。我们首先在4.1节介绍我们自己的数据集。然后，我们在第4.2节中提出了一套插值质量的评估指标在第4.3节中，我们列出并比较了纹理插值任务中不同类别的几种主要方法在第4.4节中，我们将用户研究描述为整体比较。最后，我们在第4.5节中通过与我们自己的方法的三个简化版本进行比较来进行消融研究我们建议学习每个纹理类别的模型，而不是通用模型，因为：（1）没有描绘不同纹理类别之间的插值的真实世界示例;（2）没有实际理由跨类别进行插值，例如，毛皮和砾石;以及（3）与其他GAN一样，由于模型的容量限制，每个类别的特定模型比通用模型表现得更好4.1. 数据集训练插值特定类别的前平行静止不幸的是，大多数现有的纹理数据集（如DTD [6]）旨在用于纹理分类任务，并且每个类别没有足够的样本（在DTD的情况下只有120个）来覆盖具有足够密度的纹理外观空间。因此，我们收集了两个自己的数据集：（1）地球纹理数据集包含来自Flickr的Creative Commons图像，我们将其随机分为896张训练图像和98张测试图像;（2）动物纹理数据集包含来自Adobe Stock的图像，随机分为866个训练集，95张测试图片所有纹理都是真实世界的RGB照片，具有大于512×512的任意尺寸。这两个例子都显示在我们的数字在整个文件。我们通过应用以下方法进一步增强了所有的训练和测试集：（1）与同一数据集中的随机参考图像进行颜色直方图匹配;（2）包括水平和垂直镜像的随机几何变换，随机平面内旋转和缩小（最多×4）;以及(3)随机裁剪128×128的大小。这样，我们为每个训练图像增加了1000个样本，为每个测试图像增加了100个4.2. 评价我们将比较以前的工作与我们的，也做一个烧蚀研究对我们自己的方法。为了公平地比较所有方法，我们使用水平插值任务。具体来说，我们从测试集中随机抽取了两个128×128的正方形我们称之为侧面纹理。我们将它们作为约束放置在128×1024画布的两端。然后，我们使用每种方法在画布上生成插值，将每种方法配置为线性插值，这样的选项是可用的。据我们所知，没有标准的方法来定量评估纹理插值。我们发现现有的生成评估技术[34，16，4，21]不足以完成我们的任务。因此，我们开发了一套指标，评估我们认为对我们的任务至关重要的三个方面：（1）用户可控性，（2）插值平滑性，以及（3）插值真实性。我们现在讨论这些。12172用户可控性。为了使插值被认为是可控的，它必须在用户选择的位置处紧密地再现用户选择的纹理。在我们的实验中，我们将其作为侧纹理的重建质量进行测量。我们对两侧纹理的LPIPS感知相似性测量值[43]进行我们称之为侧面感知距离（SPD）。我们还希望插值的中心与两侧的纹理相似。为了衡量这一点，我们考虑了插值的中央128×128裁剪和侧面纹理之间的Gram矩阵损失[20]。我们报告从中心作物到两侧的距离之和纹理，由两者之间的Gram距离归一化我们称之为中心克距（CGD）。插值平滑度。理想情况下，我们希望插值遵循两个侧面纹理之间的最短路径。为了度量这一点，我们构造了左侧纹理和中心裁剪之间以及中心裁剪和右侧纹理之间的两个Gram矩阵特征差向量，并测量了两个向量之间的余弦距离。我们期望该中心余弦距离（CCD）被最小化。为了平滑，外观变化应该是渐进的，没有突然的变化，如接缝和切口。为了测量这一点，我们使用来自训练集的真实样本作为负示例来训练接缝分类器我们在中间的作物上运行这个分类器。我们称之为中心接缝评分（CSS）。接缝分类器的架构和训练细节与Drec和Ditp的相同。插值现实主义。纹理也应该看起来重新-就像训练集一样。为了衡量这一点，我们选择了初始分数[34]和切片Wasserstein距离（SWD）[21]，并将其应用于中心作物。这给出了中心初始评分（CIS）和中心SWD，重新评分。对于CIS，我们使用最先进的Inception- ResNet-v2inception模型架构[36]分别与我们的两个数据集进行微调我们还发现，这些指标不捕获不希望的重复，一个常见的纹理合成工件。为此，我们训练了一个重复分类器我们称之为中心重复评分（CRS）。重复分类器的结构和训练细节与接缝分类器几乎相同，不同之处在于输入图像的大小128×256而不是128×128，其中负例是来自真实数据集的大小为128×256的随机裁剪，正例是来自真实数据集的大小为128×128的4.3. 比较我们比较了几个领先的方法，从不同类别的纹理插值任务。这些图5.在128×1024个地球纹理样本上进行水平插值的定性演示和比较我们使用橙色背景的两个侧面裁剪进行SPD测量，使用浅黄色背景的中心裁剪其他拟议定量评价的背景。对于DeepFill [42]方法，由于默认设计不适合修复宽孔，因为缺乏这样的基础事实，我们转而在尺寸为128 ×384的较短插值上测试它。包括：朴素的α-混合，图像融合[7]作为基于补丁的技术的代表，两种神经风格化方法- AdaIN [17]和WCT[28]，最近的深孔填充方法称为DeepFill [42]，以及PSGAN [3]，它最接近我们的方法，但没有用户控制。大多数这些都必须适应我们的任务。更多详情请参见补充材料。图5包含不同方法之间的定性比较。请注意，在此示例中：（1）DeepFill的插值过于尖锐，（2）我们的和朴素的α -混合（无混洗）的不期望的重影和重复伪影，（3）AdaIN、WCT和PSGAN的不正确重构和不太相关的插值，（4）图像融合的源和插值之间的外观不匹配，（5）我们的平滑度不足（无zg），和（6）我们的不希望的褪色（没有混合）。补充材料中有更多的定性比较。我们还在表1中报告了定性结果，包括用户研究和消融实验，其中包含两个数据集的平均值-大地纹理和动物纹理。图6总结了定量比较。12173表1.对地球纹理和动物纹理数据集进行定量评估平均。我们突出了每个指标的最佳，次佳和非常高的值我们还指出，对于每一个更高的值（）或更低的值（）更可取。可控性平滑度现实主义用户研究测试时间SPD⇓CGD⇓CCD⇓CSS⇓CRS⇓独联体⇑残疾大学⇓PRp值朴素α-混合0.00001.2550.7770.99530.438422.3560.930.845<10−60.02 s图像融合[7]0.01111.2890.8650.00050.000429.4547.090.672<10−66 minWCT [28]0.86051.3210.9880.00200.00009.8646.890.845<10−67.5秒PSGAN [3]1.15371.5351.1560.00690.000526.8135.900.967<10−61.4分钟我们的（无zg）0.01121.2070.6800.00780.001021.0421.54---我们的（无混合）0.01031.2720.8170.01250.000922.2452.29---我们的（没有洗牌）0.01071.1290.4900.05340.238626.7820.99---我们0.01131.1770.6230.00660.000826.6822.10--0.5 s阿尔法混合图像融合WCTPSGAN我们的（无zg）我们的（无混合）我们的（没有洗牌）我们SPDSPDSPDSPDSPDSPDSPDSPD残疾大学CGD残疾大学CGD残疾大学CGD残疾大学CGD残疾大学CGD残疾大学CGD残疾大学CGD残疾大学CGD独联体CCD CISCCD CISCCD CISCCD CISCCD CISCCD CISCCD CISCCDCRSCSSCRSCSSCRSCSSCRSCSSCRSCSSCRSCSSCRSCSSCRSCSS图6.雷达图可视化表1.值已被标准化为单位范围，轴反转，因此值越高越好。前四个是基线方法，接下来是三个消融候选方法，最后一个条目代表我们的完整方法。我们的方法在所有方面都接近最高分，并根据所有指标显示出平衡的性能。4.4. 用户研究我们还对 Amazon Mechanical Turk 进行了用户研究。我们向用户提供了一个二元选择，询问他们是否在美学上更喜欢我们的方法或水平插值任务中随机示例的基线方法之一。用户研究网页和健全性检查（以保证用户反馈的有效性对于每个方法对，我们采样了90个示例，每个示例收集了5个计算用户投票，我们得到每个方法对90个结果。我们假设一个零假设，即平均而言，我们的方法将被2。5个用户用于给定的方法对。我们使用了单样本排列t检验使用10- 6排列来测量p值，发现零假设的p值都是10-6。<这表明用户确实喜欢一种方法而不是另一种方法。到为了量化这种偏好，我们为每个方法对计算至少3个用户同意其偏好的所有示例，并报告偏好率（PR），该偏好率显示有多少偏好有利于我们的方法。PR和p值见表1。4.5. 消融研究我们还比较了我们的方法的简化版本。该比较的定性结果如图5所示。我们在表1中报告了定量结果数字，并在图6中对其进行了可视化。我们消融以下组件：删除zg。zg和zl的唯一区别在于对于z1的平铺和洗牌。但是如果我们去掉zg，我们发现纹理过渡不那么平滑和渐进。在训练过程中删除纹理混合。我们修改了我们的方法，以便在训练过程中的插值任务只在两个相同的纹理上执行这使得内插的真实性不是混合样本的真实性的一部分，因此测试真实性恶化。删除随机洗牌。我们跳过了潜在空间中的洗牌操作，只在训练过程中进行混合。这稍微提高了真实性和插值的直接性，但会导致视觉上令人不安的重复。5. 结论提出了一种新的纹理可控插值方法。我们能够满足可控性、平滑性和真实性的标准。我们的方法在我们新收集的数据集上执行了几个基线。正如我们在图6中看到的，尽管某些基线方法可能在一个评估标准上比我们的方法获得更好的结果，但它们通常在其他标准上失败相比之下，我们的方法在所有评估类别中都有一致的高分。用户研究还显示，用户压倒性地喜欢我们的方法，而不是任何基线。我们还展示了基于这种技术的几个应用程序，并希望它可以成为更复杂的工作流程的构建块。确认作者感谢马里兰州高级研究计算中心提供计算资源，并感谢摄影师根据知识共享或公共领域授权照片。12174引用[1] M. Arjovsky，S.Chintala和L.博图Wasserstein ganarXiv预印本arXiv：1701.07875，2017。2[2] C. Barnes，E. Shechtman ，A. Finkelstein 和D. B.黄金人。补丁匹配：一种用于结构化图像编辑的随机对应算法。 ACM Transactions on Graphics （ ToG ）， 28（3）：24，2009。一、二[3] 联合Bergmann，N. Jetchev和R.沃尔格拉夫。使用周期性空间GAN学习纹理流形。第34届机器学习国际会议论文集，第469-477页，2017年。二、四、七、八[4] M. Bin 'kowski，D. J. Sutherland，M. Arbel和A. 格雷顿揭秘mmd甘斯。arXiv预印本arXiv：1801.01401，2018. 6[5] D. 陈湖，澳-地Yuan，J.Liao，N.Yu和G.华Stylebank：神经图像风格传递的显式表示在IEEE计算机视觉和模式识别会议上，第1897-1906页，2017年2[6] M. Cimpoi，S.马吉岛Kokkinos，S.穆罕默德，A.维达尔迪描述野外的纹理。在IEEE Conf. 计算机视觉和模式识别（CVPR），2014年。6[7] S. Darabi、E.谢赫特曼角巴恩斯D. B.高盛，以及P. Sen.图像融合：结合不一致的图像使用基于补丁的合成。ACM事务处理图表，31（4）：82-1，2012. 一、二、七、八[8] O. 迪亚曼蒂， C. 巴恩斯 S. 巴黎 E. Shechtman和O.索金-霍恩从有限样本合成复杂图像外观。ACMTransactions on Graph-ics（TOG），34（2）：22，2015. 一、二[9] A. A. Efros和W. T.弗里曼。用于纹理合成和转移的图像绗缝。在第28届计算机图形和交互技术年会中，第341-346页。ACM，2001年。一、二[10] A. A. Efros和T. K.梁非参数采样纹理合成。见iccv，第1033页。IEEE，1999年。一、二[11] L. Gatys，A. S. Ecker和M.贝丝使用卷积神经网络进行纹理合成。神经信息处理系统的进展，第262-270页，2015年一、二、三[12] L. A. Gatys，A.S. Ecker和M.贝丝使用卷积神经网络的图像风格在IEEE计算机视觉和模式识别会议集，第2414-2423页，2016年。二、三[13] I. 古德费罗 J. 波吉特-阿巴迪 M. 米尔扎 B. 许、D. 沃德-法利，S。奥扎尔A.Courville和Y.本吉奥。生成对抗网络。在神经信息处理系统的进展，第2672-2680页，2014年。2[14] I. Gulrajani， F. 艾哈迈德， M 。阿尔约夫斯基河谷Dumoulin，以及A. C.考维尔改进的瓦瑟斯坦甘斯训练。神经信息处理系统进展，第5767-5777页，2017年。二、四[15] D. J. Heeger和J. R.卑尔根基于金字塔的纹理分析/合成在第22届计算机图形和交互技术年会论文集，第229-238页。ACM，1995年。一、二[16] M. Heusel，H. Ramsauer，T.翁特希纳湾Nessler和S. Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。神经信息处理系统进展，第6626-6637页，2017年。6[17] X. Huang和S.J. 贝隆吉具有自适应实例规范化的实时任意样式传输在ICCV，第1510-1519页，2017年。二、三、四、七[18] P. Isola，J.- Y. Zhu，T. Zhou和A. A.埃夫罗斯使用条件对抗网络的图像到图像翻译。在IEEE计算机视觉和模式识别会议上，2017年。2[19] N. 杰切夫，美国。Bergmann和R.沃尔格拉夫。利用空间生成对抗网络进行纹理 arXiv 预印本 arXiv ：1611.08207，2016。2[20] J. Johnson，A. Alahi和L.飞飞实时风格转换和超分辨率的感知损失。欧洲计算机视觉会议，第694-711页。施普林格，2016年。一、二、四、七[21] T. Karras，T. Aila，S. Laine和J.莱赫蒂宁为提高质量、稳定性和变异性而进行的干细胞arXiv预印本arXiv：1710.10196，2017。二五六七[22] A. 卡斯帕湾Neubert、D.Lischinski，M.Pauly和J.科普夫自调整纹理优化。在计算机图形论坛，第34卷，第349-359页。Wiley Online Library，2015. 2[23] 夸特拉岛Essa，A. Bobick和N.夸特拉基于示例的合成的纹理优化在ACM Transactions on Graphics（ToG），第24卷，第795ACM，2005年。2[24] V. Kw atra、黑果草A. 舍奥德尔岛埃萨湾 Turk和A.Bobick Graphcut纹理：使用图形切割的图像和视频合成。 ACM Transactions on Graphics （ ToG ）， 22（3）：277二、五、六[25] S. Lefebvre 和 H. 霍普视空间纹理合成。在 ACMTransactions on Graphics（TOG），第25卷，第541-548页中ACM，2006年。2[26] C. Li和M.魔杖用马尔可夫生成对抗网络实现预计算实时纹理合成。欧洲计算机视觉会议，第702施普林格，2016年。一、二、三[27] Y. Li，C. Fang，J. Yang，Z. Wang，X. Lu和M. H.杨用前馈网络实现多样化纹理合成在Proc. CVPR，2017中。一、二、四[28] Y. Li，C. Fang，J. Yang，Z. Wang，X. Lu和M. H.杨通过特征变换进行通用样式传递。神经信息处理系统进展，第386-396页，2017年。二三七八[29] G. Liu，F. A. Reda，K. J. Shih，T.- C. Wang，中国山核桃A. 涛和B. 卡坦扎罗基于部分卷积的不规则孔洞图像修复在欧洲计算机视觉会议（ECCV）的会议记录中，2018年。2[30] W.马图西克湾Zwicker和F.杜兰德使用可变形纹理的单纯复合体进行纹理设计在ACM Transactions on Graphics（TOG），第24卷，第787- 794页中。ACM，2005年。2[31] P. 我是佩雷斯先生。Gangnet和A. Bla k e.泊松图像编辑。 ACM Transactions on graphics （ TOG ）， 22（3）：313-318，2003。五、六12175[32] J. Portilla和E.西蒙切利基于复小波系数联合统计量的参数化纹理模型。计算机视觉国际杂志，40（1）：49-70，2000. 一、二[33] E. Risser，P. Wilmot，and C.巴恩斯使用直方图损失的稳定可控arXiv预印本arXiv：1701.08893，2017。2[34] T. 萨利曼斯岛Goodfellow，W.扎伦巴河谷Cheung，A.Rad- ford和X.尘改进的gans训练技术神经信息处理系统进展，第2234-2242页，2016年。二六七[35] O. Sendik和D.科恩-奥用于织构合成的深度相关性。ACM Transactio

下载后可阅读完整内容，剩余1页未读，立即下载