放弃GAN：基于补丁最近邻的单图像生成模型

26 浏览量更新于2023-10-26 收藏 15.49MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

134600放弃GAN 1：捍卫补丁最近邻作为单图像生成模型0Niv Granot � Ben Feinstein � Assaf Shocher � Shai Bagon † Michal Irani �0�计算机科学与应用数学系，魏茨曼科学研究所†魏茨曼人工智能中心（WAIC）项目网站：http://www.wisdom.weizmann.ac.il/˜vision/gpnn/0图1.我们简单的统一框架涵盖了广泛的单图像生成任务，通常GAN每个图像需要几个小时的训练。使用补丁最近邻和单个源图像，我们可以在几秒钟内以更高的质量执行这些任务。我们在这里展示了我们的方法在SinGAN [27]，InGAN[28]，结构类比[3]和双向相似性[30]中的关键示例的结果。此外，我们还介绍了诸如条件修复等新的应用。红色标记的输入图像。0摘要0图像操作早在深度学习时代之前就存在。经典的主流方法是通过最大化输入和生成输出之间的补丁相似性来实现的。最近，单图像GAN被引入作为图像操作任务的一种优越和更复杂的解决方案。此外，它们不仅提供了操作给定图像的机会，还可以从单个自然图像生成大量不同的输出。这引发了被认为是“仅限GAN”的新任务。然而，尽管它们令人印象深刻，但单图像GAN对于每个图像和每个任务通常需要长时间的训练（通常为几小时），并且经常出现视觉伪影。在本文中，我们重新审视了经典的基于补丁的方法，并展示了与先前的观点不同，经典方法可以适应这些新的“仅限GAN”的任务。此外，它们在速度和质量上都比单图像GAN方法更好更快。具体而言，我们表明：（i）通过引入轻微的修改，经典的基于补丁的方法能够根据单个自然图像无条件地生成多样的图像；01虽然我们无法抵挡这个双关语，但我们承认单图像GAN具有一些简单的补丁最近邻无法实现的能力。我们在第5节中详细讨论了这些优点（和缺点）。在准备本文时，没有GAN受到伤害... � .0（ii）生成的输出视觉质量明显优于单图像GAN（定量和定性均得到证实）；（iii）它们的速度快了几个数量级（运行时间从几小时减少到几秒钟）。201. 引言单图像生成模型通过捕捉单个图像的补丁分布来执行图像合成和操作。在深度学习革命之前，经典的主流方法是基于优化输入图像和生成的输出图像之间小补丁的相似性。这些无监督的基于补丁的方法（例如，[2, 6, 7, 25, 26, 30,35]）产生了各种令人瞩目的图像合成和操作任务，包括图像补全、纹理合成、图像摘要/重定向、拼贴画、图像重排等。具体而言，双向相似性方法[2,30]鼓励输出图像仅包含来自输入图像的补丁（“视觉连贯性”），反之亦然，输入应仅包含来自输出的补丁（“视觉完整性”）。因此，输出图像中不会引入新的伪影，也不会丢失关键信息。02 该项目获得了欧洲研究理事会（ERC）在欧洲联盟的Horizon2020研究和创新计划（授权协议号788535）下的资助，以及CarolitoStiftung的支持。Bagon博士是Robin Chemers Neustein AI Fellow。134610最近，深度单图生成模型以惊人的方式占领了图像处理领域。这些模型是“深度内部学习”的自然延伸[9, 11, 29, 32,37, 38,43]。它们以粗到细的方式在单个输入图像上训练了一个完全卷积GAN，从而捕捉了其各种尺度上的补丁分布。然后，生成器产生具有类似补丁分布的新图像。它们最初用于“经典”任务，例如图像重定向[28]和纹理合成[4, 17, 39,41]。后来，随着外部训练的GAN（例如[13]），它们转而解决新的“仅限GAN”（实际上是“仅限DL”）生成任务。SinGAN[27]展示了仅基于单个自然输入图像就能无条件生成大量合理图像的能力。随后的许多其他工作也跟随SinGAN [3, 5,14, 15, 21-23,34]。这些工作中的大多数解决了以前从未考虑过的经典基于补丁的方法的任务。因此，我们将这些任务称为“仅限GAN”。尽管具有显著的功能，但与其更简单的经典基于补丁的对应物相比，单图GAN具有几个重要的缺点：（i）它们需要长时间（通常几小时）来训练每个输入图像和每个任务（与快速的基于补丁的方法[2]相反）。（ii）它们容易出现优化问题，如模式崩溃。（iii）它们通常产生比经典基于补丁的方法更差的视觉质量（即缺乏“一致性”[30]）。在本文中，我们展示了一些适当的现代改编，证明了“好老的”基于补丁的方法出人意料地能够解决大多数以前被认为是“仅限GAN”的任务。实际上，尽管历史的进程将研究社区从经典基于补丁的方法带到了强大的GAN，但我们声称在许多方面，经典方法优于单图GAN。我们通过一个改编的基于补丁的方法（GPNN-生成补丁最近邻）来证明这一点，该方法生成具有可比或更好的视觉质量的多样化图像，并且比GAN快几个数量级（第3节）。更具体地说，GPNN模拟了SinGAN，但“放弃了GAN”，并用一个简单的补丁最近邻（PNN）模块替换它。这导致了一个简单的生成基于补丁的算法，它是经典方法的自然延伸。与旧的基于补丁的方法不同，GPNN展示了GAN的非确定性特性，它们的大量可能输出以及解决新的生成任务的能力。与基于GAN的方法不同，GPNN享受经典方法的好处：它不需要任何训练，因此非常快（比GAN快10^3-10^4倍）。此外，它仅使用输入图像中的真实补丁，因此产生的结果比单图GAN具有更高的视觉质量。这种经典方法的现代改编能够在一个统一的框架中执行新的生成“仅限GAN”任务以及旧的经典任务，并且具有高质量的结果（第4节）。我们展示了广泛的应用范围：首先是从单个自然图像生成多样化图像，但也包括图像编辑，图像重定向，结构类比，图像拼贴以及新引入的“条件修复”任务。0最后，我们在第5节中分析和描述了这两种方法（补丁最近邻与单图GAN）的优缺点。我们希望GPNN能够成为单图生成/操作任务的新基准。因此，我们的贡献有几个方面：0•我们展示了“好老的”补丁最近邻方法，当正确应用时，可以解决以前被认为是“仅限GAN”的任务（例如无条件和多样化的图像生成）。我们引入了这样的投射 -GPNN，一种生成基于补丁的算法，为各种任务提供了一个统一0•我们展示了这样一种经典方法的投射，可以以比单图GAN快0•我们分析和讨论了现代单图像基于GAN的方法与经典基于补丁的方法的固有优缺点。我们进一步实验性地检验了GAN是“花哨的最近邻提取器”的现有假设。（剧透：我们的结论是“不是”）。02.GPNN：经典方法的现代改进我们的目标是将经典的基于补丁的方法高效地改进为多样的单图像生成模型。为此，我们考虑了双向相似性[30]和SinGAN[27]的原则，以获得两者的优点。与两者以及许多其他作品（例如[7, 26,028,35]），我们在生成过程中采用了粗到细的策略（图2（a）），即在每个尺度n：0yn = G（xn，˜ yn + 1）（1）0其中xn是输入图像x，通过rn（r>1）进行下采样。˜ yn +1是一个初始猜测，是前一个（n +1）尺度的上采样输出。SinGAN在每个尺度上使用一个GAN（作为G），我们改进的经典方法（GPNN）使用非参数的补丁最近邻（PNN）模块（图2（b））来强制补丁统计的相似性。0图2. GPNN方法。GPNN的多尺度架构与SinGAN[27]非常相似：每个尺度由一个单一的图像生成器G组成，该生成器生成具有与源图像xn相似的补丁分布的多样输出yn。生成模块G（在[27]中是一个GAN）在这里被非参数的PNN生成模块所取代。最粗糙的级别输入注入了噪声。134620图3. PNN的算法步骤。0源图像和生成的输出之间的相似性。PNN模块（类似于双向相似性[30]的核心单元）通过补丁最近邻促进视觉连贯性和完整性。此外，与经典方法相反，在粗糙级别注入噪声以引入随机性（类似于SinGAN）。这些修改和其他修改使得经典的基于补丁的方法能够成为一种快速且高质量的生成算法。02.1. 补丁最近邻生成模块0PNN生成模块的目标是在每个尺度n上，基于初始猜测图像˜yn + 1和源图像xn生成一个新图像yn，使其结构类似于˜ yn+1，并且内部统计数据与xn匹配。为了实现这一目标，PNN将˜ yn +1中的每个补丁替换为xn中最近的邻居补丁。虽然这种方法与[30]类似，但GPNN对[30]的核心补丁相似性模块进行了两个修改（除了在粗糙尺度上的无条件输入）：（i）查询-键-值补丁搜索策略，提高了生成输出的视觉质量；（ii）新的归一化补丁相似度度量，以确保在无需优化的情况下实现视觉完整性。这些差异在下面详细说明。虽然经典方法寻找最近的补丁并直接使用其值，但我们认为这可能不是最优的方法。0粗到细的方案。初始猜测通常是从较粗的级别上采样得到的，因此有些模糊。然而，源图像的补丁是清晰的。因此，可能会无意中偏爱模糊/平滑的补丁。为了解决这个问题，PNN使用了一个查询-键-值方案（参见图2（b），3，类似于[33]），其中查找补丁和替换补丁是不同的。对于初始猜测˜yn + 1中的每个查询补丁Qi，我们在源图像的类似模糊版本˜ xn +1 = xn + 1 ↑ r =（xn ↓ r）↑r中找到其最接近的键补丁Kj，但将其替换为相应的尺度上的清晰源图像x n中的值补丁Vj。键和值补丁是平凡配对的（具有相同的像素坐标）。这样，模糊的查询补丁与模糊的键补丁进行比较，但被清晰的值补丁替换。另一个区别是用于查找最近邻的度量。在某些应用（例如图像重定向）中，确保在生成的输出中不丢失输入的视觉数据是至关重要的。这由[30]定义为视觉完整性。在[30]中，通过对像素进行迭代优化过程来强制执行完整性。InGAN[28]使用循环一致性损失来实现这一目的（这是以失去多样性为代价的）。PNN使用归一化的补丁相似度得分来强制执行完整性，取代了常见的L2度量。这个相似度得分用于找到补丁最近邻，并偏爱在查询中没有很好表示的键补丁，从而在无需优化的情况下鼓励视觉完整性，如下面算法摘要的第3步所详细说明的。0PNN由6个主要算法步骤组成（在图3中编号）：01. 提取块：按照查询-关键-值方案，从源图像 x n （作为 V），初始猜测 ˜ y n + 1 （作为 Q ），以及类似模糊的图像˜ x n + 1 （作为 K ）中提取完全重叠的 p × p块。唯一的例外是最粗糙的尺度（ n = N），在该尺度上使用值块作为关键块（ K = V）。关键块和值块成对（来自相同位置的块在两个池中具有相同的索引）。2. 计算距离矩阵： D i,j ← MSE ( Q i , K j )。我们利用计算 D的并行性质，并在GPU上运行以提高速度。3.计算归一化得分：PNN使用以下0图4. 完整性-参数 α 的作用：使用不同的 α值进行重定向（红色输入）。对于较大的 α，输出中缺少或重复了一些输入大理石。随着 α的减小，完整性得到进一步强化。当 α = 5 � 10 − 5时，所有原始大理石都被保留。Si,jDi,jαminℓ Dℓ,j(2)134630图5. 随机实例生成比较：使用我们的方法生成的图像与使用SinGAN [ 27]生成的图像进行比较。使用GPNN生成的图像（第二行）看起来非常逼真，而SinGAN生成的图像产生了许多伪影（第三行）。0相似性分数以鼓励视觉完整性：0直观地说，当查询中缺少关键块 K j时，归一化项（分母）很大，导致较小的 S i,j（从而增加了选择 K j的机会）。另一方面，当查询中出现关键块 K j时，分母趋向于 α ，因此 S i,j ∝ D i,j 。参数 α因此用作控制完整性程度的旋钮，其中小的 α鼓励完整性，而 α � 1 实际上与使用MSE相同。4.查找最近邻：对于每个查询块 Q i，我们找到其最近的关键块的索引，即 j nn ( i ) = argminℓ S i,ℓ 。5. 用最近邻替换：每个查询块 Q i 用其最近邻的值V j nn ( i ) 替换。输出表示为 O i 。6.合并块：重叠的块组合成图像。使用高斯加权平均值[ 12]聚合多个重叠的块中的像素。0请注意，合并非常不同的重叠块可能会导致不一致和伪影（缺乏连贯性）。为了减轻这些不一致性，PNN在每个尺度上应用 T 次（如[ 30]中所示）。在第一次迭代中，初始猜测是来自上一个尺度的放大输出。在后续迭代中，当前输出被插入为初始猜测。获得多样化的输出：我们认识到SinGAN的多样性主要来自其最粗糙的层级，在该层级中，他们使用无条件的GAN，而不是其他尺度上更受限制的条件GAN。这是有道理的，因为最粗糙尺度上的小块捕捉了图像中对象的全局特性。在此之后，GPNN在最粗糙的尺度上注入噪声（如[ 8]中所示）。具体而言，最粗糙尺度上的初始猜测定义为 ˜ yN + 1 = x N + z N ，其中 z N � N ( 0 , σ 2 )。这使得最近邻搜索几乎是随机的（期望上只有块的均值保持不变），从而在全局结构中引入多样性，但PNN保持连贯的输出。使用0不同噪声图的数据 z N是第3节中呈现多样化图像生成的基础，而对初始猜测 ˜ y N + 1的不同选择是我们在第4节中呈现的各种附加应用的基础。强制完整性：图4显示了参数 α 对输出完整性的影响。当 α→ 0 时，min l D l,j 主导了等式（2）中得分 S的分母。因此，对于表示良好的关键块 K j （因为 min l Dl,j ≈ 0 ）， S i,j 很大，对于缺失的关键块（因为 min l Dl,j 很大）， S i,j 很小。由于我们在算法的第4步中通过对S取最小值来找到目标块，因此更有可能选择缺失的关键块（促进完整性-参见图4中的最右图）。相反，当 α � 1时，分母成为一个常数 � α （因为 � i, j D i,j ≤ 1），因此只基于MSE选择最近的块（不强制完整性）。参数α因此设置所需的完整性水平（如图4所示）。运行时间：GPNN相对于基于GAN的方法（例如[ 3 , 27 , 28]）具有关键优势，即运行时间。基于GAN的方法需要长时间的训练阶段（每张图像几个小时），而GPNN使用非参数生成器，无需训练。因此，SinGAN生成180×250大小的图像需要约1小时，而GPNN只需2秒（见表1）。有关更多详细信息，请参阅项目网页。03.结果与评估0我们对GPNN在基于单个自然图像的随机图像生成主要应用上与SinGAN[27]的性能进行评估和比较。我们首先按照SinGAN[27]的完全相同的评估过程进行评估，使用相同的数据。然后我们添加了更多的指标、更多的测试，并引入了更多的数据。我们在所有的指标和数据集上都在视觉质量和逼真度方面显示出明显的优势，无论是定量还是定性。完整的结果集可以在项目网页中找到。GPNN的运行时间显示为×10^3倍更快。为了公平起见，训练好的SinGAN可以用来生成同一图像的许多变体。然而，这将需要生成1800个随机输出图像，以使SinGAN和GPNN的运行时间相匹配（假设SinGAN训练需要1小时，推理时间为0，而GPNN只需要2秒）。数据：我们在两个数据集上评估我们的性能。第一个是SinGAN[27]在评估中使用的50张图像的集合（来自Places365数据集[40]）。第二个是我们引入的一个小型但非常不同的数据集，单图像生成数据集（SIGD）-一组16张图像，很好地展示了单图像生成任务的各种不同重要方面（在结构化的Places图像中没有体现的视觉方面）。其中包括：从SinGAN论文[27]中提取的7张图像，从结构类比论文[3]中提取的2张图像，以及我们从在线来源收集的7张图像。这些SIGD图像的特点是每个图像有更多的可想象版本，比Places图像更适合比较随机图像生成的质量。134640数据集方法 SIFID ↓ NIQE ↓ 混淆配对[ % ] ↑ 混淆不配对[ % ] ↑ 逼真度竞赛[ % ] ↑ 多样性运行时间 ↓ [27] [24] 时间限制无时间限制时间限制无时间限制 GPNN vs. SinGAN [27][秒]0SinGAN（N）0.085 5.240 21.5±1.5 22.5±2.5 42.9±0.9 35.0±2.0 28.1±2.2 0.5 3888.0 GPNN（σ=1.25）0.071 5.049 44.7±1.7 38.7±2.0 47.6±1.5 45.8±1.671.9±2.2 0.5 2.10SinGAN（N-1）0.051 5.235 30.5±1.5 28.0±2.6 47±0.8 33.9±1.9 32.8±2.3 0.35 3888.0 Places50 [27, 40] GPNN（σ=0.85）0.044 5.037 47±1.6 42.6±1.7 47±1.4 45.9±1.667.2±2.3 0.35 2.10SinGAN（N）0.133 6.79 28.0±3.3 12.0±2.3 35.9±2.7 39.9±2.7 41.7±3.3 0.49 3888.0 SIGD16 GPNN（σ=0.75）0.07 6.38 46.6±2.6 43.3±2.7 46.3±2.6 46.8±2.4 59.3±3.3 0.522.10表1.定量评估。我们在两个数据集上评估我们的结果：在[27]的评估中使用的Place50图像集合以及我们的新SIGD数据集（见正文）。我们使用多种指标：NIQE（非配对图像质量评估）[24]，SIFID-单图像FID[27]，以及通过广泛的用户研究进行的人工评估（见正文）。我们对多个多样性水平（按[27]提出的方法测量）进行了重复评估。表格显示GPNN在每个方面（视觉质量、逼真度和运行时间）都比SinGAN有很大的优势。0图6.多样化图像生成：（请放大查看）GPNN从单个输入（用红色标记）生成的随机图像。0为了使SinGAN和GPNN的运行时间相匹配（假设SinGAN训练需要1小时，推理时间为0，而GPNN只需要2秒），我们需要从同一输入图像生成1800个随机输出图像。数据：我们在两个数据集上评估我们的性能。第一个是SinGAN[27]在评估中使用的50张图像的集合（来自Places365数据集[40]）。第二个是我们引入的一个小型但非常不同的数据集，单图像生成数据集（SIGD）-一组16张图像，很好地展示了单图像生成任务的各种不同重要方面（在结构化的Places图像中没有体现的视觉方面）。其中包括：从SinGAN论文[27]中提取的7张图像，从结构类比论文[3]中提取的2张图像，以及我们从在线来源收集的7张图像。这些SIGD图像的特点是每个图像有更多的可想象版本，比Places图像更适合比较随机图像生成的质量。0视觉结果：图6展示了GPNN在多样化图像生成方面的结果，突出了GPNN的三个特点：（i）视觉质量：结果看起来很锐利，几乎没有伪影（请放大查看）。（ii）逼真的结构：生成的图像看起来很真实，结构合理。（iii）多样性：GPNN生成了高度多样化的结果。这种多样性可以从对象数量和位置（鸟、汽车、海滩）以及大小（建筑物）和全局布局（海岸形状、树枝）中观察到。0在保持特点（i）和（ii）的同时实现了这一点。图1（左上角）进一步展示了GPNN在SinGAN论文[27]中的关键示例上的结果。图5显示了GPNN与SinGAN的视觉比较。由GPNN生成的图像看起来非常逼真，而SinGAN经常产生没有意义的伪影/结构（请注意，尽管鸟和树枝的顺序不同，GPNN生成的鸟和树枝看起来非常逼真，而SinGAN则没有保持逼真的结构）。定量评估：表1显示了GPNN和SinGAN之间的定量比较。所有生成的图像都可以在项目网页中找到。我们使用SIFID[27]来衡量源图像和生成图像块分布之间的距离，以及NIQE[24]用于无参考质量评估。GPNN在选择多样性程度方面具有更大的灵活性（通过调整输入噪声）。然而，为了公平比较，我们调整了GPNN中的输入噪声水平，使其多样性水平与SinGAN的结果相匹配。多样性按照SinGAN提出的方法测量：50个生成图像的像素标准差。在SinGAN的places50数据集上，我们在两个多样性水平（SIFID和NIQE）上都取得了明显的优势。在SIGD数据集上，优势更大。定性评估-广泛的用户研究：表1显示了我们使用亚马逊MechanicalTurk平台进行的用户研究的结果。我们的调查包括：2个设置（配对和非配对）×2个数据集（Places50[27]和SIGD）×多个多样性水平×2个时间模式（时间限制和无时间限制）。总共进行了27个不同的调查，每个调查由50个人评分者回答。每个调查中的问题数量等于数据集中的图像数量。结果总结在表1中。配对/非配对设置：在配对设置中，将真实图像和生成图像并排显示，顺序随机。评分者被要求确定哪个是真实的。在非配对设置中，只显示一张图像（真实或生成的），评分者必须确定它是真实还是假的。在这两种设置中，我们报告了评分者被“欺骗”的试验百分比（因此，最高预期得分为50%）。以上设置分别应用于GPNN和SinGAN。此外，我们还进行了一个逼真度竞赛，在GPNN-vs-SinGAN的配对调查中，评分者必须决定哪个图像看起来更逼真（这里最高可能得分为100%）。时间限制/无时间限制：我们首先按照SinGAN的用户研究[27]的时间限制设置进行了调查，每张图像闪烁显示一段时间134650图7.重定向：（请放大）顶部行显示我们方法的重定向图像。在重定向到不同目标形状时保持补丁分布。底部行显示与之前基于补丁的[1]，[30]和基于GAN的[28]方法的比较。0仅限1秒（“时间限制”）进行评分。我们认为这个限制使评分者很难注意到差异，导致对任何方法都有强烈的50%偏见。因此，我们还在无限制时间（“无时间限制”）下重复了这项研究。结果：在所有设置中，GPNN的得分显著高于SinGAN（表1）。此外，在无限时间的调查中（人类评分者有更多时间观察图像），SinGAN“愚弄”评分者的能力显著下降，特别是在不配对的情况下。相比之下，没有时间限制对GPNN的混淆率几乎没有影响。在所有调查中，GPNN的结果非常接近于机会水平（50%）。一个观察者在无限时间内很难区分真实图像和GPNN生成的图像，这意味着生成结果的高逼真度。最后，在直接的GPNN-vs-SinGAN调查（无限时间）中，GPNN的结果在所有调查中的大多数图像中被选为更逼真的。4.其他应用除了多样化的图像生成，GPNN还产生了许多其他应用，包括“经典”和“仅GAN”的应用，全部在一个统一的框架中。不同的应用只需修改GPNN中的几个基本参数，如金字塔深度N，最粗糙尺度的初始猜测˜yN+1，以及方程2中的超参数α的选择。接下来我们将描述每个应用及其设计选择。重定向：目标是将单个源图像调整为目标尺寸（较小或较大；可能具有不同的长宽比），但保持源图像的补丁分布（即保持源图像的大小、形状和长宽比的所有小元素）[2，28，30]。GPNN首先将输入图像简单地调整为目标尺寸，然后将其缩小rN倍。这被注入为初始猜测˜yN+1。由于我们希望尽可能保留源图像的视觉信息，方程2中的α被设置为一个小值（例如α=0.005），从而促进“完整性”。为了获得更好的最终结果，所描述的过程逐渐进行（类似于[30]），即逐步调整大小。重定向结果可以在图7和1中看到。图7进一步比较了我们方法与[1，28，30]的性能。GPNN产生的结果更加逼真，且没有那么多伪影。图像到图像和结构类比：我们展示了几种类型的图像到图像转换。对于图像到图像转换，存在许多方法和各种目标和品牌，如风格转移、域转移、结构类比[8，10，16，18-20，31，42]。给定两个输入图像A和B，我们希望创建一个具有A的补丁分布的图像，但其结构与B结构对齐。换句话说，创建一个新图像，其中所有对象的位置与B中的位置相同，但具有A的视觉内容。为此，GPNN将源图像x设置为A。初始猜测˜yN+1选择为B按rN缩小。这个猜测设置了对象的整体结构和位置，而GPNN确保输出具有与A类似的补丁分布。输出应该包含尽可能多的A的视觉数据（例如在图8的左下对中，期望输出中出现许多类型的气球），因此我们将方程2中的α设置为小值（例如α=0.005）。最后，为了改进输出，它再次按rN缩小并重新注入到GPNN中。结果可以在图8中找到。我们的方法确实创建了与B中位置相同的新对象，同时补丁分布与A类似，正如期望的那样。与[3]的基于GAN的方法相比，我们的结果没有那么多伪影，并且更符合源图像A的风格（例如图8中的“S”图像）。除了提供0图8.结构类比：（请放大）红箭头表示“结构”，黑箭头表示“源”（定义要匹配的补丁分布）。将GPNN与[3]进行比较。GPNN还可以生成草图到图像的实例（右侧）。0的图像数据，GPNN还可以生成许多其他应用，包括“经典”和“仅GAN”的应用，全部在一个统一的框架中。只需修改GPNN中的几个基本参数，如金字塔深度N，最粗糙尺度的初始猜测˜yN+1，以及方程2中的超参数α的选择。接下来我们将描述每个应用及其设计选择。重定向：目标是将单个源图像调整为目标尺寸（较小或较大；可能具有不同的长宽比），但保持源图像的补丁分布（即保持源图像的大小、形状和长宽比的所有小元素）[2，28，30]。GPNN首先将输入图像简单地调整为目标尺寸，然后将其缩小rN倍。这被注入为初始猜测˜yN+1。由于我们希望尽可能保留源图像的视觉信息，方程2中的α被设置为一个小值（例如α=0.005），从而促进“完整性”。为了获得更好的最终结果，所描述的过程逐渐进行（类似于[30]），即逐步调整大小。重定向结果可以在图7和1中看到。图7进一步比较了我们方法与[1，28，30]的性能。GPNN产生的结果更加逼真，且没有那么多伪影。图像到图像和结构类比：我们展示了几种类型的图像到图像转换。对于图像到图像转换，存在许多方法和各种目标和品牌，如风格转移、域转移、结构类比[8，10，16，18-20，31，42]。给定两个输入图像A和B，我们希望创建一个具有A的补丁分布的图像，但其结构与B结构对齐。换句话说，创建一个新图像，其中所有对象的位置与B中的位置相同，但具有A的视觉内容。为此，GPNN将源图像x设置为A。初始猜测˜yN+1选择为B按rN缩小。这个猜测设置了对象的整体结构和位置，而GPNN确保输出具有与A类似的补丁分布。输出应该包含尽可能多的A的视觉数据（例如在图8的左下对中，期望输出中出现许多类型的气球），因此我们将方程2中的α设置为小值（例如α=0.005）。最后，为了改进输出，它再次按rN缩小并重新注入到GPNN中。结果可以在图8中找到。我们的方法确实创建了与B中位置相同的新对象，同时补丁分布与A类似，正如期望的那样。与[3]的基于GAN的方法相比，我们的结果没有那么多伪影，并且更符合源图像A的风格（例如图8中的“S”图像）。除了提供134660图9.拼贴：多个输入图像无缝地合并成一个单一的连贯输出，保持所有输入的视觉信息。请注意，与Bidiectional-Similarity[30]相比，GPNN的质量更高。3个输入图像在图1中找到。0超级结果，GPNN也比[3]快几个数量级。有条件修复：类似于研究良好的修复任务，在这个任务中，接收到一个带有一些遮挡部分的输入图像。然而，在我们建议的条件版本中，除了常规的图像补全之外，用户还可以进一步引导缺失部分的填充方式。这是通过用户标记要完成的图像区域，使用所选择的均匀颜色区域作为“引导方向”（例如，蓝色用于填充天空，绿色用于引导填充向草地等）来实现的。这将是源图像x。请注意，与常见的图像编辑不同，GPNN不会“看到”源自遮挡区域的补丁。初始猜测˜yN+1设置为x通过rN的缩小版本。在最粗糙的级别上应用PNN，以与所选择的颜色一致地替换掩盖的部分。在更细的级别上，添加细节和纹理。在这个任务中，不需要完整性，因此在公式2中设置了较大的α。图1显示了相同遮挡区域的不同颜色选择确实影响结果，同时保持连贯和视觉吸引力的图像。图像拼贴：这个任务在[30]中已经展示过，旨在无缝地将一组n个输入图像{xi}ni=1合并成一个单一的输出图像，以便在输出中不丢失来自输入图像的任何信息/补丁。我们通过首先简单地连接输入图像并将这个连接通过rN进行缩小来创建初始猜测˜yN+1。然后，我们使用与重定向相同的设计，只有一个变化-GPNN从所有源图像中提取补丁（而不是从单个源图像中提取补丁）。图9显示了GPNN生成的拼贴，这是从[30]中选取的一个示例。与[30]相比，我们的结果更清晰，更忠实于输入。图像编辑：在图像编辑/重排[27,30]中，对图像进行更改（移动对象，添加新对象，更改位置等），目标是在输出图像中无缝地融合变化。我们使用未编辑的原始图像作为源图像x，使用通过rN对编辑后的图像进行缩小的版本作为初始猜测˜yN+1。在这个任务中不需要完整性（例如，如果编辑删除了一个对象），因此我们将公式2中的α设置为较大值。与修复任务类似，我们的算法在编辑区域周围和内部的区域进行“修正”，以实现连贯性。在最粗糙的级别上可以添加噪声，以在给定单个输入的情况下允许不同的连贯解决方案。图10显示了我们的编辑结果与SinGAN的[27]进行对比。我们的结果倾向于更清晰。0更不模糊（尤其是在编辑区域周围可见）。05. GAN与补丁最近邻：优缺点0在第3节和第4节的实验中，与单图像GAN相比，GPNN在视觉质量和运行时间上都表现出明显的优势（同时具有可比较的多样性）。本节首先分析了这些简单经典基于补丁的方法（以GPNN为例）出人意料的固有优势的来源。然而，单图像GAN具有一些重要的能力，这些能力无法通过简单的补丁最近邻方法实现。因此，尽管我们的论文标题是“放弃GAN”...但是这些经典基于补丁的方法（包括GPNN）的固有局限性也被讨论了。优势基于补丁的方法相对于GAN的优势主要源于一个基本的根本差异：单图像GAN隐式地学习单个图像的补丁分布，而经典的基于补丁的方法显式地维护整个补丁分布（即图像本身），并通过补丁最近邻搜索直接访问它。这个基本差异带来了以下优势：视觉质量：通过补丁最近邻搜索产生的输出图像由直接从输入图像中提取的原始图像补丁组成。相比之下，在GAN中，输出是通过优化过程合成的。因此，GPNN生成的图像的补丁比GAN更忠实于原始输入补丁，这样就产生了更清晰的输出（几乎与输入一样清晰），并且具有更少的不希望的视觉伪影（请放大查看图5、10进行比较）。运行时间：由于没有进行训练，与GAN相比，基于补丁的方法的运行时间从几小时减少到几秒（表1）。此外，由于最近邻搜索可以独立并行地对不同的图像补丁进行，这自然地利用了GPU计算。视觉完整性：虽然GAN被训练用于产生高可能性的补丁（从某种程度上鼓励输出的一致性），但没有机制强制要求完整性（即鼓励输出图像中出现输入图像的所有补丁）。缺乏完整性进一步加剧了GAN自然容易遭受模式崩溃的倾向。相比之下，经典的基于补丁的方法可以明确地强制执行完整性，例如通过优化输入和输出图像之间的双向补丁相似性[30]，或者通过使用GPNN的补丁特定的归一化分数（公式（2））的无优化方式。InGAN[28]通过使用编码器-编码器方案和重构损失来成功将完整性引入GAN。然而，这是有代价的：生成的输出缺乏多样性。相比之下，GPNN能够同时促进完整性和一致性，以及大量的输出多样性。完整性和多样性之间存在固有的权衡。因此，公式（2）中的α参数为GPNN中所需的完整性程度提供了一个“旋钮”（根据具体的图像/应用）。尽管有了这种新的灵活性134670与GAN相比的GPNN，表1中的所有实验都使用固定的α进行了测试（为了公平起见）。视觉连贯性（逼真的图像结构）：传统基于补丁的方法的迭代最近邻搜索阻止了在输出补丁中形成不相邻的输入图像中的相邻补丁。这倾向于在输出中生成逼真的结构。相比之下，GAN中对连贯性的要求只是弱化的。生成器可能会在生成的输出中出现不相关补丁之间的接近，因为生成器是全卷积的，具有有限的感受野。生成器通常会生成具有高概率的缓解像素。这通常会导致不连贯的非逼真的图像结构和输入图像中不存在的伪影。请参见图5和项目网页中的示例。控制多样性与全局结构：高输出多样性与保持全局图像结构之间存在自然的权衡。在GPNN中，添加到输入图像最粗糙尺度的噪声的幅度σ提供了一个简单易用的“旋钮”，用于控制所需输出多样性的程度。它还在大多数多样性（高噪声）和全局结构保真度（低噪声）之间提供了一个自然的连续体。另一方面，GAN没有任何机制来控制全局结构的保持（尽管有一些归纳偏差倾向于隐式保持全局结构[36]）。虽然GAN可能支持一些离散的多样性水平（例如，[27]演示了2个多样性水平），但这种多样性是不可调节的。局部补丁泛化：传统的基于补丁的方法使用离散的补丁分布。另一方面，GAN学习了连续的分布。因此，GAN可以从学习的分布中高概率地生成新的补丁。这种能力在基于补丁的方法中是缺乏的。但是请注意，这种泛化的缺乏仅限于局部-即仅限于微小的7x7补丁。通过以非常不同的方式组合原始图像补丁，基于补丁的方法（如GPNN）获得了非常大的新全局结构多样性，这些多样性往往比SinGAN生成的多样性更具视觉意义，这一点已经通过我们的广泛评估（Tab.1，项目页面，图6）得到了证实。连续输出生成：神经网络是连续函数。潜在输入的微小变化会导致生成输出的微小差异。这使得潜在空间插值和其他平滑操作成为可能，例如单图像动画[27]或平滑调整大小动画[28]。相比之下，最近邻搜索在本质上是离散的。这阻止了在传统的基于补丁的方法中进行连续插值或动画。映射到补丁与映射到像素：在传统的最近邻方法（包括GPNN）中，最近邻搜索最大化了提取的补丁的质量，但不是最终输出像素的质量。输出图像的形成通常涉及重叠补丁的启发式平均。这可能会在基于补丁的方法中引入一些局部模糊。GAN判别器也会根据其感受野的大小来判断输出补丁。然而，由于生成器接收基于像素的梯度，它们可以直接为每个输出像素进行优化。GAN是“花哨的最近邻提取器”吗？有人认为GAN只是最近邻检索的复杂机制。在单图像GAN中，数据集足够小（来自单个图像的补丁），这为定量检验这一观点提供了绝佳机会。图11显示了同一输入图像（红色）的两个生成的随机实例，一次使用SinGAN（绿色），一次使用GPNN（紫色）。我们测量了生成补丁与其在输入图像中的最近邻之间的距离，并绘制了这些距离的直方图（RMSE）。我们对两个不同的输入图像重复了这个实验两次。在两种情况下，SinGAN生成了在输入图像中没有接近的新补丁。也就是说，GAN能够生成新的局部样本（在这种情况下-小补丁），超出了最近邻。然而，GAN的这种能力是以模糊和伪影的形式出现的（请放大查看）。相比之下，GPNN生成的样本对输入的保真度更高（直方图在零点处峰值），从而产生更高质量的输出图像。虽然它在生成新补丁方面的能力有限，但它确实展示了输出图像的大多样性。0图10.图像编辑：将一个经过简单编辑的图像注入到我们的PNN金字塔中。与[27]的结果相比。0在经典的基于最近邻的方法中（包括GPNN），最近邻搜索最大化了提取的补丁的质量，但不是最终输出像素的质量。输出图像的形成通常涉及对重叠补丁的启发式平均。这可能会在基于补丁的方法中引入一些局部模糊。GAN判别器也会根据其感受野的大小来判断输出补丁。然而，由于生成器接收基于像素的梯度，它们可以直接为每个输出像素进行优化。GAN是“花哨的最近邻提取器”吗？有人认为GAN只是最近邻检索的复杂机制。在单图像GAN中，数据集足够小（来自单个图像的补丁），这为定量检验这一观点提供了绝佳机会。图11显示了同一输入图像（红色）的两个生成的随机实例，一次使用SinGAN（绿色），一次使用GPNN（紫色）。我们测量了生成补丁与其在输入图像中的最近邻之间的距离，并绘制了这些距离的直方图（RMSE）。我们对两个不同的输入图像重复了这个实验两次。在两种

下载后可阅读完整内容，剩余1页未读，立即下载