基于随机回归的多条件图像生成

66 浏览量更新于2023-10-09 收藏 1.67MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

基于随机回归的多条件图像生成潜在丢失码杨和、Bernt Schiele和Mario Fritz德国马克斯·普朗克信息学研究所抽象。深度学习和概率建模的最新进展导致了图像生成模型的大幅改进一方面，生成对抗网络（GANs）已经贡献了高效的对抗学习过程，但仍然存在稳定性问题。另一方面，条件变分自动编码器（CVAE）模型提供了条件建模的良好方式，但遭受模式混合问题。因此，最近的工作已经回到简单和稳定的回归模型，是有效的生成，但放弃了采样机制和潜在的代码表示。我们提出了一种新的和有效的随机回归方法与潜在的辍学代码，结合了这两条线的研究的优点。此外，新的训练目标增加了训练分布的覆盖范围，从而在准确性和多样性方面优于现有技术。关键词：图像生成，提高多样性，一对多映射，非参数化1介绍许多计算机视觉和图形学问题可以被看作是一个条件生成问题。例如，当我们只看到人脸的形状或关键点时，通常，该生成过程不是确定性的，因为调节信息（例如，关键点）不足以挑出特定的面部。尽管这些模型的应用范围不同，但这些学习问题仍然具有很大的挑战性，因为需要一个有效的采样过程，以获得准确和多样化的样本，这些样本可以很好地模拟真实的条件分布。特别是，生成对抗网络（GANs）[1]近年来为这种高维输出空间的生成模型的最新发展做出了贡献-就像我们在图像中处理的那样。这些方法允许通过随机生成的潜在代码进行采样，并且对抗性训练导致高度准确和真实的样本。这些模型的普通版本缺乏条件抽样和这些方法的能力2Y.他，B. Schiele和M. 弗里茨火车测试训练对输出：输出：GT：输入：输入：邻居…辍学辍学潜在代码：{1，2，新代码：{1，2，…邻居分配…网络网络Fig. 1. 所提出的方法的流水线。我们提出了一个随机回归与潜在的辍学代码的图像生成，这是固定的训练过程中。在测试时，我们能够通过提供新的采样代码来生成更多的示例。此外，当数据分布足够密集时，考虑条件输入，通过采样多个邻居来进一步提高多样性。有了这些邻居，我们通过将采样的邻居分配给不同的网络分支来直接学习一对多映射。众所周知，训练是非常困难的，并且通常不能再现训练数据的全部多样性。条件变分自编码器（CVAE）[2]已经被引入来根据输入对潜在代码进行建模，并且通过概率公式已经显示出所生成的样本中的增加的多样性。这些模型往往训练起来更稳定，但仍然存在模式混合问题-当条件数据较弱时限制了成功。已经提出了一系列条件GAN（CGAN）模型[3-5]，其结合了 GAN 和 CVAE 的思想（ bicy-cleGAN [ 4] ， pix 2pix [ 5] ），从而实现了CVAE 的一些增加的多样性，但仍然存在GAN的一些稳定性问题。为了解决稳定性问题，最近提出了几种基于多选择学习（MCL）思想的模型[6]。本质上，这将条件生成问题重新表述为具有固定数量的输出样本的回归任务。这极大地提高了学习的稳定性，但是不能提取额外的样本，并且不存在表示样本的潜在我们提出了一种新的解决方案的条件图像生成任务，是稳定的训练，有一个潜在的代码表示，可以从中采样，并在准确和多样化的样本的结果。我们实现了这一点，在一个随机回归公式，辍学模式的条件是潜在的代码。新的训练目标增加了训练分布的覆盖范围我们在两个数据集上的实验结果表明，效率，准确性和多样性的改善。利用随机回归32相关工作使用CNN生成图像最近图像生成中最突出的方法是基于生成对抗网络（GANs）[1]的方法。在Goodfellow et al. 它用于从随机噪声中产生数字。此外，GANs被扩展到条件模型[3]，它根据用户给出的输入生成示例。条件GAN已应用于许多有趣的任务，如文本到图像合成[7，8]，从法线映射生成图像[9]，修复[10]或图像超分辨率[11]。特别是Isola等人 [5]在图像到图像翻译框架下考虑了一组图像生成任务，并将翻译任务表述为组合回归和对抗损失的优化，最终取得了显著的效果。Zhu等人。 [4]在图像到图像转换框架[5]中对潜变量的分布进行了建模，以生成多模态图像。感知损失[12，13]是图像生成中的另一个成功工具。Doso-vitskiy等人 [13]在训练期间将GAN和固定网络中激活差异的最小化相结合，以生成自然图像。除了比较感知网络的激活差异外，Johnson等人 [12]还计算了图像之间内容和风格的感知差异用于图像风格转移和超分辨率。最近，Chen等人。 [6]提出了级联细化网络（CRN），并将图像生成任务制定为感知相似性的回归问题。CRN从低分辨率特征图到高分辨率特征图逐步生成图像。因此，CRN在高分辨率无缝街景合成方面取得了巨大的成功语义标签多种图像合成非参数化。多项选择学习[14]从不同的分支产生多个结构化预测。在每次迭代中，仅更新具有最低损失的分支。Chen等人 [6]还在网络的最后一层生成了多个分支，并在CRN上应用MCL框架来生成各种示例。 Li等人 [15]提出了一种多样性损失函数，用于测量训练批次中生成的图像的视觉内容差异。通过最大化视觉内容差异，可以使用前馈网络获得具有相同风格但结构不同的多个或者，非参数方法[16其中，以邻为壑与我们的做法接近。刘等人[16]提出了一种用于面部超幻觉的两阶段方法，其中利用全局约束学习整体结构，并且局部约束发出面部的局部细节。Hays等人。 [17]提出了一个场景完成系统，该系统匹配200万个图像集中的查询图像。特别是，PixelNN由Bansal等人提出。[20]，这是一个两步基于示例的图像生成管道。他们首先利用CNN生成一个粗略的图像，然后从训练数据中搜索具有感知相似性的补丁级最近邻居[12]进行替换。通过对不同的最近邻进行采样，PixelNN可以产生多个不同的示例。4Y.他，B. Schiele和M. 弗里茨与上述作品的区别我们的方法侧重于设计一个有效的网络，并有效地生成多个例子。与[6，14]不同的是，我们将一对多映射强制到多个分支，而不是只更新一个分支。在网络架构方面，我们的模型能够通过在测试期间为我们的dropout采样新的潜在代码来发出比分支数量更多的示例（参见第3节）。①的人。虽然最近的PixelNN [20]能够为了合成具有多个输出的图像，在测试期间需要最近邻搜索过程，使得该方法不太适合于快速IM。年龄合成相比之下，我们的方法直接产生大量的图像。3方法尽管最近在生成对抗网络和条件变分自动编码器的交叉点上取得了进展，但提高稳定性和增加生成的多样性是正在进行的研究的主题。最近的工作已经显示出在回归框架中的条件图像生成的强有力的结果，其极大地提高了稳定性，但是附带了无潜在代码表示、无采样机制和输出中的有限多样性的警告[6]。我们寻求一个模型，产生准确和多样化的样本，这是稳定的训练，并提供了一个潜在的代码表示的采样机制。模型：我们提出了一个图像生成系统，它是基于随机回归与潜在的辍学代码，如图所示。1.一、虽然我们使用稳定代码来训练回归公式，但由于分支数量固定，我们并不将自己限制在固定数量的样本我们宁愿通过从随机向量z导出的dropout模式生成任意数量的分支。反过来，z是每个样本的特征，并且充当潜在代码表示。训练：我们对一组潜在代码进行采样我们最小化我们的新的测试：我们的模型可以使用上述训练潜在代码和新生成的潜在代码来生成任意数量的新图像。由于每个图像都与潜在代码相关联，因此这也允许额外的操作，如插值。3.1带潜在丢弃码的随机回归形式上，给定输入X，我们的随机回归模型产生多个输出{Yi}，其具有由从随机分布中提取的一组潜在代码{ z i }控制的不同的丢弃模式。图 2表示我们的随机模型，其中f1（·）和f2（·）由不同的卷积、非线性、线性或上采样操作组成。通常，d（·）是一种将潜在代码转换成二进制丢弃模式的函数，用于在我们的网络中选择特征。利用随机回归5CCC1（⋅）X2（⋅）Y1Y2…Y（1）（2）（）（⋅）…12图二. 基于潜在码的随机多分支模型。给定潜在码zi，我们的模型可以公式化为yi= f2（f1（X），d（zi））.（一）因此，f1在所有分支和样本之间共享，而f2取决于随机化的丢弃模式。在训练期间，我们固定潜在代码zi并对训练集执行回归。然而，除了使用训练潜在代码之外，我们还可以使用新代码在测试时生成更多示例传统dropout [21]随机选择所有通道和位置的特征图的激活。然而，这不会导致网络中的分支分离。因此，我们提出了通道式丢弃，与传统丢弃不同，它为所有位置选择相同的特征不同的通道通常编码不同类型的视觉线索，如颜色，部件或对象，如在理解神经网络的研究中所揭示的[22，23]。因此，我们的模型选择不同的视觉线索来产生具有不同视觉特性考虑具有大小为HXW的C个通道的特征图I∈RCXHXW，在第i个潜在码的位置（h，w）处的第c个通道的通道方式丢弃的前馈操作可以被描述为ziU（0， 1），Cd（zi）=.1、如果zi> r0，否则I（c，h，w）×d（zi）（二）O（c，h，w）=c，1 −r其中z i是第c个通道的潜在码的标量，r ∈（0，1）是丢弃比，O∈RC×H×W是我们丢弃的输出。有趣的是，我们能够在测试中执行两代图像之间的插值，如图所示。4，并且插值输出可以被描述为Y ij（a）= f2（f1（X），d（a·z i+（1 − a）·z j））。（三）3.2邻居增强损失函数为了提高多样性，我们提出了一个新的邻居增强损失函数，该函数相对于条件输入对邻居进行采样，如6Y.他，B. Schiele和M. 弗里茨MMM图1.一、我们利用采样的邻居来鼓励训练期间的多样性。我们通过将采样的邻居分配给不同的分支来更新网络的多个分支。我们首先基于最佳邻居描述一个更简单的损失函数（类似于MCL [14]），然后我们的邻居增强损失函数以增加多样性。最佳邻居损失随着我们的随机模型制定在方程。1，该方案生成n个假设{f2（f1（X），d（z i））|i = 1，2，…n}从相同的输入X.一个简单的版本将只更新具有最小损失的最佳分支。形式上，对于批次{（X m，Y m）|m = 1，2，…M}，其中大小M被定义为ΣML=m=1min1（fi（Xm），Ym），⑷我当rel（·）是L1-b时，在该pa par中，在Eq中定义d。6，和dfi（Xm）=f2（f1（Xm），d（zi））。邻居的损失更大。给定一个训练对（X0，Y0），我们首先对几个数据对{（X i，Y i）|i = 1，… 满足输入{Xi}的N }足够接近于X0，即， {dis（Xi，X0）<θ|i = 1，… N}个。我们直接近似P（Y）上的条件分布|X 0）在X 0by{（X 0，Yi）|i=0，1，… N}个。对于数据对{（X0，Y i）|i= 0，1，…N}和n个网络输出假设{fi（X 0）|i=1，… n}。我们将图像设计为在将采样图像作为基础事实提供给分支中的一个分支期间进行的图像处理。我们迭代地分配这些理想情况下，我们希望将每个样本Yi分配给其最佳假设f best（X0），其中损失l（f best（X0），Yi）小于任何其他假设。但是，在此条件下，可能有多个样本被分配给同一假设为了解决这个问题，我们设计了几个分配规则。首先，假设Y0分配给其最佳分支，因为（X0，Y0）是良好对齐的数据对，而其他是近似值。第二，因为每个分支只能有一个基础事实，如果同一个假设有多个样本，我们分配损失最小的样本。迭代地进行匹配，直到所有采样的邻居都被分配，并且输出匹配集合S0 ={（fi（X0），Yj）}。在应用邻居分配之后，神经网络被优化为标准反向传播[24]。我们在批{（X m，Y m）上用公式表示邻居增强损失函数|m = 1，2，…M}，其中邻居{Y j}为ΣMΣL=I（fi（Xm），Yj），（5）m=1（fi（Xm），Yj）∈Sm其中Sm是一个批次中第m个示例的匹配集。特别地，我们在本文中利用L1基感知损失[12，13]进行优化，即ΣI（X，Y）=λ i|Φ i（X）−Φ i（Y）|、（6）我其中λi是损失权重，Φi是网络Φ的第i个表示。利用随机回归7…1…13.3体系结构和参数共享222早期分割共享参数早期分割单独参数后期拆分单独参数图3.第三章。不同的网络架构之间的比较，以产生多个输出的说明。实线是确定性模块，虚线是随机模块。我们的回归模型应用通道式辍学分裂成一个多分支架构的网络。因为我们应用通道式dropout来为多个分支选择不同的特征映射，所以我们不必为不同的分支学习单独的参数，当我们增加网络分支的数量时，这不会增加任何模型的大小。其次，我们嵌入通道式辍学提前，而不是网络的结束，我们称之为“早期的split”的结构。“精确的映射”能够在更高维度上的两个工作中进行计算，这比图中所示的“复杂的映射”更有利于生成不同的示例。3.第三章。当去除我们的通道方式的丢弃时，我们学习不同分支的单独参数，并且因此我们的完整模型退化为“早期分裂，其中部分分离”设置。在这种情况下，可以简单地获得固定数量的输出，并且需要更多的参数来表示模型。与使用在本发明的工作[ 6]中的“分层”设置相比，仍然具有已经在中间层处的细节有助于生成不同的样本，我们在实验上示出这对于生成更多样化的图像是重要的。此外，我们的邻居增强损失函数可以应用于图中的所有区域。3.第三章。此外，CRN[6]是具有确定性后期分离网络架构并且不考虑邻居的我们的应用的“ 边缘” 。3.4讨论多项选择学习（MCL）我们的方法推广了具有采样邻居和随机回归的MCL方案[14]。MCL的一种产生高质量的多个输出的集成学习。在MCL [14]中，只有一个分支获得梯度来更新模型。因此，由于有限的参数共享，特别是在大量网络分支产生高度多样化的示例的情况下，学习模型不是那么有效。它还缺乏潜在代码表示和采样能力。18Y.他，B. Schiele和M. 弗里茨ITER4实验结果我们比较我们的方法条件图像生成的状态现有技术方法[4我们系统地比较了图中三种不同的体系结构选择。图 3 在不同损耗函数（CRN[6]，“S e p ar a t e”model和“S h ar e d”model）下沿着两个维度（准确度和多样性）进行。我们使用Caffe框架[25]实现了所提出的网络，源代码可以在https://github.com/SSAW14/Image Generationwith Latent Code上获得。4.1数据集和实施详细信息Oxford-IIIT Pet [26]：它包含3，868张猫和狗的图像，以及动物头部的边界框在我们的实验中，我们使用3，000张图像来训练模型，使用686张图像来测试模型，这遵循了以前的工作[20]。我们首先使用bound-in-g-oxes来封装模拟头，并将其大小调整为96 × 96像素。最后，我们利用PixelNet [27]来估计法线。LFW [28]：我们利用深度漏斗对齐的LFW数据集，并应用包含4，038和1，711个图像的peopleDevTrain/peopleDevTest分割来训练和评估性能。对于每个图像，我们首先使用MTCNN[29]人脸检测模型来提取人脸。接下来，我们使用TCDCN [30]为每张脸提取68个面部标志，并使用关键点的热图作为网络的输入对于所有的脸，我们将边界框区域调整为128×128像素，因此我们从大小为128× 128× 68的输入中生成128×128颜色的脸实作详细数据。我们使用Caffe [ 25]深度学习框架实现了我们的通道式丢弃和网络。我们将dropout ratio设置为r = 0。5对于我们实验中的所有通道式丢失对于所有模型，我们应用Adam[31]来优化我们的模型，并使用“poly”l学习策略，即当前学习率为lr init ×（1 − iter）幂。我们将功率设置为Max0.9初始学习率lrinit为1× 10- 4。我们将动物头部生成和面部生成任务的最大迭代次数分别设置为110，000和90，000。为了公平地比较单独的参数网络和共享参数网络，我们在相同的位置拆分特征表示或引入通道方式的丢弃。对于CRN和我们的模型，我们生成96× 96图像用于头部动物生成任务，并生成128×128图像用于面部生成。4.2从法线贴图在这个实验中，我们测试了三种架构：对于CRN和“Sep- ar at e”模块，我们可以使用具有2、4、8、20、30、40、50、72个字节的模块。对于我们的“共享”模式，我们将学习4、8、20、72个字节。利用随机回归9输入1插值2输入1插补2见图4。插值结果从所提出的架构，使用通道的辍学。z1以下的图像对应于相应的潜码。定量结果和分析。在准确性方面，我们应用均方根误差（RMSE）、SSIM[32]和FSIM [33]作为外观相似性的测量。此外，我们还使用以下6个评估标准评估了生成图像和真实图像的预测正常值的一致性[20，34]。我们报告了与强大的竞争方法pix2pix [5]，BicycleGAN [4]，PixelNN [20]和CRN [6]在nor的准确性上的性能。用生成的图像进行错误预测。对于所有这些方法[41. 我们将保留具有不同分支的我们的最终“共享”模型的性能。我们可以观察到，我们的模型有72个分支，取得了最好的性能。我们的4分支模型也比pix2pix [5]，BicycleGAN [4]和PixelNN [20]取得了更好的结果，比CRN [6]差6%。接下来，我们提供了不同架构的比较图，包括CRN、我们的“S e par at e”模块和我们的“S h ar e d”模块，其中具有如图1B所示的带通道的端口。五、在该图中，我们显示了在我们的实验中使用的所有9种评估方法的最佳性能。对于我们的“共享”模型，我们使用跟踪潜在代码和新采样的代码来生成100个输出。不同颜色的曲线显示了对不同数量的示例进行采样的性能首先，我们观察到，当分支的数量增加时，所有架构的最佳示例的性能逐渐增加。第二，我们可以看到我们的“S h are d”模型的性能在分支数量较大时更好，这意味着我们的模型即使在没有采样更多输出的情况下也可以在大量分支的情况下产生更好的结果。表1. 最佳生成图像的预测法线的比较。方法平均中位数RMSE 11。25 ◦22. 5◦ 30◦pix2pix [5]13.211.415.749.287.1 95.3BicycleGAN [4] 21.619.324.924.360.2 77.5PixelNN [20]13.811.916.646.984.9 94.1CRN [6]11.810.313.956.391.4 97.6我们的-412.410.914.552.990.0 97.0我们的-812.410.814.453.690.2 97.1我们的-2012.010.514.155.291.1 97.6我们的-7211.710.213.756.791.9 97.810Y.他，B. Schiele和M. 弗里茨回归CRN单独共享-4共享-8共享-20共享-720.210.20.190.180.170.16小越好0.580.560.540.520.50.480.46越大越好0.770.760.750.740.73越大越好0.1514.50 20 40 60 80100#输出越小越好0.4412.50 20 4060输出数量小越好801000.7216.50 20 4060输出数量小越好80 1001413.51312.5121211.51110.51615.51514.51411.50 20 40 60 80100输出数量越大越好100 20 40 60 80100输出数量越大越好13.50 20 40 60 80 100输出数量越大越好0.580.560.540.520.50.480.460.44回归CRN单独共享-4共享-8共享-20共享-720 20 40 60 80100输出数量0.930.920.910.90.890.880.870.860.850.84回归CRN单独共享-4共享-8共享-20共享-720 20 40 60 80100输出数量0.980.9750.970.9650.960.9550.950.9450.94回归CRN单独共享-4共享-8共享-20共享-720 20 40 60 80 100输出数量图五. 在Oxford-IIIT Pet数据集上评估最佳示例。第一行绘制外观相似性的评估图。底部两行显示了生成的图像和相关图像之间预测法线一致性的评估图。“R e g re ss i o n”模式根据我们的数据库进行更新。对于CRN和S e p a rate模型，我们学习了8个对于最好用彩色观看。0.450.40.350.30.250.2越大越好回归CRN单独共享-4共享-8共享-20共享-720 20 40 60 80100输出数量13.613.413.21312.812.612.412.21211.8小越好回归CRN单独共享-4共享-8共享-20共享-720 20 40 60 80100输出数量0.850.840.830.820.810.80.790.780.77越大越好回归CRN单独共享-4共享-8共享-20共享-720 20 40 60 80 100输出数量图六、在Oxford-IIIT Pet数据集上评价所有生成图像的平均性能最后，我们观察到红色，粉红色，蓝色和青色的线条总是变得更好。回归CRN单独共享-4共享-8共享-20共享-72回归CRN单独共享-4共享-8共享-20共享-72回归CRN单独共享-4共享-8共享-20共享-72回归CRN单独共享-4分享-8分享-72分享-20回归CRN单独共享-4分享-8共享-20共享-72最佳11.25o（正常）SSIM平均值最佳RMSE最佳均值（正常）最佳22.5o（正常）平均中位数（正常）最佳SSIM最佳中位数（正常）最佳30强o（正常）平均值22.5o（正常）最佳FSIM最佳RMSE（正常）利用随机回归11CRN个分开的共享平均距离0.80.70.60.50.40.30.20.10RMSESSIMFSIM181614121086420平均中值RMSE（正常）10.90.80.70.60.50.40.30.20.1011.25度22.5度30分最佳前10名图7.第一次会议。Oxford-IIIT Pet数据集上的最佳示例和前10个示例的比较对于RMSE、MEAN和MEDIAN，越小越好。对于其他测量，越大越好。4540 253520302515201510105504 8 207204 8 20 72分支机构数量见图8。Oxford- IIIT Pet数据集上的多样性评价。它报告最大距离和平均距离的平均生成的图像。见图9。通道压降与辍学生在每个块中，顶行示出了具有通道方向丢弃的网络的结果，并且底行示出了应用丢弃的结果。这意味着我们的基于潜在代码的回归模型使用新代码生成更好的示例，即使它们在训练过程中从未使用过为了进一步证明我们的模型所绘制的样本的整体质量，我们还分析了图1中的三个平均性能图。6关于外观相似性和正态预测的一致性。我们观察到，我们所有的“Shared”模型都与使用训练潜码的情况相比具有更高的性能。此外，我们还报告了前10个例子的性能与图中最好的一个比较。7.第一次会议。该图显示，前10个示例的平均性能与最佳数字非常相似，这是我们方法有效抽样的另一个证据。多样性分析。为了定量地评估多样性，我们计算所有生成的图像到其中心的最大距离和平均距离，并在图中呈现比较。8. 结果表明，早分裂比晚分裂改善了多样性，这在CRN [ 6]中使用。此外，该图还显示了我们的“S h ar e d”模型与我们的“Se p ar at e”模型的相似性，即使它具有较小的模型大小并且能够在测试时生成任意数量的示例。除了采样，我们还在图中显示。4使用Eq. 3. 对应的样本之间的平滑过渡到z1和z2给出了潜在代码确实用作有意义的表示的证据。482072482072482072CRN个分开的共享最大距离评分评分评分12Y.他，B. Schiele和M. 弗里茨了图 10个。该x_p_l_e和c_p_a_p_n使用复杂的方法[4- 6 ]来实现从地标生成面部。最好用彩色观看通道压降与典型的辍学传统的dropout [21]也可以用于我们的架构中。但是，它不能像我们的通道丢弃那样选择或拒绝整个特征通道。我们提供了我们的通道之间的比较辍学和传统的辍学在所提出的模型。图9示出了一些可视化结果，其清楚地表明，通道式dropout成功地选择了不同的特征，然后生成具有不同颜色的动物，而dropout生成更相似的动物头部。4.3从面部标志在这个任务中，我们从68个面部标志生成人脸。对于这两个模型，我们从网络中生成10个输出面。除了评估的架构，我们也测试我们的邻居分配策略，以提高多样性。在获得邻居之后，我们使用HSV颜色空间上的kmeans对邻居进行对于每个聚类，我们随机选择一个样本作为采样邻居。我们使用两个地标坐标之间的L1距离。定性比较。我们在图10中显示了生成的面。对于六个块中的每一个，左边的两个图像示出了面部标志和对应的图像。接下来是pix2pix [5]，BicycleGAN [4]，CRN [6]和我们的“S hared d”模型的结果。最好的是让我们来看看“numeral“的例子，中间的方块显示了当前困难的标志，底部的方块显示了困难的例子。在上面的两块中，我们观察到我们的模型不仅能够生成具有不同皮肤的人脸，而且还能够生成具有不同身份或性别，或具有不同局部细节的人脸。虽然基线利用随机回归13表2. LFW数据集上人脸图像生成的精度比较。我们报告了四个测量的平均值和最佳性能（平均值/最佳值）。方法邻居RMSESSIMFSIM地标pix2pix [5]9.952/9.6490.696/0.7080.749/0.7551.913/1.645BicycleGAN [4]9.948/6.8560.621/0.7150.725/0.7581.704/2.197CRN [6]9.107/5.4140的情况。705/0 7670的情况。760比0。7791 .一、697/1. 452我们的CRNJ8. 第612/5号3090.687/0.7630.754/0.7771.863/1.440我们的（单独）8.871/5.5280.704/0.7610的情况。755/0 7791 .一、718/1 308我们的（单独）J9.034/5.7680.678/0.7570.748/0.7741.915/1.442我们的（共享）8. 908/5 2690.701/0.7620的情况。757/0 7791.728/1.365我们的（共享）J8.956/5.6790.686/0.7640的情况。753/0。7791.864/1.453CRN [6]只是生成具有非常相似结构的人脸，甚至不同颜色的皮肤也被覆盖。其次，与pix2pix [4]和BicycleGAN [4]相比，它们试图应用GAN来生成逼真的人脸，我们也生成了质量更好的人脸。虽然BicycleGAN可以生成许多视觉上逼真的人脸，但由于其不稳定的训练，它也会生成一些非常差的结果。最后，通过观察最后一行，我们甚至可以在困难的情况下生成可信的面孔。精度分析。我们评估了我们的方法并与pix2pix[5]和CRN [6]进行了比较。对于pix2pix[5]和BicycleGAN [4]，我们使用作者提供的默认设置运行代码，除了将训练epoch从200增加到300.对于CRN，我们使用与我们相同数量的特征图和分支。为了准确起见，我们应用根RMSE，SSIM [32]和FSIM [33]来评估生成的面部和地面真实面部之间的外观相似性。此外，我们还在生成的面部上运行地标检测器[30]，并比较检测到的地标和地面真实地标的准确性。通过每个预测点到由图像的宽度归一化的地面实况的距离的总和来测量地标的准确性我们报告了10个输出中的最佳性能以及平均性能，如表2所总结。从表2中，我们可以观察到，我们的模型和CRN在最佳性能和平均性能的所有四个指标中都比pix2pix和BicycleGAN实现了更好的性能，这得益于级联细化网络架构和感知损失的有效性。与CRN相比，我们的“S化ared”和“S化arat e”模块的总体性能在四个度量中是可比较的。即使在应用邻居增强损失函数之后，定量性能在SSIM和地标准确度方面略有下降，但下降幅度也很小，并且我们发现我们的方法可以在视觉上生成更好的面部，如图1B所示。10个。多样性分析。为了量化来自相同地标的多个输出的多样性的测量，我们计算不同水平的标准差从[35]的面部表示和从[36]的面部识别的身份嵌入。表3列出了竞争方法的得分。显然，我们的“Sepa-r at e”和“Shar edd”模型与C R N [ 6]相比具有更好的性能。此外，我们还观察到，对于CRN、“S e p ar at e”和“S h ar edd”模式，标准差得到了一致且显著的改善，其中新应用了您的工具14Y.他，B. Schiele和M. 弗里茨最佳FSIM表3. 来自[35]的卷积特征的标准偏差和来自[36]的身份嵌入。对于所有值，越大越好。方法邻居pool1 pool2 pool3 pool4FC5identitypix2pix [5] 0.1340.359 0.364 0.193 0.3700.6600.780.760.740.780.7750.770.7650.72 0.760.72 46多样性0.7552 4 6多样性见图11。LFW数据集上的准确度-多样性图。多样性得分是表3中所有表示的林分偏差的总和。增强损失函数。它清楚地表明，分配采样邻居的有效性特别地，最近提出的BicycleGAN模型在池1、池2、池3和身份上具有最佳得分，但是BicycleGAN的准确性与我们的生成结果不可更重要的是，多样性和准确性往往是一个权衡。为了清楚地观察这种关系，我们在图1中绘制了准确度-多样性散点图。11、谁的右上角最好。结果表明，我们的随机回归模型和邻居增强损失函数都有助于产生更多样化的例子，同时保持相当的准确性。5结论在本文中，我们提出了一种新的图像生成方法，它学会从一个条件输入产生多个不同的例子我们已经测试了我们的方法上的任务，从面部地标和动物头部从正常的地图生成人脸基于一系列消融研究和与最先进的图像生成框架的比较，我们通过对相邻示例进行采样来证明实施多样性的有效性，并通过引入通道丢弃来随机选择特征图以生成各种风格和结构的准确和多样化的图像来证明我们的网络架构的效率最佳SSIMPix2pixBicycleGAN CRN我们的（单独）我们的（共享）CRN+邻居我们的（单独）+邻居我们的（共享）+邻居BicycleGAN[4]0.428 0.817 0.7160.3500. 6962.055CRN [6]0.198 0.337 0.350 0.186 0.3891.098我们的CRNJ0.272 0.549 0.591 0.322 0.6691.299我们的（单独）0.225 0.491 0.551 0.302 0.6101.235我们的（单独）J 0.2760.5960.6400.353 0.7331.427我们的（共享）0.210 0.422 0.471 0.259 0.5231.198我们的（共享）J0.310 0.591 0.617 0.322 0.6701.370利用随机回归15引用1. 古德费洛岛Pouget-Abadie，J.Mirza，M.，徐，B.，沃德-法利，D.，Ozair，S.，Courville，A. Bengio，Y.：生成性对抗网。在：NIPS。（2014年）2. Sohn，K.，李，H.，Yan，X.：使用深度条件生成模型学习结构化输出表示。在：NIPS。（2015年）3. Mirza ， M. ， Osindero ， S. ：条件生成对抗网。 ArXiv 预印本 arXiv ：1411.1784（2014）4. Zhu，J.Y.，张，R. Pathak，D.，Darrell，T.，埃夫罗斯，匿名戒酒会Wang，O.，Shechtman，E.：走向多模态图像到图像翻译。在：NIPS。（2017年）5. Isola，P.，Zhu，J.Y.，周，T.，Efros，A.A.：使用条件对抗网络的图像到图像翻译。在：CVPR中。（2017年）6. 陈昆，Koltun，V.：使用级联细化网络的摄影图像合成。In：ICCV.（2017年）7. Reed，S.，Akata，Z.，Yan，X.，洛格斯瓦兰湖Schiele，B.，Lee，H.：生成对抗文本到图像合成。在：ICML。（2016年）8. 张洪，徐，T.，Li，H.，Zhang，S.，（1991），中国农业科学院，黄，X.，王，X.，Metaxas，D.：Stack- gan：使用堆叠生成对抗网络进行文本到照片级逼真图像合成。In：ICCV. （2017年）9. 王，X.，Gupta，A.：使用风格和结构对抗网络的生成图像建模In：ECCV. （2016年）10. Pathak，D.，Krahenbuhl，P. Donahue，J.，Darrell，T.，Efros，A.A.：f：通过修复进行特征学习。在：CVPR中。（2016年）11. L edig ， C. ，这是 LHusza'r ， F. ， Caballero ， J. ， Cunningham ， A.Acosta，A. Aitken，A. Tejani，A.，托茨，J.，王志，等：使用生成对抗网络的照片级真实感单幅图像超分辨率arXiv预印本arXiv：1609.04802（2016）12. Johnson，J.，Alahi，A.，李菲菲：实时风格转换和超分辨率的感知损失。In：ECCV. （2016年）13. Dosovitskiy，A.，Brox，T.：基于深度网络生成具有感知相似性度量的图像。在：神经信息处理系统的进展。（2016）65814. Guzman-Rivera，A. Batra，D.，Kohli，P.：多项选择学习：学习产生多个结构化输出。在：NIPS。（2012年）15. 李，Y.，方角杨杰，王志，卢，X.，Yang，M.H.：用前馈网络实现多样化纹理合成。（2017年）16. 刘，C.，沈惠英弗里曼，W.T.：面容幻觉：理论和实践IJCV（2007）17. Hays，J.，Efros，A.A.：使用数百万张照片完成场景。In：SIG- GRAPH.（2007年）18. 埃夫罗斯，匿名戒酒会梁振英：基于非参数采样的纹理合成。In：ICCV. （1999年）19. 埃夫罗斯，匿名戒酒会弗里曼，W.T.：图像绗缝纹理合成和转移。在：SIGGRAPH. （2001年）20. Bansal，A.，Sheikh，Y.，Ramanan，D.：Pixelnn：基于示例的图像合成。ICLR（2018）21. Srivastava ， N. ，辛顿通用电气 Krizhevsky ， A. ，萨茨克弗岛Salakhutdinov，R.：Dropout：防止神经网络过拟合的简单方法JMLR（2014）22. Zhou，B.，（1991年），中国地质大学，Khosla，A. Lapedriza，A.Oliva，A.，Torralba，A.：目标检测器出现在深场景cnn中。In：ICLR.（2015年）16Y.他，B. Schiele和M. 弗里茨23. 鲍德Zhou，B.，（1991年），中国地质大学，Khosla，A.Oliva，A.，Torralba，A.：网络解剖：深层视觉表征的量化解释性。在：CVPR中。（2017年）2

下载后可阅读完整内容，剩余1页未读，立即下载