改善复杂场景中细节的生成对抗网络

177 浏览量更新于2023-10-15 收藏 1.19MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

13950Detail Me More：改善GANRaghudeep GaddeAmazon千里峰亚马逊Aleix MMartinezAmazon图1：100万像素的客厅合成图像使用所提出的方法生成的图像，具有5个用于沙发、椅子、咖啡桌、茶几和灯的细粒度放大以查看与以前的生成模型相比场景中对象细节的改进的照片真实感。摘要生成模型可以合成单个对象的照片级逼真例如，对于人脸，算法学习对面部组成部分的局部形状和阴影进行建模，即，眉毛、眼睛、鼻子、嘴巴、下颌线等的变化。这是可能的，因为所有的脸都有两个眉毛，两个眼睛，一个鼻子和一个嘴巴，大约在相同的位置。然而，复杂场景的建模更具挑战性，因为场景组件及其位置随图像而变化。例如，起居室包含属于许多可能类别和位置的不同数量的产品，灯可以存在或不存在于无限数量的可能位置中。在目前的工作中，我们建议在生成对抗网络（GAN）中添加一个代理的任务是调解在适当的图像区域中使用例如，如果在场景的特定区域中检测到或想要灯这允许生成器学习灯的形状和阴影模型结果- ING多细粒度的优化问题是能够synn- thesize复杂的场景，几乎相同的水平的照片，真实感作为单一的对象图像。我们在几种GAN算法（BigGAN，ProGAN，StyleGAN，StyleGAN2），图像分辨率（2562到10242）和数据集上证明了所提出的方法的可生成性。我们的方法产生了显着的改进，国家的最先进的GAN算法。1. 介绍近年来，由生成对抗网络（GANs）合成的图像的照片真实感的改进是非凡的。我们现在有算法可以合成人脸，身体，猫，狗，汽车和其他对象类别的高分辨率图像，结果基本上与未经训练的眼睛的真实照片无法区分[20，21，22，19，36，2，3，10，38]。然而，这些合成图像的高保真度并不转化为具有多个和变化的对象类别的复杂场景的生成[6，40]。例如，GAN生成的客厅和城市街道的图像虽然很好，但即使是未经训练的眼睛也很容易与真实照片区分开来。经典的（香草）单鉴别器GAN足以帮助生成器估计单个对象类（如人脸）的潜在分布。在这种情况下，底层分布对大致位于相同空间位置处的面部分量的形状和阴影变化进行建模。但是，单个鉴别器GAN更难帮助生成器识别对所有可能的图像位置中的所有可能的对象的形状和阴影变化进行建模的底层分布。本论文推导出一个解决这个问题的方法我们的主要贡献是在GANs中包含一个例如，当生成起居室的图像时，经纪人可以决定使用沙发鉴别器、咖啡桌鉴别器、13951×× ×L−图2：DMM-GAN概述。代理将多个细粒度鉴别器分配给生成的图像。和落地灯鉴别器，图1。代理还将决定每个鉴别器应用于哪些图像像素。沙发鉴别器可以被分配给图像中间周围的几个像素，咖啡桌鉴别器被分配给略低于该像素的像素，并且落地灯鉴别器被分配给这两个像素的左侧。为了做出上述确定，代理调解全图像鉴别器的结果和细粒度鉴别器的结果。图2提供了概述。例如，全图像鉴别器可以专门用于整个房间的设计，而细粒度鉴别器专注于房间的不同元素（如沙发、咖啡桌和灯）的照片真实感。然而，请注意，我们的方法是通用的，允许其他替代配置。例如，全图像鉴别器可以是表示该类型场景中不同对象之间的相互关系的图[18，14，39]。类似地，细粒度鉴别器可以由表示样式或对象相似性的嵌入空间等引导[30]。我们展示了所提出的方法在BigGAN，ProGAN，StyleGAN和StyleGAN2上的一般使用。在每种情况下，这些GAN算法都被扩展到包括我们的代理模块，其中包含多达五个细粒度判别器。在所有情况下，经纪人模块的添加产生了相对于FID分数的统计上显著的改进。在 BigGAN 上，添加我们的模块可以提高73.9% 。在 ProGAN 上为 16.8% 。在 StyleGAN 上为35.1%。而在StyleGAN2上，则提高了25.6%。至关重要的是，我们表明，FID分数显着改善例如，在起居室合成图像中，包含沙发或灯的图像块中的像素的FID分数看到与前面段落中详述的那些相当的改进这使我们能够生成复杂的场景与不同数量的对象在不同的姿态，规模和位置，同时保持其真实性，图1。如在该图中的样本图像中看到的，整体场景看起来非常逼真，并且不包含在先前算法的结果中看到的典型的大我们在多个图像分辨率（256 256至1024 1024）和三个数据集（LSUN[ 43 ]，Cityscapes [ 9 ]和新收集的1MP客厅图像数据集）上显示了这些改进我们的方法允许一个成功的培训与定性和定量-初步良好的照片逼真的结果。2. 方法2.1. 单鉴别器GANs经典GAN由生成器网络G（. ）与相关损失函数L_G和鉴别器网络D（. ），并具有相关的损失LD。最初提出的损失是LD= Expx [log D（x）]+Ezpz [log（1 −D（G（z）]和G=Ezpz[log（D（G（z）]，pz是潜在空间上的先验分布，px是非潜在空间上的分布。年龄空间[13]。从那时起，许多替代损耗函数[4，25，26，27]和G（. ）及D（. ）已被定义[20，21，22，5，19，36]。GAN的其他成功扩展包括添加：- 注意模块[32，44]，用于指定图像的哪个区域需要被编辑，例如，局部编辑面部图像上的表情，b.嵌入空间，用于控制归一化层[17，22]，例如，通过将特征的均值和方差与样式特征的均值和方差对齐，以及C. D上的Lipschitz连续性（. ）[28，34，45]，正交正则化到G（. ）[12，5]，及其他[15，33，26，41，23，7]。在接下来的部分中，我们推导出一种使用多个细粒度鉴别器的替代我们称之为DMM-GAN（Detail MeMore GAN）。该方法是通用的，并且可以与上述任何扩展组合。尽管我们可以推测-13952^^^^ ^您的位置：^^^Ln0的X Y XYj=1∼^^^ ^您的位置：^YY^，^，Y^（Y我IJM通常使用多个鉴别器来改善对象部分的照片真实感（例如，人类面部的眼睛或嘴巴），单鉴别器GAN已经擅长这项任务。我们的目标是使用多个鉴别器来提高复杂场景的照片真实感，其中单鉴别器GAN的结果很容易区分为合成图像。2.2. 多鉴别器GANs我们开始扩展的经典（香草）discrimina- tor上面定义的细粒度的歧视。设D k（. ），k=1，. . .表示p个鉴别器。每个Dk（. ）用于改善由G（. ）的情况。例如，如果我们正在建模客厅，则这些细粒度鉴别器集中于沙发、椅子、咖啡桌、茶几、灯等的照片真实感，分别地。注意，这些细粒度鉴别器Dk（. ）可以用于多个图像位置。例如，如果起居室场景包含两把椅子，则椅子鉴别器将应用于我们希望绘制两把椅子的像素设第k个细粒度判别式的损失函数为相同数量的真实图像和合成图像，我们从Xk中选择与Yk大小相同的子集Xk，即，XkXk，其中|=的|Yk|、|一|集合A的基数。|the cardinality of the setA.我们最终能够在D k（上进行向前传递。）使用集合k和k，即，Dk.向前传递（k，k）。我们接着计算损失k。然后，我们用损失的梯度进行反向传递，即，Dk.反向传递（Lk）。这些细粒度的鉴别器使我们能够提高复杂场景中不同元素的照片真实感。这产生了复杂场景的改进的照片般逼真然而，我们仍然需要定义一种方法来分配这些鉴别器到他们适当的图像局部。我们通过将一个新的代理模块合并到GAN来做到这一点。2.3. 代理模块设D0（. ）表示应用于整个图像的鉴别器，即，复杂的场景。该鉴别器的任务是使用真实照片的训练集X0={X0j}j=1来学习图像中的对象和背景元素的分布。其损失函数为L0。我是Lk。并且，令Xk={X kj}nk，其中X kj是n k个对象类别D k（. ）专门研究。然而，学习复杂场景的底层分布是非常困难的任务。我们使用函数f（. ）上面定义的方法来帮助解决问题。我们称之为com-类似地，令Y={Yi}m是合成（gen-I）的集合。图像，其中i=1Yi=G（zi），zipz. 注意这两个网络组件的组合，D0（. ）和f（. ）的情况下，代理模块。Xkj是单个对象的图像，而Yi是具有多个对象的复杂场景的图像这个新的GAN模块工作如下。第一G（. ）gen-生成m个合成图像。形式上，Y={G（z）}，因此，接下来，我们需要识别图像的像素（或区域）。与ii=1每个细粒度感兴趣对象所在的合成图像。为此，我们定义函数zipz。然后，f（. ）用于识别对应于可能的p中的一个的任何可能的区域（或像素对象类。f（Y）=，.Y^，kΣ，qi（一）关键是要注意降低概率的阈值。检测这些对象类的能力将允许函数f（. ）来引导生成器与其识别属于细粒度猫的区域Yij。埃戈里·K·ij。这意味着（Y ij，k ij）包含一个与Xkij，kij∈[1，p]的类相同的对象。例如，Yi可以是居住房间的图像，并且Yi可以是居住房间的图像。这些物体。这是因为一旦f（。）将图像区域分配给类别k，细粒度鉴别器Dk（. ）上签名。这将强制生成器合成对象的更具照片真实感的版本。因此，如果我们想要合成图像，主要类似于沙发的像素，Yi2咖啡桌的像素，并且Yi3灯的像素训练集中的场景x0，我们可以设置一个很大的阈值在上面，f（. ）通常是可微函数由深度神经网络给出。我们现在可以将集合k定义为对应于对象类的合成图像K. 从形式上讲，f（. ）为每个区域分配细粒度的鉴别器的图像。但是如果我们想要f（. ）以具有更大的影响力，我们将降低该阈值。该阈值介导D0（. ）和f（. ）的情况。因此，经纪人这个名字2.4. DMM-GANk=YijIJ并且k = 1，. . . ，p.，kij（二）=k）我们终于可以定义训练算法了。我们的方法是通用的，并且可以应用于任何GAN架构/拓扑、损耗等。本文将D k的任务（。）的目的是区分X，k中的真实照片和Y，k中的合成图像。为了显示了将建议的代理模块添加到BigGAN、ProGAN、StyleGAN和StyleGAN2的示例。因为它是IJj=113953LY{}^^ ^您的位置：ΣL^ ^您的位置：QI^^{}YL^ ^您的位置：、、、j=1∼^ ^您的位置：^其中zp。然后我们做一个前围传球ZZk的m个图像的随机抽取的子集。如上所述，我们的方法是通用的，并且与8：令是Mi=1nk^ ^您的位置：i=0时IJ通常在GAN中完成，我们使用大小为m的小批量来训练我们的。在我们的方法中，在每次迭代训练时，我们从先验分布中随机抽取m个潜在向量。M发电机损耗G需要被修改以包括全局和细粒度鉴别器的梯度。例如，扩展极小极大损失产生Σ潜在空间，即， zi pz，i = 1，. . . 、m. 然后我们计算=G（zi）i=1。接下来，我们使用全图像判别器D〇（. ）的情况。也就是说，D0.向前传递（X0，Y），其中是X中的m个图像的随机选择的子集，LG=−Ezpzλ0log（D（G（z）+pλilog（Dk（f（G（z）k=1（四）也就是说，X0X0标准差|=的|Y|.|.现在我们可以计算损失函数L。这允许其中Σpλ i= 1。总结了总体算法0我们在D0（. ）来训练鉴别器，即，D0.向后传球（0）。然后，我们要确定每个细粒度的分布-犯罪分子必须加以利用。这是由上一节中定义的bro-ker模块完成的。具体地，我们应用f（Y i），其中Y i=G（zi）。这产生了集合（Yij，kij）j=1，这允许我们计算p个集合k，如上所述。我们使用一个前向在算法1中。算法1用于训练DMM-GAN的伪码。一曰：设G（. ）是GAN2：让G是G的损失（. ）的情况。3：设D k（. ）是GAN的鉴别器网络，k = 0，. . .，p，其中D0（. ）全图像鉴别器和D1（. ）到D p（. ）细粒度鉴别器。第四章：令Lk是与Dk（. ）的情况。第五章：令Xk={Xkj} 是用于计算的ηk个样本照片。传递，计算其损失，并对火车D k（.）的情况。j=1损失的梯度。也就是说，Dk.前向传递（Xk，Yk），计算Lk，然后Dk.后向传递（Lk），其中X^k是一个X6：设m为最小批量大小。7：设pz为潜在空间先验分布。=G（zi）是一套合成的任何损失函数。尽管如此，损失确实需要扩展到与多个鉴别器一起工作。例如，我们可以很容易地将原始的极大极小损失扩展为：年龄，zipz，i = 1，. . . 、m.9：设{（Yij，kij）}qi=f（Yi）为上的qi个图像区域其中，我们希望用Dkij来提高照片真实感。Lk=Expxk[logDk（x）]+10：令Y^k=，Y^ij，，kij.=k）Ezpz [log（1−[Dk（f（G（z）]k）]（3）十一：而训练做12：zipz，i = l，. . . 、m.M其中pxk 是k个细粒度类的分布，日十三：Yi={G（Zi）}i= 1。并且[f（Dk（G（z）]k是细粒度的图像块。14：X^0X0s.t. |X^0|=的|Y^|.K类注意，当k=0时，该等式简化为原始损失对于k >0，损失对应于每个细粒度局部鉴别器。一种可能的替代方案是使用鉴别器损失，其中在每次迭代中，每个鉴别器的贡献由概率给出[29]。这种方法和其他方法[11，1]被要求稳定训练并避免模式崩溃。我们的方法没有遇到这些问题，因此决定不使用它们。我们的方法侧重于如何提高照片真实感，而不是如何提高训练，但我们的配方也有这个优势。最后，我们需要在生成器上执行向前和向后传递如在[22]中，我们发现对潜在向量进行重采样可以改善训练。因此，我们生成一个新的集合Mii=1iz计算损失，并对其梯度进行反向传递。也就是说，G.forward pass（Z）和G.backward pass（LG），其中我们可互换地使用G.forward pass（）和G（）。Σ13954^Y^ ^您的位置：∼^^^23：Z^={z（i）}15：D0.向前传递（X0，Y）并计算L0。16：D0.向后传球（L0）。17：计算k，k= l，. . . ，p.18：对于k=l至p，do M19：Xk={Xki}i=1XkiXk，XkiXkji= j.20：Dk.向前传递（Xk，Yk）并计算Lk。21：D k.向后传递（Lk）。22：重采样zipz，i=1，. . . 、m.Mi=124：G.向前传递（Z）并计算LG。25：G.向后通过（LG）。2.5. 实现细节在本节中，我们提供了所提出的算法的实际实现在我们的几个实验中，我们使用GAN来估计客厅图像的分布为生13955×个×个房间是属于诸如沙发、咖啡桌、茶几、灯等类别的对象的集合。因此，在这种情况下，我们的细粒度类将关注这些类型的对象。即，D1（. ）将是沙发的细粒度鉴别器，D2（. ）咖啡桌的细粒度鉴别器，等等。这意味着我们需要在真实照片和合成图像中检测这些对象。我们可以使用对象检测算法来实现这一点，如f（. ）的情况。在本文中，由于其计算效率和高精度，我们使用YoLo V3 [35]。我们使用一组7，600张起居室的图像来预训练这个对象检测器模型，其中每个“沙发”，“咖啡桌”，“椅子”，“茶几”和“台灯”周围都有手动注释的边界框我们使用6,100张图像进行训练，1,500张用于验证。对于使用Cityscapes数据集[9]对街道场景分布进行建模的实验，我们使用在COCO [24]上调整的检测器，并使用它来检测人，汽车，公共汽车和卡车。我们将每个类别的检测概率阈值设置为。4在所有数据集上。回想一下，这是代理用于在全局和细粒度鉴别器之间进行调解的阈值。在我们的实验中，我们估计训练集上边界框的中值尺寸，并使用最接近2的幂的尺寸。细粒度对象类的最小和最大大小的实验产生了较差的结果。例如，为了合成起居室的1MP图像，我们使用大小为512、256、256、128和128的正方形裁剪分别用于表示沙发、咖啡桌、椅子、茶几和灯的这意味着由YoLo给出的为了以较低的分辨率合成图像，我们通过适当的比例因子缩放这些尺寸。我们在PyTorch [31]中实现了DMM-GAN，并扩展了BigGAN1，ProGAN和StyleGAN2以及StyleGAN 23的常用代码库。当在我们的方法中使用这些网络中的一个时，我们在前面添加DMM，以指示算法现在包括本文中描述的代理模块和细粒度鉴别器，即， DMM-BigGAN，DMM-ProGAN，DMM-StyleGAN，DMM-StyleGAN2在我们所有的实验中，我们使用默认的学习率，优化器和分辨率特定的模型容量。为了在相对较小的GPU上进一步稳定DMM-BigGAN的训练，我们添加了[42]的正则化器我们还提供了与BigGAN de-扩展的比较结果1https://github.com/ajbrock/BigGAN-PyTorch2https://github.com/genforce/genforce3https://github.com/NVlabs/stylegan2-ada-pytorch网站在[36]中描述的称为Unet-BigGAN4，并且使用[19]的Style-GAN扩展称为MSG-StyleGAN5。在[20，21，22，19]之后，我们报告GAN看到的真实图像的总数以指示训练时间。我们调整直到看到2500万张真实图像。与之前的工作类似，我们选择在训练期间获得最低FID分数的模型实验在AWS服务器8个V100−32GBGPU。3. 结果3.1. 数据集我们提供了三个数据集的实验结果：LSUN [43]、Cityscapes [9]和一个名为DeepRooms的室内房间高分辨率、高质量图像的新数据集。对于LSUN实验，我们使用起居室图像。这些图像的最短边是256像素。为了与以前的工作保持一致，我们总是裁剪256 256像素的中心窗口。该数据集已广泛用于生成模型，并允许与最先进的模型进行许多比较。在这里，我们使用1.3M客厅图像来训练第2.5节中定义的GAN模型。此外，我们从多个站点收集了100K 1MP客厅图像的数据集这些是高质量的舞台产品图像。这些图像的高分辨率和专业外观使得生成模型获得与真实照片相当的图像成为一个更具挑战性的问题。最后，Cityscapes是从50个不同城市的汽车中记录的街道场景的立体视频序列的数据集。虽然前两个数据集对应于室内场景，但Cityscapes提供了一种方法来测试所提出的算法在室外场景中的我们使用从居中的作物拍摄的1，024 1，024像素的25K图像。对于每个数据集/实验，使用相同的数据集训练所有算法。3.2. 定量评价评估合成图像的照片真实感的常用方法是计算Frechet起始距离（FID）[16]。在我们下面的实验中，我们报告了在三个数据集上获得的几个FID分数。首先，对于第2.5节中描述的每个GAN算法，我们计算一组50K图像的FID分数我们将该分数称为FID-50 K[5，20，21，19]。第二，我们报告FID-无穷大评分[8]。一些研究者更喜欢这种度量，因为它不太可能被用于计算FID分数的样本数量所偏置。4https://github.com/boschresearch/unetgan5https://github.com/akanimax/msg-stylegan-tf13956场景沙发茶几椅子茶几台灯BigGAN 114.2±1.56 −Unet-BigGAN 47.3±0.33 54.1±0.44 68.3±0.81 71.0±0.62−DMM-BigGAN29.8±0.26 18.1±0.06 20.8±0.09 21.4±0.11 35.3±0.31 22.6±0.14ProGAN 12.5±0.11 12.3±0.19 12.6±0.15 18.2±0.16 22.5±0.48 20.3±0.21DMM-ProGAN10.4±0.04 11.1±0.11 11.1±0.09 16.9±0.11 21.5±0.31 17.8±0.16StyleGAN 5.7±0.02 9.5±0.07 8.0±0.08 10.3±0.07 26.1±0.31 12.9±0.11MSG-StyleGAN 4.6±0.01 7.6±0.04 7.1±0.06 9.1±0.06 24.9±0.41 11.6±0.19DMM-StyleGAN3.7±0.02 5.3±0.05 5.5±0.03 7.7±0.09 19.0±0.26 9.2±0.24型号GAN2 4.3±0.03 6.5±0.04 6.4±0.03 8.2±0.08 21.7±0.27 10.5±0.29DMM-StyleGAN23.2±0.02 4.9±0.02 5.3±0.04 6.9±0.03 17.1±0.11 8.1±0.05BigGAN 105.1±1.08 −UnetGAN 43.1±0.20 49.9±0.21 62.5±0.37 68.1±0.33 − −DMM-BigGAN24.9±0.19 16.2±0.06 17.9±0.08 18.6±0.1 32.1±0.17 19.6±0.13ProGAN 9.8±0.05 9.9±0.07 9.8±0.08 15.1±0.05 19.2±0.13 17.0±0.12DMM-ProGAN7.1±0.03 7.3±0.05 7.4±0.06 13.3±0.04 17.1±0.11 14.9±0.10StyleGAN 2.3±0.02 4.4±0.04 8.1±0.08 9.2±0.06 20.1±0.19 12.6±0.09MSG-StyleGAN 2.1±0.01 4.1±0.03 7.6±0.06 8.0±0.05 18.9±0.15 11.1±0.09DMM-StyleGAN1.7±0.01 3.6±0.03 6.5±0.04 7.1±0.03 16.9±0.08 9.7±0.08型号GAN2 2.1±0.01 4.0±0.02 6.9±0.02 7.5±0.01 17.6±0.07 9.7±0.03DMM-StyleGAN21.5±0.01 3.4±0.02 6.1±0.03 6.9±0.02 16.2±0.13 8.4±0.02表1：256 × 256像素的LSUN起居室合成图像的结果。FID↓：数值越低越好。StyleGAN 9.2±0.07 16.8±0.18 42.6±0.31 43.5±0.21 59.8±0.19 50.3±0.71MSG-StyleGAN 12.8±0.08 21.1±0.15 51.2±0.39 57.3±0.29 93.4±0.64 104.3±1.01型号GAN2 6.3±0.04 8.8±0.09 26.1±0.11 26.9±0.23 36.7±0.31 25.2±0.24DMM-StyleGAN25.1±0.04 5.2±0.04 17.8±0.08 19.1±012 31.2±0.16 19.8±0.11ProGAN 9.2±0.08 18.6±0.11 56.5±0.19 59.1±0.41 138.2±0.77 137.6±0.59StyleGAN 6.4±0.05 13.1±0.11 39.8±0.13 40.2±0.23 56.7±0.44 48.4±0.30MSG-StyleGAN 9.7±0.10 18.3±0.09 53.1±0.26 55.1±0.31 96.9±0.67 102.2±0.88型号GAN2 3.7±0.02 6.4±0.05 21.2±0.07 22.8±0.11 33.5±0.19 22.1±0.09DMM-StyleGAN23.1±0.03 4.1±0.02 12.9±0.07 15.4±0.07 28.7±0.12 16.2±0.14表2：1，024 × 1，024像素的DeepRooms客厅合成图像的结果。FID↓：数值越低越好。现场人车客车货车ProGAN 28. 4 ± 0. 18 94. 1 ± 0. 48 57. 3 ± 0.19 96. 8 ± 0. 6161. 4 ± 0. 41StyleGAN 17.4±0.12 68.8±0.31 39.5±0.13 79.8±0.38 53.2±0.33MSG-StyleGAN 9.6±0.07 51.1±0.21 28.8±0.14 56.5±0.26 39.1±0.27型号GAN2 6.7±0.04 37.1±0.26 17.3±0.11 38.4±0.23 22.4±0.29DMM-StyleGAN25.3±0.03 31.3±0.09 11.2±0.05 34.4±0.18 19.3±0.11ProGAN 26.1±0.18 98.2±0.34 54.1±0.23 93.2±0.19 58.9±0.61StyleGAN 13.2±0.08 66.1±0.41 33.4±0.22 76.1±0.43 51.3±0.23MSG-StyleGAN 6.1±0.04 48.6±0.38 23.1±0.16 49.1±0.21 34.8±0.32型号GAN2 4.8±0.02 23.1±0.13 8.9±0.09 31.1±0.18 17.2±0.23DMM-StyleGAN23.5±0.0220.2 ±0.08 5.8±0.03 27.3±0.12 16.1±0.05表3：1，024×1，024像素的Cityscapes合成图像的结果。FID↓：数值越低越好。FID-InfFID-InfFID-50KFID-50KFID-Inf场景沙发茶几椅子茶几灯ProGAN12.0±0.1120.8±0.3154.5±0.4762.9±0.42131.1±1.51134.5±1.63FID-50K13957FID-InfFID-50K场景StyleGAN2 6.6±0.02DMM-StyleGAN2 w/1fgd 6.0±0.02DMM-StyleGAN2 w/2fgd 5.7±0.03DMM-StyleGAN2 w/5fgd 5.2±0.02StyleGAN2 3.2±0.01DMM-StyleGAN2 w/1fgd 2.7±0.02DMM-StyleGAN2 w/2fgd 2.4±0.02DMM-StyleGAN2 w/5fgd 2.2±0.01表4：DMM-StyleGAN 2在512 × 512分辨率下的消融研究。fgd = #细粒度鉴别器。第三，也是本文的新内容，我们报告了前两段中定义的FID分数，即由YoLo算法检测的对象。例如，当生成客厅的图像时，我们使用YoLo来检测沙发、椅子、咖啡桌、茶几和灯。我们使用YoLo给出的边界框内的像素来计算裁剪的沙发、椅子、咖啡桌、茶几和灯的FID-50 K和FID-无穷分数。然后，我们报告的平均值和标准偏差，这些FID分数的五个对象类别。这产生6个FID-50 k和6个FID-无限分数，每个对象类别两个，全局场景两个，表1。虽然场景的两个FID分数给出整个图像的质量的全局度量，但是对象的FID分数评估场景中渲染对象的照片真实性。请注意，某些对象类别的FID分数对于某些GAN不可用。这是当YoLo算法未能在渲染的合成图像中检测到该类别的任何对象时的情况。3.3. 关于LSUN合成起居室图像的定量结果示于表1中。该表显示了多GAN算法的结果以及添加了本文介绍的代理模块和细粒度鉴别器的这些GAN的结果我们看到，在每种情况下，本文导出的经纪人模块的添加产生FID分数的统计上显著的改进。再次调用，较低的FID评分是首选。合成起居室图像的生成的定性结果在图3（a-b）中给出该图提供了（a）中的StyleGAN 2与（b）中的DMM-StyleGAN 2之间的比较结果。3.4. DeepRooms上的结果表2示出了关于1MP合成起居室的生成的定量结果。如上所述，该表提供了具有和不具有所提出的代理模块和现有通信系统上的细粒度鉴别器的比较结果。沙发灯真实照片. 63. 56ProGAN. 41. 22StyleGAN. 48. 33MSG-StyleGAN. 46. 31StyleGAN2. 53. 40DMM-StyleGAN2. 55. 45表5：训练对象检测器。mAP结果，当训练与照片vss合成图像，如所列出的算法和对象类别。GAN算法再次，经纪人模块的添加导致FID分数的统计上显著的改善，即，FID值显著降低。在图1中给出了生成1MP合成起居室图像的定性结果。比较结果现在在图3（c-d）中给出。在（c）中，我们示出了使用StyleGAN 2的结果，并且在（d）中示出了使用DMM-StyleGAN 2获得的结果。其他比较结果见补充文件。3.5. Cityscapes的结果关于1MP合成街道场景的生成的定量结果在表3中。还提供了与其他GAN算法的比较结果。这些结果还示出了与最先进的算法相比，统计学显著改善的FID评分。关于1 MP合成街道场景图像的生成的比较定性结果在图3（e-f）中。其他比较结果见补充文件。3.6. 多重鉴别器在每个实验中，使用5个细粒度判别器的DMM-StyleGAN 2获得了最佳结果。为了更好地量化作为鉴别器数量的函数的代理模块的贡献，我们进行了消融研究。在这项研究中，我们使用q个细粒度判别器在DeepRooms上训练DMM-StyleGAN 2。我们将q从1变到5。我们对每个q值进行了多次实验，每次使用不同的判别器。FID评分的平均值和标准差见表4。如在这些结果中所见，添加细粒度鉴别剂改善了如通过FID测量的照片真实性。3.7. 与下游任务的作为最终的定量评估，我们研究了合成图像在下游任务中的使用，例如[37]中提出的对象检测具体来说，我们从本工作中考虑的四个GAN模型中采样了50，000张图像，并在这些图像上训练了对象检测算法用于训练对象检测的边界框13958图3：比较结果。关于（a-b）LSUN、（c-d）DeepRooms和（e-f）Cityscapes的结果。（a，c，e）中的StyleGAN 2和DMM-StyleGAN 2（b，d，f）。放大以查看（b，d，f）的照片级真实感的改进。tor是用前面提到的YoLo算法获得的我们将这些结果与使用真实照片训练对象检测器时获得的结果进行比较。每个训练模型都在一组1,500张带有手动注释边界框的真实照片因此，该任务可以被视为用于评估与实际照片相比的合成图像的质量的代理。表5显示了两种物体类别（治疗床和灯）检测结果的平均绝对精度（mAP）。我们看到，随着合成图像质量的提高，mAP也在提高。4. 结论用GANs生成复杂场景的合成图像仍然是一个难题。而生成的im-年龄可能乍一看是合理的，但是这些图像包含明显的错误，这些错误清楚地将它们识别为合成的。这些误差的主要原因是由对可能存在或不存在于大量可能位置和姿势中的变化对象的场景进行建模的困难给出的。我们通过添加一个代理模块来解决这个问题，该模块可以识别图像中使用不同细粒度判别器的位置。这些细粒度鉴别器然后被用于改善图像的这些局部区域的照片真实感。我们已经提供了广泛的比较结果对国家的最先进的，并表明，所提出的方法产生优越的结果。我们已经证明了这一点，使用一些定量措施以及定性评价。13959引用[1] Isabela Albuquerque 、 Joao Monteiro 、 Thang Doan 、Brean- dan Considine、Tiago Falk和Ioannis Mitliagkas。具有多鉴别器的生成对抗网络的多目标训练。在机器学习国际会议上，第202-211页四个[2] 亚泽德·阿尔哈比和彼得·旺卡通过结构化噪声注入的解缠图像生成。在IEEE/CVF计算机视觉和模式识别会议论文集，第5134-5142页，2020年。一个[3] Dongsheng An，Yang Guo，Min Zhang，Xin Qi，NaLei，and Xianfang Gu.Ae-ot-gan：从数据特定的潜在分布中训练gans。欧洲计算机视觉会议，第548-564页。Springer，2020年。一个[4] 马丁 ·阿乔对 ky ，苏米特 ·钦塔拉和 Le'onBottou 。Wasserstein生成对抗网络在机器学习国际会议上，第214PMLR，2017年。二个[5] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模gan训练。在2018年国际学习代表会议上。二、五[6] Arantxa Casanova ， Michal Drozdzal ，和 AdrianaRomero- Soriano.生成看不见的复杂场景：到了吗？arXiv预印本arXiv：2012.04027，2020。一个[7] Ting Chen ， Xiaohua Zhai ， Marvin Ritter ， MarioLucic，and Neil Houlsby.通过辅助旋转损失的自监督gans。在IEEE计算机视觉和模式识别会议论文集，第12154-12163页，2019年。2[8] Min Jin Chong 和 David Forsyth 。有效公正的 fid 和inception评分以及在哪里可以找到它们。在IEEE/CVF计算机视觉和模式识别会议论文集，第6070-6079页，2020年。五个[9] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集在Proceedings of the IEEEconference on computer vision and pattern recognition，pages 3213二、五[10] Terrance DeVries ， Michal Drozdzal ， and Graham WTaylor. gans 的实例选择。 arXiv 预印本 arXiv ：2007.15255，2020。一个[11] Ishan Durugkar，Ian Gemp，and Sridhar Mahadevan.生成多对抗网络。arXiv预印本arXiv：1611.01673，2016。四个[12] Xinyu Gong，Shiyu Chang，Yifan Jiang，and ZhangyangWang. Autogan：生成对抗网络的神经架构搜索。在IEEE国际计算机视觉会议论文集，第3224-3234页，2019年。二个[13] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在神经信息处理系统的进展，第2672二个[14] 顾久香，赵汉东，林哲，李胜，蔡剑飞基于外部知识的场景图生成与图像重建。在IEEE/CVF计算机视觉和模式识别会议论文集，第1969-1978页，2019年。二个[15] Ishaan Gulrajani 、 Faruk Ahmed 、 Martin Arjovsky 、Vincent Dumoulin和Aaron C Courville。改进的瓦瑟斯坦甘斯训练。神经信息处理系统的进展，第5767-5777页，2017年。二个[16] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。第31届神经信息处理系统国际会议论文集，第6629-6640页，2017年五个[17] Xun Huang和Serge Belongie。实时任意样式传输，具有自适应实例规范化。在IEEE计算机视觉国际会议论文集

下载后可阅读完整内容，剩余1页未读，立即下载