反馈对抗学习：空间反馈改进生成对抗网络

184 浏览量更新于2023-10-18 收藏 1.75MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11476反馈对抗学习：空间反馈改进生成对抗网络许敏英，加州大学伯克利分校minyoungg@berkeley.edu南加州shaohuas@usc.edu张宁公司ning@vaitl.aiImage-to-Image Translation输入t=1 t=2 t=3图像生成t=1 t=2t=3体素生成t=1 t=2 t=3图1：在各种生成对抗学习任务中使用反馈对抗学习的结果。我们的模型学习利用反馈信号从迭代和迭代提高生成质量与更多的生成步骤。摘要我们提出了反馈对抗学习（FAL）框架，可以通过利用来自判别器的空间反馈来改进现有的生成对抗网络。我们将生成任务表述为一个循环的框架，其中，将学习者具体而言，发电机的条件下，对*作者贡献均等。随着时间的推移证明生成质量-允许生成器参与并修复以前的错误。为了有效地利用反馈，我们提出了一个自适应空间变换（AST）层，它学习从其上一代和反馈信号的空间调制我们证明，人们可以很容易地调整我们的方法，以改善现有的对抗性学习框架的广泛任务，包括图像生成，图像到图像的翻译，和体素生成。该项目的网站可以在https：//minyoungg.github.io/feedbackgan网站。城市景观纽约大学-深度CelebAShapeNet114771. 介绍杰作不是一天创造出来的。即使经过无数小时的训练，专家仍然可以犯错误并学习如何改进。成功的关键是艺术家和评论家之间无休止的反馈和修改循环，艺术家可以与评论家的反馈一起完善其现有作品在传统的GAN设置中，控制器充当批评者，仅向发生器提供梯度信号;然而，生成器没有第二次机会来查看其自己的生成器以及来自用户的反馈以进行改进。随着数据复杂性的增加，生成任务变得非常困难（例如，图像尺寸、数据变化）。因此，为了减轻生成任务的难度，我们提出了反馈对抗学习（FAL）框架，用于在生成过程的前馈路径中集成学习者生成对抗网络由两个网络组成：生成器（G）和样本（D），其中生成器G的目标是从潜在的从已知分布采样的噪声向量z∈Rzd（例如， N（0，I））。这些生成的样本y应该与来自真实样本y的样本是可区分的。以来随着GAN的引入，人们对提高发电质量产生了广泛的兴趣。由于训练GAN的不稳定性，已经提出了不同的优化方法[3，19]，归一化[53]和先进的训练技术，如渐进式生成[28对于所有对抗性学习范例，判别器提供梯度作为生成器的学习信号，并在测试期间被丢弃。为了成功地训练模型，设计者必须在信号过于强大和成为信息信号之间找到正确的平衡。即使在成功训练的模型中，训练器也很容易胜过生成器，这表明训练器中存在生成器仍然可以利用的信息。这激发了允许生成器在生成过程中利用来自XML的如图2所示，生成器查看上一代和响应，事实上，使用反馈的想法起源于完善的控制理论，其中使用误差信号来传播对输入信号的调整。类似地，我们证明了使用该信号作为误差传播信号允许生成器关注看起来不切实际的区域，并随着时间的推移迭代地生成更高质量的样本。为了有效地利用空间变换器允许发生器基于反馈信号对输入特征进行空间调制。我们展示了将反馈对抗学习应用于多种任务的框架的可行性和有效性，包括图像生成，图像到图像的转换和体素生成，以及在各种数据集上提供定性和定量结果如图1所示，使用FAL训练的模型通过学习来改进它们的生成我们使用各种指标广泛评估生成的样本，包括FID、分割分数、深度预测、LPIPS和分类准确性。2. 相关作品生成对抗网络生成对抗网络[18]使用一个神经网络来模拟数据分布，它作为一个损失函数来为生成器提供一个学习信号，以生成真实的样本。GAN在各种应用中继续显示出令人印象深刻的结果，例如图像生成[46，15，63，8]，文本到图像合成[47，26]，未来帧预测[40，55]，图像编辑[67]，新视图合成[52，43]，域适应[7，51]，3D建模[59，27]，视频生成-[66]，视频重定向[4]，文本生成[61，20]，音频生成[16，17，22]等。图像生成使用卷积神经网络合成图像已经被GAN普及，但历史可以追溯到很久以前。社区已经探索了变分自动编码器[29]，自回归模型[1]等。最近，[12]证明使用感知损失和粗到细生成可以用于合成照片级逼真的图像，而不需要一个编码器。[25]第二十五话证明GAN也可以应用于成对的图像到图像的翻译。这激发了视觉和图形社区在各种任务中应用对抗性图像翻译。由于难以收集有趣的配对数据，许多作品[68，35，60，34，6，48]提出了替代方法来翻译图像。这个任务现在被称为不成对的图像到图像翻译-一个从两个任意域学习映射的任务，而不需要任何成对的图像。优化和训练框架由于训练GAN时出现的困难，社区一直试图通过不同的优化和规范化方法来改进GAN。很少提到最小二乘[37]和Wasserstein距离损失[3]及其使用梯度惩罚的后续工作[19]。除了优化，许多人还发现体重正常化[53，50]有助于稳定训练并产生更好的结果。此外，已经提出了许多训练范例来稳定训练，其中使用粗到细11478假房鉴别器歧管图2：反馈对抗学习：左边是一个典型的GAN设置，右边是我们的反馈对抗学习设置。在每个时间步，生成器生成单个图像。我们的方法使用了最小输出决策图和先前生成的图像来驱动下一个时间步的生成。流形是一个可视化的流形的信念蓝色圆圈表示在流形中生成的图像后面的蓝色空圈是前几代，曲线表示决策者对于从潜在向量生成图像的任务，输入x被潜在代码z替换。和展开的预测[41，64，58，28，20，24]已经显示出有希望的结果。反馈学习利用反馈来迭代地提高性能已经在分类[62]，对象识别[32]和人体姿势估计[9，5]上进行了探索。在我们的方法中，我们提出了一个简单而有效的方法，使用的该算法的输出指示样本的哪些区域看起来是真的还是假的;因此，发电机可以参加下面的公式，虽然潜在的噪声矢量z通常不使用：y=G（z，x）.（二）该算法的目标是将生成的样本与真实样本区分开来。因此，生成器的目标函数总体目标可以写为：min maxEyqdata[logD（y）]+Ezpz[log（1−D（G（z））]，（3）G D到那些不切实际的区域，并改善它们。我们的方法可以应用于任何现有的体系结构和优化方法，以生成更高质量的样本。3. 生成对抗网络生成对抗网络（GAN）由两个网络组成：发生器G和鉴别器D。生成器的目标是从噪声中生成逼真的样本向量z，G：z→y，使得区分器不能将真实样本y与生成的样本y区分开。无条件GAN可以被公式化为：y=G（z）.（一）在条件GAN中，生成器根据附加信息x，G：（z，x）→y，来调节其生成，其中x是条件输入，例如图像（例如，分割图、深度图）或类别信息（例如，ImageNet类，面属性）;在后一种情况下，任务被称为类-条件图像生成。当输入和输出域是图像时，该任务被称为图像到图像翻译。在图像到图像的翻译中，我们有其中，q数据是真实数据分布，并且pz是sam。正态分布N（0，I）。对于图像到图像的转换任务，样本分布来自x<$px，并且在生成器上产生了y<$p的额外重建损失：对于某个范数p，Lrec=<$y <$−y<$p。其他作品探索了使用知觉损失或周期一致性损失。4. 方法在标准的对抗学习设置中，生成器仅获得生成图像的单次尝试，并且辨别器仅提供梯度作为生成器的学习信号。相反，我们提出了一个反馈对抗学习（FAL）框架，该框架利用判别器所提出的方法可以很容易地适应任何GAN框架工作的各种任务。我们将在下面的章节中介绍我们的方法。首先，我们将生成过程分解为两阶段过程，见4.1节。在第4.2节中，我们定义了反馈对抗鉴别器歧管假t=1t=2t=3房11479自适应空间变换γht−1+βyt−1rt−1FeFdConcatenateγ、β学习在第4.3节中，我们提出了一种方法，允许生成器有效地利用空间反馈信息。4.1. 重新拟订为了简化描述GAN中反馈学习的思想，我们首先将生成器G重新表示为2部分模型：编码器Ge对输入信息进行编码，然后解码器Gd将中间编码解码到目标域。这在有条件的图像到图像转换GAN中得到了很好的证明，其中编码器网络Ge将信息x（例如，图像）映射到一些根中。编码特征h，Ge：x→h，并且解码器Gd将中间表示h映射回图像空间y，Gd：h→y。注意，在哪里将生成器重新定义为编码器和解码器的选择可以任意选择。伊利我们可以将生成过程写为：y=G（x）=Gd（Ge（x）），（4）其中，y表示输出图像。在无条件GAN的情况下，这可以描述为y=G（z）=G d（G e（z））。4.2. 反馈对抗学习我们现在定义我们的反馈对抗学习框架，其中生成器的目标是通过使用反馈信息迭代地改进其生成为了使生成器能够关注其生成的特定区域，我们利用局部鉴别器[30，25]，其输出响应图而不是标量，其中每个像素对应于从局部感受野中的一组输入像素做出的决定。我们将生成任务制定为一个循环过程，其中生成器经过训练，通过利用网络的响应图来修复其上一代的错误，我们将某个任意时间步长t的生成图像表示为yt，将时间步长t的编码表示为ht。然后，在时间步长t处生成的图像的响应映射可以被写为：rt=D（yt），（5）其中rt∈RH/c×W/c是判别器的输出，其维数缩放常数c对应于所选择的可重构结构。这里，H和W表示原始图像的高度和宽度。这可以推广到其他数据域，例如体素，其中rt∈RH/c×W/c ×Dep/c，Dep表示深度。该响应图指示图像中的某些区域对于用户来说是假的还是真为了平均前一个图像生成yt-1和它的响应rt-1，我们设计了一个反馈网络，t−1t图3：自适应空间变换：我们建议通过预测仿射参数γ和β来局部调制输入特征h t1来使用反馈信息。预生成的图像yt−1和图像的预测的仿射参数具有与h相同的维度，并且用于缩放和偏置每个元素的现有特征。F，在下一节中解释，以将反馈信息注入输入编码ht。我们现在将时间步t的生成器方程4重新定义为：y t=G d（F（h t−1，y t−1，r t−1））= G d（h t）.（6）在时间步t = 1，输入嵌入Ge（x）或Ge（z）计算一次以初始化h0，而y0和r0是ini-零张量。为了训练生成器和训练器，我们在每个时间步计算公式3中的相同损失，并计算所有时间步的平均值。4.3. 自适应空间变换我们提出了自适应空间变换（AST）来有效地利用来自前一个时间步的信息来调制编码特征h。我们的方法受到[21，23，45，56]的启发，该方法使用外部信息来预测每个通道的标量仿射参数γ和β，以线性变换特征：h=γ·h+β，（7）其中γ，β∈RC，C表示通道数。这些方法会导致在整个特征图。相反，为了允许生成器局部调制特征，我们提出了自适应空间变换层，该层在空间上缩放和偏置单个元素，如图3所示。这允许受控的空间变换。类似的想法已经在一个并行的工作中探索[44]。为了实现这个想法，我们将反馈网络F分解为2个子网络：反馈编码器F e和反馈解码器F d。我们首先使用先前生成11480图像和预处理决策图，以使用反馈编码器Fe来预测反馈特征ft-1：ft−1=Fe（yt−1，rt−1）。（八）我们进一步将我们的方法应用于图像到图像的翻译任务，其中生成器的目标是将图像从一个域映射到另一个域。我们使用由9-残差组成的生成器编码的反馈信息ft−1 ∈RH′×W′×C与[68]中的相同我们训练模型，优化[38]中提出的最小二乘损失，具有与编码的输入特征ht-1相同的维度，其中H′和W′指示编码ht-1的空间维度。请注意，响应映射r t−1是双线性上采样的，以匹配生成的图像yt−1的维度，并跨通道维度连接到yt−1。最后，编码的输入特征和反馈特征被级联并用于使用反馈解码器F d来预测变换参数：γ，β= F d（h t−1，f t−1）.（九）预测的仿射参数γ、β具有与h相同的尺寸（即，具有空间维度），并用于空间缩放和偏置输入特征：ht=γht−1+β，（10）其中，X和+表示Hadamard乘积和元素加法。然后，变换后的编码ht被用作解码器的输入，以产生改进的图像yt=Gd（ht）。尺度参数γ是单中心的，而偏置参数β是零中心的。我们追踪用于将来的反馈生成。我们在第5节中证明了所提出的自适应空间变换的有效性。5. 实验我们演示了如何在各种任务上利用所提出的反馈对抗学习技术来改进现有的GAN框架。5.1. 实验装置图像生成我们首先在图像生成任务上演示我们的方法，其中生成器的目标是从已知分布中采样的潜在向量生成图像。我们从最近最先进的架构BigGAN-deep[8]中汲取影响，构建了我们自己的GAN。我们做了一些修改，使网络适合商业GPU。具体来说，我们删除了自我注意层[57，63]，并将生成器和深度减少了一半。我们对生成器和判别器使用64个滤波器而不是128个，并使用实例范数和自适应实例范数[23]而不是批范数和条件批范数[21]。此外，我们没有在最后一层上进行池化，以保留鉴别器的空间输出。我们训练模型以优化对抗性损失的铰链版本[33，53，54]，批量大小为16。更多的架构细节可以在附录中找到。重建损失10。我们做了一些修改来提高整体性能，更多的细节可以在附录中找到。为了研究所提出的反馈对抗学习机制是否可以推广到2D图像之外，我们在体素生成任务上展示了我们的方法[59，14，31]。该生成器的目标是从随机采样的潜在体素中生成真实的体素，由二进制占用立方体V∈RH×W×Dep表示。矢量z 与图像生成类似，DIS的目标-criminator的另一个目的是区分所生成的体素与真实的体素。我们采用Voxel-GAN [59]中提出的类似架构，其中G由3D解卷积层组成，D由3D卷积层堆栈组成。为了产生作为反馈信号的空间输出，在空间维度上，感应器不全局汇集，导致形状为H/c×W/c×Dep/c的响应立方体。我们使用具有梯度惩罚的Wasserstein损失用于在有反馈和没有反馈的情况下训练的Vox-eIGAN。架构和培训的详细信息可以在附录中找到。5.2. 结果图像生成我们在CelebA数据集[36]上训练我们的模型，该数据集由超过100K的名人面孔组成，具有广泛的属性。我们使用维度为128的潜在向量来生成大小为128×128×3的图像。识别器输出一个大小为8×8的响应图。在图4中，我们显示了使用和不使用反馈adver的采样图像sarial学习在表1中，我们计算最后一个特征层的FID得分[39Image-to-Image translation我们使用两Cityscapes[13] 数据集和 NYU-depth-V2数据集 [42] 。对于Cityscapes，我们网络的目标是从类别分割图中生成照片。我们将图像大小调整为256×512。在图5中，我们显示了定性结果，在表2中，我们使用图像分割模型[11]来计算生成的图像。我们还为训练集和验证集提供了与地面实况图像的LPIPS [65]感知得分虽然指示所生成的图像与地面实况之间的相似性，但可能惩罚看起来逼真但感知上不同对于NYU-depth-V2，我们训练我们的模型来生成室内图像。我们结合深度图，粗糙的类标签11481GAN GAN+FAL图4：图像生成：在256×256CelebA数据集上使用反馈对抗学习的结果这些图像是从截断的N（0，I）中随机采样的。Input GroundTruth Pix2Pix Pix2Pix+FAL图5：图像到图像的转换：使用反馈对抗学习的结果。我们在256×512Cityscapes图像上训练模型，这些图像将分割图映射到照片。对于NYU-depth-v2，模型被训练为将240×360的深度、粗分类和边缘映射到照片。我们用3个生成步骤训练我们的模型，并在最后一个生成步骤中显示我们的结果映射以构造双通道输入。为了创建此输入数据，我们标记了前37个最常见的类（大约1000个类中），并将这些类映射到第一个输入通道，其中这些类彼此等距接下来，我们使用深度图作为图像的第二通道。生成的图像大小为240×320×2。在图5中，我们将结果可视化，在表3中，我们使用经过训练的网络来量化我们的结果，以预测单眼的深度。CelebA(a)城市景观(b)NYU-深度-V211482表1：图像生成（CelebA）：在生成的CelebA图像和真实CelebA图像之间计算FID评分。我们使用预训练的Inception-V3模型计算分数。FID评分越低越好。模型Val火车Cat IOU↑Cls IOU↑LPIPS↓LPIPS↓地面实况76.20.210.00.0Pix2Pix0.3800.6550.4280.320Pix2Pix +反馈（t=1）0.3830.6460.4310.265Pix2Pix +反馈（t=2）0.4170.6870.4280.254Pix2Pix +反馈（t=3）0.4180.6920.4290.254表2：图像到图像的转换（城市景观）：我们使用在真实图像上训练的预训练分割模型来计算分割分数。预训练的模型在真实图像上训练。我们还使用生成的图像和地面实况图像提供LPIPS距离分数。RGB图像[2]。我们还提供到地面实况图像的LPIPS距离。体素生成我们在ShapeNet上训练有反馈和无反馈的VoxelGAN [10]。ShapeNet由大量合成对象组成，体素是从这些合成对象生成的我们选择了三个不同的物体类别，具有不同数量的体素：飞机（4k），汽车（8k）和船只（2k），并为每个类别训练模型。生成器由7个3D去卷积层组成，64×64×64体素从采样的潜在向量的dimen-100. baby baby 该算法由 6 个 3D 卷积层组成，输出4×4×4响应立方体。为了定量评估生成的体素的质量，我们训练体素分类器-我们使用10个对象类别，体素来训练10路分类器。受过训练的classi-Fier达到了总体95。9%的测试集准确率（95。9%的飞机，99。6%的汽车，98。8%的船只）。有关体素分类器的详细信息，请参见阑尾我们随机采样1k生成的体素，并使用训练的分类器测量体素的准确性。定量结果如表所示4、质量表3：图像到图像平移（NYU深度）：使用预先训练的单目深度预测模型，我们计算生成的图像的分数。深度预测模型是在真实图像上训练的我们还使用生成的图像和地面实况图像提供LPIPS距离分数。VoxelGANVoxelGAN + FALt=0 t=1 t=2飞机车容器图6：体素生成（ShapeNet）：.使用Viridis色彩映射表根据深度对体素进行着色。与基线相比，我们的模型能够逐步生成质量更好的结果如图所示六、我们证明了用反馈训练的Vox-elGAN通过逐步改进所生成的体素并且用更多的反馈步骤实现更高的准确度而优于基线。第一行显示了真实测试体素的分类精度5.3. 消融研究为了研究同时利用识别器反应标测图和上一代反馈的要点此外，为了验证所提出的AST层的有效性，我们实验了多种方法来合并输入特征h和反馈特征f。这些消融研究可参见附录。模型CelebA-FID↓模型Val火车REL↓δ1↑δ2↑LPIPS↓LPIPS↓地面实况0.1910.8460.9740.00.0Pix2Pix0.1910.8920.9610.4830.337Pix2Pix+反馈（t=1）0.1790.7020.9040.4730.281Pix2Pix+反馈（t=2）0.1780.7060.9060.4690.275Pix2Pix+反馈（t=3）0.1810.7010.9080.4730.284GAN22.56GAN w/反馈（t=1）26.49GAN w/反馈（t=2）20.65带反馈的GAN（t=3）18.5211483模型分类精度↑飞机汽车船舶地面实况95.9%99.6% 百分之九十八点八VoxelGAN93.0%百分之九十八点一百分之八十九点二VoxelGAN+反馈（t=1）93.0%98.2%91.0%VoxelGAN+反馈（t=2）94.0%百分之九十八点九百分之九十六点二VoxelGAN+反馈（t=3）百分之九十五点六99.1%百分之九十七点一表4：体素分类评分：生成的体素的分类分数。准确度衡量生成的体素是否被正确分类到生成器被训练的类别。0.40.30.20.10.01 2 3图像生成步骤数图7：随时间推移的欺骗可能性：我们绘制了相似度，该相似度是消费者认为生成的样本是正确的。我们表明，欺骗的discrim- inator的可能性增加一代的步骤。5.4. 鉴别器响应可视化为了可视化生成器是否可以产生更好的结果，从而可以欺骗识别器，我们在图7中可视化了识别器在图8中，我们绘制了在不同的生成时间步长上欺骗CPU的可能性。5.5. 推广到更多生成步骤虽然我们用3个生成步骤训练了我们的模型，但我们的模型可以随着反馈步骤的增加而逐步提高生成我们通过取响应的平均值来量化神经网络的输出。在Cityscapes上，如果我们对整个训练集的输出取平均值，我们有以下5个生成步骤的愚弄概率（按生成的递增顺序）：十七岁百分之一，二十八。7%，36. 8%，40。3%，43. 百分之四这说明生成器已经学会了在经过训练的生成步骤之外继续利用WP2P图像生成-CelebA图像到图像-NYU深度图像到图像-Cityscapes真实概率11484图8：响应可视化：我们可视化了不同数据集的时间序列的输出。红色表示假，蓝色表示真。我们表明，随着时间的推移，预测的更真实的区域。6. 结论我们证明了反馈对抗学习-将反馈信息利用到生成过程的前馈路径中-是一种简单而有效的方法来改进现有的生成对抗框架。我们证明了我们的方法并不局限于一个特定的领域，通过将其应用到图像生成，图像到图像的翻译，体素生成的任务我们广泛评估了在各种数据集上训练的模型，这些数据集具有各种指标，以验证我们提出的方法的有效性。11485引用[1] O. 诉L. E. A. G. K. K. 亚伦·范登奥德，纳尔·卡奇布伦.用pixelcnn解码器生成条件图像神经信息处理系统进展，2016。[2] I. Alhashim和P.旺卡通过迁移学习的高质量单目深度估计。arXiv电子打印，abs/1812.11941，2018。[3] M. Arjovsky，S. Chintala和L.博图Wasserstein生成对抗网络。2017年国际机器学习会议[4] A. Bansal，S.Ma，D.Ramanan和Y.酋长再生甘：无监督视频重定向。2018年欧洲计算机视觉会议[5] V. Belagiannis 和 A. 齐瑟曼。循环人体姿态估计。IEEEInternational Conference on Automatic Face GestureRecognition，2017。[6] S. Benaim和L.狼单侧无监督域映射。在神经信息处理系统的进展，2017年。[7] K. Bousmalis，N.Silberman，D.Dohan，D.Erhan和D.克-伊什南。无监督像素级域适应与生成对抗网络。2017年在IEEE计算机视觉和模式识别会议上发表[8] A. Brock，J. Donahue，and K.西蒙尼扬用于高保真自然图像合成的大规模gan训练在2019年国际学习代表会议[9] J. 卡雷拉山口Agrawal，K.Fragkiadaki和J.马利克迭代误差反馈人体位姿估计。在IEEE计算机视觉和模式识别上，2016年。[10] A. X. 张， T. 放克豪瑟 L. 吉巴斯 P. 汉拉汉Q. Huang，Z. Li，S. Savarese，M. Savva，S.宋，H. Su等人Shapenet：一个信息丰富的3d模型库。arXiv预印本arXiv：1512.03012，2015。[11] L. Chen，G.帕潘德里欧F. Schroff和H. Adam.重新思考语义图像分割的无环卷积。 arXiv 电子印刷品，abs/1706.05587，2017年。[12] Q. Chen和V. Koltun.使用级联细化网络的摄影图像合成。2017年计算机视觉国际会议[13] M.科德茨，M。奥姆兰，S。拉莫斯，T.雷费尔德，M。恩茨韦勒R.贝南森，美国弗兰克，S。罗斯和B。席勒用于语义城市场景理解的cityscapes数据集。在IEEE计算机视觉和模式识别会议上，2016年。[14] A.戴角，澳-地R. Qi和M.尼斯纳使用三维编码器预测器cnn和形状合成的形状完成。2017年在IEEE计算机视觉和模式识别会议上发表。[15] E. L. Denton，S. Chintala、A. Szlam和R.费格斯。使用对抗网络的拉普拉斯金字塔的深度生成图像模型在神经信息处理系统的进展，2015年。[16] C. Donahue，J.McAuley，and M.帕克特与甘斯合成音频，2018年。[17] C. Donahue，J.McAuley，and M.帕克特对抗性音频合成。在2019年学习代表国际会议[18] I. 古德费罗 J. 波吉特-阿巴迪 M. 米尔扎 B. 许、D. 沃德-法利，S。奥扎尔A.Courville和Y.本吉奥。生成对抗网络。神经信息处理系统进展，2014年。[19] I. Gulrajani， F.艾哈迈德， M 。阿尔约夫斯基河谷Dumoulin和A.C.考维尔改进的瓦瑟斯坦甘斯训练。在神经信息处理系统的优势，2017年。[20] J.Guo，S. Lu，H.蔡，W. Zhang， Y. Yu和J. Wang.长文本生成通过对抗训练与泄漏的信息。2018年。[21] J. M. H. L. O. P. A. C.哈姆·德·弗里斯弗洛里安·斯特鲁布通过语言调节早期视觉处理。在神经信息处理系统的进展，2017年。[22] W.- N. Hsu，Y.张河，巴西-地J. Weiss，Y.- A.钟，Y。小王，Y. Wu和J. Glass。通过数据增强和对抗因子分解分离相关的说话人和噪声用于语音合成。在NIPS 2018音频，语音和语言研讨会的，2018年。[23] X. Huang和S.贝隆吉具有自适应实例规范化的实时任意样式传输。2017年计算机视觉国际会议[24] D. J. Im，C. D. Kim，H. Jiang，和R.梅米塞维奇使用循环对抗网络生成图像。在ICLR研讨会，2016年。[25] P. Isola，J.- Y. Zhu，T. Zhou和A. A.埃夫罗斯使用条件对抗网络的图像到图像翻译。在IEEE计算机视觉和模式识别会议上，2017年。[26] L. F.- F. 贾斯汀·约翰逊，这是阿格里姆·古普塔.从场景图生成图像2016年在IEEE计算机视觉和模式识别会议上发表[27] A. Kanazawa，M.J. Black，D.W. Jacobs和J.马利克端到端恢复人体形状和姿势。在 IEEE Confer-ence onComputer Vision and Pattern Recognition，2018。[28] T. Karras，T. Aila，S. Laine和J.莱赫蒂宁gans的逐步生长，以提高质量、稳定性和多样性。在2018年学习代表国际会议[29] D. P.Kingma和M.威林自动编码变分贝叶斯。2014年，在国际学习代表会议上[30] C. Li和M.魔杖利用马尔可夫生成对抗网络进行预计算实时纹理在2016年的欧洲计算机视觉会议[31] J. Li，K.Xu，S.Chaudhuri，E.Yumer，H.zhang和L. Guibas Grass：用于形状结构的生成递归自动编码器。ACM Transactions on Graphics，2017。[32] M. 梁和X。胡用于物体识别的递归卷积神经IEEE计算机视觉和模式识别会议，2015。[33] J. H. Lim 和 J.C. 烨几何杆 arXiv 预印本 arXiv ：1705.02894，2017。[34] M. Liu，T. Breuel和J.考茨无监督图像到图像翻译网络。在神经信息处理系统，2017年。[35] M. Liu和O.图泽尔耦合生成对抗网络。神经信息处理系统进展，2016年。11486[36] Z. Liu，P. Luo，X. Wang和X.唐在野外深度学习人脸属性。在2015年计算机视觉国际会议[37] X.茅角，澳-地Li，H.谢河，巴西-地Y. Lau和Z.王.具有l2损失函数的多类生成对抗网络。arXiv预印本arXiv：1611.04076，2016。[38] X.茅角，澳-地Li，H.谢河，巴西-地Y. Lau和Z.王.具有l2损失函数的多类生成对抗网络。arXiv预印本arXiv：1611.04076，2016。[39] T. U.- B. N.马丁·赫塞尔休伯特·拉姆绍尔通过两个时间尺度更新规则训练的Gans收敛到局部Nash均衡。2017年。[40] M.马蒂厄角Couprie和Y.乐存。超越均方误差的深度多尺度视频预测。在2016年国际学习代表会议上[41] L.梅斯湾Poole，D. Pfau和J.索尔-迪克斯汀展开的生成对抗网络。在2017年国际学习代表会议上[42] P. K. Nathan Silberman、Derek Hoiem和R.费格斯。室内分割和支持从rgbd图像推断。2012年欧洲计算机视觉会议[43] E. Park，J. Yang，E. Yumer，D. Ceylan和A. C. 伯格。基于变换的新型三维视图合成图像生成网络。IEEE计算机视觉和模式识别会议，2017年。[44] T.帕克，M.- Y.刘德铭C. Wang和J. - Y.竹具有空间自适应归一化的语义图像合成 arXiv 预印本 arXiv ：1903.07291，2019。[45] E. Perez，F.Strub，H.De Vries，V. Dumoulin，andA.考维尔电影：一般条件层的视觉推理。在艺术情报促进协会，2018年。[46] A.拉德福德湖，澳-地Metz和S.钦塔拉使用深度卷积生成式对抗网络进行无监督表示学习。在2016年国际学习代表会议上[47] S. Reed，Z.Akata，X.延湖，澳-地洛格斯瓦兰湾schiele和H. 李你生成对抗文本到图像合成。在2016年国际机器学习会议[48] F. S.- L. Z.- M.罗伊·梅克雷斯，这是伊塔马·塔尔米.背景损失。2018年欧洲计算机视觉会议[49] T. 萨利曼斯岛 J. Goodfellow，W. 扎伦巴河谷张A. Radford和X.尘改进的gans训练技术。神经信息处理系统进展，2016年。[50] T. Salimans和D.金玛权重归一化：一个简单的重新参数化，以加快训练的深神经网络。神经信息处理系统进展，2016。[51] A.什里瓦斯塔瓦T. 菲斯特岛Tuzel，J. Susskind，W.Wang和R.韦伯通过对抗训练从模拟和无监督图像中学习。2017年在IEEE计算机视觉和模式识别[52] S.- H.孙，M。哈Y H. Liao，N. zhang和J. J. Lim.多视图到新视图：用自学的自信综合新的观点。2018年欧洲计算机视觉会议[53] M. K.- Y. Y.宫户健片冈俊树生成对抗网络的谱归一化。在2018年国际学习表征会议[54] D.特兰河，巴西-地Ranganath和D.布莱分层隐式模型与无似然变分推理。在神经信息处理系统的优势30，2017。[55] C. Vondrick，H. Pirsiavash和A.托拉尔巴生成具有场景动态的视频。在神经信息处理系统的进展，2016年。[56] R. Vuorio，S. H.孙，H. Hu和J. J.林走向多模态模型不可知元学习。arXiv预印本arXiv：1812.07172，2018。[57] X.王河，巴西-地Girshick，A. Gupta和K.他外非局部神经网络。在IEEE计算机视觉和模式识别会议上，2018。[58] X. Wang和A.古普塔。使用样式和结构对抗网络的生成图像建模。在欧洲计算机视觉会议上，2016年。[59] J.Wu，C. Zhang，T.薛，W. T. Freeman和J. B.特伦鲍姆。通过3d生成对抗建模学习物体形状的概率潜在空间。在神经信息处理系统的进展，2016。[60] Z. Yi，H. Zhang和M.龚Dualgan：图像到图像翻译的无监督双重学习。2017年计算机视觉国际会议[61] L. 余， W. 张， J.Wang 和 Y.Yu. Seqgan ： Sequencegenerative adversarial nets with policy gradient.在人工智能促进协会，2017年。[62] A. R. Zamir，T.吴湖，加-地太阳，W。B. Shen，J.Malik和S. Savarese反馈网络。2017年在IEEE计算机视觉和模式识别会议上发表[63] H.张岛J. Goodfellow，D. N. Metaxas和A. Odena自我注意生成对抗网络。在神经信息处理系统，2018。[64] H. Zhang，T. Xu，H. Li，S. Zhang，X. Huang，X. Wang和D. N. Metaxas Stackgan：使用堆叠生成对抗网络的文本到照片级真实感图像合成在2017年国际计算机视觉会议[65] R. Zhang，P.Isola，A.A. Efros、E.Shechtman和O.王.深度网络作为感知指标的不合理有效性。在IEEE计算机视觉和模式识别会议上，2018。[66] Y. Zhou和T. L.伯格。从延时视频中学习时间变换。在2016年欧洲计算机视觉会议[67] J. - Y. Zhu ，P. K r¨ henb ¨ hl，E. Shechtman 和A. A.埃夫罗斯自然图像流形上的生成式视觉操作。2016年欧洲计算机视觉会议[68] J. - Y. Zhu，T.帕克山口Isola和A.A. 埃夫罗斯使用循环一致对抗网络的不成对2017年计算机视觉国际会议。

下载后可阅读完整内容，剩余1页未读，立即下载