基于条件IMLE的多模态图像生成方法

194 浏览量更新于2023-10-11 收藏 2.3MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1基于条件IMLE李可*加州大学伯克利分校ke.li邮件eecs.berkeley.edu南京大学bryanzhang@smail.nju.edu.cnJitendraMalik加州大学伯克利分校malik@eecs.berkeley.edu摘要大多数现有的用于条件图像合成的方法仅能够针对任何给定输入生成单个似然图像，或者至多生成固定数量的似然图像。在本文中，我们专注于从语义分割图生成图像的问题，并提出了一个简单的新方法，可以生成任意数量的图像具有不同的外观相同的语义布局。与大多数采用GAN [11，12]框架的现有方法不同，我们的方法基于最近引入的隐式最大似然估计（IMLE）[22]框架。与领先的方法[3]相比，尽管使用相同的架构，我们的方法能够生成更多的不同图像，同时产生更少的伪影。尽管缺乏鼓励这种行为的监督，但习得的潜在空间也有合理的结构。视频和代码可在 https://people.eecs.berkeley.edu/~ke上获得。li/projects/imle/scene_layouts/.图1：我们的模型生成的样本。9个图像是由我们的模型生成的样本，条件是相同的语义布局，如左下角所示。1. 介绍条件图像合成是计算机视觉中近几年来，公...*同等缴款。Nity已经朝着在各种任务上生成高视觉保真度的图像取得了很大的进步。然而，大多数提出的方法仅能够在给定每个输入的情况下生成单个图像，即使大多数图像合成问题是不适定的，即：存在与相同输入一致的多个同样合理的图像。理想情况下，我们的目标应该是预测所有合理图像的分布，而不仅仅是单个合理图像，这是一个称为多模态图像合成的问题[42]。这个问题很难，原因有二：1. 模型：大多数最先进的图像合成方法都使用生成对抗网络（GAN）[11，12]，这受到了模式崩溃的问题的困扰。在条件图像合成的上下文中，这导致模型对于每个给定的输入仅生成单个似然图像，而不管潜在噪声如何，并且无法学习似然图像的分布。2. 数据：同一输入的多个不同的地面实况图像在大多数数据集中不可用。相反，只给出一个真实图像，模型必须学习以无监督的方式生成其他合理的图像。在本文中，我们专注于多模态图像合成的语义布局，其中的目标是生成多个不同的图像相同的语义布局的问题。现有的方法要么只能生成固定数量的图像[3]，要么很难训练[42]，因为需要平衡几个不同的神经网络的训练，这些神经网络起着相反的作用。为了避开这些问题，与大多数图像合成方法不同，我们走出了GAN框架，并提出了一种基于最近引入的隐式最大似然估计（IMLE）方法的方法 [22]。与GANs不同，IMLE通过设计避免了模式崩溃，并且能够训练与GANs中的生成器相同类型的神经网络架构，即具有从分析分布中提取的随机噪声作为输入的神经网络这种方法有两个优点：422042211. 与[3]不同，我们可以通过简单地对不同的噪声向量进行采样来为每个输入生成任意数量的图像2. 与[42]不同，它需要同时训练三个扮演相反角色的神经网络，我们的模型要简单得多：它只由一个神经网络组成因此，训练更加稳定。2. 相关工作2.1. 单峰预测大多数现代图像合成方法都基于生成对抗网络（GAN）[11，12]。由于模式崩溃的问题，这些方法中的大多数能够针对每个给定的输入仅产生单个图像。各种工作已经探索了不同类型信息的条件反射。各种方法都以只包含很少信息的标量为条件，例如对象类别和属性[25，9，5]。其他方法需要更丰富的标签，例如文本描述[28]，表面法线映射[35]，视频中的先前帧[24，33]和图像[36，14，41]。一些方法仅对发生器中的输入图像起作用，而不对鉴别器起作用[27，20，40，21]。[16，28，30]探索在测试时可以由用户手动修改的属性的条件;这些方法不是真正的多模态方法，因为它们需要手动改变输入（而不是仅仅从固定分布中采样）以生成不同的图像。图像合成的另一种常见方法是将其视为简单的回归问题。为了确保高的感知质量，通常在原始像素的一些变换上定义损失。该范例已被应用于超分辨率[1，15]、风格转移[15]和视频帧预测[32，26，8]。这些方法是设计单峰方法，因为神经网络是函数，因此只能产生点估计。已经开发了各种方法用于从语义布局进行图像合成的问题例如，Kara- can等。[17]开发了一种基于条件GAN的模型，用于从语义布局和标记的图像属性生成图像。重要的是要注意，该方法需要对图像属性的监督，因此是单峰方法。Isola等人[14]开发了一种条件GAN，可以仅从语义布局生成图像。然而，由于GAN中的模式崩溃问题，它只能为每个语义布局生成单个可接受的图像。Wang等人[34]进一步完善了[14]的方法，侧重于高分辨率设置。虽然这些方法能够生成高视觉保真度的图像，但它们都是单峰方法。2.2. 固定模式为同一输入生成固定数量的不同输出的简单方法是为每个期望的输出使用不同的分支或模型例如，[13]提出了一种同时输出固定数量的不同预测的模型，这是Chen和Koltun [3]采用的一种方法，用于为相同的语义布局生成不同的图像与大多数方法不同，[3]没有使用GAN框架;而是使用简单的前馈卷积网络。另一方面，Ghoshet al. [10]使用GAN框架，其中引入了多个生成器，每个生成器生成不同的模式。上述方法都有两个局限性：（1）对于相同的输入，它们只能产生固定数量的图像，以及（2）它们不能产生连续的变化。2.3. 任意数量的模式许多基于GAN的方法提出添加学习的正则化器，以阻止模式崩溃。Bi-GAN/ALI [6，7]训练模型以从图像重建潜在代码;然而，当应用于控制器设置时，由于编码器直到最优性才被训练，所以仍然会发生显著的模式崩溃，因此不能完美地反转发生器。VAE-GAN [18]将GAN与VAE结合，VAE不会遭受模式崩溃。然而，图像质量受到影响，因为生成器是在从编码器/近似后验采样的潜在代码上训练的，并且从不在从先验采样的潜在代码上训练。在测试时，只有先验是可用的，导致训练和测试条件之间的不匹配Zhu等[42] Bicycle-GAN结合了上述两种方法。虽然这缓解了上述问题，但很难训练，因为它需要同时训练三个不同的神经网络，即生成器，编码器和编码器。因为它们扮演着相反的角色，并有效地相互规范，所以取得适当的平衡很重要，这使得在实践中很难成功训练。许多着色方法[2，38，19]预测每个像素颜色的离散边缘分布虽然该方法能够捕获边缘分布中的多模态，但是确保图像的不同部分之间的全局这种方法不能学习这种相关性，因为它不学习所有像素的颜色上的联合分布3. 方法用于条件合成的大多数最先进的方法依赖于条件GAN框架。不幸的是，GANs受到众所周知的模式Col-Mode问题的困扰42222生成样品(a) GAN（步骤1）(b) GAN（步骤2）(c) 伊姆莱图2：（a-b）（无条件）GAN如何崩溃模式（为了简单起见，我们在这里显示了具有1-最近邻的GAN）。蓝色圆圈表示生成的图像，红色正方形表示真实图像。黄色区域表示被分类为真实的区域，而白色区域表示被分类为假的区域如图所示，当训练生成器时，每个生成的图像基本上被推向最近的真实图像。在训练过程中，一些真实图像可能不会被任何生成的图像选择，因此可能会被训练的生成器忽略(c)隐式最大似然估计（IMLE）的工作原理。IMLE通过反转生成图像与真实图像匹配的方向来避免模式崩溃。代替将每个生成的图像推向最近的真实图像，对于每个真实图像，它将最近的生成的图像拉向它失效，并且在条件图像合成的上下文中，这使得生成器忽略潜在输入噪声矢量，并且总是为相同的输入标签生成相同的输出图像，而不管潜在噪声矢量的值是什么。因此，要为相同的输入标签生成不同的输出图像，我们必须解决模式崩溃的根本问题。3.1. 为什么会发生模式崩溃我们首先考虑无条件设置，其中没有输入标签。如图2（a-b）所示，在GAN中，每个生成的图像都与一些真实图像相似。某些图像可能未被任何真实图像选择。因此，在训练之后，生成器将无法生成任何与非真实图像相似的图像，因此它有效地忽略了这些图像。在概率建模的语言中，真实图像可以被视为样本意味着生成器将不能输出任何其他同样合理的输出图像。3.2. 伊姆莱隐式最大似然估计（IMLE）[22]方法通过反转生成图像与真实图像匹配的方向来解决模式崩溃。在GAN中，每个生成的图像被有效地匹配到真实图像。在IMLE中，每个真实图像与生成的图像匹配。这确保了所有真实图像被匹配，并且没有真实图像被遗漏。如图2（c）所示，IMLE然后尝试使每个匹配的生成图像与它们匹配的真实图像相似。在数学上，它解决了最优化问题。这里，zj从自然图像的一些潜在的真实分布并且生成器忽略一些真实图像意味着生成模型将低概率密度分配给这些图像。因此，模式（即：局部最大值minEz1，…，zθmΣ1Σnni=1ΣMin||Tθ（zj）−yi||2j =1，…M表示被忽略图像的自然图像的真实分布的概率密度）不被生成器建模;因此称为“模式崩溃”。在对比设置，通常只有一个地面实况输出图像，年龄是每个输入标签可用因此，模式塌陷变得更成问题，因为由生成器建模的条件分布将塌陷为围绕唯一地面实况输出图像的单一模式。这3.3. 条件IMLE在条件设置中，目标是对条件分布族进行建模，每个条件分布以不同的输入标签为条件，即： {p（y|x=xi）}i=1，.，n，其中x是表示地面实况输入图像，并且y表示gener。已更新的输出图像。所以，条件IMLE [23]不同于标准IMLE有两种方式：首先，传递输入标签，房假丢弃模式真实数据示例42232第二，地面实况输出图像只能与从其对应的地面实况输入标签生成的输出图像匹配（即：从不同于当前基本事实输入标签的输入标签生成的输出图像不能与当前基本事实输出图像匹配具体地，条件IMLE解决了以下优化问题，其中z，i，j将使得可能性非常低，因为可能性是在每个地面实况图像处评估的密度的乘积。因此，最大化可能性永远不会导致模式崩溃。这意味着GANs不能近似最大似然，所以问题是：是否有其他算法可以？IMLE的设计考虑到了目标，并且可以在温和条件下最大化对数似然的下限。与GAN一样，IMLE不需要知道模型的概率密度公式;与GAN不同，IMLE近似为maxi-最小Ezθ一，一，...，zn，mΣ1Σnni=1minj=1，…MΣ||2||2使可能性最大化，因此不能使模式崩溃。另一个额外的优势来自IMLE不需要鉴别器也不需要对抗训练的事实。因此，训练更加稳定3.4. 概率解释图像合成可以看作是一个概率建模问题。在无条件图像合成中，目标是对图像上的边缘分布进行建模，即：p（y），而在条件图像合成中，目标是为了模拟条件分布p（y|X）。在一个条件-在GAN中，概率模型被选择为是一个important显式概率模型与经典的（也称为规定的）概率模型（如CRF）不同，隐式概率模型不是由概率密度的公式定义的，而是由从中抽取样本的过程定义的。它们定义的概率分布是样本上的分布，因此即使这些分布的概率密度公式可能不是封闭形式，但这些分布本身是有效的和定义良好的。GAN中的生成器是隐式概率模型的一个例子。它由以下采样过程定义，其中Tθ是一个神经网络：1. 绘制zN（0，I）2. 返回y：=Tθ（x，z）作为样本在经典的概率模型中，学习，或者换句话说，参数估计，是通过最大化地面实况图像的对数似然来执行的，或者是预先的，或者是近似的。这被称为最大似然估计（MLE）。然而，在隐式概率模型中，这通常是不可行的：因为概率密度的公式可能不是封闭形式，所以通常不能以封闭形式写出对数似然函数，该对数似然函数是在每个地面实况图像处评估的模型的对数密度之和。GAN可以被看作是估计概率模型参数的另一种方法，但它有一个关键问题，即模式崩溃。因此，学习的模型分布可以捕获比数据表现出的变化少得多的变化。另一方面，MLE从未遇到过这个问题：因为模式崩溃需要将非常低的概率密度分配给某些地面实况图像，发电机的容量与发电机的容量相同，因此需要更少的超参数调整。3.5. 制剂对于从语义布局进行图像合成的任务，我们将x作为输入语义分割图，并将y作为生成的输出图像。（有关x的表示的详细信息，请参阅补充材料。）想要学习的条件概率分布是p（y|X）。与输入分割x一致的似然图像是该分布的模式;因为可能存在与相同分割一致的许多似乎合理的图像，|x）通常具有多种模式（因此是多模式的）。执行单峰的方法预测可以被看作是产生该分布的点估计。为了生成多个合理的图像，点估计是不够的;相反，我们需要估计完整的我们通过使用不同的距离度量L（·，·）来概括条件IMLE，即基于VGG-19特征的感知损失[31]，其细节在补充材料中。在算法1中给出了修改的算法。3.6. 架构为了允许与级联细化网络（CRN）[3]直接可比，这是从语义布局进行多模态图像合成的领先方法，我们使用与CRN相同的架构，并进行微小修改以将CRN转换为隐式概率模型。对于相同的语义布局输入，普通CRN仅合成一个图像。为了对任意数量的模式进行建模，我们将额外的输入通道添加到架构中，并通过这些通道馈送随机噪声z。由于噪声是随机的，神经网络现在可以被视为一个（隐式）概率模型。噪声编码器因为输入分割图是以高分辨率提供的，所以噪声向量z（其为4224算法1条件IMLE输入训练语义分割图{x}n和0.06对应的地面实况图像{yi}nii=1初始化神经网络参数θTθforepoch =1 toEdo选取随机批次S {1，. . . ，n}对于i∈S，i=10.050.040.03生成m个i. i. d个随机向量{zi，l，. . . ，zi，m}对于j=1到m，y∈i，j←Tθ（xi，zi，j）端σ（i）←argminj∈{1，.，m}L（yi，y∈i，j）端对于k= 1至K，0.020.010.000 50 100 150 200 250随便选一个。b图3：两种颜色的直方图比较θ←θ −η ∇θ首尾相接i∈S~L（yi，y~i，σ（i））/|S~|数据集。红色是城市景观，蓝色是GTA-5。如图所示，Cityscapes在色调方面集中在单一模式上，而GTA-5在色调方面有更大的变化。级联到输入通道的信号可能是非常高维的，这可能损害采样效率和因此的训练速度。为了解决这个问题，我们建议迫使噪音躺在一个低维流形。为此，我们添加了噪声编码器模块，其是3层卷积网络，其将分割x和较低维噪声向量~z作为输入，并输出与z大小相同的噪声向量z’。我们将z替换为z′，并保持架构的其余部分不变。3.7. 数据集和损失再平衡在实践中，我们发现数据集可以强烈地偏向于具有相对常见外观的对象。因此，简单的训练可能导致训练模型生成的图像之间的多样性有限为了解决这个问题，我们提出了两种策略来重新平衡数据集和损失，其细节在补充材料中。4. 实验4.1. 数据集数据集的选择对于多模态条件图像合成是非常重要的。单峰设置中最常见的数据集是Cityscapes数据集[4]。然而，它不适合多模态设置，因为数据集中的大多数图像是在相似的天气条件和时间下拍摄的，并且对象颜色的变化量有限。这种多样性的缺乏限制了任何多模态方法可以做的事情另一方面，GTA-5数据集[29]在天气条件和物体外观方面有更大的变化为了证明这一点，我们比较了两个数据集的颜色分布，并在图3中呈现了两个数据集的色调分布。作为色调此外，GTA-5数据集包括超过20000张图像，因此比Cityscapes大得多。此外，为了显示我们的方法的通用性及其对现实世界数据集的适用性，我们在BDD 100K [37]数据集上进行训练，并在图中显示结果。10个。4.2. 实验环境我们在12403张训练图像上训练我们的模型，并在验证集（6383张图像）上进行评估。由于计算资源的限制，我们在256×512分辨率下进行实验。我们添加10个噪声通道，将算法1中所示的超参数转换为以下值：|S|=40 0，m=1 0，K=10 0 0，|S|n =1且n=1e− 5。基于语义的图像合成方法多模态设置中的布局是具有多样性损失的CRN [3]，其为每个语义分割图生成九个不同的图像，并且是我们比较的基线。4.3. 定量比较定量比较旨在定量比较我们的模型和CRN生成的图像的多样性和质量。多样性评估我们通过为来自测试集的100个输入语义布局中的每一个生成40对输出图像来测量每种方法的多样性。然后，我们计算每个给定输入语义布局的每对输出图像之间的平均距离，然后在所有输入语义布局上取平均值。我们使用的距离度量是LPIPS [39]，其设计用于测量感知差异。结果示于表1中。作为4225（a）Pix 2 pix-HD+噪音（b）BicycleGAN(c)CRN（d）我们的模式图4：相同语义布局的生成图像比较。（a）中左下角的图像是输入语义布局，我们为每个模型生成9个样本。更多样品请浏览我们的网站。(a) 我们的模型w/o噪声编码器和再平衡方案（b）我们的模型w/o噪声编码器(c)我们的模型w/o再平衡方案（d）我们的模型图5：消融研究使用与图5相同的语义布局。4.第一章4226图6：通过在潜在噪声向量之间插值生成的图像。请参阅我们的网站视频显示插值的效果。(a)（b）（c）（d）（e）图7：具有相同随机向量的风格一致性。(a)是原始的输入输出对。我们使用（a）中使用的相同随机向量，并将其应用于（b）、（c）、（d）和（e）。查看我们的网站了解更多示例。模型LPIPS评分CRN0的情况。11CRN+噪声0的情况。12我们的无噪声编码器0的情况。10我们的无再平衡计划0的情况。17我们0.19表1：LPIPS评分。我们显示了不同模型（包括消融研究）的平均感知距离，我们提出的模型获得了最高的多样性。如图所示，所提出的方法大大优于基线。我们还进行了消融研究，发现所提出的方法比去除噪声编码器或重新平衡方案的变体表现更好，这证明了我们方法中每个组件的价值。图像质量评估我们现在通过人工评估来评估生成的图像质量。由于人类很难比较具有不同风格的图像，因此我们在CRN和我们的方法生成的图像中然后，我们要求62名人类受试者评估为20个语义布局生成的图像。对于每一种语义布局，他们被要求比较CRN生成的图像结果示于表2中。(a) CRN（b）我们的模型图8：生成图像中伪影的比较。包含更多伪影CRN0. 636± 0。242我们的方法0.364 ±0. 242表2：被人类判断为表现出更明显的合成模式的图像的平均百分比。越低越好。4.4. 定性评价定性比较如图所示。4.第一章我们比较了三个基线， BicycleGAN [42] ，具有输入噪声的 Pix 2 pix-HD[34]和CRN。如图所示，Pix 2 pix-HD生成几乎相同的图像，BicycleGAN生成具有严重失真的图像，CRN4227生成具有4228多样性少。相比之下，我们的方法生成的图像是多样的，不会受到扭曲。我们还在图1B中进行了消融研究。5，这表明我们方法的每个组成部分都很重要。在补充材料中，我们将基线结果与建议的再平衡方案结合起来，并证明，与我们的方法不同，他们无法利用它。此外，与CRN相比，我们的方法还生成更少的伪影，这特别有趣，因为架构和距离度量与CRN相同。如图8，由CRN生成的图像具有网格状伪影，这在由我们的方法生成的图像中不存在。我们的模型生成的更多示例在补充材料中显示。插值我们还执行潜在向量的线性插值，以评估学习的潜在空间的语义结构如图6所示，通过在噪声矢量分别对应于白天和夜间生成的图像，我们获得了从白天到夜间的平滑过渡。这表明，学习的潜在空间是合理有序的，并捕获了沿时间轴的变化的全部范围。补充材料中有更多的场景编辑一种成功的从语义布局合成图像的方法使用户能够手动编辑语义地图来合成所需的图像。你可以通过简单地添加/删除对象或更改某个对象的类标签来做到这一点。在图9中，我们展示了几个这样的变化。请注意，所有四个输入都使用相同的随机向量;如图所示，图像在样式方面高度一致，这非常有用，因为在编辑布局后样式应该保持不变。我们在图中进一步证明了这一点。其中，我们应用在中使用的随机向量(a)到（b）、（c）、（d）、（e）中的不同分割图，并且风格在不同分割图上被保留。5. 结论提出了一种基于IMLE的基于语义布局的多模态图像合成方法.与以前的方法不同，我们的方法可以为相同的语义布局生成任意多个图像，并且易于训练。我们证明，尽管使用相同的架构，但与领先的方法[3]此外，我们的模型能够在没有监督的情况下学习噪声向量的合理潜在空间。我们表明，通过在噪声向量之间进行插值，我们的模型可以产生连续的变化。同时，在不同的语义布局上使用相同的噪声向量会导致风格一致的图像。(a)（b）第（1）款(c)（d）其他事项图9：场景编辑。 (a)是原始输入语义映射和生成的输出。(b)在路上增加了一辆车。(c)将左侧的草地更改为道路，并将右侧的人行道更改为草地。(d)删除我们自己的车，将右边的建筑物改为树，将所有道路改为草地。（一）（b）第（14229）款图10：使用我们的方法在BDD 100K [37]数据集上生成的图像。4230引用[1] Joan Bruna，Pablo Sprechmann，and Yann LeCun.超分辨率与深度卷积足够的统计。arXiv预印本arXiv：1511.05666，2015年。2[2] Guillaume Charpiat，Matthias Hofmann，and Bernhard Schoülkopf. 通过多模态预测的自动图像着色欧洲计算机视觉会议，第126-139页。Springer，2008. 2[3] Qifeng Chen和Vladlen Koltun。用级联细化网络进行摄影图像合成。在IEEE国际计算机视觉会议（ICCV），第1卷，第3页，2017年。一、二、四、五、八[4] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。 IEEE计算机视觉与模式识别会议（CVPR），2016年。5[5] Emily L Denton，Soumith Chintala，Rob Fergus，et al.使用对抗网络的拉普拉斯金字塔的深度生成图像模型。神经信息处理系统的进展，第1486-1494页，2015年。2[6] Je f fDonahue ， PhilippK raühenbühl ，和 Tr ev 或Darrell 。对抗性特征学习。 arXiv 预印本 arXiv ：1605.09782，2016。2[7] Vincent Dumoulin 、 Ishmael Belghazi 、 Ben Poole 、Olivier Mastropietro 、 Alex Lamb 、 Martin Arjovsky 和Aaron Courville。逆向学习推理。arXiv预印本arXiv：1606.00704，2016。2[8] 切尔西·芬恩伊恩·古德费罗和谢尔盖·莱文。通过视频预测进行物理交互的无监督学习。神经信息处理系统的进展，第64-72页，2016年。2[9] 乔恩·高蒂尔。用于卷积人脸生成的条件生成对抗网络。斯坦福大学CS231N课程：卷积神经网络用于视觉识别，冬季学期，2014（5）：2，2014。2[10] Arnab Ghosh 、 Viveka Kulharia 、 Vinay Namboodiri 、Philip HS Torr和Puneet K Dokania。多智能体多样化生成对抗网络。 arXiv 预印本 arXiv ： 1704.02906 ， 1（4），2017。2[11] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在神经信息处理系统的进展，第2672一、二[12] Michael U Gutmann，Ritabrata Dutta，Samuel Kaski，and Jukka Corander.通过分类的无可能性推理arXiv预印本arXiv：1407.4981，2014年。一、二[13] Abner Guzman-Rivera，Dhruv Batra和Pushmeet Kohli。多项选择学习：学习产生多个结构化输出。神经信息处理系统的进展，第1799-1807页，2012年。2[14] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei AEfros.使用条件对抗网络的图像到图像翻译。arXiv预印本，2017年。2[15] 贾斯汀·约翰逊，亚历山大·阿拉希，李飞飞。实时风格转换和超分辨率的感知损失。欧洲计算机视觉会议，第694施普林格，2016年。2[16] 金子拓弘平松熏和香野国雄具有条件过滤生成对抗网络的生成属性控制器。2017年IEEE计算机视觉和模式识别会议（CVPR），第7006-7015页。IEEE，2017年。2[17] Levent Karacan ， Zeynep Akata ， Aykut Erdem ， andErkut Erdem.学习从属性和语义布局生成户外场景的图像。arXiv预印本arXiv：1612.00215，2016。2[18] Anders Boesen Lindbo Larsen ，Søren Kaae Sønderby，Hugo Larochelle，and Ole Winther.使用学习的相似性度量对像素之外的像素进行自动编码。arXiv预印本arXiv：1512.09300，2015。2[19] 古斯塔夫·拉尔森迈克尔·梅尔格雷戈里·沙赫纳洛维奇。学习自动着色的表示。欧洲计算机视觉会议，第577-593页。施普林格，2016年。2[20] Chri s tianLedig ， LucasTheis ， FerencHus za'r ， Jo seCaballero ， Andrew Cunningham ， Alejandro Acosta ，Andrew P Aitken ， Alykhan Tejani ， Johannes Totz ，Zehan Wang，et al.使用生成式对抗网络的照片级真实感单幅图像超分辨率。在CVPR，第2卷，第4页，2017年。2[21] Chuan Li和Michael Wand。利用马尔可夫生成对抗网络进行预计算实时纹理合成欧洲计算机视觉会议，第702施普林格，2016年。2[22] Ke Li和Jitendra Malik。隐式最大似然估计。arXiv预印本arXiv：1809.09087，2018。第1、3条[23] Ke Li，Shichong Peng，and Jitendra Malik.基于条件隐式最大似然估计的超分辨率。arXiv预印本arXiv：1810.01406，2018。3[24] Michael Mathieu，Camille Couprie，and Yann LeCun.超越均方误差的深度多尺度视频预测。arXiv预印本arXiv：1511.05440，2015。2[25] Mehdi Mirza和Simon Osindero条件生成对抗网。arXiv预印本arXiv：1411.1784，2014。2[26] Junhyuk Oh，Xiaoxiao Guo，Honglak Lee，Richard LLewis，and Satinder Singh.Atari游戏中使用深度网络的动作条件视频预测。神经信息处理系统的进展，第2863-2871页，2015年。2[27] Deepak Pathak 、 Philipp Krahenbuhl 、 Jeff Donahue 、Trevor Darrell和Alexei A Efros。上下文编码器：通过图像修复进行特征学习。在 Proceedings of the IEEEConference on Computer Vision and Pattern Recognition，第2536-2544页2[28] Scott E Reed，Zeynep Akata，Santosh Mohan，SamuelTenka，Bernt Schiele，and Honglak Lee.学习在哪里画什么。神经信息处理系统进展，第217-225页，2016年。2[29] 斯蒂芬河 Richter ， Vibhav Vineet ， Stefan Roth ， andVladlen Koltun.播放数据：从电脑游戏中得到的真相。Bastian Leibe，Jiri Matas，Nicu Sebe和Max Welling，编辑，欧洲计算机视觉4231（ECCV），LNCS的第9906卷，第102-118页。施普林格国际出版社，2016年。5[30] Patsorn Sangkloy，Jingwan Lu，Chen Fang，Fisher Yu，and James Hays. Scribbler：使用草图和颜色控制深度图像合成。在 IEEE 计算机视觉和模式识别会议（CVPR），第2卷，2017年。2[31] Karen Simonyan和Andrew Zisserman用于大规模图像识别的非常深的卷积网络。 arXiv 预印本 arXiv ：1409.1556，2014。4[32] NitishSrivastava，ElmanMansimov，andRuslanSalakhudi-nov.使用lstms的视频表示的无监督学习。国际机器学习会议，第843-852页，2015年。2[33] Carl Vondrick Hamed Pirsiavash和Antonio Torralba生成具有场景动态的视频。神经信息处理系统的进展，第613-621页，2016年。2[34] Ting-Chun Wang，Ming-Yu Liu，Jun-Yan Zhu，AndrewTao，Jan Kautz，and Bryan Catanzaro.基于条件gans的高分辨率图像合成与语义处理。arXiv预印本arXiv：1711.11585，2017。二、七[35] 王小龙和阿比纳夫古普塔。使用风格和结构对抗网络的生成图像欧洲计算机视觉会议，第318施普林格，2016年。2[36] Donggeun Yoo，Namil Kim，Sunggyun Park，AnthonyS Paek，and In So Kweon.像素级域转移。欧洲计算机视觉会议，第517施普林格，2016年。2[37] Fisher Yu ， Wenqi Xian ， Yingying Chen ， FangchenLiu ， Mike Liao ， Vashisht Madhavan ， and TrevorDarrell.Bdd100k：一个多样化的驾驶视频数据库，具有可扩展的注释工具。arXiv预印本arXiv：1805.04687，2018。五、八[38] Richard Zhang、Phillip Isola和Alexei A Efros。彩色图像着色。欧洲计算机视觉会议，第649-666页。施普林格，2016年。2[39] Richard Zhang 、 Phillip Isola 、 Alexei A Efros 、 EliShechtman和Oliver Wang。深度特征作为感知度量的不合理有效性。arXiv预印本，2018年。5[40] Jun-YanZhu ，PhilippKr？ henb？ hl，EliShechtman ，andAlexei A Efros.自然图像流形上的生成视觉操作。欧洲计算机视觉会议，第597-613页。施普林格，2016年。2[41] Jun-Yan Zhu ， Taesung Park ， Phillip Isola ， Alexei AEfros.使用循环一致对抗网络的不成对图像到图像翻译。arXiv预印本，2017年。2[42] Jun-Yan Zhu、Richard Zhang、Deepak Pathak、TrevorDarrell、Alexei A Efros、Oliver Wang和Eli Shechtman。向多模态图像到图像翻译。神经信息处理系统进展，第465-476页，2017年。一、二、七

下载后可阅读完整内容，剩余1页未读，立即下载