COCO-GAN：条件协调按部分生成

172 浏览量更新于2023-10-13 收藏 1.57MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1COCO-GAN：通过条件协调按部分生成林杰张嘉哲陈玉生大成涓3魏巍3陈焕宗1国立清华大学2国立台湾大学3Google AI摘要由于生物学的限制，人类只能与周围环境的一部分互动。因此，我们学会了通过一系列观察来推断空间关系，以拼凑周围的环境。受这种行为的启发以及机器也具有计算约束的事实，我们提出了COCO-GAN（COCO-GAN），其生成器基于其空间坐标作为条件生成零件的图像。另一方面，鉴别器学习通过全局一致性、局部外观和边缘交叉连续性来证明多个组装的补丁的真实性。尽管在训练过程中从未生成完整图像，但我们表明COCO-GAN可以在推理过程中生成最先进质量的完整图像。我们进一步展示了各种新的应用程序，使教学网络意识到的坐标。首先，我们对学习的坐标流形进行外推，并生成边界外的补丁。结合原始生成的完整图像，COCO-GAN可以生成比训练样本更大的图像，我们称之为“超边界生成”。然后，我们展示全景生成内的圆柱坐标系，固有地保留horizontally循环拓扑结构。在计算方面，COCO-GAN具有内置的分而治之的范例，减少了训练和推理期间的内存需求，提供了高并行性，并且可以按需生成部分1. 介绍由于生物学限制（例如中央凹的有限视敏度区域），人类感知只能部分地接近这种识别可以部分地完成，因为人类能够将这些局部视图的空间协调与环境（它们所处的位置）相关联，然后正确地进行评估。图1：COCO-GAN通过条件协调仅生成和区分完整图像的一部分。尽管在训练期间从未生成完整图像，但是生成器仍然可以在推理期间产生与标准GAN样本在视觉上不可区分的完整图像。尊重这些局部的观点，并认识到整个环境。目前，大多数计算视觉模型假设可以访问完整图像作为下游任务的输入，这有时可能成为现代视觉模型在处理大视场图像时的计算瓶颈。这种限制激起了我们的兴趣，并提出了一个有趣的问题：“有没有可能训练生成模型来了解用于生成局部视图的坐标系（即，图像的部分），其可以被组装成全局相干的图像？“传统GAN [9]的目标是学习一个生成器，该生成器对从先验潜在分布（通常是单位高斯）到真实数据分布的映射进行为了实现按部分生成高质量图像，我们在图像内引入坐标系，并将图像生成划分为独立的并行子过程。我们的框架，命名为COnditional坐标GAN（COCO-GAN），目的是学习坐标流形，是正交的潜在的分布流形。在对潜在向量进行采样之后，生成器对每个空间坐标进行调节，并在每个对应的空间位置处生成补丁另一方面，鉴别器学习判断相邻的补丁是否结构合理，视觉上均匀，并且在边缘上连续。4512犯罪者蒸汽发生器4513图2：COCO-GAN培训概述。隐向量被复制多次，与微坐标连接，并馈送到生成器以生成微补丁。然后，我们连接多个微观补丁，形成一个更大的宏观补丁。鉴别器学习区分真实和伪宏块以及预测宏块的坐标的辅助任务。请注意，仅在测试阶段生成完整图像（附录A）。补间多个面片。图1描述了高层次的想法。我们进行了一系列的实验，设置生成器，tor生成补丁下不同的配置。结果表明，COCO-GAN可以通过“Frchet Incep-tion Distance”（FID）[11]评分测量在多个设置中实现最先进的此外，令我们惊讶的是，即使生成的补丁大小设置小到4×4像素，由1024个单独生成的补丁组成的完整图像仍然可以组成，持续地形成完整的、可信的人脸。为了进一步证明生成器确实学习了坐标流形，我们对坐标条件进行了外推实验。有趣的是，生成器能够生成从未显式预处理的新颖内容输入真实数据。我们证明了 COCO-GAN 可以产生384×384的图像，比256×256的真实训练样本更大。我们称这种过程为“越界生成”;通过此过程创建的所有样本都保证是新样本，这是一个人工创造力的有力例子然后，我们研究了另一系列新的应用程序和优点所带来的教学网络要知道的坐标。第一个是全景生成。为了保持全景图像的原生水平循环拓扑结构，我们将圆柱坐标应用于COCO-GAN训练过程，并表明生成的样本确实是水平循环的。接下来，我们证明，strate的此外，作为一代用于计算受限环境的应用，例如移动和虚拟现实。最后但并非最不重要的是，我们表明，通过添加一个额外的预测分支，重建潜在的向量，COCO-GAN可以生成一个完整的图像相对于一个补丁的真实图像作为指导，我们称之为COCO-GAN揭示了通过条件协调生成高质量图像此属性支持各种新应用程序，并且可以进一步由具有编码-解码模式的其他任务使用。COCO-GAN具有“按部分生成”的2. COCO-GAN概况. COCO-GAN由两个网络（generator G和generatorD），两个坐标系（G的细粒度微观坐标和D的粗粒度宏观坐标）和三种尺寸的图像组成：完整图像（真实：x，生成：s）、宏补丁（real：x′，生成：s′）和微补丁（生成：s′′）。COCO-GAN的生成器是生成具有s”= G（z，c”）的微补丁的条件模型，其中z是潜在向量，并且c”是指定要生成的s”的空间位置的微坐标条件。G的最终目标是通过用合并函数组装一组s′′来生成逼真且无缝的完整图像。在实践中，我们发现将设置为无重叠的级联函数对于COCO-GAN来说已经足够了补丁程序是不相交的，COCO-GAN固有支持按需发电，特别适合AP-我们在附录B中列出了所有使用的符号4514（i，j）（i，j）（i，j）（i，j）充分CC（i，j）（i，j）（i，j）2.（i，j）（i，j）（i，j）来合成高质量的图像。请注意，宏补丁% s'S′′（i，j））作为一个粗略的局部视图，微斑块和小斑块也意味着裁剪转换图像全景。同时，我们指定s′与ψ，从真实图像X裁剪出宏块X’，其（i，j）′在宏坐标sys下的新的宏坐标c（i，j）用于对用于训练D的真实宏块进行采样。在上述设置中，连续块之间的接缝成为全图像真实性的主要障碍。为了缓解这个问题，我们用由多个微补丁组装的较大宏补丁来这样的设计旨在将多个连续或附近的微补丁的连续性和相干性引入对抗性损失的考虑中。为了欺骗鉴别器，生成器必须在生成的补丁之间的边界处闭合间隙。COCO-GAN 使用三个损失项进行训练：斑块Wasserstein损失L W、斑块梯度惩罚损失L GP和空间一致性损失L S。对于L W和L GP，与使用完整图像x进行G和D训练的传统GAN相比，COCO-GAN仅与宏补丁和微补丁合作。同时，空间一致性损失LS是ACGAN类[20]损失函数。根据曲面片的设计，我们可以计算出宏曲面片x ′的宏坐标c′。LS旨在最小化真实宏坐标c’与鉴别估计的宏坐标c’之间的距离损失。损失COCO-GAN的功能是.对于C ′′而言。在真实数据侧，我们直接采样宏坐标c′，然后使用裁剪函数ψ产生真实宏块x′=ψ（x，c′）。注意，微坐标C′′的设计选择也与微观/宏观坐标系的拓扑特征相关（例如，第3.4节中使用的圆柱坐标系）。在图2中，我们展示了我们在整个实验中采用微面片总是彼此相邻的，并且可以使用双线性插值直接组合成方形宏面片。我们观察到，设置为一个级联函数的G是足够的顺利学习，并最终产生无缝和高质量的图像。在测试阶段期间，取决于微坐标系的设计，我们可以推断出对应的空间坐标矩阵C”。这样的矩阵用于独立地产生构造完整图像所需的所有微块损失函数。补丁Wasserstein损失L W 是一L W+λL GP+αL S，对于鉴别器D，−L W+αL S，对于生成元G。（一）宏面片级 Wasserstein 距离损失类似于Wasserstein-GAN [1]损失。它迫使鉴别器在真实宏块x’和伪宏块s’之间进行区分，并且另一方面，鼓励鉴别器在真实宏块x’和伪宏块s’之间进行区分。空间坐标系我们从设计两个空间坐标系，一个微观坐标系生成元G的tem和宏坐标系生成器，以混淆与看似现实主义的微型补丁s"“。它的完整形式是对于《古兰经》。根据上述合并函数的设计，每个宏坐标LW=Ex，c′′[D（ψ（x，c））]−Ez，C′′[D（（G（z，C ′′））]. （二）natec′与微坐标矩阵相关联再次注意，G（z，C′′）表示微斑块′′（i，j）Σ′′ΣC（i，j）=c（i：i+N，j：j+M），其完全形式为是通过独立的过程产生的。我们应用梯度惩罚[10]对宏块区分：′′（i，j）′′（i，j+1）′′（i，j+M−1）Σ′Σ′C′′′′（i+1，j）′′（i+1，j+1）′′（i+1，j+M−1）LGP=Es （sD（s）2−1）、（3）（i，j）=.... ..。′ ′ ′...′′ ′′ ′′其中，s=s+（1−）x的计算方法为tΣweenΣ随机c（i + N −1，j）c（i + N −1，j +1）. . .c（i+N−1，j+M−1）成对的s′和x′与一个随机数∈0，1。在COCO-GAN训练期间，我们对C ′′的所有组合进行均匀采样。发电机G对每个微坐标c′′，并学习相应地产生最后，空间一致性损失LS类似于AC-GAN损失[20]。鉴别器配备有辅助预测头A，其目的是估计宏（i，j）′′ ′′给定宏面片的坐标与A（x′）。一个小小的差异--微片s（i，j）乘G（z，c（i，j））。gener的矩阵-因此，C′′和C′都具有相对更大的连续性。带栅微贴片S′′C′′（i，j））在以下地方生产这些值比ACGAN的离散设置因此，在本发明中，同时共享相同的潜在向量z微坐标矩阵。C′′结构的设计原则是，我们对LS应用距离测量损失，这是L2损失。它的目的是训练G生成相应的微补丁G（z，c′′）相对于给定的空间条件。因此生成的微补丁S”应该是tionc′′。空间一致性损失为在空间上彼此接近那么微型贴片由合并函数合并以形成完整LS=E[cc′′-A（x）2]。=（C. . .CC. . .C=G（z，..′4515（四）4516(a) CelebA（N2，M2，S32）（完整图像：128×128）。（b）LSUN卧室（N2，M2，S64）（全图：256×256）。图3：COCO-GAN生成视觉平滑且全局一致的完整图像，无需任何后处理。从上到下的三行显示：（a）所生成的全图像，（b）宏块，以及（c）微块。对于前五列，每列使用相同的潜在向量，例如，最左边的全图像（第一行）、最左边的微补丁（第二行）和最左边的微补丁（第三行）共享相同的潜在向量。请注意，由于大小不同，列未对齐。更多结果见附录F。3. 实验3.1. 按部件生成的质量我们首先在CelebA [16]和LSUN [30]（卧室）上验证COCO-GAN。为了验证COCO-GAN可以在不访问完整图像的情况下学习生成完整图像，我们首先对两个数据集进行基本设置其中宏块边缘长度（ CelebA ： 64×64 ， LSUN ：128×128 ）是全图像的 1/2 ，并且微补丁边缘长度（CelebA：32 × 32，LSUN：64 × 64）是宏补丁的1/2。我们将上述情况表示为CelebA(N2，M2，S32）和LSUN（N2，M2，S32），其中N2和M2S32表示宏块由2X2个微块组成，并且S32表示每个微块是32X32个像素。我们在图3中的结果表明，COCO-GAN在微补丁大小为全图像的1/16的设置下生成高质量图像。为了进一步表明COCO-GAN可以在相同的宏块大小设置下学习更多的细粒度和微小的微块，我们从32×32，16×16，8×8，4×4扫描微块的分辨率，分别标记为（N2，M2，S32），（N4，M4，S16），（N8，M8，S8）和（N16，M16，S4）。图4所示的结果表明，COCO-GAN可以学习坐标信息，即使是非常微小的4 ×4像素微补丁也可以按部分生成图像。我们报告Frchet起始距离（FID）[11]，以Ta-表1与最先进的GANs的比较。在没有额外的超参数调整的情况下，定量结果表明COCO-GAN与其他最先进的GAN相比具有竞争力。在附录L中，我们还提供了Wasserstein距离和FID评分作为培训指标。曲线表明COCO-GAN在训练期间是稳定的。3.2. 潜空间连续性为了更精确地证明空间连续性，我们在两个方向上执行插值实验：“全图像插值”和“坐标插值”。我们在附录C中描述了模型细节和超参数（a）CelebA（N4，M4，S16）（完整图像：128×128，FID：10.82）。（ b ） CelebA （ N8 ， M8 ， S8 ）（全图： 128×128 ，FID ：15.99）。（c）CelebA（N16，M16，S4）（全图：128×128，FID ：23.90）。图4：各种尺寸的微补丁（从16×16到4×4，甚至比任何人脸器官都小）始终生成视觉平滑和全局一致的完整图像。每个子图由三行组成，从上到下：完整图像、宏块和微块。对于前五列，每列使用相同的潜在向量（类似于图3）。最好以高分辨率查看，因为微补丁非常小。更多生成结果见附录F。全图像插值。直观地，全图像间插值对于COCO-GAN是具有挑战性的，因为用不同空间坐标生成的所有微块必须全部同步改变以使全图像插值平滑。尽管如此，如图5所示，4517×充分CelebACelebALSUNLSUNCelebA-HQ数据集64×64128×128卧室64 64卧室256×2561024×1024DCGAN [22]+ TUR [11]WGAN-GP [10]+ TTUR [11]12.5 - 57.5-九点五IntroVAE [12]-8.84-PGGAN [13]-7.30 - 8.347.48图5：两个潜在向量之间的全图像插值的结果显示，所有微补丁响应于潜在向量的变化项目D[19](our主干）我们的（N2、M2、S32）十九块五毛五4.00 5.74 5.20 5.99* 9.49*更多插值结果见附录G。表1：FID评分表明COCO-GAN与其他最先进的生成模型具有竞争力。FID分数是基于https://github.com/bioinf-jku/TTUR提供的原始实现在50，000个真实样本和生成样本之间测量的。请注意，所有FID评分（项目除外）均为D）是官方公布的数字。用于评估的真实样本从训练中保持出来。我们凭经验发现COCO-GAN可以平滑和同步地插值，而不会产生不自然的伪影。我们随机抽取两个潜在向量z1和z2。对于z1和z2之间的slerp路径[27]中的任何给定插值点z′，生成器使用完整的空间坐标se-图6：空间坐标插值的示例，示出了微片的空间连续性。空间坐标在微坐标的范围[-1，1]之间用固定的本征向量插值。更示例见附录I。序列C”以生成所有对应的片。然后我们将所有生成的微块集合在一起并形成生成的完整图像S。坐标插值。插值实验的另一个维度是类间（例如在空间坐标条件之间）用固定的本征向量进行插值。我们用固定的潜在向量z线性插值[-1，1]之间的空间坐标。图6中的结果表明，尽管我们仅对离散空间坐标集内的空间坐标进行均匀采样，但空间坐标集的空间分布仍然是均匀的。坐标插值仍然是整体连续的。有趣的观察是关于眉毛之间的位置处的插值。在图6中，由于离散和稀疏的空间坐标采样策略，COCO-GAN不知道两眼之间眉间的存在。相反，它学会直接变形眼睛的形状，从一只眼睛切换到另一只眼睛。这种现象引发了一个有趣的讨论，即使模型学习生成高质量的人脸图像，它仍然可能学习场景背后对象的错误关系。3.3. 超越边界生成COCO-GAN实现了一种新型的图像生成，这是GAN以前从未实现过的：生成比任何训练样本都大的完整图像抓痒.你知道在这种情况下，所有生成的图像都被保证是新颖的和原始的，因为这些生成的图像甚至不存在于训练分布中。一个支持的证据是，生成的图像具有比训练数据中的任何样本更高的分辨率。相比之下，现有的GAN大多在创建后具有固定的输出形状，并且证明生成器可以通过在生成的样本之间进行插值来产生GANs学习流形的一个共同和有趣的行为是，在大多数情况下，生成器仍然可以产生潜在向量稍微超出训练分布的合理样本，我们称之为外推。我们凭经验观察到，在固定z的情况下，可以在超出训练坐标分布的坐标条件上进行然而，由于在训练期间没有考虑这些位置处的块之间的连续性，因此所生成的图像可能在边界处示出轻微的不连续性。作为解决方案，我们应用一个简单的后训练过程（在附录E中描述）来提高补丁之间的连续性。在图7中，我们对*由于计算资源的限制，模型没有完全收敛。人们可以用更多的GPU天获得甚至更低的FID。4518图7：请注意，生成的样本为384×384像素，而所有训练样本的分辨率均为256×256。红色框注释了256 ×256无外推的常规生成区域。更代样本见附录E。在LSUN数据集上训练的COCO-GAN的（N4，M4，S64）变体的检查点然后，我们展示了COCO-GAN生成高质量的384×384图像：原始大小为256，每个方向扩展一微米补丁（64像素），结果大小为384×384。请注意，该模型实际上是在256×256张图像上训练的。3.4. 全景生成部分生成使用GANs生成网络是一个有趣的问题，但从未被仔细研究过。不同于正常的图像生成，全景被期望为在水平方向上是圆柱形和循环的。然而，如果没有特殊类型的填充机制支持，正常的GAN不具有处理这种循环特征的内置能力相比之下，COCO-GAN是一个坐标系统感知的学习框架。我们可以容易地采用圆柱坐标系，并且生成在水平方向上具有“循环拓扑”的为了在圆柱坐标系下用全景数据集训练COCO-GAN，需要稍微修改空间坐标采样策略在水平方向上，归一化范围内的采样值[-1，1]被视为角度值θ，然后分别用cos（θ）和sin（θ）上的原始采样策略垂直轴，形成圆柱坐标系。我们在Matterport3D [2]数据集上进行实验。我们首先采用数据集的天空盒格式，该数据集由3D立方体的六个面组成。我们进行预处理和投影使用墨卡托投影将天空框转换为圆柱体，然后将大小调整为768×512分辨率。由于墨卡托投影在北极和南极附近造成了极端的稀疏，缺乏信息，我们直接去除了上1/4和下1/4区域。最终，全景的大小我们用于训练的像素是768×256像素。我们还发现COCO-GAN有一个有趣的联系虚拟现实（VR）已知VR由于高帧率要求和高分辨率要求而具有紧张的很难生成全场景使用标准生成模型进行实时VR。最近的一些关于全向视图渲染和流传输的VR研究[6，21，5]专注于通过适应用户的视口来降低计算成本或网络带宽。COCO-GAN具有逐部分生成的特点，可以很容易地继承相同的策略，并根据用户的观点实现按需计算这种策略可以大大减少感兴趣区域之外的不必要的计算成本，从而使VR中的图像生成更具适用性。3.5. 贴片引导图像生成我们进一步探索一个有趣的应用程序的COCO-GAN命名为“补丁引导图像生成”。通过在D内训练预测每个生成的宏补丁s’的潜在向量的额外辅助网络Q，判别器能够找到潜在向量zest=Q（x’），其生成类似于所提供的真实宏补丁x’的宏补丁。此外，估计的潜在向量z_est可以应用于全图像生成过程，并且最终生成部分类似于原始真实宏块而全局相干的图像。该应用与一些双射方法[8，7，3]共享类似的上下文此外，该应用程序也类似于图像恢复[14，28，29]或图像外绘[23]。然而，这些相关的应用程序严重依赖于来自周围环境的信息，而这些信息不能从单个宏补丁完全访问。在图9中，我们表明我们的方法对严重受损的图像具有鲁棒性更多样本和分析见附录K。3.6. 计算友好生成高分辨率图像生成[13，17，12]的最新研究已经取得了很多成功;然而，这些现有方法之间的共同点是计算是存储器饥饿的。因此，这些方法做出一些妥协以减少内存使用[13，17]。而且，如果没有特定的硬件支持，这个内存瓶颈就不能轻易地重新解决，这使得生成超过1024×1024分辨率的图像很难实现。这些高分辨率的图像是由...仅在全景图、街景图和医学图像中可见相比之下，COCO-GAN只需要完整图像的部分视图来进行训练和推理。请注意，用于训练（和进行推断）GAN的内存消耗相对于图像大小近似线性增长。由于仅使用部分视图，COCO-GAN将内存消耗的增长更改为与宏补丁的大小而不是整个图像相关联。例如，在CelebA128×128数据集上，COCO-GAN的（N2，M2，S16）设置减少了内存占用。45190° 360° 720°图8：所生成的全景图在水平方向上是循环的，因为COCO-GAN是用圆柱坐标系训练的。在这里，我们将相同的生成的全景图粘贴两次（从360◦到720◦），以更好地说明生成的全景图的循环特性。更多生成结果见附录H。宏补丁部分转化我们图10：显示宏块小于完整图像的1/16会导致COCO-GAN学习不正确的空间关系的示例。请注意，由于每个数据集的性质（局部结构、纹理等）不同，该值可能会有所不同。图9：补丁引导图像生成松散地保留了原始图像的局部结构，并使完整图像仍然全局一致。质量优于部分卷积[14]。蓝色框显示预测的空间坐标A（x′），而红色框表示地面实况坐标c′。注意，不期望所生成的图像与原始真实图像相同。更多示例见附录K。从17，184MB（我们的投影鉴别器主干）到8，992MB（即，减少47.7%），批量为128。然而，如果宏块的大小太小，则COCO-GAN将被误导以学习不正确的空间关系。在图10中，我们展示了一个大小为32×32的宏观贴片和大小为 16×16 的微观贴片的实验。注意低质量（即，复制的面）。根据经验，宏补丁大小的最小要求因不同的数据集而异;例如，COCO-GAN不显示在第3.4节中的全景生成中类似的质量差，其中宏补丁大小是完整全景的1/48。关于a）如何减轻这种影响（例如，增加D的感受场而不损害性能）和b）如何评估适当的宏观片尺寸的未来研究可以进一步推进逐部分生成属性，特别是在生成大视场数据时。3.7. 消融研究在表2中，消融研究旨在分析COCO-GAN的每个组分的权衡我们执行前-模型最佳FID（150个时期）COCO-GAN（续）抽样）6.13COCO-GAN +最佳D4.05COCO-GAN +最优G6.12多重G7.26COCO-GAN（N2，M2，S16）4.87表2：消融研究表明，COCO-GAN（N2，M2，S16）在CelebA64×64数据集上可以很好地收敛，收敛速度几乎没有折衷CelebA 64 × 64中的实验，具有四种消融配置：“连续采样”演示了对空间坐标采用连续均匀采样策略在训练过程中会造成中等的发电质量下降;“最优D“使生成器在生成微补丁的同时直接识别完整图像;“最优G”使生成器直接生成完整图像，而鉴别器仍然鉴别宏块;“多个G”针对每个空间坐标训练单独的生成器。我们观察到，令人惊讶的是，尽管收敛速度不同，但如果有足够的训练时间，“最优搜索”，COCO-GAN和“最优生成器”（按收敛速度从快到慢排序）都可以实现类似的FID分数。收敛速度的差异是预期的，因为相比之下，4520收敛速度比COCO-GAN慢。最后，“多个发电机”设置不能很好地收敛。尽管它也可以像COCO-GAN那样连接没有明显接缝的微块，但全图像结果通常不能一致并且不连贯。更多实验细节和生成的样本见附录J。3.8. 非对齐数据集很容易混淆的是，坐标系会限制COCO-GAN在对齐程度较低的数据集上学习。事实上，这完全不是真的。例如，LSUN的卧室类别，床的位置、尺寸和取向是非常动态和不对齐的。另一方面，Matterport3D全景图在水平方向上完全不对齐。为了进一步解决所有潜在的问题，我们提出了CelebA-syn，它在原始数据上应用随机位移（与数据增强不同，这种预处理直接影响数据集）来弄乱面部对齐我们首先将原始图像修剪为128×128。左上角的位置采样为（x，y）=（25+dx，50+dy），其中dxU（−25，25）和dyU（−25，25）。然后我们将修剪后的图像调整为64×64进行训练。如图11所示，COCO-GAN可以在bly创建高多样性的合理样本（也注意眼睛位置处的高多样性）。图11：COCO-GAN可以学习和合成在非对齐的Celeba-syn上具有不同位置的样品。4. 相关工作生成对抗网络（GAN）[9]及其条件变体[18]已经显示出它们在许多不同任务中的潜力和灵活性。最近对GAN的研究集中在生成高分辨率和高质量的在不同的设置合成图像。例如，生成分辨率为1024×1024的图像[13，17]，生成低质量合成图像作为条件[24]，以及通过应用分割图作为条件[26]。然而，这些先前的作品共享类似于-假设：模型必须在单个镜头中处理和生成完整图像当目标图像的大小相对较大时，这种假设消耗了不可避免的且大量的存储器寻找解决这个问题的方法是这项工作的最初动机之一。COCO-GAN 与 Pixel-RNN [25]有一些相似之处，Pixel-RNN是像素级生成框架，而COCO-GAN是补丁级生成框架。Pixel-RNN将图像生成任务转换为序列生成任务，并直接最大化对数似然。相比之下，COCO-GAN旨在分解空间维度上微补丁之间的计算依赖关系，然后使用对抗损失来确保相邻微补丁之间的平滑性。CoordConv [15]是另一种类似的方法，但具有根本的差异。CoordConv直接向卷积核提供空间定位信息，以便解决坐标变换问题，并且在不同任务中显示出多个改进相比之下，COCO-GAN使用空间坐标作为GANs训练的辅助任务，这强制生成器和鉴别器学习生成的微补丁之间的协调和相关性我们还考虑将CoordConv并入COCO-GAN。然而，实证结果显示，几乎没有视觉上的改善。5. 结论与讨论在本文中，我们提出了COCO-GAN，一种新的GAN纳入条件协调机制。COCO-GAN实现了“按部件发电”，并展示了发电质量与最先进技术相比具有竞争力。COCO-GAN还实现了几个新的应用程序，如(a) 处理大视场的产生和（b）减少计算需求。特别地，给定随机潜在向量，超边界生成通过外推学习的坐标流形来生成大于任何训练样本的图像，这仅由COCO-GAN实现。未来的研究扩展此属性到其他任务或应用程序可能会进一步利用这样的分布生成范例。虽然COCO-GAN已经实现了与最先进的GAN相当的高生成质量，但对于几个生成的样本，我们仍然观察到局部结构可能会中断或斑驳。这建议进一步研究可应用于COCO-GAN的额外改进或混合方法，以生成更稳定和可靠的样本。确认我们衷心感谢David Berthelot和Mong-li Shih提出的有见地的建议，以及国家高性能计算中心提供的计算机时间和设施。Hwann-Tzong Chen部分得到了MOST赠款 107-2634-F-001-002 和 107-2218-E-007-047 的支持。4521引用[1] Mar t'ınArj o vs ky ， SoumithChintala ， andL e'onBottou.Wasserstein 生成对抗网络 InProceedings of the 34thInternational Conference on Machine Learning ， ICML2017，Sydney，NSW，Australia，6-11 August 2017，pages 214[2] 天使 X 放大图片作者： Angela Dai ， Thomas A.Funkhouser ， Ma- ciej Halber ， Matthias Nießner ，Manolis Savva，Shuran Song，Andy Zeng，and YindaZhang.Matterport3d ：从室内环境中的 RGB-D 数据学习。2017年3D视觉国际会议，3DV 2017，中国青岛，2017年10月10-12日，第667-676页，2017年[3] Chia-Che Chang ， Chieh Hubert Lin ， Che-Rung Lee ，Da- Cheng Juan，Wei Wei，and Hwann-Tzong Chen.从受约束空间中的折叠模式中退出。在欧洲计算机视觉会议（ECCV）上，2018年9月。[4] Hsien-Tzu Cheng，Chun-Hung Chao，Jin-Dong Dong，Hao-Kai Wen，Tyng-Luh Liu，and Min Sun.立方体填充用于360视频中的弱监督显着性预测。在IEEE计算机视觉和模式识别会议上，2018年6月。[5] Xavier Corbillon，Alisa Devlic ，Gwendal Simon ，andJacob Chakareski.用于视口自适应流的360度视频的最佳集合。在 Proceedings of the 2017 ACM on MultimediaConference，MM 2017，Mountain View，CA，USA，October 23-27，2017，pages 943[6] Xavier Corbillon，Gwendal Simon，Alisa Devlic ，andJacob Chakareski.视口自适应导航360度视频传输。在IEEE国际通信会议，ICC 2017，法国巴黎，2017年5月21日至25日，第1[7] Jeff Donahue Philipp Krnbhl和Trevor Darrell。对抗性特征学习。在2017年国际学习代表会议上[8] Vincent Dumoulin、Ishmael Belghazi、Ben Poole、AlexLamb 、 Martin Arjovsky 、 Olivier Mastropietro 和 AaronCourville。逆向学习推理。在2017年国际学习代表会议上[9] Ian J. Goodfellow，Jean Pouget-Abadie，Mehdi Mirza，Bing Xu，David Warde-Farley，Sherjil Ozair，Aaron C.Courville和Yoshua Bengio。生成性对抗网。神经信息处理系统的优势27：2014年神经信息处理系统年会，2014年12月8日至13日，加拿大魁北克省蒙特利尔，第2672-2680页，2014年。[10] Ishaan Gulrajani ， Faruk Ahmed ， Mart´ın Arjovsky ，Vincent Dumoulin，and Aaron C.考维尔改进的瓦瑟斯坦甘斯训练。在神经信息处理系统的进展30：2017年神经信息处理系统年会，2017年12月4日至9日，美国加利福尼亚州长滩，第5769-5779页，2017年。[11] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。神经信息处理系统进展30：神经信息处理Systems 2017，2017年12月4-9日，美国加利福尼亚州长滩，第6629-6640页[12] 黄怀波，李志航，何然，孙振安，谭铁牛. Introvae：用于摄影图像合成的内省变分自动编码器。在神经信息处理系统的进展31：2018年神经信息处理系统年会，NeurIPS 2018，2018年12月3日至8日，加拿大蒙特利尔。，2018年。[13] Tero Karras ， Timo Aila ， Samuli Laine ， and JaakkoLehtinen.为提高质量、稳定性和变异性而进行的干细胞生长。CoRR，abs/1710.10196，2017。[14] Liu Guilin ， Fitsum A. 凯文 · 瑞达 Shih ， Ting-ChunWang，Andrew Tao，and Bryan Catanzaro.基于部分卷积的不规则孔洞图像修复。CoRR，abs/1804.07723，2018。[15] Rosanne Liu 、 Joel Lehman 、 Piero Molino 、 FelipePetroski Such 、 Eric Frank 、 Alex Sergeev 和 JasonYosinski。卷积神经网络和coordconv解决方案的有趣失败。在神经信息处理系统的进展31：2018年神经信息处理系统年会，NeurIPS 2018，2018年12月3日至8日，加拿大蒙特利尔。，第9628-9639页，2018年。[16] Ziwei Liu ， Ping Luo ， Xiaogang Wang ， and XiaoouTang.在野外深度学习人脸属性。在2015年12月的国际计算机视觉会议（ICCV）的会议记录中[17] 拉尔斯·M Mescheder，Andreas Geiger，and SebastianNowozin.对甘斯来说，哪种训练方法实际上是一致的？在第 35 届机器学习国际会议论文集， ICML2018 ，Stockholmsmässan ，瑞典斯德哥尔摩，2018年7月10日至15日，第3478-3487页，2018年。[18] Mehdi Mirza 和 Simon Osindero 条件生成对抗网。CoRR，abs/1411.1784，2014。[19] 宫人武和小山正则。具有投影鉴别器的CGNSCoRR，abs/1802.05637，2018。[20] Augustus Odena，Christopher Olah，and Jonathon Shlens.辅助分类器gans的条件图像合成。在第34届机器学习国际会议论文集，ICML 2017，澳大利亚新南威尔士州悉尼，2017年8月6日至11日，第2642-2651页[21] Cagri Ozcinar，Ana De Abreu，and Aljosa Smolic.视口感知自适应360◦视频流使用虚拟现实的瓷砖。2017年IEEE图像处理国际会议，ICIP 2017，中国北京，9月17-20日2017，第2174-2178页[22] 亚历克·雷德福卢克·梅斯和苏米特·钦塔拉使用深度卷积生成对抗网络进行无监督表示学习 CoRR ，abs/1511.06434，2015。[23] 马克·萨比尼和吉利·鲁萨克。画在盒子外面：我和甘斯一起画画。arXiv预印本arXiv：1808.08483，2018。[24] Ashish Shrivastava，Tomas Pfister，Oncel Tuzel，JoshuaSusskind，Wenda Wang，and Russell Webb. 通过对抗训练从模拟和无监督图像中在2017年IEEE计算机视觉和模式识别会议，CVPR 2017，檀香山，HI，美国，2017年7月21日至26日，第2242-2251页4522[25] Aa¨ronvandenOord，NalKalchbrenner，andKorayKavukcuoglu. 像素递归神经网络。InProceedings of the 33nd International Conference onMachine Learning，ICML 2016，New York City，NY，USA，June 19-24，2016，pages 1747[26] Ting-Chun Wang，Ming-Yu Liu，Jun-Yan Zhu，AndrewTao，Jan Kautz，and Bryan Catanzaro.基于条件gans的高分辨率图像合成与语义处理。CoRR，abs/1711.11585，2017。[27] 汤姆·怀特采样生成网络：注意一些有效的技术。CoRR，abs/1609.04468，

下载后可阅读完整内容，剩余1页未读，立即下载