无限场景图像生成的高分辨率方法及数据集【总结】

100 浏览量更新于2023-10-15 收藏 3.27MB PDF 举报

高分辨率图像

数据集介绍

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

14144对齐潜在空间和图像空间以连接不可连接的部分Ivan Skorokhodov1，Grigorii Sotnikov2，3，4，Mohamed Elhoseiny11阿卜杜拉国王科技大学King Abdullah University of Science and Technology（KAUST）2梯度，3高等经济学院，4斯科尔科沃科学技术ivan. kaust.edu.sagdsotnikov@edu.hse.rukaust.edu.sa图1：我们的方法可以生成各种复杂场景的无限图像，这些图像可以从一个场景自然过渡到另一个场景。它在没有任何条件的情况下这样做，并且在没有任何监督的情况下从不相关的正方形图像数据集进行训练摘要在这项工作中，我们开发了一种方法来生成无限的高分辨率图像，具有多样性和复杂的内容。它是基于一个完美的等变块式发电机与同步插值的图像和潜在的空间。潜在代码在被采样时被定位在坐标网格上，并且每个像素是从相邻代码的插值计算的。我们修改AdaIN机制以在这样的设置中工作，并训练GAN模型以生成位于任何两个潜在向量之间的图像。在测试时，这允许生成各种场景的无限大图像，这些场景自然地从一个场景过渡到另一个场景。除此之外，我们还介绍了LHQ：90k高分辨率自然景观的新数据集。我们在LHQ、LSUN Tower和LSUN Bridge上测试了该方法，并且在所产生的无限图像的质量和多样性方面超过基线至少4倍该项目的网站位于https://universome.github.io/alis。1. 介绍现代图像生成器通常被设计成合成具有某些固定大小和宽高比的图片的然而，真实世界在任何捕获的照片的边界之外继续，因此为了匹配这种行为，一些最近的作品开发了产生无限大图像的架构[29，10，57]，或者部分外推到其边界之外的图像[25，43，57]。大多数关于无限图像生成的先前工作集中在同质纹理样图案的合成上[20，2，29]，并且没有探索复杂场景（如自然或城市景观）的无限生成。与纹理合成相比，生成此类图像的关键挑战是使所生成的帧彼此全局一致：当一个场景跨越几个帧时，它们都应该以某些共享信息为条件。据我们所知，现有的工作探索了三种方式来实现这一点：1）每个场景拟合单独的模型，因此共享信息被编码在模型[29，40，53，11]）;2）在全局潜在向量上调节整个生成过程[57，25，43];以及3）自回归地预测空间潜在代码[10]。第一种方法需要有一个大分辨率的照片（如卫星图像），并产生的图片，其风格和语义的变化是有限的给定的图像。第二种解决方案由于使用单个全局潜码，因此只能执行一些有限的外推14145wx=（（d−6−p）∙ wl+（6+p）∙ wc）/d6pD⇠2xlxxc并仅修改其生成器组件。最初，Style-GAN 2通过调制和解调卷积权重将潜在向量传递到解码器中-自适应实例归一化层（AdaIN）的调整[18]。对于我们的生成器，我们重新设计了AdaIN，使其与xr基于坐标的潜在向量，并在空间上开发-图2：我们的对齐程序的图示。我们在2D坐标空间上定位初始潜在代码（锚点），并计算每个位置X的潜在代码wX作为其两个相邻锚点之间的线性插值。不能包含无限风景的多样性（我们的实验也证实了这一点）。第三种方法是最新和最有原则的方法，但自回归推理非常慢[15]：使用[10]的方法生成单个2562与[10]一样，这项工作也试图建立一个在其生成过程中具有全球一致性和多样性的模型。然而，与[10]相反，我们从不同的角度来处理这个问题我们不是缓慢地自回归生成局部潜在代码（使它们彼此一致），而是独立地生成几个全局潜在代码，并训练生成器将它们连接起来。我们建立在最近提出的基于坐标的解码器之上，该解码器基于像素的坐标位置[ 28，25，43，1，5 ]产生图像，潜在代码，当采样时，被定位在2D坐标空间上-它们构成生成过程的“锚”。接下来，独立于图像的其余部分计算每个图像块，并且通过附近锚之间的线性插值来如果锚点之间的距离dR图2中示出了对齐潜在空间和图像空间（ALIS）的这种想法。我们设置的一个重要组成部分是使用傅立叶坐标嵌入[42，45]，它提供了关键的位置信息，并有助于对高频细节进行建模。我们从INR-GAN继承他们的设计[43]。我们的模型是基于GAN的[14]，生成器经过训练，可以从空间中的任何位置生成看似合理的图像。这与仅从构成单个帧大小的[0，1]2使该模型推广到空间任意位置，不需要输入全局坐标信息。相反，我们仅输入其相对于相邻锚点的位置，而相邻锚点又可以在x轴上任意定位。我们利用StyleGAN2架构[24]进行我们的方法对齐的AdaIN（SA-AdaIN），在第3节中描述。我们的模型是以完全无监督的方式从不相关的正方形图像作物的数据集进行训练的，即它在训练期间从未看到完整的全景图像或甚至相同全景的不同部分。通过训练它产生位于描述不同内容的任意锚点之间的真实图像（例如，山脉和森林），它学会将不相关的场景连接到单个全景中。该任务可以被视为学习在位于语义上非常不同的位置处的两个视点之间生成相机转换。我们在几个LSUN类别和Landscapes HQ（LHQ）上测试了我们的方法：一个新的数据集组成的90k高分辨率自然景观图像，我们在这项工作中介绍。我们在无限图像质量方面优于现有的所有数据集基线至少4倍和至少30%的生成速度。2. 相关工作坐标调节。坐标调节是基于NeRF [33，30]和占用建模[32，6，26]方法中最受欢迎的。[35，4，41]训练了一个基于坐标的生成器，该生成器对一个体积进行建模，然后将其渲染并传递给鉴别器。然而，最近的几项工作表明，提供位置信息也可以帮助2D世界例如，它可以提高几个基准[28，1]的性能，并导致一些有吸引力的特性的出现，如外推[25，43]或超分辨率[43，5]。设计基于坐标的方法中的一个重要问题是如何将位置信息嵌入到模型中[50，13]。大多数作品依赖于原始坐标[28，57]或具有对数线性分布频率的周期性嵌入[33]。[42，45]最近表明，使用高斯分布频率是一种更有原则的方法。[38]开发了一种用于位置嵌入的渐进增长技术。无限图像生成。关于无限图像生成的现有工作主要考虑仅生成纹理状和图案状图像[20，2，11，29，39]，使其类似于程序生成[37，34]。SinGAN[40]在单个图像上训练GAN模型，并能够产生其变化。生成具有多样、复杂和全局连贯内容的无限图像是一项更复杂的任务，因为需要无缝连接局部和全局特征。LocoGAN [57]和驯服变换器（TT）[10]生成具有任意方面的图像。WLWCWR141462·--TiO2，因此可以用于无限图像生成。LocoGAN [57]使用单个全局潜在代码，这导致内容重复（见图7）。TT [10]自回归地产生潜在代码，这使得生成的内容更加多样化，但代价是在测试时变慢。[27]提出了一个模型和一个数据集，用于从单个RGB帧沿着相机轨迹生成一系列图像。我们的方法与图像拼接有一些相似之处[44]，但不是将现有图像无接缝连接起来，而是从头开始生成无限全景。[21]通过从大量图像集合中执行图像检索+拼接来构建无限图像图像外推。另一个密切的研究是图像外推（或图像仅在给定图像的一部分的情况下预测图像的周围环境。该领域的最新方法依赖于使用GAN来预测外围图像块[16，46，51]。这些方法相比，我们的问题设计的根本区别是依赖于输入图像作为一个起点的生成过程。自适应归一化。基于实例的归一化技术最初是在风格转移文献[12]中开发的。实例归一化[47]被提出来通过用样式图像的统计数据替换内容图像的统计数据来改进前馈样式传输[48]。CIN [9]为每种样式学习了单独的缩放和移位参数。AdaIN [18]进一步发展了这个想法，并使用由一个单独的模块产生的移位和缩放值来执行从任意图像的形式风格转移。类似于StyleGAN[23]，我们使用AdaIN [18]，而不转移到向生成器输入潜在信息但在其设置相反，我们计算的规模权重插值附近的潜码使用它们的坐标位置，而不是使用- ING全球的整个图像。等变模型[55]将平均操作添加到卷积块以改善其对移位的不变性/等变性。[36]探索了现有分类器中的自然等方差特性。[8]开发了一个与球体旋转等变的卷积模，[7]将其推广到其他对称性。在我们的例子中，我们手动构建一个模型，使其与坐标空间中的位移等变。3. 方法我们建立在StyleGAN2 [24]架构上，仅修改其生成器G，如图4所示。所有其他组件，包括鉴别器D，损失项和优化过程，都保持不变。要使用我们的生成器生成图像，我们首先需要对锚点进行采样：定义图像所在空间区域在这项工作中，我们只考虑水平无限图像生成。因此，我们只需要三个锚来定义上下文：左锚WL、中心锚WC和右锚WR。以下6= 06= 1/26= 1x= 0.7x= 0.7x= 1.45x= 1.45图3：我们的生成器通过构造具有等方差属性：我们分别用0、1 / 2和1的坐标移位来描绘三个样本，并且这使得所得到的输出相应地移动。如虚线所突出显示的，当像素值的坐标对于不同的样本相等（高达数值精度）时，像素值相等对于任何移位s2（-1，1），样本保持相同的质量和多样性。在GAN2中，我们使用映射网络wF（z）生成一个潜在代码w，其中zN（0，Idz）。要生成图像，我们首先需要定义它在空间中的位置。它相对于左锚点wl由其左边界6[0，2dW]的位置定义，其中d是锚点之间的距离，W是帧宽度。以这种方式，6给出了将图像定位在任何位置的灵活性。在WL和WR锚之间，在由锚控制的区域在训练期间，分别沿着x轴将wl、wc、wr定位在位置d、0、d中，并且对δ进行随机采样。在测试时间，我们在位置0，d，2d，3d，. 并以θ=W的步长沿x轴移动，同时产生新的图像。这在图5中示出。传统的StyleGAN2通过类似AdaIN [18]的权重解调机制将潜在代码输入到解码器中，这不适合我们的设置，因为我们根据特征坐标位置使用不同的潜在代码这迫使我们将其修改为空间对齐 AdaIN （ SA-AdaIN），我们在第3.2节中描述。我们的生成器架构是基于坐标的，并且受[25]的启发，我们将图像生成为16个独立的垂直补丁，然后将其连接在一起（参见B的插图）。需要独立生成，以使生成器学习如何使用坐标信息缝合附近的面片：在测试时，它将把无限数量的数据拼接在一起。这样的设计也产生了一个有吸引力的性质：我们在图3中举例说明了空间等效性。它源于这样的事实，即每个补丁不依赖于附近的补丁，而仅依赖于锚wl、wc、wr及其相对坐标。标记位置6。在每个生成器块处，我们将表示为傅立叶位置坐标的坐标信息连接起来。嵌入[42，45]。我们从INR-GAN [43]存储库继承坐标层而不进行更改。14147塞普茨布雷尔2-·斜纹布映射网络Ww2w1w2w1w2w3w1w2w3w1w2w3w41映射网络n（0，I）图4：我们提出的生成器的图示。在这个插图中，我们省略了一些标准的StyleGAN 2层，这些层对我们的架构来说不是必不可少的，以免混淆解释。完整的体系结构见附录B. CoordConst和CoordConv 3x3类似于Style-GAN 23.1. 对齐潜在空间和图像空间我们的模型的核心思想是定位全球潜在的代码（锚）的图像坐标网格和缓慢变化的线性插值，而沿着平面移动。以此方式，潜在码之间的内插可被视为对应于相邻锚的场景之间的相机平移。我们称这些锚点为全局锚点，因为它们中的每一个都影响许多帧。1D对准的想法（即，其中我们仅沿单个轴移动）在图2中示出。想象一下，我们需要在位置（x，y）R2处生成像素或中间特征值V。传统的生成器将产生潜在代码w并基于它生成值：v（x，y）=G（x，y;w）. 但在我们的例子中，我们让潜在代码依赖于x（其中，wx被计算为图5：我们的模型在测试时的推断过程，d = 2W（即锚之间的距离是框架宽度的两倍我们在位置0、d、2d、3d处动态地对新锚点wi进行信息被提供给解码器，我们可以在任何位置x2（-1，1）解码图像。在位置a、b2R附近的锚wa和wb：wx=wa+（1-）wb，（2）并且是从x到b的归一化距离：=（b x）/（b a）。以这种方式，潜空间和图像空间变得彼此对齐：坐标空间中的任何移动都会刺激潜在空间中的移动，反之亦然。通过训练G在插值区域中产生图像，它隐含地学习将wa和wb与现实场景间帧连接。在测试时，这允许我们通过生成中间帧来将任何两个独立的wa和wb连接成单个全景，如图1所示。3.2. 空间排列AdaIN（SA-AdaIN）我们的G架构基于StyleGAN2的生成器，它使用类似AdaIN的机制来调制解码器的卷积权重。这种机制不适合我们的设置，因为不能使卷积权重有效地依赖于坐标位置这就是为什么我们开发了一个专门的AdaIN变体，可以在现代硬件上有效地实现。AdaIN [18]的工作方式如下：给定分辨率为s 2的输入h2Rcs2（为简单起见，我们将其视为正方形），它首先在空间维度上对其进行归一化，然后使用参数ç，Ø2 Rc进行重新缩放和移位：AdaIN（h，ç，Ø）=çh-µ（h）+Ø（3）（h）wlwcwr仿射仿射仿射632×32上采样CoordConv 3x316×16CoordConv 3x3SA-AdaINSA-AdaINCoordConv 3x3SA-AdaINCoordConst16×16×512-141482⇥ ⇥·DDCy昂X布勒姆X= 6Γs阿尔×正常化其中，µ（h）、（h）Rc是跨空间轴计算的平均值和标准差，所有运算均按元素应用。结果表明，放弃移位操作不会对性能产生太大影响[24]：AdaIN0（h，ç）=ç·h/（h）（4）因此我们在这个简化版本的AdaIN之上构建。我们的空间排列AdaIN（SA-AdaIN）是一种类似物对于本节针对1D情况进行描述，即，当潜码仅在水平轴上变化时，但我们的说明可以很容易地推广到2D情况（实际上，对于任何N-D）。在生成图像时，ALIS框架使用wl、wc和wr来计算针对所需位置x的插值wx。然而，在StyleGAN2之后，我们向卷积层输入的不是C=A`w+b`，其中`表示层索引。由于线性插值和仿射变换是互换的-从性能考虑出发，我们首先从w1、wc、wr计算出w1、wc、wr，然后计算插值样式向量wx，而不是立即将w1、wc、wr插值到wx中。SA-AdaIN的工作方式如下给定锚样式向量çl、çc、çr、图像偏移6、锚之间的距离d和隐藏表示s ，它首先计算插值样式L=[ç1，ç2 ，...， çs] 2Rsc，其中：ц×正常化(a) [24]第二十四话(b) 空间排列的AdaIN图6：顶部：[18][19]下图：空间排列AdaIN（SA-AdaIN）。（d-6-k/sçD+6+k/sç，如果6+k/s>dD样式向量ç`、çc、çr位于2D坐标上（五）网格和每个位置中的样式向量被计算为2d-6-k/sçc+6+k/s-dçr，否则相邻锚点之间的线性插值。为这个公式假设锚点çl，çc，çr分别位于位置-d，0，d。AdaIN和SA-AdaIN，我们在乘法运算中广播样式然后，就像ke AdaIN’一样h/h。之后，它逐元素地乘以L和h，沿垂直位置广播值：[SA-AdaIN （ x ， çl ， çc ， çr ， 6 ） ]k=çk·[h/（h）]k，（6）其中，我们用[ ]k表示大小为s的变量的第k个垂直分片1C.请注意，由于我们的G以逐块的方式生成图像，因此我们对块进行归一化，而不是对完整图像进行归一化。否则，它将破坏等方差并导致相邻帧之间的接缝。SA-AdaIN在图6中示出。3.3. 哪些数据集是如[10]中所述，为了生成任意大小的图像，我们希望数据统计对其在图像中的空间位置保持不变这意味着给定一个图像k=L14149在一个补丁中，人们应该无法自信地预测它来自图像的哪个部分。然而，许多数据集要么不具有此属性（如FFHQ [23]），要么仅针对少量图像具有此属性。为了检查给定数据集中的图像是否具有空间不变的统计数据并提取此类图像的子集，我们开发了以下简单程序。给定一个数据集，我们在它的补丁上训练一个分类器，以预测补丁来自图像的哪个部分（我们分配10%的数据集来做这件事）。< 如果分类器不能容易地做到这一点（即，准确度低），则数据集确实具有空间不变的统计。为了提取具有空间不变统计的图像子集详情见附录C。14150≥(a) 驯服变形金刚[10]用于无条件生成（原始论文主要关注语义掩码/深度图等的条件生成(b) StyleGAN 2 [24]框架中的LocoGAN [57]+傅立叶位置嵌入[42，45]。该方法生成真实感场景，但具有重复的内容。(c) ALIS（我们的）。该方法生成不同的无限场景，而没有重复或拼接伪影。图7：LHQ和LSUN塔上不同方法之间的定性比较更多样本见附录F。4. Landscapes HQ数据集我们介绍Landscapes HQ（LHQ）：我们从两个来源抓取和预处理的90k高分辨率（1024 2）自然景观数据集：Unsplash（60k）和Flickr（30k）。我们使用手动构建的450个搜索查询列表然后使用320个图像标签的黑名单过滤掉。之后，我们运行了一个预训练的Mask R-CNN来删除可能包含对象的图片。作为结果，我们获得了90k高分辨率图像的数据集。最后，我们手动过滤出10k个图像来构建LHQ库：保证仅包括高质量图像的景观数据集。详细描述了14151⇥·⇡-11图8：LSUN Tower和LHQ数据集的锚点之间的不同距离d更大的距离导致更好的每帧图像质量，但产生重复伪影，如图10所示。图9：我们的方法的失败案例：1）顶部2行-连接太不同的锚（如近处的水和远处的山）;以及2）底部2行-内容表示（其由于使用周期性位置嵌入而出现[45，42]）。附录D。5. 实验数据集。我们在4个数据集上测试了我们的模型：LSUN Tower2562，LSUN Bridge2562和LHQ2562（见第4节）。我们使用附录C中算法1中描述的程序预处理每个数据集，以提取具有（近似）空间不变统计数据的数据子集。我们强调的是，我们专注于无限水平生成，但该框架是很容易推广的联合垂直+水平无限生成。我们还在LHQ10242上训练ALIS，以测试它如何扩展到高分辨率。评价我们使用两个指标来比较方法：一个流行的FID措施[17]和我们另外提出的1-FID，这是用来衡量质量和分布。图10：使用锚之间的大距离d的问题（在上述情况下，模型用d=16训练）。虽然它提高了每帧图像质量，但模型在生成过程中开始重复。对于所有数据集，我们使用第3.3节中描述的预处理过程。图11：ALIS允许对图像的任何部分进行重采样，而不会破坏其“连接性”：帧在局部和全局上仍然是一致的。一个“无限”的形象。它以如下方式计算。对于输出帧大小为2562的模型，我们首先生成大小为256（50000256）的非常宽的图像。然后，我们将其切成50000帧大小为2562没有重叠或间隙，并计算FID之间的真实数据集和这些切片帧。我们还计算每个基线的生成器模块的参数总数和推理速度推理速度被计算为在NVidiaV100 GPU上生成大小为2562的单个基线。对于我们的主要基线，我们使用两种方法：驯服变压器（TT）[10]和LocoGAN [57]。对于LocoGAN，由于默认情况下它是一个小模型（550万参数vs StyleGAN 2中的5000万参数），并且不采用任何StyleGAN 2技巧来提高性能（如风格混合，均衡学习率，跳过/resnet连接，噪声注入，归一化等）。我们在StyleGAN2代码之上重新实现了它，以使比较公平。我们还用傅立叶位置嵌入替换了原始坐标条件，因为原始坐标不适用于（、）范围，最近显示为劣[42，45，43，1]。我们称这个模型为Loco-GAN + SG 2 +Fourier。除了无限图像的方法141521⇥⇥111表1：在FID和I-FID方面，不同数据集上的不同模型的得分。“N/A” denotes方法二五六桥FID1-FID塔FID25621-FID景观2562FID1-FID速度#参数[10]第十话56.0658.2750.1651.3261.9564.39981 ms/img377MLocoGAN [57]+SG2+傅立叶9.02264.78.36381.17.82211.274.7 ms/img53.7MALIS（我们的）10.2410.798.838.9910.4810.6453.9 ms/img48.3M无坐标13.2113.9210.3210.1712.6313.0746.8 ms/img47.1MStyleGAN2（config-e）7.33不适用6.75不适用3.94不适用32.4 ms/img47.1M在生成过程中，我们将传统StyleGAN2的性能计算为给定数据集上可能的图像生成质量的下限。每个模型都在4个v100 GPU上训练了2.5天，除了TT，它训练了 5天，因为它是一个两阶段模型：VQGAN为2.5天，Transformer为2.5天。对于TT，我们使用了官方实现，其中默认超参数设置用于非条件生成训练。与TT比较的详细说明见附录E。对于基于StyleGAN 2的模型，我们使用了原始论文[24]中的E-E设置（即一半大小的我们使用了完全相同的训练设置（损失项，优化器参数等）。StyleGAN2的原型。消融术。我们还消融的坐标信息是多么重要，锚之间的距离如何影响生成的模型。对于第一部分，我们将所有Coord-*模块替换为它们的非coord- conditioned对应模块。对于第二种消融，我们改变坐标空间中的锚之间的距离，值d=1，2，4，8。该距离也可以被理解为单个场景的纵横比。结果主要结果如表1所示，我们在图7中提供了定性比较。为了测量TT的-FID，我们必须简化程序，因为它依赖于其解码器中的GroupNorm并生成500个宽度为256的图像100而不是单个图像宽度256 50000。我们强调，这是一个eas-更简单的设置，并在附录E中详细说明。还请注意，TT论文[10]主要关注从语义掩码/深度图/类信息等生成条件图像，这表1中的-FID分数表明，我们提出的方法在生成无限图像方面实现了最先进的性能对于独立帧上测量的传统FID，其性能与LocoGAN相当然而，后者在无限图像生成方面完全发散此外，我们注意到LocoGAN已经学会了忽略空间噪声注入[23]，以使其易于解码器更容易缝合附近的补丁，这关闭了场景可变性的唯一来源。对于没有- out坐标调节的模型，图像质量下降：视觉上，它们变得模糊（见附录F），因为模型更难区分坐标空间中的小偏移。当增加锚点之间的坐标距离（图像的宽度等于1个坐标单位）时，传统的FID得到改善。然而，这导致重复生成，如图10所示。这是由于周期性坐标嵌入的短周期和锚在潜在空间中变化太慢而发生的当大多数位置嵌入完成其循环时，模型尚未从锚的移动接收到足够的更新在LHQ的10242个作物上训练的模型分别实现了10.11/10.53的FID/ -FID分数，并且我们在图1和附录F中示出了其样本。如图9所示，我们的模型有两种失效模式：太不相关的锚点的采样和重复生成。第一个问题可以在测试时通过使用不同的采样方案来缓解，如截断技巧[3，24]或聚类潜在代码。一种更有原则的方法是结合TT的自回归推理[10]与我们的想法，我们留给未来的工作。我们的模型的一个如图11所示，我们对同一景观的不同区域进行了重新采样。对它来说，中间的部分在变化，而角落的部分保持不变。6. 结论在这项工作中，我们提出了一个对齐的潜空间和图像空间的想法，并采用它来建立一个国家的最先进的模型，无限的图像生成。此外，我们提出了一个有用的FID度量和一个简单的程序，从任何数据集提取的图像子集与近似的空间不变的统计。最后，我们介绍了LHQ：一个由90k高分辨率自然景观组成的新型计算机视觉数据集。14153引用[1] Ivan Anokhin 、 Kirill Demochkin 、 Taras Khakhulin 、Gleb Sterkin、Victor Lempitsky和Denis Korzhenkov。具有条件独立像素合成的图像生成器。arXiv预印本arXiv：2011.13775，2020。二、七、十三、十四[2] Urs Bergmann，Nikolay Jetchev和Roland Vollgraf。学习- ING纹理流形与周期性的空间gan。arXiv预印本arXiv：1705.06566，2017。一、二、十二、十三、十四[3] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模gan训练。arXiv预印本arXiv：1809.11096，2018。8[4] Eric R Chan，Marco Monteiro，Petr Kellnhofer，JiajunWu，and Gordon Wetzstein. pi-gan：周期性隐式生成对抗网络用于3D感知图像合成。arXiv预印本arXiv：2012.00926，2020。2[5] Yinbo Chen，Sifei Liu，and Xiaolong Wang.用局部隐式图像函数学习连续图像表示 arXiv 预印本 arXiv ：2012.09161，2020。2[6] 陈志勤和张浩。学习生成式形状建模的隐式字段。在IEEE/CVF计算机视觉和模式识别会议论文集，第5939-5948页2[7] Taco Cohen，Maurice Weiler，Berkay Kicanaoglu，andMax Welling.规范等变卷积网络与二十面体卷积神经网络。国际机器学习会议，第1321-1330页。PMLR，2019年。3[8] TacoSCohen， MarioGeiger ， JonasK？hler ，andMaxWelling. 球形 cnns 。 arXiv 预印本 arXiv ：1801.10130，2018。3[9] Vincent Dumoulin ， Jonathon Shlens ， and ManjunathKud-lur. 对艺术风格的博学的表现arXiv预印本arXiv：1610.07629，2016。3[10] Patr i ckEsse r，RobinRombach，andB joürnOmme r. 用于高分辨率图像合成的驯服变压器，2020年。1、2、3、5、6、7、8、11、12、13、14、17、19、20[11] AnnaFr ¨uhst u¨ ck，IbraheemAlh a shim，andPeterWonka.Ti-legan：大规模非均匀纹理的合成。ACM Transactionson Graphics（TOG），38（4）：1-11，2019。一二十三[12] Leon A Gatys，Alexander S Ecker，and Matthias Bethge.使用卷积神经网络的图像风格转换。在IEEE计算机视觉和模式识别会议论文集，第2414-2423页，2016年。3[13] Jonas Gehring ， Michael Auli， David Grangier ， DenisYarats，and Yann N Dauphin.卷积序列到序列学习。国际机器学习会议，第1243-1252页。PMLR，2017年。2[14] Ian J Goodfellow，Jean Pouget-Abadie，Mehdi Mirza，Bing Xu ， David Warde-Farley ， Sherjil Ozair ， AaronCourville，and Yoshua Bengio.生成对抗网络。arXiv预印本arXiv：1406.2661，2014。2[15] Jiatao Gu，James Bradbury，Caiming Xiong，Victor OKLi，and Richard Socher.非自回归神经机器翻译arXiv预印本arXiv：1711.02281，2017。2[16] Dongsheng Guo ， Hongzhi Liu ， Haoru Zhao ， YunhaoCheng，Qingwei Song，Zhaorui Gu，Haiyong Zheng，and Bing14154郑用于图像外推的螺旋生成网络在欧洲计算机视觉会议，第701Springer，2020年。3[17] MartinHeusel、HubertRamsauer、ThomasUnterthiner、Bernhard Nessler和Sepp Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。arXiv预印本arXiv：1706.08500，2017。7[18] Xun Huang和Serge Belongie。实时任意样式传输，具有自适应实例规范化。在IEEE计算机视觉国际会议论文集，第1501-1510页，2017年。二三四五[19] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。在机器学习国际会议上，第448-456页。PMLR，2015. 18[20] Nikolay Jetchev，Urs Bergmann，and Roland Vollgraf.空间生成对抗网络的纹理合成。arXiv预印本arXiv：1611.08207，2016。一、二、十二、十三、十四[21] Biliana Kaneva、Josef Sivic、Antonio Torralba、ShaiAvidan和William T Freeman。无限图像：创建和探索一个大的真实感虚拟空间。Proceedings of the IEEE，98（8）：1391-1407，2010. 3[22] Tero Karras ， Miika Aittala ， Janne Hellsten ， SamuliLaine，Jaakko Lehtinen，and Timo Aila.用有限的数据训练生成式在Proc. NeurIPS，2020中。13[23] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构，用于生成对抗网络。在IEEE/CVF计算机视觉和模式识别会议论文集，第4401-4410页，2019年。三、五、八[24] Tero Karras ， Samuli Laine ， Miika Aittala ， JanneHellsten，Jaakko Lehtinen，and Timo Aila.分析和改进StyleGAN的图像质量。在Proc. CVPR，2020中。二三五六八十三[25] Chieh Hubert Lin，Chia-Che Chang，Yu-Sheng Chen，Da- Cheng Juan ，Wei Wei ， and Hwann-Tzong Chen.COCO-GAN ：通过条件协调按部件生成 .IEEEInternationalConferenceonComputerVision（ICCV），2019年。一、二、三、十二、十三、十四[26] 吉迪·利特温和里奥·沃尔夫用于形状表示的深Meta泛函在IEEE/CVF国际计算机视觉会议论文集，第1824-1833页，2019年。2[27] Andrew Liu、Richard Tucker、Varun Jampani、AmeeshMakadia、Noah Snavely和Angjoo Kanazawa。无限自然：从单个图像生成自然场景的永久视图。arXiv预印本arXiv：2012.09855，2020。3[28] Rosanne Liu 、 Joel Lehman 、 Piero Molino 、 FelipePetroski Such 、 Eric Frank 、 Alex Sergeev 和 JasonYosinski。卷积神经网络和coordconv解决方案的有趣失败。arXiv预印本arXiv：1807.03247，2018。2[29] 作者： Richard E. Turner ， Yingzhen Li ， and NateKushman.解读空间无限生成模型，2020。一、二、十二、十三、十四14155[30] Ricardo Martin-Brualla 、 Noha Radwan 、 Mehdi SMSajjadi、Jonathan T Barron、Alexey Dosovitskiy和DanielDuck-worth。Nerf在野外：神经辐射场用于非受控的照片收集。arXiv预印本arXiv：2008.02268，2020。2[31] 拉尔斯·梅谢德安德烈亚斯·盖格和塞巴斯蒂安·诺沃津。gans的哪些训练方法实际上是趋同的？机器学习国际会议，第3481- 3490页。PMLR，2018。13[32] Lars Mescheder，Michael Oechsle，Michael Niemeyer，Se- bastian Nowozin ， and Andreas Geiger.Occupancynetworks：Learning 3d reconstruction in function space.在IEEE/CVF计算机视觉和模式识别会议论文集，第4460-4470页2[33] Ben Mildenhall，Pratul P Srinivasan，Matthew Tancik，Jonathan T Barron ， Ravi Ramamoorthi ， and Ren Ng.Nerf：将场景表示为用于视图合成的神经辐射场。欧洲计算机视觉会议，第405-421页。Springer，2020年。2[34] PascalMüller，PeterWonka，SimonHaegler，AndreasUlmer，and Luc Van Gool.建筑物的程序建模。在ACM SIGGRAPH 2006论文，第614-623页，2006年。2[35] Michael Niemeyer和Andreas Geiger。Giraffe：将场景表示为合成生成神经特征场。 arXiv 预印本 arXiv ：2011.12100，2020。2[36] 克里斯·奥拉，尼克卡玛拉塔切尔西沃斯路德维希·舒伯特，和加布里埃尔天啊自然发生环等方差的神经网络。蒸馏， 2020 年。https://distill.pub/2020/circuits/equivariance的网站。3[37] Yo a vIHParishandPascalMüller. 城市的程序化建模在Proceedings of the 28th annual conference on Computergraphics and interactive techniques，pages 3012[38] Keunhong Park 、 Utkarsh Sinha 、 Jonathan T Barron 、Sofien Bouaziz 、 Dan B Goldman 、 Steven M Seitz 和Ricardo- Martin Brualla。可变形神经辐射场。arXiv预印本arXiv：2011.12948，2020。2[39] Tizi a noPor tenie r， Si av ashBigdeli ， andOr c unG ksel.Gramgan：从2D样本进行深度3D纹理合成。arXiv预印本arXiv：2006.16112，2020。2[40] Tamar Rott Shaham，Tali Dekel和

下载后可阅读完整内容，剩余1页未读，立即下载