无监督学习自然图像中的3D表示-HoloGAN

129 浏览量更新于2023-10-16 收藏 15.82MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

175880HoloGAN: 从自然图像中无监督学习3D表示0Thu Nguyen-Phuoc 1 Chuan Li 2 Lucas Theis 3 Christian Richardt 1 Yong-Liang Yang 101 巴斯大学 2 Lambda实验室 3 推特0图1. HoloGAN学习从未标记的2D图像中分离姿势和身份（形状和外观），而不会损失生成图像的视觉保真度。这里显示的所有结果都是从HoloGAN中对相同身份的不同姿势进行采样的。0摘要0我们提出了一种新颖的生成对抗网络（GAN），用于从自然图像中无监督学习3D表示。大多数生成模型依赖于2D核来生成图像，并对3D世界做出很少的假设。因此，这些模型往往会在需要强大的3D理解的任务中创建模糊的图像或产生伪影，例如新颖视角合成。相反，HoloGAN学习了世界的3D表示，并以逼真的方式渲染这个表示。与其他GAN不同，HoloGAN通过学习到的3D特征的刚体变换提供了对生成对象姿势的明确控制。我们的实验证明，使用明确的3D特征使HoloGAN能够将3D姿势和身份分离，进一步分解为形状和外观，同时仍能生成与其他生成模型相似或更高质量的图像。HoloGAN只能从未标记的2D图像进行端到端训练。特别是，我们不需要姿势标签、3D形状或同一对象的多个视图。这表明HoloGAN是第一个完全无监督地从自然图像中学习3D表示的生成模型。01. 引言0学习理解3D对象和2D图像之间的关系是计算机视觉和计算机图形学中的重要课题。在计算机视觉中，它在机器人、自动驾驶车辆或安全领域有应用。在计算机图形学中，它有助于内容生成和操作应用。0从逼真的渲染3D场景或基于草图的3D建模，到新颖视角合成或重新照明。最近的生成图像模型，特别是生成对抗网络（GANs），在生成高分辨率和视觉质量的图像方面取得了令人印象深刻的结果[1, 5, 27, 28,62]，而它们的条件版本在图像到图像的转换[23,50]，图像编辑[11, 12, 60]或运动转移[6,30]方面取得了巨大进展。然而，GANs在应用方面仍然相当有限，因为它们不允许对生成的图像中的属性进行明确控制，而条件GANs在训练过程中需要标签（图2左），这并不总是可用的。即使具有姿势信息等标签，当前的生成图像模型在需要对3D结构进行基本理解的任务中仍然困难重重，例如从单个图像进行新颖视角合成。例如，使用2D核执行3D操作（例如平面外旋转以生成新视图）非常困难。当前的方法要么需要大量标记的训练数据，例如多视图图像或分割掩模[41,52]，要么产生模糊的结果[13, 14, 33, 54,57]。尽管最近的工作已经努力通过使用3D数据[40,64]来解决这个问题，但是捕捉和重建3D真实数据非常昂贵。因此，直接从未标记的2D图像中学习3D表示也有实际的动机。受到这些观察的启发，我们专注于设计一种新颖的架构，允许从图像中无监督地学习3D表示，实现在生成图像模型中对视角、形状和外观的直接操作（图1）。我们网络设计的关键见解是将关于3D世界的强归纳偏见与深度生成模型相结合。Z75890学习更好的下游任务表示。计算机图形学中的传统表示，如体素和网格，是在3D中明确且易于通过刚体变换进行操作的。然而，它们的成本是内存效率低下或如何离散化复杂对象的模糊性。因此，使用这些表示直接构建生成模型是非平凡的[43, 46,49]。生成模型更喜欢高维潜在向量或深度特征等隐式表示，因为它们在空间上紧凑且语义表达能力强。然而，这些特征并不适用于显式的3D变换[9, 14, 20, 25,45]，这导致视觉伪影和模糊在视角操作等任务中。我们提出了HoloGAN，一种无监督的生成图像模型，它学习了既在3D中明确又在语义上富有表现力的3D对象表示。这种表示可以直接从未标记的自然图像中学习。与其他GAN模型不同，HoloGAN使用3D和2D特征来生成图像。HoloGAN首先学习一个3D表示，然后将其转换为目标姿势，投影到2D特征，并渲染生成最终图像（图2右）。与最近使用手工制作的可微分渲染器[18, 22, 29, 34, 36, 51,64]的工作不同，HoloGAN使用投影单元[40]从头开始学习3D特征的透视投影和渲染。这种新颖的架构使HoloGAN能够直接从自然图像中学习3D表示，而这些图像没有好的手工制作的可微分渲染器。为了生成同一场景的新视图，我们直接将3D刚体变换应用于学习到的3D特征，并使用共同训练的神经渲染器可视化结果。与在高维潜在向量空间中执行3D变换相比，这已被证明能产生更清晰的结果[40]。HoloGAN可以在无监督的情况下仅使用未标记的2D图像进行端到端训练，而无需对姿势、3D形状、对象的多个视图或几何先验（如对称性和光滑性）进行任何监督，这在这一领域的工作中很常见[3, 26,45]。据我们所知，HoloGAN是第一个能够以纯无监督的方式直接从自然图像中学习3D表示的生成模型。总之，我们的主要技术贡献包括：•一种新颖的架构，将关于3D世界的强归纳偏见与深度生成模型相结合，从图像中学习3D对象的分解表示（姿势、形状和外观）。该表示在3D中是明确的，在语义上是富有表现力的。•一种无条件的GAN，首次实现了对视角操作的本地支持，而不会损失视觉图像的保真度。•一种无监督的训练方法，可以在不使用标签的情况下进行分解表示学习。02. 相关工作0HoloGAN处于GAN、结构感知图像合成和分解表示学习的交叉点。在本节中，我们回顾了这些领域的相关工作。0θ0θ0Conv2D Conv3D 3D变换0G D G D 假0假的0HoloGAN 条件GAN0投影单元观察到的真实数据0图2.生成图像模型的比较。鉴别器所接收的数据以紫色显示。左：在条件GAN中，观察到姿势并且鉴别器可以访问此信息。右：HoloGAN在训练过程中不需要姿势标签，鉴别器无法访问姿势信息。02.1. 生成对抗网络0GAN学习将来自任意潜在分布的样本映射到能够欺骗鉴别器网络将其分类为真实数据的数据[16]。最近关于GAN架构的工作主要集中在改善训练稳定性或生成图像的视觉保真度方面，例如多分辨率GAN [27, 61]或自注意力生成器[1,62]。然而，关于设计GAN架构以实现无监督的解缠表示学习的工作较少，该学习允许对生成图像的属性进行控制。通过在每个卷积中注入随机噪声并调整图像的“风格”，StyleGAN[28]可以将细粒度变化（例如头发，雀斑）与高级特征（例如姿势，身份）分离开来，但不能对这些元素进行明确控制。陈等人提出的类似方法[8]表明，该网络设计也实现了更好的训练稳定性。这些方法的成功表明，网络架构对于训练稳定性和图像保真度的影响可能比GAN损失的具体选择更重要。因此，我们在HoloGAN中也专注于架构设计，但目标是学习将姿势、形状和外观分离，并实现对这些元素的直接操作。02.2. 3D感知神经图像合成0神经图像合成和新视角合成的最新工作在提高生成图像的保真度方面取得了成功。使用几何模板的工作在图像保真度方面取得了巨大的改进[15,32]，但对于无法用模板描述的复杂数据集的泛化能力较差。RenderNet[40]引入了一个可微分的渲染器，使用卷积神经网络（CNN）直接从3D形状渲染2D图像。然而，RenderNet在训练过程中需要3D形状及其对应的渲染图像。其他方法学习了可以用于生成同一场景的新视角的3D嵌入，而无需任何3D监督[48,51]。然而，Sitzmann等人[51]需要多个视角和姿势信息作为输入，Rhodin等人[48]则需要来自成对图像、背景分割和姿势信息的监督。为了将几何形状与纹理分离开来，视觉对象网络（VONs）[64]首先从3D生成模型中采样3D对象，使用手工制作的可微分层将这些对象渲染为法线、深度和轮廓图，最后应用训练好的图像到图像的转换网络。75900投影单元0Z0AdaIN0Conv3D3x3x30LRelu0Conv3D3x3x30LRelu0Const4x4x4x5120AdaIN0Conv3D3x3x30LRelu0AdaIN0LRelu0Conv2D3x30AdaIN0LRelu0Conv2D3x30AdaIN0LRelu0Conv2D3x30MLP MLP0Conv3D3x3x30LRelu03D变换0图3.HoloGAN的生成器网络：我们使用3D卷积、3D刚体变换、投影单元和2D卷积。我们还从z中删除了传统的输入层，并从学习到的常数4D张量开始。潜在向量z通过多层感知器（MLPs）传递，以映射到自适应实例归一化（AdaIN）的仿射变换参数。输入显示为灰色。0HoloGAN还学习了3D表示并进行渲染以生成2D图像，但不需要看到任何3D形状，并且可以处理包含复杂背景和多物体场景的真实图像。与我们最接近的工作是Pix2Scene[45]，它从图像中学习了一个隐式的3D场景表示，也是无监督的。然而，该方法将隐式表示映射到surfel表示进行渲染，而HoloGAN使用具有深度体素的显式3D表示。此外，Pix2Scene使用手工制作的可微分渲染器，只能处理简单的合成图像（统一的材质和光照条件）。而HoloGAN则从头开始学习渲染，因此适用于更复杂的自然图像。02.3. 解缠表示学习0解缠表示学习的目标是学习一个分解表示，其中一个因素的变化只影响生成图像中对应的元素，而对其他因素是不变的。大多数解缠学习的工作利用数据集提供的标签[2, 47,55]或从集合监督中受益（例如，视频或同一场景的多个图像；具有相同属性的两个以上的域）[10, 14,33]。最近在无监督解缠表示学习方面的努力，如β-VAE[20]或InfoGAN [9,24]，主要集中在设计损失函数上。然而，这些模型对先验的选择敏感，不能控制学习哪些因素，并且不能保证学到的解缠因素在语义上是有意义的。此外，β-VAE在生成图像的质量和解缠程度之间存在权衡。最后，这两种方法在处理更复杂的数据集（具有复杂背景和光照的自然图像）时存在困难。相比之下，通过重新设计生成器网络的架构，HoloGAN成功地学习到了分离的姿势、形状和外观，并提供了明确的姿势控制，甚至可以用于更复杂的自然图像数据集的形状/外观编辑。03. 方法0为了在没有标签的情况下从2D图像中学习3D表示，HoloGAN通过将关于3D世界的强归纳偏差引入生成器来扩展传统的无条件GAN。0具体而言，HoloGAN通过学习世界的3D表示并以逼真的方式渲染它来生成图像，以欺骗判别器。因此，可以通过直接对学到的3D特征应用3D刚体变换来实现视角操作。换句话说，生成器创建的图像是从学到的3D表示到2D图像空间的视角相关映射。这与其他将噪声向量z直接映射到2D特征以生成图像的GAN不同。图3展示了HoloGAN的生成器架构：HoloGAN首先使用3D卷积学习一个3D表示（假设为规范姿势），然后使用投影单元将该表示转换为特定姿势，并计算可见性，最后使用2D卷积为最终图像的每个像素计算阴影颜色值。HoloGAN与RenderNet[40]共享许多渲染的见解，但它适用于自然图像，不需要神经渲染器的预训练或成对的3D形状-2D图像训练数据。在训练过程中，我们从均匀分布中随机采样姿势，并在渲染图像之前使用这些姿势对3D特征进行变换。我们假设每个图像都有一个对应的全局姿势，并且证明了这个假设在多个对象的图像中仍然有效。这种随机姿势扰动推动生成器网络学习适用于3D变换和欺骗判别器的解缠表示。虽然姿势变换可以从数据中学习，但我们明确地为HoloGAN提供了这个可微分且易于实现的操作。使用显式的刚体变换进行新视角合成已被证明能够产生更清晰、更少伪影的图像。更重要的是，这为与显式3D刚体变换兼容的表示提供了归纳偏差。因此，学到的表示在3D中是明确的，并且在姿势和身份之间是解缠的。Kulkarni等人[33]将学到的解缠表示分为内在元素和外在元素。内在元素描述形状、外观等，外在元素描述姿势（仰角、方位角）和光照（位置、强度）。HoloGAN的设计自然地将其分离，通过使用关于3D世界的更多归纳偏差：采用本地3D变换直接控制姿势（在图3中表示为θ），将其应用于学到的3D特征，控制身份（在图3中表示为z）。AdaIN(Φl(x), z)=σ(z)�Φl(x)−µ(Φl(x))σ(Φl(x))�+γ(z).(1)759103.1. 学习3D表示0HoloGAN从一个学习到的常量张量生成3D表示（参见图3）。随机噪声向量z被视为“风格”控制器，并通过多层感知器（MLP）f：z→γ(z)，σ(z)映射到自适应实例归一化（AdaIN）[21]的仿射参数。给定图像x的某一层l上的一些特征Φl和噪声“风格”向量z，AdaIN定义为：0这可以看作是通过使用AdaIN对模板（学习到的常量张量）进行变换来生成图像，以使其与训练图像的不同层级l上的特征的均值和标准差相匹配（这些特征被认为描述了图像的“风格”）。经验上，我们发现这种网络架构可以比直接将噪声向量z馈送到生成器的第一层的方法更好地解开姿势和身份。HoloGAN从StyleGAN[28]继承了这种基于风格的策略，但在两个重要方面有所不同。首先，HoloGAN在将其投影到2D特征以生成图像之前，从一个学习到的4D常量张量（大小为4×4×4×512，其中最后一个维度是特征通道）中学习3D特征，而StyleGAN只学习2D特征。其次，HoloGAN在训练过程中通过将3D特征与刚体变换相结合来学习一个解耦表示，而StyleGAN在每个卷积中注入独立的随机噪声。因此，StyleGAN学习将2D特征分离为不同的细节级别，具体取决于特征的分辨率，从粗糙的（例如姿势、身份）到更精细的细节（例如头发、雀斑）。我们观察到HoloGAN中也存在类似的分离。然而，HoloGAN进一步将姿势（由3D变换控制）、形状（由3D特征控制）和外观（由2D特征控制）分离开来。值得强调的是，为了生成128×128的图像（与VON相同），我们使用了一个尺寸为16×16×16×64的深度3D表示。即使分辨率有限，HoloGAN仍然可以生成具有竞争力的质量和比其他使用完整3D几何体（如VON的分辨率为128×128×128×1的体素网格）更复杂的背景的图像。03.2. 使用视角相关映射进行学习0除了采用3D卷积来学习3D特征之外，在训练过程中，我们通过将这些学到的特征转换为随机姿态，然后将其投影到2D图像中，引入了更多关于3D世界的偏置。这种随机姿态变换对于确保HoloGAN学习到的3D表示是解耦的并且可以从所有可能的视角进行渲染是至关重要的，这也是Tran等人在DR-GAN中观察到的[55]。然而，HoloGAN执行显式的3D刚体变换，而DR-GAN使用隐式向量表示进行变换。0刚体变换我们假设一个虚拟针孔相机，它相对于正在渲染的3D特征处于规范化姿态（轴对齐并沿负z轴放置）。我们通过3D旋转、缩放和三线性重采样来参数化刚体变换。尽管平移是固有支持的，但在这项工作中我们没有使用它。0由于我们的框架本质上支持这一点，因此在这项工作中我们没有使用它。假设对象坐标系的上向量是全局y轴，旋转包括绕y轴（方位角）和x轴（仰角）的旋转。关于姿势采样范围的详细信息请参见补充文档。0为了从2D图像中学习有意义的3D表示，HoloGAN学习了一个可微分的投影单元[40]，该单元通过推理遮挡来工作。具体而言，投影单元接收一个4D张量（3D特征），并返回一个3D张量（2D特征）。由于训练图像是以不同的视角捕获的，HoloGAN需要学习透视投影。然而，由于我们对相机内参没有了解，我们在将3D表示投影到2D特征之前，使用两层3D卷积（不使用AdaIN）将其变形为透视视锥体（参见图3）。投影单元由一个重塑层组成，该层将通道维度与深度维度连接起来，从而将张量维度从4D（W×H×D×C）减少到3D（W×H×(D∙C)），以及一个带有非线性激活函数的MLP（在我们的实验中使用的是leakyReLU [37]）来学习遮挡。03.3. 损失函数0身份正则化器：为了生成更高分辨率（128×128像素）的图像，我们发现添加身份正则化器Lidentity对于确保从生成的图像中重建的向量与生成器G中使用的潜在向量z匹配是有益的。我们发现，这鼓励HoloGAN仅使用z来维持对象的身份，当姿势变化时有助于模型学习数据集中姿势的全部变化。我们引入一个编码器网络F，它共享鉴别器的大部分卷积层，但使用额外的全连接层来预测重建的潜在向量。身份损失为：0Lidentity(G)=Ez∥z−F(G(z))∥2. (2)0风格鉴别器：我们的生成器旨在在不同层次上匹配训练图像的“风格”，从而有效地控制不同尺度上的图像属性。因此，除了将图像分类为真实或伪造的图像鉴别器之外，我们提出了多尺度风格鉴别器，它在特征层面上执行相同的任务。具体而言，风格鉴别器试图对描述图像“风格”的均值µ(Φl)和标准差σ(Φl)进行分类[21]。经验上，多尺度风格鉴别器有助于防止模式崩溃并实现更长时间的训练。给定一个风格鉴别器Dl(x)=�Dl(µ(Φl(x)),σ(Φl(x)))，其中l表示层次，风格损失定义为：0Llstyle(G)=Ez[−logDl(G(z))]. (3)0Ltotal(G)=LGAN(G)+λi∙Lidentity(G)+λs∙0l L l style ( G ) .(4)0我们对所有实验使用λi=λs=1.0。我们使用DC-GAN[44]的GAN损失作为LGAN。759204. 实验设置0数据：我们使用各种数据集训练HoloGAN：BaselFace[42]，CelebA[35]，Cats[63]，Chairs[7]，Cars[58]和LSUNbedroom[59]。我们在Cats和Chairs的64×64像素分辨率上训练HoloGAN，在Basel Face、CelebA、Cars和LSUNbedroom的128×128像素分辨率上训练HoloGAN。有关数据集和网络架构的更多细节，请参见补充文档。请注意，只有Chairs数据集包含同一对象的多个视图；所有其他数据集只包含唯一的单视图。对于这个数据集，由于ShapeNet[7]3D椅子模型的数量有限（6778个形状），我们从每个椅子随机采样60个视图来渲染图像。在训练过程中，我们确保每个批次包含完全不同类型的椅子，以防止网络使用集合监督，即在同一批次中从不同视角查看相同的椅子以作弊。0实现细节：我们在生成器中使用自适应实例归一化[21]，在鉴别器中使用实例归一化[56]和谱归一化[39]的组合。详细信息请参见我们的补充文档。我们使用Adam求解器[31]从头开始训练HoloGAN。在训练过程中生成图像时，我们从均匀分布中采样z�U(−1,1)，并从均匀分布中采样随机姿势（有关姿势采样的更多细节，请参见补充文档）。对于所有数据集，我们使用|z|=128，除了128×128的Cars数据集，我们使用|z|=200。我们的代码可在https://github.com/thunguyenphuoc/HoloGAN上找到。05. 结果0首先，我们展示了HoloGAN在不断增加复杂性的数据集上的定性结果（第5.1节）。其次，我们提供了定量证据，显示HoloGAN可以生成具有与其他基于2D的GAN模型相当或更高视觉保真度的图像（第5.2节）。我们还展示了与显式3D几何（二进制体素网格）相比，使用我们学到的3D表示进行图像生成的有效性（第5.3节）。然后，我们展示了HoloGAN如何学习解耦形状和外观（第5.4节）。最后，我们进行了消融研究，以证明我们的网络设计和训练方法的有效性（第5.5节）。05.1. 定性评估0图1、4、6和7b显示，HoloGAN可以在保持多个不同数据集的相同身份的同时，沿方位角和仰角平滑变化姿势。请注意，LSUN数据集包含多个对象的各种复杂布局。这使得它成为学习从对象身份中解缠姿势的非常具有挑战性的数据集。在补充文档中，我们展示了BaselFace数据集的结果。我们还对噪声向量进行线性插值，同时保持姿势不变，并展示了HoloGAN可以在两个样本之间平滑插值身份。这证明，尽管在训练过程中没有看到任何姿势标签或3D形状，HoloGAN正确地学习了一个明确的深度3D表示，将姿势与身份解缠。0方位角0仰角0图4.对于具有高类内变异性的椅子数据集，HoloGAN仍然可以解缠姿势（360°方位角，160°仰角）和身份。0InfoGANHoloGAN0图5.我们将HoloGAN与InfoGAN（图像改编自Chen等人[9]）在CelebA（64×64）上进行了比较，任务是分离身份和方位角。请注意，我们无法控制InfoGAN可以学到什么。0与InfoGAN[9]的比较我们将我们的方法与InfoGAN在CelebA数据集[35]上学习将身份与姿势解缠的任务进行比较，分辨率为64×64像素。由于缺乏此数据集的公开可用代码和超参数[1]，我们使用了已发表论文中的CelebA图。我们还尝试了官方的InfoGAN实现与Cars数据集，但由于InfoGAN对先验分布的选择和恢复的潜在变量数量非常敏感，我们无法成功训练模型。图5显示，HoloGAN成功恢复并在保持生成图像中的对象身份的同时更好地控制方位角。尽管CelebA数据集中的仰角变化有限，HoloGAN仍然可以恢复仰角（图6b，右侧），而InfoGAN则不能。最重要的是，InfoGAN并不总是能够恢复控制对象姿势的因素，而HoloGAN通过刚体变换明确地控制这一点。05.2. 定量结果0为了评估生成图像的视觉保真度，我们使用Bi´nkowski等人的核启发距离（KID）[4]2。KID计算真实图像和生成图像的特征表示之间的平方最大均值差异（从Inception模型[53]计算）。与FID [19]不同，KID01官方代码库https://github.com/openai/InfoGAN只适用于MNIST数据集。2https://github.com/mbinkowski/MMD-GAN75930a）猫（64x64）b）CelebA（128 x128）c）LSUN（128 x128）0图6.HoloGAN支持方位角（范围：100°）和仰角（范围：35°）的变化。但是，可用范围取决于数据集。例如，对于CelebA，数据集中只有很少的照片是从上方或下方拍摄的。0具有无偏估计。KID分数越低，生成图像的视觉质量越好。我们在表1中将HoloGAN与其他最新的GAN模型进行了比较：DCGAN [44]，LSGAN [38]和WGAN-GP[17]。请注意，KID不考虑特征解缠，这是HoloGAN的主要贡献之一。我们使用公开可用的实现3，并使用该实现提供的相同超参数（针对CelebA进行了调整）来处理所有三个数据集。同样，对于HoloGAN，我们对所有三个数据集使用相同的网络架构和超参数4。我们从每个模型中采样20,000张图像来计算下面显示的KID分数。表1显示，HoloGAN可以在更具挑战性的数据集上（具有高类内变异性的椅子和具有复杂背景和照明条件的汽车）生成具有竞争力（对于CelebA）甚至更好的KID分数。这也表明，HoloGAN架构更加稳健，并且可以在具有相同一组超参数的不同数据集上始终产生具有高视觉保真度的图像（除了方位角范围）。我们在补充文档中提供了这些模型的视觉样本。更重要的是，HoloGAN学习了一个解缠表示，可以对生成的图像进行操作。与β-VAE[20]等方法相比，这是一个很大的优势，后者必须在图像之间进行权衡03 https://github.com/LynnHo/DCGAN-LSGAN-WGAN-WGAN-GP-Tensorflow04 除了采样方位的范围：CelebA为100°，因为人脸图像只从正面视图拍摄，而Chairs和Cars为360°。0方法 CelebA 64×64 Chairs 64×64 Cars 64×640DCGAN [44] 1.81 ± 0.09 6.36 ± 0.16 4.78 ± 0.11 LSGAN [38]1.77 ± 0.06 6.72 ± 0.19 4.99 ± 0.13 WGAN-GP [17] 1.63 ±0.09 9.43 ± 0.24 15.57 ± 0.29 HoloGAN（我们的方法）2.87 ±0.09 1.54 ± 0.07 2.16 ± 0.090表1.HoloGAN和其他基于2D的GAN（KID越低越好）生成的真实图像和图像之间的KID[19]。我们报告KID mean × 100 ± std. ×100。表格显示，HoloGAN可以与其他方法实现竞争性或更高的KID得分，同时在生成的图像中提供明确的对象控制（KID无法衡量）。0质量和学习特征的分离程度。05.3. 深度3D表示与3D几何0在这里，我们将我们的方法与最先进的视觉对象网络（VON）[64]在生成汽车图像的任务上进行比较。我们使用了作者提供的经过训练的模型和代码。尽管VON也采用了分离的方法来生成图像，但它在训练过程中依赖于3D形状和轮廓掩模，而HoloGAN则不依赖。图7b显示了我们的方法可以生成具有复杂背景、逼真阴影和竞争力视觉保真度的汽车图像。请注意，为了生成128×128的图像，VON使用了128×128×128×1分辨率的完整二进制体素几何，而HoloGAN使用了高达16×16×16×64分辨率的深度体素表示，这更加空间紧凑和表达能力强，因为HoloGAN还生成复杂的背景和阴影。如图所示。75940仰角0方位0a)VONb)HoloGAN0图7. a)VON生成的汽车图像，方位范围为360°。尽管在训练过程中使用了3D形状和轮廓掩模，但VON只能生成带有简单白色背景的图像，并且在某些正面视图（红色标记）和后视图（蓝色标记）上存在困难。b) HoloGAN通过未标记的图像生成具有复杂背景和变化方位（范围：360°）和仰角（范围：35°）的汽车图像。07a，VON也倾向于在某些视图上改变汽车的身份，例如改变颜色或形状（突出显示），而HoloGAN在所有视图中保持汽车的身份。此外，HoloGAN可以生成全景360°视图的汽车图像（图7），而VON在生成背面视图的图像时存在困难。传统的体素网格可能非常占用内存。HoloGAN提示了使用显式深度体素表示进行图像生成的巨大潜力，而不是使用传统渲染流水线中的完整3D几何。例如，在图6c中，我们使用仅16×16×16×64分辨率的3D表示生成整个卧室场景的图像。05.4. 分离形状和外观0在这里，我们展示了除了姿势之外，HoloGAN还学会将身份进一步分为形状和外观。我们采样了两个潜在编码z1和z2，并将它们输入HoloGAN。虽然z1控制3D特征（透视变形和投影之前），z2控制2D特征（投影之后）。图8显示了具有相同姿势、相同z1但每行具有不同z2的生成图像。可以看出，虽然3D特征控制对象的形状，但2D特征控制外观（纹理和光照）。这表明，通过使用3D卷积学习3D表示和2D卷积学习着色，HoloGAN可以直接从未标记的图像中分离形状和外观。0图像，允许对这些因素进行分离操作。在补充文件中，我们提供了更多结果，其中我们在不同分辨率的3D特征上使用不同的潜在编码，并展示了控制整体形状和更细节的特征（如性别或化妆）之间的分离。05.5. 消融研究0我们现在进行一系列研究，以展示我们的网络设计和训练方法的有效性。0训练不使用随机3D变换在HoloGAN中，训练过程中随机旋转3D特征对于模型至关重要，因为它鼓励生成器学习姿态和身份之间的解耦表示。在图9中，我们展示了有无3D变换训练的结果。对于没有3D变换训练的模型，我们在模型训练后手动旋转学到的3D特征生成旋转物体的图像。可以看到，这个模型仍然可以生成具有良好视觉保真度的图像，但当姿态改变时，它完全无法生成有意义的图像，而HoloGAN可以轻松地生成不同姿态下的相同物体的图像。我们认为，训练过程中的随机变换迫使生成器学习具有有意义的几何变换的特征，同时仍能生成可以欺骗鉴别器的图像。因此，我们的训练策略鼓励HoloGAN。Azimuthwrong pose distribution might also lead to angles being mappedincorrectly. Currently, during training, we sample random posesfrom a uniform distribution. Future work therefore can explorelearning the distribution of poses from the training data in an un-supervised manner to account for uneven pose distributions. Otherdirections to explore include further disentanglement of objects’appearances, such as texture and illumination. Finally, it will beinteresting to combine HoloGAN with training techniques suchas progressive GANs [27] to generate higher-resolution images.In this work, we presented HoloGAN, a generative imagemodel that learns 3D representation from natural images in anunsupervised manner by adopting strong inductive biases aboutthe 3D world. HoloGAN can be trained end-to-end with only un-labelled 2D images, and learns to disentangle challenging factorssuch as 3D pose, shape and appearance. This disentanglementprovides control over these factors, while being able to generateimages with similar or higher visual quality than 2D-based GANs.Our experiments show that HoloGAN successfully learns mean-ingful 3D representations across multiple datasets with varyingcomplexity. We are therefore convinced that explicit deep 3D rep-resentations are a crucial step forward for both the interpretabilityand controllability of GAN models, compared to existing explicit(meshes, voxels) or implicit [14, 45] 3D representations.75950z20z10z20z10z10z20图8.不同潜在向量z1（用于3D特征）和z2（用于2D特征）的组合。z1影响物体的形状，z2决定外观（纹理和光照）。最佳观看效果为彩色。0GAN学习身份和姿态的解耦表示。0使用传统的z输入进行训练通过从学习的常数张量开始，并在不同层级上使用噪声向量z作为“风格”控制器，HoloGAN可以更好地解耦姿态和身份。这里我们进行另一个实验，将z输入到生成器网络的第一层，就像其他GAN模型一样。图9显示，使用传统输入训练的模型在姿态和身份之间混淆。因此，当旋转物体时，该模型也会改变物体的身份，而HoloGAN可以平滑地沿方位角变化姿态并保持身份不变。补充文件中还包括了关于身份正则化的有效性的额外消融研究。06. 讨论和结论0虽然HoloGAN可以成功学习将姿态与身份分离，但其性能取决于训练数据集中姿态的多样性和分布。例如，对于CelebA和Cats数据集，该模型无法像方位角那样很好地恢复仰角（参见图6a，b），因为大多数人脸图像都是在视线水平拍摄的，因此仰角变化有限。使用错误的姿态分布也可能导致角度被错误地映射。目前，在训练过程中，我们从均匀分布中随机采样姿态。因此，未来的工作可以探索以无监督的方式从训练数据中学习姿态分布，以解决不均匀姿态分布的问题。其他探索方向包括进一步解耦物体的外观，如纹理和光照。最后，将HoloGAN与渐进式GANs[27]等训练技术结合起来生成更高分辨率的图像也是一个有趣的方向。在本文中，我们提出了HoloGAN，一种从自然图像中以无监督方式学习3D表示的生成图像模型，通过采用关于3D世界的强归纳偏差。HoloGAN可以仅使用未标记的2D图像进行端到端训练，并学习解耦具有挑战性的因素，如3D姿态、形状和外观。这种解耦提供了对这些因素的控制能力，同时能够生成与基于2D的GAN相似或更高视觉质量的图像。我们的实验表明，HoloGAN成功地学习了在不同复杂度的多个数据集上具有意义的3D表示。因此，我们相信显式的深度3D表示对于GAN模型的可解释性和可控性来说是一个重要的进步，相比现有的显式（网格、体素）或隐式[14，45]3D表示。0HoloGAN无3D变换，使用传统的Z输入0图9.消融研究显示具有不同方位角的图像（从左到右）。顶部：我们的方法。中部：我们的方法在训练过程中不使用随机3D变换，无法旋转物体。底部：我们的方法使用从z映射而来的传统输入层代替学习的常数张量，无法解开物体姿态和身份。0致谢我们得到了欧盟Horizon2020研究和创新计划的支持，MarieSkłodowska-Curie授予协议号665992，EPSRC数字娱乐博士培训中心（EP/L016540/1），RCUKCAMERA项目（EP/M023281/1），EPSRC-UKRI创新奖学金（EP/S001050/1）和NVIDIA Corporation GPUGrant。我们感谢LambdaLabs提供的GPU云积分和旅行补助。75960参考文献0[1] Youssef Alami Mejjati，Christian Richardt，James Tompkin，Darren Cosker和KwangIn Kim。无监督的注意力引导的图像到图像翻译。在NeurIPS中，页码3693-3703，2018年。1,20[2] Jianmin Bao，Dong Chen，Fang Wen，HouqiangLi和GangHua。面部合成中的开放集身份保持。在CVPR中，2018年。30[3] Jonathan T Barron和JitendraMalik。通过阴影获得形状，照明和反射。IEEE Transactions on PatternAnalysis and Machine Intelligence，37（8）：1670-1687，2015年。20[4] Mikołaj Bi´nkowski，Dougal J. Sutherland，MichaelArbel和Arthur Gretton。揭秘MMD GANs。在ICLR中，2018年。50[5] Andrew Brock，Jeff Donahue和KarenSimonyan。用于高保真度自然图像合成的大规模GAN训练。在ICLR中，2019年。10[6] Caroline Chan，Shiry Ginosar，Tinghui Zhou和Alexei AEfros。现在每个人都可以跳舞。arXiv预印本arXiv:1808

下载后可阅读完整内容，剩余1页未读，立即下载