基于结构和纹理的3D感知图像合成

190 浏览量更新于2023-10-25 收藏 1.64MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

18430通过学习结构和纹理表示实现3D感知图像合成徐英豪1彭思达2杨策源1沈玉军3周伯磊11香港中文大学2浙江大学3字节跳动有限公司{xy119，yc019，bzhou} @ ie.cuhk.edu.hkshenyujun0302@gmail.compengsida@zju.edu.cn摘要使生成模型具有3D感知，将2D图像空间和3D物理世界连接起来，但仍然具有挑战性。最近的尝试为生成对抗网络（GAN）配备了神经辐射场（NeRF），它将3D坐标映射到像素值，作为3D先验。然而，NeRF中的隐式函数具有非常局部的感受野，使得生成器难以意识到全局结构。同时，NeRF是建立在体绘制的基础上的，这可能过于昂贵，无法产生高质量的图像。观点结构纹理解析结果，增加了优化难度。为了缓解这两个问题，我们提出了一种新的框架，称为VolumeGAN，高保真3D感知图像合成，通过明确学习的结构表示和纹理表示。我们首先学习一个特征量来表示底层结构，然后使用NeRF类模型将其转换为特征场。特征字段进一步累积为一个2D特征图作为纹理表示，然后是一个神经渲染器用于外观合成。这样的设计使得能够独立地控制形状和外观。项目页面位于 https ：//genforce。github.io/volumegan.1. 介绍学习3D感知图像合成最近引起了广泛的关注[3，30 ， 35] 。一个新兴的解决方案是将神经辐射场（NeRF）[28]集成到生成对抗网络（GAN）[7]中。具体而言，基于2D卷积神经网络（CNN）的生成器被生成隐式函数取代，该生成隐式函数将原始3D坐标映射到以给定潜码为条件的逐点密度和颜色。这样的隐函数对3D空间中的输出图像的结构和纹理进行编码。然而，在发生器中直接使用NeRF [28]存在两个问题。一方面，NeRF中的隐式函数使用多层感知器（MLP）网络为每个3D点图1.由VolumeGAN合成的人脸和汽车图像，这使得能够控制视点、结构和纹理。由于MLP的感受野非常局限，以在合成大小调整图像时全局地表示底层结构。因此，仅使用3D坐标作为输入[3，30，35]不足以表达用全局结构指导另一方面，体绘制单独生成输出图像的像素值，这需要关于每个像素沿着相机射线对许多点进行因此，当图像尺寸变大时，计算成本显著增加。这可能会导致模型训练的不充分优化，并进一步导致高分辨率图像生成的性能不令人满意。先前的工作已经发现，2D GAN受益于生成器学习的有效表示[36，44，45]。这种生成表示描述了具有高级特征的合成。例如，Xu等人 [44]证实，人脸合成模型知道输出人脸的标志位置，Yang等人 [45]确定了从生成卧室图像中出现的多级变化因素。这些代表性特征编码了丰富的纹理和结构信息，从而提高了图像GAN的合成质量[16]和可控性[36]。相比之下，如上所述，现有的3D感知生成模型直接从坐标[3，35]渲染像素值，而不学习显式表示。在这项工作中，我们提出了一个新的生成模型，称为VolumeGAN，它实现了3D感知的图像合成，通过显式学习的结构和纹理表示，汽车面临18431××××sentation. 我们没有使用3D坐标作为输入，而是使用3D卷积网络生成特征量，该网络对各个空间区域之间的关系进行编码，从而补偿NeRF中MLP引起的感受野通过特征体对底层结构进行建模，我们从特征体中查询一个坐标描述符来描述每个3D点的结构信息。然后，我们采用NeRF类模型来创建一个特征字段，通过将坐标描述符与原始坐标作为输入。特征场被进一步累积到2D特征图中作为纹理表示，随后是具有11内核大小的CNN以最终渲染输出图像。通过这种方式，我们使用3D特征体和2D特征图分别对结构和纹理进行建模，从而实现对形状和外观的分离控制我们在各种数据集上评估了我们的方法，并证明了其优于现有替代品的性能。在图像质量方面，VolumeGAN实现了显著更好的Fre′chet起始距离（FID）评分[11]。将FFHQ数据集[16]置于256 256分辨率为例，我们改进了FID从36。七到九1.一、我们还可以在具有挑战性的室内场景数据集上实现3D感知图像合成，即，LSUN床-房间[47]。我们的模型还建议对对象姿势进行稳定控制，并在不同视点之间显示出更好的一致性，这得益于学习的结构表示（即，特征体积）。此外，我们进行了详细的实证研究学习的结构和纹理表示，并分析图像质量和3D属性之间的权衡。2. 相关工作神经内隐表示。最近的方法[5，20，27，28，33，39]提出用神经隐式函数表示3D场景，例如占用场[27]，符号距离场[33]和辐射场[28]。为了从图像中恢复这些表示，他们开发了可微分渲染器[19，21，31，41]，将隐函数渲染到图像中，并通过最小化渲染图像和观察图像之间的差异来优化网络这些方法可以重建高质量的3D形状并执行照片级逼真的视图合成，但它们对输入数据有几个强有力的假设，包括密集的相机视图，精确的相机参数和恒定的照明效果。最近，一些方法[3，13，25，26，30，35]试图减少对输入数据的约束。通过在每个输入图像上附加一个应用程序嵌入，[25]可以从具有不同照明效果的多视图图像中恢复3D场景。[13，26]通过应用一个监督的方法从非常稀疏的视图重建神经辐射场在新的视图上的合成图像。与这些需要多视点图像的方法不同，我们的方法可以通过仅在非结构化的单视点图像集合上训练网络来合成高分辨率图像使用2D GANs进行图像合成。生成对抗网络（GAN）[7，14]在合成照片级逼真图像方面取得了重大进展为了在合成过程中获得更好的可控性，[36，37，45，50]研究了预训练GAN的潜在空间以确定语义方向。许多作品[4，34]添加正则化器或修改网络结构[10，15-此外，最近的方法[1，9，44，51]采用优化或训练编码器来通过预训练的GAN控制真实图像的属性。然而，这些努力仅在2D空间中控制生成，而忽略了物理世界的3D性质3D感知图像合成。2D GAN缺乏3D结构的知识。一些现有的作品直接引入3D表示来执行3D感知的图像合成。VON [52]生成由体素表示的3D形状，然后通过可区分的渲染器将其投影到2D图像空间中。HoloGAN[29]提出了体素化和隐式3D表示，然后通过整形操作将其渲染到2D空间。虽然这些方法可以取得很好的效果，但由于体素分辨率的限制，合成的图像会受到细节和身份偏移的影响。GRAF [35]和π-GAN [3]提出通过神经隐式表示来建模3D形状，而不是体素表示，神经隐式表示将坐标映射到 RGB 颜色。 GOF [43] 和ShadeGAN [32]引入了占用场和辐射场，而不是用于图像渲染的辐射场。但是，由于计算密集的渲染过程，它们无法合成具有良好视觉质量的高分辨率图像。为了克服这个问题，[30]首先使用神经特征场渲染低分辨率特征图，然后使用2D CNN生成高分辨率图像，也将坐标作为输入。然而，由于基于CNN的解码器损害了3D一致性，因此在不同的相机视图中引入了严重的伪影。与以前的尝试不同，我们利用特征量为每个坐标提供特征描述符，并由11个卷积块组成神经渲染器，以合成具有更好的多视图一致性和3D控制的高质量图像。并行工作StyleNeRF [8]也采用了1 1个卷积块来合成高质量的图像。然而，我们采用的特征体积提供的结构描述的合成对象，而不是使用正则化，以改善3D属性。18432∈∈∈∈········~潜在代码坐标描述符密度空间模板摄影机姿势3D CNN3D特征体（结构表示）坐标MLP∑特征域二维特征图（纹理表示）神经渲染器合成图像图2. 拟议的VolumeGAN的框架。我们首先从一个可学习的空间模板开始学习一个特征量，作为结构表示。给定相机姿态，我们沿着相机射线采样点，并通过三线性插值从特征体积中查询每个点的坐标描述符然后将与原始3D坐标连接的所得坐标描述符转换为生成特征场，并进一步累积为2D特征图。这样的特征图被视为纹理表示，其在神经渲染器的帮助下引导输出合成的外观的渲染3. 方法这项工作的目标是从一组2D图像中学习3D感知图像以前的尝试用隐式函数[28]代替GAN模型的生成器，该函数将3D坐标映射到像素值。为了提高可控性和合成质量，我们建议显式学习分别负责对象的底层具体地说，我们不是直接将坐标与密度和RGB颜色桥接，而是要求隐式函数将3D特征体积（即，结构表示）到生成特征场，然后将其累积到2D特征图（即，纹理表示）。总体框架如图所示二、在详细介绍之前，我们首先简要介绍了神经辐射场（NeRF），这是该模型的核心模块。3.1. 初步神经辐射场[28]被公式化为连续函数F（x，d）=（c，σ），其映射3D坐标xR3和观察方向dS2到RGB颜色cR3和体积密度σR. 然后，给定采样的光线，我们可以预测光线经过的所有点的颜色和密度，然后使用体绘制技术将其累积到像素值中。通常，函数F（，）是用多层感知器（MLP）Φ（，）作为骨干和两个独立头Φc（，）和Φd（，）来参数化的，以回归颜色和密度：c（x，d）=φc（Φ（x），d），（1）σ（x）=φd（Φ（x）），（2）其中，由于诸如照明的变化因素，颜色与观看方向d相关，而密度σ与d无关。NeRF主要用于三维重建和新视图合成，它是在多视图图像的监督下训练的。为了通过从单视图图像的集合中学习来实现随机采样，最近的尝试[3，35]将潜在代码z引入函数F（，）.以这种方式，渲染图像的几何形状和外观将根据输入z而变化，从而导致多样化的生成。这种随机隐式函数被要求与大量GAN [7]竞争，以模仿真实2D图像的分布。在学习过程中，采用修正函数F（x，d，z）=（c，σ）同时对结构和纹理信息进行编码。3.2. VolumeGAN中的3D感知生成器为了提高基于NeRF的3D感知生成模型的可控性和图像质量，我们提出显式学习结构表示和纹理表示，它们分别控制底层结构和纹理。在这一部分中，我们将介绍结构和纹理表示的设计，以及通过生成神经特征场将它们集成在一起。3D特征体积作为结构表示。正如NeRF [28]所指出的，低维坐标x应该投影到高维特征中以描述复杂的3D场景。为此，典型的解决方案是将x表征为傅立叶特征[40]。然而，这样的傅立叶变换不能引入空间位置之外的附加信息。它可能足以重建一个固定的场景，但还远远没有编码的分布式特征的图像合成不同的对象实例。因此，我们建议学习提供隐函数输入的特征网格，这给出了每个空间点的更详细的描述。我们将这样的3D特征体积V称为表征底层3D结构的结构表示。为了获得特征体积，我们采用以下序列：18433..ΣΣΣ·Σ··×||−||.Σ不不我.Σ我使用Leaky ReLU（LReLU）函数的3D卷积层[24]。受Karras等人的启发。[16]，我们将自适应实例归一化（AdaIN）[12]应用于每个层的输出，以将多样性引入特征体积。从一个可学习的3D张量V0开始，结构化表示由V= ns−1ns−2. 第0章（三）i（Vi）=AdaIN LReLU Conv（Up（Vi，si）），z，（4）其中NS表示用于结构学习的层数si∈{1，2}是第i层的上采样尺度2D特征图作为纹理表示。如前所述，体绘制可能非常慢并且计算成本很高，使得直接绘制高分辨率图像的原始像素的成本很高。为了缓解这个问题，我们建议在一个低分辨率，然后用CNN来呈现高保真度的结果。在这里，2D特征图负责重量和偏见。当量（8）将坐标x连接到特征v上以显式地引入结构信息。当量（10）遵循Chan et al.[3]，其根据从随机噪声z学习的频率γi（）和相移βi（）来调节骨干Φ（）的逐层输出。当量（11）替换等式（11）中的颜色建模（1）用特征造型。可以经由沿着射线r（具有观看方向d）的体绘制来获得每像素最终特征m。关于不同射线的m的集合分组到2D特征图中作为纹理表示M，其将进一步用于渲染图像。Nm（r）= Tk（1−exp（−σ（xk）δk））f（xk，d），（13）k=1k−1Tk=exp（−σ（xj）δj）。（十四）j=1当量（13）近似N点{x}N在描述最终输出的视觉外观的采样射线kk=1拖尾CNN由几个调制卷积层（ModConv）[17]组成，也由LReLU激活为了避免CNN削弱3D一致性，我们使用11所有层的内核大小，使得可以独立地处理每像素特征。具体地，给定2D特征图M作为纹理表示，通过以下步骤生成图像：If = fn −1 ◦ fn −2 ◦ ...0（男），（5）fi（Mi）=LReLU ModConv（Mi，ti，z），（6）其中，ni表示用于纹理学习的层的数量。ti∈ {1，2}是第i层的上采样比例桥接表示与神经特征场。为了连接框架中的结构和纹理表示，我们引入了神经辐射场[28]作为桥梁。与原始NeRF中将坐标映射到像素值的隐式函数不同，我们首先从特征体积V中查询坐标描述符v，给定3D坐标x，然后将其与x连接以获得vx作为输入。然后，隐函数将vx变换为场的密度和特征向量。上述过程可以公式化为v=三线性（V，x），（7）vx= Concat（v，x），（8）Φ（v x）=<$n−1<$$>n−2<$. 中国（v x），（9）i（vx）=sinγi（z）·（Wivx+bi）+βi（z）），（10）f（x，d）=f（Φ（vx），d），（11）σ（x）=φd（Φ（vx）），（12）其中n表示参数化神经场的层数，而Wi和bi是可学习的逐层18434N·- -D2其中δk= xk+1xk2代表相邻采样点之间的距离。3.3. 训练管道生成采样。整个生成过程被公式化为If=G（z，n），其中z是从高斯分布（0，1）采样的潜码，并且n表示从先验分布pn采样的相机姿态。针对不同的数据集将p调整为高斯或均匀。鉴别器。与现有的3D感知图像合成方法一样[3，30，35]，我们采用了一个CNOID（）来与生成器竞争。CNN是由几个残差块组成的CNN，如[17]。培训目标。在训练期间，我们从先验分布中随机采样z和r，而真实图像Ir从真实数据分布p D中采样。发电机和发电机都经过联合培训，minLG=Ezpz，p[f（D（G（z，）]，（15）minLD= E Irp [f（−D（Ir））+ λ||Ir D（Ir）||第2段]、（16）段其中f（t）=log（1+exp（t）是softplus函数。最后一个等式。（16）表示梯度惩罚正则化器，λ是损失权重。4. 实验4.1. 设置数据集。我们在五个真实世界的非结构化数据集上评估了所提出的VolumeGAN，包括CelebA [22]，Cats[48]，FFHQ [16]，CompCars [46]，LSUN bed-room[47]和合成数据集Carla [6]。CelebA包含来自10K身份的大约20K人脸图像。的18435×××××××××××FFHQ CompCars卧室图3. 我们的VolumeGAN与FFHQ [16]，CompCars [46]和LSUN卧室[47]数据集上的现有替代品之间的定性比较。所有图像均为256×256分辨率。从头发顶部到下巴底部剪短在CelebA上进行数据预处理。Cats数据集包含6.5K分辨率为128 × 128的猫头图像。FFHQ包含70K真实人脸的图像，分辨率为1024- 1024。我们遵循[16]的协议来预处理FFHQ的面孔Compcars包括136K真实汽车，其姿态变化很大。原始图像是在不同的长宽比。因此，我们将汽车居中裁剪，并将其调整为256 256。Carla数据集包含10K图像，这些图像是由Carla驾驶模拟器[6]使用16个具有不同纹理的汽车模型渲染的LSUN卧室包括各种相机视图和长宽比的300K样本我们也使用中心裁剪来预处理卧室的图像我们在CelebA，Cats和Carla的分辨率为128×128，FFHQ，CompCars和LSUN bedroom的分辨率为256×256的基线。我们选择四种3D感知图像合成方法作为基线，包括 HoloGAN [29] ， GRAF [35] ， π-GAN [3] 和GIRAFFE [30]。基线模型由原始论文正式发布或与正式实现一起训练。更多细节可以请参见补充材料。1实施详情。可学习的3D模板V 0以4 4 4形状和具有核大小3 3的3D卷积随机初始化3个堆叠，嵌入模板，从而使要素体积323232决议。我们对射线的采样分辨率为64 - 64，采用四个256维的条件MLP（SIREN [3，38]）对特征场和体密度进行建模。我们使用上采样块[17]，对于神经渲染器，在每个分辨率下两个 1 1ModConv[2，17]，直到达到输出图像分辨率。我们还应用PG-GAN [14]中使用的渐进式训练策略来实现更好的图像质量。对于网络训练，我们使用Adam [18]优化器，β0=0和β1=0。999超过8个GPU。整个训练需要用户看到25000K的图像。批量大小为64，权重衰减为0。更多细节可以在补充材料中找到。1我们未能在LSUN卧室上重现HoloGAN的正式实施，因此我们没有报告定量结果。卧室的定性结果是从原始文件[29]借来的中国-长颈鹿格拉HoloGAN我们18436××−−表1. 不同数据集的定量比较。 FID [11]（越低越好）被用作评估指标。括号中的数字表示我们的VolumeGAN相对于第二种方法的改进。方法CelebA 128猫128卡拉128FFHQ 256CompCars 256房间256[29]第二十九话39.740.4126.472.665.66−3.9[35]第三十五话41.128.941.681.3222.1π-GAN [3]15.917.730.153.2194.533.9[第30话]17.520.130.836.727.244.2VolumeGAN（我们的）8.9（-7.0）5.1（-12.6）7.9（-22.2）9.1（-27.6）12.9（-14.3）17.3（-16.6）4.2. 主要结果定性结果。图3比较了我们的方法与FFHQ，CompCars和LSUN卧室基线的合成图像。从三个视图中采样的图像，并在256 - 256的分辨率进行可视化合成。虽然所有的基线方法都可以在FFHQ上合成不同相机姿态下的图像，但是它们遭受低图像质量和跨不同角度的身份偏移。当转移到具有较大视角变化的挑战性CompCars时，一些基线（如GRAF [35]和π-GAN [3]）很难生成逼真的汽车。HoloGAN可以实现良好的图像质量，但存在多视图不一致的问题。GIRAFFE可以生成逼真的汽车，而汽车的颜色在不同的视图下会发生明显的变化.当在卧室上进行测试时，HoloGAN，GRAF，π-GAN和GIRAFE无法处理具有较大结构和纹理变化的室内场景数据。VolumeGAN可以合成高保真视图一致的图像。与现有的方法相比，该方法生成的细节更加精细，如牙齿（人脸）、车灯（汽车）和窗户（卧室）。即使在更具挑战性的CompCars和LSUN卧室数据集，由于特征体积和神经渲染器，VolumeGAN仍然实现了令人满意的合成性能。定量结果。我们使用Frechet初始距离（FID）[ 11 ]定量评估合成图像的视觉质量。我们遵循StyleGAN [16]的评估协议，该协议采用50K真实和虚假样本来计算FID分数。所有基线模型都使用相同的设置进行评估，以便进行公平比较。如Tab.所示。1，与基线相比，我们的方法得到了显着的改进，特别是在具有较大姿态变化或更精细细节的挑战性数据集上。请注意，尽管GIRAFFE也使用神经渲染器，但我们的方法仍然以明显的优势优于它。它表明，编码在特征量中的结构信息提供了代表性的视觉概念，从而获得更好的图像质量。4.3. 消融研究我们对CelebA128 128进行消融研究，以检查VolumeGAN中每个组分的重要性。指标. 除了测量的FID分数外，图4. π-GAN [3]和我们的VolumeGAN的前置摄像头视图的合成结果，其中VolumeGAN提出的面部与给定视图更一致，表明具有更好的3D可控性。图像质量，我们还提供了两个定量指标来衡量多视图一致性和3D控制的精度1)重投影错误。我们首先使用marching cubes从生成的密度中提取对象的底层几何结构[23]。然后，我们依次渲染每个物体，并对五个视点进行均匀采样以合成图像。每个图像的深度从所得到的提取的网格渲染，这是用来计算两个连续的视图上的重投影误差通过扭曲他们彼此。具体来说，我们将偏航角固定为0，并从[ 0]中采样俯仰角。3，0。3]。由于网格的可视化效果最好，在归一化图像空间[ 1，+1]（如[1，44，51]）中计算重投影误差，以评估多视图一致性。2)姿势错误。我们合成了20，000张图像，并将头部姿势估计器[49]预测的结果视为地面实况。报告给定相机姿态和预测姿态之间的L1距离，以定量评估3D控制。VolumeGAN组件上的消融。我们的方法提出使用特征体作为结构表示，并采用由ModConv组成的神经渲染器将纹理表示渲染成高保真图像。我们切除它们是为了更好地了解它们的个人贡献。我们的基线建立在π-GAN [3]上，使用条件MLP通过将坐标映射到RGB颜色来实现3D感知图像合成基线的层数设置为4，与我们在第二节中说明的设置相同4.1公平比较如Tab.所示。2，引入提供结构表示的特征体积可以进一步将基线方法的FID得分从18.7提高到13.6。我们公司简18437更重要的是，还实现了较低的重投影误差和姿态误差，表明来自特征体积的结构表示不仅有利于更好的视觉结果，而且保持了关于多视图一致性和3D显式控制的3D属性最重要的是，神经渲染器进一步将FID提高到8.9，重新投影误差和姿态误差略有下降，从而在3D感知图像合成方面获得了最先进的新结果值得注意的是，将神经渲染器引入基线也可以提高FID分数，但根据3D指标，显然在一定程度上牺牲了3D属性。这也表明，FID是不是一个全面的度量，以评估三维感知图像合成。此外图4给出了几个π-GAN基线的合成样本和我们的方法在前视图下。更多的样品可以在补充材料中找到。定性地，我们合成的样本的姿势更接近给定的相机视图，这是定量地反映了姿势误差分数。特征体积的分辨率。特征体积分辨率描述了结构表示的空间细化，因此它在合成图像中起着至关重要的作用。选项卡. 3给出了各种分辨率的特征体的合成结果的度量。随着分辨率的提高，多视图一致性和三维控制变得更好，而FID测量的视觉质量波动很小。这表明，更详细的特征体积在各种相机姿态之间提供更好的几何一致性。然而，增加特征体积分辨率不可避免地导致更大的计算负担。因此，我们在所有实验中选择32的特征体积分辨率，以保持效率和图像质量之间的平衡神经渲染器深度。采用神经渲染器将纹理表示转换为二维图像;因此，其容量对于生成的图像的质量至关重要。我们通过改变神经渲染器的深度来调整其容量，以研究其效果。选项卡. 图4示出了图像质量和3D属性之间的权衡。随着网络深度的增加，可以获得更好的图像视觉质量，而多视图一致性和3D控制的质量下降。这意味着增加神经渲染器的容量会在一定程度上破坏3D结构，这再次表明FID不是3D感知图像合成的综合指标。因此，我们选择较浅的网络作为神经渲染器，以获得更好的3D一致性和控制。4.4. 学习表示与以前的尝试相比，我们的方法的一个关键优势是，通过分别用3D特征量和2D特征图对结构和纹理进行建模这些表示使我们能够控制形状，表2. 对VolumeGAN组件的消融研究，包括特征体积（FV）和神经渲染器（ NR ）。 “Rep-Er” and “Pose-Er” are thereprojection-error andπ-GAN✓✓✓ ✓18.70.07112.713.60.0318.311.30.10312.18.90.0378.6表3. 特征体积大小的影响。 “Str Res”表示特征体积的分辨率（即，结构表示）。斯特雷水库FIDRep-ErPose-Er速度（fps）169.00.0409.15.58328.90.0378.65.15649.20.0328.43.86表4. 神经渲染器深度的影响。“Tex Res”表示2D特征图的分辨率（即，纹理表示）。深度特克斯水库FIDRep-ErPose-Er6648.00.0519.74648.80.0469.32648.90.0378.6外观.将从密度中提取的坐标描述符和3D网格可视化以解释所学习的表示。结构和纹理的独立控制。在测试时，我们可以很容易地交换和组合关于结构和纹理的潜在代码。通过这种方式，我们可以研究这两种表示是否能够很好地分离。例如，我们可以将结构表示（即，特征体积代码）与纹理（即，生成特征字段和神经渲染器代码）。相应结果见图1。五、面部结果表明，特征体积代码控制面部形状和发型，而特征场和神经渲染器代码决定皮肤和头发颜色。具体来说，眼镜是由音量代码控制的，符合我们的感知。We can swap thestructure and texture汽车成功。实验结果表明，该方法可以有效地解决图像合成中的形状和外观问题。与GRAF [35]和GIRRAFE [30]不同，我们没有显式地引入形状代码和外观代码来控制图像合成。由于我们的框架中的结构和纹理表示，形状和外观之间的解开自然出现。坐标描述符可视化。为了进一步探索特征体积如何描述底层结构，我们可视化在特征体积中查询的对应坐标描述符。具体来说，我们积累FVNRFIDRep-ErPose-Er18438纹理结构纹理结构图5. 通过交换结构和纹理潜在代码合成结果。图6. 坐标描述符的可视化。 PCA用于降低特征维数。每个射线上的坐标描述符，从而产生高维特征图。PCA [42]用于将维度减少到3以进行可视化。图6示出特征体积用作粗结构模板。脸部轮廓，头发和背景可以很容易地识别。令人印象深刻的是，即使戴着眼镜，眼睛也有很强的对称性。与原始坐标相比，特征描述符提供了一个结构化的约束来指导图像合成，使我们的方法固有地合成具有更好的视觉质量和3D特性的图像。基础几何图形。隐式表示的体密度我们使用marchingcube [23]在密度上提取底层几何形状，从而生成表面网格。图7示出了具有各种视图和标识的网格。几何形状在不同的视图中是一致的，支持我们的方法的良好5. 结论与讨论在本文中，我们提出了一个新的3D感知生成模型，VolumeGAN，用于合成高保真图像。通过学习结构和纹理表征，我们的图7. 从密度中提取的3D网格。模型在各种具有挑战性的数据集上实现了足够高的图像质量和局限性。尽管VolumeGAN学习了结构表示，但合成的3D网格表面仍然不光滑，缺乏细节。同时，即使我们可以通过引入更深的CNN（即，神经渲染器），它可能削弱多视图一致性和3D控制。未来的研究将集中在生成细粒度的3D形状，以及通过引入正则化器使VolumeGAN中的尾部CNN具有改进的伦理考量。由于高质量的3D感知合成性能，我们的方法可能适用于深度假生成。我们强烈反对滥用我们的方法侵犯隐私和安全。相反，我们希望它可以用来改善现有的假冒检测系统。鸣谢：这项工作部分得到香港研究资助局（研资局）的“早期就业计划”（资助编号：24206219）、香港中文大学的“早期就业计划”（Foe E RSFS）资助，以及创新及科技基金的“感知及互动智能研究中心”（CPII）有限公司的资助。18439引用[1] Rameen Abdal，Yipeng Qin，and Peter Wonka.图像-年龄2风格：如何将图像嵌入到潜空间中？在ICCV，2019年。二、六[2] Ivan Anokhin 、 Kirill Demochkin 、 Taras Khakhulin 、Gleb Sterkin、Victor Lempitsky和Denis Korzhenkov。具有条件独立像素合成的图像生成器在CVPR，2021年。5[3] Eric R Chan，Marco Monteiro，Petr Kellnhofer，JiajunWu，and Gordon Wetzstein. pi-gan：周期性隐式生成对抗网络用于3D感知图像合成。在IEEE Conf. Comput.目视模式识别，2021年。一、二、三、四、五、六[4] Xi Chen，Yan Duan，Rein Houthooft，John Schulman，Ilya Sutskever，and Pieter Abbeel. Infogan：通过信息最大化生成对抗网络进行可解释的表示学习。在NIPS，2016年。2[5] Julian Chibane，Thiemo Alldieck，Gerard Pons-Moll.特征空间中的隐式函数用于三维形状重构和补全。在CVPR，2020年。2[6] Alexey Dosovitskiy 、 German Ros 、 Felipe Codevilla 、Antonio Lopez和Vladlen Koltun。卡拉：一个开放式的城市驾驶模拟器。在机器人学习会议上，2017年。四、五[7] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在高级神经信息。过程系统，2014年。一、二、三[8] Jiatao Gu ， Lingjie Liu ， Peng Wang ， and ChristianTheobalt. Stylenerf：一个基于样式的3d感知生成器用于高分辨率图像合成。 arXiv 预印本 arXiv ：2110.08985，2021。2[9] Jinjin Gu，Yujun Shen，and Bolei Zhou.图像处理采用多码gan先验. 在IEEE会议Comput. 目视模式识别，2020年。2[10] 何振梁，阚美娜，Shiguang Shan 本征值：gans的逐层特征学习。ICCV，2021年。2[11] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。甘斯训练师两时间尺度更新规则收敛到局部纳什均衡。在高级神经信息。过程系统，2017年。二、六[12] Xun Huang和Serge Belongie。实时任意样式传输，具有自适应实例规范化。在Int. Conf.Comput.目视，2017年。4[13] Ajay Jain Matthew Tancik和Pieter Abbeel。让nerf节食：语义一致的少镜头视图合成。ICCV，2021。2[14] Tero Karras ， Timo Aila ， Samuli Laine ， and JaakkoLehtinen.为提高质量、稳定性和变异性而进行的干细胞生长。在国际会议学习中。代表。，2018年。二、五[15] 泰罗·卡拉斯、米卡·艾塔拉、萨穆利·莱恩、埃里克·哈克·奥嫩、简·赫尔斯滕、贾科·莱赫蒂宁和蒂莫·艾拉。无别名生成对抗网络。在NIPS，2021年。2[16] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构，用于生成对抗网络。在IEEE会议Comput. 目视模式识别，2019年。一二四五六18440[17] Tero Karras ， Samuli Laine ， Miika Aittala ， JanneHellsten，Jaakko Lehtinen，and Timo Aila.分析和改进StyleGAN的图像质量。在CVPR，2020年。二、四、五[18] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。在国际会议学习中。代表。，2015年。5[19] Yariv Lior ， Kasten Yoni ， Moran Dror ， GalunMeirav，Atz- mon Matan，Basri Ronen，and LipmanYaron.通过解开几何形状和外观的多视图神经表面重建在NeurIPS，2020年。2[20] Lingjie Liu ， Jiatao Gu ， Kyaw Zaw Lin ， Tat-SengChua，and Christian Theobalt.神经稀疏体素场。神经IPS，2020年。2[21] Shaohui Liu ， Yinda Zhang ， Songyou Peng ， BoxinShi，Marc Pollefeys，and Zhaopeng Cui.Dist：使用可微球体跟踪渲染深度隐式符号距离函数在CVPR，2020年。2[22] Ziwei Liu ， Ping Luo ， Xiaogang Wang ， and XiaoouTang.在野外深度学习人脸属性。在Int. Conf.Comput.目视，2015年。4[23] 威廉·E·洛伦森和哈维·E·克莱恩。移动立方体：一种高分辨率三维表面构造算法。ACM siggraph计算机图形，1987年。六、八[24] Andrew L Maas，Awni Y Hannun，Andrew Y Ng，等.整流器非线性改善了神经网络声学模型。2013年，《国际反洗钱法》。4[25] 放大图片作者：Noha Radwan，Mehdi S. M.放大图片作者：Jonathan T. Barron ，Alexey Dosovitskiy ，andDaniel Duckworth. Nerf在野外：无约束照片集的神经辐射场。在CVPR，2021年。2[26] Quan Meng，Anpei Chen，Haimin Luo，Minye Wu，Hao Su，Lan Xu，Xuming He，and Jingyi Yu. Gnerf：基于Gan的神经辐射场，无需设置摄像头。ICCV，2021。2[27] LarsMescheder，MichaelOechsle，MichaelNiemeyer ， Se-bastianNowozin ， andAndreasGeiger.Occupancy networks：Learning 3d reconstructionin function space.在IEEE会议Comput.目视模式识别，2019年。2[28] Ben Mildenhall，Pratul P Srinivasan，Matthew Tancik，Jonathan T Barron ， Ravi Ramamoorthi ， and Ren Ng.Nerf：将场景表示为用于视图合成的神经辐射场。以Eur.确认补偿目视，2020年。一、二、三、四[29] Thu Nguyen-Phuoc，Chuan Li，Lucas Theis，ChristianRichardt，and Yong-Liang Yang. Hologan：从自然图像中进行3D表示的在ICCV，2019年。二、五、六[30] Michael Niemeyer和Andreas Geiger。Giraffe：将场景表示为合成生成神经特征场。在IEEE Conf. Comput.目视模式识别，2021年。一、二、四、五、六、七[31] Michael Niemeyer 、Lars Mescheder、Michael Oechsle和Andreas Geiger。差分体绘制：学习隐式3D表示没有3D监督。在CVPR，2020年。2[32] Xingang Pan ， Xudong Xu ， Chen Change Loy ，Christian Theobalt，and Bo Dai.用于形状精确3d感知图像合成的阴影引导生成隐式模型。在NIPS，2021年。218441[33] 郑俊朴、彼得·弗洛伦斯、朱利安·斯特劳布、理查德·纽科

下载后可阅读完整内容，剩余1页未读，立即下载