深度学习网络实现合成到真实图像的转换

120 浏览量更新于2023-10-13 收藏 2.13MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2730深度CG2Real：通过图像解纠缠实现合成到真实的转换2费德里科·佩拉齐2埃利·谢赫特曼2弗拉基米尔·G.RaviRamamoorthi11加州大学圣地亚哥分校2Adobe Research摘要我们提出了一种方法来提高低质量的合成图像的视觉真实感，例如。OpenGL渲染。在图像空间中训练不成对的合成到真实的转换网络是严重约束不足的，并且产生可见的伪影。相反，我们提出了一个半监督的方法，操作上的解开阴影和图像的层。我们的两阶段流水线首先学习使用基于物理的渲染作为目标来预测监督 fash 中的准确着色，并进一步使用改进的CycleGAN网络来增加纹理和着色的真实感。对SUCG室内场景数据集的广泛评估表明，与其他最先进的方法相比，我们的方法产生更逼真的图像。此外，在我们生成的“真实”图像上训练的网络1. 介绍基于深度学习的图像合成方法正在生成具有越来越高的视觉质量的图像[11，18，21，36，37]，即使是从最小的输入，如潜在代码或语义分割图。虽然令人印象深刻，但这些方法的一个挑战是缺乏对合成图像的布局和外观的细粒度另一方面，可以用期望的布局和外观组成3D然而，这需要高质量的场景资产（几何体、材质、照明）和计算量大的基于物理的渲染。这项工作的目标是结合这两种方法的优点。给定一个场景的低质量合成图像-使用像OpenGL这样的简单渲染引擎渲染的SUNC室内场景数据集[32]中的粗糙模型-我们训练一个深度神经网络将其转换为高质量的逼真图像。解决这个问题的一种方法是训练一个不成对的图像到图像转换网络，如CycleGAN [43]，来自合成OpenGL im。(a) OpenGL图像（b）CycleGAN结果(c)我们预测的真实图像（a）（b）（c）图1：我们的两阶段对抗框架将OpenGL渲染（a）转换为逼真的图像（c）。与使用CycleGAN（b）的单阶段预测相比(Best以数字方式观看）。真实照片的年代然而，这个问题的非配对性质-目前还不清楚我们如何创建一个具有“真实”对应部分的合成图像数据集（b）款。相比之下，我们的结果保留了原始图像的布局和粗糙外观，但引入了包括全局照明在内的逼真照明，提高了场景纹理的质量，并消除了锯齿等效果（图1）。（c）第1段。改善合成图像的真实感需要改善光照和纹理的质量。此外，这两个方面需要以不同的方式处理：照明需要全局合成，而纹理可以局部修改。为此，我们提出将合成图像分解成其组成阴影和反照率层，即，一个内在的图像分解[1]-并为它们中的每一个训练单独的翻译网络我们利用内在的图像解纠缠，将这个问题从纯粹的未配对设置改变为2731两阶段配对-非配对设置。我们使用基于物理的渲染器（“PBR”）渲染合成场景以模拟真实照明并创建成对的OpenGL-PBR着色数据。在我们的管道的第一阶段，我们使用这些数据来训练一个OpenGL到PBR的着色转换网络，合成现实的着色。我们结合这个新的着色与原来的OpenGL纹理重建，结构我们的中间PBR图像。在第二阶段，我们使用CycleGAN类网络以无监督的方式将这些PBR图像转换到真实图像域。我们为阴影和阴影层训练单个的PBR-to-real生成器;我们使用编码器-解码器体系结构用于着色以增加全局上下文，并且使用纯卷积网络，而没有用于反照率的下采样/去采样。与CycleGAN一样，这种转换的质量在向后实数到PBR循环和循环一致性损失的情况下最好。在真实图像的解纠缠阴影反照率层的情况下，我们用一个不对称的架构和一个PBR域固有图像分解网络来实现这一点。虽然我们的重点是提高视觉质量，我们的方法可以用于域适应。深度网络可以在大规模的标记合成数据集上进行训练[28，41]，并且之前的工作已经考虑过调整它们以提高它们在真实数据上的性能[9，30，25]。这些方法中的许多方法对这种适应施加了特定于任务的损失[14，26，42]。相比之下，我们表明，通过提高合成数据的整体视觉真实性，我们可以实现类似的改进，在真实图像的性能，如正常和深度估计的任务，而不需要特定于任务的损失，如表2和表3所示。2. 相关工作图像到图像翻译。为了提高合成图像的真实感，Johnson等人[20]从真实图像集合中检索与输入相似的最近，深度神经网络已被广泛用于此任务。当配对训练数据可用时，先前的方法已经提出了具有监督重建损失和对抗损失的组合的训练条件生成模型（pix2pix[18]，StackGAN [40]）。这种映射在只有对抗性损失的无监督环境中学习是具有挑战性的，并且先前的工作已经利用了循环一致性损失（Cy- cleGAN [43]）或两个域的共享潜在空间（UNIT [24]）。这些方法已扩展到处理多模态输出（ BicyleGAN [44] ， MUNIT[15]），多域[5]，更高分辨率的图像（pix 2 pix-HD[36]）和视频[35]。这些方法，特别是无监督的方法，可以引入不希望的结构变化和文物时，有一个大的域差异，因为有合成OpenGL图像和真实图像之间。我们通过在一个分离的环境中工作来处理这个问题阴影反照率空间这使我们能够a）使用从OpenGL图像到PBR图像然后到真实域的两阶段管道，b）设计单独的着色和渲染网络以避免伪影。域适应。域自适应方法寻求将在一个域上训练的“任务”网络的性能推广到另一个域;例如，训练网络上的大规模标记的合成数据集，并将它们应用于真实图像。特征空间域自适应方法要么匹配源域和目标域特征的分布[33]，要么使用特征空间对抗损失来学习产生域不可知特征[7，8，34]。相反，图像空间域自适应方法寻求匹配图像分布。这里的关键挑战是避免以会损害任务网络性能的方式改变图像内容。这可以通过使用成对的源-目标数据来正则化翻译[9]来处理。在未配对的设置中，先前的工作已经将翻译的图像限制为接近源图像[30]，但这仅适用于小的域偏移。大多数当前的方法使用任务特定损失（即，在翻译之后保留任务网络翻译后保留图像的语义）[14，26，42]。我们的贡献与这个工作方向是正交的。我们证明，在阴影反照率空间中翻译图像会导致更高的视觉质量，从而提高了真实数据的性能。我们这样做没有使用特定任务或语义损失，因此不限于特定任务。我们的工作可以与其他领域的适应思想相结合，以进一步改善结果。3. 方法我们的目标是提高低质量合成图像的视觉真实感特别地，我们专注于将室内场景的图像I〇从OpenGL渲染的图像O的域转换到真实照片R的域。这是一个不成对的问题，必须在没有直接监督的情况下学习。翻译必须处理两个方面：第一，像OpenGL这样的简单渲染引擎不对复杂的、真实世界的照明进行建模，第二，合成场景通常不具有逼真的真实世界材质和纹理。我们建议通过显式操纵，ING的合成着色和反照率分别处理这一点此外，我们发现，直接从OpenGL转换到真实图像是具有挑战性的，因为它们之间的领域差距很大;将OpenGL着色改变为真实世界着色需要大的非局部变换，这对于以无监督的方式学习是有挑战性的。但是，可以使用基于物理的渲染器渲染合成场景，该渲染器可以生成更逼真的着色。我们利用这一点提出了两阶段翻译。首先，我们将OpenGL2732(a)没有(b)与o→po→po→po→p(a)OpenGL转PBR(b)PBR到Real图2：我们的两阶段OpenGL到真实翻译的框架。将图像I/O转换到基于物理的渲染（PBR）域，P，通过使用成对的OpenGL仅变换着色-PBR图像。然后，我们将这些PBR图像转换到实域R，通过使用两个单独的网络来细化反照率和阴影;这是以无监督的方式进行的。图2显示了我们的两阶段框架的概述，我们将在下面的部分中描述它们。3.1. OpenGL到PBR图像转换虽然用 OpenGL 渲染场景在计算上是参见图 1（a））。其中一个原因是独立的OpenGL只支持简单的照明模型（如平行光或点光源），而不对复杂的照明效果（如全局照明）进行建模。相比之下，基于物理的渲染器可以通过模拟光通过场景的传播来生成具有真实感阴影的图像，尽管以显著更多的处理时间为代价因此，我们分别使用OpenGL和基于物理的渲染器Mitsuba [19]渲染相同的场景。这两个im-图3：使用着色鉴别器，我们的网络能够预测更准确的着色图像，并摆脱颜色不一致等问题。编码有关合成场景的语义（通过反照率）和几何（通过法线和着色）信息，并帮助翻译。最后，我们将合成的PBR着色S¯p与原始OpenGL反照率Ao相乘，以重建PBR图像I¯p：年龄具有相同的几何形状和材质属性，不同之处仅在于着色的质量我们训练一个新-S¯p=GS（So，Ao，No），I¯p=S¯p*Ao（1）在这些图像对上建立一个用于将OpenGL图像转换到PBR域的ral网络;因此，该网络学会从简单的OpenGL场景合成更真实的阴影，从而绕过基于物理的渲染的成本。我们使用配对的条件生成对抗网络[18，36]来完成这项任务。令I〇、Ip分别是OpenGL和PBR域中的一对图像由于这两个图像仅在它们的阴影分量上不同，所以我们对它们进行了分解。我们的内在图像模型假设朗伯阴影。虽然这是对真实世界反射率的近似，但它对于室内图像的许多区域是足够的，并且被广泛使用[2，3，23]。为了恢复高动态着色值，我们在对数空间中预测着色。类似于pix2pixHD [36]，我们使用感知重建损失（基于VGG特征）和对抗损失的组合。我们利用对抗性损失通过一个dis-将它们放置在反照率和阴影层中，并训练阴影。预测图像上的犯罪分子，以及一个发电机GS（·），其变换OpenGL着色，在预测的阴影上，.这确保了S0，到PBR阴影，Sp。而不是只使用OpenGL阴影作为输入，我们使用合成场景的辅助缓冲器，包括反照率Ao和表面法线No，作为生成器的输入这些额外的缓冲器生成的图像和阴影与分布对齐PBR图像和阴影的分配。我们使用了条件判别器，它也将Nodo和法线作为输入。通过仅平移阴影并将其乘以2733p→rp→rp→rp→rp→rp→rp→r原始反照率，我们确保反照率的纹理结构被明确保留。单独合成着色对于网络来说也是一项更容易的任务，因为着色分量在空间上是平滑的，并且不具有图像的高频细节。此外，这也使我们能够将阴影，So→p，为培训提供更强有力的监督作为如图3所示，没有阴影鉴别器，网络预测具有不一致颜色的不切实际的照明，而我们的完整网络避免了这个问题。3.2. PBR到真实图像的转换我们的流水线的第一阶段生成具有更精确的物理阴影和全局照明的图像。然而，这些图像可能仍然具有来自真实照片的域偏移。反照率仍然来自低质量场景，并且可能具有不真实的颜色。阴影也仍然是合成场景的函数，并且可能与真实世界场景的强度、颜色、对比度和空间分布不一致。在第二阶段中，我们寻求将剩余的域间隙桥接到目标真实图像数据集。与第一阶段不同，在预测的PBR图像和真实图像之间不存在一对一的对应。Zhu等人。[43]引入了CycleGAN框架来解决这种不成对的问题，我们在第二阶段建立了他们的框架。与原始的CycleGAN网络在图像空间中执行平移不同，我们提出使用不同的生成器分别平移反照率和阴影分量这种新颖的设计是基于反照率包含高频细节的见解，并且应该局部修改以更好地保留结构细节。另一方面，阴影是全局现象（因为它是场景和光源几何的函数）并且应当考虑全局上下文。在[10]中进行了类似的观察，其中使用不同的操作符用于全局辐照度和局部辐射度。第一级的输出是预测的PBR图像I¯p。如前所述，这是预处理的产物口述（OpenGL-to-PBR）着色、S¯和原始图4：为了完成反向循环，首先将真实图像然后，我们使用预训练的本征分解网络H将其分解为其反照率和阴影，其进一步被馈送到相应的生成器。最后将输出的反照率和阴影相乘，重建出原始的真实图像。反照率发生器导致纹理中的严重高频伪影。我们的架构消除了这个问题，并实现了更高质量的结果相比之下，着色生成器针对更大的感受野使用下采样块，以便允许全局变化。与CycleGAN类似，我们使用向后r→p平移来约束向前p→r平移。与PBR域不同，我们无法访问真实图像的反照率和着色层。因此，我们使用图像空间生成器Gr→p（·），其将真实图像变换为PBR域我们利用两个鉴别器，Dr和Dp，来区分-分别在真实域和PBR域中识别真实样本和伪样本这里，Dr区分PBR图像转换到实数域（公式2中的I<$r），图像.另一方面，Dp区分PBR图像（从第一阶段合成）I¯p和转换到PBR域的真实图像Gr→p（Ir）。注意，虽然用于p→r方向的生成器被应用于反照率和阴影，将鉴别器应用于作为它们的乘积计算的我们通过优化标准GAN损耗LGAN（GA）来训练网络，GS、D r）p场景反照率Ap（与Ao相同）。如图2所示，为了从PBR域转换到实数域（p→r），我们使用两个生成器G A（·）和G S （ ·）合成真实的反照率和阴影，A´r和S´r，re-外观方面最终预测的真实图像I¯r可以是重构为：和LGAN（Gr→p，Dp）的正向平移p→r和反向平移r→p。仅具有GAN损失不足以学习有意义的翻译，因为缺乏像素级对应[39]。与CycleGAN类似，我们还包括向前和向后循环一致性损失。前向循环一致性，p→r→p是平凡的：A¯r=GA（Ap），S<$r=GS（S¯p），I<$r=A<$rS<$r（二）预测的真实图像Ir通过馈送返回到PBR域p→rp→r将其发送到生成器Gr→p，并最小化L1损失-我们对GA和GS使用不同的体系结构。为在输出和PBR源图像I¯p之间：p palphedo，我们使用一个完全卷积的网络没有下降-采样或上采样块。这导致了一个小的重新-L代表（GASp→r，Gr-p）=||Gr→p（I¯r）−I¯p||1网络的ceptive字段，更好地保留了纹理细节，同时避免了大的结构变化[16，17]。作为为||G r→p（G A（Ap）*GS（S¯p））−I¯p||第一章（三）如图6所示，允许在指定反向循环中对块进行我们D、G2734o→po→pp→rp→r2p→r2Rp→rpp→rp可以将真实图像Ir映射到PBR域，如Gr-p（Ir）。然而，通过向前的p→r转换将其转换回实域需要反照率-阴影分离，这对于这些图像是没有的-我们只有原始合成图像才有它们。我们通过训练一个内在的分解网络[23，3，4]来预测PBR图像的反照率和阴影层来解决这个问题。设H是固有分解网络。给定PBR图像I和对应的反照率Al和阴影Sl，(a) 非L回来(b) 与L回来H通过优化以下损失函数来训练：L（H）= ||H A（I）− A I||2个以上||H S（I）− S I||第二条、第四条图5：如果没有反向循环，网络往往产生具有不期望的新结构的输出使用预训练的内在分解添加向后循环其中HA（I）和HS（I）是网络H的预测反照率和阴影。我们采用的网络体系结构中使用的李等人。[23]，其中包含一个编码器和两个具有跳过连接的解码器。虽然他们使用尺度不变均方误差（MSE）损失，但我们使用MSE，因为我们要求反照率和阴影的乘积与原始图像相同。内在分解网络H在预测的PBR图像从第一阶段I´p开始，在那里我们有一个地面真实反照率和阴影。然后，在图像翻译网络的训练期间将其固定。我们使用本征分解网络H将Gr→p（Ir）分解成其反照率和阴影。然后，我们可以经由前向p-r转换来转换每个分量，以合成整个后向循环的结果网络能够生成具有更高质量的图像(a) 有下采样（b）没有下采样图6：在有下采样和没有下采样的情况下，比较多个生成器中的块.从结果中我们可以看到，没有下采样的生成器块可以更好地保留输入的纹理结构。导致以下的反向循环一致性损失：对于鉴别器。生成器GS包含两I′=Gr→p（Ir）包括全局网络和局部网络的子网，每个子网具有pI′′=GSHS（I′））*GA（HA（I′））9和3残差块，如Wang等人提出的。[12 ]第10段。而由生成器直接预测的阴影是真实的，L（GA、G、S、G）=的||I′′−I||（五）声音，它可能有噪音，不连续性或典型的GAN返回p→rp→rr→prr1块伪影，这降低了最终图像质量。图4显示了我们的反向循环的公式。注意我们的网络是不对称的;前向转换采用我们的PBR反照率和阴影层，转换并组合它们以构造结果。我们的落后我们利用着色的固有空间平滑度，并通过在着色生成器的输出层之后应用引导滤波器层[38引导滤波器层h（·）采用OpenGL着色S0，翻译则相反;它首先将真实图像和转换的OpenGL着色，GS（S0）作为输入，以及到PBR域然后在那里分解它们。这允许我们绕过对真实真实阴影数据的要求，而是训练我们具有地面实况监督的PBR阴影分解。如图5所示，利用这种新颖的向后一致性循环显著减少了伪影，并提高了我们的PBR到真实翻译的视觉质量。我们用于PBR到实数转换的最终损失函数是两个GAN损失（来自鉴别器Dp和Dr）以及前向和后向循环一致性损失（等式3和5）的组合。输出预测的着色S¯p。我们将半径设置为4，正则化参数设置为0。01.PBR-to-Real。对于我们的第二阶段，我们使用相同的PatchGAN架构作为鉴别器。着色生成器GS和实数到PBR生成器Gr-p都具有步长为2的2个卷积块以对输入进行下采样，随后是4个残差块和具有上采样层的2下采样/上采样为着色生成器提供了一个大的接收域，使其能够捕获有关场景的全局信息并进行全局更改，例如调整着色4. 执行颜色和强度。反照率发生器GA具有模拟-类似于GS的体系结构，除了它没有任何OpenGL到PBR。我们的第一阶段网络架构基于pix2pixHD [36]。我们使用70×70PatchGAN [18]下采样/上采样。这使感受野保持较小，并迫使PRANDO生成器仅修改.Σ2735局部反射率，从而保留纹理细节。训练数据。对于OpenGL和PBR图像，我们使用Li等人的合成数据集。[23]，其中包含来自SUNC数据集[32]的室内场景的约20000个480 × 640图像，使用OpenGL和Mitsuba [19]（基于物理的渲染器）进行渲染。我们使用5000个图像对进行第一阶段的训练。然后，第一阶段的网络是用来翻译另外5000OpenGL图像到PBR域，这是用于第二阶段的训练。在第二阶段中使用两个真实图像数据集：Poursaeed等人的房地产数据集。[27]和NYUv2数据集[31]。房地产数据集包含室内场景的高质量真实图像，我们使用它来比较图像质量（第5.1 节）。 NYUv2 数据集用于域适应实验（第 5.2节）。最后，额外的5000个OpenGL图像用于测试整个管道。我们选择不同场景的训练和测试OpenGL图像，以避免重叠。培训详情。这两个阶段是分开训练的。我们使用Adam [22]，初始学习率为0。0002用于训练两个阶段。网络训练100个时期，前50个时期以初始学习率训练，其余50个时期以线性衰减的学习率训练。我们从输入图像中随机裁剪补丁进行训练，第一阶段的补丁大小为400×400，第二阶段为256×2565. 结果在本节中，我们首先展示了与基线方法（第5.1节）的翻译视觉质量比较。之后，我们展示了我们的两阶段流水线可以在使用我们的翻译图像进行训练时提高真实图像上的网络模型的性能（第5.2节）。5.1. 视觉质量比较我们比较我们的方法的结果对不同的基线为每个单独的阶段和整个管道。除了定性的比较，我们还定量地测量与两个度量不同的方法生成的图像的视觉真实感。第一个是FID分数[13]，已证明其在测量两个分布之间的距离方面是有效的，并且与图像噪声和失真一致。此外，我们还对Amazon Mechanical Turk进行了人类感知研究。对于每一项任务，工作人员都会看到不同方法输出的图像，并要求他们选择最真实的结果，最少的伪影。对于每个任务，我们有100张图像，每个图像由10个不同的工作人员进行评估，总共有1000个判断。我们将在下面详细讨论每个阶段。OpenGL到PBR 的转换。我们提出的网络将反照率、法线和OpenGL阴影作为输入来预测PBR阴影，将其乘以反照率以重建所需的PBR图像。我们比较我们的方法(a) OpenGL图像（b）PBR图像(c) p2pHD-OpenGL（d）p2pHD-S+A+N（e）我们的结果图7：OpenGL与PBR的比较。像Mitsuba这样的PBR渲染器需要大约20分钟来渲染无噪声图像，如（b）所示相比之下，我们的网络可以生成高质量结果为0。03秒（e）.与直接预测输出IM的pix 2pix-HD框架使用OpenGL（c）或辅助缓冲区（d），使用不一致的阴影，例如橱柜上的突然高光，我们的方法生成具有更高视觉真实感的图像。有两条基线： pix 2 pix-HD 网络 [36] ，其预测仅以OpenGL 图像为条件的 PBR 图像（在表 1 中表示为p2pHD-OpenGL），以及相同的网络，其采用与我们相同的输入但直接预测PBR图像（p2pHD-S+A+N）。两个基线都是使用与我们相同的生成器架构和参数设置进行训练的。唯一的区别是生成器的输入/输出和缺少着色鉴别器。我们计算预测的PBR图像和地面实况PBR图像之间的FID分数，并且我们还进行用户研究以要求工作人员在三种方法的输出中选择最视觉上真实的PBR预测。从表1（0-P）中的结果，我们可以清楚地看到，与其他基线相比，我们的方法实现了低得多的FID分数，这意味着我们的预测与地面实况PBR图像的分布更一致。此外，我们获得了60的用户偏好率。6%，比其他两个基线高得多，证明在着色空间中进行预测生成具有高得多的质量的图像。视觉比较如图7所示。PBR到Real翻译在这个阶段，我们训练网络将第一阶段的输出转换到实数域。我们比较的幼稚CycleGAN框架，在图像空间中执行的翻译。在转换图像和来自房地产数据集的真实图像之间计算FID分数。类似地，从表1中我们可以看到，使用我们提出的框架对反照率和着色进行的解纠缠翻译获得了较低的FID分数2736低越好更高更好（%）是说中值<11个国家。25< 二十二岁5<30O → POpenGL我们的PBR37.7334.8231.9127.6617.9321.1638.3642.8248.5253.25P → RCycleGAN [43]33.9027.2422.2843.9954.38CycleGAN [43]36.3330.2519.1539.1950.15O → RT2Net [42]36.9330.9318.9339.2350.49我们的-满33.1526.2723.5244.9555.28真实*28.1821.9528.1452.2162.35表1：FID和用户偏好评分的比较。(a) 预测PBR（b）CycleGAN表2：NYUv2数据集的正态估计结果。低越好越高越好（%）RMSERMSE-日志<1.一、25<1.一、252<1.一、253O → POpenGL我们的PBR1.07701.02930.38730.351443.5346.2373.6075.4189.7591.35P → RCycleGAN [43]0.98240.339448.2478.6192.25CycleGAN [43]1.03280.372645.4675.4991.13O → RT2Net [42]1.00850.354847.4977.5791.94我们的-满0.97740.332849.5979.5493.14真实*0.70700.251667.7688.7596.35表3：NYUv2数据集上的深度估计结果。真实*是在来自NYUv2的5000个真实图像上训练的模型。(c)我们（b）第（1）款（c）第（1）款提出的方法令人满意地解决。5.2. 域适应由于域间隙，用合成图像训练的网络模型通常我们的两阶段网络提高了合成图像的视觉真实感，从而提高了网络模型的性能图8：PBR与Real比较。给定第一阶段中的预测的PBR图像（a），我们进一步将其转换到实域。与在图像空间中执行平移的原始CycleGAN [43]相比，我们的方法可以更好地保留纹理的结构并生成具有更少伪影的图像。和更高的用户偏好率。如图8所示，我们的网络能够修改输入的反照率和相反，原始CycleGAN网络引入了明显的伪影，降低了图像质量。全管道。我们还将我们的两阶段转换与之前直接从OpenGL转换到真实的方法进行了比较：CycleGAN方法和T2Net [42]。T2Net使用单个生成器和鉴别器进行合成到真实的转换.除了标准的GAN损失之外，它还引入了身份损失，以保证当真实图像被馈送到合成生成器时，输出与输入相似。结果表明，我们的完整流水线显著优于两个基线中使用的单级翻译。图9中的视觉比较表明，单阶段平移无法产生逼真的着色，并且由于OpenGL图像和真实图像之间的巨大差距而产生具有噪声和伪影的结果，这是我们的亲FID用户偏好p2pHD-OpenGL [36]21.01 百分之十点二O → Pp2pHD-S+A+N [36]11.63 百分之二十九点二我们7.4060.6%P → RCycleGAN [43]54.80 百分之二十七点九我们53.4872.1%CycleGAN [43]59.42 百分之十六点九2737用翻译的图像训练ELS我们比较了用不同方法生成的图像训练的网络模型在两个任务上的性能，我们在从SUNC数据集翻译到中的测试数据集进行评估NYUv2，包含1449个具有地面实况正常和深度的图像正常估计。我们使用具有7个下采样块的U-Net [29]进行正常估计任务，并将地面真实正常和预测正常之间的逆点积应用为损失函数。该网络使用Adam优化器训练200个epoch，前100个epoch的学习率为2×10−4，其余100个epoch的学习率为线性衰减率我们在NYUv2数据集上测试了在表2中，我们报告了预测法线和地面真实法线之间的平均和中值角度，以及角度低于某个阈值的像素的百分比从表中我们可以看到，与在OpenGL图像上训练的模型相比，在我们预测的PBR图像上训练显著降低了平均角度，并且转换到真实域进一步将其降低到33。15，这表明这两个阶段都有助于减少域差距，并有助于提高网络性能。此外，与中的幼稚CycleGAN相比2738(a) OpenGL image（b）CycleGAN（c）T2Net（d）Ours图9：从OpenGL到Real的完整流水线与使用CycleGAN和T2Net的单阶段转换的比较.对于第二阶段的图像空间，我们的解纠缠设计也能够实现更高的精度。最后，相比直接从OpenGL到真实图像的方法，如CycleGAN和T2 Net，我们的两阶段翻译显着优于他们的所有指标。深度估计。我们使用的网络架构在郑等人。[42]用于深度估计，并采用相同的训练协议。我们使用诸如预测和地面真值之间的相对均方误差（RMSE）、对数空间中的RMSE以及与地面真值的比率低于阈值的像素百分比等指标来评估NYUv2数据集上不同方法的性能[6]。表3总结了不同网络模型的得分。从表中我们可以看到，用我们预测的PBR图像进行训练比在合成OpenGL图像上进行训练实现了更高的准确性，并且我们的完整流水线通过将PBR图像转换到真实域来进一步提高准确性。我们的两阶段翻译也能够优于T2 Net和CycleGAN的单阶段翻译，并导致更低的错误。6. 结论我们提出了一种新的两阶段框架来翻译合成OpenGL图像到真正的域。我们通过操纵图像的反照率和阴影层来实现这一点：我们首先通过在成对数据上训练来将它们转换到PBR域，然后是到真实域的无监督转换。我们已经证明，我们的ap-proach导致翻译具有更高的视觉质量和更好的性能域适应场景推断任务。我们相信，在反照率阴影分解上操作是将物理结构纳入生成模型的一种方式，并且希望探索将此想法应用于其他任务，如图像合成，图像编辑和风格转移。致谢本工作得到了ONR基金N000141712687、AdobeResearch、三星GRO基金和加州大学圣地亚哥分校视觉计算中心的部分支持。这项工作的一部分是在Sai Bi在Adobe Research实习时完成的。2739引用[1] Harry G. Barrow和J.马丁·特南鲍姆从图像中恢复场景的内在特征。计算机视觉系统，第3-26页，1978年。1[2] Sean Bell，Kavita Bala，Noah Snavely.在野外的内在图像。SIGGRAPH，33（4），2014. 3[3] Sai Bi、Nima Khademi Kalantari和Ravi Ramamoorthi。深度混合真实和合成训练的内在decomposition。EGSR2018，第53-63页，2018年。三、五[4] Lechao Cheng，Chengyi Zhang，and Zicheng Liao.通过尺度空间分解的内在图像变换。在CVPR，2018年6月。5[5] Yunjey Choi，Minje Choi，Munyoung Kim，Jung-WooHa，Sung Kim，and Jaegul Choo. StarGAN：用于多域图像到图像翻译的统一生成对抗网络。在CVPR，2018年。2[6] David Eigen、Christian Puhrsch和Rob Fergus。使用多尺度深度网络从单个图像进行深度在NIPS，第2366-2374页，2014中。8[7] 雅罗斯拉夫·甘宁和维克多·伦皮茨基。通过反向传播的无监督在ICML，第11802[8] Yaroslav Ganin 、 Evgeniya Ustinova 、 Hana Ajakan 、PascalGermain、HugoLarochelle、FrancçoisLa violette、Mario Marchand和Victor Lempitsky。神经网络的领域对抗机器学习研究杂志，17（1）：2096-2030，2016。2[9] Baris Gecer ，Binod Bhattarai， Josef Kittler， and Tae-Kyun Kim.半监督对抗学习从3D变形模型生成新身份的真实感人脸图像。在ECCV，2018年9月。2[10] Re i dGershbein，PeterSchr o¨ de r，andPatHanrahan. 纹理和光能传递：用tex-控制发射和反射[17] Andrey Ignatov 、 Nikolay Kobyshev 、 Radu Timofte 、Kenneth Vanhoey和Luc Van Gool。WESPE：用于数码相机的弱监督照片增强器。在CVPR研讨会，第691-700页，2018年。4[18] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei AEfros.使用条件对抗网络的图像到图像翻译。CVPR，2017年。一、二、三、五[19] 温泽尔 · 雅各布 Mitsubarenderer ， 2010.http://www.mitsuba- renderer.org.三、六[20] Micah K Johnson，Kevin Dale，Shai Avidan，HanspeterPfister，WilliamTFreeman，andWojciechMatusik.CG2Real：使用大量照片来提高计算机生成图像的真实感。IEEE TVCG，17（9）：12732[21] Tero Karras ， Timo Aila ， Samuli Laine ， and JaakkoLehtinen.GAN的逐步增长，以提高质量，稳定性和变化。在ICLR，2018年。1[22] Diederik P. Kingma和Jimmy Ba。Adam：随机最佳化的方法。ICLR，2015年。6[23] 李正奇和诺亚·斯内弗利。Cgintrinsics：通过基于物理的渲染实现更好的固有图像分解。在ECCV，2018。三五六[24] Ming-Yu Liu，Thomas Breuel，and Jan Kautz.无监督图像到图像翻译网络。在NIPS，第700- 708页，2017年。2[25] Franziska Mueller 、 Florian Bernard 、 Oleksandr Sotny-chenko、Dushyant Mehta、Srinath Sridhar、Dan Casas和Christian Theobalt。Ganerated手实时3D手跟踪从单眼rgb。在CVPR，第49-59页，2018年。2[26] Zak Murez、Soheil Kolouri、David Kriegman、Ravi Ra-mamoorthi和Kyungnam Kim。用于域适应的图像到图像在CVPR，2018年6月。2真地图在SIGGRAPH中，第51-58页。ACM，1994年。4[27] OmidPoursaeed，Toma´sˇ马泰拉和塞尔日·贝隆吉[11] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在NIPS，第2672-2680页1[12] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习在CVPR，第5卷，第6页，2015中。5[13] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。通过两个时间尺度更新规则训练的 GAN 收敛到局部纳什均衡。参见NIPS，第6626-6637页，2017年。6[14] Judy Hoffman ， Eric Tzeng ， Taesung Park ， Jun-YanZhu，Phillip Isola，Kate Saenko，Alexei A.埃弗罗斯和特雷弗·达雷尔。CyCADA：周期一致的对抗性结构域适应。在ICML，2018。2[15] Xun Huang ， Ming-Yu Liu ， Serge Belongie ， and JanKautz. 多模态无监督图像到图像翻译。在 ECCV ，2018。2[16] Andrey Ignatov 、 Nikolay Kobyshev 、 Radu Timofte 、Kenneth Vanhoey和Luc Van Gool。在具有深度卷积网络的移动设备上拍摄数码单反质量的照片。InICCV，2017.42740基于视觉的房地产价格估计。机器视觉与应用，29（4）：667-676，2018。6[28] Stephan R Richter，Vibhav Vineet，Stefan Roth，andVladlen Koltun.播放数据：从电脑游戏中得到的真相。在ECCV中，第102-118页。施普林格，2016年。2[29] Olaf Ronneberger，Philipp Fischer，and Thomas Brox.U-Net：用于生物医学图像分割的卷积网络。医学图像计算和计算机辅助干预国际会议，第234施普林格，2015年。7[30] Ashish Shrivastava ， Tomas Pfister ， Oncel Tuzel ，Joshua Susskind，Wenda Wang，and Russell Webb. 通过对抗训练从模拟和无监督图像中在CVPR，第2卷，第5页，2017年。2[31] Nathan Silberman 、 Derek Hoiem 、 Pushmeet Kohli 和Rob Fergus。室内分割和支持RGBD图像的推理。在ECCV，第746-760页中。S

下载后可阅读完整内容，剩余1页未读，立即下载