学习单图像反渲染的卷积神经网络

25 浏览量更新于2023-10-19 收藏 14.18MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

31550InverseRenderNet：学习单图像反渲染0Ye Yu和William A. P.Smith，约克大学计算机科学系，英国0{ yy1571,william.smith } @york.ac.uk0输入漫反射反照率光照法线映射多视角重建前向遮蔽遮蔽图1：从单个图像（col.1）中，我们估计反照率和法线映射以及光照（col. 2-4）；与数百个图像的多视角立体匹配结果（col.5）；使用前向/估计的光照重新渲染的形状（col. 6-7）。0摘要0我们展示了如何训练一个完全卷积神经网络，从单个不受控制的图像中进行反渲染。该网络以RGB图像作为输入，从中回归出反照率和法线映射，然后计算光照系数。我们的网络使用大规模的不受控制的图像集进行训练，没有地面真实值。通过引入可微分渲染器，我们的网络可以通过自我监督进行学习。由于问题是不适定的，我们引入了额外的监督：1.我们学习了一个统计自然光照先验，2.我们的关键洞察力是对包含丰富光照变化的图像进行离线多视角立体匹配（MVS）。通过MVS的姿态和深度图，我们可以在重叠视图之间进行交叉投影，从而可以使用孪生训练来确保光度不变量的一致估计。MVS深度还为法线映射估计提供了直接的粗略监督。我们相信这是首次尝试使用MVS监督来学习反渲染。01. 引言0反渲染是从观察到的外观（即一个或多个图像）中估计光照、反射特性和形状的问题。在本文中，我们解决了这个问题中最具挑战性的设置；我们仅从单个不受控制的图像中估计这三个量。具体来说，我们估计法线映射、漫反射反照率映射和球谐光照系数。这包含了两个经典的计算机视觉问题：（非校准的）形状恢复和内在图像分解。0经典方法[4,29]将这些问题转化为能量最小化问题。在这里，数据项衡量输入图像和由估计量产生的合成图像之间的差异。我们将问题视为图像到图像的转换问题，并使用深度全卷积神经网络来解决。然而，不受控制的室外场景的反渲染本身就是一个未解决的问题，因此无法使用有监督学习的标签。31560输入0反照率0法线0IA0遮蔽0光照模型0光照0渲染器0渲染0InverseRenderNet0外观损失0图2：在推理时，我们的网络从单个不受控制的图像中回归出漫反射反照率和法线映射，然后计算最小二乘最优球谐光照系数。在训练时，我们通过使用可微分渲染器和估计的量计算的外观损失引入自我监督。0不可用。相反，我们使用可微分渲染器进行自我监督的数据项（见图2）。0单图像反渲染是一个固有的模糊问题。例如，通过将反照率映射设置为图像，法线映射设置为平面，并任意设置照明使得遮蔽处处为单位，可以用零数据误差解释任何图像。因此，仅靠数据项无法解决这个问题。因此，经典方法会在数据项上增加通用[4]或对象类特定的[2]先验。同样，我们在学习过程中也利用先验（具体来说是对光照的统计先验和对漫反射反照率的平滑先验）。然而，使得CNN能够学习良好性能的关键洞察力是引入离线多视角重建提供的额外监督。0尽管光度视觉主要局限于受限的实验室环境，但经典的几何方法足够强大，可以从包含非常丰富的照明变化的大型非结构化数据集中提供多视图3D形状重建[14,17]。这得益于局部图像描述符对光照的不变性。然而，这些方法仅恢复几何信息，任何恢复的纹理映射都包含了照明效果，因此对于重新照明是无用的。我们利用几何方法对不同照明条件下的鲁棒性来监督我们的反渲染网络。我们对同一场景的大量图像应用多视图立体（MVS）流程。我们选择具有不同照明的重叠图像对，使用估计的相对姿态和深度图在视图之间交叉投影光度不变量，并通过孪生训练用于监督。换句话说，几何提供了对应关系，使我们能够从固定视点模拟不同的照明。最后，MVS的深度图提供了粗略的法线图估计，可用于直接监督法线图估计。01.1. 贡献0深度学习已经在反渲染问题的组成部分上展现出良好的性能。这包括单目深度估计[11]、深度和法线估计[10]和内在图像分解[30]。然而，这些工作使用的是监督学习。对于没有真实标签的任务，这些方法必须在合成数据上进行训练（在这种情况下，无法保证对真实世界的泛化），或者使用现有方法生成伪标签（在这种情况下，网络只是学习复制现有方法的性能）。室外复杂场景的反渲染本身就是一个未解决的问题，因此可靠的真实标签是不可用的，无法使用监督学习。在这种情况下，我们做出以下贡献。据我们所知，我们是第一个利用MVS监督学习反渲染的人。其次，我们是第一个解决最一般版本的问题，考虑任意室外场景并从真实数据中学习，而不是限制在单个对象类别[46]或使用合成训练数据[53]。第三，我们引入了自然场景中球谐光照的统计模型作为先验。最后，所得到的网络是第一个在野外进行形状、反射率和照明的反渲染，并且我们在这个设置下进行了第一次评估。02. 相关工作0经典方法经典方法通过拟合光度或几何模型来估计内在属性。大多数方法需要多个图像。从多视图图像中，结构-运动/多视图立体流程可以恢复密集的网格模型[14,24]，尽管照明效果已经融入纹理中。从具有固定视点但照明变化的图像中，可以应用光度立体。变种方法考虑统计BRDF模型[3]、使用室外时间间隔图像[29]和Deep depth predictionDirect estimation of shape aloneusing deep neural networks has attracted a lot of attention.Eigen et al. [10, 11] were the ﬁrst to apply deep learningin this context. Subsequently, performance gains were ob-tained using improved architectures [28], post-processingwith classical CRF-based methods [36,50,51] and using or-dinal relationships for objects within the scenes [8, 13, 34].Zheng et al. [53] use synthetic images for training butimprove generalisation using a synthetic-to-real transformGAN. However, all of this work requires supervision byground truth depth. An alternative branch of methods ex-plore using self-supervision from augmented data.Forexample, binocular stereo pairs can provide a supervi-sory signal through consistency of cross projected images[15, 16, 25]. Alternatively, video data can provide a simi-lar source of supervision [48, 49, 54]. Some of other workbuilt from speciﬁc ways were proposed recently. Tulsianiet al. [47] use multiview supervision in a ray tracing net-work. While all these methods take single image input, Ji etal. [23] tackle the MVS problem itself using deep learning.Deep intrinsic image decompositionIntrinsic image de-composition is a partial step towards inverse rendering. Itdecomposes an image into reﬂectance (albedo) and shadingbut does not separate shading into shape and illumination.Even so, the lack of ground truth training data makes thisa hard problem to solve with deep learning. Recent workeither uses synthetic training data and supervised learning[7,12,20,30,39] or self-supervision/unsupervised learning.Very recently, Li et al. [33] used uncontrolled time-lapseimages allowing them to combine an image reconstructionloss with reﬂectance consistency between frames.Thiswork was further extended using photorealistic, synthetictraining data [32]. Ma et al. [38] also trained on time-lapsesequences and introduced a new gradient constraint whichencourage better explanations for sharp changes caused byshading or reﬂectance. Baslamisli et al. [5] applied a simi-lar gradient constraint while they used supervised training.Shelhamer et al. [43] propose a hybrid approach where aCNN estimates a depth map which is used to constrain aclassical optimisation-based intrinsic image estimation.Deep inverse renderingTo date, this topic has not re-ceived much attention. One line of work simpliﬁes the prob-lem by restricting to a single object class, e.g. faces [46],meaning that a statistical face model can constrain the ge-ometry and reﬂectance estimates. This enables entirely self-supervised training. Shu et al. [45] extend this idea with anadversarial loss. Sengupta et al. [42] on the other hand, ini-tialise with supervised training on synthetic data, and ﬁne-tuned their network in an unsupervised fashion on real im-ages. Aittala et al. [1] restrict geometry to almost planarobjects and lighting to a ﬂash in the viewing direction un-der which assumptions they can obtain impressive results.More general settings have been considered including nat-ural illumination [31]. Kulkarni et al. [27] show how tolearn latent variables that correspond to extrinsic parame-ters allowing image manipulation. The only prior work weare aware of that tackles the full inverse rendering problemrequires direct supervision [21,35,37]. Hence, it is not ap-plicable to scene-level inverse rendering, only objects, andrelies on synthetic data for training, limiting the ability ofthe network to generalise to real images.3. PreliminariesWe assume that a perspective camera observes a scene,such that the projection from 3D world coordinates,(u, v, w), to 2D image coordinates, (x, y), is given by:λxy1 = Puvw131570空间变化的BRDF[18]。尝试结合几何和光度方法的努力有限。Haber等人[19]假设已知几何（可以由MVS提供）并从社区照片集合中反渲染反射率和照明。Kim等人[26]代表了最先进的技术，再次使用MVS初始化来联合优化几何、照明和反照率。一些方法考虑单个图像设置。Jeson等人[22]引入了一种局部自适应反射率平滑约束，用于纹理无关输入图像的内在图像分解，这些图像是使用纹理分离算法获取的。Barron等人[4]提出了SIRFS，一种经典的基于优化的方法，使用通用先验的复杂组合来恢复形状、照明和反照率。0��, P = K � R t �, K =0�f 0 cx 0 f c0 0 10�,0(1) 其中 λ 是任意的比例因子，R ∈ SO(3) 是旋转矩阵，t∈ R 3 是平移向量，f 是焦距，(cx, cy)是主点。逆渲染的形状估计可以用多种方式表示。例如，许多先前的方法估计以观察者为中心的深度图。然而，局部反射，因此外观，由表面方向决定，即局部表面法线方向。因此，为了渲染自我监督的深度图，我们需要计算表面法线。从透视深度图 w(x, y)，表面法线方向为：0n =0�-fwx(x, y)-fwy(x, y)(x - cx)wx(x, y) + (y - cy)wy(x,y) + w(x, y)0�0(2) 由此得到单位长度法线：n = ¯n /∥¯n∥。图像中深度图的导数by applying (4) to each normal vector. We can now rewrite(3) for the whole image as:31580平面 wx(x, y) 和 wy(x, y)可以通过有限差分来近似。然而，(2)需要内在相机参数的知识。这将严重限制我们方法的适用性。因此，我们选择直接估计表面法线图。尽管表面法线可以用3D向量表示，但由于∥n∥ =1，它只有两个自由度。因此，我们的网络估计每个像素的表面梯度的两个元素，wu(x, y) 和 wv(x,y)，并且通过一个固定层计算转换为3D表面法线向量：n =[-wu(x, y), -wv(x, y), 1]T。注意，我们在一个以观察者为中心的坐标系中估计法线图。我们假设外观可以在环境照明下用局部反射模型来近似。具体来说，我们使用一个具有2阶球谐光照的Lambertian漫反射模型。这意味着RGB强度可以计算为0ilin(n, α, L) = diag(α)Lb(n), (3)0其中 L ∈ R 3 × 9 包含球谐颜色照明系数，α =[αr，αg，αb] T是颜色漫反射反照率，2阶基础由以下给出：0b(n) = [1, nx, ny, nz, 3n^2z - 1, nxny, nxnz, nynz, n^2x- n^2y] T. (4)我们的外观模型意味着我们忽略了高频照明效果、投影阴影和互反射。然而，我们发现在实践中，这个模型对于典型的室外场景效果很好。最后，相机应用非线性的伽马变换。我们模拟这个过程来产生我们最终的预测强度：ipred = i1 /γlin，其中我们假设固定的γ = 2.2。04. 架构0我们的逆渲染网络（见图2）是一个从单个图像中回归反照率和法线图，并使用这些来估计照明的图像到图像的网络。我们在这里更详细地描述这些推理组件。04.1. 可训练的编码器-解码器0我们实现了一个具有跳跃连接的深度全卷积神经网络，类似于沙漏架构[41]。我们使用一个编码器和分别用于反照率和法线预测的反卷积解码器。反照率图具有3通道RGB输出，法线图具有两个通道用于表面梯度，然后将其转换为法线图，如上所述。卷积子网和反卷积子网都包含15层，激活函数为ReLU。训练中使用Adam优化器。04.2. 隐式光照预测0为了估计照明参数，一种选择是从输出中使用全连接分支0通过对每个法线向量应用（4），我们可以将（3）重写为整个图像的形式：0I = A ⊙ LB（N），（5）0其中⊙是Hadamard（逐元素）乘积。现在，我们可以使用整个图像以最小二乘的方式解决球谐照明系数，只要计算是可微的，这样依赖于估计照明的损失的梯度就可以反向传播到逆渲染网络中。例如，使用伪逆的解为：L = (I �A)B(N)+，其中�表示逐元素除法，B(N)+是B(N)的伪逆。图2显示了推断出的阴影I � A和估计照明的可视化。05. 监督0如图2所示，我们使用数据项（预测和观察外观之间的误差）进行自监督。然而，仅使用数据项的逆渲染是不确定的（无限多的解可以产生零数据误差），因此我们使用其他来源的监督，所有这些监督对于良好的性能都是必不可少的。我们在本节中描述了所有监督来源。05.1. 通过可微分渲染进行自监督0给定估计的法线和反射率图以及球谐照明系数，我们使用（3）计算预测图像。这个局部照明模型很容易求导。自监督由预测的i_pred和观察到的i_obs之间的误差提供。我们在LAB空间中计算这个误差，因为这样可以提供更具说服力的结果：0ℓ外观 = ∥LAB（i预测）- LAB（i观察）∥，（6）0其中LAB执行颜色空间转换。05.2. 自然照明模型和先验0球谐光照模型（3）能够有效表示复杂的照明。然而，即使是= Pj31590（a）均值+第一项0（b）均值+第二项0（c）均值-第三项0（d）均值0（e）均值+第三项0（f）均值-第二项0（g）均值-第一项0图3：统计照明模型。中心图像显示了平均照明。两个对角线和垂直线显示了前3个主成分。0在这个低维空间中，并不是所有可能的照明环境都是自然的。自然照明的空间具有统计规律[9]。我们可以利用这个知识来限制可能的照明空间，并对照明参数施加先验。为此，我们使用一个包含79个户外拍摄的HDR球形全景图像的数据集构建了一个统计照明模型（见图3）。对于每个环境，我们计算球谐系数Li ∈R3×9。由于整体强度尺度是任意的，我们还将每个照明矩阵归一化为单位范数∥Li∥Fro =1，以避免与反射率尺度的歧义。我们的照明模型在（5）中使用了以观察者为中心的坐标系中的表面法线。因此，数据集必须进行扩充，以考虑环境相对于观察者的可能旋转。由于围绕垂直（v）轴的旋转是任意的，我们将照明系数按照0到2π的角度以π/18的增量进行旋转。此外，为了考虑相机的俯仰或滚动，我们还在（-π/6，π/6）范围内绕u轴和w轴进行了扩充。这给我们带来了一个包含139,356个环境的数据集。然后，我们构建了一个统计模型，使得任何照明都可以近似为：0vec(L) = P diag(σ1, . . . , σD) α + vec(¯L). (7)0其中 P ∈ R 27 × D 包含主成分，σ 2 1 , . . . , σ 2 D是相应的特征值，¯L ∈ R 3 × 9 是平均光照系数，α ∈ R D是 L 的参数化表示。我们使用 D = 18维。在原始数据服从高斯分布的假设下0那么参数服从正态分布：α � N(0,I)。当我们计算光照时，我们在统计模型的子空间内进行。此外，我们对估计的光照向量引入先验损失：ℓ lighting =∥α∥2。05.3. 多视角立体监督0由结构从运动和多视角立体（我们简称为MVS）组成的流水线可以从大规模、不受控制的图像集中估计相机姿态和密集的三维场景模型。对我们来说，特别重要的是，这些流水线对数据集中图像之间的光照变化相对不敏感，因为它们依赖于匹配本地图像特征，这些特征本身对光照不敏感。我们强调MVS在训练之前运行，推理时我们的网络仅使用新场景的单个图像。我们使用MVS的输出作为三种监督的来源。0交叉投影我们使用MVS的姿态和深度图在视图之间建立对应关系，从而允许我们在重叠的图像之间进行交叉投影。给定一个估计的深度图 w(x, y) 在视图 i 中和视图 i 和 j 的相机矩阵，像素(x, y) 可以通过以下方式在视图 j 中进行交叉投影到位置 (x′,y′)：0λ0� x ′0�0� R T i − R T ii 0 10�0�� w(x, y) K 10� y10�0�0�0�� (8)0实际上，我们以相反的方向执行交叉投影，为目标视图中的每个像素计算源视图中的非整数像素位置。然后，我们可以使用源图像的双线性插值来计算目标图像中每个像素的数量。由于MVS深度图中包含空洞，任何跨越到缺失像素的像素都不会被赋予值。同样，任何投影到源图像边界之外的目标像素也不会被赋予值。0直接法线图监督MVS提供的每个视图深度图可以用于估计法线图，尽管它们通常粗糙且不完整（见图1，第5列）。我们使用MVS估计的深度图和内部相机参数（2）计算引导法线图。通过计算引导法线图和估计法线图之间的角度差异来进行直接监督，计算损失 ℓ NM = arccos( n guide ∙ n est )。0反射率一致性损失漫反射反射率是一种内在量。因此，我们期望两个重叠图像中相同场景点的反射率估计应该相同，即使视角之间的光照变化。因此，我们自动选择重叠的图像对（定义为具有相似的相机位置和相似的31600输入0反射率0法线0着色0光照模型0光照0交叉投影0深度图0f1, f2, [R | t]0相机参数0交叉投影0渲染器0交叉渲染0MVS0缩放0交叉投影损失0交叉渲染损失0图4：SiameseMVS监督：albedo交叉投影一致性和交叉渲染损失（为简单起见，只显示一个方向）。注意：shading取决于输入和albedo，如图2所示，但为简单起见，排除了这种依赖关系。0它们的反投影深度图的质心）。我们丢弃不包含光照变化的配对（其中交叉投影外观太相似）。然后，我们以Siamese的方式在这些配对上训练我们的网络，并使用上述交叉投影来计算albedo一致性损失：ℓ albedo = ∥ LAB ( A i ) - LAB( s A j ) ∥ 2 fro，其中 A i，A j ∈ R 3 × K分别是第i个和第j个图像中的估计albedo图，其中 A j已经被交叉投影到视图 i，对于图像 i 中具有定义深度值的 K个像素。标量 s是最小化损失的值，考虑到图像之间的整体尺度模糊。再次，我们在LAB空间中计算albedo一致性损失。albedo一致性损失在图4中用蓝色箭头表示。0交叉渲染损失为了提高稳定性，我们还使用了混合的交叉投影/外观损失，ℓcross-rend。我们使用上述交叉投影的albedo，结合估计的法线和光照，渲染出一张新的图像，并以与（6）相同的方式测量外观误差。这个损失在图4中用绿色箭头表示。05.4. Albedo先验0最后，我们还对albedo应用了两个额外的先验损失。这有助于解决shading和albedo之间的歧义。首先，我们引入了一个albedo平滑性先验，ℓalbedo-smooth。我们不是均匀地应用平滑性0惩罚，我们根据输入图像的色度应用像素级变化加权惩罚。因此，更强的平滑性惩罚仅在色度更接近的相邻像素上强制执行。损失本身是相邻像素之间的L1距离。其次，在自监督训练阶段，我们还引入了一个伪监督损失，以防止收敛到平凡解。在预训练过程之后（参见第6节），我们的模型使用MVS法线学习了合理的albedo预测。为了防止后续训练偏离这个预训练的albedo预测太远，我们鼓励albedo预测保持接近预训练的albedo预测。06. 训练0我们训练我们的网络以最小化：ℓ = w1ℓ appearance + w2ℓNM + w3ℓ albedo + w4ℓ cross-rend + w5ℓalbedo-smooth + w6ℓ albedo-pseudoSup。0数据集我们使用MegaDepth[34]数据集进行训练。该数据集包含从Flickr图像中获取的密集深度图和相机校准参数。预处理的图像具有任意的形状和方向。为了便于训练，我们裁剪成方形图像并调整到固定大小。我们选择裁剪的方式是最大化具有定义深度值的像素数量。在可能的情况下，我们从每个图像中裁剪多个图像，实现数据增强。31610图像Li [33]（R）Nestmeyer [40]（R）Ours（R）Li [33]（S）Nestmeyer[40]（S）Ours（S）图5：IIW的定性结果。第二列到第四列是来自[33]，[40]和我们的反射率预测。最后三列是相应的shading预测。0同时，我们还使用两个额外的先验损失来处理shading和albedo之间的歧义。首先，我们引入了一个albedo平滑性先验，ℓ albedo-smooth。我们不是均匀地应用平滑性0训练策略我们发现，为了得到一个好的解决方案，包括预训练阶段是很重要的。在这个阶段，用于照明估计和基于外观的损失的表面法线是MVS法线图。这意味着表面法线预测解码器只从直接监督损失中学习，即它学习复制MVS法线。在这个初始阶段之后，我们切换到完全自监督，其中预测的外观完全由估计的量计算得出。需要注意的是，这个预训练步骤没有使用伪反照率监督。07. 评估0目前还没有逆渲染的野外基准测试。因此，我们在内在图像基准测试上评估我们的方法，并为逆渲染设计了自己的基准测试。最后，我们展示了一个重新照明的应用。0在IIW中进行评估，内在图像分解的标准基准是IntrinsicImages in the Wild[6]（IIW），几乎只包含室内场景。由于我们的训练方案需要大规模的多视角图像数据集，我们只能使用从网络上爬取的带有场景标签的图像，这些图像通常是室外的。此外，我们的照明模型是在室外自然环境中学习的。因此，我们无法在室内基准测试上进行训练或微调。此外，我们的网络并没有专门针对内在图像估计任务进行训练。0方法训练数据WHDR0Nestmeyer [40]（CNN）IIW 19.5 Zhou等[55]IIW 19.9 Fan等[12] IIW 14.5 DI [39] Sintel+MIT37.3 Shi等[44] ShapeNet 59.4 Li等[33] BigTime20.30我们的MegaDepth 21.40表1：使用WHDR百分比（越低越好）在IIW基准测试上的评估结果。第二列显示网络在哪个数据集上进行了训练。0我们的阴影预测受到使用显式局部照明模型的限制（因此无法预测投射阴影）。尽管如此，我们直接在这个基准测试上测试我们的网络，没有进行微调。我们按照[40]中的建议，在评估之前将反照率预测重新缩放到（0.5，1）的范围内。表1显示了定量结果，图5显示了一些定性的视觉比较。尽管上述限制，我们在未在IIW数据上进行训练的方法中取得了第二好的性能。0在MegaDepth数据集[34]中评估逆渲染，使用未观察到的场景。我们直接使用MVS几何来评估法线估计性能。我们使用最先进的多视角逆渲染算法[26]来评估反照率估计。根据他们的流程输出，我们进行光栅化以生成每个输入图像的反照率真值。需要注意的是，这里的“真值”来源本身也只是估计值，例如反照率真值中包含了环境遮挡。估计的反照率的颜色平衡是任意的，因此我们在计算误差之前计算每个通道的最佳缩放。我们使用三个常用于评估反照率预测的指标- MSE、LMSE和DSSIM。31620深度法线0Li等[34]0反照率阴影0Li等[33]0输入0Albedo GT前向阴影法线反照率阴影照明0SIRFS[4]我们的0Normal GT前向阴影法线反照率阴影照明0深度法线0Li等[34]0反照率阴影0Nestmeyer等[38]0输入0Albedo GT前向阴影法线反照率阴影照明0SIRFS[4]我们的0法线 GT 前向阴影法线反射率阴影照明0图6：逆向渲染结果。0反射法线方法 MSE LMSE DSSIM 平均值中位数0Li等人[34] - - - 50.6 50.4 Godard等人[16] - - - 79.2 79.6Nestmeyer等人[40] 0.0204 0.0735 0.241 - - Li等人[33]0.0171 0.0637 0.208 - - SIRFS [4] 0.0383 0.222 0.27050.6 48.5 我们的 0.0170 0.0718 0.201 37.7 34.80表2：定量逆向渲染结果。反射率（反射率）误差与多视图逆向渲染结果[26]和法线相对于MVS结果进行测量。0输入重新照明1 重新照明20图7：从预测的反射率和法线图中重新照明的结果（参见图1，第3行）。新的光照显示在左上角。0为了评估法线预测，我们使用角度误差。对于光照预测的正确性可以通过其他两个推断，因此我们不对其进行明确评估。定量评估结果如表2所示。对于深度预测方法，我们首先计算与地面真实几何形状的最佳缩放，然后求导以计算表面法线。这些方法只能在法线预测上进行评估。本质图像方法只能在反射率预测上进行评估。我们可以看到我们的网络在法线预测方面表现最好，并且在MSE和DSSIM方面也表现最好。定性示例结果可见图6。0重新照明最后，我们展示了一个示例应用0我们的逆向渲染结果足够稳定，可以进行逼真的重新照明。图1中的场景在图7中使用两种新的光照重新照明。两者都显示出逼真的阴影和整体的色彩平衡。08. 结论0我们首次展示了在不受控制的条件下可以从真实世界图像中学习逆向渲染的任务。我们的结果表明，“野外的形状恢复”是可能的，并且远远优于传统方法。有趣的是思考这是如何实现的。我们相信之所以可能是因为深度网络可以利用大量的线索，例如阴影、纹理、环境遮挡，甚至是从多样化数据中学到的高级语义概念。例如，一旦一个区域被识别为“窗户”，可能的形状和配置就受到很大限制。将场景识别为人造建筑物暗示着存在许多平行和正交平面。这些线索在手工设计的解决方案中极其难以利用。这项工作有许多有希望的扩展方式。首先，我们可以放宽我们的建模假设，例如使用更一般的反射模型并估计全局光照效果，如阴影。其次，我们的网络可以与深度预测网络结合使用。两个网络可以独立应用，然后将深度和法线图合并，或者可以训练一个统一的网络，在其中使用从深度图计算出的法线来计算我们在本文中使用的损失。第三，我们的网络可以从训练中使用的内在图像分解网络中受益。例如，如果我们将[33]的时间序列数据集添加到我们的训练中，我们可以结合他们的反射率一致性损失来改进我们的反射率图估计。我们的代码、训练模型和逆向渲染基准数据可在https://github.com/YeeU/InverseRenderNet上获得。31630参考文献0[1] Miika Aittala，Timo Aila和JaakkoLehtinen。通过神经纹理合成进行反射建模。 ACM Transactionson Graphics (TOG) ，35(4)：65，2016年。 [2] O Aldrian和WASmith。使用3D可变模型的人脸逆向渲染。IEEE模式分析与机器智能交易，35(5)：1080-1093，2013年。 [3]N. Alldrin，T. Zickler和D.Kriegman。具有非参数和空间变化反射率的光度立体。在2008年IEEE计算机视觉和模式识别会议上，第1-8页，2008年6月。 [4]Jonathan T Barron和JitendraMalik。从阴影中的形状、照明和反射率。 TPAMI ，2015年。 [5]Anil S. Baslamisli，Hoang-An Le和TheoGevers。使用反射和Retinex模型的基于CNN的学习进行内在图像分解。在 The IEEE Conference on Com- puter Vision andPattern Recognition (CVPR) ，2018年6月。 [6] SeanBell，Kavita Bala和Noah Snavely。野外的本质图像。 ACMTrans. on Graphics (SIGGRAPH) ，33(4)，2014年。 [7] SaiBi，Nima Khademi Kalantari和RaviRamamoorthi。深度混合真实和合成训练进行内在分解。在Wenzel Jakob和Toshiya Hachisuka编辑的Eurographics渲染研讨会-实验性思想和实现。欧洲计算机图形学协会，2018年。 [8] Weifeng Chen，ZhaoFu，Dawei Yang和Jia Deng。野外的单幅深度感知。在Advances in Neural Information Processing Systems，第730-738页，2016年。 [9] Ron O Dror，Thomas KLeung，Edward H Adelson和Alan SWillsky。真实世界照明的统计数据。在 Proc. CVPR ，2001年。[10] David Eigen和RobFergus。使用通用多尺度卷积架构预测深度、表面法线和语义标签。在 Proceedings of the IEEE Inter- national Conference onComputer Vision ，第2650-2658页，2015年。 [11] DavidEigen，Christian Puhrsch和RobFergus。使用多尺度深度网络从单幅图像预测深度图。在Advances in neural information processing systems，第2366-2374页，2014年。 [12] Qingnan Fan，JiaolongYang，Gang Hua，Baoquan Chen和DavidWipf。重新审视深度内在图像分解。在 Proceedings of The IEEEConference on Computer Vision and Pattern Recognition(CVPR) ，第8944-8952页，2018年。 [13] Huan Fu，MingmingGong，Chaohui Wang，Kayhan Bat- manghelich和DachengTao。用于单视图深度估计的深度序回归网络。在 Proceedings ofthe IEEE Conf

下载后可阅读完整内容，剩余1页未读，立即下载