暗闪光图像的增强方法及应用

61 浏览量更新于2023-10-13 收藏 2.31MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

2430暗闪光普通照相机夏志豪1*Jason Lawrence2Supreeth Achar21华盛顿大学圣路易斯分校Louis2谷歌研究摘要休闲摄影通常在不受控制的照明下执行，这可能导致低质量的图像并降低下游处理的性能。我们考虑的问题，估计表面法线和反射率地图的场景描绘的人，尽管这些条件下，通过补充可用的可见光照明与一个单一的近红外（NIR）光源和相机，所谓的“暗闪光图像”。我们的方法以在任意可见光下捕获的单色图像和在受控前光NIR照明下在同一视点捕获的单个暗闪光图像由于地面实况正常和反射率的脸地图是难以捕捉的，我们提出了一种新的训练技术，结合信息从两个现成的和互补的来源：立体声深度信号和光度阴影线索。我们在一系列的主题和照明条件下评估我们的方法，并描述两个应用：优化立体几何和填充图像中的阴影。1. 介绍在休闲移动摄影中，图像通常在较差的照明条件下捕获。控制可见光照明或用闪光灯对其进行补充通常太困难或太具破坏性而不实用。另一方面，场景中的近红外（NIR）照明可以更容易地控制并且对用户不可见。在本文中，我们演示了如何一个单一的我们将反照率和镜面强度估计统称为“反射率图”。在摄影流水线内暴露这些信号开辟了从细化独立深度估计到数字操纵场景中的照明的一系列应用。虽然我们的方法适用于许多类型的对象，但我们关注的是*夏志豪在谷歌实习时完成的工作。RGB输入NIR输入法线贴图图1：从单个RGB图像估计表面几何形状具有挑战性。我们用同时捕获的单个NIR“暗闪光”图像来增强该输入面部-在主动照明有效的短范围内最常见的摄影对象。我们使用受控的NIR照明提供了许多好处。首先，场景中的环境NIR光在室内环境中通常较弱或完全不存在，并且在室外被大气吸收显著衰减，这意味着控制场景的该方面通常是实际的。其次，它导致了一个更容易处理的估计问题，而不是单一的图像2431阴影第三，即使在非常具有挑战性的可见光照明下，它也提供了关于场景的形状和外观通过将NIR光源定位在相机附近，该设置最小化场景中的阴影，同时沿着几乎垂直于观察方向的表面产生镜面高光，从而给出用于确定表面取向的有用提示。我们提出了一个深度神经网络，其将在不受控制的可见光下捕获的一个RGB图像和从相同视点捕获的一个单色NIR图像作为输入网络生成表面法线和反射率估计值（漫反射率+ 镜面强度）。我们通过结合两个不完美但互补的线索来训练这个网络：立体深度图，其提供对场景的3D形状的低频分量的可靠估计以及传达较高频率的几何细节的光度提示。这些测量比地面真实几何和外观测量更容易获得。我们在光度损失项中明确地对人类皮肤的镜面反射进行建模，该光度损失项指导我们的训练以及有利于分段恒定变化的反照率图上的先验[3]。我们将我们的技术与仅使用单个RGB图像作为输入的基线学习方法以及用于单个图像固有图像分解[27]和重新照明[21]的最先进方法进行比较。即使在非常具有挑战性的可见光条件下，我们也能够产生总体上更稳定、更准确的输出。我们还提出了两个应用程序，将我们的技术集成在一个移动pho- tography管道。总之，本文做出了以下贡献：• 一种新的网络架构，用于从单个RGB+NIR图像对估计密集的正常和反射图。• 一种新的训练策略，结合了两个独立和互补的信号：一个来自立体三角测量，另一个来自RGB和NIR中的光度提示，以及用于收集此数据的硬件设置。值得注意的是，我们的训练由基于物理的图像形成模型指导，该模型再现了散射和表面反射。• 我们展示了我们的方法在现代摄影流水线中的两个应用：优化深度计算，由一个独立的立体技术和减少阴影的图像后捕捉。2. 相关工作内在的成像和形状从阴影。将单个图像分解成其潜在形状和反射率是计算机视觉中的经典欠约束问题[4，15]。一类方法采用从相对小的数据集[1，3]或NIR图像[11]学习的手动设计的先验，最近已经提出了基于学习的方法，这些方法训练卷积神经网络使用渲染数据集[28，18]，稀疏人类注释[6]或不同照明条件下的多视图图像[40]来执行此任务。虽然一些学习方法用作与我们的方法类似，其他方法探索单个RGB图像之外的网络输入，包括额外的可见闪光图像和深度图[24]或单个NIR图像[39]。许多方法被专门设计用于处理面部图像这包括3D可变形模型[7]，其通常用作基于学习的方法[32，29，27]中Sanyal等人[26]以参数面部模型上的混合权重的形式估计单个图像内的面部形状与我们的方法类似，其他技术估计密集法线或位移图[41]，包括部分被遮挡物隐藏的面部[33，13]。然而，这些方法并不试图从阴影中分离反射数据与这些现有技术相比，我们提出了一种神经网络，除了彩色输入图像外，还需要单个前光NIR图像，使我们的技术即使在非常具有挑战性的可见光条件下也能表现良好。我们的训练过程也很新颖，它结合了两个独立且互补的信号。融合深度和法线。从立体三角测量等方法估计的深度和从阴影线索估计的法线是用于形状恢复的互补测量。Nehab等人[20]描述了一种技术，该技术寻求将由直接深度测量技术提供的更精确的低频信息与由光度测量提供的更高频几何细节相结合。我们使用他们的技术来评估我们的方法如何用于改进立体声管道（第5.2节）。最近的工作将其作为一个优化问题，寻求与这些不同信号最一致的表面[2，12，38，9，19]。虽然我们的方法在推理时不使用任何深度信息，但我们的训练方法与这些方法类似，因为我们还组合了立体和光度损失项。重新点亮脸部。大多数单图像人脸重光照方法包括形状和反射率的一些表示作为中间分量。我们的网络架构2432·ǁǁNIR光1NIR光2NIR光3NIR光4RGB输入立体深度图可见光1可见光2可见光3可见光4分割图NIR输入图2：我们的网络学习从单个前光NIR图像，任意照明下的单个RGB图像以及从RGB图像计算的语义分割图（输入由红线包围）中估计形状和反射率在训练期间，我们还使用立体深度图，并将任意照明下的RGB图像替换为在校准点光源下捕获的4个RGB+NIR图像对（训练输入在蓝色虚线内）。（第3节）与Nestmeyer提出的类似等人[21]，用于模拟假设已经在单个定向光下捕获的单个图像中的照明变化。Zhou等人。[42]提出了一个使用单图像法线和照明估计以及朗伯反射模型生成的Relit肖像图像数据集。虽然表面几何是重新照明的基础，也可以训练一个端到端网络，它不明确地推理形状[30]。我们同样使用在不同的受控照明下捕获的场景的多个图像来训练我们的网络，以便能够实现更简单的一组输入进行推理。结合了红外线和彩色图像。NIR（和/或紫外）暗闪光图像可用于对在低可见光条件下捕获的彩色图像进行降噪[17]，或用作校正运动模糊的指导[37]。还开发了采用受控NIR照明来模拟实时视频通信系统中的更好的可见光照明的技术[34，14]。我们认为这些是这项工作引人注目的潜在应用。3. 网络设计和培训我们的目标是估计一个正常的地图和反射率地图从一个单一的RGB图像和前光“暗闪光”近红外图像。我们训练了一个深度神经网络来执行这个任务。作为辅助输入，我们使用6类语义根据RGB图像计算的分割图（背景、头部、头发、身体、上臂和下臂）[10]。我们发现这个分割图是一个有用的线索，可以帮助网络推理形状和反射率。一个示例集的输入如图2所示（红线）。我们的训练过程部分地由基于物理的图像形成模型驱动，该模型将我们的网络的输出连接到在已知点照明下拍摄的场景的图像。该图像形成模型将标准朗伯漫射项与Blinn-Phong BRDF [ 8 ]相结合，Blinn-PhongBRDF [8]已用于对人类皮肤的镜面反射进行建模[35]。具体来说，我们引入反射率函数f，它给出了特定单位长度光矢量l、视图矢量v、表面法线n、四通道（RGB+NIR）反射率α、标量镜面强度ρ和镜面指数m的反射光与入射光之比：f（l，v，n）=α+ρm+ 2（n h）m，（1）2π其中h=（n+1）/n+1。由于点光而在像素处观察到的强度由下式给出：I（·）=f（l，v，n）（n·l）L（ 2）反射率、余弦项和光强L的乘积。我们没有观察到来自每个像素处的足够的唯一光方向的反射强度来估计所有像素。2433立体声损失几何分支立体法线光照位置j反射支路渲染Σp¨¨影子J光度损失扩散层输入镜面层渲染jOLATj图3：我们的网络和培训策略的图示。我们估计网络权重，以最大限度地减少从我们的网络输出渲染的图像和在已知照明下捕获的地面实况图像之间计算的光度损失，以及由输出法线和使用独立立体技术估计的法线之间的差异驱动的立体声损失方程1中的参数。因此，我们根据先前对人类皮肤的测量[35]和我们自己的观察，将特殊指数固定为m=30，并仅估计n、α和ρ。几何量l和v以及光强度L由第4节中描述的校准过程确定。如图3所示，我们使用具有跳过连接的标准UNet[25]。编码器和解码器分别由5个块，每个块具有3个卷积层机器人-a L1矢量损耗和角损耗：Ls（n~）=n~−ns1-（n~·ns）。（三）在每个OLAT图像和根据等式2渲染的图像之间计算光度损失，并且我们的网络输出对应的照明条件：Lj（n~，α~，ρ~）=¨Sj。I（lj，v，n~，α~，ρ~）−IjΣ¨，（4）1tleneck有256个频道。该UNet的输出被转发到两个单独的网络：预测法线映射n~的几何分支，以及预测法线映射n ~的反射分支。描述反照率图α~和对数尺度镜面强度图，l〇 g（ρ~）。两个分支均具有3个共晶层，共晶层厚度为32通道和一个最终输出层。其中，I是在第j个OLAT图像中观察到的像素颜色，并且Sj是通过使用立体深度和校准的光位置的光线投射计算的二进制阴影图（第4节）。我们还应用了一个先验的反照率地图鼓励分段恒定变化[3]：我们不依赖于地面真实法线或反射数据来监督训练。相反，我们结合立体声损失Lc（α~）=我j∈ΣN（i）α~i−α~j以及从更容易获得的数据导出的光度损失：四个一次一个光（OLAT）图像，在同一个物体的RGB和NIR中，在相同的精确姿态中，由一组快速连续地单独激活的校准光照射，以及立体深度图（图2中的蓝色虚线）。这些图像仅在训练时使用。立体声损失促使我们估计的法线n2434SppC CJ其中（i）是55以像素i为中心的邻域。我们只将此先验应用于衣服像素，即在分割掩码中标记为身体或手臂的那些像素我们发现场景中的其它区域没有从这种规则化中受益我们的总损失函数是这些项的加权和：L（n~，α~，ρ~）=吉吉L（n~）+λL（n~，α~，ρ~）+λL（α~）。（六）在用RGB引导平滑的立体深度图上，基于双侧滤波将权重λρ设置为10并且将λc设置为50 与[39]类似，我们的立体声损失结合了dation数据集。与立体深度图的梯度一致。的通过应用5x5 Prewitt算子2435××数据扩充和训练。为了提高我们的网络的鲁棒性，我们对捕获的OLATs应用了一系列数据增强，以模拟各种不同的可见光条件。具体而言，我们的培训使用以下组合：通过将所有OLAT图像加在一起而获得的均匀照亮的RGB输入;通过将随机选择的颜色向量应用于两个随机选择的OLAT图像来实现具有不同温度的两种光的混合;通过将高斯噪声添加到单个OLAT来实现低光环境;以及通过缩放和裁剪单个OLAT来实现饱和曝光。我们在训练期间从这5种照明条件中均匀采样补充材料中提供了关于如何模拟这些照明条件的更多细节。我们使用Adam优化器[16]训练网络进行30K次迭代，学习率为10- 3，批量大小为8。训练需要12个小时，使用4个Tesla V100 GPU。4. 硬件设置和数据采集如图4所示，我们的设置结合了7. 0 MP RGB摄像头，工作在66。67 fps，立体声对为2。800万像素的近红外摄像头，每秒150帧。RGB相机和NIR相机中的一个使用板分束器和光阱共同定位RGB和NIR相机具有线性光度响应，我们在每个维度上对所有图像进行2倍的下采样，并以960 - 768的分辨率拍摄覆盖面部的中央裁剪。可见光谱照明由4个广角LED射灯放置在一个大致1. 5米0. 8米（宽x高）的矩形周围的相机位于约1。距离目标1米。NIR照明由5个NIR聚光灯提供，每个聚光灯与每个可见光相邻，并且闪光LED灯位于参考NIR相机附近以产生“暗闪光”输入。这些NIR光源在时间上与发射NIR斑点图案的投影仪交错以支持立体匹配[22]。微控制器协调触发灯和相机以确保在任何时间只有一个可见光源和一个NIR光源是活动的。所有光源都经过位置和强度校准，并在几何上作为点光源处理等式2中的光强度项L说明了这些校准的颜色。请注意，NIR和可见光光源并不位于同一位置，因此在这两种条件之间的等式2中使用了略微不同的l图像采集速率受RGB摄像机的帧速率和总光输出的限制我们计算在相同照明条件下捕获的连续帧之间的光流[36]，以校正在单轮曝光中发生以来NIR光VIS光近红外点阵投影仪相机单元二NIR照相机（用于立体）主NIR相机RGB相机分束器NIR闪光灯LED图4：我们的硬件设置包括可控NIR和可见光谱光源、RGB相机、一对立体NIR相机和两个NIR点投影仪。NIR相机中的一个和RGB相机与分束器对准，并且所有这些部件都被电子触发以记录图2中所示的图像类型。RGB和参考立体NIR相机位于同一位置，我们可以使用场景无关的预先计算的图像扭曲来生成像素对齐的RGB、NIR和深度图像在我们的数据集中的每个记录是10秒长，包含166组帧。我们记录了9个独特的受试者，每个受试者有5到10个会话，总共61个记录。我们使用6个受试者的录音进行训练，并对其他3个受试者的录音进行测试。5. 评价据我们所知，我们的方法是第一个技术，估计表面法线和RGB的albe- dos从RGB+NIR图像。我们通过将我们的方法与两种最先进的仅RGB面部正常估计方法[27，21]以及我们自己的方法的仅RGB变体我们还进行了其他几项消融研究，以衡量关键设计决策的影响。为了说明我们的方法在不位于我们捕获的OLAT图像的跨度中的照明条件下的性能，我们还示出了在场景周围随意移动手持光源时捕获的真实序列上的定性结果（图1请注意，地面实况法线贴图不适用于此序列。最后，我们提出了我们的技术的两个应用程序。所有结果都扩展为动画图像序列，并且可以在我们的项目页面darkflashnormalpaper.github.io查看。没有一个亚-2436光线充足阴影混合的颜色过度暴露低光SfSNet [27]14.1018.32---Nestmeyer等人[21日]14.8217.5215.8721.8525.56我们的（无立体声损失）12.8012.7812.7812.8212.81我们的（无近红外光度损失）12.6412.6612.6412.6912.75我们的（无光度损失）12.7712.7712.8112.7912.77我们的（无镜面反射组件）12.4412.4312.4412.5112.47我们的（无RGB输入）12.5412.5412.5412.5412.54我们的（无NIR输入）13.1315.1916.4319.8219.39我们12.0812.0612.0612.1412.10表1：使用我们的全网络的修改版本计算的法线映射的平均绝对角度误差。报告了第5节中描述的五种光照条件的结果。RGB输入着色着色反照率反照率（无光度损失）（含光度损失）（不含Blinn-Phong）（带Blinn-Phong）图5：分别在我们的训练过程中的光度损失项和在我们的图像形成模型中的Blinn-Phong BRDF的影响。当在没有光度损失的情况下进行训练时，我们的网络学习输出立体法线，这缺乏精细尺度的细节。这对表1中的误差测量具有相当小的影响，但是如在这些“n点1”着色渲染中所看到的，在感知上是显著的。我们的完整图像形成模型，其中包括一个Blinn-Phong镜面反射项，产生更准确的反照率在整个脸比单独使用朗伯模型。我们的结果中显示的对象在我们的训练集中。5.1. 比较和消融研究在我们的评估中，我们考虑五种不同的可见光条件：产生强烈投射阴影的强光;具有不同色温的光的混合;饱和/过度曝光强度;产生噪声输入的低光条件;以及“良好照明”条件，其实现了很大程度上无阴影和良好曝光的输入。补充文档中详细描述了我们从OLAT训练图像合成这些不同照明条件的过程。代替地面实况几何定量评估，我们构建了一个基线使用Nehab等人的技术。[20]以根据通过将Lamber-tian光度立体应用于RGB OLAT训练图像而计算的法线来细化我们的立体深度图。表1报告了通过两种最先进的基于RGB的面部法线估计方法[27，21]计算的法线映射中的平均绝对角度误差，以及我们的网络的几种变体，具有不同的损失项，图像形成模型和输入。图5和图6示出这些设计决策中的一些的感知影响的示例。与SfSNet [27]和Nestmeyer等人[21]的比较。关于我们如何在我们捕获的数据集上适应和重新训练SfSNet [27]和Nest-meyer等人[21]以及定性图像比较的详细信息，可以在我们的补充文档中找到。如表1所示，我们的方法甚至在良好照明条件下并且在不使用NIR输入的情况下也优于这两种技术，我们将其归因于我们的新颖训练策略，该训练策略组合了来自互补立体声和光度信号的形状信息更重要的是，在具有挑战性的照明条件下，我们的方法的益处变得更加显著，因为在这些情况下，由NIR输入提供的附加信息是至关重要的请注意，SfSNet [27]使用自重建损失，我们发现无法处理具有混合色偏，饱和强度或大量噪声的输入，因此在这些情况下无法产生合理的输出（从表1中省略）。损失条款。正如所料，同时使用立体声和pho-2437RGB输入法线反照率NIR输入法线反照率(RGB仅）(RGB仅）（我们的）（我们的）图6：将我们的网络与仅采用单个RGB图像（“仅RGB”）作为输入的修改版本进行比较。三种常见挑战性照明条件的示例结果。从上到下：低光/噪声输入;混合的光的颜色;具有饱和强度的粗糙的定向照明。与我们的方法相比，在训练期间的度量损失项优于单独使用任一项。我们考虑两种类型的光度损失-一种仅在RGB训练图像上计算（如图5中的着色图像所示，包括光度损失使得能够估计立体深度图中未捕获的精细几何细节图像形成模型。在我们的图像形成模型中包括Blinn-Phong BRDF提高了法线和漫反射贴图的准确性。它在表1中的定量误差中得到了适度的改善，并且它产生了更均匀的弥散性弥散斑图，伪影更少（图5）。我们将此归因于这样一个事实，即这种更丰富的图像形成模型能够更好地解释所观察到的强度。我们还发现，在我们的模型中包含这个BRDF可以重建皮肤的光泽外观（第5.3节）。网络输入。包括NIR输入图像提高了全面的准确性，特别是在可见光差的条件下（表1）。RGB输入的益处相对较小，但使其可用于网络使得能够估计可见光谱反射率数据，这是许多下游应用（诸如照明调节）的要求（第5.3节）。图6示出了在不同照明条件下包括NIR输入的感知影响。为了进行这些比较，我们修改了我们的网络，仅将单个RGB图像作为输入（“仅RGB”）。网络架构在其他方面没有变化，我们应用了第3节中描述的相同训练过程。请注意，这种“仅RGB”网络的性能如何在挑战条件下显著降低，而我们的方法由于更稳定的NIR输入而对这些条件更加鲁棒。特别值得注意的是，2438平滑立体声精细立体声（我们的）图7：立体方法通常很难恢复精细尺度的表面细节.左：将引导双边滤波器应用于原始立体深度产生更平滑的表面，但具有失真的特征（例如，鼻子缩小并且皮肤皱纹消失）。右：我们使用Nehab等人的方法。[20]根据用我们的方法估计的法线来计算细化的表面。注意细节是如何更好地保存在眼睛，鼻子和嘴巴周围，以及细皱纹和折痕。5.2. 适用范围：立体细化立体方法擅长测量粗糙的几何形状，但往往难以恢复精细尺度的表面细节。这可以通过根据通常用光度方法估计的精确高分辨率法线来细化立体深度来克服[20]。我们使用由我们的方法产生的法线来评估以细化由NIR时空立体算法产生的深度测量[22]（图7）。与使用标准双边滤波器相比为了平滑立体深度，使用我们的Normals对其进行细化，得到高得多的质量重建，最显著的是在嘴、鼻子和眼睛周围，并且更好地恢复皮肤中的细小皱纹和折痕。由于我们的方法使用单个NIR图像，因此将其集成到许多现有的立体管道中将是简单的。5.3. 适用范围：照明调节我们还探索了使用我们的方法来数字化改善肖像中的照明。具体来说，我们评估了添加虚拟填充光来照亮面部的阴影部分（图8）。我们使用我们的方法估计的法线和反射率图来渲染虚拟点的贡献RGB输入Relit真实值图8：我们的方法可以用来模拟添加灯光到场景中填充阴影。位于阴影区域的视图内的光，然后将其与原始RGB图像组合。我们的模型能够产生令人信服的效果，甚至沿着鼻唇沟和鼻尖产生逼真的镜面高光6. 结论我们已经提出了一种暗闪光正常相机，其能够从单个RGB+NIR输入图像估计高质量的正常和反射图，该输入图像可以在单次曝光中记录而不会分散主体的注意力。我们的方法比以前的工作的一个关键好处是它的鲁棒性。它表现良好，即使在具有挑战性的照明条件下，通常遇到的休闲摄影，如苛刻的阴影，饱和像素，并在非常低的光环境。我们的方法假设位于相机附近的单个光源是场景中唯一的NIR光源。尽管在许多室内环境中这是一个安全的假设，但它并不总是正确的，尤其是在室外。可以通过使用闪光/无闪光图像对来抑制一些环境光[23]。我们的方法可以集成到现有的智能手机相机硬件设计和软件流水线中，以实现一系列应用，从提高辅助深度相机的性能到实现静态图像和流视频中的面部重新照明未来的工作还包括改进我们的方法2439引用[1] Jonathan T Barron和Jitendra Malik。形状，亮度和照明从一个单一的图像一个未知的对象。在Proc. CVPR，2012。2[2] 乔纳森·T.巴伦和吉坦德拉·马利克来自单个rgb-d图像的内在场景Proc. CVPR，2013. 2[3] 乔纳森·T.巴伦和吉坦德拉·马利克形状、照明和着色的反射率 IEEE Transactions on Pattern Analysis andMachine Intelligence，2015。二、四[4] Harry Barrow，J Tenenbaum，A Hanson和E Riseman。恢复固有场景特征。计算机视觉系统，2（3-26）：2，1978年。2[5] 阿尼尔S. Baslamisli，Hoang-An Le，and Theo Gevers.基于反射和retinex模型的Cnn学习用于内部图像分解。在Proc. CVPR，2018中。2[6] Sean Bell，Kavita Bala，Noah Snavely.在野外的内在图像ACM Transactions on Graphics（TOG），33（4）：12[7] Volker Blanz和Thomas Vetter。三维人脸合成的可变形模型。第26届计算机图形学与交互技术年会集，1999年。2[8] 詹姆斯·F·布林计算机合成图像的光反射模型。在1977年第四届计算机图形学和交互技术年会论文集中。3[9] Xu Cao，Michael Waechter，Boxin Shi，Ye Gao，BoZheng，and Yasuyuki Matsushita.立体闪光灯和无闪光灯摄影的形状和恢复。在proc CVPR，2020年。2[10] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。重新思考语义图像分割的atrous卷积。arXiv预印本arXiv：1706.05587，2017. 3[11] Ziang Cheng，Yinqiang Zheng，Shaodi You，and ImariSato.具有近红外先验的非局部本征分解。InProc. ICCV，2019. 2[12] 崔京民朴载植泰宇荣和尹权利用kinect红外图像中的阴影线索进行几何细化。在Proc. CVPR，2014。2[13] Yu Deng，Jiaolong Yang，Sicheng Xu，Dong Chen，Yunde Jia，and Xin Tong.基于弱监督学习的精确3D人脸重建：从单张图像到图像集。在Proc. CVPR研讨会，2019年。2[14] PrabathGunawardane 、 TomMalzbender 、 RaminSamadani 、 Alan McReynolds 、 Dan Gelb 和 JamesDavis。不可见光：使用红外线进行视频会议重新照明。InProc. ICIP，2010. 3[15] 贝特霍尔德湾P.霍恩。从着色信息获得形状，第123-171页。麻省理工学院出版社，美国马萨诸塞州剑桥，1989年。2[16] Diederik P. Kingma和Jimmy Ba。Adam：随机最佳化的方法。InProc. ICLR，2015. 5[17] Dilip Krishnan和Rob Fergus 暗闪光摄影。ACM Transactions on Graphics （ TOG ）， 28 （ 3 ）：96，2009。3[18] Zhengqin Li，Zexiang Xu，Ravi Ramamoorthi，KalyanSunkavalli，and Manmohan Chandraker.学习从单个图像重建形状和空间变化的反射率。ACM Transactions onGraphics（TOG），37（6）：1-11，2018。2[19] 梁哲，徐朝，胡静，李雨诗，孟兆鹏。更好的在一起：阴影提示和用于重建深度优化的多视图立体。IEEEAccess，8：112348-112356，2020。2[20] Diego Nehab 、 Szymon Rusinkiewicz 、 James Davis 和Ravi Ramamoorthi。有效地结合位置和法线精确的三维几何。 ACM Transactions on Graphics （ TOG ）， 24（3）：536-543，2005. 二、六、八[21] ThomasNestmeyer，Jean-FrancoisLalonde，IainMatthews，and Andreas M Lehrmann.定向光下学习物理引导的脸部重光照。在Proc. CVPR，2020中。二三五六[22] Harris Nover 、 Supreeth Achar 和 Dan Goldman 。ESPReSSo：实时时空立体声的高效倾斜补丁匹配。在3D视觉国际会议（3DV）的会议记录中，2018年。五、八[23] GeorgPetschnigg ， RichardSzeliski， ManeeshAgrawala，Michael Cohen，Hugues Hoppe，and KentaroToyama.具有闪光和无闪光图像对的数字摄影。ACMTransactions on Graphics （ TOG ）， 23 （ 3 ）： 664-672，2004. 8[24] 狄秋、曾锦、张汉柯、孙文秀、杨成熙。用闪光照相术进行几何学引导的神经再照明在3D视觉国际，2020年的会议记录。2[25] O. Ronneberger，P.Fischer，and T.布洛克斯U-net：用于生物医学图像分割的卷积网络医学图像计算和计算机辅助干预（MICCAI），2015年。4[26] Soubhik Sanyal ， Timo Bolkart ， Haiwen Feng ， andMichael J Black.学习在没有3d监督的情况下从图像中回归3d面部形状和表情在Proc. CVPR，2019中。2[27] 放大图片作者： Soumyadip Sengupta ， AngjooKanazawa，Carlos D.Castillo和David W.雅各布斯学习野外人脸的形状、反射率在Proc. CVPR，2018中。二、五、六[28] 简诗，岳东，苏浩，斯特拉X宇。在shapenet类别中学习在Proc. CVPR，第1685-1694页，2017年。2[29] Z. Shu 、 E. Yumer ， S. 哈达普湾 Sunkavalli ， E.Shechtman和D.萨马拉斯具有内在图像解缠的神经人脸编辑。在Proc. CVPR，2017中。2[30] Tiancheng Sun ， Jonathan T Barron ， Yun-Ta Tsai ，Zexiang Xu ， Xueming Yu ， Graham Fyffe ， ChristophRhemann ， Jay Busch ， Paul E Debevec ， and RaviRamamoorthi.单图像肖像重照。ACM Transactions onGraphics（TOG），38（4）：79-1，2019。3[31] 谷合龙纪和前原隆纪。一般反射光度立体的神经逆绘制。InProc. ICML，2018. 2[32] AyushTewari ， MichaelZollo¨ fer ， Hyeongw ooKim ，PabloGarrido ， Florian Bernard ， Patrick Perez ， andTheobalt Chris- tian.MoFA：基于模型的深度卷积面Au-2440用于无监督单目重建的编码器。在Proc. ICCV，2017. 2[33] Anh Tuan Tran，Tal Hassner，Iacopo Masi，Eran Paz，Yuval Nirkin和G e'rardGMedioni。极端的三维面重建：透过遮挡看到。在Proc. CVPR，2018中。2[34] Oliver Wang 、 James Davis 、 Erika Chuang 、 IanRickard、Krystle De Mesa和Chirag Dave。使用红外照明的视频重新照明。在Computer Graphics Forum，第27卷，第271-279页，2008中。3[35] Tim Weyrich ， Wojciech Matusik ， Hanspeter Pfister ，Bernd Bickel ， Craig Donner ， Chien Tu ， JanetMcAndless ， Jinho Lee ， Addy Ngan ， Henrik WannJensen，et al.使用基于测量的皮肤反射模型分析人脸。ACM Transactions on Graphics （ ToG ）， 25 （ 3 ）：1013- 1024，2006. 三、四[36] Jiangjian Xiao ， Hui Cheng ， Harpreet Sawhney ， CenRao，and Michael Isnardi.具有遮挡检测的基于双边滤波的光流估计。《欧洲法院民事诉讼程序》，2006年。5[37] Hiroki Yamashita ， Daisuke Sugimura ， and TakayukiHamamoto.用于低光彩色图像联合去噪和去模糊的包围曝光 Rgb-nir 成像。 IEEEInternational Conference onAcoustics，Speech and Signal Processing（ICASSP），2017年。3[38] Zhenheng Yang，Peng Wang，Wei Xu，Liang Zhao，and Ramakant Nevatia.具有边缘感知深度正常一致性的几何学无监督学习。arXiv预印本arXiv：1711.03665，2017。2[39] Youngjin Yoon、Gyeongmin Choe、Namil Kim、Joon-Young Lee和In So Kweon。使用单个NIR图像的精细尺度表面法线在Proc. ECCV，2016中。二、四[40] Ye Yu和William A.P. 史密斯InverseRenderNet：学习单幅图像逆渲染。在Proc. CVPR，2019中。2[41] Xiaoxing Zeng，Xiaojiang Peng，and Yu Qiao. Df 2net：一个用于详细3D人脸重建的密集-精细-精细网络。InProc. ICCV，2019. 2[42] Hao Zhou，Sunil Hadap，Kalyan Sunkavalli，and DavidW.雅各布斯深单图像肖像重新点火。InProc.ICCV，2019. 3

下载后可阅读完整内容，剩余1页未读，立即下载