混合结构编码器解码器的视频肖像重新照明方法

154 浏览量更新于2023-10-13 收藏 1.52MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

802基于一致性建模的神经网络视频图像实时重照明张龙文1、2*张启轩1、2*吴敏烨1、3俞静怡1徐兰11上海科技大学2迪莫斯科技3中国科学{zhanglw2，zhangqx1，wumy，yujingyi，xulan1} @ shanghaitech.edu.cn{zhanglw，zhangqx} @ deemos.com摘要视频人像重新照明在面向用户的人体摄影中至关重要，特别是对于沉浸式VR/AR体验。最近的进展仍然无法从单目RGB流恢复在动态照明下的一致的重映结果，这受到缺乏视频一致性监督的影响。在本文中，我们提出了一种实时，高质量和连贯的视频肖像重新照明的神经方法我们提出了一种混合结构和照明解纠缠的编码器-解码器架构，它结合了多任务和对抗性的训练策略，语义感知的一致性建模。我们采用了一个时间建模方案，通过基于流的监督，以交叉的方式编码共轭的时间一致性我们还提出了一种光照采样策略来模拟真实世界中自然人像光照操作的光照一致性和突变大量的实验证明了我们的方法的有效性，一致的视频肖像光编辑和重新照明，即使使用移动计算。1. 介绍在过去的十年里，随着手机相机的兴起，数码人像摄影得到了迅速的发展。重新照明作为这种肖像摄影的尖端技术发展，用于VR/AR体验的沉浸式视觉效果如何在具有挑战性的动态照明条件下方便地进一步实现一致的重新照明视频结果仍然没有解决，并且在工业界和学术界都受到对于视频肖像重新照明，早期的解决方案[14，57]依赖于昂贵且难以部署的复杂的工作室设置现代方法[41，44，42]进一步*同等贡献图1.我们的方法实现了高品质和一致的视频肖像下的实时动态照明重新照明，只使用移动计算和单目RGB视频输入。应用颜色或风格转移技术，以减轻硬件的要求。然而，它们仍然需要比交互式视频应用可用时间多两到四个数量级的时间。最近的学习技术带来了巨大的潜力，人类肖像建模和重新照明[69，67，46，31，56]从只有单目RGB输入。特别地，方法[43，39]执行显式神经逆渲染，但限于低质量面部和球谐（SH）照明模型。最近的方法[67，46]通过学习输入的头像和重映头像之间的有效端到端映射来去除显式逆渲染，而方法[56]进一步明确地对反射属性进行建模以处理高光或阴影等照明然而，他们仍然专注于单个图像输入，而没有对视频肖像重新照明的时间一致性进行建模，导致严重的抖动伪影，特别是在具有挑战性的动态照明下。一些最近的移动设备[2，18]启用重要的是，它们只修改现有的照明，而不是将捕获的视频重新照亮成各种场景。803在本文中，我们解决了上述挑战，并提出了一种新的实时和时间相干的肖像重新照明方法，从只有一个单目RGB视频输入，如图所示。1.一、我们的方法联合建模的语义，时间和照明的一致性，使逼真的视频肖像光编辑和重新照明到新的场景与动态照明，同时保持实时性能，即使在便携式设备上。以实时和数据驱动的方式生成这样的真实和一致的视频重放从数据方面来看，现有的人脸数据集[10，60，56]缺乏用于一致性建模的视频地面实况监督。因此，我们建立了一个高质量的数据集，用于视频肖像重新照明，包括603，288个时间OLAT（一次一个光）图像，每秒25帧（fps）的36个因素和2，810个环境照明图。从算法方面，我们进一步提出了一种新的神经网络方案，用于动态照明下的一致视频肖像重照明。为了保持实时性能，我们采用编码器-解码器架构到每个输入肖像图像，类似于先前的方法[46，56]。不同的是，我们引入了一个混合的和明确的解纠缠语义感知的一致性，自我监督的肖像结构信息和充分监督的照明信息，同时在网络的瓶颈。通过多任务训练以及对抗策略进一步增强这种解开，以便对语义监督进行编码并实现更现实的重新照明。然后，利用丰富的时间一致性，在我们的动态OLAT数据集，一个新的时间建模方案之间的两个相邻的输入帧。我们的tempor-ral计划编码共轭的时间一致性，在交叉的方式，通过基于流的监督，从而模拟动态relt效果。最后，采用基于Beta分布的光照采样，对离散环境光照图进行扩充，生成相邻输入帧和目标输出的光照条件三元组。我们的采样方案模型的照明一致性和突变，同时自然视频肖像光编辑和重新照明在现实世界中。总的来说，我们的主要贡献包括：• 我们提出了一种实时神经视频肖像重光照方法，它忠实地模拟视频一致性的动态照明，实现显着的优越性，现有的国家的最先进的。• 我们提出了一个明确的结构和照明disentanglement，时间建模以及照明采样方案，使现实的视频肖像光编辑和重新照明的飞行。• 我们提供了我们的数据集与603，288时间OLAT图像，以刺激人体肖像和照明分析的进一步研究。2. 相关工作肖像重新点亮Debevec等人 [14]发明了Light Stage来捕捉人脸的反射场，这使得高质量的3D人脸重建和照明渲染成为可能，推动了电影通过引入深度学习，一些后续工作也取得了很好的效果[64，29，21，30，47，49]。显然，这不是一款针对个人消费者的产品;因此，已经提出了用于单个肖像重新照明的各种方法。几种方法[58，6，26，59，50]执行静态对象上的重新照明。一些工作遵循颜色转移的流水线以实现重新照明效果[11，41，44，42]，这通常需要另一幅肖像图像作为面部颜色分布参考。Blanz等人。 [7]使用了一种可变形的面部模型，通过改变定向照明模型参数可以重新照明。一些工作[67，28，39，1，15，54]估计SH[5，34]参数，并通过修改SH照明模型的参数来实现重新照明 Sevastopolsky等人 [40]使用点云来生成可重配的3D头部肖像，而Tewari等人。[48]使用GAN来操纵照明。显式建模阴影和镜面反射[56，31]在定向光源重新照明中实现了出色的效果。Mallikarjunr等人。 [4]将单个图像肖像作为输入来预测OLAT作为反射场，可以通过基于图像的渲染将其重新关联到其他照明。Sun等人。 [46]选择环境地图作为照明模型，并使用灯光舞台捕获的OLAT数据来生成逼真的训练数据，并以端到端的方式训练重新照明网络我们还使用OLAT图像来生成用于肖像重新照明的训练数据。不同的是，我们的方法，使实时和一致的视频肖像重新照明下的动态照明，一个新的动态OLAT数据集的帮助时间一致性。如果我们直接将视频中的每一帧图像作为独立的图像来处理，那么以前的图像重光照方法可以扩展到视频。然而，这些方法将不可避免地在重新发光视频上产生闪烁结果。为了抑制闪烁结果，已经针对视频样式传输任务[27，23，8，61，51，9，36，53]描述了几种方法。具体而言，Ruder et al. [36]采用了由光流引导的时间损失用于视频风格传输，但是光流的实时计算使得这种方法更慢。Vid2Vid [53]通过训练网络来估计光流并将其应用于先前生成的帧来合成具有时间一致性的视频在本文中，我们证明了时间一致性和肖像重新照明可以通过前馈CNN同时学习，这避免了在推理阶段计算光流。视频重新照明。一些方法[52、20、37、55]使用LED或0LAT来为视频会议提供可接受的照明。ST-NeRF [63]通过时空相干神经分层辐射来804不不不不图2.用于构建动态OLAT数据集的捕获系统的图示。表示. Li等人。 [25]在一般照明下使用多视图重建创建自由视点重新照明视频，而Richardt等人。 [35]添加视频效果，如使用RGBZ摄像机重新照明。“The Relighta-bles” [相比之下，我们的方法不需要额外的特定捕获设备，并且能够使用移动计算进行实时视频端口重新照明。人脸数据集。传统的人脸数据集通常在各种光照条件下拍摄2D图像[19，24，16]。受控照明条件易于构建，但缺乏用于照片级逼真肖像重新照明的反射信息。随着面部扫描和重建技术的发展，3D面部数据集已经从仅几何[62，65，38，10，12，13，66，60]扩展到包括反射通道[45，56]。然而，现有的渲染方案在不进行人工修改的情况下很难避免恐怖谷效应.3D数据集仍然无法实现2D人脸数据集或使用基于图像的渲染的真实感。因此，已经提出了各种人脸OLAT数据集[4，46，31]，具有灯光舞台设置。相比之下，我们通过光台设置和4K超高速相机构建了一个新的动态OLAT数据集。我们的高质量数据集由603，288个时间OLAT图像集组成，以25 fps的速度拍摄36个受试者（18名女性和18名男性），具有各种表情和发型。3. 动态OLAT数据集概述图3.基于编码器-解码器架构的视频肖像重新照明网络的说明，用于实时推理。具有2810个HDR环境照明图[22，17]，以提供高质量和多样化的视频肖像重新照明样本。此外，我们应用一个预定义的光条件，以获得一个完全照明的肖像图像的每个OLAT图像然后，肖像解析[68]和光流[32]算法都被应用于这样的完全照明的流，以获得地面真实语义和对应性我们的动态OLAT数据集提供了足够的语义，时间和照明一致性监督来训练我们的神经视频肖像重新照明方案，该方案可以推广到野外场景。4. 神经视频肖像重新点亮我们的方案获得实时和连贯的视频relt结果，只有移动计算和单目RGB流，使用我们的动态OLAT数据集，如图所示4.第一章首先，引入用于肖像结构和照明的混合解纠缠以用于语义感知一致性建模（第二节）。4.1）。然后，采用时间建模来利用基于流的监督以用于动态重新照明效果（Sec. 4.2）。我们还介绍了一种照明采样策略，以模拟真实世界场景中自然肖像照明操作的照明一致性和突变4.3）。符号。为了实现实时性能，我们对纵向流采用编码器-解码器架构，其顺序类似于先前的方法[46，56]，如图所示。3.第三章。给定在第t帧的输入图像Ii和在第t帧的输入图像Ii。期望的目标照明Lk（环境照明图），我们的网络Φ预测由期望的目标照明Lk（环境照明图）照亮的目标肖像图像〜Ik两者。我们的目标是自然地操纵在野外捕获的por- traitRGB视频的照明到新的环境中Lk和对应的语义掩码Pt：~Ik，Li，Pt=Φ（Ii，Lk），（1）照明条件，同时保持结构一致tt和内容为了为视频一致性建模提供地面实况监督，我们建立了一个高质量的动态OLAT数据集。如示于图2，我们的捕获系统由114个LED光源的灯光舞台设置组成其中，Li是输入图像Ii 的回归光照。具体地，编码器Φenc将输入图像编码为照明L1和肖像结构潜码Φenct两者：Li，Fi，et=Φenc（Ii），（2）和Phantom Flex 4K-GS相机（全局快门，固定式，4K超高速相机，1000fps），导致使用重叠方法以25fps动态OLAT图像集记录[57]。我们的数据集包括36名演员（18名女性和18名男性）的603，288张临时OLAT图像集其中Fi是跳过连接的输出。类似地，对应的解码器Φdec被公式化为：（3）（1）（2）（3）（1）（2）（3）t t805不2不不⊙不.Σ不不不不 1不我我图4.我们的方法的培训管道。它包括一个结构和照明解开（第二节）。4.1），时间一致性建模（Sec.4.2）和照明采样（第4.3），以便实时地从RGB流生成一致的视频重放结果其中，我们使用预测的照明Li来重新照明自身。通过在解码器中用已知的照明L k替换照明，我们可以获得与L k相对应的重新照明肖像im a ge〜Ik。请注意，我们使用波浪线和帽子符号的图像重新亮已知的照明或预测的一个，分别。4.1. 结构与照明解缠逼真的重新照明的核心是可靠的解缠的肖像结构信息e和照明条件L在我们的网络的瓶颈在Eqn。二、为此，我们采用了一种混合的解纠缠方案，结合多任务训练和对抗性训练策略来模拟真实重光照的语义一致性。类似于方法[46]，在训练过程中，我们优化了以下基本损失以用于解纠缠，这最小化了预测与来自我们数据集的地面实况之间的光度误差和照明距离L=1log（1+Li）−log（1+Li）2年龄因此，我们设计了一种新的自监督方案，这样的结构明智的潜在代码，通过应用编码器re-currently到relt输出，并强制执行的一致性之间的结构代码进一步解开。我们将其表述如下：Llatent=et−~et2，（5）其中，k∈t来自Φen c（k∈Ik）的递归输出。这里，我们利用编码器Φenc对具有目标光Lk的重映图像~Ik进行编码，并验证其全局结构潜码以增强结构一致性。语义感知多任务学习。具有散射效应的人脸皮肤具有与头发等其他材料不同的反射率分布。均匀地处理所有肖像像素将在不保持语义一致性的情况下导致重照明结果中的强烈伪影。本最后，我们设计了多任务解码器Φdec，其目的是恢复重光照图像的语义特征和语义特征掩模酶2+M⊙（Ik−~Ik）+M第二（四）条⊙（I−（I），在我们的数据集的监督下。具有二进制交叉熵度量的这种解析损失被公式化为：其中Mt是来自面部解析的t个对应帧的肖像前景掩模，并且是逐元素乘法。然而，仅使用这种基本方案无法提供对结构潜在代码e的监督，并且无法在我们的动态OLAT数据集中编码丰富的语义一致性因此，我们引入以下策略以用于更可靠的解缠结和更一致的重新照明。结构自我监督。回想一下，方法[46]将潜在空间视为照明图，并且仅依赖于特征图Fi来对肖像结构信息进行建模。不同的是，我们利用一个分离的结构化的潜在代码，它在编码器中具有更大的接收域来表示肖像图像的全局上下文信息。Lparsing=−PtlogPt+（1−Pt）log g（1−P t）。（六）通过预测语义肖像掩码Pt，我们强制编码器和解码器网络都知道的人类肖像图像的语义信息。因此，网络可以隐式地对语义一致性进行建模，以更真实地重新照亮各个肖像区域。对抗训练。为了进一步加强肖像图像细节，我们还引入了鉴别器网络ΦD，其具有与DCGAN相同的架构我们采用Wasserstein GAN [3]策略来提出稳定训练过程的判别器。我们特别不1不806LL LLLGH·不G.J.不不不电话+1电话+1不去除ΦD然后，对抗性损失被公式化为：类似于以前的工作[46，56]，照明条件L被表示为大小为16×16的平坦化的纬度-经度格式，具有来自环境的三个颜色通道Ladv=−ΦD（Ii，Ik，Lk）+ΦD（Ii，~Ik，Lk）我们采用了相同的环境贴图Dt ttt（7）用随机旋转重新渲染以增强照明Ladv=−ΦD（Ii，Ik，Lk），其中advD仅用于更新鉴别器，并且advG 仅用于更新解码器;adv=advD+advG。这里，鉴别器将三元组作为输入，包括源图像、重映图像和相应的光条件Lk，其估计真实图像分布和重映图像分布之间的Wasserstein距离请注意，源图像的结构和Lk是这种距离测量的基本线索。4.2. 时间一致性增强以前的单图像重照明方法缺乏明确的时间建模方面的肖像运动或dy。条件抽样分布为了模拟照明突变，我们进一步设计了照明条件分布，其中我们随机采样一个到三个点光源，其在单位球体外部具有均匀随机颜色从光源到球体的最大距离限制为1。5、要有合理的照明。然后，我们根据朗伯反射模型[5]将这些光源投影到球体上，以形成环境地图和相应的照明条件。对于每个训练样本，我们使用不同的采样策略生成三个照明，包括Li和Lj以生成相邻图像Ii和Ij，以及t t+1动态照明，导致视频应用的闪烁伪像因此，我们提出了一个救援，利用丰富的具体地，对于两个相邻的训练样本时间戳t和t+1，我们获得了针对t，t+1（·）并且从我们的连续OLA T得到t+1，t（·）的后向流- 目标图像Ik的Lk，其被公式化为：Li=XiLj=β1Li+（1−β1）XjLk=β2Lj+（1−β2）Xk+Y，（九）imagesets，其中fa，b（）将图像从时间a扭曲到时间B. 请注意，我们的高质量OLAT图像集在25 fps en-保证了这种基于光流的监督的准确性，以交叉方式进行自监督验证。为了平衡两帧之间的光照分布，我们还在训练方案中引入了两个共轭光照。给定两个相邻帧Ii和其中Xi，Xj，Xk，Y和β1，β2是从Beta分布Beta（0. 5，0。（五）。在这里，Beta分布极大地多样化了照明组合同时对光照一致性和突变进行建模，提高了网络的泛化能力。从概念上讲，Li和Lj具有相似性，有助于时间损失训练的覆盖。而LkJ电话+1，我们使用我们的网络重新连接了这两个网络，提供具有挑战性的照明示例，以增强与预测的光照条件Li、Lj以及目标照度Lk相关联，以获得两个帧处的对应重映图像。因此，我们的时间损失公式化为：我们的方法的照明操纵能力。4.4.实现细节Ltemporal=ft，t+1（~Ik）-~Ik1+）−~Ik1我们利用动态OLAT数据集来训练视频再照明网络我们的训练数据集由536，256个+Σ。ft，t+1（1+）−Iz1Σ，32个演员的时间OLAT图像集持续188.16z∈{i，j}t t+1电话+1不（八）秒在训练期间未看到的其他四个演员的剩余OLAT图像集被作为测试数据集。其通过基于流的监督以交叉方式对共轭时间一致性进行编码，以便对动态重列效应进行建模4.3. 照明条件采样请注意，我们还使用随机裁剪和调整大小来增加数据集，以添加更具挑战性的不完整por- traits来增强我们网络的泛化能力。在训练期间，我们的总损失公式如下：请注意，我们的动态OLAT数据集中的离散环境光照贴图仍然无法对光照进行建模L=λ1L基本+λ2L潜在+λ3L解析+λ4L颞侧+λ 5L侧，（十）用于实时视频重新照明场景的操作一致性和突变。因此，我们引入了一种新的照明采样方案，在训练过程中产生一个三元组的照明条件，为相邻的输入帧和目标的输出，这提高了自然人像照明和照明操作的照明一致性我G我们的数据集中的条件，这形成了一个统一的照明807其中每个项的权重被设置为1。0.由于我们在我们的方法中使用了Wasserstein GAN，因此我们的网络参数通过RM-Sprop算法进行优化，学习率为0。00005此外，我们还将鉴别器的参数箝位到[−0. 010 01]并采用渐进式培训策略。808×图5.我们在动态照明下的重新照明结果每个三元组包括输入帧和两个重列结果示例。输入真实数据我们的SIPR EMRCM MTP DPR图6.我们的动态OLAT数据集上的relt结果的定性比较。我们的方法实现了更真实的重新照明。MTP和DPR中的小图像分别是参考和灰度SH照明详情请参阅[42，67]5. 实验在这里，我们评估我们的方法在各种具有挑战性的sce- narios。我们在配备Intel i7- 8700 K CPU和NvidiaRTX 3080 GPU的PC上运行我们的实验，其中我们的方法以111 fps（iPhone 12上为15 fps）生成高质量的512 512重新显示结果，延迟为29.2 ms。图5示出了我们的方法的若干结果，其可以生成野生序列和来自我们的数据集的具有挑战性照明的序列的一致视频重新显示结果。5.1. 比较我们将我们的方法与现有的最先进的方法进行了比较，包括单幅图像人像重新照明（SIPR）[46]，通过显式多重反射的通道建模（ EMRCM ） [56] ，基于质量传输方法（MTP）[42]和深度肖像重新照明（DPR）[67]的方法请注意，我们重新实现了SIPR [46]，并使用我们的数据集对其进行训练，以进行公平的比较。请参考原始SIPR作者的补充材料。图6和图7分别提供了我们的动态OLAT数据集和在线或野生序列的请注意，我们的方法实现了显着更现实的relit的结果下chal- lenging照明建模的视频一致性。然后，我们利用我们的测试集与地面真相进行定量比较。类似于以前的方法[46，56]，我们采用RMSE，PSNR和SSIM作为度量。请注意，输出值被归一化为[0，1]，并且仅考虑有效的纵向区域如图所示809输入我们的SIPR EMRCM MTP DPR图7.在线或野生序列上relt结果的定性比较我们在看不见的表演者身上获得了更自然的结果图8.处理快速变化照明的定量比较我们的方法在各种照明加速因素下始终优于其他基线。方法RMSEPSNRSSIMSIPR0.097420.65420.8901EMRCM0.076622.71970.8748MTP0.090221.95350.8775DPR0.108020.80420.8593我们0.034930.61100.9584表1.在我们的动态OLAT数据集上进行定量比较在选项卡中。1，我们的方法在上述这些指标方面始终优于基线。我们进一步比较动态照明下的基线。因此，我们合成1000帧的静态表演者和改变照明条件，使用各种加速因子从1到10。然后，我们将序列重新放入静态照明中，并计算相邻输出帧的平均RMSE作为抖动伪影的误差度量。如图8，我们的方法的错误发光慢得多一致相比，其他人，这说明了我们的优势，以处理动态照明。5.2. 评价混合解缠。在这里，我们评估我们的混合方案的结构和照明解纠缠。让w/o结构表示我们的方法的变化，而不具有等式1中的纵向结构的自监督。5，w/o增强表示没有增强的变化。输入不带结构Ours图9.结构自我监控的定性评价。我们完整的流水线实现更清晰的重新照明与精细的结构细节。输入（不增强我们的）图10.解缠结增强的定性评价我们Scheme为真实的重新照明建模语义一致性。通过使用多任务和对抗策略来解除纠缠。如图9，我们的计划与结构自我监督，使更准确的解开，为更清晰的现实结果。图中的定性评价。图10进一步说明了我们的多任务和对抗性训练策略对语义一致性进行编码，以实现更真实的重新照明。时间建模。在这里，我们比较我们的变化没有时间一致性建模，表示为w/o时间。与动态照明下的比较类似，我们重新显示了相同的合成序列与静态表演者和改变照明成一个目标810输入（不含我们的时间）图11.时间建模的评估。上图：两个从改变照明到目标照明条件的静态肖像的重新照明示例。向下：对应的误差曲线。方法RMSEPSNRSSIMw/o内容0.054925.54960.9021无时间0.040428.64030.9510无语法分析0.068023.61890.9170无采样0.061624.51420.9223我们0.034930.61100.9584表2.合成序列的定量评价照明条件进行全面评估。如图11，我们的方法与时间建模实现了更多的时间一致的结果，定性和定量。我们还提供了定量评估，根据各种照明加速因素图。8，这说明了利用时间一致性的有效性。照明采样我们进一步评估我们的照明采样策略。让w/o采样表示我们在训练期间仅使用离散环境光照图的变化。如图如图12和图13所示，我们的方案对照明一致性和突变进行建模，从而实现更自然的肖像光编辑和重新照明。我们进一步使用我们的测试集与地面真相，我们的方法的各个组成部分进行彻底的定量分析如Tab.所示。2，我们的完整管道始终优于其他变体。6. 讨论和结论局限性。作为探索动态光照下的实时和连续视频人像重光照的尝试，我们的方法仍然具有如下一些限制。首先，我们的方法不能处理极端的照明变化，比如突然打开/关闭所有的灯。此外，由于轻量级编码器-解码器架构，所生成的重新显示视频结果部分地丢失了面部细节。此外，重新照明的结果具有不准确的镜面反射性，并且经常过度漫射。由于在推断期间不一致的肖像抠图，我们目前的做法输入重建修改修改图12。在真实世界场景中照明采样的评估。我们的方案能够实现更多的自然照明操作，其中将红色光源添加到环境光照贴图中。输入GT编辑无抽样图13.在从不同方向添加红光的合成场景上进行照明采样的评估上图：定性的再举例子。向下：对应的误差曲线。也仅限于头像。这使用生成模型来处理高频照明来结论我们已经提出了一种新的方案，用于实时，高质量和一致的视频肖像重新照明下的动态照明从单目RGB流和一个新的动态OLAT数据集。我们的混合解开方案与多任务和对抗训练模型的语义一致性有效地产生现实的relt结果。我们的时间建模方案编码的基于流的监督时间一致的重新照明，而我们的光采样策略增强照明操作的一致性。我们相信，我们的方法是人像照明分析的关键一步，在面向用户的摄影，VR/AR视觉效果或沉浸式远程呈现中具有许多潜在的应用。致谢本工作得到了国家自然科学基金项目（61976138，61977047 ），国家重点研发计划（ 2018 YFB 2100500 ）， STCSM （ 2015 F0203 -000- 06 ）， SHMEC（2019-01-07-00-01-E00003）和上海扬帆计划（21YF1429500）。无采样与811引用[1] Oswald Aldrian和William AP Smith。用3d可变形模型逆向绘制人脸。IEEE Transactions on Pattern Analysis andMachine Intelligence，35（5）：10802[2] 苹果在 iPhone 上使用人像模式。网址： http ：//support.apple.com/en-us/HT2081181[3] 马丁 ·阿乔对 ky ，苏米特 ·钦塔拉和 Le'onBottou 。Wasserstein生成对抗网络在机器学习国际会议上，第214PMLR，2017年。4[4] Mallikarjun B R 、 Ayush Tewari 、 Tae-Hyun Oh 、 TimWeyrich、Bernd Bickel、Hans-Peter Seidel、HanspeterPfister 、 Wojciech Matusik 、 Mohamed Elgharib 和Christian Theobalt。神经人脸反射场的单目重建二、三[5] Ronen Basri和David W Jacobs。朗伯反射率和线性子空间。IEEE模式分析与机器智能学报，25（2）：218-233，2003。二、五[6] Sai Bi ， Zexiang Xu ， Kalyan Sunkavalli ， DavidKriegman，and Ravi Ramamoorthi.深度3D捕获：稀疏多视图图像的几何和反射。IEEE/CVF计算机视觉和模式识别会议（CVPR），2020年6月。2[7] Volker Blanz和Thomas Vetter。三维人脸合成的可变形模型。在 Proceedings of the 26th annual conference onComputer graphics and interactive techniques，pages 187-194，1999中。2[8] Nicolas Bonneel 、 Kalyan Sunkavalli 、 Sylvain Paris 和Hanspeter Pfister。基于示例的视频颜色分级。ACMTransactions on Graphics，32，2013。2[9] Nicolas Bonneel，James Tompkin，Kalyan Sunkavalli，De- qing Sun，Sylvain Paris，and Hanspeter Pfister.盲视频时间一致性。第34卷，2015年。2[10] 曹晨、翁彦林、周顺、童一英、周坤。Facewarehouse：用于视觉计算的三维面部表情数据库。 IEEE Transactions on Visualization and ComputerGraphics，20（3）：413-425，2013. 二、三[11] 陈小武，陈萌萌，金鑫，赵庆萍通过边缘保持滤波器的面部照明传递在CVPR 2011，第281-287页中。IEEE，2011年。2[12] Shiyang Cheng，Irene Kotsia，Maja Pantic，and StefanosZafeiriou. 4dfab：用于面部表情分析和生物识别应用的大规模4D数据库在IEEE计算机视觉和模式识别会议论文集，第5117-5126页，2018年。3[13] Darren Cosker Eva Krumhuber和Adrian Hilton有效的三维动态动作单元数据库及其在三维动态可变形人脸建模中的应用2011年国际计算机视觉会议，第2296-2303页。IEEE，2011年。3[14] Paul Debevec 、 Tim Hawkins 、 Chris Tchou 、 Haarm-Pieter Duiker、Westley Sarokin和Mark Sagar。获取人脸的反射场。在Proceedings of the 27th annual conferenceon Computer graphics and interactive techniques，pages145-156，2000中。一、二[15] Bernha rdEgger ， SandroSchoénborn ， AndreasSchnei-der ， Adam Kortylewski ， Andreas Morel-Forster ，Clemens Blumer，and Thomas Vetter.基于遮挡感知的3d形变模型和光照先验的人脸图像分析。InternationalJournal of Computer Vision，126（12）：1269- 1287，2018。2[16] Wen Gao ， Bo Cao ， Shiguang Shan ， Xilin Chen ，Delong Zhou，Xiaohua Zhang，and Debin Zhao. cas-peal大规模中国人脸数据库及基线评价。IEEE Transactionson Systems，Man，and Cybernetics-Part A：Systems andHumans，38（1）：149-161，2007. 3[17] Marc-Andre'Gardner ， KalyanSunkavalli ， ErsinYumer，Xi-aohuiShen，EmilianoGambaretto，ChristianGag ne'，andJean-Fran c oisLalonde. 学习从单个图像预测室内照明 ACM Transactions on Graphics（TOG），36（6）：1-14，2017。3[18] Google.人像灯：增强人像光效与机学习https：//ai.googleblog.com/2020/12/portrait-light-enhancing-portrait.html。1[19] Ralph Gross 、 Iain Matthews 、 Jeffrey Cohn 、 TakeoKanade 和 Simon Baker 。多派 Image and visioncomputing，28（5）：807-813，2010. 3[20] P. Gunawardane ， T. 马尔茨本德河 Samadani ， A.McReynolds，D. Gelb和J.戴维斯不可见光：使用红外视频会议重新照明。2010年IEEE图像处理国际会议，第40052[21] Kaiwen Guo ， Peter Lincoln ， Philip Davidson ， JayBusch ， Xueming Yu ， Matt Whalen ， Geoff Harvey ，SergioOrts-Escolano ， RohitPandey， JasonDourgarian，Danhang Tang，Anastasia Tkach，AdarshKowdle ， Emily Cooper ， Ming-song Dou ， SeanFanello，Graham Fyffe，Christoph Rhemann，JonathanTaylor，Paul Debevec，and Shahram Izadi.可重新点燃的：用逼真的重新照明捕捉人体的体积性能。ACM事务处理图表，38（6），Nov. 2019. 二、三[22] Yannick Hold-Geoffroy、Akshaya Athawale和Jean-Fran coisLalonde。用于单图像户外照明估计的深度SK Y建模在IEEE/CVF计算机视觉和模式识别会议论文集，第6927-6935页，2019年。3[23] Manuel Lang 、 Oliver Wang 、 Tunc Aydin 、 AljoschaSmolic和Markus Gross。基于图像的图形应用的实用时间一致性ACM Transactions on Graphics，31，2012。2[24] Kuang-Chih Lee，Jeffrey Ho，and David J Kriegman.可变光照下人脸识别中线性子空间的获取。 IEEETransactionsonpatternanalysisandmachineintelligence，27（5）：684-698，2005. 3[25] Guannan Li，Yebin Liu，and Qionghai Dai.一般光照下多视点序列的自由视点视频重光照。机器视觉与应用，25（7）：1737- 1746，2014。3[26] Zhengqin Li，Zexiang Xu，Ravi Ramamoorthi，KalyanSunkavalli，and Manmohan Chandraker.学习重建形状和空间变化的反射率从一个单一的812形象 ACM Transactions on Graphics （ TOG ）， 37（6）：1-11，2018。2[27] 彼得·利特维诺维奇处理图像和视频以获得印象派效果。1997. 2[28] Yang Liu，Alexandros Neophytou，Sunando Sengupta，and Eric Sommerlade.用一个自我监督的连体自动编码器在野外重新照亮图像。在IEEE/CVF计算机视觉应用冬季会议论文集，第32-40页，2021年。2[29] Abhimitra Meka ， Christian Haene ， Rohit Pandey ，Michael Zollh o¨ fe r ， SeanFanello ， GrahamFy f fe ，AdarshKowdle ， Xueming Yu ， Jay Busch ， JasonDourgarian，et al.深反射场：从颜色梯度照明推断高质量面部反射场。 ACM Transactions on Graphics（TOG），38（4）：1-12，2019。2[30] Abhimi t raMeka，RohitPand ey，ChristianH ¨ ne，Se rgioOrts-Escolano ， Peter Barnum ， Philip David-Son ，Daniel Erickson，Yinda Zhang，Jonathan Taylor，SofienBouaziz，et al.深可重燃纹理：神经渲染的体积性能捕获。 ACM Transactions on Graphics （ TOG ）， 39（6）：1-21，2020。2[31] ThomasNestmeyer，Jean-FrancoisLalonde，IainMatthews，and Andreas Lehrmann.学习物理指导的脸重照明下的定向光。在IEEE/CVF计算机视觉和模式识别会议论文集，第5124-5133页，2020年。一、二、三[32] 英伟达 Nvidia 光流 sdks 。 https ： //developer.nvidia.com/opticalflow-sdk. 3[33] 亚历克·雷德福卢克·梅斯和苏米特·钦塔拉深度卷积生成对抗网络的无监督表示学习。arX

下载后可阅读完整内容，剩余1页未读，立即下载