BokehMe:神经渲染与经典渲染的混合散景框架

30 浏览量更新于2023-10-25 收藏 4.3MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

16283BokehMe：当神经渲染遇到经典渲染彭觉文1，曹志国1，罗贤瑞1，卢浩1，柯贤1*，张建明21图像处理与智能控制教育部重点实验室，华中科技大学人工智能与自动化学院2Adobe研究{觉文鹏，曹志，冼瑞罗，胡璐，柯贤}@ hust.edu.cn，jianmzha@adobe.comhttps://github.com/JuewenPeng/BokehMe图1.BokehMe从高分辨率图像和DPT预测的不完美视差图中创建照片般逼真且高度可控的散景效果[26]。第一列显示的是六边形光圈形状的结果，其余的则使用圆形。摘要我们提出了BokehMe，一个混合散景渲染框架，它将神经渲染器与经典的物理动机渲染器结合在一起。给定单个图像和可能不完美的视差图，BokehMe生成具有可调节模糊大小、焦平面和光圈形状的高分辨率照片级真实感散景效果为此，我们分析了经典的基于散射的方法的误差在此基础上，我们用基于散射的方法实现了经典的渲染器神经渲染器采用动态多尺度方案来有效地处理任意模糊大小，并且它被训练来处理不完美的视差输入。实验表明，我们的方法相比，毫不逊色于以前的方法在合成图像数据和真实图像数据预测的差距。用户研究进一步进行，以验证我们的方法的优势。*通讯作者。1. 介绍散景效果指的是镜头呈现照片中的失焦模糊的方式（图1）。1）。通过不同的镜头设计和配置，可以创建各种散景风格。例如，散景球的形状可以由光圈控制。经典渲染方法[6，20，31，40]可以通过控制模糊内核的形状和大小然而，它们经常遭受深度不连续处的伪影。神经渲染方法[11，25，32]可以通过从图像统计中学习来很好地解决这个问题，但是它们很难模拟真实的散景球，并且只能从训练数据中产生此外，由于神经网络的接收域固定和训练数据的模糊尺寸限制为了产生无伪影和高度可控的散景效果，我们提出了一种新的混合框架，称为BokehMe，它通过融合来自经典渲染器和神经渲染器的结果来充分利用这两个世界（图1）。2）。我们使用基于散射的方法[31]16284全焦点我们的（CR）我们的（NR）我们的图2。BokehMe结合了经典渲染器（CR）和神经渲染器（NR），通过令人惊叹的散景球和可调光圈形状（第1行：圆形;第2行：六边形）。作为我们的经典渲染器。为了确定这种方法可以呈现明显的边界伪影，我们对透镜系统进行建模一个软，但紧的错误映射，以识别区域的边界文物。使用误差图来用神经渲染结果替换伪影区域，我们能够在没有明显视觉伪影的情况下保留来自经典渲染器的散景风格对于神经渲染器，为了打破模糊大小限制，我们将其分解为两个子网络：自适应渲染网络（ARNet）和迭代上采样网络（IUNet）。在ARNet中，我们自适应地调整输入图像的大小，并生成低分辨率的散景图像。然后，IUNet被用来在初始高分辨率输入图像的迭代引导下对低分辨率散景图像进行因此，我们的神经渲染器可以处理任意大的模糊尺寸。我们的主要贡献总结如下。我们提出了一个新的框架，它结合了经典的渲染器和神经渲染器的照片逼真和高度可控的散景渲染。我们分析了透镜系统，并提出了一个错误映射公式，有效地融合经典渲染和神经渲染。我们提出了一个两阶段的神经渲染器，它使用自适应插值和迭代上采样来处理高分辨率图像的任意模糊大小，并且它对潜在的不完美视差输入具有鲁棒性。此外，由于可控散景渲染领域测试数据的缺乏，我们贡献了一个新的基准：BLB，由Blender 2.93合成[5]，与EBB 400一起，由EBB！[11 ]第10段。由于散景效果的评估是主观的，我们还对iPhone 12拍摄的图像进行了用户研究。大量的实验结果表明，BokehMe可以渲染出看起来像物理声音的图像，并保持散景风格的多样性。2. 相关工作经典渲染。经典渲染可以分为两类：对象空间方法和图像空间方法。基于光线跟踪的对象空间方法[1，16，33，39但大多数方法耗时长，且需要完整的三维场景信息，实用性较差.与对象空间方法相比，图像空间方法[3，4，10，29，38]仅需要单个图像及其对应的深度图，更容易实现。近年来，越来越多的方法[6，20，23，27，28，31，34，40]将不同的模块（如深度估计、语义分割和经典绘制）结合起来构建自动绘制系统。为了防止背景颜色渗入到前景中，大多数方法都是以估计的深度图为条件，将图像分解为多个层，并从后向前执行渲染。尽管经典渲染是灵活的，但是这种范例在深度不连续处遭受伪影，特别是当焦平面以背景为目标时。神经渲染。为了提高效率和避免边界伪影，最近的许多作品使用神经网络来模拟渲染过程。例如，Nalbachet al. [21]和Xiaoet al. [35]训练网络从全聚焦图像及其对应的完美深度图中产生散景效果通过在OpenGL着色器和Unity引擎[30]创建的合成数据上进行训练，可以有效地减轻边界伪影。然而，完美的深度图在现实世界中并不总是容易获得的。Wang等人[32]因此提出了一种自动渲染系统，其包括深度预测、镜头模糊和引导上采样，以从单个图像生成高分辨率景深（DoF）图像。此外，最近还研究了编码器-解码器网络[9，11-与上述方法不同，Xuet al. [37]专注于全自动人像渲染。他们使用递归滤波器[18]来近似基于条件随机场的渲染方法，并实现了显着的速度提高。然而，神经绘制的主要问题是缺乏可控性。对于训练好的神经网络，散景风格不能改变，模糊范围有限。此外，网络产生的散景球并不真实，因为网络倾向于学习简单的模糊效果。3. BokehMe：一个混合渲染框架如图3，我们的框架通过两个渲染器从全聚焦图像I、视差图D和控制参数生成散景图像B：经典渲染器和神经渲染器。它们的渲染结果基于错误映射E被融合，该错误映射E标识潜在的···16285房基于散射渲染前景相邻像素渲染背景相邻像素逐元素加法按元素相乘图3. BokehMe的框架。散景图像通过融合经典渲染器和神经渲染器的输出错误的区域从经典的渲染器。控制参数包括模糊参数K、重聚焦视差df、灰度值γ以及与背景风格有关的一些参数，孔径形状具体地，K反映整个图像的模糊量。df确定焦平面的视差（逆深度）γ，用于伽玛校正，控制散景球的亮度和显著性。3.1. 经典渲染器及其误差分析经典渲染器。我们期望经典的渲染器专注于在深度连续区域中渲染逼真的散景效果。在比较不同的方法之后，我们发现基于散射的逐像素渲染方法[23，31]在这些区域中具有相对较小的误差，尽管会导致严重的(a)（b）第（1）款图4.在深度不连续处的真实渲染和基于散射的渲染的比较中心像素（黑点）的渲染结果是其在红色梯度前景平面上的相邻像素和在蓝色梯度背景平面上的相邻像素的积分背景平面可以传递到中心像素。显然，基于散射的渲染与真实渲染是不同的初始错误映射。我们的目标是获得一个错误的地图，以确定不正确的经典渲染器渲染的区域稍后，我们将训练一个神经网络来预测本节中制定的误差图。令E表示目标误差映射。由于只有在距离深度边界的散射半径内的区域可能与真实渲染有显著差异，因此Emax可以保守地用公式表示为深度边界的空间变化膨胀以图中的场景为例。例如，E的第i个元素可以定义为：深度不连续处的渗色伪影。该方法的核心思想是将每个像素点散射到相邻像素点Ei=1。αi<1μ m，αi=lii′，（2）max（ri，ri′）区域之间的距离小于像素的模糊半径。如[31，38]中所讨论的，给定像素的视差d，其模糊半径可以通过以下公式计算：R=K|d−df|-是的（一）我们用CuPy包实现了该算法，以实现显著的并行加速（参考补充材料）。由于从场景辐照度到图像强度的变换是非线性的[38]，因此在渲染之前和之后应用额外的伽马校正[17镜头系统。为了理解为什么基于散射的方法在深度不连续处引起误差，我们对虚拟透镜系统进行建模。对于一个简单的场景（图。4）在空间中存在两个物体的情况下，我们导出了8种在深度不连续处的绘制情况（这里示出了2种情况，而其他情况在补充材料中示出）。以中心像素（黑点）为例，只有红色渐变前景平面上的相邻像素和蓝色渐变前景平面上的相邻像素其中αi可以被视为Ei的变量。 i′是另一深度平面中第i个像素的最近像素的索引。lii′是两个像素之间的距离。ri和ri′是对应像素的模糊半径。改进的错误映射。考虑到经典渲染器在具有可控散景风格的深度连续区域中生成高质量结果的事实，我们希望适当地缩小和软化初始误差图以保留来自经典渲染器的更多散景结果，而在融合边界中没有明显的伪影。通过补充资料中给出的理论和数值分析，我们推导出对于每个像素，基于散射的绘制结果与真实绘制结果之间的色差为Hi=ki|ci−ci′|，ki=f（αi，βi），（3）其中ci和ci′是渲染之前第i个像素x el和第i′个像素的颜色。ki是一个二元函数αiBokeh-CR全焦点经典渲染器误差图Bokeh��− E视差E神经渲染器Bokeh-NR控制参数16286∞−3| −|≤≤.Σ。Σnr.Σ| |我nr颜色差异（情况1）颜色差异。（情况2）初始错误映射颜色差异(case第三章颜色差异(case四、改进的错误映射图5.色谱柱1、2：在4种情况下，真实渲染和基于散射的渲染之间的色差H i的曲线图。第3列：误差图Ei的曲线图。从经典的渲染器错误的区域。改进后的误差图比原来的误差图更柔和、更紧密，并从整体上覆盖了色差和βi.αi已在等式中定义2而βi取形式β=min（ri，ri′），（4）max（ri，ri′）其表示两个像素的较小模糊半径和较大模糊半径的比率 k i随着重新聚焦的分辨率以及处理像素和深度边界之间的最短距离而变化。为了清楚起见，我们认为=1，并在图的前两列中画出H i的曲线图。五、根据Hi随αi和βi的增大而减小的观察结果，我们将公式（1）和（2）分别改写为：2至Ei=max0，1−αiδ1·1β1<δ2，（5）其中δ1和δ2是两个超参数。该公式将等于Eq. 2，如果设置δ1=δ2=1.一、注意，在我们的实现中，我们用平滑项替换第二指示符函数项，即，0的情况。5岁以上0的情况。5tanh（10（δ2βi））。在比较了用不同超参数训练的模型（在补充材料中）之后，rial），我们凭经验设定δ1=4和δ2=2。我们还展示了初始Ei的图形（等式10）。2）和改进的Ei（Eq. 5）在图的最后一列五、注意，当0 β i1时，如果β i > 1，则定义E i=0。可以观察到，改进的Eim比初始的Eim更柔软和更紧密，并且仍然覆盖具有大色差的区域另一个实际例子如图所示六、3.2. 神经渲染器和模型训练为了处理深度不连续性的渲染并克服模糊范围的限制，我们提出了一个由两个子网络组成的神经渲染器：ARNet和IUNet（图1）。（七）. 为了简化神经渲染器的输入，我们基于Eq.一曰：S=K（D-df），（6）真实散射颜色差异误差图图6.在这个例子中，背景和前景的差异被固定为0和0. 2所示的序列。重新聚焦的显示设置为0，0。2，0。5和1，并且每种情况下的变量βi可以通过等式2计算。4，即， 0 0 0 6和0的情况。8.可以看到，真实渲染和基于散射的渲染其对关于深度关系和空间变化模糊半径的信息进行为了匹配经典渲染器中的gamma校正，我们使用了一个填充了归一化gamma值的贴图作为额外的输入。ARNet自适应地调整输入图像的大小，并以低分辨率输出误差图和散景图像Blr（图2）。（八）。自适应图层由两个步骤组成。第一步是计算缩减因子1、x= 0，y = 0，|S|），（7）R其中max（S）对应于整个图像的最大模糊半径。R是我们为神经网络设置的最大模糊半径第二步是对所有图像进行下采样，并将带符号散焦图的数值范围减小w（0）的比率。网络的中间部分是轻量级和可替换的我们在这项工作中使用与DeepFocus（快速版本）相同的架构[35]。IUNet以2倍的倍数迭代地对低分辨率散景图像Blr进行上采样，直到达到原始分辨率（图2）。第9段）。为了避免由直接双线性上采样引起的聚焦区域周围的模糊，我们使用原始高分辨率输入作为指导图。在每次迭代中，它被调整为输入散景im的分辨率的两倍16287−nr∇∗11神经渲染器低分辨率误差图误差图双线性上采样ARNetBokeh-NRIUNet低分辨率散景-NR图7.神经渲染器的架构。ARNet首先估计低分辨率散景图像和低分辨率误差图。然后，通过双线性上采样将误差图恢复到原始分辨率，同时通过IUNet对散景图像进行上采样低分辨率散景-NR图8. ARNet的架构。自适应模糊层对输入图像进行下采样，并减小带符号散焦图的数值范围，以保证散焦值在神经网络可接受的范围内，而不降低整幅图像的模糊量。年龄为了在迭代过程中匹配不断增加的模糊大小，我们还需要动态调整散焦图的值具体来说，我们再次使用自适应缩放层，每次迭代的缩小因子t设置为1图9. IUNet的架构。低分辨率散景图像将被迭代地上采样以生成高质量高分辨率散景图像。在每次迭代中，散焦剪切层旨在防止缩放的散焦值超过后续网络的可接受范围，并且阈值化层产生掩模以用双线性上采样的输入散景图像替换剪切区域内的渲染结果更高，但网络细化的有效面积会更小。换句话说，焦平面附近的区域将被细化更多次。最后，在alpha混合之后[19，36]，我们使用w（t）=w（t−1），t=1，...， T.（八）2预测误差图E，以融合经典渲染器Bcr的散景结果和神经渲染器Bnr的散景结果：然而，随着迭代的进行，缩放后的偏差值可能超过神经网络的可接受范围[R，R] 幸运的是，由二-对于具有大量散景模糊的区域，矩形双线性上采样是不明显的。因此，我们可以只细化散焦值在该范围内的区域。为此，我们首先对超出范围的散焦值进行裁剪，以确保后续的网络能够工作而不会崩溃。然后，B=（1 − E）·B cr+ E·B nr。（九）损失函数。我们分别训练ARNet和IUNet。在训练ARNet时，自适应层未使用。B由Bcr和Blr稠合。损失的定义为LAR= L1（B，B）+ L1（B，B）+L（Blr，B）+L（Blr，B）我们对扩张的散焦图Sd进行阈值化以产生掩模，1个1个其指示没有离焦限幅的有效再现区域在这些区域中，我们使用网络的输出，而对于其余区域，我们使用双线性上采样后的输入散景图像在这里，我们使用Sd而不是S，因为散焦裁剪引起的负面影响会在渲染过程中扩散。了详细的计算的Sd在补充材料中。总的来说，随着+λbceLbce（E，E），（10）地面实况地图用上标标出表示图像梯度。λbce根据经验设定为0的情况。1.一、在训练IUNet时，我们冻结ARNet并使用以下损失：LIU=L（B，B）+L（B，B）3x3 Conv + ELU3x3转换计算缩减因子0 = min 1，最大值R^下采样图像和缩放散焦值低分辨率误差图乙状128自适应调整大小（1）自适应调整大小（2）自适应调整大小（T）散焦剪裁散焦剪裁散焦剪裁Bokeh-NR引导（2）第一章：第一次见⋅引导上采样（T）低分辨率散景-NR阈值化阈值化阈值化扩张散焦自适应调整大小（1）自适应调整大小（2）自适应调整大小（T）指导BilinearUpsampling（t）自适应调整大小（t）计算缩减因子�� =1−1��2下采样图像和缩放散焦值64自适应调整大小（0）空间到深度空间深度空间变异扩张空间到深度Concat空间深度融合16288增加迭代，散景图像的分辨率将+L1（B nr，B）+L1（B nr，B）。（十一）16289nr- -表1. BLB数据集上的定量结果不同级别对应于散景图像的不同模糊参数，最好的表现是黑体。1级2级3级4级5方法请注意，为了快速收敛，除了最终结果B之外，我们还使用中间结果Blr或Bnr来监督ARNet和IUNet的训练。实现方式的我们的实现基于Py- Torch [22]。为了训练神经渲染器，我们使用简化的光线跟踪方法合成散景数据集该数据集包含150个场景。对于每个场景，它包括全聚焦图像、范围从0到1的视差图、以及具有2个模糊参数（12，24）、20个重聚焦视差（0. 05，0。1、…1）和5个伽马值（1，2，...，（五）。我们使用模糊参数为12的数据进行ARNet训练，使用模糊参数为24的数据进行IUNet训练。我们遵循与[35]中相同的数据预处理配置为了提高推广，我们还增加了随机高斯模糊，膨胀和ero-sion输入视差图。ARNet和IUNet的可接受散焦范围均设置为[12，12]用于训练，[10，10]用于干扰。两个网络都训练了50个epoch，批量大小为16。学习率设置为10- 4。亚当优化器[14]用于优化。所有实验都在NVIDIA GeForce GTX 1080 Ti GPU上进行。4. 实验4.1. 测试数据对于所有测试数据，不失一般性，我们假设孔径形状为圆形，伽马值为二、2.为不同的方法创造公平的竞争环境所有数据集的视差图被归一化到[0，1]范围。BLB包含由Blender合成的500个2.93[5]的文件。具体来说，我们从不同版本下载了10个Blender启动画面的3D场景模型[2]。对于每个场景模型，我们使用Cycles Engine [5]来渲染一个全聚焦图像、视差图和具有5个模糊参数和10个重新聚焦视差的散景图像的堆栈。图像分辨率设置为1920×1080。EBB400包含从EBB！[11 ]第10段。对于每个样本，我们通过DPT [26]预测视差图，并且人-通常标记一个与聚焦区域相关的边界框，以便我们可以通过以下方式获得重新聚焦的视差：边界框内视差图的中值[23]。图像分辨率约为1536 ×1024。IPB包含iPhone 12肖像模式拍摄的40张图像。对于每个场景，我们首先从iPhone 12导出一个全聚焦图像和一个通过肖像模式后处理的散景图像然后，使用在线照片编辑器Pho- topea [24]，我们可以进一步从散景图像中提取视差图和辐照度图。所有图像均垂直拍摄，分辨率为3024 ×4032。4.2. 比较方法我们将BokehMe与两种类型的方法进行比较：经典渲染方法和神经渲染方法。为了简单起见，我们在下面将它们表示为为了公平比较，我们为所有方法提供相同的视差图，并且我们只保留它们的散景渲染模块，而其他的则被丢弃。VDSLR [38]（C）是一种通过随机交叉搜索加速的逐像素伪射线跟踪SteReFo [6]（C）根据深度将图像分解为层，并从后向前渲染图像。RVR [40]（C）类似于SteReFo。然而，如[34]中所讨论的，原始RVR缺乏权重归一化，导致不同深度层之间存在严重的伪影，因此我们添加了额外的权重归一化，如SteReFo，并将其标记为带上标的改进方法。DeepLens [32]（N）是在自制的合成数据集上训练的，可以生成高分辨率的输出。DeepFocus [35]（N）在Unity数据上训练[30]。由于Deep-Focus无法处理大的模糊尺寸，我们将论文中提出的自适应分层应用于其模型的头部并将其结果直接上采样到原始分辨率。类似地，该修改的方法用上标标记。PSNRSSIM时间（s）PSNRSSIM时间（s）PSNRSSIM时间（s）PSNRSSIM时间（s）PSNRSSIM时间（s）VDSLR [38]41.130.98910.0639.150.98480.2337.640.98120.5336.480.97830.9735.570.97601.55SteReFo [6]37.210.98310.1335.280.98180.6033.990.98131.6932.940.98093.7432.120.98056.87RVR [40]32.350.96480.1032.000.93210.4328.360.90111.1125.800.87752.3023.940.85964.12RVR [40]37.150.98360.1338.550.98800.6235.560.98541.8233.030.98153.9731.150.97747.21DeepLens [32]33.680.96790.1431.430.96030.1430.160.95640.1429.300.95390.1428.680.95210.14[35]第三十五话38.920.99000.7136.130.98570.7131.470.96230.7125.550.90890.7121.040.82270.71[35]第三十五话38.920.99000.7135.740.98610.4934.210.98330.2233.210.98090.1332.440.97880.09我们的（CR）41.320.99000.0339.510.98770.1038.350.98680.2037.530.98640.3436.860.98620.52我们的（NR）40.410.99050.1340.160.99040.1339.210.98960.1438.010.98840.1637.200.98750.16我们43.300.99320.1642.210.99240.2341.020.99150.3439.780.99060.5038.800.98980.6816290[38]第六届全国政协副主席[40][35]第32话：我的世界，我的世界[35]图10.BLB数据集上的定性结果粗糙的重聚焦平面在视差图上用黄色十字标记不同高斯模糊水平的PSNR40不同扩张（侵蚀）水平的PSNR424038363432300 1 2 3 4 5水平38363432305432101234 5水平VDSLR VDSLRd3Ours Oursd3GTFigure 12.放大视差图后的渲染结果BLB数据集。“d 3“表示膨胀水平为3（核大小为7 × 7）。图片来源于Fig. 10个。图11. 在BLB数据集上进行评估，表2. EBB400数据集上的定量结果。城市地图在右图中，正水平对应于膨胀水平，而负水平对应于侵蚀水平。4.3. 零激发交叉数据集评估在[6，35，37]之后，我们使用PSNR和SSIM作为度量。我们在BLB数据集上测试BokehMe。如图所示在表1中，在所有模糊级别中，与其他现有技术的方法相比，此外，随着模糊程度的增加，经典的绘制方法变得更加耗时，而神经绘制方法保持了较高的效率。我们还在图中显示了一些视觉结果。10个。可以观察到：（i）当背景被重新聚焦时，经典方法的性能在深度不连续处降低;（ii）DeepLens在深度不连续处渲染出平滑的结果，但它们似乎与实际渲染不一致;（iii）与DeepFocus相比，DeepFocus †避免了处理大模糊尺寸时的损坏，但在焦点区域周围产生模糊结果。(iv)我们的方法为焦点内和焦点外的区域呈现最真实的散景效果。由于在现实中难以获得视差图，世界上，一个普遍的做法是估计一个。然而，预测视差图可能是模糊的，并且在边界处不与RGB图像对准因此，我们重新做了1）通过分别用5级高斯模糊、膨胀和腐蚀破坏视差图。我们还重新训练没有视差增强的BokehMe，以进行额外的比较。如图11，用增强训练的BokehMe更好地适应不完美的disparity地图。另一个有趣的观察是，适度膨胀提高了大多数方法的性能，特别是对于经典方法。原因可能是延伸超出前景对象的边界的膨胀像素充当被遮挡的背景像素，从而在背景重新聚焦的情况下导致度量的显著改进。然而，如图12，它同时引起更多的边界伪影。为了进一步评估给定不完美视差图作为输入的模型的泛化，我们在EBB400数据集上比较了不同的方法，其中视差图由DPT [26]预测。由于每个样本的模糊参数是未知的，我们从1到100中选出最佳值VDSLRRVRSteReFoDeepLensBokehMe（w/aug.）BokehMe（w/oaug.）PSNRPSNR方法VDSLRSteReFoRVR†DeepLensDeepFocus†我们PSNR23.7823.5623.5623.4623.8123.85SSIM0.87380.86740.86900.87070.87540.877016291[38]第十三届全国人大常委会第十三次会议通过的《关于进一步深化改革的决定》。IPB数据集上的用户研究示例粗糙的重聚焦平面在视差图上用黄色十字标记表3. IUNet的消融研究。“B-Up”：双线性上采样;“I-Up”：IUNet的迭代上采样;“裁剪”：带符号散焦图的裁剪;“S-D”：与由带符号的散焦图阈值化的掩模融合;“D-D”：与由扩张的散焦图阈值化的掩模融合。号B-UpB1级B2B3I-Up夹✓✓✓S-SD-SNR峰值信噪比SSIM37.30 0.98300.87190.9883B4铝合金0.9894B5最高价39.21 0.9896对于每种方法。尽管在宽DoF图像对和浅低DoF图像对之间存在颜色不一致和场景未对准的事实，但如表2所示，BokehMe在两个度量中仍然排名第一。定性结果参见补充材料。4.4. 消融研究IUNet支持任意比例的上采样，而不会损失质量。为了更好地理解如何获得这种突出的请注意，我们只评估神经渲染器。表3示出：（i）通过IUNet进行的不具有“削波”的上采样将由于超出范围的散焦值而破坏结果（B1对B2）。B2和B2与（ii）使用低分辨率输入散景图像来补偿剪切区域将PSNR提高0. 64dB（B3与B4）;（iii）：用扩张散焦图替换带符号散焦图进一步略微改进度量（B4对B5）。此外，我们在补充材料中表明，这种操作将提供一个更自然的边界过渡时，焦平面目标的背景。4.5. 用户研究由于PSNR和SSIM不能完全反映渲染散景图像的实际质量，因此我们对IPB数据集进行了用户研究。对于所有方法，模糊参数和重聚焦视差都是手动调整的，以匹配iPhone 12人像模式。本研究涉及53名参与者。从表4和Fig.13、我们可以看到，表4.用户研究结果。给定一个场景，要求参与者为每种匿名方法从“好”、“正常”和“坏”中选择一个选项方法iPhone 12VDSLRDeepLens我们的好（%）19.3 26.6 26.355.0正常（%）29.3 47.7 45.0 38.5不良（%）这种方法最受欢迎，具有清晰的焦点对象边界和用于前景模糊的自然散景效果。请注意，iPhone 12人像模式只能为焦点后面的物体产生散景5. 讨论和结论经典的渲染方法是灵活的，但遭受在深度不连续的伪影。神经渲染方法能够处理边界伪影，但缺乏可控制性，并且难以在焦点外区域生成令人惊叹的散景球为了利用两种范式的优势，我们提出了BokehMe，一个通用的框架，结合了经典的渲染器和神经渲染器。大量实验表明，BokehMe算法可以从全聚焦图像和潜在不完美的散焦图中产生照片级真实感和高度可控的散景效果，证明了经典渲染和神经渲染的强大互补性对于BokehMe，可以通过更改经典渲染器的内核形状来控制散它适用于大多数场景，但是，如果高光恰好位于错误贴图的边界，散景风格的不一致性可能会很明显。此外，给定场景中存在亮光的8位数字图像，伽马校正不足以在失焦区域中创建突出的散景球理想的方式是通过逆色调映射[7，15]将LDR图像变换为HDR图像[8]，这超出了本文的范围。虽然通过强制增强输入图像的RGB值可以实现类似的效果，但仍有改进的空间我们把这一点留在我们未来的工作中。鸣谢。这项工作由Adobe资助。16292引用[1] Guillaume Abadie、Steve McAuley、Evegenii Golubev、Stephen Hill和Lagarde。游戏中实时渲染的进展。在ACM SIGGRAPH 2018课程中，第1-1页。2018. 2[2] 画廊。https://cloud.blender.org/p/gallery6[3] 乔纳森·T·巴伦、安德鲁·亚当斯、石义昌和卡尔·洛斯·赫尔· 南德斯。最后的双边空间立体合成散焦。在Proc.IEEEConferenceonComputerVisionandPatternRecognition（CVPR），第4466-4474页，2015中。2[4] Marcelo Bertalmio，Pere Fort和Daniel Sanchez-Crespo。使用各向异性扩散和可编程图形卡实现实时、精确的景深。在Proc.InternationalSymposiumon3DDataProcessing，VisualizationandTransmission （ 3DPVT ），第 767-773页，2004中。2[5] 搅拌机https://www.blender.org网站。二、六[6] Benjamin Busam，Matthieu Hog，Steven McDonagh和Gregory Slabaugh。Terefo：利用立体视觉实现高效的图像重聚焦。在Proc. IEEE计算机视觉研讨会国际会议（ICCVW），第0-0页，2019年。一、二、六、七[7] Gaofeng Cao，Fei Zhou，Kanglin Liu，and Liu Bozhi.用于逆色调映射的亮度自适应核预测网络。神经计算，464：1-14，2021。8[8] Paul E Debevec和Jitendra Malik。从照片恢复高动态距离辐射图。在ACM SIG中-GRAPH 2008类，第1-10页。2008. 8[9] Saikat Dutta， Sourya Dipta Das ，Nisarg A Shah ，andAnil Kumar Tiwari.堆叠的深度多尺度分层网络，用于从单个图像快速渲染散景效果在Proc. IEEE计算机视觉和模式识别会议（CVPR），第2398-2407页，2021年。2[10] Thomas Hach，Johannes Steurer，Arvind Amruth，andAr- tur Pappenheim.真实场景的电影散景渲染。在Proc.EuropeanConferenceonVisualMediaProduction（CVMP），第1-10页，2015年。2[11] Andrey Ignatov，Jagruti Patel，and Radu Schlafte.使用深度学习渲染自然的相机散景效果。在Proc. IEEE计算机视觉和模式识别研讨会（CVPRW）会议上，第418-419页一、二、六[12] Andrey Ignatov ， Jagruti Patel ， Radu Padulfte ， BolunZheng，Xin Ye，Li Huang，Xiang Tian，Saikat Dutta，KuldeepPuro- hit，Praveen Kandula，et al. 2019年散景效果合成挑战：方法和结果。在proc IEEE计算机视觉研讨会国际会议（ICCVW），第3591-3598页。IEEE，2019。2[13] Andrey Ignatov ， Radu Jiufte ， Ming Qian ， CongyuQiao，Jiamin Lin，Zhenyu Guo，Chenghua Li，CongLeng，Jian Cheng，Juewen Peng，et al.目标2020挑战渲染现实散景。在Proc. European Conference on ComputerVision Workshops （ ECCVW ），第 213Springer ， 2020年。2[14] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。2014年，国际学习表征会议（ICLR）。6[15] 木下优马和木谷仁志。ITm-net：使用新的损失函数，考虑色调映射算子的深度逆色调映射。IEEE Access，7：73555-73563，2019。8[16] Sungarten Lee ， Elmar Pasteemann ， and Hans-PeterSeidel. 实时镜头模糊效果和焦点控制 . ACMTransactions on Graphics（TOG），29（4）：1-7，2010. 2[17] HaiTingLin ， SeonJooKim ， SabineSüsstrunk ，andMichaelSBrown.再论彩色计算机视觉的辐射定标在proc IEEE International Conference on Computer Vision（ICCV），第129-136页。IEEE，2011年。3[18] Sifei Liu，Jinshan Pan，and Ming-Hsuan Yang.通过混合神经网络学习用于低级视觉的递归滤波器。在Proc.European Conference on Computer Vision（ECCV）中，第560-576页。施普林格，2016年。2[19] Hao Lu，Yutong Dai，Chunhua Shen，and Songcen Xu.关键因素：学习索引深度图像抠图。在Proc. IEEE计算机视觉国际会议（ICCV），第3266-3275页，2019年。5[20] Xianrui Luo，Juewen Peng，Ke Xian，Zijin Wu，andZhiguo Cao.散焦估计的散景渲染。欧洲计算机视觉研讨会（EuropeanConferenceonComputerVisionWorkshops，EC-CVW），第245-261页。Springer，2020年。一、二[21] OliverNalbach ， ElenaArabadzhiyska ， DushyantMehta，H- P Seidel，and Tobias Ritschel.深阴影：卷积神经网络用于屏幕空间着色。 Computer Graph-icsForum，36（4）：65-78，2017. 2[22] Adam Paszke、Sam Gross、Soumith Chintala、GregoryChanan、Edward Yang、Zachary DeVito、Zeming Lin、Alban Desmaison、Luca Antiga和Adam Lerer。pytorch中的自动差分。在神经信息处理系统研讨会（NIPSW）的进展，2017年。6[23] 彭觉文，罗贤瑞，可贤，曹志国。交互式人像散景渲染系统。在Proc. IEEE图像处理国际会议（ICIP），第2923-2927页中。IEEE，2021。二、三、六[24] Photopea https://www.photopea.com网站。6[25] Ming Qian，Congyu Qiao，Jiamin Lin，Zhenyu Guo，Chenghua Li ， Cong Leng ， and Jian Cheng. Bggan ：Bokeh-用于渲染逼真散景的玻璃生成对抗网络。在Proc.European Conference on Computer Vision（ECCV）中，第229-244页。Springer，2020年。一、二[26] Rene 'Ranftl，Alexey Bochkovskiy，and Vladlen Koltun.用于密集预测的Vision Transformers。在Proc. IEEE国际计算机视觉会议（ICCV），第12179-12188页，2021年。一、六、七[27] Xiaoyong Shen，Aaron Hertzmann，Jiaya Jia，SylvainParis，Brian Price，Eli Shechtman，and Ian Sachs.用于图像风格化的自动特征分割Computer Graphics Forum，35（2）：93-102，2016. 2[28] Xiaoyong Shen，Xin Tao，Hongyun Gao，Chao Zhou，and Jiay

下载后可阅读完整内容，剩余1页未读，立即下载