物理训练图像的反射消除

136 浏览量更新于2023-10-23 收藏 2.37MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5164基于物理训练图像的单幅图像反射消除Soomin Kim Yuchi Huo Sung-Eui Yoon韩国科学技术高等研究院摘要最近，基于深度学习的单幅图像反射分离方法得到了广泛的应用。为了有益于学习方法，大量的训练图像对（即，有反射和没有反射）以各种方式合成，但是它们远离基于物理的方向。本文采用基于物理的绘制方法忠实地合成所需的训练图像，并提出了相应的网络结构和损失项。我们利用现有的RGBD/RGB图像来估计网格，然后通过路径跟踪对合成的训练数据进行物理模拟网格、玻璃和透镜之间的光传输，成功地再现了玻璃反射的空间变化的各向异性视觉效果真实反射我们的渲染PSNR：25.732，SSIM：0.856前台张合成PSNR：19.532，SSIM：0.786CEIL合成PSNR：16.154，SSIM：0.739文在寅综合PSNR：22.085，SSIM：0.827为了更好地指导分离，我们还考虑了一个模块，回溯网络（BT-net），用于回溯反射，消除复杂的重影，衰减，模糊和散焦的玻璃/镜头的影响。这使得能够在具有失真之前获得先验信息。所提出的方法考虑额外的先验信息与物理模拟的训练数据进行了验证与各种真实的反射图像，并显示出视觉上愉快的和数值的优势相比，国家的最先进的技术。1. 介绍透过玻璃或窗户拍摄照片时，可以看到透过玻璃透射的前方场景，但有时也会捕捉到后方场景的反射这些不可避免的反射和暗淡的透射在某些情况下可能是令人讨厌的，例如，从室内房间拍摄摩天大楼的照片的情况。作为因此，从输入图像中去除反射可以帮助我们生成更好的图像和各种计算机视觉技术来稳健地工作。从物理上讲，具有这些反射的图像I是玻璃反射的后场景R和玻璃透射的前场景T的总和，即I（x，y）=T（x，y）+R（x，y）。单个图像反射去除问题是不适定的，不使用额外的假设或先验。图1：现有的反射合成方法和我们基于物理的渲染方法之间的比较。真实的反射图像由玻璃后面的照相机捕获我们的方法可以产生空间变化的视觉效果，是最相似的真实世界的反射图像。例如，在传输场景中，近瓶子被模糊，远瓶子被聚焦。此外，适当地考虑了一些背景对象的反射水平。相比之下，先前的方法假设玻璃透射的前场景是完全清晰的，并且反射的后场景是空间上不变地模糊的，从而向数据集引入有偏差的信息。秒6.1有更多细节。先前的方法利用具有不同条件的反射的多个图像来获得一些先验[1，23，14，20]。特别是，运动提示先验被广泛用于从多个图像中分离反射[8，33，9]。尽管多图像反射分离方法显示出合理的结果，但是用户不容易捕获如现有方法中所建议的约束图像。对于单个图像反射去除，使用自然图像先验[16，17，18]或平滑先验[19，30用于制定目标函数。最近的方法开始利用深度神经网络来消除单个图像上的反射。虽然训练深度神经网络依赖于一个忠实的数据集，但大多数最新的方法都是通过前场景和后场景之间的加权加法来合成图像空间中的数据集[7，36，29，34，31]，这是由于物理上的困难5165反射和透射现象的理论模拟。最近，Wen et al. [32]提出了一种使用深度学习架构生成反射训练图像然而，这些图像空间方法忽略了反射的视觉效果根据可见点的3D位置在空间上变化的物理事实。图1显示了生成的反射图像与地面实况的视觉和数值对比（第2节）。6.1）。在本文中，我们提出了一种数据生成方法来合成物理上忠实的训练数据。该方法是基于建模和绘制技术，如深度估计，几何合成，和基于物理的渲染。我们利用这样的基于物理的训练图像，包括具有或不具有玻璃/透镜效果的透射和反射，即，衰减、散焦、模糊和重影效应与穿过玻璃/相机镜头有关4），用于训练我们的深度学习架构。特别地，我们训练了一个回溯网络（BT-net）来获取先验信息，以提高分离质量.概括而言，我们的贡献如下：• 提出了一种合成方法，用于物理渲染用于训练的忠实反射图像数据集。• 利用BT网将反射图像恢复到其畸变前的状态，作为分离问题的先验信息。2. 相关工作基于单个图像的方法与传统的先验。由于单图像方法与多图像方法相比缺乏信息广泛使用的先验之一是自然图像梯度稀疏先验[17，18]。这些方法使用最小梯度和局部特征来分解层。Levin等[16]提出了带有用户标记的梯度稀疏先验，另一个广泛使用的假设是，反射层更可能是模糊的，因为不同的距离相机[19，30]。除此之外，Arvanitopoulos et al.[2]提出了用拉普拉斯保真度项和l0-梯度稀疏项来抑制反射。Shih等人。[24]建议检查反射上的重影效应，并通过高斯混合模型（GMM）补丁先验对其进行建模。基于单幅图像的深度学习方法。最近的研究开始采用深度学习来解决反射消除问题。Fan等人。[7]提出了一种利用图像边缘的两步深度架构。Zhang等人[36]采用条件GAN [11]，并结合了感知损失、对抗损失和排除损失来分离反射。Wan等人[29]提出了并发的深基于学习的梯度推理和图像推理框架Yang等人[34]提出了一种级联深度网络，用于估计传输和反射。Wei等人。[31]建议使用未对齐的真实图像进行训练及其相应的损失项，Wen等人。[32]提出了一种学习体系结构，以产生具有相应移除网络的反射我们的方法也是基于学习的单图像反射去除，但有两个主要的区别。首先，我们渲染一个物理上忠实的数据集，再现镜头的焦点和玻璃效果逼真。这些空间变化的各向异性视觉效果根据图像空间上的深度和视角而变化，并且没有被先前的图像空间数据生成方法忠实地支持。其次，我们的方法不仅利用了图像被玻璃/透镜畸变后的信息（后验信息），而且利用了玻璃/透镜畸变前的信息（先验信息），以获得更好的分离结果。通过渲染合成训练数据集。蒙特卡罗（MC）渲染被广泛用于各种高质量图像合成的应用中其理论基础包括光传输的物理模拟和入射辐射的无偏积分[35]。为了模拟复杂几何细节的阴影效果，提出了位移映射来从深度图重建几何[6]。由于基于物理的渲染可以忠实地模拟光传输的物理过程，因此它已被证明是一种有前途的方法，可以为各种计算机视觉问题合成深度学习数据集[37，26，21]。在本文中，我们建议使用位移映射和路径跟踪合成一个物理上合理的数据集的反射消除问题。3. 概述在本节中，我们将概述我们的方法。我们的反射消除技术有两个主要组成部分。第一部分是用基于物理的渲染合成生成训练图像，第二部分是使用渲染的训练图像作为额外的先验信息进行网络训练。为了训练反射去除网络，需要大量的反射和无反射图像对。然而，要获得这种类型的许多图像对是相当麻烦的。大多数现有的基于深度学习的反射去除方法[7，36，29，34，31]通过混合两个普通图像来合成反射图像，一个作为反射，另一个作为透射，具有不同的系数，然后应用高斯模糊并按比例缩小反射的亮度。技术细节从一个到另一个有所不同，但它们在图像空间中合成反射图像最近，Wen et al.[32]建议5166前台传输背景反射（、）网站地图（、）（、）网站地图GT��预测的ed��GT系列预测的最大值输入GT��赛车预测的最大值先验损失（L）输出后验损失渲染图2：我们的方法结构概述。从一个给定的图像与反射（I），我们的SP-网络首先分离I到预测的前场景透射，T和具有玻璃效应的背景反射，R。用每个预测值计算后验损失（LPST和它的地面真相我们训练的回溯网络，BT-net，将预测R_d的玻璃效应和透镜效应恢复为R_d。由于R滤镜摆脱了复杂的玻璃/镜头效果，我们可以更好地捕捉各种图像信息，从而更清晰地进行预测的图像和它的真实情况。为了利用这些信息，我们使用一种新的损失，先验损失（Lprtruth（GT））。整个分离网络用Lpst和Lpr的损失组合来训练。），在R和其地面使用网络来生成反射训练图像对，但是它们仍然不考虑空间变化的视觉效果。我们发现，与在图像空间中合成反射图像相比为了获得物理上忠实的数据集，我们采用了一系列的建模和渲染技术，即，深度估计、几何合成和基于物理的渲染技术（路径跟踪[13]）。从现有的DIODE RGBD数据集[27]和PLACES365RGB数据集[38]中，我们随机选择一个图像作为前场景传输层（相机前面的一侧），另一个图像作为后场景反射层（相机后面的一侧）。以一个前场景和一个后场景作为场景设置，提取场景的深度三维模型，然后用路径跟踪渲染，合成一组有反射和无反射的图像进行训练;对于RGB数据集，我们应用深度估计[4]来提取场景的3D模型。图2显示了我们的网络训练算法的整体流水线该算法包含分离网络（SP-网），其在回溯网络（BT-网）的帮助下将输入图像分离成两层，回溯网络试图去除玻璃/透镜效应（例如，模糊、衰减和重影），以便更好地分离。如图3所示，我们可以渲染4-图像元组（I，T，R，R），并且使用这些图像元组，我们首先训练BT-网，使得R可以被回溯到R中，并且可以用于分离的附加先验信息。图3的表格总结了这些符号。然后，我们用渲染的4个元组和预先训练好的BT网络一起训练主SP网络.直观地，该算法利用分离的R的附加先验信息（没有玻璃/透镜效应）以及广泛使用的具有玻璃/透镜效应的后验信息具体而言，这些现有技术试图计算由玻璃效应扭曲的分离反射的误差。然而，复杂的玻璃效应可能阻碍预测图像与其GT之间的清晰匹配（例如，特征损失），从而导致低质量的损失生成。有趣的是，我们发现先验信息可以为分离问题提供额外的线索在我们的BT网络的帮助下，我们可以在物理上回溯物理过程，并消除图像上的玻璃/镜头效果4. 物理上忠实的数据集生成与经典的图像空间合成数据相比，我们的物理忠实的数据具有依赖于3D空间内光传输的物理模拟的各向异性空间变化。理论上，玻璃效应及其物理光透射效应比现有的高斯模糊要复杂得多，在现有技术中采用的假设[7，36，34]。对于连接可见点xk和相机视点的光路，5167（1）I（2）T（3）R(4)RRGB图像同步深度合成网格图3：在这个例子中，我们设置了一个场景，包括包含房子的前场景和包含室内装饰的后场景。假设我们用一个玻璃后面的摄像机看前面的场景。(1)I是具有反射的输入图像。(2) T是前场景传输。（3）R是具有透镜/玻璃效应的反射后场景（反射）图像，并且其通过物理模拟真实世界的衰减和玻璃效应来计算，即，玻璃内多次反弹（4）R是没有任何玻璃效果的背景（反射）图像x0（图3）通过k−1个点反弹，贡献计算为：我们的物理合成数据集不仅提高了网络性能，而且为理解和探索基于物理基础的反射消除问题提供了一个新的视角。L（x←x）=Le（xk，xk−1）V<$（xk−1，xk）0kkY−1prob（x0，x1，.xk）（一）4.1. 网格生成生成各种几何网格是第一i=1G（xi，xi+1）f（xi−1，xi，xi+1）V<$（xi−1，xi），块启用物理模拟。因为对数千个几何场景建模在经济上是不允许的，其中L e（xk，xk−1）是点xk，prob（x0，x1，.）的出射辐射率。 Xk）是对路径X0 ， X1 ，. xkfromagivensampler，V （xi−1，xi）是两点之间的通用可见性项，考虑到介质衰减因子，G（xi，xi+1）是两点之间的几何项，f（xi−1，xi，xi+1）是点xi从xi−1到xi+1的双向散射函数。这些术语的详细解释可以在[5]中找到简单地说，从可见点开始的光路在将其亮度贡献给图像之前被玻璃和透镜反射/折射多次，导致重影、模糊、散焦和衰减。我们把通过透镜或玻璃产生的视觉效果称为透镜/玻璃效果。透镜效应包括散焦和衰减。玻璃效果包括重影、模糊和衰减。当路径段位于xi和xi+1穿过玻璃/透镜，它将引入玻璃/透镜效应。为了消除这些影响，我们可以渲染一个没有玻璃或镜头的场景（图4）。所有这些视觉效果都是空间变化的，因为贡献函数（等式1）是在3D空间而不是2D图像空间中定义的。为了准备这样一个数据集，我们采用了一系列的建模和渲染技术。我们调整了现有的DIODE RGBD数据集[27]。为了扩展数据集的多样性，例如，为了添加有人类的场景，我们另外使用标记的RGB数据集进行场景识别[38]，并采用深度估计技术[4]来合成深度通道。我们从DIODE数据集中选择3000个图像对（总共6k），从PLACES数据集中选择2000个图像对（总共4k具体来说，我们从PLACES数据集中选择了34个场景由于深度估计方法只能预测单个图像中的归一化相对深度，因此我们手动缩放具有适当深度范围的场景的每个类别;例如，在一个实施例中，卧室场景的平均深度为4米。我们混合3000个扫描的RGBD图像对和2000个合成的RGBD对。最后，深度通道作为位移图被馈送到Blender [3]中，以从输入图像导出几何网格。图3的右上角中的图示出了示例。4.2. 渲染过程给定一幅RGB图像及其对应的网格几何形状，我们将图像的RGB通道附加到几何表面上，以模拟物理光传输5168(a)（b）（c）（d）（e）（f）（g）图4：图像w/和w/o镜头和玻璃效果。(a)是一个前场景w/o镜头和玻璃效果;从而使整个图像清晰锐利。(b)是前场景w/镜头效果，但w/o玻璃效果，其中角落模糊，因为它们在焦点范围之外;聚焦点被设置在前场景的中心，因此其效果是微妙的。(c)是前场景w/镜头和玻璃效果，其中颜色衰减并且图像由于玻璃而更加模糊（d）是一个没有镜头和玻璃效果的背景场景，所以它是干净的。（e）是具有镜头效果但不具有玻璃效果的背景，其中整个图像是模糊的。（f）是具有透镜和玻璃效果的前场景，其中玻璃进一步引入衰减、模糊和重影效果。(g)是（c）和（f）的和。[12]路的轨迹。对于每个场景设置，我们从图像数据集中随机选择两个图像，一个用于前场景，另一个用于后场景，并在中间渲染整个场景。我们研究和分解光传输的物理过程，并通过为每个场景渲染多达四个不同的图像来获取后验和先验信息Figure 3 shows the illustrations of these four different im-ages for a scene.这四个不同的渲染图像包括：• I：包含透射加反射的输入图像，其中前场景和后场景都用玻璃效果和镜头效果渲染。• 没有任何玻璃效果的前场景图像。我们用一个虚拟的玻璃来模拟它，而不是真正的玻璃，它像真正的玻璃一样扭曲光路，但实际上，不会引起任何重影、模糊和衰减效应。• 反光镜：由具有玻璃和透镜效果的玻璃反射的背景图像• R：没有任何玻璃效果和镜头效果的背景反射图像我们也用虚拟玻璃来模拟它，以计算反射方向。请注意，实际上不可能用真实的相机捕捉到精确的T和R，因为拿走真实世界的玻璃肯定会使图像点移动，从而不再与I对齐。所有图像都使用低差异采样器[12]进行渲染，每个像素256个采样，这足够大以抑制可见噪音。玻璃厚度为10毫米，普通折射率为1。6，放置在摄像机前30厘米处。我们使用55毫米薄透镜模型，聚焦半径为0。00893。为了模拟真实的应用场景，我们将焦点设置为到前面场景的中心。总的来说，我们的合成-人工生成的数据集具有用于训练的5000个图像元组和用于测试的200个图像元组。5. 建议的网络架构我们的模型由两个子网络组成。如图2所示，有一个用于背景反射的回溯网络（BT-net）和一个主分离网络（SP- net）。最初，输入图像I被分离成Ti，用SP-网对R_p（具有gla s-效应）进行训练，然后将R_p（具有glas-效应）用于消除玻璃/透镜效应，例如畸变、重影、衰减和散焦。BT-网络的输出是R，其被认为没有玻璃/透镜效应，并且用于为SP-网络提供额外的误差计算（先验损失）。我们的每一个网-工作输入与从VGG-19网络[25]中提取的超列特征[10]连接，作为增强输入，以更好地利用语义信息[36]。5.1. 损失函数每个子网络有三个损失项：L1-损失、特征损失和对抗损失。l1-loss用于通过l1=X-X来惩罚预测值X及其GTX中的逐像素差异，以用于结果的低级信息补偿我们的特征损失和对抗性损失基于[36]。特征损失L ft（等式2)用于考虑语义信息，基于预训练的VGG-19网络Φ的激活差异，该网络是用ImageNet数据集训练的[22]。为了获得现实主义的图像，也采用了对抗性损失，如许多其他最近的研究[36，34，15，39]。一个有条件的GAN [11]用于此。为了解释，假设我们的一个子网络的生成元是f，它的输入是X，它的GT是Y。特征损失Lft计算如下：ΣLft（f（X），Y）=γ<$Φl（Y）−Φl（f（X））<$，（2）L其中Φ1指示具有与[36]相同的层选择的VGG-19网络的第1516911∗∗+Ll˜ ˜ ˜ ˜1“conv2 2”、“conv3 2”、“conv4 2”和“conv5 2”。γ是加权参数，根据经验将其设置为0。二、对于对抗性的损失，一个子的最大损失，网络通过以下方式进行训练：是用于考虑全局信息的全卷积网络。对于训练，我们首先用渲染的图像对独立地训练BT-网络，然后将预先训练好的BT-网络连接到SP-网络进行SP-网络训练（BT-网络在这个阶段被微调）。SP-网络的训练是通过最小化ΣX，Y∈DlogD（X，f（X））−logD（X，Y），（三）前面提到的GT和它们的预测之间的损失项，学习率为10- 4。渲染的训练图像具有256× 256的分辨率。其中，矩阵试图区分Y的GT补丁和以输入X为条件的f（X）给出的补丁。对抗性损失的定义如下：Σ6. 真实和合成数据实验我们将我们的方法与最先进的基于深度学习的反射去除方法CEILNet [7]进行了比较，Ladv（X，f（X））=X∈D-log D（X，f（X））。（四）Zhang等人[36]，BDN [34]，Wen et al.[32]在不同的测试集上对给定的单个图像进行测试。对于真实世界图像的定量评估，我们SP-net的损失。SP-网的目的是从输入I中分离出T和R.我们计算的训练SP-网在其输出（T，R）上的第一个损失是后验损失（Lpst）具有透镜/玻璃效果。它是l1-损失，预测值和地面实况之间的特征损失和对抗性损失。在使用BT-网去除了R的玻璃/透镜效应（因此它变成了R）之后，我们还称之为-计算第二个损失项，称为先验损失（Lpr），在预测R和地面真实R之间没有玻璃/透镜效应。Lpst=Ll（T，T）+Lft（T，T）+Ladv（I，T）1（R，R）+Lft（R，R），（5a）Lpr=Ll（R，R）+Lft（R，R）.（5b）结合上述损失条款，我们的全部损失SP-净是LSP=Lpst+Lpr。BT-net的损失。BT-net的目标是从R中去除玻璃/透镜效应，以便它可以从变暗和模糊中恢复为了训练网络，我们将l1损失、特征损失和对抗损失的组合损失函数公式化如下：LBT=Ll（R，R）+Lft（R，R）+Ladv（R，R）.（六）带玻璃带镜子前景后景图5：实验设置和拍摄的图像。实施. 我们的两个子网中的每一个都基于[36]中提出的子网共享相同的结构，并且它们5170利用众所周知的反射消除基准，SIRWild数据集[28]。它由三个图像（I，T，R）在各种捕获设置从受控的室内场景到野外场景。由于室内数据集旨在探索各种参数的影响，因此我们在野外场景中测试了我们的结果。此外，我们还额外捕获了100个真实反射对图像用于测试（表示为real100）。此外，我们生成200个渲染图像进行测试。6.1. 数据集评价为了验证我们的渲染数据集及其与相机捕获的真实世界反射的相似性，我们使用图5的设备捕获真实图像对。我们首先用玻璃捕获GTI（以便它包含反射），然后使用镜子捕获GTR，并移除玻璃以捕获GTT作为数据合成的输入。为了匹配常见的RGB和RGBD数据集，使用F22捕获GTT和R以最小化散焦效应。此外，我们在玻璃上的滑块两侧使用Kinect捕获和校准深度图。使用捕获的GTT和R，我们用三种不同的方法生成反射图像[7，36，32]，并将它们与我们的渲染图像进行比较。图1示出了生成的反射的示例如图所示，通过深度信息和基于物理的渲染模型，我们可以生成与真实图像非常相似的镜头和玻璃效果。表1示出了生成的反射图像的数值比较，并且我们使用平均PSNR和SSIM用于方法PSNRSSIMCEIL [7]14.4660.737张[36]20.3790.842温[32]20.2660.856我们29.3070.943表1：合成反射与10个真实相机捕获的反射图像的平均相似性5171输入端CEILNet17 Zhang 18 BDN 18文十九我们地面实况图6：在野生数据集（WID 1-3）和我们的真实100测试集（WID 4-6）上的反射去除结果的示例。数据集指数方法输入CEILNet[七]《中国日报》CEILNetFWCEILNetFR张[36个]张FW张FRBDN[34个]温[32个]我们[28]第二十八话PSNR25.8920.8919.2322.5121.1521.3423.1822.0221.2625.55SSIM0.9030.8260.8190.8800.8510.8650.8900.8350.8350.905真正的100PSNR21.5319.2417.8220.3518.6618.8820.4419.4619.0721.59SSIM0.7970.7330.7060.7640.7500.7530.7730.7530.7280.789渲染测试集PSNR23.2719.3120.2323.4622.2121.8324.4321.6621.7927.90SSIM0.8460.7450.7770.8290.8290.8280.8540.8190.8040.894表2：不同方法对SIR wild、我们的真实100和渲染测试集的定量结果。SIR数据集的一些结果图像可以在图6中找到。CEILNet、Zhang和BDN是预先训练的网络。CEILNet-FR和Zhang-FR使用我们的渲染训练图像进行了微调，CEILNet-FW和Zhang-FW使用与我们相同的源图像使用Wen的数据生成方法进行了微调红色数字是最好的，蓝色数字是第二好的结果。测量相似性。我们拍摄了两个不同场景的5个焦点，共10个真实反射图像进行比较。请注意，10个真实反射图像与我们捕获的真实100个测试集不同，因为真实100个测试集没有深度。为了公平比较，我们使用CEIL [7]方法和Zhang等人随机合成100张图像。[36]对每10个场景进行PSNR和SSIM合成，并为每个场景选择最佳的PSNR和SSIM合成图像。对于温[32]方法，由于他们的方法利用了前，经过训练的反射合成网络产生3种类型的反射，我们为每个场景生成3种不同的图像。其中，我们选择了最好的PSNR和SSIM合成结果的每一个场景。其平均值的报告列于表1中。6.2. 消融研究为了验证先验损失的有效性，我们评估了每个模型（w/和w/o先验5172数据集指数模型无先验损失有先验损失（我们的）[28]第二十八话PSNR24.3125.54SSIM0.8740.905真正的100PSNR20.8621.58SSIM0.7720.789渲染测试集PSNR27.3427.90SSIM0.8890.894表3：消融模型损失）在SIR野生、真实100个图像和200个渲染图像上。每个模型都是用一个指定的损失组合从头开始训练的。由于我们遵循了张等人的其他损失项。[36]，我们仅对新的先验损失进行消融研究。数值结果表明，使用额外的先验损失可以提高分离质量的真实和渲染测试集。由于BT-net回溯了dark en和扭曲的预测R到R，以计算一个pri.在这种情况下，这种损失可以提供分离的更鲁棒的信号质量。此外，图7显示了我们的完整模型和消融模型在渲染测试集上的一些可视化结果。由于B-T-net可以将预测的R_（？）然而，我们的完整模型可以更好地计算出分离时的反射和透射区域。需要额外的alpha混合掩码来训练他们的分离网络，我们不能微调它们。图6显示了SIR wild测试集和我们的real 100测试集上反射移除结果的一些可视化示例。所有比较的方法在去除强区域反射（第3行）方面都不能很好地工作，但是我们的方法仍然去除了一些反射，而没有显著损坏透射区域。在最后一行中，我们和BDN [34]可以去除底部的横幅反射，而其他方法不能去除，但会使整体强度变暗。表2显示了真实世界测试集（SIR wild和real 100）和我们的渲染测试集的定量结果。我们使用SSIM和PSNR作为误差度量，这被广泛用于先前的反射去除方法。我们的方法在所有的数据集上都取得了最好或次好的数值结果。我们还验证了我们的数据集可以通过提供更多基于物理的反射训练图像来改进以前的方法（预训练网络）（表2）。然而，对于两个真实反射测试集，现有的方法，无论他们是如何训练的经典synthes-sized数据集或我们的渲染数据集，在这两个错误度量优于未分离的输入。这表明仍有进一步改进的余地。7. 结论我们提出了一种新的基于学习的单幅图像反射消除方法，该方法利用基于物理绘制生成的反射训练图像训练图像由不同类型组成，包括透射和反射w/和w/o玻璃/透镜效果，并提供输入数据库Ground-truth��基本事实（Ground-truth）��经典的后验信息和新颖的先验信息。在此基础上，提出了SP-网络将输入信号分为两层，并利用BT-网络消除了两层中的玻璃透镜效应，进行误差计算Ground-truth地面实况��（w/ apriori）��（w/apriori）��（w/ apriori）（先验损失）。利用先验损失，改进了分离损失的计算方法.同时，我们证实了我们的身体-图7：我们的com的呈现结果之间的比较-全模型和消融模型。6.3. 基准比较为了比较，我们使用作者提供的预训练网络权重。此外，我们还使用我们的渲染数据集和Wen的反射合成网络生成的数据集对作者的预训练网络进行了微调。两个生成的数据集共享相同的源图像对，我们使用Wen这两个微调的网络都是用相同的时期和学习率进行调整的。我们用我们的渲染数据微调的模型命名为后缀由于BDN不提供训练代码，而温基于学习的训练数据可以改进现有的基于学习的反射去除方法以及各种真实反射测试图像。限制. 在本文中，我们没有考虑不垂直于玻璃的视点。这是未来研究的一个可能扩展。此外，我们没有考虑曲面玻璃或具有特殊形状的玻璃，而我们的渲染方法可以通过在未来将平面玻璃模型替换为曲面玻璃模型来适应这些情况致谢我们要感谢匿名评论者的建设性意见。Sung-EuiYoon和Yuchi Huo是该论文的共同通讯作者。这项工作得到了MSIT/NRF（No. 2019 R1 A2 C3002833）和SWStarlab程序（IITP-2015-0-00199）5173引用[1] Amit Agrawal ， Ramesh Raskar ， Shree K Nayar ， andYuanzhen Li.使用梯度投影和闪光曝光采样消除摄影伪影在ACM Transactions on Graphics（TOG），第24卷，第828ACM，2005年。[2] Nikolaos Arvanitopoulos、Radhakrishna Achanta和SabineSusstrunk。单图像反射抑制。在IEEE计算机视觉和模式识别会议论文集，第4498-4506页[3] Blender在线社区。Blender -3D建模和渲染软件包。Blender Foundation，Blender Institute，阿姆斯特丹，2019年。[4] 陈伟峰，赵甫，杨大伟，邓佳。在野外的单一图像深度感知。神经信息处理系统的进展，第730-738页，2016年[15] Chri s tianLedig ， LucasTheis ， FerencHusz a'r ， Jo seCaballero ， Andrew Cunningham ， Alejandro Acosta ，Andrew Aitken，Alykhan Tejani，Johannes Totz，ZehanWang，et al.使用生成式对抗网络的照片级真实感单幅图像超分辨率。在IEEE计算机视觉和模式识别会议论文集，第4681-4690页[16] Anat Levin和Yair Weiss。使用稀疏先验从单个图像中分离反射的用户辅助。 IEEE Transactions on PatternAnalysis and Machine Intelligence，29（9）：1647[17] Anat Levin，Assaf Zomet和Yair Weiss。学习从自然场景的统计数据中感知透明度。神经信息处理系统的进展，第1271-1278页，2003年[18] Anat Levin，Assaf Zomet和Yair Weiss。使用局部特征从单个图像中分离反射在Pro-[5] 卡斯滕·达克斯巴赫，雅罗斯勒·K·R· V·A'nek，米洛·S·已经有了，2004年IEEE计算机协会会议闭幕亚当·阿布里，布鲁斯·沃尔特，还有扬·诺沃克。可缩放的真实感渲染与多光的方法。计算机图形学论坛，第33卷，第88Wiley Online Library，2014.[6] 威廉·唐纳利每像素位移映射与距离函数。GPU gems，2（22）：3，2005.[7] Qingnan Fan ， Jiaolong Yang ， Gang Hua ， BaoquanChen，and David Wipf.一个通用的深层架构，用于消除单个图像反射和图像平滑。在IEEE计算机视觉国际会议论文集，第3238-3247页[8] 盖坤、石振伟、张长水。利用图像统计的叠加运动图像的盲 IEEE transactions on pattern analysis and machineintelligence，34（1）：19[9] 韩秉柱和沈在英使用低秩矩阵完成消除反射在IEEE计算机视觉和模式识别会议论文集，第5438-5446页[10] Bhara thHariharan，PabloArbela' ez，RossGirshick，andJi-tendra Malik.用于对象分割和细粒度定位的超列。在Proceedings of the IEEE conference on computer visionand pattern recognition，pages 447[11] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei AEfros.使用条件对抗网络的图像到图像翻译。在IEEE计算机视觉和模式识别会议论文集，第1125-1134页，2017年。[12] 温泽尔·雅各布Mitsubarenderer，2010.http://www.mitsuba- renderer.org.[13] 詹姆斯·T·卡吉亚渲染方程。在ACM SIG-GRAPH计算机图形学中，第20卷，第143-150页。ACM，1986年。[14] Naejin Kong，Yu-Wing Tai，and Joseph S Shin.基于物理的反射分离方法：从物理建模到约束优化。 IEEEtransactionsonpatternanalysisandmachineintelligence，36（2）：209-221，2014。计算机视觉和模式识别，2004年。CVPR2004. ，第1卷，第I-I页。IEEE，2004年。[19] 作者声明：by Michael S.使用相对平滑度的单个图像层分离。在 Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition，第2752-2759页[20] Abhijith Punnappurath和Michael S Brown。使用双像素传感器消除反射。在IEEE计算机视觉和模式识别会议论文集，第1556-1565页[21] Artem Rozantsev，Vincent Lepetit和Pascal Fua。关于渲染合成图像训练目标检测器。计算机视觉和图像理解，137：24[22] OlgaRussakovsky ， Jia Deng ， Hao Su ， JonathanKrause ， San- jeev Satheesh ， Sean Ma ， ZhihengHuang ， Andrej Karpathy ， Aditya Khosla ， MichaelBernstein ， et al. 图像网大规模视觉识别挑战。International Journal of Computer Vision，115（3）：211[23] Yoav Y Schechner，Nahum Kiryati，and Ronen Basri.使用焦点分离透明层。国际计算机视觉杂志，39（1）：25[24] YiChang Shih ， Dilip Krishnan ， Fredo Durand ， andWilliam T Freeman.使用重影提示消除反射。在IEEE计算机视觉和模式识别会议的Proceedings，第3193-3201页[25] Karen Simonyan和Andrew Zisserman用于大规模图像识别的非常深的卷积网络2015年，国际会议。[26] 作者： Hao Su ， Charles R.Qi ， Yangyan Li ， andLeonidas J.Guibas为cnn渲染：使用用渲染的3d模型视图训练的cnn的图像中的视点估计。在IEEE国际计算机视觉会议（ICCV）上，2015年12月。[27] Igor Vasiljevic ，Nick Kolkin ，Shanyi Zhang ，RuotianLuo，Haochen Wang，Falcon Z. Dai，Andrea F.放大图片创作者：John W.沃尔特和格雷戈里·沙赫纳洛维奇DIODE：一个密集的室内和室外深度数据集. CoRR，abs/1908.00463，2019。[28] Renjie Wan ， Boxin Shi ， Ling-Yu Duan ， Ah-HweeTan，and Alex C Kot.对标单图像反射消除5174算法。在IEEE计算机视觉国际会议论文集，第3922-3930页[29] Renjie Wan ， Boxin Shi ， Ling-Yu Duan ， Ah-HweeTan，and Alex C Kot.多尺度引导并发反射消除网络。在IEEE计算机视觉和模式识别会议论文集，第4777-4785页[30] Renjie Wan，Boxin Shi，Tan Ah Hwee，and Alex C Kot.景深引导的反射去除。在2016年IEEE图像处理国际会议（ICIP）上，第21-25页。IEEE，2016.[31] Kaixuan Wei，Jiaolong Yang，Ying Fu，David Wipf，and Hua Huang.利用未对齐的训练数据和网络增强来去除单个图像反射在IEEE计算机视觉和模式识别会议上，第8178-8187页，2019年[32] Qiang Wen ， Yinjie Tan ， Jing Qin ， Wenxi Liu ，Guoqiang Han，and Shengfeng He.单图像反射消除超出线性。在IEEE计算机视觉和模式识别会议论文集，第3771- 3779页[33] Tianfan Xue，Michael Rubinstein，Ce Liu，and WilliamT Freeman.无障碍摄影的计算方法。ACM Transactionson Graphics（TOG），34（4）：79，2015.[34] 杨洁，龚东，刘灵桥，石勤峰。深入和双向地看：一种用于消除单个图像反射的深度学习方法在欧洲计算机视觉会议（E

下载后可阅读完整内容，剩余1页未读，立即下载