反射消除方法基于多阶段深度学习的研究

36 浏览量更新于2023-10-15 收藏 1.25MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

239利用反射运动聚集线索消除突发反射B H Pawan Prasad1，Green Rosh K S1，Lokesh R B1，Kaushik Mitra21Samsung R D Institute班加罗尔，印度2IIT Madras，钦奈，印度pawan.prasad，greenrosh.ks，lokesh. samsung.com，kmitra@ee.iitm.ac.in摘要单图像反射消除已经吸引了很多的兴趣，在最近的过去与数据驱动的方法演示显着的改进。然而，用于多图像反射去除的基于深度学习的方法仍然相对较少探索。现有的多图像方法需要在具有宽基线的足够不同的视点处捕获输入图像。这使得需要通过在多个方向上移动相机来捕获场景的用户很麻烦。更方便的方式是在短时间内捕获图像的突发，而不向用户提供任何特定的指令在手持设备上捕获的一系列图像提供了关键线索，这些线索依赖于捕获过程中产生的微妙握手在本文中，我们提出了一个（f）（g）（h）基于多阶段深度学习的方法来去除突发反射。在第一阶段，我们对单个图像执行反射抑制。在第二阶段中，提取新的反射运动聚合（RMA）线索在我们的最后阶段，我们使用这个RMA提示作为指导，以消除输入中的反射我们提供了第一个真实世界的突发图像数据集以及用于反射去除的地面实况，可以实现未来的基准测试。我们进行了定性和定量评估，以证明建议的方法。我们的方法在PSNR上比基于单个图像的方法实现了1.2dB的改进，比基于多图像的方法低1dB。1. 介绍许多现代相机，特别是存在于智能电话中的那些相机，在不同照明条件下实现良好图像质量方面已经显示出显著的进步。随着数据驱动方法的出现，低水平计算成像任务，如图像去噪[7]，高动态范围（HDR）成像[10] [12]，在最近的过去已经显示出巨大的然而，高水平的计算成像任务，如图像输入-图1.所提出方法的说明。（a）典型的多图像捕获过程（大基线）。（b）我们建议的用于消除反射的突发捕获过程对用户非常方便。（c，f）包含透射和反射层的典型图像。（d，g）反射运动聚合（RMA）提示，其中反射层被去强调。（e，h）使用RMA提示的覆盖的绘画，消除障碍物，反射，阴影等，在实现可接受的图像质量方面仍然提出了重大的挑战。最近，基于深度学习的方法在反射消除方面取得了巨大的进步[30][35] [34] [14] [22]，与传统的基于计算昂贵的优化方法[25] [16] [17]相比，使其成为部署在消费产品（如智能手机）上的可行选择。被反射破坏的图像I∈Rmxn可以被建模为两层的组合：期望的透射层 B∈Rmxn 和不期望的反射层R∈Rmxn[25]。去除反射涉及重新覆盖被重新覆盖损坏的透明透射层B[17]这是一个很大的错误。传统的基于优化的方法通常会做出很强的先验假设[13] [25]，以减少突发（一）（b）第（1）款（c）第（1）款（d）其他事项（e）视图6视图1View 5视图2视图3View 4传输反射反射层去加重回收传输层240问题.其他一些方法施加了额外的手工约束，例如梯度平滑度[33]，重影提示[25]，稀疏先验[26]，相对平滑度[17]。最近，数据驱动方法采用基于学习的方法，自动捕获恢复清晰传输层所需的必要先验。反射去除算法可以根据所使用的输入类型进一步分类，即基于单个虽然基于单个图像的深度学习方法已经取得了稳步进展[5]，[35]，[31]，[34]，[30]，[14]，[22]，但基于多个图像的深度学习方法仍然相对较少探索。虽然使用单个输入图像分离反射层和透射层是严重不适定的，但是多图像输入减少了不适定性质。最近的方法，如[32] [18]使用在不同视点捕获的多个图像来消除反射。[32]中的方法使用传统的基于优化的方法，而最近的[18]部署了学习和在线优化的混合方法来估计光流场，然后进行层重建。这种方法迭代优化密集运动估计和层重建，在一个粗略的精细的方式。这两种方法都需要用不同的视点捕获一组图像，以确保图像之间的大基线虽然这样的方法提供了用于反射去除的强有力的线索，但是它具有以下缺点。这些方法对于通常期望通过单击单个按钮来即时捕获图像的最终用户（参见图1（a））来说是非常不方便的。通常，这种方法的性能取决于用户遵循捕获指令的程度。因此，需要设计一种方法，该方法结合了基于单个图像的方法的便利性以及基于多个图像的方法的优异的反射突发捕获方法为我们提供了这种能力。在本文中，我们提出了一种多级猝发反射消除，包括三个阶段：（a）预处理，（b）线索提取和（c）引导反射去除阶段。第一阶段单独抑制连拍图像中的反射接下来，我们显式地从突发输入中生成一个区分线索，该线索稍后用于指导反射去除。我们建议提取一个线索的基础上的观察，在突发捕获期间的传输和反射层之间的相对运动的差异，可以利用层分离。我们称之为反射运动聚合（RMA），这是不平凡的提取线索，需要仔细的设计考虑。所提出的反射运动聚合提示的图示表示如图1所示。属于反射层的运动被识别和聚集，使得反射层和透射层之间的相对平滑度更可辨别。反射-如图1（g）所示，与传输层相比，传输层被去强调。概括起来，主要贡献如下：（a）用于突发反射去除的基于多阶段深度学习的方法，该方法首先对各个图像执行反射抑制，然后提取用于引导反射去除的（b）所提出的反射运动聚集比反射层更强调透射层，以进一步区分这两个层，这可以有助于更好的层分离。（c）我们提供了一个大规模的真实世界突发图像数据集，其中包含使用智能手机摄像头在不同室内和室外环境中捕获的用于反射去除的地面实况，以供未来基准测试。（d）我们进行了广泛的定性和定量评价以及消融研究，以验证所提出的方法优于现有的最先进方法。2. 相关工作反射去除可以分为（a）单图像（b）多图像方法[28]。单个图像反射去除：过去的几种方法使用传统的优化，这些优化依赖于先验，例如依赖于边缘[13]，角[2]，层平滑度[33]，不同的概率分布来模拟透射和反射层[17]。在[25]中使用了基于高斯混合模型贴片的先验，其图像形成模型包括反射及其空间位移。最近，单图像深度学习方法取得了很大的进展。在[5]中提出了一种端到端的单图像深度学习架构。在[35]中引入了永久损失的使用，在[29]中提出了多尺度引导并发神经网络在[31]中，使用非线性混合模型对现实主义反射进行建模[34]中提出了一种双向方法，其中使用估计的反射层来细化透射层。在[30]中引入了对齐不变损失函数，该函数放松了地面实况和输入对之间完美对齐的约束。最近的一种方法[36]提出了一种教师-学生网络，其中教师网络从多个视图图像中学习反射动态，并且学生网络被教导在推理期间从单个图像中去除反射。多图像反射移除：传统的优化-基于行动的方法使用区分线索之间的在多个图像中存在两个层在[16]中使用了边缘分离线索，在[6] [8]中利用了运动差异，在[16]中提出了使用SIFT流的密集运动场。[27]并且在[32]中使用了运动提示和梯度稀疏先验的组合。[32]中提出了一种消除玻璃或围栏造成的一般障碍物的方法。最近，Alayrac et.al. [1]建议重新-241前处理预处理上采样-Conv-batchnorm-relu输入突发突发Conv-batchnorm-relu（步幅2）+残差卷积块（RCB）Conv-batchnorm-relu（步幅1）C级联图2.建议的突发反射消除管道概述。还示出了子网络的网络架构，其中第二级和第三级使用类似的架构。使用多输入框架来减少问题的不适定性。具体来说，他们提出了一种名为visual centrifuge的深度神经网络，它可以分离被障碍物破坏的输入视频序列的不同层然而，这种方法被提出作为一个通用的层分离问题，并且无法消除Liu et.al [18]所观察到的反射，Liu提出了一种混合方法，将优化与深度学习先验相结合。一种较新的方法[15]使用深度模糊度进行边缘再生以重新覆盖传输层，而[21]使用立体图像来演示合成生成的反射上的层分离。这些方法中的大多数依赖于通过用预定义的相机运动扫描场景而在充分不同的视点处捕获的图像，这使得其对于终端用户极其最近在[20]中提出了使用突发图像的通用层分离，但是对反射去除的应用相对较少3. 猝发反射消除在本节中，描述了所提出的多阶段方法，其中我们在第3.1节中提供了关于网络架构的细节，并在第3.2节中提供了用于训练网络的不同阶段的损失函数，3.1. 网络架构所提出的方法的概述示于图1中。2. 我们设计的网络架构，利用反射和传输层之间的相对运动差异引起的突发捕获，以提高层分离的效率。我们建议生成一个运动聚合提示，以帮助反射去除给定的图像突发。所提出的方法包括3个阶段来生成最终的输出图像。在第一阶段中，对每个输入图像进行预处理以抑制反射量。这些图像被传递到反射聚集阶段，该阶段聚集仅在反射层中引起的运动，生成反射运动聚集（RMA）提示图像。然后，RMA图像与参考输入图像（我们使用突发的中间帧作为参考）一起被传递到引导反射去除阶段，该引导反射去除阶段学习使用该图像来去除反射。球杆.以下小节将详细解释每个阶段。3.1.1单图像反射抑制（SIRS）对输入图像进行预处理以抑制存在的反射量。该初始阶段有助于在随后的反射聚合阶段中的基于全息图的图像对准。我们使用[22]中提出的轻量级网络架构的修改版本。我们使用上采样操作，然后在解码器块中进行卷积，而不是使用反卷积，以避免棋盘伪影。我们还在每次卷积操作后提供批量归一化和ReLU激活3.1.2反射运动聚合-RMA首先使用基于单应性的图像对准来对准反射抑制图像，其中我们使用ORB特征[24]和RANSAC [23]来将非参考图像扭曲到参考图像。反射抑制有助于减少基于单应性的传输对准的离群值的数量。然后将对齐的图像传递到反射聚合阶段。此阶段的目标是将反射层在连拍持续时间内遇到的运动聚合到反射运动聚合（RMA）图像中。被反射抑制级遗漏的反射被累积以形成反射聚合。由于反射层和透射层在突发过程中遵循不同的轨迹，因此可以单独在反射层中聚合运动与原始输入相比，所得到的RMA图像将在透射层和聚合反射层之间具有更高的相对平滑度差异这导致两个层之间的分布的更好分离，这可以作为在后期更好地去除反射的提示为了处理传输对齐不完美的场景，我们部署了一个可以处理未对齐的训练策略。第5节提供了该培训策略的更多详细信息来自SIRS级的n个输出被扭曲，使得它们的传输层与参考层的传输层对准。C跳过变速器对准参考输入图像输出C跳过RMA提示引导反射去除反射运动聚合跳过反射抑制传输对齐突发242存在图像。传输对齐图像通过单独的编码器，编码器包括步幅2的三个卷积块，后面是4个残差双卷积块（RCB），如图2所示。然后，编码器的输出被连接并通过8个RCB的序列。然后，所得到的特征图通过由另外4个RCB和三个上采样层组成的解码器块，以生成RMA提示图像。每个上采样层执行双线性上采样，然后进行卷积。然后，我们提供所有编码器到解码器之间的跳过连接。我们还在每个卷积块中使用批量归一化和ReLU激活3.1.3引导反射去除在该最后阶段中，从第二阶段获得的RMA图像被用作从反射抑制参考图像去除反射的指导。RMA图像使用运动聚合清楚地区分透射层和反射层。我们提出了一个深度网络，使用RMA图像作为从参考图像中去除反射的线索。我们遵循一个类似的体系结构为这个阶段所使用的军事革命阶段。我们只使用2个编码器模块分别从RMA提示图像和输入图像中提取特征。3.2. 损失函数我们使用上下文损失和像素损失的组合我们在RMA阶段的输入中引入小的未对准，以考虑在现实生活场景中可能发生的传输层对准错误。上下文损失分析上下文信息之间的相似性，并有助于提高收敛性[30]。第三阶段使用RMA图像作为指导，以及预期也具有小的未对准的输入，因此我们也将上下文损失用于该阶段。关于这些损失函数的更多细节可以在[30] [19]中找到。我们观察到，单独使用上下文丢失会导致细节和纹理的丢失因此，像素级损失与上下文损失一起被添加Lp=α。I o−I t<$I o−I t<$2+γ。ǁ∆I o−∆I t|1 .一、这里灰度表示图像梯度。在我们的实验中，α = 0。二、β= 0。2，γ= 0。四是使用。用于训练网络的总损失被定义为L=Lp+δLcx，其中δ是加权参数，Lcx是上下文损失。在我们的实验中，δ= 0。8已使用4. 数据集我们使用三种类型的数据集进行训练和评估：（a）合成突发反射数据集，（b）真实世界突发反射数据集（我们的）和（c）大基线数据集（公开可用）。玻璃钢（一）玻璃钢（b）第（1）款相机相机三脚架帧-0帧-1帧-2框架-3框架-4（c）第（1）款图3.真实世界突发图像反射消除数据集（BIRR）。(a)对齐数据集的数据捕获设置。(b)手持数据集。(c)一组突发的样本图像。4.1. 合成突发反射（SBR）数据集学习使用突发图像去除反射需要大量的训练数据。为了缓解这个问题，已经提出了几种图像形成模型来生成用于消除单个图像反射的合成数据[34] [31]。[18]等方法扩展了这些模型，以通过逐帧方式将其应用于视频数据来处理多图像反射去除。然而，我们观察到视频数据需要大量的修剪，以避免不切实际的场景转换.因此，开发了一种使用单个图像来模拟真实的突发捕获的方法。该方法在两个阶段中生成具有反射的合成突发：b）混合图像突发以生成具有反射的图像的单个突发。Assumption- tions made，w.r.t.反射层和透射层是平面的、静态的并且距照相机平面的深度不同4.1.1合成爆破模型：给定分别表示透射层和反射层的图像It和Ir，需要生成合成图像突发It和Ir在捕获期间引起的握手运动可以由运动矢量M的集合表示：{θx，θy，θz，tx，ty，tz}，其中θ表示3个度数，旋转自由度，t表示3个平移自由自由每个向量表示从握手期间相机所遵循的轨迹采样的集合。为了生成逼真的轨迹，我们分析了科勒等人的工作。[11]对握手模式进行建模，并观察到三阶多项式可以充分近似典型的握手模式。接下来，为6个自由度中的每一个生成6个随机多项式，从该6个自由度均匀地采样n个点以生成M。对于一个足够平面的场景，[9]表明M可以是近似使用 3 个自由度 M′ ： {tx ， ty ， θz} 如下：tx=tx−d.sin （ θy ）和 ty=ty+d.sin （ θx ） [11] 。这里，z表示相机平面的法向轴，并且注意图像平面与摄影机平面的距离利用反射层和透射层在不同深度的假设，我们生成两种不同的运动向量{M ′，M ′}. 然后，合成突发{I t，I r}可以t r243(a) 输入参考（b）ERRNet（c）Loc.Aware（d）IBCLN（e）Alayrac（f）Liu.et.al（g）Ours（h）GroundTruth图4。与最先进的单图像以及合成数据集上的多图像方法进行定性视觉比较。(a)输入突发参考帧，（b）ERRNet [30]，（c）Loc.Aware [3]，（d）IBCLN [14]，（e）Alayrac.et.al [1]，（f）Liu.et.al [18]，具有在线优化，(g)我们的（h）地面实况。所提出的方法能够将反射抑制到美学上令人愉悦的水平（2，4）通过使用同态变换{It，Ir}由{M ′，M ′}表示的函数。4.2.1对齐的数据集：t r为了收集高质量的数据集，并在输入和地面实况传输之间实现完美4.1.2合成反射：我们使用PASCAL-VOC数据集[4]中的图像进行训练。在训练的每次迭代中，使用从数据集中随机选择的图像{It，Ir}生成一对突发{It然后将获得的突发图像与我们混合，使用[34]提出的图像形成模型。IR在通过图像形成模型之前被横向反转。它被选为训练的基础事实。4.2. 真实世界突发图像反射消除（BIRR）数据集我们的真实世界连拍图像反射去除（BIRR）数据集包括在连拍模式下捕获的大量有反射和无反射的图像据我们所知，没有公开可用的大规模突发图像数据集用于反射去除。由于训练深度学习方法需要大量的数据集，我们捕获了1000多组突发图像，每个突发至少有5张图像。该数据集分为两类，即（a）对齐数据集和（b）手持数据集。我们在下面的小节中提供了这些集合的详细信息。我们将在论文验收后发布BIRR数据集。智能手机安装在三脚架上以固定相机的位置。三脚架组的数据收集方法如图3所示。我们通过在相机前使用手持玻璃来创建场景中的真实反射，以在突发中为不同的图像创建不同的反射运动。这组捕获的图像形成输入突发，而在没有手持玻璃的情况下捕获的单个图像形成用于训练目的的完全对准的地面实况传输。我们重复该过程以捕获各种场景，例如室内/室外、不同的照明条件、不同类型的眼镜、不同的智能手机等，以预先捕获训练所需的大集合。输入突发包括一个参考图像和4个非参考图像，其中我们选择突发的中间帧作为参考。我们使用第4.1节中描述的方法将合成运动模型应用于非参考突发的参考图像和地面实况传输在该数据集中完美对齐。该数据集主要用于训练目的。4.2.2手持式数据集：该数据集包括在手持模式下使用智能手机相机捕获的高质量图像突发。我们捕捉了大约100个不同的场景，玻璃阻碍了-244取决于数据捕获的便利性，可以是手持的或固定的我们还捕获了参考目的所需的最佳地面实况图像。输入脉冲串的参考图像和地面实况在该数据集中未完全对齐，因此该数据集仅适用于测试目的。4.3. 大型基线数据集我们还在公开可用的多图像数据集上评估了所提出的方法，以消除反射[32]。该数据集包含8组使用移动摄像机在不同视点捕获场景的视频。我们以每秒5帧的速度对视频序列进行采样，每组创建5个图像。该数据集包含图像之间的大的视点差异。尽管事实上这不是一个突发数据集，但我们在这个数据集上评估我们的方法，因为这只是公开可用的用于反射去除的多图像数据集5. 实施和培训详情所提出的方法在Pytorch中实现，在PC上具有IntelXeon 6242R，512GB RAM和Tesla V100 GPU，32GB内存。多阶段架构包括三个不同的网络，即-单图像反射抑制（SIRS）阶段，反射运动聚合（RMA）阶段和引导反射去除阶段。最初，这三个网络是独立训练的，然后是最后两个阶段的端到端迁移学习，以实现收敛。5.1. 训练SIRS阶段：我们采用类似于[30]，[22]的策略，其中我们首先在使用PASCAL VOC数据集[4]生成的单个图像合成数据集上进行训练。总共生成7000个具有合成反射的图像用于训练。我们使用Adam优化器以10−5的初始学习率训练了这个网络大约1000个epoch，然后在现实世界的Berkeley数据集上进行了200个epoch的微调，以实现收敛。我们使用随机裁剪的尺寸为256×256，具有缩放和旋转增强功能。5.2. 培训RMA和引导移除阶段：首先，这两个阶段独立训练，然后进行端到端训练。RMA阶段首先使用合成SBR数据集（第4.1节）进行训练，其中使用Adam优化器使用初始学习率10−4使用4000个突发训练样本进行1000个epoch。随后对BIRR数据集（第4.2节）进行500个历元的微调，以实现收敛。BIRR对齐数据集用于为RMA阶段生成地面实况，在该阶段我们对对齐帧进行加权平均。我们将合成运动模型应用于对齐的突发帧，以生成与用于训练的输入的小的未对齐。这种错误输入的培训策略帮助网络处理可能由于不正确的单应性估计而引起的对准误差。从RMA阶段生成的输出然后被用作训练引导反射去除阶段的输入。我们遵循类似的方法，首先使用合成数据集进行训练，然后在真实数据集上进行微调。最后，我们执行端到端训练来微调网络的权重，以生成高质量的无反射输出。我们使用上下文损失和像素损失的组合，如第3.2节所述，用于这两个阶段。6. 实验结果在本节中，我们首先提供定性和定量评价，然后进行消融研究。6.1. 与最新技术水平方法的比较我们在三个不同的数据集上比较了所提出的方法（详见第4节）。首先，我们在合成数据集上进行定性和定量比较，然后是我们的BIRR数据集。最后，我们对具有较大视点变化的公开可用的多图像数据集进行评估[32]。请参阅补充材料，以了解更多的比较集。6.1.1合成SBR数据集的评价我们首先使用合成数据集对单图像[30] [14] [3]和基于多图像的方法[1] [18]进行评估。所有单个图像方法都是在使用PASCAL-VOC生成的合成数据集上训练的，方法是采用[30] [35]中描述的方法。我们使用合成运动扩展此数据集，以生成SBR数据集，如第4.1节所述。我们在这个数据集上使用在线优化来生成[18]的结果。由于[1]没有发布他们的源代码，因此我们实现了他们的方法，并在此数据集上进行了训练以进行评估。定性比较见图4，定量比较见表1。很明显，我们的方法优于现有的单图像和多图像的方法，无论是定性和定量的PSNR至少1dB的6.1.2真实世界BIRR数据集的评价为了在真实世界的BIRR数据集上评估我们的方法，我们选择了在合成数据集上性能最好的基于单图像的方法- ERRNet [30]以及基于多图像的方法[1] [18]。我们在BIRR数据集上微调这两种方法[30] [1]，直到收敛。我们还执行建议的在线优化，[18] 在BIRR数据集上进行公平评估。定性评价见图5，定量评价见表1。虽然两种多图像方法[1][18]都能够将反射层抑制到245(a) 输入参考（b）ERRNet（c）Alayrac（d）Liu.et.al（e）Ours（f）Ground Truth图5。在我们的BIRR突发数据集上与最先进的单图像以及多图像方法进行定性视觉比较(a)输入突发参考图像，（b）ERRNet[30]，（c）Alayrac.et.al [1]，（d）Liu.et.al [18]，（e）我们的，（f）地面实况。所提出的方法是能够抑制强反射比所有其他国家的最先进的方法SBR数据集BIRR数据集大型基础设施席琳数据集方法类型时间（s）PSNRSSIMNCCPSNRSSIMNCCPSNRSSIMNCCERRNet [30]单个0.7621.890.8550.94619.510.7510.84120.490.7580.8418IBCLN [14]单个0.8321.820.8360.95118.310.7370.83918.960.7350.843了解当地情况[3]单个0.4118.480.8130.91017.780.7440.94117.270.7330.855[18]Liu.et.al多（1）2.3519.440.8060.87418.490.7250.81421.010.7910.852[18]Liu.et.al多功能（2）316022.780.8110.96119.590.7310.82723.390.8410.952Alayrac.et.al [1]多1.5320.910.7720.91219.130.7330.83419.710.7710.896我们多1.2423.80.8760.96920.640.7610.93623.030.8230.943表1.在三个不同的数据集上进行定量比较我们的方法实现了1的整体改善。02dB的峰值信噪比对SBR数据集，1。在BIRR数据集上为05dB，在最新技术水平上的大基线数据集中为2dB[18]。我们的方法也可以与[18]中更复杂的基于在线优化的方法相比，速度提高了2500倍。在这里，我们使用两种最先进的变体[18] - Multi（1）无在线优化，Multi（2）在线优化。最好的结果以粗体显示，第二好的结果以下划线显示。在某种程度上，它们不能将反射消除到可察觉的水平。这在强反射元件的情况下尤其明显（图3，4）。可以观察到，所提出的方法能够比现有技术的解决方案更好地抑制反射层该方法在PSNR，SSIM和NCC的所有指标上都获得了最佳分数。6.1.3大基线数据集评价我们还对[32]中的真实视频序列评估了所提出的方法。该数据集包括通过移动摄像机捕获的视频序列，以便捕获不同的观点。我们使用这些视频序列准备一个多图像数据集，如第4.3节所述。所提出的方法优于基于单个图像的方法以及基于多个图像的方法[1]，并且实现了与现有技术方法[18]相当的分数。定性评价见图6，定量评价见表1。与[18]相比，所提出的方法在处理时间方面要优越得多，并且更适合于实时应用。现有技术[18]在没有在线优化的情况下表现不佳推理时间是在配备英特尔至强6242 R、512 GB RAM和NVIDIA Tesla246(a) 输入（b）ERRNet（c）Alayrac（d）Liu.et.al（e）Ours（f）Ground Truth图6。与公共大基线数据集上最先进的单图像以及多图像方法进行定性视觉比较（a）输入突发参考（b）ERRNet [30]（c）Alayrac.et.al 2017 [1]（d）Liu.et.al [18]（e）我们的（f）地面实况。所提出的方法与最先进的方法[18]相当，复杂性明显降低（见表1）S1 S2 S3 S4 PSNR SSIM NCCN1C [22] 19.23 0.81 0.921N2C [22]C C 20.04 0.84 0.941N3C C C21.81 0.83 0.955N4C [22]C C C23.8 0.876 0.969N5C [30]C C C23.96 0.874 0.962N6C [14]C C C23.12 0.865 0.95N7C [3]C C C23.62 0.872 0.961表2.消融研究：网络组件分析。S1 - SIRS阶段，S2-传输对齐，S3-反射运动聚合，S4 -引导反射去除V100 GPU，32GB内存。6.2. 消融研究我们使用SBR数据集评估拟议的管道，通过考虑不同的设计策略，如表2所示我们通过提供突发的参考图像，仅用单图像反射抑制（SIRS）的第一阶段来评估第一变化对于第二个变化N2，我们引入了透射对准以及引导反射去除阶段。一个简单的加权平均的传输对齐的图像，而不是RMA阶段使用这种变化。第三，对于N3，我们跳过反射抑制阶段并执行图像对齐，然后执行反射运动聚合阶段以及引导反射的最后阶段。moval生成最终输出。我们的下一个变体N4是引入所提出方法的所有组件的地方。我们通过从N2移动到N4获得约3dB我们还获得了1dB的增益时，第一阶段的反射抑制，这有助于提高均匀估计，改善传输对齐。最后，我们通过替换不同的最新方法[30]、[14]和[3]来评估N5-N7中反射抑制的预处理步骤的考虑。我们看到，虽然[30]提供了具有更高复杂性的最佳结果，但[22]提供了至少复杂性的良好结果。7. 结论本文提出了一种基于多阶段深度学习的方法来去除突发图像中的反射。我们提出了一种新的反射运动聚合提示突发反射去除。我们捕获了一个大规模的真实世界数据集，将在接受后公开发布。我们的方法实现了超过2dB的改善，在单一的图像为基础的方法。对于基于多图像的方法，我们的方法实现了1的整体改善。02dB的峰值信噪比对SBR数据集，1。在BIRR数据集上为05dB，在最新技术水平上为2dB我们的方法也可以与更复杂基于[18]中的在线优化方法，速度提高2500倍247引用[1] 让-巴蒂斯特·阿莱拉克，若昂·卡雷拉，安德鲁·齐瑟曼。目视离心机：无模型分层视频表示。在IEEE计算机视觉和模式识别集，第2457-2466页，2019年。[2] Yun-Chung Chung ， Shyang-Lih Chang ， Jung-MingWang，and Sei-Wang Chen.从单个图像分离干涉反射。2009年计算机视觉应用研讨会（WACV），第1-6页。IEEE，2009年。[3] Zheng Dong，Ke Xu，Yin Yang，Hujun Bao，WeiweiXu，and Rynson WH Lau.位置感知单个图像反射去除。在IEEE/CVF计算机视觉国际会议论文集，第5017-5026页[4] Mark Everingham ， Luc Van Gool ， Christopher KIWilliams，John Winn，and Andrew Zisserman.pascal视觉对象类（ voc ）的挑战。 International Journal ofComputer Vision，88（2）：303[5] Qingnan Fan ， Jiaolong Yang ， Gang Hua ， BaoquanChen，and David Wipf.一个通用的深层架构，用于消除单个图像反射和图像平滑。在IEEE计算机视觉国际会议论文集，第3238-3247页[6] 盖坤、石振伟、张长水。利用图像统计的叠加运动图像的盲IEEE Transactions on Pattern Analysis and Machineintelligence，34（1）：19[7] C le'mentGodard ， KevinMatzen ， andMattUyttendaele. 深度突发去噪。在欧洲计算机视觉会议（ECCV）中，第538[8] 郭晓杰、曹晓春和马毅。从多个图像中稳健地分离反射。在2014年IEEE计算机视觉和模式识别会议集，第2187-2194页中[9] 安基特·古普塔，尼尔·乔希，C·劳伦斯·齐特尼克，迈克尔·科恩和布莱恩·库利斯。利用运动密度函数的单幅图像去模糊。欧洲计算机视觉会议，第171-184页施普林格，2010年。[10] Nima Khademi Kalantari和Ravi Ramamoorthi。动态场景的深度ACM事务处理图表，36（4）：144[11] 罗尔夫·科勒，迈克尔·赫希，贝蒂·莫勒，伯恩哈德·肖尔·科普夫和斯特·弗·安·哈梅林。相机抖动的记录和回放：用真实世界的数据库对盲反卷积进行基准测试。欧洲计算机视觉会议，第27-40页。Springer，2012.[12] Green Rosh KS，Anmol Biswas，Mandakinee Singh Patel和BH Pawan Prasad。针对大对象运动的hdr的深度多阶段学习。在2019年IEEE图像处理国际会议（ICIP）上，第4714-4718页。IEEE，2019。[13] Anat Levin，Assaf Zomet和Yair Weiss。使用局部特征从单个图像中分离反射。在2004年IEEE计算机协会计算机视觉和模式识别会议上，2004。CVPR 2004。，第1卷，第I-I页。IEEE，2004年。[14] Chao Li，Yixiao Yang，Kun He，Stephen Lin，and JohnE Hopcroft. 通过级联细化去除单个图像反射在IEEE/CVF计算机视觉和模式识别会议论文集，第3565-3574页[15] Tingtian Li，Yuk-Hee Chan，and Daniel PK Lun.改进的基于多图像的深度神经网络反射消除算法。IEEETransactions on Image Processing，30：68[16] 作者声明：by Michael S.利用反射变化自动消除反射在IEEE计算机视觉国际会议论文集，第2432- 2439页[17] 作者声明：by Michael S.使用相对平滑度的单个图像层分离。在 Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition，第2752-2759页[18] 刘玉伦，赖伟胜，杨明轩，庄永玉，黄家斌。学会看穿障碍。在IEEE/CVF计算机视觉和模式识别会议论文集，第14215[19] Roey Mechrez，Itamar Talmi，and Lihi Zelnik-Manor.非对齐数据图像变换的上下文损失。在欧洲计算机视觉会议（ECCV）的会议记录中，第768-783页[20] Seonghyeon Nam，Marcus Brubaker和Michael Brown。用于多图像融合和层分离的神经图像表示。arXiv预印本arXiv：2108.01199，2021，2021。[21] Simon Niklaus ， Xuaner Cecilia Zhang ， Jonathan TBarron ， Neal Wadhwa ， Rahul Garg ， Feng Liu ， andTianfan Xue.学习了双视图反射消除。在IEEE/CVF计算机视觉应用冬季会议论文集，第3713-3722页[22] BH Pawan Prasad ， Lokesh R Boregowda ， KaushikMitra，Sanjoy Chowdhury，等. V-desirr：非常快速的深嵌入式单图像反射消除。在IEEE/CVF计算机视觉国际会议（ICCV）的会议记录中，第2390-2399页[23] Rahul Raguram，Jan-Michael Frahm，and Marc Pollefeys.导致自适应实时随机样本一致性的ransac技术的比较分析。欧洲计算机视觉会议，第500Springer，2008.[24] Ethan Rublee ， Vincent Rabaud ， Kurt Konolige ， andGary Bradski. Orb：一个有效的替代筛选或冲浪。2011年国际计算机视觉会议，第2564- 2571页。IEEE，2011年。[25] YiChang Shih ， Dilip Krishnan ， Fredo Durand ， andWilliam T Freeman.使用重影提示消除反射。在IEEE计算机视觉和模式识别会议的Proceedings，第3193-3201页[26] Tharatch Sirinukulwattana，Gyeongmin Choe，and In SoKweon.通过平滑算法使用视差和梯度稀疏去除反射。2015 年 IEEE 国际图像处理会议（ ICIP ），第1940IEEE，2015年。248[27] Chao Sun，Shuaicheng Liu，Taotao Yang，Bing Zeng，Zhengning Wang，and Guanghui Liu.使用梯度强度和运动提示自动消除反射。在2016年第24届ACM多媒体国际会议的会议论文集，第466-470页[28] Renjie Wan ， Boxin Shi ， Ling-Yu Duan ， Ah-HweeTan，and Alex C Kot.单图像反射消除算法的基准测试。在IEEE计算机视觉国际会议论文集，第3922-3930页[29] Renjie Wan ， Boxin Shi ， Ling-Yu Duan ， Ah-HweeTan，and Alex C Kot. Crrn：多尺度引导并发反射消除网络。在IEEE计算机视觉和模式识别会议论文集，第4777- 4785页[30] Kaixuan Wei，Jiaolong Yang，Ying Fu，David Wipf，and Hua Huang.利用未对齐的训练数据和网络增强来去除单个图像反射在IEEE计算机视觉和模式识别会议上，第8178-8187页，2019年[31] Qiang Wen ， Yinjie Tan ， Jing Qin ， Wenxi Liu ，Guoqiang Han，and Shengfeng He.单图像反射消除超出线性。在IEEE计算机视觉和模式识别会议论文集，第3771- 3779页[32] Tianfan Xue，Michael Rubinstein，Ce Liu，and WilliamT Freeman.无障碍摄影的计算方法。ACM Transactionson Graphics（TOG），34（4）：1[33] 清颜，易虚，杨小康。利用梯

下载后可阅读完整内容，剩余1页未读，立即下载