移动相机障碍物消除方法

13 浏览量更新于2023-10-23 收藏 2.45MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1学会看穿障碍物刘育伦1、4赖伟胜2、杨铭宣2、3庄永玉1、黄家斌 5、1国立台湾大学2、谷歌3、UC Merced4、联发科。5弗吉尼亚理工大学https://www.cmlab.csie.ntu.edu.tw/(a)反射消除（b）围栏消除（c）雨滴消除图1：透过障碍物看。我们提出了一种基于学习的方法，用于从移动相机拍摄的给定短序列图像中恢复干净图像，这些图像通过诸如（a）窗户，（b）围栏或（c）雨滴等障碍元素摘要我们提出了一种基于学习的方法，用于从移动相机捕获的短序列图像中去除不需要的障碍物，例如窗口反射，栅栏遮挡或雨滴我们的方法利用背景和阻碍元素之间的运动差异来恢复两个层。具体地，我们在估计两层的密集光流场和经由深度卷积神经网络从流扭曲图像重建每一层之间交替。基于学习的层重建允许我们在流量估计和亮度一致性等亮度假设中消除潜在误差我们表明，对综合生成的数据进行训练可以很好地转换为真实图像。我们的结果在许多具有挑战性的sce- narios的反射和栅栏去除证明了所提出的方法的有效性。1. 介绍通过反射表面（例如窗户）或遮挡元件（例如栅栏）拍摄干净的照片是具有挑战性的，因为所捕获的图像不可避免地包含感兴趣的场景和由反射或遮挡引起的障碍物。因此，恢复底层干净图像的有效解决方案对于提高在这种条件下捕获的图像的质量使机器人能够安全地在具有窗口的场景中导航。最近的努力已经集中在从单个图像自动去除不想要的反射或遮挡[2，8，16，17，27，38，43，45]。这些方法要么利用重影线索[30]，要么采用基于学习的方法来捕获自然图像的先验[8，16，38，43，45]。虽然已经显示了令人印象深刻的结果，但是将干净的背景与反射/遮挡分离是有趣的不适定的，并且通常需要对场景的高级特别是，基于学习的方法的性能显着下降的分布外的图像。为了解决这些挑战，已经提出了多帧方法核心思想是利用背景场景和遮挡元素相对于相机位于不同深度的事实（例如，窗口反射的虚拟深度）。因此，从稍微移动的相机拍摄多个图像揭示了两个层之间的运动差异[3，9，12，21，24，34]。许多方法利用这些线索从视频中反射或去除栅栏[1，3，6，9，12，21，24，26，31，34]。Xue等人[第四十二届]提出了一个统一的计算框架，消除障碍，并显示了令人印象深刻的结果，对几个自然序列。然而，该公式需要计算上昂贵的优化过程，并且依赖于亮度恒定性或精确运动估计的严格假设。为了缓解这些问题，最近的工作[1]通过使用通用的3D卷积神经网络（CNN）探索了无模型方法。然而，基于CNN的方法不产生与基于优化的算法在真实输入序列上的质量相当的结果。1421514216在这项工作中，我们提出了一个多帧障碍物去除算法，利用基于优化和基于学习的方法的优点。受基于优化的方法[42]的启发，所提出的算法以从粗到精的方式在密集运动估计和背景/障碍层重建步骤之间交替密集运动的显式建模使我们能够逐步恢复各个层中的详细内容。而不是依赖于手工制作的对象来解决层，我们利用基于学习的方法融合流扭曲的图像，以适应潜在的违反亮度恒定性和错误的流量估计。我们使用合成生成的数据集来训练我们的融合网络，并证明它可以很好地转移到看不见的现实世界序列。此外，我们提出了一个在线优化过程，以进一步提高特定测试序列的视觉最后，我们证明了所提出的方法对现有的各种各样的具有挑战性的序列和应用程序的算法表现良好。我们的框架建立在[26，42]的基于优化的公式基础上，但不同之处在于我们的模型纯粹是数据驱动的，不依赖于经典假设，如场景中的亮度恒定性[26，42]，准确的流场[21]或平面[12]当这些假设被违反时（例如，遮挡/去遮挡、运动模糊、不准确的流），经典方法可能无法重建清晰的前景和背景层。另一方面，数据驱动的方法从不同的训练数据中学习，并且在违反这些假设时可以容忍错误。这项工作的贡献包括：• 我们提出了一种基于学习的方法，该方法集成了基于优化的配方，用于鲁棒重建背景/障碍层。• 我们证明，结合模型预训练使用合成生成的数据和微调与真实的测试序列（在无监督的方式）带来最先进的性能。• 我们表明，我们的模型与最小的设计变化可以应用于各种障碍物清除问题。2. 相关工作多帧反射消除。现有方法通常利用背景层和反射层之间的运动模式的差异[12，42]并施加自然图像先验[10，12，42]。这些方法的不同之处在于它们对运动场进行建模的方式，例如，SIFT流[21]、同质性[12]和密集光流[42]。最近的进展包括优化时间相干性[26]和基于学习的层分解[1]。与学习通用CNN [1]相比，我们的方法显式地对背景和障碍层的稠密流场进行建模，以在真实序列上获得更清晰和更清晰的结果。单图像反射消除。已经提出了许多方法来仅用一个单个图像作为输入来去除不想要的反射。现有方法利用各种线索，包括重影效应[30]、由景深引起的模糊度[22，36]、图像先验（手工设计[2]或从数据中学习[43，45]）以及来自双像素传感器的散焦视差线索[28]。尽管已证明成功，但由于这种高度不适定问题的性质和缺乏运动线索，从单个图像中去除反射仍然具有挑战性。我们的工作，而不是利用运动线索，从图像序列捕捉到一个轻微移动的相机分离的背景和反射层。堵塞和围栏拆除。遮挡物去除旨在消除捕获的障碍物，例如，栅栏或雨滴的图像或序列，并提供了一个清晰的现场。现有方法通过利用视觉视差[25]、密集流场[42]、视差图[18]或使用图形切割[44]来检测栅栏图案。最近的一项工作是使用CNN进行栅栏分割[6]，并使用光流恢复所我们的方法还学习深度CNN用于光流估计和背景图像重建。我们的公式并不集中于拆除围栏，而是更一般，适用于不同的障碍物拆除任务。视频完成。视频补全的目的是在视频的缺失区域中填充令人不快的内容[14]，应用范围包括对象删除、全帧视频稳定化和水印/转录删除。最先进的方法估计已知区域和缺失区域中的流场，以约束内容合成[13，40]，并生成时间上相干的结果。障碍物移除问题类似于视频完成任务。然而，关键的区别在于，不需要手动遮罩选择来从视频中移除栅栏/障碍物。分层分解。图像层分解是计算机视觉中的一个长期存在的问题，例如，内在图像[4，46]，深度，正常估计[15]，重新照明[7]和逆渲染[23，29]。我们的方法受到这些层分解方法的发展的启发，特别是在利用物理图像形成约束和数据驱动先验的方式上。在线优化。从测试数据中学习是减少训练分布与测试分布之间的域差异的有效方法。示例包括使用几何约束[5]，自我监督损失[33]和在线模板更新[19]。与这些方法类似，我们应用在线优化来微调特定测试序列上的背景/障碍重建网络，以进一步改善分离。我们的无监督损失直接测量恢复的背景/障碍物和密集流场解释所有输入帧的程度。14217t=1B，j→kR，j→k第3.10级对齐和平均初始流初始背景分解流程V$B输入帧&$初始反射流量V$%重建的背景层B$对齐和平均重建反射层（$！第3.2节第3.3节！图2：示意图概述。我们以由粗到细的方式重建背景/反射层。在粗糙度水平上，我们估计背景和反射层的均匀流场，然后通过平均对齐的帧来重建粗糙的背景/反射层。在第一层，我们应用（1）背景/反射层重建模块来重建背景/反射层，以及（2）使用PWC-Net来预测两层的精细流场。我们的框架逐步重建背景/反射层和流场，直到最好的水平。3. 该方法给定T个帧的序列{It}T，目标是将每个帧Ik分解成两个层，一个用于（干净）背景，另一个用于栅栏/雨滴/遮挡造成的障碍。将图像序列分解为背景层和障碍层是困难的，因为它涉及解决两个紧密耦合的问题：光流分解和层重构。没有一个好的流分解，由于不准确的运动估计的不对准，层不能被忠实地另一方面，如果没有良好重建的背景层和障碍层，则由于混合内容而不能准确地估计光流。由于这个鸡和蛋的问题的性质，没有理由开始，因为我们没有流和层的信息。在这项工作中，我们建议学习深度CNN来应对挑战。我们提出的方法主要包括三个模块：1）初始流分解，2）背景和障碍层重建，3）光流细化。我们的方法以T帧作为输入，旨在将关键帧Ik分解为背景层Bk和反射层Rk。我们重建结构的输出图像在一个L级层次结构内的粗到细的方式首先，我们从初始流分解模块中估计出粗层次（第3.1节）。然后，我们逐步重建背景/障碍层（第3.2节）和细化光流（第3.3节），直到最后一级。图2显示了我们的方法的概述。我们的统一框架可以应用到几个层分解问题，如反射/障碍/栅栏/雨去除。不失一般性，我们使用反射消除任务作为一个例子来介绍我们的算法。我们将在以下各节中详细介绍这三个模块。3.1. 初始流分解我们首先在粗层（l= 0）预测背景层和反射层的流量，这是我们算法的基本起点而不是估计密集的流场，我们建议学习一个统一的运动矢量，每一层。我们的初始流分解网络由两个子模块组成：1）特征提取器，以及2）层流估计器。特征提取器首先生成以1/2L×空间分辨率对所有输入帧进行特征映射然后，我们在帧j之间构造成本体积，和帧k经由相关层[32]：CVjk（x1，x2）=cj（x1）<$ck（x2），（1）其中cj和ck分别是帧j和k的提取特征，并且x指示像素索引。由于空间分辨率在这一级别相当小，我们将相关层的搜索范围设置为仅4个像素。然后，将成本vol-CV与特征cj级联并馈送给进入层流估计器。层流量估计器使用全局平均池化和全连接层来生成两个全局运动向量。最后，我们将全局运动矢量平铺成两个均匀的流场（以1/2L×空间分辨率），操作）：{V0}的背景层和{V0个文件夹用于反射层。我们提供详细的架构我们的初始流分解模块在实验材料中。3.2. 背景/反射层重建层重建模块旨在重建干净的背景图像Bk和反射图像Rk。虽然背景和反射重建这两项任务在目标上是相似的，但背景层和反射层的特征却有很大的不同。例如，背景层通常在外观上更占主导地位，但在某些帧中可能被遮挡。另一方面，反射层通常是模糊和黑暗的。因此，我们训练了两个独立的网络来重建背景层和反射层.这两个网络具有相同的架构，但不共享网络参数。在下文中，我们仅描述用于背景层重建的网络;反射层以类似的方式重建。水平l背景重构流量优化背景层B）*+和流量V）*+B重建背景层B）精细背景流（五B输入帧）反射层重建流量优化Re flexionla ye r（）*+和流量V）*+%重建反射层精细反射流（五%14218&&&B-jJB-jB-j&&B-jB，j→kB，j→kB，j→kB，j→kKKJB，k→j不KKK=（I，（V重建反射帧*$（）重建的背景帧B$（）0 120 120 12Concat上采样背景帧3B$（）4052背景流！7$（）%无效的掩码！+ $%背景残差图输入帧！I$%关键帧I$翘曲背景注册框架！I/$%差分图！6 $%重建网络重建的背景帧B$图3：层重建模块的概述。在级别l，我们首先对背景流进行上采样{V l-1}从级别l-1，以扭曲输入帧{Il}并将其与关键帧Il对齐。然后，我们计算tk背景注册帧和关键帧。背景重建网络将背景-重定向帧{I重定向}，差映射{Dl}，无效掩码{Ml}，上采样的背景（Bl-1）↑2、反射层（Rl-1）↑2，并学习预测背景关键帧的残差图我们添加K K预测残差映射到上采样背景帧（B1- 1）↑2，并产生重构背景帧l在l级。对于反射层重建，我们使用相同的架构，但学习不同的网络参数我们以由粗到细的方式重建背景层。在粗调水平（l= 0），我们首先使用从初始流分解模块估计的流场来对齐相邻帧。然后，我们计算所有背景注册帧的平均值作为预注册帧。我们将注册帧、差分图、无效掩码以及上一级的上采样背景和反射层作为输入特征连接到背景重建网络。然后，网络通过残差学习重建背景图像B1口述背景图像：Bl=g.我...}，{Dl}，{Ml}，（Bl−1）↑，B0= 1ΣTW（I0，V0）、（2）kBB，j→kl−1B，j→kΣl−1B，j→kk2Kj=1jB，j→k（Rk））↑2+（Bk）↑2，（4）其中I0是下采样到级别0的帧j，并且W（）其中gB是背景重建网络。注意是双线性采样操作。在第l级，网络将侦察作为输入结构化背景图像Bl-1，反射图像Rl-1，反射层也参与背景层的重建，其将背景和反射重建网络耦合在一起用于联合训练。K背景光流{Vl−1K}从上一级ing. 图3示出了本发明的背景技术的概述。以及当前级别的输入帧{I1}。该模型的目的是重建背景图像的l级施工网络。详细的网络在补充材料中提供了配置。关键帧Bl在目前的水平。我们首先对l−13.3. 光流优化背景流场{VB，k→j}乘以2倍，输入帧{I1}到关键帧{I1}：在重建所有背景图像B1之后，我们J~lB，j→kKWl l−1jB，j→k）↑2），（3）然后学习细化背景光流。我们使用预先训练的PWC-Net [32]来估计一对背景图像之间的流场其中（）↑2表示2×双线性上采样算子。由于一些像素可能由于遮挡或光的反射而变得无效从外部图像边界翘曲，我们还计算V1=PWC（B1，B1），（5）B为|我不我14219B，j→kB，j→k差映射D1l B，j→k-Il|和一个翘曲其中PWC是预训练的PWC-Net。注意到无效掩码M% l作为网络的额外线索，PWC-Net是固定的，不与其他子系统一起更新。减少扭曲伪像。我们的模型模块142203.4. 网络训练为了提高训练稳定性，我们采用了两阶段训练程序。在第一阶段，我们训练初始流分解网络，损失如下：3.6.在线优化我们观察到，在我们的合成数据集上训练的模型可能在现实世界的序列上表现不佳。因此，我们提出了一种在线细化方法，以精细-ΣTΣTL=0.000002升通过optimiz使用真实序列调整我们的预训练模型-无监督翘曲一致性损失：Deck=1j =1，jkB，j→k−PWC（Bj，Bk）↓1+T02L L=Il−（W（Bl，Vl ）+VR，j→k−PWC（Rj，Rk）↓2001年，（六）经纱Jk=1j =0，j/=kl =0kB，j→k（十）W（Rl，Vl））=1.其中，↓是双线性dom采样算子r，B和R表示地面实况背景和反射层，req。我们使用预训练的PWC-Net来计算OP-对实际流进行降采样，降采样率为2L×，以此作为训练初始流分解网络的基础。接下来，我们冻结初始流分解网络k R，j→k一致性损失通过强制预测的背景和反射层应该被向后弯曲并合成到原始输入帧中来此外，我们还考虑了总变异损失：并利用图像训练层重建网络ΣTLtv=ΣL（C1-C12）重建损失：t tt=1l=0Limg=1 ΣT ΣL（Bl-Bl1+Rl-Rl1），（7）它鼓励网络生成自然图像，T×Lt t t t t tt=1l=0通过跟随稀疏梯度图像先验。整体和梯度损失：在线优化的损失是：L梯度=1 ΣT ΣL（Bl−Bl1+Rl−Rl1），L在线=L翘曲+λtvLtv，（12）T×Lttt=1l=0t t（八）其中在我们所有的实验中权重λtv根据请注意，我们冻结PWC-Net其中，x是空间梯度算子。梯度损失鼓励网络重建毛发的真实边缘，从而改善视觉质量。训练层重构网络的总损失为：L=Limg+λgradLgrad，（9）其中，在我们的所有实验中，权重λgrad根据我们使用Adam优化器[20]训练初始流分解和层重构网络我们将学习率设置为10−4，第一个100 k次迭代，然后减少到10- 5次，其他100k迭代。3.5.合成序列生成由于收集具有地面真实反射和背景层的真实序列非常困难，因此我们使用Vimeo-90 k数据集[41]来合成用于训练的序列。在Vimeo-90 k训练集中的91，701个序列中首先，我们使用随机单应性变换来扭曲序列。然后我们随机将序列裁剪到320×192像素的空间分辨率最后，构图是一帧一帧地应用的-使用以前的工作[8，45]提出的逼真的反射图像合成模型。补充材料中提供了有关合成数据生成的14221并且仅更新背景/反射层反射模块。我们在每个输入序列上微调我们的模型，进行1k次迭代，对于空间分辨率为1296×我们只使用序列中的五个帧进行微调。3.7. 其他障碍物清除的扩展建议的框架可以很容易地修改，以处理其他障碍物清除任务，如围栏或雨滴清除。首先，我们移除用于障碍物的图像重建网络（即，反射）层，并且仅预测背景层。其次，背景图像重建网络输出附加通道作为用于分割障碍层的阿尔法图。我们不估计障碍层的流场，因为流估计网络不能处理重复结构（例如，栅栏）或微小物体（例如，雨滴），并经常预测噪声流。通过这样的设计变化，我们的模型能够在围栏和雨滴去除任务上表现良好。我们使用栅栏分割数据集[6]和alpha matting数据集[39]来训练我们的模型。4. 实验和分析我们在本节中介绍了主要发现，并在补充材料中包括更多结果。14222表1：合成层序上反射波消除方法的定量比较。我们比较所提出的方法与现有的反射去除方法的合成数据集与100个序列，其中每个序列包含五个连续的帧。对于基于单图像的方法[8，16，38，43，45]，我们逐帧生成结果对于多帧算法[1，12，21]和我们的方法，我们使用五个输入帧来生成结果。方法PSNR ↑背景SSIM↑NCC↑LMSE↓PSNR ↑反射SSIM↑NCC↑LMSE↓CEILNet [8]基于cnn20.350.74290.85470.0277----单个图像Zhang等人[45个]BDN [43]基于cnn基于cnn19.5317.080.75840.71630.85260.76690.02070.028818.69-0.4945-0.6283-0.1108-ERRNet [38]基于cnn22.420.81920.87590.0177----Jin等人[16个]基于cnn18.650.75970.78720.021811.440.36070.46060.1150李和布朗[21]基于优化17.120.63670.66730.06047.680.26700.34900.1214多个图像Guo等人[12个]Alayrac等人[1]第一章基于优化基于cnn14.5823.620.50770.78670.58020.90230.06940.020014.1221.180.31500.63200.35160.75350.17740.1517我们的w/o在线优化。基于cnn26.570.86760.93800.012521.420.64380.76130.1008输入（代表框架）遮蔽背景闭塞性梗阻和反射/阻挡层以及归一化互相关（NCC）分数[35，42]。我们的方法表现良好，对其他方法的玩具和河内序列，并显示出可比的成绩薛等。[42 ]第42话在石头上结石NCC = 0.9660 NCC = 0.7006玩具NCC = 0.9487 NCC = 0.8707河内NCC = 0.9938 NCC = 0.8267石头玩具河内方法BRBRBO李和布朗[21]0.9271 0.2423 0.7906 0.6084--Guo等人[12个]0.7258 0.1018 0.7701 0.6860--Xue等人[第四十二届]0.9738 0.8433 0.8985 0.7536 0.9921 0.7079Alayrac等人[1]第一章0.9367 0.1633 0.7985 0.5263--我们0.9660 0.7006 0.9487 0.8707 0.9938 0.8267图4：受控序列的定量评价。对于每个序列，我们显示关键帧（左）和恢复的背景（中）和反射 / 遮挡（右）。我们报告的NCC分数恢复的背景和反思的定量比较。4.1. 与最新技术控制序列。我们首先对Xue等人[42]提供的受控序列进行评估，其中包含三个具有地面实况背景和反射层的视频。我们比较了所提出的方法与李和布朗[21]，郭等人。[12]，Xue et al.[42]和Alayrac et al. [1]的文件。图4显示了我们恢复的背景合成序列。我们通过第3.5节中描述的方法从Vimeo-90k测试集中合成了100个序列。我们将我们的方法与五种单图像反射去除方法[8，16，38，43，45]和三种多帧方法[1，12，21]。我们使用每个方法的默认参数来生成结果。自从Alayrac et al.[1]不要发布源代码或预先训练的模型，我们重新实现他们的模型并在我们的训练数据集上进行训练。表1显示了平均PSNR、SSIM[37]、NCC和LMSE [11]指标。该方法在背景层和反射层的所有评价指标上都获得了最好的分数真实的序列。在图5中，我们展示了来自[42]的真实输入序列的视觉比较。与其他方法相比，我们的方法能够分离反射层并重建清晰锐利的背景图像[1，21，26，42]。图6显示了两个示例，其中输入包含障碍物，例如玻璃上的文本或雨滴。该方法能去除遮挡层，重建出清晰的背景图像.补充材料中提供了更多的直观比较。4.2. 分析与探讨在本节中，我们分析了所提出的框架的几个关键设计选择。我们还提供了执行时间，并显示了我们的方法失败的情况。初始流分解。我们证明了一致流初始化在我们的算法中起着重要的作用. 我们使用以下设置训练模型1) 去除初始流分解网络，其中在粗粒度级的流被设置为零，以及2）预测空间变化的稠密流场作为初始流。14223代表性输入帧Li和Brown [21] Xue et al.[42] Nandoriya等人[26]* Alayrac et al.[1]我们的图5：自然层序背景反射分离的视觉比较。更多的结果可以在补充材料中找到。* 结果分辨率较低。代表性输入Xue et al. [42]第四十二话图6：恢复被raindops遮挡的场景。表2（a）报告了公式（9）在我们的Vimeo-90 k验证集上的验证损失，其中具有统一流量预测的模型与替代方案相比实现了低得多的验证将流场初始化为零会使后续级别难以分解背景层和反射层。相反，在粗糙层估算稠密流场可能导致噪声预测并导致不一致的层分离。我们的统一流预测达到了平衡，并作为一个很好的初始预测，以促进以下的背景重建和流细化步骤。图像重建网络。为了证明图像重建网络的有效性，我们将其替换为时间滤波器来融合相邻帧，这些相邻帧被光流扭曲和对齐。我们表明在表2（b）中，时间平均值和中值滤波器都导致大误差（就验证损失而言公式（9）），因为误差在各个级别上累积。相比之下，我们的图像重建网络可以学习减少扭曲和对齐错误，并生成干净的前景和背景图像。在线优化。表2（c）表明，使用合成数据进行网络预训练和使用真实数据进行在线优化都有利于我们模型的性能。在图7中，我们展示了没有预训练的模型不能很好地分离真实输入序列上的反射在没有在线优化的情况下，背景图像包含来自反射层的残差经过在线优化，该方法能够很好地重建背景层和反射层.运行时间。我们评估了两种基于优化的算法[12，21]和一种最近的基于CNN的方法[1]在具有Intel Core i7-8550 U CPU和NVIDIA TITAN Xp GPU的计算机上具有不同输入序列表3表明，我们的方法没有在线优化步骤运行速度比基于优化的算法. Alayrac等人[1]使用没有显式运动估计的3D CNN架构，这会导致更快的推理速度。相比之下，我们的方法计算每对输入帧的双向光流，背景反射背景反射14224具有代表性的输入帧（带在线优化）无预培训无在线优化，带预培训在线优化和预培训图7：在线优化和预训练的效果。这两个步骤对于取得高质量的成果至关重要。表2：消融。我们分析了所提出的方法的设计选择，并在合成反射背景Vimeo-90 k测试集上报告了公式（9(a) 初始流分解：在初始化时预测均匀流场可以获得更好的结果。(b) 融合方法：我们的图像重建网络比时间均值/中值滤波恢复更好的背景/反射。(c) 模型训练：网络预训练和在线优化对我们的方法的性能都很重要。流初始化损失图像融合方法损失在线优化预训练损失零初始化0.377时间均值滤波0.526C-0.417稠密流场0.226时域中值滤波0.482-C0.184均匀流场（我们的）0.184图像重建网络（Ours）0.184CC0.139表3：运行时间比较（以秒为单位）。CPU：IntelCore i7-8550U，GPU：NVIDIA TITAN Xp.* 表示使用GPU的方法。QVGAVGA720pBAC（320×240）（640×480）（1280×720）李和布朗[21]82.591388.2351304.231对Guo等人[12个]64.251369.2001129.125CTI*Alayrac等人[1]第一章0.5492.0116.327fle*Ours w/o online optim.1.1072.2169.857e*Ours w/ online optim.66.056264.227929.182R代表输入帧我们的结果粗到细的方式，其较慢但实现好得多的重建性能。失败案例。我们在图8中显示了我们的算法的失败情况，其中我们的方法没有很好地分离反射层。这个例子特别具有挑战性，有两层反射：顶部是木梁，底部是摄像机后面的街道。由于木梁的运动与背景图像非常接近，我们的方法只能分离出反射层中的街景。5. 结论提出了一种新的多帧反射和障碍物去除方法。我们的关键见解是利用CNN从流动扭曲的图像中重建背景和反射层。结合光流估计和由粗到细的细化，使我们的模型图8：失败案例。我们的方法无法恢复正确的流场的每一层，导致无效的反射消除。以从模糊的真实世界序列中鲁棒地恢复底层的干净图像。我们的方法可以应用于不同的任务，如围栏或雨滴去除在我们的设计变化最小。我们还表明，在线优化测试序列，导致改善视觉质量。广泛的视觉比较和定量评估表明，我们的方法在各种各样的场景表现良好。致谢。这项工作得到了NSF CAREER（#1149783），NSF CRII（#1755785），MOST109-2634-F-002-032，联发科公司以及Adobe、丰田、松下、三星、NEC、Verisk和Nvidia的礼品背景反射克鲁德14225引用[1] 让-巴蒂斯特·阿莱拉克，若昂·卡雷拉，安德鲁·齐瑟曼。目视离心机：无模型分层视频表示。在CVPR，2019年。一二六七八[2] Nikolaos Arvanitopoulos、Radhakrishna Achanta和SabineSusstrunk。单图像反射抑制。在CVPR，2017年。一、二[3] Efrat Be利用参数化联合对角化实现叠加移位图像的盲分离TIP，17（3）：340-353，2008. 1[4] Sean Bell，Kavita Bala，Noah Snavely.在野外的内在图像。ACM TOG，33（4）：159，2014。2[5] 陈宇华，考迪莉亚·施密德，克里斯蒂安·斯明奇斯-埃斯库.单目视频中具有几何约束的自监督学习：连接流量，深度和摄像头。在ICCV，2019年。2[6] 陈度、姜秉根、郑旭、纪岱、阮张。使用卷积神经网络和时间信息进行准确有效的视频防护。在ICME，2018。一、二、五[7] 埃尔马·埃森和弗雷·杜兰德。闪光照相增强通过内在重照明。ACM TOG，23（3）：673- 678，2004. 2[8] Qingnan Fan ， Jiaolong Yang ， Gang Hua ， BaoquanChen，and David Wipf.用于单个图像反射去除和图像平滑的通用深度架构。InICCV，2017. 一、五、六[9] 盖坤、石振伟、张长水。运动未知的叠加图像的盲分离。CVPR，2009。1[10] 盖坤、石振伟、张长水。利用图像统计的叠加运动图像的盲TPAMI，34（1）：19-32，2011. 2[11] Roger Grosse，Micah K Johnson，Edward H Adelson，and William T Freeman.固有图像算法的地面实况数据集和基线ICCV，2009年。6[12] 郭晓杰、曹晓春和马毅。从多个图像中稳健地分离反射。CVPR，2014。一二六七八[13] Jia-Bin Huang，Sing Bing Kang，Narendra Ahuja，andJo- hannes Kopf. 动态视频的时间相干完成。 ACMTOG，35（6）：196，2016。2[14] 沙查尔·伊兰和阿里尔·沙米尔数据驱动的视频补全技术综述。Computer Graphics Forum，34（6）：602[15] Junho Jeon，Sunghyun Cho，Xin Tong，and SeungyongLee.使用结构纹理分离和表面法线的内在图像分解。2014年，在ECCV。2[16] 我是金广，萨宾·苏斯特伦克，保罗·法瓦罗。学会透过反射看东西。在ICCP，2018。1、6[17] Sankaraganesh Jonna ， Krishna K Nakka ， and Rajiv RSahay.使用视频序列从图像中基于深度学习的栅栏分割和移除。在ECCV，2016年。1[18] Sankaraganesh Jonna ， Sukla Satapathy ， and Rajiv RSahay.使用智能手机进行立体图像防御。在ICASSP，2017年。2[19] Zdenek Kalal，Krystian Mikolajczyk，and Jiri Matas.跟踪-学习-检测TPAMI，34（7）：1409-1422，2011. 2[20] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。2015年，国际会议。5[21] 作者声明：by Michael S.利用反射变化自动消除反射。InICCV，2013. 一二六七八[22] 作者声明：by Michael S.使用相对平滑度的单个图像层分离。CVPR，2014。2[23] Zhengqin Li，Mohammad Shafiei，Ravi Ramamoorthi，Kalyan Sunkavalli，and Manmohan Chandraker.复杂室内场景的逆渲染：形状，空间变化的照明和svbrdf从一个单一的图像。在CVPR，2020年。2[24] 刘策，袁珍妮，安东尼奥·托拉尔巴，约瑟夫·西维克和威廉·T·弗里曼。筛流：不同场景之间的密集对应ECCV，2008年。1[25] 穆亚东，刘伟，严水城。视频防护IEEE Transactions onCircuits and Systems for Video Technology，24（7）：1111-1121，2013。2[26] Ajay Nandoriya ， Mohamed Elgharib ， Changil Kim ，Mo- hamed Hefeeda，and Wojciech Matusik.通过时空优化去除视频反射InICCV，2017.一、二、六、七[27] Minwoo Park，Kyle Brocklehurst，Robert T Collins，andYanxi Liu.重新审视图像防护。InACCV，2010. 1[28] Abhijith Punnappurath和Michael S Brown。使用双像素传感器消除反射。在CVPR，2019年。2[29] Soumyadip Sengupta，Jinwei Gu，Kihwan Kim，GuilinLiu，David W Jacobs，and Jan Kautz.从单个图像进行室内场景的神经逆渲染在ICCV，2019年。2[30] YiChang Shih ， Dilip Krishnan ， Fredo Durand ， andWilliam T Freeman. 使用重影提示消除反射 CVPR ，2015。一、二[31] Sudipta N Sinha ， Johannes Kopf ， Michael Goesele ，Daniel Scharstein，and Richard Szeliski.基于图像的渲染具有反射的场景。ACM TOG，31（4）：100-1，2012.1[32] 孙德清、杨晓东、刘明宇和Jan Kautz。Pwc-net：使用金字塔、扭曲和成本体积的光流的Cnns。在CVPR，2018年。三、四[33] Yu Sun，Xiaolong Wang，Zhuang Liu，John Miller，Alexei A Efros，and Moritz Hardt.分布外泛化的测试时训练。arXiv：1909.13231，2019。2[34] Richard Szeliski，Shai Avidan，and P Anandan.层提取，从多个图像包含反射和transparency。在CVPR，2000年。1[35] Renjie Wan ， Boxin Shi ， Ling-Yu Duan ， Ah-HweeTan，and Alex C Kot.单图像反射消除算法的基准测试。InICCV，2017. 6[36] Renjie Wan，Boxin Shi，Tan Ah Hwee，and Alex C Kot.景深引导的反射去除。在ICIP，2016年。2[37] ZhouWang ，Alan C Bovik，Hamid R Sheikh ，Eero PSimon- celli，et al.图像质量评估：从错误可见性到结构相似性。TIP，13（4）：600-612，2004. 6[38] Kaixuan Wei，Jiaolong Yang，Ying Fu，David Wipf，14226and Hua Huang.利用未对齐的训练数据和网络增强来去除单个图像反射在CVPR，2019年。1、614227[39] Ning Xu，Brian Price，Scott Cohen，and Thomas Huang.深度图像抠图。在CVPR，2017年。5[40] Rui Xu，Xiaoxiao Li，Bolei Zhou，and Chen Change Loy.深度流引导视频修复。在CVPR，2019年。2[41] Tianfan Xue，Baian Chen，Jiajun Wu，Donglai Wei，and William T Freeman.具有面向任务流的视频增强。IJCV，127（8）：1106-1125，2019。5[42] Tianfan Xue，Michael Rubinstein，Ce Liu，and WilliamT Freeman.无障碍摄影的计算方法。ACM TOG，34（4）：79，2015年。一、二、六、七[43] 杨洁，龚东，刘灵桥，石勤峰。深入和双向地看：一种用于消除单个图像反射的深度学习方法在ECCV，2018。一、二、六[44] 易仁娇、王爵、谭平。动态场景视频中的自动栅栏分割。在CVPR，2016年。2[45] Xuaner Zhang，Ren Ng，and Qifeng Chen.具有感知损失的单个图像反射分离。在CVPR，2018年。一、二、五、六[46] Tinghui Zhou，Philipp Krahenbuhl，and Alexei A Efros.学习数据驱动的反射率先验，用于固有图像分解。在ICCV，2015年。2

下载后可阅读完整内容，剩余1页未读，立即下载