视频污染物去除方法的研究与应用

46 浏览量更新于2023-10-13 收藏 3.25MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2011让李晓宇1张波2廖静3佩德罗Sander11香港科技大学2微软亚洲研究院3香港城市大学图1：脏镜头摄像机捕获的视频帧的污染物去除。透镜上的污染物，灰尘、污垢和湿气导致空间变化的摄影伪影（第一行）。我们的方法通过利用来自多个帧（第二行）的时空一致性来恢复这些污染物伪影。请参阅我们的补充材料的视频结果。摘要附着在相机镜头上的诸如灰尘、污垢和湿气的污染物会极大地影响所得图像或视频的质量和清晰度。在本文中，我们提出了一种视频恢复方法，自动删除这些污染物，并产生一个干净的视频。我们的方法首先寻求检测指示需要恢复的区域的注意力地图。为了利用相邻帧中相应的干净像素，我们提出了一个流完成模块来将背景场景的流幻觉化到被污染物退化的注意区域。在注意图和完备流的指导下，我们提出了一种递归技术，通过从相邻帧中提取干净的像素来恢复最后，使用多帧处理阶段来进一步处理整个视频序列，以便加强节奏一致性。整个网络是在一个合成数据集上训练的这个新的数据集和我们的新框架导致我们的方法，能够解决不同的污染物，并在定性和定量上优于竞争性恢复方法。1. 介绍随着成像设备变得无处不在，随时随地拍摄照片和视频的显著增加。移动摄像机、动作摄像机、监控摄像机和自动驾驶汽车的传感器经常暴露于污染物将导致图像质量劣化的恶劣环境中图1示出了脏镜头伪影的一些示例，其中场景辐射的可见性部分地受到污染物沿着光路的吸收和反射的影响[17]。这些不期望的伪影不仅在美学上令人不安，而且给后续的计算机视觉任务带来困难。虽然可以偶尔物理清洁透镜，但是频繁地这样做绝不是方便的解决方案，并且有时对于实时情况是不可行的。由于污染物粘附在透镜表面上，从而偏离焦点，它们的成像效果可以通过低频光调制来调制[17]，即，脏镜头伪像表现为漫射的和半透明的，而背景场景的高频纹理被部分地保留。这使得图像或视频修复方法[6，55，19，46，54]不足以完成我们的任务，因为它们完全忽略了底层结构和幻觉内容。尽管在视觉上似乎是合理的，但它们可能与真实场景显著偏离。此外，这些作品作为- sume的完成区域规定由用户给定的掩模，而我们的任务自动识别的degradation区域，这是从相机运动推断。这项工作更密切地关系到单一的图像伪影2012去除雨滴[11，18，32，33]，反射[3，12，45，57]和薄障碍物[29]。这些工作通常采用学习方法，利用自然图像的空间先验来恢复空间变化退化。尽管如此，单个图像的伪影去除本质上是不适定的，并且学习的空间先验通常不能推广到具有域间隙的场景。为了解决这个问题，多帧方法[2，28，47]通过利用两个层之间存在运动差异的事实来解耦遮挡和背景场景，并且在一个帧中被遮挡的像素可能在其他帧中被揭示特别是，最近的基于学习的方法[28]在消除不需要的反射和障碍方面实现了显著的质量。然而，该方法仅考虑固定数量的相邻帧作为输入，其应根据运动的幅度和障碍物大小而变化，而我们的经常性方案支持任意数量的相邻帧用于恢复直到收敛。在这项工作中，我们提出了一个基于学习的框架，专门用于去除移动相机的污染物伪影。为此，我们首先训练网络，以自动发现污染物伪影，这些伪影通常在具有移动摄像机的视频的流图中突出。与层分解相反，我们只关注背景运动，其中污染物的退化区域被我们的流完成网络幻觉化和柔和地混合，这取决于背景被遮挡的程度。为了利用跨越任意数量的帧的信息，针对每个帧的恢复是重复的。也就是说，为了恢复一个帧，我们一个接一个地循环馈送相邻帧在完成的背景流的引导下，伪影区域内的像素可以通过参考来自其他帧的对应的干净像素来到目前为止，恢复操作对每个输入帧单独，只利用其相邻帧的信息。为了为整个视频产生时间上一致的结果，我们提出了另一个多帧处理阶段，其中我们再次遵循相同的流水线，但这次使用来自最后一个递归阶段的恢复结果作为输入。我们以监督的方式训练整个框架。为了实现这一点，我们提出了一个合成的数据集，遵循污染物伪影的成像物理。大量的实验证明，所提出的模型可以推广到真正的脏镜头视频（如图1所示），在定性和定量上都优于强基线。我们的贡献可归纳如下：• 我们提出了第一种深度学习方法来专门解决移动相机的污染物伪影。该方法在真实视频上的性能优于一般的恢复方法。• 一个物理启发的合成数据集，提出了模仿真正的污染物文物。• 我们提出了一个流完成模块，以有效地幻觉的背景运动的退化区域内的部分可见的结构线索。• 所提出的循环方案不仅有助于利用多个相邻帧信息来恢复各个帧，而且还可以被重新使用以细化这种逐帧输出，并最终产生时间上相干的视频结果。2. 相关工作相机伪影消除。先驱工作[17]提出了一种基于物理的方法来去除脏镜头伪影，但他们提出的逐点恢复无法处理复杂的伪影。另一方面，以下工作仅关注污染物检测[1，8，43，49]，而不研究如何给出具有污染物去除的干净图像。事实上，伪影区域可以通过后续内容完成来恢复[29，25，54，30]，但这将完全忽略退化区域内的底层结构。相比之下，我们共同考虑在一个单一的框架，利用部分可见的结构，尽可能多的人工定位和恢复值得注意的是，镜头光斑或眩光是另一种常见的镜头伪影，其困扰其中场景也被部分遮挡的摄影尽管如此，现有的解决方案[4，34，44]集中在固有不适定的单个图像恢复上，而我们的方法明确地利用由移动相机捕获的多帧信息。附着雨滴清除。已经提出了许多方法来解决附着在玻璃窗、挡风玻璃等上的雨滴，大多数情况下是单个图像[11，32，18，33]。已经提出了几种方法来从视频中去除雨滴[37，48，51，52，53]。然而，在使用空间-时间信息检测雨滴之后，这些方法依赖于现成的视频修复技术来恢复视频，其没有充分利用雨滴内的部分可见的细节。此外，雨滴检测和恢复分别进行了优化。最近，Liuet al. [28]提出了一种用于去除不需要的障碍物的学习方法，所述障碍物还包括半透明的雨滴。而不是制定层分解的问题，我们只考虑场景的运动，并使用一个经常性的计划，考虑从任意数量的相邻帧的信息。此外，我们的方法不需要耗时的在线优化作为处理现实世界的序列的后处理。基于视频的恢复基于视频的恢复，如视频修复，视频去噪和视频去模糊uti2013循环网络循环网络编码器循环网络------W----联系我们IIIt+N...It（a）单帧恢复PtP1P2…...(b)多帧处理图2：我们用于污染物去除的两级循环网络概述(a)在单帧恢复阶段中，通过逐个馈送其相邻帧来逐步恢复帧It（b）多帧处理级将逐帧结果Pt作为输入，并且循环地处理它们以产生时间相干结果{Ot}。lizes用于恢复的空间-时间信息。一种典型的应用是去除雨痕。虽然现有方法依赖于手工制作的特征[5，13，14，15，16，38，56]，但最近流行的方法诉诸于深度神经网络[7，24]。虽然其中一些也采用循环方案[26，27，50]来利用时间信息，但对于我们的问题，已经唯一考虑了额外的模块，如流完成，多帧处理。3. 方法图2说明了拟议的两阶段经常性框架。给定遭受污染伪影的输入帧It，我们首先通过迭代地利用在相机运动下可以揭示一些新的干净像素的相邻帧It-N≤k≤t+N来逐渐恢复退化区域。这通过将帧与超分辨率流对齐来实现。这样，我们获得逐帧中间输出Pt，其被进一步馈送到多帧处理级中并且产生考虑相对于较早时间处的输出的时间一致性的帧Ot接下来，我们介绍一个合成数据集，它逼真地模拟了用于训练的污染物伪影（第3.1节）。然后，我们详细介绍了单帧恢复（第3.2节）和多帧处理（第3.3节），分别。3.1. 数据集构建获得大量的真实场景的良好对齐的视频对是具有挑战性的，因此我们合成了一个训练数据集，该训练数据集覆盖了真实和多样化的污染物艺术。图3：来自我们的合成数据集的样本。第一行示出了具有污染伪影的图像，并且第二行示出了对应的地面实况图像。辐照度具体来说，我们使用Blender [10]进行渲染。我们收集了大量的移动摄像机视频作为源帧，作为场景纹理表示我们的场景。在场景和摄影机之间，我们添加了一个折射率设置为1的玻璃层来模拟污染物。我们用随机变形的颗粒附着在玻璃层上模拟污染物，以模仿不同的形状，使我们的方法可以处理各种现实世界的情况。污染物的材质是不同着色器的混合：玻璃着色器添加了一些折射，发射着色器提供了一些辐射，以便模拟由于镜头污垢引起的散射，而透明着色器对污染物引起的光衰减进行建模。通过随机改变这些着色器的参数，我们能够模拟常见污染物的影响。对于视频中的连续帧，用于生成随机内容的参数为了一致性是相同的。但是对于来自不同视频序列的帧，我们使用随机参数并且独立地合成它们图3显示了我们渲染的图像的示例合成样本紧密地模仿真实污染图像，并且具有大的变化以覆盖真实照片中的常见情况。3.2. 单帧恢复在该阶段中，我们旨在通过循环地参考相邻帧Ik来从帧Ik中去除伪影。图4（a）描述了单帧恢复的过程。我们首先估计两个帧It，Ik之间的双向流Ft→k，Fk→t，并检测注意图At，Ak，以基于流定位退化区域。在注意力地图的指导下，我们通过流程完成模块完成背景运动，以便我们可以相应地将参考帧向输入扭曲。像素检查模块验证变形参考k→t（Ik）中的像素是否可以用于恢复It中的对应污染像素。接下来，循环时间融合模块通过利用有效干净像素将恢复结果从Ti-1更新到Tit t事实为此，我们按照污染物如何影响图像的物理模型[17]从Wk→t（Ik）以及递归隐态hi−1最后一次迭代（i-1）。最后，藏-均p0O0O1O2循环网络循环网络编码器OM循环网络2014不不--hi时间融合{O，P}t-1不Ft→t-1FYt-1t→Wthi-1Ot空间复原流程完成流量估测{It，Ik}{Ft→k，Fk→t}FYt→kWk→t（Ik）我不不hi时间融合Ti不Pi不{At，Ak}效果的t像素检查关注检测空间复原流程完成流量估测(a) 单帧复原(b) 多帧处理图4：用于（a）单帧恢复和（b）多帧处理的循环流水线的概述den表示被解码为图像输出Pi，其中空间恢复模块。流量估计注意检测。我们首先使用现成的RAFT模型[ 42 ]估计输入I t与其相邻帧I k之间的光流Ft→k、Fk→t。如图4（a）所示，污染物在估计流量中变得显著因此，我们可以利用它来帮助预测指示退化区域的注意力地图具体地，我们采用U-网[36]来使用流Ft→k的信息以及帧It来估计I t的注意力图A t。该网络是用At和地面真实Agt之间的二元交叉熵（BCE）损失来训练的：L=−1ΣAgtlogA+ （ 1−Agt ） log （ 1−A ）（1）Ik（a）降级流量（b）完成流量It通过（a）扭曲Ik通过（b）扭曲I k图5：我们的流完成模块的效果。的att哪里HWttt p标记区域的t中间仍然退化，其中使用退化的流进行翘曲Wk→t（Ik），但是被校正填充p索引像素，HW是图像分辨率。类似地，可以使用逆流Fk-t和帧Ik来估计Ik的注意力图Ak。在此，At的值越高表示被污染物堵塞的可能性越高流完成像素检查。由于快速移动的背景和相对静止的污染物之间的运动差异，在一个帧中退化的像素因此，我们可以利用这一事实来恢复视频帧。为了利用来自参考帧的对应的干净像素，我们需要对在退化区域内不可靠地估计的背景场景的流进行幻觉为此，我们提出了一个流完成模块，其效果如图5所示：退化区域内的像素可以完成的流程。仅根据完成的流程用干净像素正确填充。请注意，我们的流完成模块不仅纠正退化区域，但自动解决在清洁和退化区域的流错误。值得注意的是，退化区域内的估计流量可能不是一直不可靠的，因为流量模块可以利用部分可见的结构并引起正确的流量估计。因此，流完成应该根据背景结构可见的程度灵活地使流产生幻觉。因此，我们提出了一个特征融合层，动态融合两个分支的特征：输入和流量幻觉从2015预测i−1T：不W×2NGTW不不不不不不不不L流量=¨Ft′k-Ft→k¨γ| 2 N −i|<$T i −Ct<$空间¨2NLt¨2不G⊙Ll llΣ Σ¨¨scratch，根据融合权重图α：fout=fin⊙α+Gl（fin）⊙（1−α）（2）递归模块采用卷积门控递归单元（ConvGRU）[9]，并且迭代过程可以用公式表示如下：其中f在和f出来是输入和输出功能zi=σ（Con v[hi−1，xi]）分别地，l表示映射函数，并且是Hadamard算子。得到了融合权值图从具有层Gα的输入特征图ri=σ（Con v[hi−1，xi]）h′= tanh（Conv[ri⊙hi−1，xi]）（六）sigmoid压缩函数：α=sigmoid（Gα（fin））（3）α中的较大值表示劣化像素更可见，因此流完成对流输入更有信心，并且更少地采用超分辨率值。流完成模块具有自动编码器架构，其编码器由六个这样的融合层组成，而我们放置四个融合层，在底部的膨胀另一方面，解码器采用如[42]的上采样模块，即，学习在粗分辨率的局部3× 3我们用输出之间的1个损失来强制流补全′以及地面实况Fgt，→k t→k¨ ¨→1hi=（1−zi）⊙hi−1+zi⊙h′其中zi和ri分别是更新门和复位门，并且xi是输入的特征，其是帧It、注意力图At、扭曲帧k→t（Ik）和有效恢复图A效果的级联。一旦隐藏状态被GRU块更新，它将通过三个卷积层，然后通过S形函数来预测混合掩码M，该混合掩码用于注意融合翘曲Wk→t（Ik）和中间不Ti=M⊙ Wk→t（Ik）+（1−M）⊙Ti−1（7）我们通过最小化其对地面真值Ct的均方误差来执行这样的中间结果。注意，我们计算所有迭代的损失，并且每次迭代由不同的因子来计算：1Σ¨ ¨2N不在定位了两个帧中的伪影并获得了背景流之后，我们可以确定Ik的哪个像素对于恢复当前帧的退化像素是有用的我们通过计算以下映射来识别 k→t（Ik）A效应 = （ 1− Wk→t （ Ak ）） ⊙ At ，（5），我们用它来指导下面的恢复模块。时空恢复现有方法[51，53，28]利用来自固定数量的帧的时空信息，但相邻帧恢复所需的时间可以根据相机运动的幅度和退化区域的大小而在在实验中，我们根据经验使用γ = 0。8.当利用更多的相邻帧时，恢复亲不断改善。然而，可能存在场景位置被遮挡在所有帧中，因此仍然需要利用空间先验进行恢复。我们使用来自[32]的上下文自动编码器架构用于该空间恢复任务，如图4（a）所示网络接收时间融合结果T i和隐藏状态hi作为输入，并通过最小化感知损失来学习空间恢复[21]：112N L2L=（P）−（C）（9）i=1l =1考虑到这一点，我们提出了一种循环恢复网络，其提供了馈送不同数量的相邻帧的灵活性，并且由此可以在必要时利用长期时间信息。整个递归恢复模块包括两个步骤：时间融合和空间恢复。时间融合迭代地估计时间恢复结果的序列在每次迭代中，递归模块基于上一次迭代的T i− 1和h i− 1产生中间图像恢复T i和隐藏状态hi。我们认为It是初始恢复结果，即，T0= It。其中P1表示第i个迭代处的空间恢复输出并且l是预训练的VGG模型的第l层[39]。空间恢复模块能够在训练期间处理不同水平的退化，补充循环融合的恢复能力。总之，我们使用以下目标函数训练整个单帧恢复网络：L单个=Latt+L流量+λ1L融合+λ2L空间（10）其中系数λ1和λ2平衡不同的项。在实验中，我们设Ft2.（四）L融合=i=12 .（八）2016置λ1= 100和λ2= 10。2017Σ1，−C−W（C）¨，¨WW帧输入流GT流转换GATEDConv融合图6：用于流完成的不同网络架构的示例结果。我们的完整模型具有特征融合层和上采样模块，可以产生更准确的结果，具有更清晰的运动边界。输入GT w/o注意力图w/o流完成w/o空间恢复。完整模型图7：单帧阶段的消融研究。我们的完整模型可以生成具有更少可见伪影的结果。3.3. 多帧处理连续输出之间的时间一致性：到目前为止，基于相邻帧单独处理视频帧。因此，单帧恢复（由k表示）可以公式化为，L时间=MM−1t=22t−1→tt−12µPt= Ψ（It| {Ik}），k ∈ [t − N，t +N]。（十一）然而，由于逐帧处理的性质，不能保证整个输出序列上的时间一致性。为了解决这个问题，我们提出了如图2（b）和图4（b）所示的多帧处理阶段。与在不同迭代中保持细化一个帧的第一阶段相反，多帧处理在迭代期间细化不同的输入帧。具体地说，我们按顺序馈送第一级的输出，并让网络基于较早的输出帧Ot−1调整Pt，因此处理变为：0t=Ψ（Pt|Ot−1），O0=P0。（十二）流水线的一个细微差别是不再需要注意力检测模块，因为输入帧{Pt}已经被逐帧处理清除此外，我们引入时间损失L_temporal来执行？Ot−Wt−1→t（Ot−1）1（十三）其中t−1→t（Ct−1）和t−1→t（Ot−1）是使用地面真值流的帧扭曲，M是视频序列的长度，我们设置指数系数µ=0。02.用于训练多帧处理的总损失被定义为，L多=L流+λ1L融合+λ2L空间+λ3L时间，其中新引入的权重λ3被设置为10。4. 实验4.1. 执行培训详情。我们采用Adam优化器[22]，其中β1=0。9，β2=0。999，学习率为0.0001，用于训练的批量大小为8个图像每个图像使用五个相邻帧作为输入，其中中间帧是要在单帧阶段中恢复的帧在训练过程中，我们将这些图像从384×384随机裁剪到256×256（十四）、2018不不不P表1：流量完成网络的消融研究Input Conv GatedConv FeatFusionOursEPE↓3.17 2.10 1.89 1.721.60表2：单帧阶段的消融研究。模型PSNR↑SSIM↑ Ewarp↓表3：我们的方法与其他方法的定量比较。方法类型PSNR↑SSIM↑ Ewarp↓[20]第20话我爱你ObsRemoval [28]基于视频29.17 0.952 0.0052用于数据增强。首先需要300个时期来训练单帧阶段。之后，我们在整个数据集上运行经过训练的单帧模型，以生成多帧阶段的训练集，这需要另外50It−1It+1It−2It+2时代趋同。我们的方法是使用Py-ItT12 3 4 4t t t t t t火炬[31]。整个培训在8个GeForce RTX 2080Ti GPU上进行，耗时约5数据集。我们渲染600个视频片段对作为我们的训练集，其中每个片段具有30帧，6fps和分辨率。384×384 对于测试集，我们再生产30个图8：示例结果显示了我们的递归网络的渐进恢复。第一行是输入的相邻帧，并且第二行是对应的恢复结果。三十四4具有随机呈现参数的剪辑对以与训练集区分。我们将使用该测试集进行消融研究和比较中的定量评价，因为地面实况视频可用。对于定性结果，我们使用CanonEOS 80D相机捕获具有粘附到镜头的不同污染物的真实视频。4.2. 消融研究三十四2三十四0三十三岁。8三十三岁。6三十三岁。4三十三岁。21 2 3 4 5 6 7 8数目的相邻帧0的情况。9620的情况。9600的情况。9580的情况。9560的情况。9541 2 3 4 5 6 7 8数目的相邻帧流程完成网络。我们首先进行了消融研究，以证明我们的流量补偿网络的有效性。使用具有相同注意力检测模块的不同架构来学习完成的流。具体来说，我们采用相同的编码器-解码器架构，其中包含普通卷积层（ Conv ），用于图像修复的门控卷积层（ GatedConv ） [54] 和我们的特征融合层（FeatFusion）。最后，我们使用特征融合图9：我们的方法与不同输入帧的质量比较我们的方法是能够使用更多的帧更好的性能，直到收敛。层，并用我们的上采样模块替换解码器，这是我们的流完成任务的完整模型（我们的）。作为输入PReNet [35] AttGAN [32] 我们的（第一阶段）我们如表1和图6所示，我们的完整模型实现了最精确的流，具有最低的端点误差（EPE）和最清晰的运动边界。主要成分的有效性。我们在第一阶段验证三个主要组成部分的有效性：注意检测、流完成和空间恢复。为了保持所有其他模块的完整性，我们删除了注意力检测模块，将注意力地图与所有zeros后续模块。对于流补全的移除，我们直接使用降级流而不使用任何PSNRSSIM不无注意力地图33.700.9760.0046FastDVDnet [41]基于视频31.950.9360.0051不带流程完成34.090.9750.0046我们的（第一阶段）基于视频35.370.9800.0045无空间恢复29.610.9530.0049我们基于视频34.980.9790.0035完整模型35.370.9800.0045PReNet [35]单图像33.780.9770.0049AttGAN [32]单图像35.050.9800.00472019图十：定性比较单图像真实图像的复原方法。处理.除了使用诸如PSNR和SSIM之类的度量之外，我们还使用来自[23]的扭曲误差（Ewarp）来测量结果的时间一致性，即我们应用[40]中的方法来检测遮挡区域并计算除这些像素之外的每两个连续帧之间的一致性。如表2所示，当使用完整模型时，在PSNR、SSIM和E翘曲来自测试集的示例有2020×[20]第28话：我的世界，我的世界图11：在被污垢污染的真实视频帧上与基于视频的恢复方法的定性比较如图7所示。可以看出，所提出的完整模型可以生成具有更少可见伪影的结果。复发性恢复。由于我们的网络的循环设计，我们的方法能够通过迭代地利用相邻帧来渐进地恢复帧，如图8所示。在该示例中，使用时间融合的四次迭代来获得输出。图9绘制了PSNR和SSIM结果与输入帧或迭代次数的关系，表明最佳迭代次数约为6。我们还可以通过使用来自时间恢复模块的混合掩模来自动确定迭代次数，该混合掩模指示在当前帧/迭代处有多少像素用于恢复因此，我们可以在它达到给定阈值以下时停止。由于我们的训练数据集包括具有不同运动幅度的视频，因此网络可以学习在每次迭代中处理不同的情况另外，由于递归单元的特殊设计，它可以通用于不同的迭代次数，并具有令人满意的性能。4.3. 比较我们比较我们的方法与相关技术的单图像和基于视频的恢复我们的测试集。包括五种具有公共源代码的竞争方法，它们是PReNet [35]，AttGAN [32]，Fast-Derain [20]，ObsRemoval [28]和FastDVDnet [41]。其中，FastDerain [20]是一种基于优化的方法，其他方法是基于学习的方法，它们在相同的训练集上重新训练。所有基于视频的方法都利用与我们的方法相同数量的输入帧来进行比较期间的训练和测试。这些方法专注于不同的恢复任务，如附着雨滴去除[32]，雨条纹去除/去噪[35，20]，障碍物去除[28]和视频去噪[41]，这些都可能应用于我们的任务。如表3所示，我们的单帧阶段在PSNR和SSIM方面优于其他方法，而具有多帧处理的完整模型实现最低的翘曲误差。完整模型中的新的时间损失显著提高了时间一致性，尽管PSNR和SSIM略有下降。图10和图11示出了用于定性比较的真实场景上的结果。我们的方法很好地推广到真实捕获的图像，并展示了更直观的结果，没有明显的污染物文物。图1表明，我们的方法能够去除现实世界中的各种污染物，并产生高质量的结果。我们在补充材料中提供了与视频输出相结合的其他结果。运行时间。我们评估的推理时间的所有比较方法的英特尔至强金牌6244机器与Nvidia GeForce RTX-2080 TiGPU卡。输入视频的分辨率为256256 平均时间对于不同的方法，处理一个帧的时间间隔对于PReNet[35]是0.029s，对于AttGAN [32]是0.025s，对于Fast-Derain [20]是1.28s，对于ObsRemoval [28]是1.25s，对于 Fast-DVDnet 是 0.0088s，并且对于我们的方法是0.88s。5. 结论我们提出了一个新的框架，消除了污染的伪影移动相机。我们提出了一个atten- tion检测模块本地化的退化区域和一个流完成模块，以恢复更好的对齐的背景运动- tion。在注意图和恢复的流的引导下，我们使用参考帧将对应的干净像素循环地融合到当前帧最终，多帧处理阶段改善了时间一致性。在合成数据集和真实场景上的实验验证了每个组件的有效性，并证明了与现有方法相比的质量优势我们将使合成数据集与源代码一起公开，并希望有利于以下工作。鸣谢：这项工作部分得到香港研究资助局（研资局）给予科大和城大的拨款支持，包括拨款9048148（城大21209119）下的早期职业计划。2021引用[1] Vivek Akkala ， Parth Parikh ， BS Mahesh ， Ajinkya SDeshmukh，and Swarup Medasani.使用时空模糊的透镜粘附污染物检测。2016年信号处理与通信国际会议（SPCOM），第1IEEE，2016.2[2] Jean-Baptiste Alayrac、Joao Carreira和Andrew Zisserman。目视离心机：无模型分层视频表示。在IEEE/CVF计算机视觉和专利识别会议的论文集，第2457-2466页，2019年。2[3] NikolaosArvanitopoulos 、 RadhakrishnaAchanta 和 SabineSusstrunk。单图像反射抑制。在IEEE计算机视觉和模式识别会议论文集，第4498-4506页，2017年。2[4] CS Asha，Sooraj Kumar Bhat，Deepa Nayak和Chaithra Bhat。自动去除闪光光源下拍摄的图像中的亮点。在2019年IEEE分布式计算，VLSI，电路和机器人国际会议（DISCOVER），第1-6页。IEEE，2019。2[5] Peter C Barnum、Srinivasa Narasimhan和Takeo Kanade。雨雪天气的频率空间分析。国际计算机视觉杂志，86（2-3）：256，2010。3[6] 张亚良，刘哲宇，李冠英，徐文松。使用3d门控卷积和时间patchgan的自由形式视频修复。在IEEE/CVF计算机视觉国际会议论文集，第9066-9075页1[7] Jie Chen，Cheen-Hau Tan，Junhui Hou，Lap-Pui Chau，and HeLi. cnn框架中用于雨去除的鲁棒视频内容对准和补偿在IEEE计算机视觉和模式识别会议论文集，第6286-6295页3[8] 李晨，朱大伟，田景，刘佳祥。基于运动奇异性分析的交通监控视频尘埃粒子检测数字信号处理，58：127-133，2016。2[9] Kyungh yunCho ， BartVanMerri eenboer ， DzmitryBahdanau ，andYoshua Bengio.关于神经机器翻译的特性：编码器-解码器方法。arXiv预印本arXiv：1409.1259，2014。5[10] Blender在线社区。Blender-3D建模和渲染软件包。Blender基金会，Stichting Blender基金会，Ams-鹿特丹，2018。3[11] David Eigen、Dilip Krishnan和Rob Fergus。恢复通过被灰尘或雨水覆盖的窗户拍摄的图像。在IEEE计算机视觉国际会议论文集，第633- 640页，2013年。2[12] Qingnan Fan，Jiaolong Yang，Gang Hua，Baoquan Chen，andDavid Wipf. 用于单个图像反射去除和图像平滑的通用深度架构在IEEE计算机视觉国际会议论文集，第3238-3247页2[13] Kshitiz Garg和Shree K Nayar。从视频中检测和去除雨水2004年IEEE计算机协会计算机视觉和模式识别会议论文集，2004年。CVPR 2004。，第1卷，第I-I页。IEEE，2004年。3[14] Kshitiz Garg和Shree K Nayar。相机什么时候能看到雨？在第十届IEEE计算机视觉国际会议（ICCV第1卷，第2卷，第1067-1074页。IEEE，2005年。3[15] Kshitiz Garg和Shree K Nayar。雨条纹的真实感渲染。ACMTransactions on Graphics（TOG），25（3）：996-1002，2006.3[16] Kshitiz Garg和Shree K Nayar。视觉与雨International Journal ofComputer Vision，75（1）：3-27，2007. 3[17] Jinwei Gu ， Ravi Ramamoorthi ， Peter Belhumeur ， and ShreeNayar.去除由于脏的摄像机镜头和薄的遮光器造成的图像伪影ACM SIGGRAPH Asia 2009论文，第1ACM，2009年。一、二、三[18] Zhixiang Hao，Shaodi You，Yu Li，Kunming Li，and Feng Lu.从合成真实感雨滴学习去除单个图像雨滴。在IEEE计算机视觉研讨会国际会议论文集，第0-0页，2019年。2[19] Jia-Bin Huang，Sing Bing Kang，Narendra Ahuja，and JohannesKopf.动态视频的时间相干完成。ACM Transactions on Graphics（TOG），35（6）：1-11，2016。1[20] Tai-Xiang Jiang ， Ting-Zhu Huang ， Xi-Le Zhao ， Liang-JianDeng，and Yao Wang.Fastderain：一种新的视频雨条纹去除方法，使用方向梯度先验。 IEEE Transactions on ImageProcessing，28（4）：2089-2102，2018。七、八[21] 贾斯汀·约翰逊，亚历山大·阿拉希，李飞飞。实时风格转换和超分辨率的感知损失在欧洲计算机视觉会议上，第694-711页施普林格，2016年。5[22] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。6[23] Wei-Sheng Lai，Jia-Bin Huang，Oliver Wang，Eli Shechtman，Ersin Yumer，and Ming-Hsuan Yang.学习盲视频时间一致性。在欧洲计算机视觉会议（ECCV）的会议记录中，第170-185页，2018年。7[24] 李明翰、谢七、赵千、薇薇、古书航、景涛、梦德玉。多尺度卷积稀疏编码消除视频雨痕。在IEEE计算机视觉和模式识别集，第6644-6653页，2018年。3[25] Guilin Liu，Fitsum A Reda，Kevin J Shih，Ting-Chun Wang，Andrew Tao，and Bryan Catanzaro.使用部分卷积的不规则孔图像修复在欧洲计算机视觉会议（ECCV）中，第85-100页，2018年。2[26] Jiaying Liu，Wenhan Yang，Shuai Yang，and Zongming Guo.D3 r-net：动态路由剩余递归网络，用于视频雨清除. IEEETransactions on Image Processing，28（2）：699-712，2018。3[27] Jiaying Liu，Wenhan Yang，Shuai Yang，and Zongming Guo.擦除还是填充？视频中的深关节复发性雨水去除和重建。在IEEE计算机视觉和模式识别会议论文集，第3233-3242页3[28] 刘玉伦，赖伟胜，杨明轩，庄永玉，黄家斌。学会看穿障碍物。在IEEE/CVF计算机视觉和专利识别会议的论文集，第14215-14224页，2020年。二、五、七、八[29] Scott McCloskey，Michael Langer，and Kaleem Siddiqi.从单个图像中去除部分遮挡。IEEE Transactions on Pattern Analysisand Machine Intelligence，33（3）：647-654，2010. 2[30] Kamyar Nazeri，Eric Ng，Tony Joseph，Faisal Z Qureshi，andMehran Ebrahimi.边缘连接：生成式图像修复与adversar- ial边缘学习。arXiv预印本arXiv：1901.00212，2019。2[31] Adam Paszke ， Sam Gross ， Francisco Massa ， Adam Lerer ，James Bradbury ， Gregory Chanan ， Trevor Killeen ， ZemingLin，Natalia Gimelshein，Luca Antiga，et al. Pytorch：一个命令式风格的高性能深度学习库。神经信息处理系统进展，第8024-8035页，2019年。7[32] Rui Qian，Robby T Tan，Wenhan Yang，Jiajun Su，and JiayingLiu.用于从单个图像中去除雨滴的注意生成对抗网络。在IEEE计算机视觉和模式识别会议论文集，第2482-2491页，2018年。二、五、七、八[33] Yuhui Quan，Shijie Deng，Yixin Chen，and Hui Ji.深度学习：透过雨滴看窗外在IEEE计算机视觉国际会议论文集，第2463-2471页，2019年。2[34] Ramesh Raskar，Amit Agrawal，Cyrus A Wilson，and AshokVeer-araghavan.眩光感知摄影：用于减少相机镜头的眩光效应的 4D 光线采样。 ACM SIGGRAPH 2008 论文，第 1-10 页。ACM，2008年。2[35] Dongwei Ren，Wangmeng Zuo，Qinghua Hu，Pengfei Zhu，and Deyu Meng.渐进式图像去重网络：更好更简单的基线。在IEEE/CVF计算机视觉和模式识别集，第3937-3946页，2019年。七、八2022[36] Olaf Ronneberger，Philipp Fischer，and Thomas Brox. U-net：用于生物医学图像分割的卷积网络。在医学图像计算和计算机辅助干预国际会议上，第234-241页。施普林格，2015年。4[37] Martin Roser和Andreas Geiger。改进图像配准的基于视频的雨滴检测。2009年IEEE第12届计算机视觉研讨会国际会议，ICCV研讨会，第570-577页IEEE，2009年。2[38] Varun Santhaseelan和Vijayan K Asari。利用局部相位信息去除视频中的雨水。International Journal of Computer Vision，112（1）：71-89，2015. 3[39] Karen Simonyan和Andrew Zisserman用于大规模图像识别的非常深的卷积网络。arXiv预印本arXiv：1409.1556，2014。5[40] Narayanan Sundaram，Thomas Brox，and Kurt Keutzer.用gpu加速大位移光流法实现密集欧洲计算机视觉会议，第438-451页。施普林格，2010年。7[41] 马蒂亚斯·塔萨诺朱莉·德隆托马斯·维特Fastdvdnet：Towardsreal-timedeepvideonotifyingwithoutflowestimation. 在IEEE/CVF计算

下载后可阅读完整内容，剩余1页未读，立即下载