高效的多帧防护算法及其在栅栏移除中的应用

48 浏览量更新于2023-10-16 收藏 1.33MB PDF 举报

算法效率

图像修复

身份认证购VIP最低享 7 折!

30元优惠券

1838高效的流引导多帧防护Stavros Tsogkas Fengjia Zhang Allan Jepson Alex Levinshtein三星AI中心多伦多101 College St.，多伦多，安大略省，加拿大，M5G 1L7{stavros.t，f.zhang2，allan.jepson，alex.lev} @ samsung.com摘要在“野外”拍摄照片通常会受到相机用户和感兴趣的场景之间的围栏障碍物的阻碍，这些障碍物很难或不可能避免。去围栏是自动从图像中移除此类障碍物的算法过程，从而显示场景中不可见的部分。虽然这个问题可以用公式表示为栅栏分割和图像修复的组合，但这通常会导致被遮挡区域的难以置信的半透明。现有的多帧方法依赖于将信息从其时间邻居传播到所选择的关键帧，但是它们通常效率低下并且难以对准严重遮挡的图像。在这项工作中，我们从视频完成文献中获得灵感，并开发了一个简化的多帧防御框架，直接从受阻帧计算高质量的流图，并使用它们来准确地对齐帧。我们的主要重点是在现实世界中的效率和实用性：我们的算法的输入是短的图像突发（5帧）--在现代智能电话中通常可用的数据模态--并且输出是单个重建的关键帧，其中栅栏被移除。我们的方法利用简单而有效的CNN模块，在精心生成的合成数据上进行训练，在实时运行的同时，在定量和定性方面都优于更复杂的替代品1. 介绍照相机硬件和图像处理软件的快速改进已经使现代手机成为功能强大而又便携的图像和视频记录设备。这使得并鼓励休闲用户拍摄照片，而没有任何时间进行特殊的准备，设置或拍摄框架。另一方面，在这些条件下拍摄的照片和视频很少只包含感兴趣的对象，并且受到主体和用户之间的各种障碍物的阻碍。其中一种障碍特别令人感兴趣，图1：我们训练了一个简单而有效的防御模型：从图像中移除栅栏障碍物，揭示感兴趣的底层场景。我们的方法是快速的，可以准确地删除不同大小和出现的栅栏从真正的爆发，没有在线微调。最常见的就是栅栏想象一下，例如，通过动物园围栏拍摄动物的照片，或者人们在围栏外的户外球场打篮球;这些仅仅是被栅栏结构阻挡的几个日常场景，这些栅栏结构要么不方便，要么完全不可能避免。Defencing使用计算机视觉算法自动从图像中移除此类围栏障碍物防御是一个比最初看起来更难的问题。栅栏具有不同的结构和外观图案，并且具有不同的厚度和大小。此外，背景场景的重建可能会变得具有挑战性，因为低照明和噪声，或运动模糊，由快速移动的对象引起的。第一个以原则性的方式解决防御问题的作品是刘等人的[32、19]。他们制定的问题，lem作为一个重复的前景模式，表现出近似平移对称的分割，其次是修复恢复被遮挡的图像区域。[32]的方法主要受限于它使用单个图像作为输入的事实。由于栅栏遮挡物的不透明性，场景中被遮挡的部分必须通过修复算法进行幻觉处理;[19]通过使用从不同视角拍摄的照片来部分地解决这个问题，以减少必须被幻觉化的像素的数量。防御也可以被视为层分离的更一般问题的特殊情况[21，1，5，14]，其将图像建模为单个层的组合。1839∼例如，包含障碍物的前景层和包含感兴趣场景的背景层。Xue等人。[31]将一般的障碍物去除公式化为由运动视差驱动的层分离问题。虽然他们的解决方案是通用的，效果很好，但它涉及多个耗时的手工调整优化步骤，以及使用手工制作的运动和图像先验。SOLD[14]是[31]的深度学习再现，其在障碍物去除方面实现了最先进的结果，并且还可以适于从多帧输入突发中去除栅栏。不幸的是，SOLD依赖于计算昂贵的网络进行流计算和帧重传，这使得它不适合在低功耗设备中使用。它还经常需要一个在线优化步骤，需要3分钟才能在实际突发上产生可接受的结果，即使没有这种特定于输入的微调，它也无法实时运行。最后，由于背景帧是重建CNN模块的输出，因此它们有时-包含不一致或伪影。流引导完成方法[7，29，29，13，35]通过计算被遮挡帧对之间的修复流图并使用它们将像素值显式地从其时间相邻帧传输到参考帧来减少此类伪影。在遮挡区域中修复流比直接修复像素值更容易，因此可以使用较低功率的网络，并且结果往往看起来更合理，因为像素值取自真实帧而不是由生成网络产生幻觉。这些作品没有对遮挡的形状和类型做出任何假设，其他事实是它是完全不透明的。然而，标记遮挡区域的掩模被认为是已知的，这对于我们的目的来说是不现实的要求。在这里，我们的目标是开发一个防御算法，优先考虑效率和实用性。我们开发了一个框架，享受基于流的视频完成方法的现实主义和模块化，同时显着更简单的训练和部署。我们算法的输入不是视频，而是K=5帧的较短突发，这是现代智能手机中非常常见的照片模式。遮挡的类型是已知的（栅栏），但我们不对它的空间范围或位置做任何假设;相反，我们训练了一个特定于类的分割模型来自动检测图像中的栅栏。计算被栅栏遮挡的场景的流图给我们带来了新的挑战，因为标准光流网络在重复模式的存在下失败为了解决这个问题，我们训练了一个分割感知的SPyNet[23]，它可以模拟计算和修补与被遮挡的背景场景相对应的流图，忽略前景遮挡。最后，为了定量评估我们的方法在真实数据上的性能，我们收集了多帧序列和相应的“伪地面实况”数据集。对于参考帧，使用类似于[3]的对齐过程。总结如下：• 我们设计了一个用于多帧防御的CNN管道，它简单，模块化，高效，易于训练。• 不像基于流的作品，假设遮挡是已知的，我们估计它自动从输入。• 我们训练了一个分割感知的光流模型，该模型可以可靠地估计与背景场景相对应的流，尽管存在严重的围栏障碍。• 我们的方法在合成和真实突发上实现了最先进的结果，而不需要序列特定的微调。因此，与替代品相比，它的运行时间显着降低。2. 相关工作2.1. 图像和视频屏蔽Liu等人[32]可能是第一个在计算机视觉上下文中正式引入defencing的工作，作为对称驱动的自动围栏分割，然后是inpainting。[19]通过使用在线学习来辅助网格检测和分割，并通过标记第二视点来改进修复，改进了这项工作。 Jonna等人[11，10]还通过使用深度数据补充RGB来改进围栏分割。[16 34]将防御扩展到任意数目帧的视频序列。Mu等人[16]依赖于运动视差来将前景栅栏障碍物与背景分开（尽管“栅栏”的定义相当松散），而Yi等人[16]依赖于运动视差来将前景栅栏障碍物与背景分开（尽管“栅栏”的定义[34]描述了一种用于视频防护的自下而上的方法，该方法使用颜色和运动提示对每个帧中的像素进行这两种方法都依赖于优化技术来改进其光流或帧修复结果。最近，深度学习已被用于视频防御[9，4]。Jonna等人[9]使用预训练的分类CNN作为特征提取器，并训练SVM分类器，以区分栅栏和非栅栏补丁。作者重新制定了现有的光流算法，使其具有遮挡意识，并使用FISTA优化恢复受保护的图像[2]。Du等人。[4]用全卷积网络（FCN）[15]替换CNN-SVM组合，并通过聚合来自相邻帧的我们的方法共享类似的管道，但简化了分割提取和遮挡感知流计算步骤，同时速度快得多，因为我们不执行测试时优化。2.2. 层分离栅栏移除问题的一个更通用的公式将图像视为层的组合，每个层具有1840∈×------联系我们它自己的alpha贴图（可以是半透明的），目标是分离图层。在[5]中，前景-背景层是两个卷积网络的输出，以无监督的方式对每个图像进行训练，并使用深度图像先验进行恢复[28]。类似的想法 Alayrac et al.[1]用于视频分解，但具有监督训练。用于视频分解的其他方法使用显式运动信息[31，14]。Xue等人[31]描述了一种用于以无监督方式从多帧序列的多尺度运动线索将场景分解为前景障碍层和背景场景的它们解决了一个优化问题，该问题交替地找到组成层和相应的运动场，当用于将突发与参考帧对齐时，可以以低误差重建原始帧。Liu等人提出了这一方法的现代化。已售出[14]。SOLD遵循类似的多尺度方法，使用卷积框架，用于层重建和运动估计-2.3. 基于流的视频补全视频完成是与多帧栅栏去除相关的问题，主要区别在于假设提供分段掩码，并且重点通常是较长的帧序列。我们的工作是由徐等人的动机。[29]，他提出了首先解决流修补的更容易的问题，然后使用完成的流将颜色值从其时间邻居传播到参考帧的想法由于不能保证所有被遮挡的像素在某些帧中都是可见的，因此必须使用单独的图像修复步骤来填充任何剩余的孔。Gao等人[6]通过沿对象边界合成尖锐的流边缘并使用非局部时间邻域来跨帧传播像素这些工作涉及一系列单独的、经过单独培训的处理阶段，其中一些是手工制作的，效率低下，并且可能会影响后续阶段的性能。Li等人[13]通过提出流引导视频完成的端到端框架他们的方法是与我们的方法同时开发的，并具有一些简单和高效的优点。然而，他们的框架仍然在提供遮挡掩模的假设下操作。3. 方法我们首先概述我们正在解决的问题，并建立我们在整个论文中使用的符号。我们算法的输入是KRGB的突发由未知的感兴趣背景场景{Bi}和未知的不透明前景组成的帧{Ii}以栅栏{Fi}的形式的遮挡。具体地说，Ii=Si·Fi+（1−Si）·Bi，（1）其中Si[0，1]是软栅栏遮挡掩模。我们的目标是训练一个模型，该模型从Ii中移除栅栏障碍物并恢复单个关键帧背景图像Bk，其中k是关键帧索引。我们不是直接输出无障碍帧，而是我们首先训练一个网络，该网络在Ii中的每个帧上单独应用，并输出栅栏分割预测Si。这些细分的作用是双重的：i）它们标记需要恢复的被遮挡区域; ii）它们用于调节分割感知网络，该分割感知网络直接从被遮挡输入I1计算仅对应于背景场景的光流。利用该网络，我们提取序列中关键帧Ik和每个其他帧Ij之间的流fkj，并对齐突发。最后，我们采用学习的流引导图像修复，以恢复关键帧的部分，被栅栏遮挡，从而产生最终输出Bk。在下面我们将详细解释每个步骤。3.1. 单帧栅栏分割我们的栅栏分割模型将单个RGB帧作为输入，可能包含栅栏，并输出软栅栏分割掩码。虽然这听起来像是一个相对简单的任务，但实际上存在多种挑战。首先，大尺寸的数据集和高质量的栅栏分割注释是令人惊讶的稀缺。最适合此任务的可能是Defencing数据集[4]。该数据集中的栅栏在外观、规模或结构方面没有表现出显著的差异，因此我们依靠大量的数据增强来训练一个对不同类型的栅栏和环境具有鲁棒性的网络更具体地说，我们对原始图像及其相关注释应用不同程度的缩小，以有效地创建不同比例的围栏（改变围栏宽度/距相机的距离）。为了增加Defencing数据集中有限的场景多样性，我们还使用地面实况分割来屏蔽围栏，并将其覆盖在DAVIS数据集的图像上[22]。最后，我们对栅栏图像应用随机水平翻转，并随机裁剪320 192窗口进行训练。分割网络本身是一个U型网络[24]，骨，具有四个编码器和四个解码器块，使用二进制交叉熵损失和ADAM优化器在我们的增强栅栏数据上从头开始训练[12]。为了获得[0，1]范围内的分割分数，我们在最后一个U网层的输出logits中应用sigmoid。表1列出了我们的方法在不同阈值下的精确召回率和f-测量分数。即使我们不1841IJ·IJK栅栏面罩K-1流量围栏选择格门塔光流帧修复重构突发（K帧）关键帧图2：给定一个带有栅栏障碍物的K帧突发作为输入，我们在移除栅栏后重建一个关键帧。我们的流水线由三个不同的步骤组成：a）首先，使用U网栅栏分割模型在每个输入帧上单独估计栅栏掩码（第二节）。b）估计的掩模用于调节分割感知光流SPyNetm，其同时计算和修补仅对应于背景场景的流，忽略重复的栅栏遮挡模式（第3.1c）最后，图像修复模块获取估计的掩模和流，相对于所选择的关键帧对齐帧，并填充缺失的像素值（第3.23.3）。方法精度召回F-measureDu等[4]美国0.9100.9590.934U-net（阈值=0.05）0.9080.9580.931U-net（阈值=0.1）0.9340.9420.937U-net（阈值=0.3）0.9690.8990.932表1：Defencing测试集的分割结果[4]。突发中的所有帧对，并使用扭曲到关键帧的帧来启动背景重建。请注意，在移除栅栏的情况下，仅在移除障碍物后计算背景层的根据作者的说法，原因是流量估计网络不能处理重复的结构，并且经常预测噪声结果，这使得对齐步骤不可靠。PWC-Net的权重被冻结的事实进一步加剧了这一点，因此它不能适应于处理从粗到细的SOLD架构中的第一级的背景层重建中的潜在误差;这可能因此在后续级别中产生不准确的流量估计，从而加剧误差。最后，PWC-Net依赖于成本体积计算，其运行时不会扩展fa。(a) Keyframe（b）SPyNet(c)SPyNetm（d）地面实况图3：标准光流网络在重复遮挡模式下失败我们的遮挡感知SPyNetm可以可靠地估计背景场景的光流，忽略前景遮挡。对于训练，使用来自多个帧的时间信息，如[4]，我们实现了相当的性能。3.2. 分割感知的光流估计光流计算是许多障碍物去除和视频完成管道中不可或缺的步骤。挑战在于如何在不被前景遮挡分散注意力的情况下对齐背景区域。SOLD [14]使用预训练的PWC-Net [25]来计算至少在使用公开可用的实现时[17]。另一方面，[29，6]使用FlowNet [8]计算阻塞帧对之间的流图。在这种情况下，一个关键的区别是，障碍物不遵循重复的结构模式，但通常是一个大的，紧凑的区域。这会导致流贴图包含在单独步骤中修复的孔。在我们的工作中，我们通过利用第3.1节中描述的栅栏分割网络大大简化了对遮挡场景的流量估计。首先，我们用更快、更轻量级的SPyNet [23]体系结构1取代PWC-Net.其次，我们修改其第一卷积层以输入栅栏分割掩码Si、Sj以及它们对应的输入帧Ii、Ij。我们修改后的SPYm- chitecture，然后估计掩模条件流图fm=SPYm（[Ii;Si]，[Ij;Sj]），（2）[]表示沿着通道维度的级联我们使用原始的预训练权重来初始化SPYm，除了输入层的修改部分，我们随机初始化。在训练期间，在覆盖在干净背景帧上的栅栏图像的合成生成的帧之间计算fm因此，我们使用在干净的网络[1]我们在方程式中简称为1842--K⊙MΣ|Mki------·我我F2N我 J|XIJ|XPT紧密结合原始的Tensorflow实现[14];我ki相对于参考系，产生对齐的掩码帧I_m=W（I_m，f_m）和对齐的栅栏掩码伊伊基~mSi= W（Si，f ki）. 我们还计算标记有效扭曲区域的二进制掩码Vi，并且对于在扭曲之后落入图像网格内的所有像素都是“开”的。fin=[{Im};{S};{Vi}]作为输入传递给残差图4：框架修复模块。我们使用预测的栅栏分割来屏蔽输入帧中的遮挡区域。然后，我们使用光流来扭曲（W）被掩蔽的帧和相应的掩模。最后，流量，密集网络（RDN）[36]，负责填充关键帧中的缺失区域我们还在掩蔽的关键帧Im和RDN的输出之间添加跳过连接，因此后者仅需要学习填充缺失区域而不是重建整个图像。修复模块以监督的方式使用L1损失和干净的背景作为基础事实进行训练有效性图（见正文），对齐的帧和掩码被连接（[·]）并作为特征传递到CNN预处理器。L的=1BNXK|X-（Ik+RDN（fin））|X|.（四）指示被遮挡区域中的关键帧残差。背景帧Bi、Bj作为伪地面实况目标。我们使用L1损失来微调SPYm：L=1Σ|SPY（B，B）− f|、（3）X3.4.实现细节我们在Python 3和Py- Torch中实现了我们的管道[20]。对于U-net、PWC-Net、SPyNet和RDN，我们使用其公开可用的第三方实现[27，18，17，33]。为了方便我们的实验，我们还在PyTorch中重新实现了SOLD（SOLD），如下所示-其中N是图像像素的数量，x表示我们评估的位置，并且我们对2N进行平均以说明u，v流动通道。SPyNet对分割预测的调节允许我们表示场景中与障碍物相对应的部分，并在计算背景流时忽略它们，解决了SOLD面临的一个基本问题。这个想法以前在[4]中探索过，但它涉及到一个昂贵的优化过程。我们的方法很简单，但对存在重大围栏障碍物的情况很稳健。分段感知流估计在各种实际设置中可以是有用的，其中想要忽略场景的部分作为干扰或噪声源。图3通过在相同的遮挡场景上比较普通SPyNet和我们的分割感知SPyNetm3.3.流引导多帧栅栏去除我们的围栏移除管道中的最后一个组件是帧修补模块，如图4所示。帧修复模块将被遮挡帧的序列Ii、使用掩码条件SPyNetm（第3.2节）在突发中的关键帧Ik和每个其他帧之间计算的前向流映射fm以及使用我们的单帧分割模型计算的栅栏分割掩码Si（第3.1节）作为输入我们首先使用Si来屏蔽对应于每帧中的栅栏的区域，我们计划公开我们的重新实现，以允许社区更广泛地使用和复制结果。除非另有说明，否则我们使用起始学习率训练所有模型1000个epochl r=10−4，权重衰减率w r=4 10−5，ADAM优化器[12]参数α=10−4，β1=0。9，β2=0。999，ε=10−8。所有这三个模型（栅栏分割、遮挡感知流量估计、帧内绘画是独立训练的。4. 培训和评估我们在实验中使用了两种数据。第一种类型是合成多帧序列，类似于以前的作品[4，14]。这些主要用于训练和验证实验，但保留的测试集也用于评估。第二种类型是具有栅栏障碍物的真实突发，其包括不受控制的序列，对于其没有地面实况干净帧可用，以及受控制的序列，其具有干净的背景场景（没有栅栏）作为地面实况。合成突发是通过在干净的场景（背景）上覆盖障碍（前景）层来生成的。我们从Vimeo-90 k [30]中获取背景场景（在训练和评估期间也用作地面实况），其中包括描述现实环境中日常活动的视频，通常包括人和其他物体。我们特别使用数据集2的原始测试分割，获得掩蔽帧I m= I i <$S i。则流f m为用于扭曲所有帧及其各自的分割2http://data.csail.mit.edu/tofu/testset/+WW残余[]密集网络（RDN）1843×∼≫其包含七（7）帧的序列训练和验证分割是动态生成的，但对于我们的评估实验，我们使用100个突发的固定测试集。前景围栏障碍物来自Defencing数据集[4]，其中包含545个训练图像和100个带有围栏的测试图像，以及相应的二进制掩码作为围栏分割的地面实况。该数据集中的序列是在各种户外条件下收集的，每个场景的帧数可变由于我们有地面真相围栏面具，我们可以用它们来掩盖围栏从任何给定的框架和覆盖-奠定了它在一个干净的背景从Vimeo。为了获得大小为K的栅栏图像突发，我们从单个帧中掩蔽出栅栏，并对其施加K个随机透视变形，以模拟由稍微不同的视点和运动引起的变化为了增加围栏和背景场景的可变性，我们在将它们融合到单个帧中之前应用各种形式的数据增强;这些在补充材料中详细列出真正的爆发。因为我们想开发一个实用的算法去除栅栏，良好的性能下的现实运动，照明和障碍模式是至关重要的。在以前的作品中，在真实序列上的性能是Liu等人[14]仅包括在受控环境中收集的具有栅栏状障碍物的两个序列，这对于适当的定量评价来说是太小的数据集。在本文中，我们构造了一组更广泛的控制序列，专门用于定量评估。而不是像刘等人那样收集玩具场景。[14]中，我们捕获具有栅栏的真实世界手持序列和没有栅栏的相应背景地面实况图像。由于我们无法物理移除围栏，因此我们将相机带到围栏并将其置于其中一个围栏单元格的中心，以便只有背景可见。为了在输入图像和地面实况图像中保持背景的相似水平的亮度和锐度，我们在捕获期间将相机的曝光和焦点固定在背景由于相机运动和照明的可能变化，输入关键帧及其相应的地面实况可能未对准或具有颜色差异。我们使用标准的基于特征的RANSAC直方图拟合来对齐场景的裁剪，类似于[3]，并使用颜色直方图匹配来校正颜色差异。然后，我们使用SSIM，PSNR和人类视觉检查过滤掉任何未对齐的作物我们最终的真实突发数据集由185 320 192个输入突发和相应的地面实况关键帧组成。有关数据集生成和图像的更多详细信息5. 实验我们比较我们的方法和其他作品的合成和真正的爆发。对于定量评估，我们使用我们合成生成的栅栏阻塞序列的测试集，以及第4节中描述的真实突发。对于所有基线，我们使用官方发布的模型权重，除了我们的SOLD重新实现。在我们的比较中，我们还省略了SOLD的序列特异性在线优化步骤虽然在线优化提高了性能，但它的运行时间相当慢（每次突发3对于定性评估和视觉比较，我们使用以前工作中的真实序列和我们收集的数据。5.1. 基线单帧基线。我们将地面实况或我们的（阈值化的）U网围栏掩码预测作为输入LaMa [26]，一种最先进的基于CNN的修复方法，用于创建单帧防御基线。LaMa将一个（可能被遮挡的）图像和一个二进制掩码作为输入，并对掩码标记的区域进行inpaints。SOLD [14]主要针对反射消除，但它可以适用于处理不透明的障碍物，如围栏或玻璃上的雨滴我们评估了原始的张量流模型（SOLDtf）和我们的PyTorch重新实现（SOLDpt），后者在我们的合成数据上进行了训练。流引导的视频完成在几个方面与我们的设置不同的设置中操作。首先，表示被遮挡区域的掩模是已知的，并且其形状是矩形的或者是视频中的对象的形状。第二，在一个典型的输入视频序列的帧数是K5.最后，输出是整个修复的视频。尽管如此，我们可以通过将栅栏分割作为遮挡掩模，将突发作为（短）视频序列处理，并仅保留参考帧的修补结果，以相对简单的方式应用这些方法进行在我们的实验中，我们使用公开提供的代码与两种最新的流引导方法FGVC [6]和E2FGVI[13]进行了比较。5.2. 对合成数据和真实数据的表2显示了合成和真实爆发的定量比较。我们报告的性能，在常用的SSIM，PSNR和LPIPS指标。对于LPIPS，我们使用VGG-16主干作为特征提取器。PSNR和SSIM可以计算为逐像素分数的聚合，因此我们使用栅栏掩码（在合成数据的情况下为地面实况，在真实数据的情况下为阈值化和二值化的U- net预测3）来剖析性能。在补充材料中提供了取样。3为了获得更好的伪地面实况围栏掩码，我们在多个节点上运行U-netvimeo_test_clean.zip压缩尺度并计算各尺度的像素最大值。1844(a) 关键帧（b）LaMa [26]（c）SOLD [14]（d）FGVC [6]（e）Ours（f）Ground truth图5：真实序列的定性防御结果。我们用红色突出显示感兴趣的区域（显示为放大的插图），并报告所有方法的栅栏掩码内的PSNR。最后一个例子来自Xue et al.”[31]没有真理。合成数据（蓝色的方法使用GT栅栏遮罩）真实突发（蓝色的方法使用伪GT栅栏掩码）方法SSIM↑PSNR（dB）↑LPIPS↓（VGG）SSIM↑PSNR（dB）↑LPIPS↓（VGG）在出来总在出来总在出来总在出来总[14]第十四话.783.970.94123.3637.8230.34.111.728.911.88523.5030.2727.71.132[14]第十四话.893.993.97728.1445.7035.82.040.813.916.90226.4130.9029.71.094[26]第二十六话.788.995.96424.9751.3833.10.039.480.902.84519.9529.9626.25.133美国[26].655.955.91020.9631.7427.38.089.477.867.81620.8528.0225.98.132FGVC[6].846.943.92825.5633.8530.36.068.848.910.90127.5630.4829.73.095FGVC[6].784.896.87922.7327.8026.05.113.856.907.90027.4929.9029.36.090E2FGVI[13].918.997.98530.7955.8738.89.030.571.902.85619.6929.8825.87.167E2FGVI[13].890.984.96929.3438.6435.25.044.709.901.87525.5830.2529.14.117我们.954.999.99233.7656.5541.78.015.869.917.90928.6031.1430.46.080Ours-fencegt.957.999.99334.3358.5842.42.012.872.918.91028.7731.1530.53.078表2：合成测试数据（左）和我们收集的实际爆破（右）的结果。在t = 0处对栅栏分割进行阈值化之后计算用“*”表示的行中的结果。1，并用3×3正方形将二进制掩模放大4倍。在三个不同的地区进行管理：a）面罩内部（in）; b）面罩外（out）;以及c）在整个图像中（全部）。对于所有方法，掩模外部的性能都很高，因为图像的这一部分没有被遮挡。掩模内部的性能是最重要的标准，因为它仅在遮挡区域中量化重建的质量。基于所有指标，我们的表现优于所有单帧和多帧基线我们想提请读者注意的结果LaMa [26]，特别是。LaMa是一种最先进的 inpainting 方法，但它实现了令人惊讶的低PSNR-in和SSIM-in分数。如果看一下图5，原因就变得清楚了（例如，第一个例子中的天线结构）：甚至虽然LaMa在遮挡区域下产生完全合理的结果，但这些结果通常与实际背景场景非常不同。这些结果有力地证明了使用多帧进行防御的优势。图5还说明了像SOLD和FGVC这样的替代方案可能会产生模糊或完全混乱的结果，这可能是由于帧对齐的问题。更多定性结果请参见我们的补充材料。5.3. 运行时分析表3比较了我们的管道与其他方法的总运行时间。在我们的情况下，计时包括所有必要的处理步骤：栅栏分割、光流计算、对齐和帧修补。LaMa、FGVC和1845× ∼ ×∼×--方法喇嘛出售点FGVC公司简介我们运行时间0.20.80.70.160.14（0.08）表3：5帧突发的SNR比较（LaMa处理单个帧）。其他方法的时间不包括分割（围栏分割是SOLD输出的一部分）。我们提供了我们的方法的运行时，括号中没有分段步骤，以供比较。E2FGVI时间不包括在栅栏分割上花费的时间，因为这些方法假设遮挡掩模是预先计算的。我们的方法的时钟为7fps，为320192个输入，5比下一个更快性能最好的方法，SOLD和FGVC，与E2FGVI和LaMa相当。从绝对值上看，与前两个的运行时间差异似乎不大，但仍然达到了12。5%和30%的运行时间分别降低，而我们的方法显着优于他们的重建质量方面的真实数据。如果我们从流水线中排除分割所花费的时间，则加速变得更加明显（分别为50%和60%所有计时都在配备Nvidia GTX 1080 Ti的工作站上进行，配备12GB GPU RAM。我们的管道时间的详细细分是：i）分段（对于5帧突发）：0的情况。06s; ii）流量估算和校准：0的情况。iii）帧修复（RDN）：0. 04秒。5.4. 消融改变帧修复模块架构允许我们权衡重建性能的效率。用一个简单的 CNN 替换 RDN ， CNN 由 8 个卷积+LeakyReLU层组成，在合成测试数据上降低了3.5 dB，但也将运行时间从0.14秒0 1s.帧对齐重要吗？对应于（被遮挡的）背景的运动的不准确计算会导致帧对准中的误差，从而影响帧重建的质量。我们实验了以下两种计算流的替代方案：i）原始SPyNet在阻塞帧上; ii）SPyNet，然后掩蔽包含的区域并使用拉普拉斯修复[29]来完成丢失的流（SPyNetinp）。我们还考虑了根本不对齐帧的选项，并让我们的RDN修复网络学习如何完成重建关键帧中的遮挡区域。在查看结果时，对齐的重要性和所使用的流的质量变得清晰起来表4. 完全不对齐输入帧会导致关键帧重建性能明显下降。标准流量网络无法处理重复的围栏障碍模式，并且明确修复遮挡区域下的流量也没有帮助，因为流量伪影也会扩展到非围栏区域，如图所示表4：帧对齐对关键帧再现质量的影响（我们的合成测试数据的结果）。图6：故障示例。不完美的围栏预测（中间）会影响修复（右侧）的质量。ure 3.另一方面，我们的遮挡感知SPyNetm可以准确地估计背景流，从而实现超帧对齐和重建质量。5.5. 限制和失败案例。我们的方法的主要限制是，最终重建的质量取决于U-网络和SPyNetm在前两个阶段的输出栅栏分割中的错误会影响分割感知光流计算，可能会影响帧对齐，这对于良好的修复至关重要（参见第5.4节中的消融）。此外，栅栏分割还用于掩蔽Ii中的遮挡区域。当栅栏遮挡在我们的训练分布之外时，最有害的错误发生，例如，当栅栏具有不寻常的形状/图案时，或者当与背景的对比度低时。这是一个可以在一定程度上通过训练期间更好的数据增强或通过访问具有不同类型围栏的更丰富的数据集来处理的问题，正如我们在补充材料中所示图6中显示了一个失败示例及其对帧修复的影响。6. 结论我们开发了一种简单、模块化和高效的管道，用于在照片突发中从单个帧中移除栅栏障碍物。我们的算法享有流引导视频完成方法的真实感，同时解决了它们的一些实际限制，例如复杂的训练和长运行时间。我们的方法运行在7fps的5帧320192次爆发，在Nvidia GTX 1080 Ti上，特别是在真实数据上非常有效，优于其他单一和我们专门为此问题收集了一个数据集上的多帧防御基线对准PSNR（dB）↑LPIPS↓（VGG）在SSIM↑出来总在出来总没有一.792.996.96524.8253.6432.84.028SPyNet.841.997.97326.8454.3234.93.047SPyNet输入.841.997.97326.8154.1334.89.048SPyNetm.954.999.99233.7656.5541.78.0151846引用[1] 让-巴蒂斯特·阿莱拉克，若昂·卡雷拉，安德鲁·齐瑟曼。目视离心机：无模型分层视频表示。在IEEE/CVF计算机视觉和模式识别会议论文集，第2457- 2466页[2] Amir Beck和Marc Teboulle。线性反问题的一种快速迭代收缩阈值算法。SIAM journal on imaging sciences，2（1）：183[3] Goutam Bhat ， Martin Danelljan ， Luc Van Gool ， andRadu Timofte.深爆超分辨率。在IEEE/CVF计算机视觉和模式识别会议论文集，第9209-9218页[4] 陈度、姜秉根、郑旭、纪岱、阮张。使用卷积神经网络和时间信息进行准确有效的视频防护。在2018年IEEE多媒体和博览会国际会议（ICME）上，第1-6页。IEEE，2018年。[5] Yosef Gandelsman、Assaf Shocher和Michal Irani。“双底”：通过耦合深度图像先验的无监督图像分解。在IEEE/CVF计算机视觉和模式识别会议论文集，第11026-11035页[6] Chen Gao，Ayush Saraf，Jia-Bin Huang，and JohannesKopf.流边缘引导视频完成。欧洲计算机视觉会议，第713-729页。Springer，2020年。[7] Jia-Bin Huang，Sing Bing Kang，Narendra Ahuja，andJo- hannes Kopf. 动态视频的时间相干完成。 ACMTransactions on Graphics（TOG），35（6）：1-11，2016。[8] Eddy Ilg ， Nikolaus Mayer ， Tonmoy Saikia ， MargretKeuper，Alexey Dosovitskiy，and Thomas Brox.Flownet2.0：深度网络光流估计的演变。在IEEE计算机视觉和模式识别会议的论文集，第2462-2470页[9] Sankaraganesh Jonna ， Krishna K Nakka ， and Rajiv RSahay.使用视频序列从图像中基于深度学习的栅栏分割和移除。欧洲计算机视觉会议，第836-851页。施普林格，2016年。[10] Sankaraganesh Jonna ， Sukla Satapathy ， and Rajiv RSahay.使用智能手机进行立体图像防御。2017年IEEE声学、语音和信号处理国际会议（ICASSP），第1792-1796页。IEEE，2017年。[11] Sankaraganesh Jonna，Vikram S Voleti，Rajiv R Sahay，and Mohan S Kankanhalli.一种用于图像防御和深度修复的多模态方法2015年第八届模式识别进展国际会议（ICAPR），第1-6页。IEEE，2015年。[12] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。[13] Zhen Li，Cheng-Ze Lu，Jianhua Qin，Chun-Le Guo，and Ming-Ming Cheng.面向流引导视频修复的端到端框架。在IEEE/CVF计算机视觉和模式识别会议论文集，第17562-17571页[14] 刘玉伦，赖伟胜，杨明轩，庄永玉，黄家斌。学习通过分层分解来透视障碍物。IEEE Transactions on PatternAnalysis and Machine Intelligence，2021。[15] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络。在IEEE计算机视觉和模式识别会议的论文集，第3431-3440页[16] 穆亚东，刘伟，严水城。视频防护IEEE Transactions onCircuits and Systems for Video Technology，24（7）：1111[17] 西蒙 · 尼克劳斯使用 PyTorch 重新实现 PWC-Net 。https://github.com/sniklaus/pytorch-pytorc，2018.[18] 西蒙·尼克劳斯重新实施SPyNet用户-使用PyTorch。https://github.com/sniklaus/pytorch-spynet，2018.[19] Minwoo Park，Kyle Brocklehurst，Robert T Collins，andYanxi Liu.重新审视图像防护。亚洲计算机视觉会议，第422-434页。施普林格，2010年。[20] Adam Paszke 、 Sam Gross 、 Francisco Massa 、 AdamLerer 、 James Bradbury 、 Gregory Chanan 、 TrevorKilleen 、 Zeming Lin 、 Natalia Gimelshein 、 LucaAntiga 、 Alban Desmaison 、 Andreas Kopf 、 EdwardYang 、 Zachary DeVito 、 Martin Rai son 、 AlykhanTejani 、 Sasank Chilamkurthy 、 Benoit Steiner 、 LuFang、Junjie Bai和Soumith Chintala。Pytorch：一个操作风格的高性能深度学习库。 In H.Wallach ， H.Larochelle、A. B e ygelzime r、F. d'Alc he´-Buc，E. Fox和 R. Garnett ，编辑， Advances in Neural Inform

下载后可阅读完整内容，剩余1页未读，立即下载