没有合适的资源?快使用搜索试试~ 我知道了~
1深度视频修复金大勋尚贤禹李俊英Adobe研究仁权KAIST摘要视频修复旨在用视频中的可信内容填充时空漏洞。尽管用于图像修复的深度神经网络取得了巨大的进展,但由于额外的时间维度,将这些方法扩展到视频领域是一个挑战。 在这项工作中,我们提出了一种新的深度网络架构,用于快速视频修补。建立在一个基于图像的编码器-解码器模型,我们的框架的目的是收集和完善信息,从邻居帧和合成仍然未知的地区。同时,通过一个循环反馈和一个时间记忆模块,使输出在时间上保持一致。与最先进的图像修补算法相比,我们的方法产生的视频是更语义正确和时间平滑。与依赖于耗时优化的先前视频完成方法相比,我们的方法在产生有竞争力的视频结果的同时接近实时地运行最后,我们将我们的框架应用于视频重定向任务,并获得了视觉上令人满意的结果。1. 介绍视频修复可以帮助许多视频编辑和恢复任务,例如不需要的对象删除,划痕或损坏恢复以及重定向。更重要的是,除了传统的需求,视频修复可以与增强现实(AR)结合使用,以获得更好的视觉体验;在场景中覆盖新元素之前,删除现有项目可以提供更多机会。因此,作为一种减少现实(DR)技术,它开辟了与最近的基于实时/深度学习的AR技术的新机会。此外,还有几种半在线流媒体场景,如自动内容过滤和视觉隐私过滤。只有一个小的等待会导致相当大的延迟,从而使速度本身成为一个重要的问题。尽管基于深度学习的单幅图像内绘技术取得了巨大进展,但由于额外的时间,将这些方法扩展到视频领域两位作者对这项工作做出了同样的贡献图1.输入视频,蒙版边界为红色(第1行)。通过每帧图像修复[33](行-2),基于优化的方法[11](行-3)和我们的方法(行-4)的视频修复结果。最佳观看时放大。维度复杂运动带来的困难和对时间一致性的高要求使得视频修复成为一个具有挑战性的问题。执行视频修复的一种简单方法是在每个帧上单独应用图像修复。然而,这忽略了来自视频动态的运动噪声,因此不能估计图像空间中随时间的非平凡外观变化。此外,该方案不可避免地带来时间不一致性,并导致严重的闪烁伪影。图中的第二行。图1示出了以逐帧方式直接应用最先进的前馈图像修复[33]的示例。为了解决时间一致性,已经开发了几种方法来填充缺失的运动场;使用局部时空补丁的贪婪选择[24]、基于每帧扩散的技术[16]或迭代优化[11]。然而,前两种方法将流量估计处理为独立于颜色估计[16,24],最后一种方法依赖于耗时的优化[11](图3中的1),这是有效的,但限制了它们在一般情况下的实用性和灵活性。57925793可以尝试通过应用后处理方法来保持时间一致性。最近,Laiet al.[14]提出了一种深度CNN模型,该模型将原始和每帧处理的视频作为输入,并产生节奏一致的视频。然而,他们的方法仅在这两个输入视频具有逐像素对应性(例如,着色),这不是视频修复的情况。在本文中,我们研究了前馈深度网络是否可以适应视频修复任务。具体来说,我们尝试训练一个具有两个核心功能的模型:1) 时间特征聚合和2)时间一致性保持。对于时间特征聚合,我们将视频修复任务转换为顺序的多到单帧修复问题。特别是,我们介绍了一种新的3D-2D前馈网络,基于2D(基于图像)的编码器-解码器模型。该网络旨在收集和细化来自相邻帧的潜在提示,并在空间和时间上合成对于时间一致性,我们建议使用递归反馈和递归层(例如传统LSTM [28])。此外,我们使用流损失来学习先前合成大小的帧的扭曲,并使用扭曲损失来强制结果的短期和长期一致性。最后,我们提出了一个单一的、统一的深度CNN模型,称为VINet。我们进行了大量的实验,以验证我们的设计选择的贡献。我们表明,我们的多到单帧公式产生的视频比[33]的方法更准确,视觉上更愉悦。我们的方法的一个示例结果显示在图的最后一行中。1.一、我们的模型顺序地处理任意长度的视频帧,并且在测试时不需要光流计算,因此以接近实时的速率运行。贡献 总之,我们的贡献如下。1. 我们将视频修复作为一个顺序的多到单帧修复任务,并提出了一种新的深度3D-2D编码器-解码器网络。我们的方法effec- tively收集功能,从邻居帧和synn- thesizes丢失的内容的基础上。2. 我们使用一个经常性的反馈和记忆层的时间稳定性。随着有效的网络设计,我们通过两个损失来加强强时间一致性:流动损失和翘曲损失。3. 据我们所知,这是第一个提供单个统一的深度网络,用于一般视频修复任务。我们进行了广泛的主观和客观评价,并显示其有效性。此外,我们将我们的方法应用于视频重定向和超分辨率任务,表现出良好的效果。2. 相关工作在图像修补方面已经取得了重大进展[1,3,8,12,15,18,30然而,视频修补算法一直研究不足。这是由于额外的时间维度引入了主要的挑战,如严重的视点变化,时间一致性保持,和高计算复杂度。文献中发现的最新方法使用基于对象或基于补丁的方法来解决这些问题。在基于对象的方法中,需要对视频进行预处理以将视频分割成前景对象和背景,并且在算法的最后进行独立的重建和合并步骤。属于这一类别的先前的努力是基于图切割的基于单应性的算法[9,10]。然而,这些基于对象的方法的主要限制是合成的内容必须从可见区域复制因此,这些方法大多易受突然的外观变化(例如,尺度变化)的影响。 当一个物体从相机移开时。在基于块的方法中,来自已知区域的块例如,Patward-han等. [19,20]将众所周知的纹理合成技术[8]扩展到视频修复。然而,这些方法假设静态相机[19]或受约束的相机运动[20],并且基于贪婪的补丁填充过程,其中早期错误不可避免地传播,产生全局不一致的输出。为了保证算法的全局一致性,将基于补丁的Wexler等人[27]提出了一种方法,该方法通过在片搜索和重构步骤之间交替来优化3D时空片的全局能量最小化问题。Newson等[17]通过开发PatchMatch [2]的时空版本来扩展这一点,以加强时间相干性并加快补丁匹配。最近,Huanget al. [11]通过添加光流项来修改[27]虽然这些方法是有效的,但它们最大的局限性是计算复杂度高,并且绝对依赖于预先计算的光流,这不能保证在复杂序列中是准确的。为了解决这些问题,我们提出了一种基于深度学习为了更好地利用来自多帧的时间信息并提高效率,我们构建了一个3D-2D编码器-解码器模型,该模型可以提供从视频动力学揭示的可跟踪特征。它总共需要6帧作为输入; 5个源帧和1个参考帧(即,待修补的帧)。我们学习帧之间的特征流来处理空洞填充和连贯性。仍然未知的区域以基于表面的语义自然的方式合成,5794111t−Nt−N1t−Nt−N11111舍入上下文。我们认为,我们的方法比以前基于优化的技术提供了更好的前景,因为深度CNN在从不断增长的大量视频数据中学习空间语义和时间动态方面据我们所知,这是第一个通过深度CNN模型深入解决一般视频修复问题的工作3. 方法3.1. 问题公式化视频修复的目的是填补任意缺失的区域3.2. 网络设计我们的完整模型(VINet)共同学习修补视频并保持时间一致性。VINet的概述二、3.2.1多帧到单帧视频修复在视频中,帧中被遮挡或移除的部分通常随着对象移动和视点改变而在过去/未来帧中显示。如果在时间半径中存在这样的提示,则可以借用那些公开的内容来恢复在视频帧中XT:={X1,X2,.,XT}。 侦察-当前帧。否则,仍然未知的地区应该结构化区域应该是准确的,如在地面上,合成。 为了实现这一点,我们构建了模型真值框架YT:={Y1,Y2,.,YT},并且在作为一个编码器-解码器网络,空间和时间我们将视频修复问题表述为学习从XT到输出T:={Y Y<$T},使得条件分布p(Y<$T|X T)等于p(YT|X T)。通过比赛-特征聚合和单帧修复同时进行,是的该网络被设计为完全卷积的,可以处理任意大小的输入。源和参考编码器。编码器是一个多-通过条件分布,网络学习生成-评价现实和时间一致的输出序列。为了简化问题,我们做了一个马尔可夫假设,将条件分布分解为乘积形式。在这种形式中,朴素的逐帧修复可以公式化为:YTp(Y)T|X T)=p(Yt|Xt)。(一)具有源和参考流的塔网络。源流将过去和未来的帧与补绘掩码作为输入。对于参考流,提供当前帧及其修补掩码。我们沿着通道轴连接图像帧和掩码,并馈送到编码器。在实践中,我们使用6塔编码器:5个具有权重共享的源流,需要两个滞后时间,ging(Xt−6,Xt−3)和两个前导帧(Xt+3,Xt+6),1 1t=1然而,为了获得视觉上令人愉悦的视频结果,我们认为第t帧Yt的生成应该与1)时空相邻帧Xt+N一致N表示时间半径,2)先前生成的帧Y=t-1,以及3)在递归存储器Mt中编码的所有先前历史。因此,我们建议学习条件分布YT和预先生成的帧(Y_t-1),以及1个参考流。不重叠的源要素通过下面的特征流学习和可学习特征合成,可以借用参考特征来修补缺失区域特征流学习。在直接组合源和参考特征之前,我们建议显式对齐特征点。这种策略有助于我们的模型很容易从相邻帧中挖掘可追踪的特征实现p(Y)T|X T)=p(Yt|Xt+N,Yt−1,Mt)。 (二)1 1t=1t−N这一点,我们插入流量子网络来估计流量是-在四个不同的源和参考特征图在我们的实验中,我们将N设置为2,取两个滞后帧和两个超前帧来恢复当前帧。我们以时间步幅3对帧进行采样,使得Xt+N:={Xt−6,Xt−3,Xt,Xt+3,Xt+6}。我们希望通过聚合来自相邻帧的信息来恢复当前帧,BOR帧和联合合成全盲区。同时,通过循环反馈使输出与过去的预测在时间上(Yt-1)和内存(Mt)。我们训练一个深度网络工作者D,对条件分布p(Y)t进行建模|Xt+N,Yt−1,Mt)当Yt=D(Xt+N,Yt−1,Mt)时,我们得到最终的输出Y通过以自动退出方式应用函数D来执行。我们的多到单帧公式优于单帧基线,甚至产生与基于优化的方法相当的结果,如第2节所述4.第一章不同的空间尺度(1/8、1/4、1/2和1)。我们采用PWCNet的粗到细结构[25]。显式流监督仅在最精细的尺度上给出(即,1)并且仅在连续的两个帧之间,其中我们提取使用FlowNet2 [13]在Yt和Yt−1之间的伪地面实况流Wtt可学习的特征组合。给定来自五个源流的对齐特征图,它们沿着时间维度被关联并被馈送到5 × 3 × 3(THW)卷积层,该卷积层产生时间维度为1的时空聚集特征图Fs′。这旨在通过突出显示完成的要素,在时间轴上动态选择源要素与参考特征一致,否则忽略。对于每4个尺度,我们采用一个掩码子网络来计算。Y5795t−1不t−11/8四图2. VINet的概述。 我们的网络接受多个帧(Xt−6,Xt−3,Xt,Xt+3,Xt+6)和先前生成frame(Y),并生成修复帧(Y)以及流贴图(Wtt−1)。我们使用流子网工作和掩码4个尺度(1/8、1/4、1/2和1)的子网络来逐步聚合和合成特征点为了时间一致性,我们使用循环反馈和时间记忆层(ConvLSTM),以及两个损失:流动损失和翘曲损失。橙色箭头表示对于5个流,残差流学习的×2上采样为in[25],而较薄的橙色流仅用于来自Yn的流。的为了简单起见,在图中省略了掩码子网络将聚集特征图Fs′与参考特征图Fr合并。掩码子网络由三个卷积层组成,并取两个特征图的绝对差|Fs′−Fr|作为输入,并产生单通道合成掩模M,如[6]中所建议的。通过使用遮罩,我们可以逐渐组合变形特征和参考特征。在1/8的比例下,合成是由Fc1/8= ( 1−m1/8 ) <$Fr1/8+m1/8<$Fs′、(3)其中,n是逐元素乘积算子。译码器为了将图像细节传递给解码器,我们采用了U-net中的跳过连接[23]。为了防止[32]提出的跳过连接在掩蔽区域包含零值的问题,我们的跳过连接传递与Eq类似的(3)如(Yt-1 ) 和时间存储 层(Mt ) ,如等式(1)所 示(二)、我们的公式鼓励当前输出与前一个输出帧一致。来自先前输出的知识鼓励可追踪的特征保持不变,而不可追踪的(例如遮挡)点被合成。这不仅有助于输出沿着运动轨迹保持一致,而且还避免了遮挡或运动不连续处的重影伪影。虽然经常性反馈连接连续的帧,但填充大的孔需要更长的时间(例如, 5帧)知识。在这一点上,时间层次可以帮助连接内部功能,从不同的时间步骤,在长期内。我们采用卷积LSTM(ConvLSTM)层和[14]中建议的扭曲损失。特别是,我们在每个时间步将尺度为1/8的复合特征FcFc1/4=(1−m1/4)<$Fr1/4+m1/4<$Fs′、(四)Fc1/2=(1−m1/2)<$Fr1/2+m1/2<$Fs′.(五)二分之一在最精细的尺度上,估计的光流W tt−1用于将先前的输出Yt−1整形为当前的光流输出Yt′t。然后,我们将这个经过包装的图像和Raw混合在一起,使用合成掩码m1输出,以获得我们的最终输出Yt,Yt=(1−m1)<$Y′t+m1<$Wt<$t−1(Yt−1)。(六)3.2.2递归与记忆为了增强视频输出的时间相干性,我们建议使用循环反馈回路3.3. 损失我们训练我们的网络以最小化以下损失函数,L=λRLR+λFLF+λWLW,(7)其中LR是重建损失,LF是流量估计损失,LW是翘曲损失。在整个实验过程中,平衡重λR、λF、λW分别取1、10、1对于时间损失LF和LW,我们将递归的次数设置为5(T= 5)。5796ˆYYYY¨¨¨LR由两项组成,L1和Lslim,¨ ¨视频掩码数据集。在一般的视频修复中,时空空洞表现为不同的运动和形状¨L1=?Yttür,(8)1变化 为了在训练中模拟这种复杂性,我们(2μπ ιμY+c1)(2σπ ι+c2)创建以下四种类型的视频掩码。L=(YttYtYt), (9)SSIM(µ2不+µ2不 +c1)(σ2不+σ2不 +c2)1. 随机正方形:我们随机屏蔽一个正方形框,每一帧 每个输入帧LR=L1+Lslim,(10)其中,Yt、Yt分别表示预测帧和地面μ、σ分别表示平均值、方差。c1、c2表示分别被设置为0的稳定常数。012,0。032.流动损失LF定义为:不¨¨¨ ¨¨ˆ¨ ¨ˆ¨大多是互补的,这样网络就可以清楚地学习如何对齐、复制和粘贴相邻的特征点。2. 飞行广场:在真实场景中,修补孔洞的运动是规则化的,而不是随机的。为了模拟这种规律性,我们在输入帧的一个方向上以统一的步长移动一个正方形t=2(<$Wtt−1−Wtt−1<$<1+),1(十一)3. 任意掩码:为了模拟不同的孔形状和大小,我们使用不规则掩模数据集[15],该数据集由随机条纹和任意形状的孔组成。其中,Wtt−1是伪地面真值反向流在目标帧之间,Yt和Yt-1,由FlowNet 2提取[13]。由方程式(11)、第一项是终点第一个是groundturth和估计的流之间的误差,第二个是当流被用于将前一目标帧扭曲到下一目标帧时的扭曲误差。翘曲损失LW包括Lst和Lltas,形状.在训练过程中,我们应用随机变换(平移,旋转,缩放,剪切)。4. 视频对象遮罩:在视频对象去除任务的上下文中,可以从视频对象分割数据集获得具有最真实外观和运动的掩模。我们使用YouTube-VOS数据集的前景分割掩码[29]。ΣTL= M¨Y¨(Y)、(十二)sttt−1tt=2ΣT¨t⇒t−1t−1¨1¨3.5. 推理我们假设所有视频帧的修复掩模Llt=Mt=2t1Yt−Wt1(Y1)?1、(十三)给出了为了避免训练和测试之间的任何数据重叠,我们从DAVIS数据集[21,LW=Lst+ Llt.(十四)我们遵循[14]中的协议,该协议使用FlowNet2 [13]来获得Mtt−1和Wt−1,它们分别表示目标帧Yt和Yt−1之间的二进制遮挡掩模和后向光流。我们采用短期和长期暂时损失。注意我们使用由于在训练期间合成能力不完善,因此在变形操作中不能使用地面实况目标帧。3.4. 两阶段训练我们采用两阶段的训练方案,逐步学习视频修复的核心功能; 1)我们首先在没有循环反馈和记忆的情况下训练模型,专注于学习时间特征聚合。在这个阶段,我们只使用重建损失LR; 2)然后我们添加了循环反馈和Con- vLSTM层,并使用全损失对模型进行微调函数(等式(7)时间相干预测。我们使用Youtube-VOS数据集中的视频[29]作为训练的基础事实。它是一个用于视频对象分割的大规模数据集,包含4000多个YouTube视频,其中70多个视频共同的对象。所有视频帧的大小调整为256×256用于训练和测试的像素。-YΣ579722],用于视频对象分割的公共基准数据集它包含动态场景、复杂的相机移动、运动模糊效果和大遮挡。通过扩大地面实况分割掩模来构造绘画中掩模。我们的方法以滑动窗口的方式循环地处理帧。3.6.实现细节我 们 的 模 型 是 使 用 Pytorch v0.4 , CUDNNv7.0,CUDA v9.0。它运行在硬件上与英特尔(R)至强(R)(2.10 GHz)CPU和NVIDIAGTX 1080 Ti GPU。该模型在GPU上以12.5 fps的速度运行256×256帧像素 我们使用Adam优化器,β=(0.9,0.999),固定学习率1 e-4。我们从scatch开始训练模型。第一和第二个训练阶段分别需要大约1天的时间,使用4个NVIDIA GTX 1080 Ti GPU。4. 实验在本节中,我们将进行实验来分析我们的两个主要设计选择。具体来说,我们将学习到的多对单机制可视化,并显示增加的复发和记忆的影响。然后我们评估-从定量和定性两个方面来分析我们的视频结果5798Sintel框架上的DAVIS面罩[33]第三十三话0.0429优化[11]0.0343VINet(agg. 仅)0.0383VINet(agg. + T.C.)0.0015(一)(b)第(1)款图3. 学习的特征组合的可视化。 输入帧位于奇数行,相应的特征流参考中心,修复帧位于偶数行。我们的网络成功地对齐并整合了源特征,以填补参考框架中的大而复杂的漏洞与最先进的基线相比。最后,我们展示了我们的框架在视频重定向和视频超分辨率任务上的适用性基线。我们将我们的方法与文献中的两个最先进的基线进行比较,通过使用我们的测试视频和掩码运行他们的测试代码。• Yu等人[33]:一种基于前馈CNN的方法,专为单个图像修复而设计我们一帧一帧地处理视频,而不使用任何tem-poral信息• Huang等人. [11]:一种基于优化的视频补全方法,它联合估计全局流量和颜色。它需要在飞行光流计算,是非常耗时的。4.1. 学习特征合成图3显示了所提出的模型显式地借用可见邻居特征来合成缺失的内容。对于可视化,我们采用第一个训练阶段的模型,并绘制从四个阶段中的每一个学习的特征流。源流到参考流,分辨率为128×128像素。我们观察到,即使有一个庞大而复杂的参考(中心)框架中的孔,我们的网络能够将源特征图与参考对齐,并将它们集成以填充孔。即使没有一个明确的流动supervision,我们的流动子网络是能够扭曲的特征点在可见区域和缩小无用的零fea,tures在掩蔽区域。此外,这些潜在的暗示是5799表1. 流动扭曲错误。我们使用21个视频和地面实况流来评估Sintel数据集上DAVIS框架上的DAVIS遮罩[33]第三十三话0.0080优化[11]0.0053VINet(agg. 仅)0.0073VINet(agg. + T.C.)0.0046表2. FID分数。我们使用20个视频在DAVIS数据集上评估FID分数。根据时空语义进行调整,而不是以固定的方式复制和粘贴。一个例子如图所示。3-(b)仓鼠的眼睛是半闭的。4.2. 时态一致性的改进我们比较了添加循环反馈和convLSTM之前和之后的视频为了验证我们的方法的有效性,我们还与上述两个代表性基线进行了比较[11,33]。由于Sintel数据集[4]提供了地面实况光流,因此我们使用它来定量测量流扭曲误差[14]。我们使用DAVIS数据集[21,22]中的对象我们从Sintel中的21个视频中各取32帧来构成我们的输入,并进行了五次试验。对于每次试验,我们从DAVIS中随机选择21个长度为32+的视频来创建相应的掩码序列,并在所有方法中保持不变。在表中。1,我们报告了在视频和试验上平均的流扭曲误差。它表明我们的完整模型在很大程度上优于其他基线。即使是全局(重)优化方法[11]也比我们的第一阶段方法稍毫不奇怪,Yuet al.的方法原来是最少的时间一致性。请注意,在添加了循环反馈和convLSTM层之后,我们的完整模型的误差减少了10倍,这意味着它们在短期和长期内显着提高了时间4.3. 时空视频质量Wang等人[26]提出了一种视频版本的接收分数(FID),以定量评估视频生成的质量。我们采用该指标来评估视频修复的质量,因为它测量了时空5800图4. 从DAVIS视频序列中移除对象。 对于每个输入序列,我们显示具有掩码边界的代表性帧 红衣我们在偶数行中显示使用我们的方法修复的结果。在感知层面上的质量。与[26]一样,我们遵循使用在视频识别任务上预训练的I3D网络[5]的协议来测量从输出视频和地面实况视频中提取的时空特征之间的距离在这个实验中,我们在DAVIS数据集中拍摄了20个视频。对于每个视频,我们确保从其他19个视频中选择一个不同的视频来制作掩码序列,这样我们就可以设置我们的算法来恢复原始视频,而不是删除任何部分。我们将前64帧用于输入和掩码视频。我们在SEC进行了五次试验4.2,并在视频和试验中平均表. 2总结了结果。我们的方法具有最小的FID的com-prone方法。这意味着我们的方法实现了更好的视觉质量和时间一致性。4.4. 视频对象去除我们应用我们的方法来删除动态移动-ING视频中的对象。我们使用来自DAVIS数据集的24个视频[21,22],其中的名称在图中列出。六、我们的结果的例子在图中。4.第一章我们进行了人类主观测试,以评估修复视频的视觉质量。我们将我们的方法与专门针对视频完成任务的强优化基线[11]进行了比较。在每个测试案例中,我们展示了原始输入视频,我们的去除结果和Huang等人的结果。在同一个屏幕上。 两个移除视频结果的顺序被打乱。为了确保用户有足够的时间来区分差异并做出仔细的判断,我们播放所有视频结果一次以原始速度,然后一次以0。5倍速度。此外,用户允许多次观看视频。每个参与者被要求选择一个首选的5801(a) 第一个输入帧(b)水平收缩帧(c)垂直收缩帧图5. 视频重定向的扩展。(a)原始第一帧。(b)横向收缩的框架。(c)垂直收缩的框架。图6.用户研究结果。结果还是平局。共有30名用户参与了这项研究。我们特别要求每个参与者检查图像质量和时间一致性。用户研究结果总结见图。六、它表明,虽然在视频样本中有不同的偏好,但我们的方法更受参与者的青睐。4.5. 应用于视频重定向视频重定向旨在调整帧的宽高比(或我们建议通过删除然后添加来解决视频重定向,这是一个潜在的管道,我们的框架将与其他AR(即,覆盖)技术。具体来说,我们首先通过修补背景来移除显著内容,将修补的帧调整为目标纵横比,然后在期望的重新缩放之后覆盖显著内容为了简化设置,我们的目标是水平或垂直缩小帧,同时保持移动对象的原始纵横比。显著性掩模可以自动估计,例如,通过前馈CNN [7],但是我们假设一个更受约束的场景其中显著性掩模作为所有帧的对象分割掩模给出。我们的方法产生的战争和抖动随着时间的推移,并产生自然的视频序列。图5示出了重定向帧的示例。4.6. 限制当视频中存在大而长的遮挡时,我们观察到颜色饱和度伪影。合成颜色的差异误差随时间传播,导致不准确的扭曲。在颞部半径中尚未显示的区域被合成为模糊的。此外,由于内存占用有限,我们只尝试了256×256像素帧。5. 结论在本文中,我们提出了一个新的框架,视频修复。基于多到单的编码器-解码器网络,我们的模型学习聚合和对齐来自相邻帧的特征映射以修补视频。我们使用循环反馈和时间记忆来激励时间相干输出。我们广泛的实验表明,我们的方法实现了优越的视觉质量比国家的最先进的图像修复解决方案,并表现出良好的优化方法,定性和定量。尽管存在一些局限性,但我们认为适定前馈网络具有很大的潜力,可以避免计算繁重的优化方法,并提高其在许多相关视觉任务中的适用性。致谢Dahun Kim得到了全球博士的部分支持。通过教育部资助的韩国国家研究基金会(NRF)(NRF-2018H1 A2 A1062075)提供的奖学金计划5802引用[1] C. Ballester,M. 贝尔塔米奥河谷卡塞勒湾 Sapiro,以及J. Verdera.矢量场和灰度级联合插值填充。IEEE图像处理学报,10(8):1200-1211,2001年。2[2] C. Barnes,E. Shechtman ,A. Finkelstein 和D. B.黄金人。补丁匹配:一种用于结构化图像编辑的随机对应算法 。 ACM Transactions on Graphics ( ToG ) , 28(3):24,2009。2[3] M. Bertalmio,G.萨皮罗河谷Caselles和C.巴列斯特图像修复。第27届计算机图形和交互技术,第417- 424页,2000年。2[4] D. J. Butler,J. Wulff,G. B. Stanley和M. J.布莱克。一个用于光流评估的自然主义开源电影欧洲计算机视觉会议,第611Springer,2012. 6[5] J. Carreira和A.齐瑟曼。你好,动作识别?新模型和动力学数据集。在计算机视觉和模式识别(CVPR),2017年IEEE会议上,第4724-4733页。IEEE,2017年。7[6] D.作者:Chen,J. Liao,L. Yuan,N. Yu和G.华连贯的在 线 视 频 风 格 转 移 。 在 Proc. Intl. 计 算 机 视 觉 会 议(ICCV),2017年。4[7] D. Cho,J. Park,T. H.哦,Y W.泰和我S.奎恩用于内容感知深度图像重定向的弱监督和自监督学习计算机视觉(ICCV),2017年IEEE国际会议,第4568IEEE,2017年。8[8] A. A. Efros和T. K.梁非参数采样纹理合成。见iccv,第1033页。IEEE,1999年。2[9] M. 格拉纳多斯湾I. Kim,J. Tompkin,J. Kautz,C. 希奥博尔特具有动态对象和自由移动摄像机的视频的背 景修复 欧洲计算 机视觉 会议 ,第 682-695页。Springer,2012. 2[10] M. 格拉纳多斯J.Tompkin,K.Kim,O.Grau,J.考茨,以及C.希奥博尔特如何不被看到从拥挤的场景视频对象删除。在计算机图形论坛,第31卷,第219-228页。WileyOnline Library,2012. 2[11] J. - B. Huang,S.B. Kang,N.Ahuja和J.科普夫动态视频的 时 间 相 干 完 成 。 ACM Transactions on Graphics(TOG),35(6):196,2016。一、二、六、七[12] S. Iizuka、E. Simo-Serra和H.石川全局和局部一致的图像完成。ACM Transactions on Graphics(TOG),36(4):107,2017。2[13] E. Ilg,N. Mayer,T. Saikia、M. Keuper,A. dosovitskiy和T.布洛克斯流动网络2.0:利用深度网络的光流估计的演进。三、五[14] W.- S. 赖 , J. - B. Huang 、 O. Wang , 中 国 山 核桃 E.Shechtman,E. Yumer和MH. 杨学习盲视频时间一致性。在欧洲会议上。计算机视觉(ECCV),2018年。二、四、五、六[15] G. Liu,F. A. Reda,K. J. Shih,T.- C. Wang,中国山核桃A.涛和B. 卡坦扎罗基于部分卷积的不规则孔洞图像修复arXiv预印本arXiv:1804.07723,2018。二、五5803[16] Y. Matsushita、E.奥费克,W. Ge、X. Tang和H.-Y.沈全帧视频稳定与运动修复。IEEE Transactionson Pattern Analysis and Machine Intelligence , 28(7):1150-1163,2006。1[17] A. Newson,A. Almansa,M. Fradet,Y. Gousseau和P. 佩雷斯。复杂场景的视频修复。SIAMJournalonImaging Sciences,7(4):19932[18] D.作者:P. Krahenbuhl,J.多纳休,T. Darrell和A.A.埃夫罗斯上下文编码器:通过图像修复进行特征学习。在CVPR,第2536-2544页,2016年。2[19] K. A. Patwardhan,G. Sapiro和M.贝尔塔米奥视频在绘画的闭塞和闭塞的对象.《图像处理》,2005年。ICIP 2005。IEEE国际会议,第2卷,第II-69页。IEEE,2005年。2[20] K. A. Patwardhan,G. Sapiro和M. Bertalm 'ıo。在限 制 的 摄 像 机 运 动 下 的 视 频 内 画 . IEEETransactions on Image Processing,16(2):545-553,2007。2[21] F. Perazzi,J.蓬蒂塞湾 麦克威廉斯湖 范古尔M.恶心,A。索金-霍恩视频对象分割的基准数据集和评估方法。在IEEE计算机视觉和模式识别会议论文集,第724-732页五、六、七[22] J. Pont-T uset,F. Perazzi,S. 卡勒山口 Arbel a'ez,A. Sorkine-Hornung和L. 范古尔 2017年戴维斯挑战 视 频 对 象 分 割 。 arXiv 预 印 本 arXiv :1704.00675,2017。五、六、七[23] O.龙内贝格山口Fischer和T.布洛克斯U-net:用于生物医学图像分割的卷积网络。医学图像计算和计算机辅助干预国际会议,第234-241页。施普林格,2015年。4[24] T. Shiratori,Y. Matsushita,X. Tang和S. B.康通过运 动 场 传 输 完 成 视 频 在 Computer Vision andPattern Recognition,2006 IEEE Computer SocietyConference on,第1卷,第 411-418页中IEEE,2006年。1[25] D.太阳,X.杨,M. Y. Liu和J. Kautz. Pwc-net:使用金字塔、扭曲和成本体积的光流的Cnns。在IEEE计算机视觉和模式识别会议论文集,第8934-8943页三、四[26] T.- C.王兆国Y.刘杰- Y. Zhu,G. Liu,中国粘蝇A.Tao,J. Kautz和B.卡坦扎罗视频到视频合成。arXiv预印本arXiv:1808.06601,2018。六、七[27] Y. Wexler,E. Shechtman和M.伊拉尼时空影像完成。空,第120-127页。IEEE,2004年。2[28] S.星剑,Z. Chen,H.王维,D.- Y.杨维K. Wong和W. C.哇哦。卷积lstm网络:降水临近预报的机器学习方法。神经信息处理系统的进展,第802-810页,2015年2[29] N. 许湖,加-地Yang,Y.Fan,J. Yang,D.Yue,Y.叶,中国植物研究所所长。梁、B. Price,S. Cohen和T.煌Youtube-vos:序列到序列视频对象分割。arXiv预印本arXiv:1809.00461,2018。5[30] C. Yang,X. Lu,Z. Lin,E. Shechtman,O. Wang和H.李使 用多 尺度 神经 块合 成的高 分辨 率图 像修 复。CVPR,第1卷,第3页,2017。25804[31] R. A. 是啊C. 陈先生,T.- Y. 林A. G. 施温,M. Hasegawa-Johnson和M. N.做具有深层生成模型的语义图像绘画.在CVPR,第2卷,第4页,2017年。2[32] J. Yu,Z. Lin,J. Yang,X. Shen,X. Lu和T. S.煌利用门控卷积进行自由形式图像修复。arXiv预印本arXiv:1806.03589,2018。二、四[33] J. Yu,Z. Lin,J. Yang,X. Shen,X. Lu和T. S.煌具有上下文关注的生成图像修复,2018年。一、二、六
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功