没有合适的资源?快使用搜索试试~ 我知道了~
视频修复算法中的难点及解决方法
145790邹豪 � 王腾飞 � 陈启峰 香港科技大学0通过隐式长距离传播进行内部视频修复0(a). 困难视频0(b).4K视频上的修复0来自DAVIS2160像素2160像素0(d). 单帧遮罩的对象去除03840像素 3840像素0没有标记遮罩的其他帧的结果0给定单帧上的遮罩0领域0(c).不同0图1:我们在DAVIS [29]的(a)困难视频序列,(b)4K分辨率视频,(c)不同领域的视频[7]和(d)单帧遮罩的视频上的结果。放大以获取详细信息。0自动驾驶 动漫 旧电影0摘要0� 相等贡献01. 引言01. 引言145800对于从多个领域和真实世界的高分辨率视频中修复序列的需求正在增长。它还有望减轻半自动对象去除的劳动密集型遮罩标注的人力工作量。视频修复任务仍然未解决,因为现有方法无法始终产生具有长期一致性的视觉上令人满意的修复视频。大多数传统方法[25, 13, 12,37]采用基于补丁的优化策略。这些方法在捕捉复杂运动或合成新内容方面能力有限。最近的流引导方法[11,39]通过光流传播上下文信息以实现时间上的一致结果。然而,在缺失区域获得准确的光流是非常困难的,特别是当不断出现阻塞区域或运动复杂时。最近的深度模型[35, 15, 18,27, 6, 20,42]在大型视频数据集上训练,实现了更有前景的性能。然而,数据集收集过程耗时且劳动密集,这些方法在测试视频与训练视频不同领域时可能会出现性能下降。最近,Zhang等人提出了一种内部学习方法来进行视频修复,该方法避免了模型训练时的域差异问题,因为模型训练是在测试视频上完成的。虽然内部视频修复是一个有前景的方向,但是他们的方法有时会生成不正确或不一致的结果,因为该方法仍然依赖于外部训练的光流估计来传播上下文信息。因此,我们提出了一种新的内部学习方法来进行视频修复,该方法可以通过内在的自然视频和卷积神经网络的特性来克服上述问题,如图1所示。我们将详细分析这些特性,并专注于通过施加正则化来处理两种特殊的挑战性情况。最后,我们通过施加梯度约束来恢复缺失区域的跨帧相关性并确保时间上的一致性。我们在测试视频上训练了一个卷积神经网络,以便训练模型可以将已知像素(不在遮罩中)的信息传播到整个视频。我们首先在DAVIS数据集上评估了所提出的方法。所提出的方法在定量和定性上都取得了最先进的性能,并且用户研究的结果表明我们的方法大多数情况下更受欢迎。我们还将我们的方法应用于不同的视频领域,如自动驾驶场景,旧电影和动画,并获得了有希望的结果,如图1(c)所示。此外,我们的公式具有很大的灵活性,可以扩展到更具挑战性的设置:1)单帧上有遮罩的视频。我们采用类似的训练方法0通过在上述公式中切换输入和输出来传播遮罩的输入策略。2)超高分辨率图像序列,例如具有4K分辨率的视频。我们设计了一种渐进学习方案,更精细的尺度需要额外的先验,即来自粗粒度的输出。我们在图1(b)和图1(d)中展示了扩展方法的示例。我们的贡献可以总结如下:•我们提出了一种内部视频修复方法,它将信息从已知区域隐式传播到未知部分。我们的方法在DAVIS上实现了最先进的性能,并可应用于各个领域的视频。0•我们设计了两个正则化项来解决具有挑战性的视频序列中的模糊和不足问题。反模糊项有助于细节生成,梯度正则化项减少时间不一致性。0•据我们所知,我们的方法是第一个仅使用单帧遮罩从4K视频中去除对象的深度内部学习模型的可行性。02. 相关工作0图像修复。传统的图像修复方法,包括基于扩散的[1, 2,9]或基于补丁的[3]方法,通常在复杂场景或具有大面积修复遮罩时生成低质量的内容。深度学习的最新发展极大地改善了修复性能。Pathak等人[28]首次使用编码器-解码器网络提取特征并重建缺失区域。后续的工作[14, 40, 22,41]改进了网络设计以处理自由形式的遮罩,并采用了粗到精的结构[24, 21, 30, 36,44],以使用额外的先验(例如边缘和结构)作为指导。我们的工作与[41]采用了类似的生成结构,但采用了不同的训练策略和损失函数来改善时间一致性。视频修复。除了空间一致性外,视频修复还涉及另一个挑战,即确保时间一致性。传统方法通常通过补丁匹配来完成区域,包括直接使用3D补丁[37]或具有显式单应性约束或光流约束的2D补丁[25,13,12]。最近的工作利用在大型视频数据集上训练的深度卷积神经网络学习如何从参考帧中收集信息以生成缺失内容。一些工作使用3D CNN结构[6,35]进行特征提取和内容重建,但内存消耗极大。最近的基于流的方法[11,39]通过光流或流场传播时间信息来填充区域,并使用预训练的图像修复模型填充剩余像素。其他工作Input frame 𝑋𝑗local patch 𝑃𝑖local patch 𝑃𝑗output patch ෩𝑃𝑖output patch ෩𝑃𝑗mask 𝑀𝑡output frame ෩𝑌𝑖output frame ෩𝑌𝑗input frame 𝑋𝑖 & mask 𝑀𝑖augmented frame 𝑋′𝑖145810第一帧 最后一帧0推理0第一帧 最后一帧0不足0案例0内部训练0遮罩重建损失0跨帧回归0隐式传播0f0隐式学习0过拟合0f0模糊性0案例0无GT0无GT0隐式学习0遮罩 �′ � 随机平移0图2:我们内部视频修复方法的概述。通过自然视频的内在属性和神经网络学习,我们学习了隐式传播,而无需光流估计和在大型数据集上训练。通过在增强帧上进行内部学习,网络 f作为长距离信息的神经记忆功能。在推理过程中,跨帧上下文信息隐式传播以完成遮罩区域的修复。对于缺乏和模糊性的非理想情况,其中跨帧信息不可用或模糊不清,我们设计了两个正则化项,用于感知逼真和时间一致的重建。0利用2DCNN和不同的上下文聚合模块[15,18,27,39,20,42]融合目标帧和参考帧的信息。我们的方法不是在大型数据集上进行学习,而是探索视频序列中的内部学习的另一种方向,这种方法灵活且适用于不同的视频类别。0深度内部学习。深度内部学习是最近的一个热门话题,在图像处理和生成方面展示了巨大的潜力。Ulyanov等人[34]首次将深度模型用作几个图像恢复任务(包括图像修复)的先验。随后,深度模型的内部学习已应用于各种任务,如图像超分辨率[33]、图像生成[32,31,4]、图像修复[36]、视频运动转移[5]和视频分割[10]。与我们的工作最相关的论文是通过联合优化图像和光流的深度内部学习视频修复[43]。然而,他们的方法在光流质量上依赖较大,对于大遮罩、轻微运动或错误的帧选择会失败。我们的方法采用了完全不同的策略,通过神经网络将信息从已知区域隐式传播到未知区域,而不需要光流,并在上述具有挑战性的情况下实现了更稳定的性能。03. 方法03.1. 问题定义0视频修复需要一系列视频帧X:{X1,X2,...,XN},以及损坏区域或不需要的对象的相应掩码M:{M1,M2,...,MN},其中N表示视频帧的总数。我们的目标是生成修复的视频˜Y:{˜Y1,˜Y2,...,˜YN},既具有空间一致性又具有时间一致性。已知信息可以表示为¯X:{X1⊙(1−M1),X2⊙(1−M2),...,XN⊙(1−MN)},修复的质量在很大程度上取决于我们如何利用已知信息¯X。我们观察到三个有趣且启发性的特性:01. 跨帧重复相似的内容在视频序列的不同帧中往往会出现多次。在图2中,我们使用帧Xi中的补丁Pi和帧Xj中的Pi来说明这个特性。注意,Pi和Pj实际上并没有在我们的流程中提取,只是为了阐述这些特性。我们将除了遮罩区域(蓝色区域)之外的Pi像素表示为¯Pi,将除了遮罩区域(红色区域)之外的Pj像素表示为¯Pj。图2的上半部分展示了一个理想情况,推断中未遮罩的区域¯Pj˜Yi = f (Xi ⊙ (1 − M ′t ∪ Mi)) ,(1)Lrec = ∥( ˜Yi − Xi) ⊙ (1 − Mi)∥1.(2)Lambiguity = 1PP�p=1δp( ˜Yi ⊙ Mt, Xt ⊙ Mt).(3)145820帧Xj也出现在帧Xi中,其中¯Pj≈¯Pi。02. 神经网络作为通用函数我们可以训练一个CNN来过度拟合一定数量的图像数据。通过合理设计的架构,训练一个能够在¯X上生成高质量修复结果的修复网络f是可行的。如图2所示,网络f通过过度拟合地生成了蓝色遮罩区域中的近乎完美的内容˜Pi。03. 卷积的平移等效性由于卷积操作的权重共享,如果CNN的输入图像被平移,网络在每一层的输出也会以相同的方式平移[16]。这个特性表明,如果我们将¯Pj视为一个平移的¯Pi,CNNf应该能够为¯Pj生成与¯Pi一样高质量的内容。基于这些特性,我们提出了一种关于内部视频修复的新视角:通过学习如何修复已知区域,模型隐含地学习如何修复未知区域。我们不再使用光流显式地找到对应关系,而是通过使用增强的遮罩隐式地学习传播过程。具体的训练策略如下:我们在每个训练步骤中训练一个神经网络f,该网络接受三个输入Xi、Mi和M′t,其中i和t是序列中随机选择的帧索引。M′t通过随机平移由Mt增强,输入Xi通过Mi和M′t的二进制并集进行掩蔽。由于未知区域由Mi遮罩,无法获得地面真实像素,因此只在已知区域¯Xi中计算重建损失Lrec:0正如Yu等人[40]建议的,我们用门控卷积层替换了普通卷积层。网络f的详细架构可以在附录中找到。03.2. 歧义和缺陷分析0仅使用重建损失的解决方案对于所有三个属性都满足的理想情况(例如DAVIS中的'BMX-TREES')效果很好。然而,在实际应用中,存在许多例外情况。在第6节中,我们进一步探讨了模型容量与视频序列复杂性之间的关系(属性2)以及遮罩生成如何影响修复质量(属性3)。在本节中,我们重点处理属性1的违规情况:跨帧重复。我们首先研究视频序列中的理想跨帧重复。如图2上部所示,在理想情况下,合成补丁(Pi)和推理补丁(Pj)中存在一致的匹配。真实视频序列中存在两种常见的非理想困难情况:(a)存在多个不对齐的匹配,我们称之为歧义情况。0(b)。没有好的匹配,我们称之为缺陷情况。我们提出了两个正则化项来改善这些困难情况下的性能。03.3. 歧义损失0当多个帧中存在冲突匹配补丁时,存在歧义。它通常出现在背景对象移动或高度随机纹理区域在¯X中的情况下。图2展示了DAVIS中一个样本模糊序列'CAMEL'。背景骆驼抬起头,而前景骆驼经过。对于第一帧中的局部补丁Pj,存在一组具有不同内容(该序列中骆驼脸的位置)的补丁{Pi1,Pi2,...Pin}。如预期的那样,移动区域的预测结果模糊,因为它取所有真实值的平均值,并且我们生成了一个模糊的骆驼脸,如图8所示。为了解决歧义问题,我们提出了一个歧义正则化项,在后期训练阶段将细节带回来。这个术语受到最近的工作[23]的启发,它将模糊的源区域与目标区域中的最近邻进行匹配。让{sp} p ∈ P和{tq} q ∈Q分别表示源图像S和目标图像T的特征点集合,这些特征点由共享编码器提取。对于每个源点sp,该损失试图在一定的距离度量D(sp,tq)下搜索最相关的目标点,并计算δp(S,T) =min q � D sp,tq �[23]。在我们的情况下,我们关注如何利用视频中的跨帧相关性。对于输出帧˜Yi,我们随机选择一个帧Xt作为目标,并通过施加反歧义正则化来改善高频细节:03.4. 缺陷损失0当可靠的跨帧重复不可用时,存在缺陷情况。它通常出现在前景对象只有轻微移动的情况下,并且视频的大部分始终在所有帧中被遮挡。我们还在图2中展示了DAVIS中的一个样本序列'PIGS',其中一个大区域(例如蓝色掩码中的区域)不断被阻挡。在这种情况下,网络f无法通过直接传播类似的跨帧信息来填充这些区域。然而,由于模型f本质上是在内部视频数据上学习的生成模型,它可以合成出合理的新内容。生成的区域遵循已知区域的分布,在大多数情况下是可接受的。质量取决于信息的复杂性(完整结果和对具有缺陷帧的大量视频序列的经验分析在附录中呈现)。随着CNNf成为一个纯粹的单一given mask 𝑀0given frame 𝑋0𝑀′0145830采样02K像素01K像素0f1 f2 f30BAS BAS01K像素1K像素0上采样04K像素01K像素 阶段1 阶段2 阶段30图3:高分辨率视频修复的渐进学习策略流程。0当在不断阻塞的区域上使用帧生成模型时,会出现严重的闪烁伪影问题。主要问题是在遇到缺陷情况时如何改善时间一致性。最近关于改善时间一致性的工作大多依赖于像素到像素的对应关系[17, 19,8],而在修复任务中,没有这样的对应关系。我们观察到,即使输入周围区域的变化微不足道(如小的旋转),网络f仍然可以生成不一致的结果,这启发我们对网络f相对于输入的梯度应用约束。根据[8]中的设置,假设输入Xi、M't、Mi经过轻微修改g,其中g是一个随机组合的单应性变换和图像处理滤波器,如亮度变化和模糊核(当g应用于掩码时,忽略处理滤波器)。新的修复结果˜Y'i可以计算为f{g(Xi) ⊙ (1 −g(M't) ∪g(Mi))}。我们期望输出的变化与输入的变化一致[8],并计算梯度差异为:0∆s = (˜Y'i − ˜Yi) − (g(Xi) − Xi). (4)0为了最小化这个项,我们还需要排除未知区域Mi和g(Mi)中的像素:0Lstabilize = ∥∆s ⊙ (1 − Mi ∪ g(Mi))∥1. (5)0g中每个参数的详细范围请参见附录。总体训练损失是Lrec、Lambiguity和Lstablize的加权和。04.扩展04.1.渐进式高分辨率修复0虽然原始公式可以完成高达1K分辨率的视频,但我们进一步将其扩展为渐进式方案,用于修复高分辨率视频,如2K或4K视频,如图3所示。我们不再将网络过度拟合到全分辨率帧上,而是使用采样的补丁进行过度拟合。随着分辨率的增加,出现了两个问题。0内部训练0加权二进制交叉熵损失0输出掩码��0随机平移0增强帧�′0f0图4:我们的掩码传播的训练过程。只给定一个掩码,我们可以预测整个序列的掩码。0周围像素可能提供有限的信息,因为一个特定补丁中的掩码可能特别大。因此,我们使用上一阶段的上采样修复结果作为额外的先验。另一个问题是低采样效率,可能导致训练速度较慢。我们使用基于边界的采样(BAS)策略,从对象边界周围的区域采样更多的补丁。这是基于一个事实,即在大多数现实世界的对象去除情况下,掩码边界周围的像素包含更有价值的信息并且更重要。更多细节,包括掩码生成、基于网格的推理和BAS,详见附录。04.2.使用单帧掩码的视频修复0仅使用单帧掩码在视频序列中移除对象是非常受欢迎的,以减少涉及的人力劳动。我们展示了通过交换上述公式中的输入和输出,所提出的方案也可以将给定的对象掩码传播到其他帧。如图4所示,输入X'通过在单个给定帧X0上随机平移不需要的对象来增强。我们计算预测掩码˜M和增强掩码M'0之间的损失。基于上述属性,网络f学习在其他帧中分割相似的对象。与传统的参考引导视频掩码传播[26,38]不同,我们的最终目标不是检测准确的掩码,而是移除所需的对象。因此,当我们将非对象像素分类为对象像素时,我们施加的惩罚较小,而在相反方向上,错误包含的背景像素通常可以在随后的修复过程中填充。我们采用加权二进制交叉熵损失Lwe,计算公式为Lwe(y, ˜y) =0i yi log˜yi + α(1 - yi)log(1 -˜yi)。因此,重建损失由以下公式表示:0L rec = -L we(M'0 ⊙ (1 - M0), ˜M ⊙ (1 - M0)), (6)0其中M'0和X'0随机平移M0和X0,α设为0.8。145840固定遮罩 对象遮罩0方法 类型 PSNR SSIM LPIPS PSNR SSIM LPIPS0CAP外部 28.04 0.906 0.1041 29.37 0.910 0.0483 OPN外部 28.72 0.915 0.087228.40 0.904 0.0596 STTN外部 29.05 0.927 0.0637 29.45 0.918 0.02790FGVC基于光流 29.68 0.942 0.0564 33.98 0.951 0.01950InterVI内部 26.89 0.868 0.1126 27.96 0.875 0.0545 我们的内部 29.90 0.944 0.041431.09 0.948 0.01820表1:DAVIS上的定量比较。05. 实验05.1. 训练细节0对于DAVIS中的每个视频序列,我们首先使用仅重建损失进行大约60,000次迭代的模型训练,然后再与正则化损失结合进行另外20,000次迭代的困难序列。我们使用学习率为2e-4的Adam优化器。对于一个80帧的视频,训练过程在单个NVIDIA RTX 2080 TiGPU上大约需要4小时。扩展任务的训练设置在附录中报告。05.2. 定性结果0为了公平比较,我们从三个类别中选择了五个有竞争力的基线方法。CAP [18],OPN [27]和STTN[42]是基于深度神经网络的最新外部方法,FGVC[11]是最新的基于光流的优化方法,InterVI[43]是基于深度内部学习的方法。在图6中,我们展示了对象去除、固定遮罩和随机对象遮罩的定性结果。即使在其他帧中存在高度相似的内容,先前的方法也无法传播长距离的上下文信息,并产生模糊和失真的细节(例如第1个、第3个示例)。它们也无法完成不断被阻挡的大缺失区域,并显示出突然的伪影(例如第2个和第4个示例)。相比之下,我们的方法可以生成逼真的纹理,并重建更清晰和更清晰的结构。附录中附有其他序列的广泛结果。我们还在图7中展示了遮罩预测和修复结果。给定一个单帧的遮罩,我们的方法可以自动将其传播到整个序列的其他帧。请注意,我们的内部方法通常包含稍多的像素,以确保所有对象像素都被正确分类。它在非刚性变形遮罩上表现稳定,并获得了有希望的结果。05.3. 定量结果0由于地面真实性的不确定性,视频修复没有合适的定量指标。尽管如此,我们在DAVIS上报告了PSNR和SSIM的比较结果,包括固定和对象遮罩,如表1所示。0图5:用户研究结果。“Rankx”表示每种方法被选择为第x好的结果的百分比。0对于固定的遮罩,我们遵循[39]中的设置,在每个帧的中心模拟一个固定的矩形遮罩。矩形遮罩的宽度和高度都是原始帧的1/4。对于对象遮罩,我们遵循[15, 27,18]中的设置,通过对DAVIS序列和遮罩进行洗牌来在原始视频上添加虚拟对象。通过这种方式,我们可以模拟具有已知真实值的测试视频。我们在附录中展示了更详细的设置。如表1所示,我们的方法在性能上与最先进的方法相当。基于光流的方法在随机对象遮罩上实现更高的性能是可以理解的,因为合成的对象运动是简单的,这是使用基于光流的方法的理想情况,如[11]中所述。下一节将展示关于真实世界对象去除任务的用户研究,证明了我们的方法在处理复杂运动时更具鲁棒性。05.4. 用户研究0在合成数据集上的定量指标无法充分评估真实世界视频修复的质量。因此,我们进行了用户研究,将我们的方法与最先进的方法进行比较。具体而言,我们从DAVIS数据集中随机选择了45个序列,并将结果减速到10FPS以进行更好的比较。我们邀请了18名参与者对每个视频的四种方法的结果在视觉质量和时间一致性方面进行排名,并共收到了810个有效投票。图5显示,我们的方法在视觉质量和时间一致性方面明显优于其他方法。06. 消融研究06.1. 正则化项0如第3节所介绍的,反模糊损失旨在恢复模糊情况下的细节。图8展示了移动背景、运动模糊或复杂纹理的示例。通过提出的反模糊项,背景骆驼的脸部、草地的纹理和水波纹包含更真实的细节。在图9中,我们比较了具有和不具有稳定化项的模型的时间一致性。黄线指示的像素来自所有帧。145850输入FGVC [11] OPN [27] STTN [42] InternalVI [43] 我们的0图6:DAVIS数据集上的视觉比较。放大以查看细节。0没有提出的稳定化过程,时间图中包含大量噪声。145860输入帧 预测的遮罩 去除结果 输入帧 预测的遮罩 去除结果0图7:给定仅第一帧的遮罩的遮罩预测和物体去除结果。0输入帧(无反模糊损失) 带有反模糊损失的输入帧0图8:反模糊正则化的消融研究。放大以查看细节。06.2. 属性分析0由于我们的方法的第一步是过拟合CNN以记忆视频序列中的所有信息,一个重要的方面是对于特定视频序列需要多少参数,这是分析Property2的关键。我们使用三个具有不断增加参数数量的网络进行测试。通过附录中的详细分析和示例,我们发现使用简单的CNN和较少的参数会导致性能下降,随着视频复杂性的增加。通过引入更多的参数到CNN模型中,对于具有剧烈变化或复杂背景的视频,修复结果更加逼真。正如第3节中提到的,我们在内部训练中使用增强的物体遮罩,因为Property3要求所有输入的遮罩形状理想上是相同的。0图9:稳定化正则化的消融研究。0另一个有趣的方面是,如果我们将遮罩生成策略替换为随机自由形式的遮罩生成,性能会发生怎样的变化。在新的设置中,尽管训练损失发散,但测试结果会受到降级(请参见附录)。这一观察结果表明,使用增强的“物体遮罩”,模型可以更好地将已知区域的信息传播到未知区域。07. 结论0在这项工作中,我们提出了一种新颖的视频修复方法:使用过拟合的CNN隐式传播远距离信息,而无需像光流那样的显式指导。通过提出的反模糊和稳定正则化,在大面积遮挡、复杂运动和长期遮挡等挑战性情况下取得了成功。我们还将该方法扩展到更具挑战性的设置,例如仅使用单个遮罩或高分辨率的4K视频。然而,我们的方法仍然存在两个主要限制。我们的方法在训练每个序列时不是实时的,就像所有其他内部学习方法一样。另一个问题是对于缺陷情况下修复区域的细节有时可能是语义不正确的(请参见附录中的失败案例)。可以通过引入外部语义信息来生成这些区域。在未来的工作中,我们可以进一步探索如何根据修复区域的置信度生成更好的细节。145870参考文献0[1] MichaelAshikhmin。合成自然纹理。SI3D,1:217-226,2001年。20[2] Coloma Ballester,Marcelo Bertalmio,VicentCaselles,Guillermo Sapiro和JoanVerdera。通过联合插值矢量场和灰度填充。IEEE图像处理(TIP)交易,10(8):1200-1211,2001年。20[3] Connelly Barnes,Eli Shechtman,Adam Finkelstein和DanBGoldman。Patchmatch:一种用于结构图像编辑的随机对应算法。在ACM图形学交易(ToG)中,第28卷,第24页。ACM,2009年。20[4] David Bau,Hendrik Strobelt,William Peebles,BoleiZhou,Jun-Yan Zhu,AntonioTorralba等。具有生成图像先验的语义照片操作。arXiv预印本arXiv:2005.07727,2020年。30[5] Caroline Chan,Shiry Ginosar,Tinghui Zhou和Alexei AEfros。现在每个人都跳舞。在IEEE国际计算机视觉会议(ICCV)论文集中,2019年。30[6] Ya-Liang Chang,Zhe Yu Liu,Kuan-Ying Lee和WinstonHsu。带有3D门控卷积和时间补丁GAN的自由形式视频修复。在IEEE国际计算机视觉会议(ICCV)论文集中,页9066-9075,2019年。20[7] Marius Cordts,Mohamed Omran,SebastianRamos,Timo Rehfeld,Markus Enzweiler,RodrigoBenenson,Uwe Franke,Stefan Roth和BerntSchiele。用于语义城市场景理解的Cityscapes数据集。在IEEE计算机视觉和模式识别会议(CVPR)论文集中,页3213-3223,2016年。10[8] Gabriel Eilertsen,Rafal K Mantiuk和JonasUnger。用于时间稳定CNN的单帧正则化。在IEEE计算机视觉和模式识别会议(CVPR)论文集中,2019年。50[9] Selim Esedoglu和JianhongShen。基于Mumford-Shah-Euler图像模型的数字修复。欧洲应用数学杂志,13(4):353-370,2002年。20[10] Yossi Gandelsman,Assaf Shocher和MichalIrani。通过耦合深度图像先验进行无监督图像分解。在IEEE计算机视觉和模式识别会议(CVPR)中,第6卷,第2页,2019年。30[11] 高晨,Ayush Saraf,黄家斌和JohannesKopf。流边引导的视频完成。在欧洲计算机视觉会议(ECCV)论文集中,页713-729。Springer,2020年。2,6,70[12] Miguel Granados,Kwang In Kim,James Tompkin,JanKautz和ChristianTheobalt。用于具有动态对象和自由移动相机的视频的背景修复。在欧洲计算机视觉会议(ECCV)论文集中,页682-695。Springer,2012年。20[13] 黄家斌,Sing Bing Kang,Narendra Ahuja和JohannesKopf。动态视频的时间连贯完成。ACM图形学交易(TOG),35(6):1-11,2016年。20[14] Satoshi Iizuka,Edgar Simo-Serra和HiroshiIshikawa。全局和局部一致的图像完成。ACM图形学交易(ToG),36(4):107,2017年。20[15] Dahun Kim,Sanghyun Woo,Joon-Young Lee和In SoKweon。深度视频修复。在IEEE计算机视觉和模式识别会议(CVPR)论文集中,2019年。2,3,60[16] Risi Kondor和ShubhenduTrivedi。关于等变性和卷积在神经网络中对紧致群的作用的泛化。在国际机器学习会议(ICML)中,页2747-2755。PMLR,2018年。40[17] 魏胜来,黄家斌,Oliver Wang,Eli Shechtman,ErsinYumer和Ming-HsuanYang。学习盲目视频时间一致性。在欧洲计算机视觉会议(ECCV)论文集中,2018年。50[18] Sungho Lee,Seoung Wug Oh,DaeYeun Won和SeonJooKim。用于深度视频修复的复制粘贴网络。在IEEE国际计算机视觉会议(ICCV)论文集中,页4413-4421,2019年。2,3,60[19] Chenyang Lei, Yazhou Xing, and Qifeng Chen.通过深度视频先验实现盲视频时间一致性.在《神经信息处理系统进展》中,2020年。50[20] Ang Li, Shanshan Zhao, Xingjun Ma, Mingming Gong,Jianzhong Qi, Rui Zhang, Dacheng Tao, and Ramamoha-narao Kotagiri. 用于视频修复的短期和长期上下文聚合网络.在《欧洲计算机视觉会议论文集》(ECCV)中,页728-743,2020年。2, 30[21] Jingyuan Li, Fengxiang He, Lefei Zhang, Bo Du, andDacheng Tao. 用于图像修复的渐进式重建视觉结构.在《计算机视觉国际会议论文集》(ICCV)中,2019年。20[22] Guilin Liu, Fitsum A Reda, Kevin J Shih, Ting-Chun Wang,Andrew Tao, and Bryan Catanzaro.使用部分卷积进行不规则孔洞的图像修复.在《欧洲计算机视觉会议论文集》(ECCV)中,2018年。20[23] Roey Mechrez, Itamar Talmi, and Lihi Zelnik-Manor.非对齐数据的图像转换的上下文损失.在《欧洲计算机视觉会议论文集》(ECCV)中,页768-783,2018年。40[24] Kamyar Nazeri, Eric Ng, Tony Joseph, Faisal Qureshi, andMehran Ebrahimi. Edgeconnect:通过对抗性边缘学习进行生成图像修复.在《IEEE国际计算机视觉会议(ICCVW)》研讨会上,2019年。20[25] Alasdair Newson, Andr´es Almansa, Matthieu Fradet,Yann Gousseau, and Patrick P´erez. 复杂场景的视频修复.《Siam图像科学杂志》,第7卷,第4期,1993-2019年,2014年。20[26] Seoung Wug Oh, Joon-Young Lee, Ning Xu, and SeonJoo Kim. 使用时空记忆网络进行视频对象分割.在《计算机视觉国际会议论文集》(ICCV)中,页9226-9235,2019年。5145880[27] Seoung Wug Oh, Sungho Lee, Joon-Young Lee, and SeonJoo Kim. 洋葱皮网络用于深度视频补全.在《计算机视觉国际会议论文集》(ICCV)中,页4403-4412,2019年。2, 3, 6, 70[28] Deepak Pathak, Philipp Krahenbuhl, Jeff Donahue, TrevorDarrell, and Alexei A Efros. 上下文编码器:通过修复进行特征学习.在《计算机视觉和模式识别IEEE会议论文集》(CVPR)中,2016年。20[29] Federico Perazzi, Jordi Pont-Tuset, Brian McWilliams, LucVan Gool, Markus Gross, and Alexander Sorkine-Hornung.用于视频对象分割的基准数据集和评估方法.在《计算机视觉和模式识别IEEE会议论文集》(CVPR)中,页724-732,2016年。1, 60[30] Yurui Ren, Xiaoming Yu, Ruonan Zhang, Thomas H Li,Shan Liu, and Ge Li. 结构流: 通过结构感知外观流进行图像修复.在《计算机视觉国际会议论文集》(ICCV)中,2019年。20[31] Tamar Rott Shaham, Tali Dekel, and Tomer Michaeli. Sin-gan: 从单个自然图像中学习生成模型.在《计算机视觉国际会议论文集》(ICCV)中,2019年。30[32] Assaf Shocher, Shai Bagon, Phillip Isola, and Michal Irani.Ingan: 捕捉和重映射自然图像的“DNA”.在《计算机视觉国际会议论文集》(ICCV)中,2019年。30[33] Assaf Shocher, Nadav Cohen, and Michal Irani.使用深度内部学习进行“零样本”超分辨率.在《计算机视觉和模式识别IEEE会议论文集》(CVPR)中,2018年。30[34] Dmitry Ulyanov, Andrea Vedaldi, and Victor Lempitsky.深度图像先验.在《计算机视觉和模式识别IEEE会议论文集》(CVPR)中,2018年。30[35] Chuan Wang, Haibin Huang, Xiaoguang Han, and JueWang. 通过联合学习时间结构和空间细节进行视频修复.在《AAAI人工智能会议论文集》(AAAI)中,卷33,页5232-5239,2019年。20[36] Tengfei Wang, Hao Ouyang, and Qifeng Chen.具有外部-内部学习和单色瓶颈的图像修复。在《IEEE/CVF计算机视觉与模式识别会议(CVPR)》, 2021年。 2 , 30[37] Yonatan Wexler, Eli Shechtman, and Michal Irani.时空视频补全。在《IEEE计算机视觉与模式识别会议》, 卷1, 页I–I.IEEE, 2004年。 20[38] Seoung Wug Oh, Joon-Young Lee, Kalyan Sunkavalli, andSeon Joo Kim.基于参考引导的快速视频对象分割。在《IEEE计算机视觉与模式识别会议(CVPR)》, 2018年。 50[39] Rui Xu, Xiaoxiao Li, Bolei Zhou, and Chen Change Loy.深度流引导的视频修复。在《》0IEEE计算机视觉与模式识别会议(CVPR), 2019年。 2 , 3 ,60[40] Jiahui Yu, Zhe Lin, Jimei Yang, Xiaohui Shen, Xin Lu, andThomas S Huang.具有上下文注意力的生成式图像修复。在《IEEE计算机视觉与模式识别会议(CVPR)》, 2018年。 2 , 40[41] Jiahui Yu, Zhe Lin, Jimei Yang, Xiaohui Shen, Xin Lu, andThomas S Huang.具有门控卷积的自由形式图像修复。在《IEEE国际计算机视觉大会(ICCV)》, 2019年。 20[42] Yanhong Zeng, Jianlong Fu, and Hongyang Chao.学习视频修复的联合时空变换。在《欧洲计算机视觉大会(ECCV)》, 2020年。 2 , 3 , 6 , 70[43] Haotian Zhang, Long Mai, Ning Xu, Zhaowen Wang, JohnCollomosse, and Hailin Jin.视频修复的内部学习方法。在《IEEE国际计算机视觉大会(ICCV)》, 2019年。 2 , 3 , 6 , 70[44] Ruisong Zhang, Weize Quan, Baoyuan Wu, Zhifeng Li, andDong-Ming Yan.像素级密集检测器用于图像修复。在《计算机图形学论坛》, 2020年。 2
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功