基于先验引导的图像语义修复方案

152 浏览量更新于2023-10-23 收藏 1.03MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1基于先验引导的GAN语义修复3 * Ritz Carlton酒店，莫斯科-马上预订;1印度理工学院，2微软摘要当代基于深度学习的语义修复可以从两个方向进行首先，也是探索得更多的方法是在掩蔽像素上训练离线深度回归网络，并通过对抗训练进行额外的改进。这种方法需要一个单一的前馈通过修复推理。另一种有前途但尚未探索的方法是首先训练生成模型以将潜在先验分布映射到自然图像流形，并在推理时间期间搜索“最佳匹配”，然后重建信号。对后一种类型的主要厌恶是由于其推断时间迭代优化和难以扩展到更高的分辨率。在本文中，逆着一般的趋势，我们专注于修复的第二范式，并解决其提到的问题。最重要的是，我们学习一个数据驱动的参数网络，以直接预测一个给定的掩蔽图像的匹配先验。这将一个迭代范例转换为一个单一的提要，用于-Ward推理流水线，约800倍加速比。我们还使用结构先验（计算）正则化我们的网络从被掩蔽的图像本身），这有助于更好地保存要被修补的对象的姿态和尺寸。此外，为了扩展我们的序列重构模型，我们提出了一种基于递归网络的分组潜在先验学习。最后，我们利用高分辨率的最新进展-解决方案GAN训练将我们的修复网络扩展到256×256。在SVHN、Standford Cars、CelebA、CelebA-HQ和ImageNet图像数据集上进行的实验（分辨率从64×64到256×256），以及FaceForensics视频数据集显示，我们一贯改进的当代基准从两个学校的方法。1. 介绍语义修复是指用与语义相关的合理像素值填充孔洞或掩蔽区域。*表示平等缴款。†作者在IIT Kharagpur时完成的工作。通信地址：网址：avisek@ece.iitkgp.ac.in，arj@microsoft.com图1： ImageNet （前两行）和 CelebA-HQ （底行）上的修复示例。在Imagenet等复杂的多类别数据集上，与MC-CNN [42]，PIC [49]和GIP [47]的最先进框架相比，我们的网络更有能力恢复要修复的对象的语义部分。在更简单的结构，如面，我们执行可比（有时更好）的竞争方法。所有图像均为256×256。放大以获得更好的可视化效果。邻里背景。传统技术[4，17]主要通过将背景补丁匹配和复制到孔中来成功修复背景和具有重复纹理的场景。然而，这些方法在图案是唯一的或非重复的情况下失败，例如在面部和对象上。最近最先进的生成模型通常利用深度生成模型的进步，例如变分自动编码器（VAE）[23]和生成对抗网络（GAN）[16]。主要有两个学派的方法，a）第一种方法由于其快速的推理速度和高分辨率下的可观性能而吸引了大多数最近的吸引力[35，21，47，29，28]。通常，该范例在掩蔽和未掩蔽图像的成对数据集上进行训练，并且最初在掩蔽区域上使用传统的重建损失进行引导。为了获得更精细的细节，下一步是用对抗性损失来改进重建第二种方法是首先在干净/未掩蔽的图像上训练生成模型，例如GAN，然后在推理时基于掩蔽的图像，在完成图像之前预测合适的潜像。从生成建模研究的角度来看，这种方法是有吸引力的，因为模型从来没有明确地指导重建损失超过掩蔽1369613697像素然而，没有任何重建损失使得训练这些模型变得更加困难，因为它必须在没有被掩蔽/损坏像素信息的情况此外，由于推理期间的迭代优化，这种迭代框架禁止实时应用。在本文中，我们希望鼓励我们的读者将修复视为对预训练生成模型的最佳潜在先验的搜索。这种观点是相当普遍的，超越了图像和视频领域。为此，我们采用迭代推理的方法，主要目的是大规模加快推理速度，同时改善视觉质量。为此，我们遵循两阶段训练策略。在第一阶段，我们训练GAN网络将噪声分布映射到自然图像的流形。在第二阶段，我们修复预训练的GAN网络，并训练另一个深度神经网络，以从给定的掩蔽图像中预测合适的噪声先验。最后，在推理过程中，我们为给定的掩蔽图像获得匹配的噪声先验（在单次前馈中），并使用预训练的GAN的生成器模块来重建未掩蔽的图像。单幅图像修复具有多模态完成的可能性。例如，被掩蔽的唇部区域可以被内绘为中性、微笑、生气等。这对于当前的主要目标是照片真实感的单个图像修复框架来说不是然而，如果我们想扩展到视频，这种多模态的可能性会导致一个噪音抖动效果。在本文中，我们提出了一种条件GAN设置[33]，其中在生成图像时，结构先验与噪声先验一起增强。我们表明，这种结构先验不仅有助于提高样本质量，而且还迫使生成模型更好地尊重对象的姿势和方向。为了在推理时间内消除任何人为干预，我们还设计了一个去噪自动编码器[39]启发的网络，以自动计算来自掩蔽图像的部分观察数据点的结构先验。当前的单图像修复模型不能很好地应用于视频。虽然每个帧可能是照片级真实感的，但当作为序列查看时，由于模型的时间不一致性而存在我们提出了一种基于递归神经网络的分组噪声先验预测来克服这种不一致性。这种噪声先验的联合预测使得网络能够尊重自然视频的时间动态。注意，在本文中，视频修复是指帧的损坏区域。在传统的视频编码文献中，这被称为视频中的HEVC [37]是当前用于视频传输的标准，具有高带宽效率，但与其后继者H.264 [32]相比更容易发生在解码器（最终用户）侧，HEVC不能保证端到端再现。诱导由于视频流是在矩形块中打包和编码的，因此分组错误表现为帧上的矩形孔。因此，作为图像修复的扩展的视频修复可以在解码器侧用作我们的贡献总结如下：1. 将修复的“迭代推理”管道转换2. 增强结构先验（通过自动从掩蔽图像导出）与噪声先验，以改善GAN样本，最终导致更好的绘画重建。这样的先验还使GAN训练规则化以尊重要被修复3. 设计一个基于递归神经网络的视频修复分组先验学习框架。这导致从“迭代推理”和“单程推理”框架以及最近的多帧方法中获得优于单图像基线的时空特性4. 利用GAN训练的最新进展，将修复分辨率扩展到256×256，与当前的“迭代推理”基线相比，视觉上合理的最大分辨率为64×642. 相关作品图像修复：传统的图像修复方法[3，5，13，14]广泛地使用匹配补丁和从未掩蔽部分到掩蔽区域的低级特征的扩散。这些方法主要用于合成背景场景的静态纹理，其中可以从未掩蔽区域中找到匹配块。然而，复杂对象缺乏这种冗余的外观特征，因此最近的方法利用深度神经网络的结构特征学习能力来学习场景的高阶语义。单遍推理模型→[24，43]的初始框架主要是使用通常的102重建损失。随着GANs的出现，一种常见的方法（上下文编码器（CE）[35] Patak et al. ，尝试学习场景表示以及修复。Iizuka等人提出了最近，Yu等。 [47]在GLCIC的基础上进行了改进，13698图2：我们的基本修复模型。步骤1：学习GAN模型。步骤2：冻结GAN模块（显示为“锁定”符号），并学习基于掩蔽的输入图像推断噪声先验。步骤3：在推理过程中，给定一个掩码图像，预测一个匹配的噪声向量，并使用预训练的GAN生成器（G）产生最终输出。虚线箭头示出了训练阶段期间的误差梯度的流动。图中的符号表示正在训练的网络模块。通过将上下文注意力结合在修补网络内，使得网络学习利用来自未掩蔽像素的远距离信息。Wang等人提出了生成多列CNN（GM-CNN）[42]，用于并行合成不同的图像分量。[44]作者介绍，关于V（DθD，GθG）：最小值最大值V（DθD，GθG）=Ex p数据（x）[logDθD（x）]G θD θD+Ez <$pz（z）[1 − DθD（GθG（z））]。（一）在U-Net架构中引入从编码器到解码器的移位连接。为了处理随机形状的孔，提出了部分卷积[30]门控卷积[48]。“迭代推理”基线→由Yeh等人引入。在有足够容量的情况下，收敛时，GθGrandom [16].3.2.迭代推理基线傻瓜DθD.[45]，这种方法避免了像素信息在掩蔽区域内，而是依赖于通过仅利用未掩蔽像素的迭代推断时间优化视频修复：虽然基于深度学习的修复主要集中在单个图像，但视频修复仍大部分尚未开发。从像我们这样的重建观点来看，最近Wang et al.[40]提出了一个两阶段视频修复框架。在第一阶段，他们以半分辨率训练3D CNN进行课程体积预测，然后是2D CNN分支进行上采样和细化。该方法仍然遭受模糊重建，因为它只有101重建损失没有对抗损失设置。最近的一些作品[9，10，34，27]专注于自由形式的视频修复，主要针对视频编辑。3. 背景3.1. GAN基础知识由Goodfellow等人提出。[16]，GAN模型由两个参数化的深度神经网络组成，即，属tor，GθG，和θD。该生成器的任务是生成一幅图像x∈RH×W×3，输入为潜在噪声先验向量z∈Rdz是从已知分布pz（z）中采样的。一个常见的选择[16]是，z<$U [-1，1]d。将采样器与生成器进行比较，以区分真实样本（从p数据中采样）伪造/生成的样本。具体地说，P2P和Generator进行以下两人最小-最大博弈根据构造的图像，其语义类似于损坏的形象z被优化为，z=argminL（M<$GθG（z），M<$I）（2）z其中M是二进制掩码，在掩码像素上为1，否则为0，M =（1-M），M是Hadamard算子，L（·）是ny损失函数。值得注意的是，损失函数从不使用掩蔽区域内的像素。在收敛时，修复后的图像I被给出为I=Id+M<$GθG（z<$），其中Id=M<$I。4. 该方法4.1. 数据驱动噪声先验学习Eq. 2是“迭代推理”框架的主要瓶颈在推理过程中，我们建议学习一个离线参数模型Pθz，而不是迭代地优化每个测试图像的噪声先验z，用于直接从掩蔽图像Id预测z向量。优化参数集θz，以共同最小化以下损失：Spatially Adaptive Contextual Loss: With this loss wewant to penalize any mismatch between the unmaskedpixels of Id and the generated image, GθG(Pθz(Id)).13699我z我我我我我NK×2NK×2fθ通常，未掩蔽像素上的1001或 1002损失可以用于此。然而，为了减轻对任何后处理混合的要求，我们希望对孔边界附近的可见像素更加重要，以更好地混合Id和GθG（Pθz（Id））。具体地，令SM是一组屏蔽像素;SM={（x，y）|M（x，y）=1}。我们定义空间自适应加权掩模W，其权重为位置（i，j）由下式给出通过尊重这些先验知识来输出。这种额外的先验可以被视为GAN框架的条件变量。在GAN训练过程中，我们将generator和task都置于这样的先验之上。在此之后，噪声先验预测器网络Pθz也必须通过将结构先验作为附加约束来优化θz在本文中，没有任何损失的推广，我们认为人脸修复与面部标志作为结构，有前科。W（i，j）=0的情况。99;=min（x，y）∈SMn（i，j）∈SM|+的|j− y|、|,（三）估计结构前科面具的形象。我们最初尝试使用最近的面部关键点对齐Adrian等人的基准 [7]，用于掩蔽图像上的标志定位。然而[7]给出了错误的检测我们定义Lc为：在被掩盖的区域。掩蔽操作也会降低Lc= W |I − GθG（Pθz（Id）|1 .一、（四）在未掩蔽像素上的定位功效（参见图1B）。4）.这就要求在估计之后进行细化阶段，真实感损失：这种损失确保了修复后的输出位于真实数据流形附近，并且通过预训练的训练器分配的真实类的相似性的对数似然来测量。我们定义Lr为：[7]的意思我们遵循一种改进策略，其灵感来自去噪自动编码器[39]，其想法是从噪声信号中恢复原始信号。在掩蔽图像j上，我们对最初检测到的NK个关键点中的每个关键点进行去注释（通过[7]）Lr= log（1 − DθD（GθG（Pθz（Id）。（五）as，kj：=[xj，yj]，i∈{1，2，.，Nk}，xj和yj表示梯度差损失：这种损失强加在I d的掩蔽梯度（水平和垂直）矩阵之间水平和垂直关键点坐标被归一化为基于面部边界框区域补间0和1 对于每个kj，我们有一个开关向量r，dj，使得，如果ky，我我和GθG（Pθz（Id））。这迫使网络预测产生高频保留样本的噪声先验点落在掩蔽区域下，则忽略该点，在馈送到预测网络之前设置dj=xj=yj= 0我我我并进一步尊重原始场景的结构。Lg= M |xId−|+M |yId−|.（六）总之，参数集θz被优化以最小化组合损耗Lcom，工作，否则dj=1。设K∈[0，1]NK×2对矩阵中的k个y-点进行编码. 然后，我们学习一个参数化函数f：R→ R，以根据检测到的关键点预测丢弃的关键点（并细化其他关键点）。用三隐层全连接神经网络实现了f（·）。F或训练，fθf（·）我们施加102损失，在原始关键点和细化关键点之间;NNkLcom=Lc+λ1Lr+λ2Lg（7）2011年1 月1日^J2z，其中λiθf=minθf NNKj=1 i=1||第二条，第（九）项||2,(9)因子在Pθz的训练收敛之后，给定一个掩码图像，Id，mask，M，我们可以得到修复后的输出，一个前馈步骤。修复后的图像，I，由下式给出其中tj是第j个图像上的第i个k^j是细化的key点（从初始检测的kj开始）Iθ = Id+ M <$GθG（Pθz（Id））。（八）N是训练图像的数量。= 1）概率被设置为0.3，即，在训练过程中，我们创建了随机面具来覆盖70%的面部关键点，等式8，[45]的迭代范例被转换为单个前馈框架，导致显著的推断加速。我们在图中提供了我们提出的框架的13700θ可视化。二、4.2. 结构先验我们建议通过增加结构先验来进一步正则化我们的网络。结构先验可以是捕获要修复的对象的姿势和大小的任何表示，从而迫使网络屈服因此在训练fθf（·）时被丢弃。关键点的最终向量Kf由f（K）给出。F4.3. 序列的分组噪声先验学习一个天真的方法应用公式Eq. 7是独立地修补各个帧。然而，这种方法无法学习序列的时间动力学，从而产生抖动效果。在这方面，我们建议使用长短期记忆（LSTM）网络[20]来联合预测z向量。13701Dpz图3：使用组合LSTM-CNN框架的分组噪声先验学习。符号表示要更新的参数。一次一组W帧。LSTM网络有一个隐藏状态ht，用来总结在时间步长t之前观察到的信息。隐藏状态在查看先前隐藏状态和当前掩蔽图像（具有可选的结构先验）之后被更新图3显示了我们的基于LSTM的框架，用于联合重新构建覆盖一组帧。令V ={I1，I2，.，我会的图4：（a）Bulat等人对初始噪声地标检测的改进。[7]在面具上。请注意，我们的细化阶段甚至纠正了未掩蔽区域上的地标;（b）比较LS 3D-W测试集上的面部关键点检测的相对定位误差，其中50%皮肤像素被掩蔽。表1：与Yeh等人[ 45 ]的基线迭代推理修复基线在不同的孔图像比下的比较。较低的FID表示视觉上更合理的重建。方法→度量SVHN汽车CelebA10% 40%百分之十40% 10%百分之四十Yeh等人→ PSNR21.316.515.112.2 23.820.1Ours（Mz）→PSNR21.117.014.812.523.420.3Ours（Mz+S）→PSNR- ---二十四点一21.7Yeh等等人 → FID3.9 4.84.55.4 5.86.8Ours（Mz）→FID3.6 4.34.15.05.16.7Ours（Mz+S）→FID- ---四点九6.0DD d一组W个损坏的连续帧。最初，每个帧It通过共享的CNN模块（与Pθz的结构相同），以得到中间表示zt。zt是时间t时LSTM模型的输入，6. 实验6.1. 培训详情所有的损失函数都用小批量D d所获得的输出通过前馈网络传播工作得到潜在的先验zt。先验，zt，用于随机梯度下降使用亚当优化器。我们...使用Tensorflow 1.8.0和CUDA 9.0实现了我们的模型p p在预训练生成器GθG的帮助下重建It。我们在等式中使用损失函数7，在W帧的分组窗口上求平均，以优化LSTM和共享CNN模块的参数。具体地，分组的先验损失由Lgr定义，W和CUDNN 5.1，并在英特尔®至强® E5上执行2650 v4@2.2GHz，配备NVIDIA Tesla K40 GPU。6.2. 来自掩蔽图像的我们首先证明了我们的模型的有效性，预测整个面部标志，通过观察只有一个子，Lgr=1Lcom（Ii，Ii）.（十）在给定的掩码图像上检测到的那些集合我们使用zWzdpi =1请注意，预先训练的发生器和识别器的参数保持冻结。5. 按比例放大分辨率对于照片级逼真的修复，我们采用最近的Progressive-GAN（PG-GAN）[22]和BigGAN [6]的大规模GAN框架。由于我们只需要预训练的生成器和编译器，因此我们将 PG-GAN 模块用于 CelebA-HQ，将BigGAN模块用于Imagenet。BigGAN的作者还没有发布CelebA-HQ的模型，因此我们采用了PG-GAN的模型。然而，PG-GAN对于ImageNet来说是不可扩展的，因为它为每个类训练了不同的GAN。相反，BigGAN在所有1000个Imagenet类别中使用单个GAN我们稍微改变了我们的模型的命名，以表示高分辨率的模型。对于前-LS 3D-W数据集[7]，并遵循已发布的训练/测试集分区。为了减轻尺度变化的问题，我们使用相对定位误差（RLE），其是预测关键点和原始关键点之间的102距离，作为两个眼睛中心之间的距离（眼间距离）（眼间距离，IOD）的分数[15]。在图4中，我们报告了低于特定RLE的关键点的百分比，其中50%的图像被随机形状的孔掩盖令人鼓舞的是，我们的模型在蒙面的预测性能在RLE≤ 5%的严格条件下，在非掩蔽面上的结果与[7]相当我们的细化状态的优势也显示在图中。4.第一章6.3. 单幅图像修复该论文的主要动机之一是将[45]的迭代范例转换为在[45]和最近的后续工作例中，Mz记作MH，Mz+S→MH等在[46]中，作者将分辨率限制为64×64。这是在-13702zz+ S13703图5：与迭代优化相比，提出的噪声先验学习的好处。对于每个三元组，第一列是掩码图像，第二列是Yeh等人[ 45 ]的“迭代推理”基线的初始解叶等人的初始解远离自然数据流形，因此需要非常长的迭代精化。图6：提出的结构先验使GAN能够解开面部姿势和外观线索。左：使用相同z向量但不同结构先验进行采样的面。Right: Faces sampled with different zvectors for a given structural prior.图7：在CelebA（顶行）、SVHN（左下）和Standford Cars（右下）上可视化修复。对于每个三元组，第一列是掩蔽图像，第二列是通过Yeh等人的“迭代推理”基线的最终解决方案。注意，对于大孔洞和平面外旋转的面部，我们的面部模型Mz+S能够重建面部的实用几何形状和纹理。这归因于a）“DCGAN”框架不足以按因此，为了进行公平比较，我们展示了64×64组件的优势。然而，在Sec。6.3.3我们将展示我们的框架也可以扩展到更高的分辨率和性能优于几个方法.数据集设置：为了与[45]进行比较，我们使用了作者使用的相同数据集;裁剪SVHN[22]，斯坦福德汽车[25]和CelebA[31]。SVHN作物的大小调整为64×64。在斯坦福汽车上，我们使用边界框信息-提取和调整汽车大小为64×64。检测到脸部开启CelebA的中心裁剪为64×64。在SVHN和Cars上，我们使用数据集提供者的测试/训练分割。在CelebA上，我们测试了10000个样本。随机位置的32×32孔用于训练和测试。为了与[ 47，49，42 ]的最近的“单通推理”基线进行比较ageNet 256×256分辨率。图像大小调整为256×256，用于训练和测试。在训练过程中，随机的矩形孔，较小的边在96-128之间使用像素在CelebA-HQ上，孔是在随机位置创建的在ImageNet上，我们使用中心孔，因为大多数图像的关注对象都位于图像中心附近。对于 CelebA-HQ 和ImageNet，我们保留了10000张图像（从ImageNet的验证集中跨类均匀采样）用于测试。评估指标：为了进行定量比较，我们使用 PSNR（dB）。然而，最近的工作[47，30，26]已经表明，由于多模态图像组合，基于重建损失的度量不是照片真实感的真实反映可能性。因此，目前的趋势是报告最近提出的FrechetInception Distance（FID）度量，该度量与照片现实主义非常相关[19]。较低的FID值是优选的。6.3.1预测噪声先验的重要性快速推理：我们在[ 45 ]中实现的最重要的改进是显著的推理加速。在图5中，我们将[45]的初始解与我们的单前馈解进行了比较。由于没有任何机制来估计来自掩蔽图像的噪声先验，[45]的初始解远离真实数据流形，因此需要耗时的迭代更新。为了收敛，[45]分别在64×64和128×128分辨率下需要总共1000和1500次迭代。我们的方法只是增加了一个噪声预测器网络和一个可忽略的（可选的）过度-朝结构优先区走在表4中，我们比较了GPU上的实际推理时间。在分辨率为64×64和128×128的情况下，加速比分别达到780 ×和820 ×.更好的概括：提出的从掩蔽图像学习预测噪声先验的框架比[ 45 ]的自组织迭代优化更好地推广到新图像和掩蔽。这是因为，随着训练的进化，我们的网络学会了调整参数Pθz，将具有相似外观的图像映射到紧密匹配的z向量。因此，给定图像的参数更新隐含地推广到具有相似特征的图像。相反，[45]独立处理每个图像，并且很有可能陷入某些局部最小值，从而产生劣质重建。从表1中，我们可以看到我们的噪声先验预测模型Mz在FID方面始终优于[45图中提供了一些7 .第一次会议。6.3.2结构优先级的重要性：姿势和表情的控制：在GAN训练期间，结构先验使生成器能够解开appearance和pose。给定的结构先验迫使生成器将头部姿势和面部表情与结构先验相匹配。另一方面，外观因素，如性别，皮肤纹理控制的z向量。13704zzz−表2：比较不同修复方法在CelebA-HQ和ImageNet数据集的256 X256分辨率图像上的FID度量。我们在随机位置报告了96x96和128x128的掩模的性能FID指标越低越好。方法CelebA-HQ ImageNetzOurs（MH）3.8 8.5z+S我们的（MH）（实际标签）- -我们的（MH）（预测标签）- -图8：来自ImageNet的示例，我们的微调ResNet-101在掩码图像上预测正确的类标签。我们使用Grad-CAM [36]覆盖前1类的空间定位图;红色=最重要，蓝色=最不重要。请注意，即使对象的大部分丢失，网络仍然能够注意到未掩蔽的重要/补充线索，以断言正确的类标签。在图6中，我们展示了我们的GAN模型学习到的这种解纠缠。改进的GAN样本和重建：在GAN训练期间，对结构先验的调节帮助我们实现了比[ 45 ]更逼真的样本。如果我们假设自然图像属于纹理T和姿态P的联合分布F（T，P），则不相关的GθGAN学习了以下函数：pz−−→F（T，P）。Un-在一个额外的姿势约束下，它必须学习，GθG→F（T|P），大大减少了GθG（·）的映射空间，节省了生成器的训练时间。额外的好处，从结构先验的修复是evi-tional表1中报告的较低FID分数的凹痕，二、最后，从表4中，我们可以看到结构先验模块增加的计算开销可以忽略不计。6.3.3与“单次推理”模型的比较接下来，我们比较了PIC [ 49 ]，GIP [ 47 ]和MC-CNN[ 42 ]的一些当代“单通推理”基线。在这里，我们的高分辨率模型。我们在256×256分辨率下比较了CelebA-HQ和ImageNet。在表2中，我们报告了不同孔到孔的FID指标。图像比率。我们在CelebA-HQ上使用其他方法进行了验证，但在更复杂的ImageNet数据集上显示了显着的改进。请注意，在ImageNet上，同学们图9：FaceForen-sics数据集序列上的面部视频重建示例。请注意，与Com-bCN相比，我们的重建保留了更精细的细节，并且在没有LGTSM中使用的门控卷积或时间判别器的情况下，与LGTSM相当在推理时间期间需要信息。起初，这可能会让人觉得是一种负担。但考虑到令人印象深刻的修复性能，这些辅助信息似乎值得。在Imagenet上训练单一的端到端修复模型时，大量的对象类别是主要的问题之一与主要关注结构的Places2等数据集不同，Imagenet具有多种多样的上下文。因此，它有助于根据辅助类信息调节网络。然而，为了减轻在推理过程中提供类标签的人为干预，我们还训练了一个网络来从掩码ImageNet中预测类标签。具体来说，我们对ImageNet上的 ResNet-101 [18] 进行了微调。我们在掩蔽的Imagenet验证集上实现了75.3%的top-1准确性（从55%开始），而在未掩蔽的版本上为77%。在图8中，我们展示了我们的微调网络从掩码图像中预测正确类别标签的实例。从表2中我们可以看到，具有预测类标签的ImageNet模型的FID度量仍然优于计算模型。在图1中，我们在ImageNet上可视化了一些修复示例，并从掩码图像中预测了正确的类标签请注意，我们的模型如何生成与对象的主类一致的更好的语义。在图10中，我们展示了一些网络无法正确预测的例子，随后产生了不实用的重建。6.4. 序列修复对于序列修复，我们选择FaceForensics数据集[1]，这是最近视频重建论文[40，9，10]的首选面部视频数据集它包含来自YouTube和YouTube-8 m数据集的1004个人脸视频[1]。在[40，9，10]中的设置之后，所有面洞→96x96128x12896x96128x128GIP4.911.28.723.3PIC4.09.17.638.2MC-CNN4.110.08.028.1我们的（MH）4.19.2----4.514.56.517.813705Mzz+ S+L表3：FaceForensics视频数据集上不同修复方法的视频FID度量在10%-50%之间的不同掩码与帧比率上平均。较低的FID意味着更好的感知视频质量。Yeh等 [45][21][47][10][11][12][13][14][15]H Hzz+SHz+LHz+S+L0.781 0.762 0.751 0.651 0.670 0.742 0.738 0.710 0.680图10：我们的修复模型的一些失败案例。我们在这些图像中的每一个上预测错误的类，因此无法生成主掩码对象的真实语义。左：原始图像，中：图像右侧：修复图像，中心裁剪为128×128，并使用范围[0.35l，0.5l]内的随机矩形掩码进行训练，其中l= 128。-总共使用了 150 个视频进行测试。我们使用微调（FaceForensics框架）比较方法：我们与[45，21，47]的单图像框架进行比较。我们还比较了CombCN [40]，3DGated[9][ 10 ][11][12]定量评价：单帧计算的PSNR不能反映序列的时间特性。根据[9]中的设置，我们使用最近提出的video-FID度量[41]和I3 D [8]预训练的视频识别CNN。较低的video-FID是较好的，并且是真实的时空特征的指示。在表3中，我们比较了平均测试集video-FID。它还提供了我们模型的不同组成部分的消融研究令人鼓舞的是，即使是我们的单一图像模型MH，也比竞争对手的单一图像模型表现更好由于没有时间指导，这可以归因于使用“BigGAN”生成器进行更好的空间重建。结合结构先验（MH）表4：修复推断时间的比较（以ms为单位）。我们极大地改进了Yeh等人[45]的起始迭代基线的推断。我们的运行时间也与PIC [ 49 ]，GIP [ 47 ]和MC-CNN [ 42 ]的当代“单次推理”方法相当。请注意，在256×256分辨率下，我们正在使用'BigGAN'生成器网络。ResYeh等人PICGIPMC-CNNMzMz+ S64X642175---（我们的）2.7（我们的）2.8128X12810750--11.013.2256X256不收敛7030506875使用基于时间PatchGAN的卷积，实现了空间移位和门控3D内核。这些模块也可以集成到我们的模型中，但我们将其留给未来的工作。7. 讨论和结论在本文中，我们重新审视了迭代推理框架，以加快推理时间为目标。 Towards this we showed theimportance of data driven noise prior learning which gaveabout 800× speedup with simultaneous improvement ofreconstruction与[45]的基线相比。我们还扩展了我们的视频修复模型，并引入了结构先验和LSTM驱动的分组先验学习的概念，以显着改善时间动态。在图像修复和视频重建方面，我们还展示了最先进的性能。我们的论文引入了一个新的维度，将修复视为对“最佳匹配”潜在先验的搜索，而我们承认，目前我们的模型不太适合修复自然视频或户外场景。这不是我们框架的缺点，而是当前GAN框架无法合成自然场景的一个人的缺点。然而，随着PG-GAN和BigGAN的发布，社区对使用GAN生成复杂场景非常乐观。因此，和LSTM分组先验（MHz+S我们的框架非常模块化，可以接受任何新的z+L）性能进度-改善。组合模型，M H体现了最好的表现。Com-bCN [40]的视频修复模型仅在没有任何对抗性细化的情况下使用101个因此，即使结果是稳定的，输出也是模糊的，并且最终受到高视频FID分数的惩罚。我们的组合模型具有与[9，10]相当的性能，即使这些模型使用时间维度特定的速度卷积概念。GAN模型并受益于其生成能力。我们把它作为未来的探索工作。确认该项目由Google PhD Fellowship 资助作者要感谢Saurav Basu，感谢他富有洞察力的讨论。MMM13706引用[1] Sami Abu-El-Haija，Nisarg Kothari，Joonseok Lee，PaulNatsev ， George Toderici ， Balakrishnan Varadarajan ，and Sudheendra Vijayanarasimhan. Youtube-8 m：一个大规模视频分类基准。arXiv预印本arXiv：1609.08675，2016。7[2] 苏珊娜·艾格和哈立德·法泽尔分层mpeg-2视频编解码器的时空错误隐藏技术。在 Proceedings IEEEInternational Conference on Communications ICCIEEE，1995年。2[3] Coloma Ballester、Marcelo Bertalmio、Vicent Caselles、Guillermo Sapiro和Joan Verdera。通过矢量场和灰度级的联合插值来填充IEEE图像处理学报，10（8）：1200-1211，2001年。2[4] Connelly Barnes ， Eli Shechtman ， Adam Finkelstein ，andDanBGoldman.Patchmatch ： Arandomizedcorrespondence algorithm for structural image editing.ACM Trans-actions on Graphics（ToG），28（3）：24，2009. 1[5] Marcelo Bertalmio、Guillermo Sapiro、Vincent Caselles和Coloma Ballester。图像修复。第27届计算机图形和交互技术年会论文集，第 417-424 页。 ACMPress/Addison-Wesley Publishing Co. 2000. 2[6] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模gan训练2019年，在ICLR。5[7] Adrian Bulat和Georgios Tzimiropoulos我们离解决二维和三维人脸对齐问题还有多远？(and 230，000个3D面部标志的数据集）。InICCV，2017. 四、五[8] Joao Carreira和Andrew Zisserman。你好，动作识别？新模型和动力学数据集。在CVPR中，第6299-6308页8[9] 张亚良，刘哲宇，徐云松。使用3d门控卷积和时间patchgan的自由形式视频修复。在ICCV，2019年。三、七、八[10] 张亚良，刘哲宇，李冠英，徐文松。用于深度视频修复的可学习门控时间移位模块。在BMVC，2019。三、七、八[11] Yan Chen，Yang Hu，Oscar C Au，Houqiang Li，andChang Wen Chen.基于时空边界匹配和偏微分方程的视频错误隐藏。 IEEE Transactions on Multimedia ， 10（1）：2-15，2007。2[12] VincentDumoulin 、 JonathonShlens 和 ManjunathKudlur。对艺术风格的博学的表现。在ICLR，2017。7[13] Alexei A Efros和William T Freeman。图像绗缝纹理合成和转移。在第28届计算机图形和交互技术年会的会议记录中，第341-346页ACM，2001年。2[14] Alexei A Efros和Thomas K Leung。基于非参数采样的纹理合成。载于ICCV，第1033页。IEEE，1999年。2[15] 戈尔纳兹·吉亚西和查利斯·C·福克斯。闭塞一致性：用分层可变形零件模型定位遮挡面。InProceedings of theIEEE Conference计算机视觉和模式识别，第2385- 2392页，2014年。5[16] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在NIPS，第2672-2680页第1、3条[17] James Hays和Alexei A Efros。使用数百万张照片完成场景。ACMTransactions on Graphics（TOG），第26卷，第4页。ACM，2007年。1[18] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。CVPR，第770-778页，2016年。7[19] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。在NeurIPS，第6626-6637页，2017年。6[20] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。神经计算，9（8）：1735-1780，1997。4[21] Satoshi Iizuka，Edgar Simo-Serra，and Hiroshi Ishikawa.全局和局部一致的图像完成。ACM Transactions onGraphics（TOG），36（4）：107，2

下载后可阅读完整内容，剩余1页未读，立即下载