基于部分卷积的图像修复方法

65 浏览量更新于2023-10-13 收藏 5.06MB PDF 举报

图像修复

深度学习

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

基于部分卷积桂林柳Reda Kevin J.施廷骏王道安Bryan Catanzaro英伟达公司Fig. 1.使用我们的基于部分卷积的网络掩蔽图像和相应的修复结果。抽象。现有的基于深度学习的图像修复方法在损坏的图像上使用标准卷积网络，使用以有效像素以及掩蔽孔中的替代值（通常是平均值）为条件的卷积滤波器响应这通常导致诸如颜色差异和模糊的伪像。后处理通常用于减少这样的伪像，但是代价昂贵并且可能失败。我们建议使用部分卷积，其中卷积被掩蔽并重新归一化为仅以有效像素为条件我们还包括一种机制，用于自动生成下一层的更新掩码，作为前向传递的一部分。我们的模型优于其他方法的不规则面具。我们展示了与其他方法的定性和定量比较，以验证我们的方法。关键词：部分卷积，图像修复1介绍图像修复，即填充图像中的漏洞的任务，可以用于许多应用中。例如，它可以用于图像编辑，以消除不需要的2Guilin Liu et al.(a) 有孔图像（b）PatchMatch（c）Iizuka et al.[10]（d）Yu等人[36个](e)孔=127.5（f）孔=IN平均值（g）部分卷积（h）真实数据图二 . 从左到右，从上到下： 2 （ a ）：具有孔的图像。 2 （ b ）：PatchMatch[2]的修复结果。2（c）：Iizuka等人的修复结果。[10]第10段。2（d）：Yu等人[36]第30段。图2（e）和图2（f）使用与第3.2节相同的网络架构，但是使用典型的卷积网络，图2（e）使用像素值127.5来初始化孔。2（f）使用平均ImageNet像素值。2（g）：我们的基于部分卷积的结果，其与孔值无关。图像内容，同时用看似合理的图像填充所得到的空间先前的深度学习方法集中于位于图像中心周围的矩形区域这项工作的目标是提出一个模型的图像修复，操作鲁棒的不规则孔模式（见图1）。1），并且产生语义上有意义的预测，其与图像的其余部分平滑地合并，而不需要任何附加的后处理或混合操作。不使用深度学习的最新图像修复方法使用剩余图像的图像统计来填补漏洞。PatchMatch [2]是最先进的方法之一，它迭代地搜索最适合的补丁来填充孔。虽然这种方法通常会产生平滑的结果，但它受到可用图像统计信息的限制，并且没有视觉语义的概念。例如，在图2（b）中，PatchMatch能够使用来自周围阴影和墙壁的图像补丁来平滑地填充绘画中缺失的组件，但语义感知方法将使用绘画中的补丁。深度神经网络以端到端的方式学习语义先验和有意义的隐藏表示，其已用于最近的图像修补工作。这些网络在图像上使用卷积滤波器，用固定值替换删除的内容结果，这些方法遭受以下问题：基于部分卷积的不规则孔图像修复3依赖于初始孔值，这通常表现为孔区域中缺乏纹理、明显的颜色对比或孔周围的人工边缘响应。在图2（e）和2（f）中可以看到使用具有典型卷积层的U-Net架构的示例，该卷积层具有各种孔值初始化（对于两者，训练和测试共享相同的初始化方案）。根据孔值调节输出最终会导致各种类型的视觉伪影，这需要昂贵的后处理。例如，Iizuka et al.[10]使用快速行进[30]和泊松图像混合[21]，而Yu等人。[36]采用后续细化网络来细化其原始网络预测。然而，这些细化不能解决如2（c）和2（d）所示的所有伪影。我们的工作旨在实现独立于孔初始化值并且没有任何附加的后处理的良好结合的孔预测。许多最近的方法的另一个限制是聚焦于矩形形状的孔，通常假定为图像中的中心我们发现这些限制可能会导致过拟合的矩形孔，并最终限制了这些模型的实用性在应用中。Pathak等人[20]和Yang et al.[34]假设在128×128图像的中心有64 × 64个方形孔。Iizuka等人[10] Yu etal.[36]去除了中心孔假设，可以处理不规则形状的孔，但没有对大量具有不规则掩模的图像（[8]中的51个测试图像）进行广泛的定量分析。为了专注于更实际的不规则孔用例，我们收集了大量具有不同大小的不规则掩模的基准图像。在我们的分析中，我们不仅要考虑孔的大小，还要考虑孔是否与图像边界接触。为了正确处理不规则掩码，我们提出使用部分卷积层，包括掩码和重新归一化的卷积操作，然后是掩码更新步骤。掩蔽和重新归一化卷积的概念在[7]中也被称为用于图像分割任务的分割感知卷积我们使用部分卷积，使得给定二进制掩码，我们的卷积结果仅取决于每层的非孔区域。我们的主要扩展是自动掩码更新步骤，它删除了部分卷积能够对未掩码值进行操作的任何掩码。如果有足够多的连续更新层，即使是最大的掩蔽洞最终也会缩小，在特征图中只留下有效的响应。部分卷积层最终使我们的模型对占位符孔值不可知。总之，我们做出以下贡献：– 我们提出使用具有自动掩模更新步骤的部分卷积来实现图像修补的最新技术。– 虽然先前的工作未能在具有典型卷积的U-Net [32]中使用跳过链接实现良好的修复结果，但我们证明了用部分卷积和掩码更新替换卷积层可以实现最先进的修复结果。4Guilin Liu et al.– 据我们所知，我们是第一个证明在不规则形状的孔上训练图像修补模型的功效的人。– 我们提出了一个大型的不规则掩模数据集，将向公众发布，以促进未来在训练和评估修复模型方面的努力。2相关工作图像修复的非学习方法依赖于使用距离场[3，1，30]等一些机制将外观信息从相邻像素传播到目标区域然而，这些方法只能处理窄孔，其中颜色和纹理变化很小。大孔可能导致过度平滑或类似于Voronoi区域的伪影，例如[30]中。基于补丁的方法如[5，15]所示，通过以迭代方式从图像的非孔区域或其他源图像中提取补丁来进行操作然而，这些步骤通常需要大量的计算成本，例如[26]。PatchMatch [2]通过提出更快的相似补丁搜索算法来加速它。然而，这些方法对于实时应用仍然不够快，并且不能进行语义感知的补丁选择。基于深度学习的方法通常用一些恒定的占位符值来初始化孔，例如。ImageNet的平均像素值[24]，然后通过卷积网络传递。由于产生的伪影，后处理通常用于改善占位符值上的条件作用。内容编码器[20]首先将具有64×64中心孔的128×128图像嵌入到低维特征空间中，然后将特征解码为64 × 64图像。Yang等人。[34]将内容编码器的结果作为输入，然后将非孔洞区域的纹理信息传播到孔洞区域作为后处理。Song等人[28]使用了一个细化网络，其中模糊的初始孔洞填充结果被用作输入，然后迭代地替换为来自特征空间中最近的非孔洞区域的补丁。Li等人[16]和Iizuka等人[10]通过定义全局和局部鉴别器扩展内容编码器;然后Iizuka等人。[10]应用Poisson blending作为后处理。在[10]之后，Yu et al.[36]用由上下文注意力层驱动的细化网络取代了后处理在深度学习方法中，其他一些努力也忽略了掩码占位符值。在Yehet al.[35]，在潜在空间中搜索最接近损坏图像的编码，然后将其用于调节孔填充生成器的输出。Ulyanov等人[32]进一步发现，该网络不需要外部数据集训练，可以依靠生成网络本身的结构来完成损坏的图像。然而，这种方法可能需要针对每个图像的不同的超参数集合，并且应用若干迭代来实现良好的结果。此外，他们的设计[32]不能使用跳过链接，已知跳过链接会产生详细的输出。对于标准卷积层，编码器级中的噪声或错误孔初始化值的原始特征我们的工作也不依赖于孔区域中的占位符值，但我们也旨在实现基于部分卷积的不规则孔图像修复5W（X⊙M）在单次前馈过程中获得良好的结果，并允许使用跳过链接来创建详细的预测。我们的工作广泛使用了掩蔽或重新加权的卷积运算，它允许我们只在有效输入上输出。Harley等人[7]最近利用这种方法，使用软注意力掩码进行语义分割。它也被用于PixelCNN [18]中的全图像生成，以仅在先前合成的像素上调节下一个像素。Uhrig等人[31]提出了稀疏不变的CNN，具有重新加权的卷积和基于最大对于图像修复，Ren etal.[22]提出了Shepard卷积层，其中相同的内核被应用于特征卷积和掩码卷积。掩码卷积结果充当重新加权分母和更新的掩码两者，其不保证在由于k个整数的唯一整数项而被更新期间的卷积。它也不能正确处理大洞。对其他CNN变体（如[4]）的讨论超出了本工作的范围。3方法我们提出的模型使用堆叠的部分卷积运算和掩模更新步骤来执行图像修复。我们首先定义我们的卷积和掩码更新机制，然后讨论模型架构和损失函数。3.1部分卷积层我们将部分卷积操作和掩码更新函数联合称为部分卷积层。令W是卷积滤波器的卷积滤波器权重，并且b是对应的偏置。X是当前卷积（滑动）窗口的特征值（像素值），M是对应的二进制掩码。在[7]中类似地定义的每个位置处的部分卷积表示为：x′=.Tsum（1）sum（M）+ b，如果sum（M）>0（一）0，否则其中⊙表示逐元素乘法，并且1具有与M相同的形状，但是所有元素都是1。可以看出，输出值仅取决于未屏蔽的输入。缩放因子sum（1）/sum（M）应用适当的缩放以调整有效（未屏蔽）输入的变化量。在每个部分卷积操作之后，我们然后更新我们的掩码如下：如果卷积能够将其输出限制在至少一个有效输入值上，那么我们将该位置标记为有效。这表示为：.m′=1、如果sum（M）>00，否则（二）6Guilin Liu et al.并且可以容易地在任何深度学习框架中实现为前向传递的一部分。在部分卷积层的足够连续应用的情况下，如果输入包含任何有效像素，则任何掩模最终都将是全13.2网络体系结构和实施实施.部分卷积层是通过扩展现有的标准PyTorch [19]来实现的，尽管它可以使用自定义层在时间和空间上进行改进。简单的实现是定义大小为C×H×W的二进制掩码，其大小与其相关联的图像/特征相同，然后使用固定卷积层来实现掩码更新，其具有与部分卷积运算相同的内核大小，但是权重相同地设置为1并且没有偏差。在单个NVIDIAV100 GPU上，对512×512图像的整个网络推理需要0.029秒，无论孔大小如何。网络设计。我们设计了一个类似于[11]中使用的UNet架构[23]，用部分卷积层替换所有卷积层，并在解码阶段使用最近邻上采样。跳过链接将分别连接两个特征图和两个掩码，作为下一个部分卷积层的特征和掩码输入。最后一个部分卷积层的输入将不会是具有孔和原始掩模的原始图像的卷积层，使得模型能够复制非孔像素。网络详细信息可在补充文件中找到。部分卷积作为填充。我们使用的部分卷积与适当的掩蔽在图像的边界，而不是典型的填充。这可确保图像边界处的修复内容不会受到图像外部无效值的影响-这可能被解释为另一个3.3损失函数我们的损失函数针对每像素重建精度以及组成，即预测的孔值如何平滑地过渡到它们的周围环境中。给定具有孔Iin的输入图像，初始二进制掩码M（0表示孔），网络预测Iout和真实图像Igt，我们首先定义每像素损失Lhole=（1−M）⊙（Iout−Igt）1和Lvalid=M⊙（Iout−Igt）1。这些分别是针对孔像素和非孔像素的网络输出上的L1接下来，我们定义的感知损失，介绍了Gatys等人。【6】：L感知=NΣ−1n=0Ψn（Iout）−Ψn（Igt）NΣ−1n=0Ψn（Icomp）−Ψn（Igt）这里，I_comp是原始输出图像I_out，但是其中非孔像素被直接设置为地面实况。感知损失计算L1之间的距离基于部分卷积的不规则孔图像修复7..KΣΣ..K..Iout和Icomp以及地面实况，但是在使用ImageNet预训练的VGG-16将这些图像投影到更高级别的特征空间之后[27]。Ψn是第n个选定层的激活图我们使用层池1、池2和池3来计算损失。我们还包括风格损失项，其类似于感知损失[6]，但我们首先在应用L1之前对每个特征图执行自相关（Gram矩阵）。L型出NΣ−1..=..n=0..nΨnΣ（I输出）Ψ n（IΣout）−.Σ⊺Ψn（Igt）..Ψn（Igt） ......你好。1（四）L型压缩机NΣ−1..=..n=0..nΨn （IcompΣ）Ψn（IΣcomp）−.Σ⊺Ψn（Igt）.Ψn（Igt）......1（五）这里，我们注意到矩阵运算假设高级特征Ψ（x） n的形状为（HnWn）×Cn，从而得到Cn×CnGram矩阵，并且Kn是第n个选定层的归一化因子1/CnHnKn同样，我们包括原始输出和合成输出的损失项。我们的最终损失项是总变差（TV）损失Ltv：这是P上的平滑惩罚[12]，其中P是孔区域的1像素膨胀的区域Ltv=ΣIi，j+1−Ii，j1+ΣIi+1，j−Ii，j中文（简体）（i，j）∈P，（i，j+1）∈Pcompcomp（i，j）∈P，（i+1，j）∈Pcompcomp总损失Ltotal是所有上述损失函数的组合。L总计= L有效+6 L孔+0。05 L感知+120（L风格输出+L风格补偿）+0。1升电视（7）通过对100个验证图像进行超参数搜索来确定损失项权重。不同损失项的消融研究。已知感知损失[12]会产生棋盘状伪影。Johnson等人[12]建议通过使用总变差（TV）损失来改善我们发现我们的模型并非如此。图3（b）显示了通过从Ltotal中删除Lstyleout和Lstylecomp训练的模型的结果。对于我们的模型，额外的风格损失项是必要的。然而，并不是所有的损失加权方案的风格损失将产生合理的结果。图3（f）示出了用小风格损失权重训练的模型的结果与图3（g）中使用全Ltotal训练的模型的结果相比，它具有许多鱼鳞伪影。然而，感知损失也很重要;与没有感知损失的结果（图3（j））相比，在具有全Ltotal的结果（图3（k））中网格状伪影不太突出。我们希望本文的讨论对那些对采用基于VGG的高电平损耗感兴趣的读者有所帮助.ΣΣ8Guilin Liu et al.(a) 输入（b）无L样式（c）全L总计（d）GT(e)输入（f）小L型（g）全L型（h）GT(i)输入（j）无L感知（k）全L总计（l）GT图三.在顶行中，从左到右：具有孔洞输入图像、没有样式损失的结果、使用全L总计的结果以及地面实况。在中间行中，从左到右：具有孔的输入图像，使用小样式损失权重的结果，使用全L总计的结果，以及地面实况。在底行中，从左到右：具有孔的输入图像、没有感知损失的结果、使用全Ltotal的结果和地面实况。4实验4.1不规则掩码数据集以前的作品通过随机删除图像中的矩形区域在数据集中生成孔。我们认为这不足以产生我们需要的不同孔形状和尺寸。因此，我们从收集随机条纹和任意形状的孔的掩模开始。我们发现[29]中描述的视频的两个连续帧之间的遮挡/去遮挡掩模估计方法的结果是这种模式的良好来源。我们生成了55，116个用于训练的面具和24，866个用于测试的面具。在训练过程中，我们通过从55，116个掩码中随机采样一个掩码来增强掩码数据集，然后执行随机膨胀，旋转和裁剪。所有用于训练和测试的掩模和图像的大小为512×512。我们通过从24，866个原始蒙版开始并添加随机膨胀、旋转和裁剪来创建测试集。许多以前的方法，如[10]，基于部分卷积的不规则孔图像修复9见图4。每个孔与图像面积比类别的一些测试掩模。图1、图3和图5使用其具有边界约束的示例示出;图2、图4和图6使用它们的没有边界约束的示例示出。在图像边界附近的孔处性能降低。因此，我们将测试集分为两个：靠近边界的有孔和无孔的遮罩。具有远离边界的孔的分割确保与边界的距离至少为50像素。我们还进一步按孔大小对遮罩进行分类。具体来说，我们生成6类具有不同孔图像面积比的掩模：（0.01，0.1]，（0.1，0.2]，(0.2，0.3]，（0.3，0.4]，（0.4，0.5]，（0.5，0.6]。每个类别包含1000个具有和不具有边界约束的遮罩我们总共创造了6 × 2 × 1000 = 12，000个质量。在图4中可以找到对电子设备的屏蔽的一些示例。4.2训练过程训练数据我们使用3 个独立的图像数据集进行训练和测试：ImageNet数据集[24]，Places 2数据集[37]和CelebA-HQ [17，13]。我们使用ImageNet和Places2的原始train，test和val分割对于CelebA-HQ，我们随机划分为27 K图像用于训练和3 K图像用于测试。培训程序。我们使用[9]中描述的初始化方法初始化权重，并使用Adam[14]进行优化。我们在单个NVIDIA V100 GPU（16GB）上训练，批量大小为6。初始训练和微调。孔洞会给“批处理归一化”带来问题，因为将为孔洞像素计算均值和方差，因此在遮罩位置忽略它们是有意义的。然而，每个应用程序都会逐渐填充漏洞，并且通常会在解码器阶段完全消失。为了在存在漏洞的情况下使用Batch Normalization，我们首先使用0.0002的学习率为初始训练启用Batch Normalization然后，我们使用0.00005的学习率进行微调，并冻结网络编码器部分的Batch我们在解码器中保持批处理归一化（Batch Normalization）启用。这不仅避免了不正确的均值和方差问题，而且还有助于我们实现更快的收敛。ImageNet和Places 2模型训练10天，而CelebA-HQ训练3天。所有微调都在一天内完成。4.3比较我们比较了4种方法：10Guilin Liu et al.(a)输入（b）PM（c）GL（d）GntIpt（e）PConv（f）GT图五. ImageNet测试结果的比较– PM：PatchMatch [2]，最先进的非学习方法– GL：Iizuka等人提出的方法。[10个国家]– GntIpt：Yu等人提出的方法。[36个]– Conv：与我们的方法相同的网络结构，但使用典型的卷积层。通过超参数搜索重新确定损失权重。我们的方法表示为PConv。与GL和GntIpt的公平比较需要根据我们的数据重新训练他们的模型然而，这两种方法的训练都使用局部判别器，假设孔的局部边界框可用，这对我们的掩模的形状没有意义。因此，我们直接使用他们发布的预训练模型1。对于PatchMatch，我们使用了第三方实现2。由于我们不知道他们的训练测试分裂，我们自己的分裂可能与他们的不同我们对12，000张图像进行评估，将我们的面具随机分配给图像而不进行替换。定性比较。图5和图6分别显示了ImageNet和Places2上的比较。GT代表地面实况。我们在图9中与CelebA-HQ上的GntIpt[36]进行比较。GntIpt在256×256上测试了CelebA-HQ，因此我们在输入模型之前将图像降采样为256×256。可以看出，PM可能会将语义上不正确的补丁复制到1https://github.com/satoshiiizuka/siggraph2017修复，https://github.com/JiahuiYu/generative www.example.com2 https://github.com/younesse-cv/patchmatch基于部分卷积的不规则孔图像修复11输入ConvPConv输入ConvPConv(a)输入（b）PM（c）GL（d）GntIpt（e）PConv（f）GT图六、Places2图像的测试结果比较填充漏洞，而GL和GntIpt有时无法通过后处理或细化网络获得合理的结果图7显示了Conv的结果，其中包含来自孔占位符值条件化的不同伪影。图7.第一次会议。基于典型卷积层的结果（Conv）和基于部分卷积层的结果（PConv）之间的比较定量比较。如[36]中所述，由于存在许多可能的解决方案，因此没有很好的数值度量来评估图像修复结果。尽管如此，我们遵循之前的图像修复工作[34，36]，报告1误差，PSNR，SSIM [33]和初始得分[25]。在Places 2上报告1错误、PSNR和SSIM，而在ImageNet上报告Inception得分（IS-核心）请注意，[10]的已发布模型经过了训练12Guilin Liu et al.仅在Places2上，我们用于所有评估。表1示出了比较结果。可以看出，我们的方法优于所有其他方法对这些测量不规则掩模。[0.01，0.1](0.1，0.2](0.2，0.3](0.3，0.4](0.4，0.5](0.5，0.6]NBNBNBNBNBNB1（PM）（%）0.450.421.251.162.282.073.523.174.774.276.986.341（GL）（%）1.391.533.013.224.515.006.056.777.348.208.609.781（GnIpt）（%）0.780.881.982.093.343.724.985.506.517.138.339.191（Conv）（%）0.520.501.261.172.202.013.373.034.584.106.666.011（PConv）（%）0.490.471.181.092.071.883.192.844.373.856.455.72峰值信噪比（PM）32.97 33.68 26.87 27.5123.70 24.35 21.27 22.05 19.70 20.58 17.60 18.22峰值信噪比（GL）30.17 29.74 23.87 23.8320.92 20.73 18.80 18.61 17.60 17.38 16.90 16.37峰值信噪比（GnIpt）29.07 28.38 23.20 22.8620.58 19.86 18.53 17.85 17.31 16.68 16.24 15.52峰值信噪比（Conv）33.21 33.79 27.30 27.8924.23 24.90 21.79 22.60 20.20 21.13 18.24 18.94峰值信噪比（PConv）33.75 34.34 27.71 28.32 24.54 25.25 22.01 22.89 20.34 21.38 18.21 19.04SSIM（PM） 0.946 0.947 0.861 0.8650.763 0.768 0.666 0.675 0.568 0.579 0.459 0.472SSIM（GL） 0.929 0.923 0.831 0.8290.732 0.721 0.638 0.627 0.543 0.533 0.446 0.440SSIM（GnIpt）0.940 0.938 0.855 0.8550.760 0.758 0.666 0.666 0.569 0.570 0.465 0.470SSIM（转换）0.943 0.943 0.862 0.8650.769 0.772 0.674 0.682 0.576 0.587 0.463 0.478SSIM（PConv）0.946 0.945 0.867 0.870 0.775 0.779 0.681 0.689 0.583 0.595 0.468 0.484IScore（PM）0.090 0.058 0.307 0.2040.766 0.465 1.551 0.921 2.724 1.422 4.075 2.226IScore（GL） 0.183 0.112 0.619 0.4641.607 1.046 2.774 1.941 3.920 2.825 4.877 3.362IScore（GnIpt）0.127 0.088 0.396 0.3070.978 0.621 1.757 1.126 2.759 1.801 3.967 2.525IScore（Conv）0.068 0.041 0.228 0.1490.603 0.366 1.264 0.731 2.368 1.189 4.162 2.224IScore（PConv）0.051 0.032 0.163 0.109 0.446 0.270 0.954 0.565 1.881 0.838 3.603 1.588表1.与各种方法的比较。列表示不同的孔-图像面积比。N=无边框，B=边框除了定量比较，我们还通过人类主观研究来评估我们的算法。我们执行成对A/B测试，- out显示孔洞位置或原始输入图像与孔洞，部署在亚马逊土耳其机械（MTurk）平台上。我们进行了两种不同的实验：无限时间和有限时间。我们还报告的情况下，没有孔接近图像的边界分别。对于每种情况，我们为每种方法随机选择300张图像，每张图像进行10次比较对于无限制时间设置，工作人员一次获得两个图像：每一个由不同的方法产生。然后，工人们有无限的时间来选择哪张照片看起来更逼真。我们还打乱了图像顺序，以确保无偏的比较。所有不同的孔-图像面积比的结果总结在图11中。第8（a）段。第一行示出了孔距离图像边界至少50个像素的结果，而第二行示出了孔可以接近或接触图像边界的情况。可以看出，在这两种情况下，我们的方法的表现明显优于所有其他方法（50%意味着两种对于有限的时间设置，我们将所有方法（包括我们的方法）与地面实况进行比较。在每次比较中，选择一种方法的结果，并在有限的时间内将其与地面实况一起显示给工作人员的基于部分卷积的不规则孔图像修复13然后要求工作人员选择哪个图像看起来更自然。这评估了图像之间的差异可以被感知的速度不同时间间隔的比较结果如图所示。8（b）.同样，第一行示出了孔不接触图像边界而第二行允许接触图像边界的情况。我们的方法优于其他方法在大多数情况下，在不同的时间段和孔图像面积比。见图8。用户研究结果。我们进行了两种实验：无限时间和有限时间。(a)在无限时间设置中，我们将我们的结果与另一种方法生成的结果进行比较。我们的结果是首选的比率是图表。50%意味着两种方法相等。在第一行中，不允许孔接触图像边界，而在第二行中，允许接触图像边界。（b）在有限的时间设置中给予受试者一些有限的时间（250ms、1000ms或4000ms）来选择哪个图像更真实。报告了地面实况优于其他方法的比率。曲线越低越好。5讨论扩展5.1讨论我们提出了使用部分卷积层与自动掩模更新机制，并实现了最先进的图像修复结果。我们的模型可以鲁棒地处理任何形状，大小的位置，或从图像边界的距离孔此外，我们的性能不会随着孔尺寸的增加而灾难性地恶化，如图10所示。然而，我们的方法的一个限制是，它失败的一些稀疏结构的图像，如图11中的门上的酒吧，和大多数方法一样，挣扎在最大的孔。谢谢。我们要感谢Jonah Alben、Rafael Valle Costa、Karan Sapra、Chao Yang、Raul Puri、Brandon Rowlett和其他NVIDIA同事的宝贵讨论，以及Chris Hebert的技术支持。250 Ms1000 Ms4000毫秒(a)无限时间对比(b)限时比较无边界孔带边界孔14Guilin Liu et al.(a) 输入（b）GntIpt（c）PConv（我们的）（d）地面实况见图9。CelebA-HQ的测试结果见图10。修补结果具有从左到右的孔区域的各种扩张：0、5、15、35、55和95像素膨胀。顶行：input;最下面一行：相应的修复结果。见图11。故障案例。每个组都被排序为输入，我们的结果和地面真相。基于部分卷积的不规则孔图像修复15引用1. Ballester，C. Bertalmio，M.，Caselles，V. Sapiro，G.，Verdera，J.：矢量场和灰度级联合插值填充。IEEE Transactions on ImageProcess ing10（8），12002. 巴恩斯角 Shechtman ， E. ， Finkelstein ， A. ， Goldman ， D.B. ：Patchmatch：一种用于结构图像编辑的随机对应算法ACM Transactionson Graphics-TOG 28（3），24（2009）3. Bertalmio，M.，Sapiro，G.，Caselles，V. Ballester，C.：图像修复。第27届计算机图形学与交互技术年会论文集。pp. 417ACMPress/Addiso n-WesleyP u bl ish ngCo.（2000年）4. Dai，J.，Qi，H.，Xiong，Y.，李，Y.，张，G.，Hu，H.，魏云：可变形对流网络。CoRR，abs/1703.06211 1（2），3（2017）5. 埃夫罗斯，匿名戒酒会弗里曼，W.T.：图像绗缝纹理合成和转移。第28届计算机图形学和交互式技术年会论文集。pp. 341ACM（2001）6. 洛杉矶的加蒂斯Ecker，A.S. Bethge，M.：艺术风格的神经算法。arXiv预印本arXiv：1508.06576（2015）7. A.W.哈利Derpanis，K.G.，科基诺斯岛：分割感知卷积网络使用局部注意力掩码。IEEE International Conference on Computer Vision（ICCV）第2卷，第7页（2017年）8. Hays，J.，Efros，A.A.：使用数百万张照片完成场景ACM Transactionson Graphics（TOG）第26卷，第4页。03 - 03 - 03 - 12分9. 他，K.，张，X.，Ren，S.，孙杰：深入研究整流器：在imagenet分类上超越人类水平的性能。In：Proceedings of the IEEE interna-tionalc onfenceo n conc omutervison. pp. 102610. Iizuka，S.，Simo-Serra，E.，Ishikawa，H.：全局和局部一致的图像完成。ACM Transactions on Graphics（TOG）36（4），107（2017）11. Isola，P.，Zhu，J.Y.，周，T.，Efros，A.A.：使用条件对抗网络的图像到图像翻译。ArXiv预印本（2017）12. Johnson，J.，Alahi，A.，李菲菲：实时风格转换和更新的感知损失。 In：EuropeanConferenceonCom up uterVison。pp. 694-711 Springer（2016）13. Karras，T.，Aila，T. Laine，S.，Lehtinen，J.：GAN的逐步增长，以提高质量，稳定性和变化。arXiv预印本arXiv：1710.10196（2017）14. 金玛，D.P.，Ba，J.：Adam：随机最佳化的方法arXiv预印本arXiv：1412.6980（2014）15. Kwatra，V.，埃萨岛Bobick，A.，Kwatra，N.：例如，基于纹理的纹理优化。In：ACMTra nsacti o nso nGraphics（ToG）。vol. 第24页。795ACM（2005）16. 李，Y.，Liu，S.，杨杰，Yang，M.H.：生成面完成。IEEE计算机视觉与模式识别会议（CVPR）第1卷，第3页（2017年）17. 刘志，Luo，P.，王，X.，唐X：在野外深度学习人脸属性在：计算机视觉国际会议（ICCV）会议记录（2015年12月）18. van den Oord，A.，Kalchbrenner，N.埃斯佩霍尔特湖Vinyals，O.，格雷夫斯，A.，等：用pixelcnn解码器生成条件图像在：神经信息处理系统的进展。pp. 479016Guilin Liu et al.19. Paszke，A.，格罗斯，S.，Chintala ，S.，Chanan，G.，Yang，E.，DeVito，Z.，林芝，Desmaison，A.，安蒂加湖Lerer，A.：pytorch中的自动区分（2017）20. Pathak，D.，Krahenbuhl，P. Donahue，J.，Darrell，T.，Efros，A.A.：上下文编码器：通过图像修复进行特征学习。In：Proceedings of the IEEEConference on C〇mputerVis i sinandPater nRec 〇 gnit i tin. pp. 253621. P'er ez，P.，去吧，M Blake，A. ：P〇 iss〇nimagediting。ACMTransactionsongraphics（TOG）22（3），31322. Ren，J.S.，徐，L.，阎青，越-地Sun，W.：Shepard卷积神经网络在：新一代生产系统中的设备。pp. 90123. Ronneberger，O.，Fischer，P.，Brox，T.：U-net：用于生物医学图像分割的卷积网络在：国际医学图像计算和计算会议上。pp. 23402TheDog（2015）24. Russakovsky，O.，Deng，J.，Su，H.，Krause，J.，Satheesh，S.，妈妈，S.，黄志，Karpathy，A.，Khosla，A.Bernstein，M.Berg，A.C.，李菲菲：ImageNet大规模视觉识别挑战。International Journal of ComputerVision（IJCV）115（3），211http：//doi. org/10。1007/s11263-015-0816-y25. Salimans，T.古德费洛岛Zaremba，W.，Cheung，V.Radford，A.Chen，X.：改进训练gans的技术神经信息处理系统进展。pp. 223426. Simakov，D.，Caspi，Y.，Shechtman，E.，Irani，M.：使用双向相似性总结视觉数据。在：计算机视觉和模式识别， 2008 。 CVPR 2008 。IEEEConferenceon。pp. 一比八02The Dog（2008）27. 西蒙尼扬，K.，齐瑟曼，A.：用于大规模图像识别的深度卷积网络。ArXiv预印本arXiv：1409.1556（2014）28. Song，Y.，杨，C.，林芝，Li，H.，黄，Q，郭俊俊：基于多尺度特征图像平移的图像修复。arXiv预印本arXiv：1711.08590（2017）29. N. Sundaram，Brox，T.，Keutzer，K.：用gpu加速大位移光流法实现密集点轨迹。在：欧洲计算机视觉会议。pp. 438-451 02TheDog（2010）30. Telea，A.：一种基于快速行进法的图像修复技术。《地理科学杂志》9（1），2331. Uhrig，J.，施耐德，N.，施耐德湖弗兰克，美国，Brox，T.，Geiger，A.：稀疏不变cnn。arXiv预印本arXiv：1708.06500（2017）32. Ulyanov，D.，Vedaldi，A.，Lempitsky，V.：深度图像先验。arXiv预印本arXiv：1711.10925（2017）33. 王志，Bovik，A.C.，Sheikh，H. R.，Simoncelli，E.P.：图像质量评估：从错误可见性到结构相似性。 IEEE Transactions on Image Processing13（4），60034. 杨，C.，卢，X.，林芝，Shechtman，E.，Wang，O.，Li，H.：使用多尺度神经块合成的高分辨率图像修复。IEEE计算机视觉与模式识别会议（CVPR）卷1，p.3（2017）35. 是的R陈春，Lim，T.Y.，Hasegawa-Johnson，M.，做，M.N.：具有感知和上下文损失的语义图像修复。arXiv预印本arXiv：1607.07539（2016）36. 余，J.，林芝，杨杰，沈，X.，卢，X.，Huang，T.S.：具有上下文注意的生成式图像arXiv预印本arXiv：1801.07892（2018）37. Zhou，B.，（1991年），中国地质大学，Lapedriza，A. Khosla，A. Oliva，A.，Torralba，A.：地点：一个用于场景识别的1000万图像数

下载后可阅读完整内容，剩余1页未读，立即下载