基于可学习双向注意图的图像修复方法

92 浏览量更新于2023-10-13 收藏 1.37MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

124基于可学习双向注意图的谢超豪1 <$，刘少辉1，3，李超2，程明明4，左旺梦1，3，刘晓2，文石磊2，丁二瑞21哈尔滨工业大学计算机视觉技术系，百度公司。3南开大学viousxie@outlook.com，{shliu，wmzuo} @ hit.edu.cn，cmm@nankai.edu.cn{lichao40，liuxiao12，wenshilei，dingerrui}@ baidu.com摘要大多数基于卷积网络（CNN）的修复方法采用标准卷积来不可分割地处理有效像素和孔洞，使得它们在处理不规则孔洞时受到限制，并且更有可能生成具有颜色差异和模糊的修复结果。部分卷积已经被建议来解决这个问题，但它采用手工制作的特征重新规范化，并且只考虑向前掩码更新。在本文中，我们提出了一个可学习的注意力地图模块，用于以端到端的方式学习特征重新规范化和掩码更新此外，本文还引入了可学习的反向注意力图，使得U-Net的解码器可以专注于填充不规则的空洞，而不是同时重建空洞和已知区域，从而得到可学习的双向注意力图。定性和定量实验表明，我们的方法表现良好，对国家的最先进的生成更清晰，更连贯和视觉上合理的修复结果。源代码和预训练模型将在以下位置提供：https://github.com/Vious/LBAM_inpainting/.1. 介绍图像修复[3]是一种典型的低层次视觉任务，旨在填补图像中的漏洞，具有许多现实世界的应用，如干扰对象去除，遮挡区域完成等。然而，对于图像中的给定孔，可能存在多个可能的解，即，可以用与周围已知区域一致的任何合理假设来填充这些孔并且这些孔洞可以是复杂的、不规则的图案，这进一步增加了图像修复的难度传统的基于范例的方法[2，18，32]，例如，PatchMatch [2]，通过搜索和复制相似的补丁来逐渐填充漏洞，†这项工作是在Chaohohao Xie在百度做研究实习生时完成的*通讯作者已知区域。尽管基于范例的方法在产生细节纹理方面是有效的，但它们在捕获高级语义方面仍然受到限制，并且可能无法生成复杂和非重复的结构（参见图11）。（c）第1段。最近，在将深度卷积网络（CNN）应用于图像修补方面取得了相当大的进展[10，20]。由于CNN强大的表示能力和大规模的训练，基于CNN的方法在产生语义上合理的结果方面是对抗性损失[8]也被用来提高结果的感知质量和自然度。然而，大多数现有的基于CNN的方法通常采用标准卷积，它不可避免地处理有效像素和空洞。因此，它们在处理不规则孔方面受到限制，并且更可能生成具有颜色差异和模糊的修补结果作为一种补救措施，已经引入了几种后处理技术[10 ， 34]，但仍然不足以解决伪影（见图 1 ）。 1（d））。基于CNN的方法也与基于范例的方法相结合，以明确地结合孔的掩模，以实现更好的结构恢复和细节增强[26，33，36]。在这些方法中，利用掩模来引导编码器特征从已知区域到孔的传播。然而，复制和增强操作大大增加了计算成本，并且仅部署在一个编码和解码层。因此，它们在填充矩形孔时表现更好，而在处理不规则孔时表现较差（见图1）。第1段（e）分段）。为了更好地处理不规则孔并抑制颜色差异和模糊，建议使用部分卷积（PConv）[17]。在每个PConv层中，掩码卷积用于使输出仅以未掩码的输入为条件，并且引入特征重新归一化以缩放卷积输出。提出了一种新的模板更新规则，用于更新下一层的模板，使得PConv在处理不规则孔洞时非常有效。尽管如此，PConv通过绝对信任所有填充中间特征，采用硬0-1掩码和手工特征重新规范化。此外，PConv con-88588859(a) 原始（b）输入（c）PM [2]（d）GL [10]（e）CA [36]（f）PConv [17]（g）我们的图1。PatchMatch（PM）[2]，GlobalLocal（GL）[10]，Context Attention（CA）[36]和Partial Convolution（PConv）[17]的修复结果的定性比较。SIDER仅转发掩码更新并且简单地将所有一个掩码用于解码器特征。在本文中，我们向前迈出了一步，并提出了可学习的双向注意力映射模块，用于U-Net [22]架构的编码器和解码器上的特征重新规范化。首先，我们重新审视了无偏的PConv，并表明可以安全地避免掩码卷积，并且可以将特征重新归一化解释为由硬0-1掩码引导的重新归一化。为了克服硬0-1掩码和手工掩码更新的局限性，我们提出了一个可学习的注意力图模块，用于学习特征重新规范化和掩码更新。得益于端到端的训练，可学习的注意力地图在适应不规则孔和卷积层的传播方面是有效的。此外，PConv简单地在解码器特征上使用所有一个掩码，使得解码器应该对孔和已知区域进行幻觉处理请注意，已知区域的编码器特征将被连接，自然地，解码器仅需要专注于孔洞的修补。因此，我们进一步引入了可学习的反向注意力映射，以允许U-Net的解码器只专注于填充漏洞，从而产生了我们可学习的双向注意力映射。与PConv相比，可学习的双向注意力地图的部署经验上有利于网络训练，使得包括对抗性损失以改善结果的视觉质量是可行的。在Paris SteetView [6]和Places [40]数据集上进行了定性和定量实验，以评估我们提出的方法。结果表明，我们提出的方法在生成更清晰，更连贯和视觉上合理的修复结果方面优于最先进的方法。从图1（f）（g），与PConv相比，我们的方法在产生清晰语义结构和真实纹理总之，这项工作的主要贡献是三方面的，• 提出了一个可学习的注意力地图模块，年龄修复与PConv相比，可学习的注意力映射在适应任意不规则的孔洞和卷积层的扩展• 正向和反向注意力地图被合并，构成我们可学习的双向注意力地图，进一步有利于结果的视觉质量。• 在两个数据集和真实世界对象移除上的实验表明，我们的方法在幻觉整形器，更连贯和视觉上合理的结果方面优于最先进的方法。2. 相关工作在本节中，我们简要介绍了相关工作，特别是基于样本的方法中采用的传播过程以及基于CNN的修复方法的网络架构。2.1. 基于示例的图像修复大多数基于样本的修复方法从已知区域搜索并粘贴，以从外部到内部逐渐填充漏洞[2，4，18，32]，其结果高度依赖于传播过程。一般来说，先填充结构，然后填充其他缺失区域，可以获得更好的修复效果。为了指导补丁处理顺序，补丁优先级[15，29]度量已被引入作为置信项和数据项的乘积。虽然置信度项通常被定义为输入块中已知像素的比率，但已经提出了几种形式的数据项。特别是，Criminisiet al. [4]提出了一个基于梯度的数据项，用于填充具有更高优先级的线性结构。Xu和Sun [32]假设结构斑块在图像中稀疏分布，并提出了基于稀疏的数据项。Le Meur等[18]采用结构张量的特征值差[5]作为结构斑块的指标。2.2. 基于深度CNN的图像修复早期的基于CNN的方法[14，21，30]被建议用于处理具有小而薄的孔的图像。在过去的几年里，深CNN受到了越来越多的关注，并表现出很有前途的性能，用于填充大孔。88609M输入F在部分转换FoutWel米MLMl+1k1/9输入Fe在向前关注WelFe出F在D反向注意力WdlFout输出D米MLMl+1ML-11-MinML-1 +1KMLKML-l+1(a) PConv（b）可学习的前向注意力图（c）可学习的反向注意力图图2.PConv的掩码和中间特征之间的相互作用模型以及我们可学习的双向注意力地图。这里，Min中的白洞表示值为0的缺失区域，黑色区域表示值为1的已知区域Phatak等人[20]采用编码器-解码器网络（即，上下文编码器），并结合了重建和对抗性损失，以更好地恢复语义结构。Iizuka等人[10]结合了全局和局部描述符，用于再现语义上合理的结构和局部真实的细节。Wang等人[28]提出了一种生成式多列CNN，其中包含置信度驱动的重建损失和隐式多样化MRF（ID-MRF）项。还研究了多阶段方法，以减轻训练深度修复网络的难度 Zhang 等人 [37] 提出了一种渐进生成网络（PGN），用于填充具有多个阶段的孔，而LSTM则用于利用跨阶段的依赖关系。Nazeri等人[19]提出了一种两阶段模型EdgeConnect，首先预测显著边缘，然后生成由边缘引导的修复结果。相反，Xionget al. [31]提出了前景感知修复，其包括三个阶段，即，轮廓检测、轮廓补充和图像补充，用于结构推理和内容幻觉的分离。为了结合基于范例和基于CNN的特征重新规范化和掩码更新。Yu等人[35]提供了门控卷积，它通过考虑损坏的图像，掩码和用户草图来学习通道软掩码。然而，PConv采用手工制作的特征重新规范化，并且仅考虑正向掩码更新，使得其在处理颜色差异和模糊方面仍然受到限制（参见图2）。1（d））。3. 该方法在本节中，我们首先回顾PConv，然后展示我们可学习的双向注意力地图。随后，我们的方法的网络结构和学习目标也提供。3.1. 再谈部分卷积PConv [17]层通常包括三个步骤，即，(i) 掩模卷积，（ii）特征重新归一化，和（iii）掩模更新。在输入特征图中用F表示，M表示对应的硬0-1掩码。我们进一步令W是卷积滤波器并且b是其偏置。首先，我们引入卷积掩码Mc=Mk1，其中9表示卷积算子，k1表示3×3卷积算子，9卷积滤波器与每个元素1. PConv的过程方法，Yanget al.[34]多尺度神经补丁综合（MNPS），通过整体内容和局部内容的联合优化来可以配制为，(i) Fconv=WT（FinWMM），（1）纹理约束其他两阶段前馈模型，例如，[26]和[36]，是一个很好的例子。(ii) F输出=.F转化率fA （Mc）+b，如果Mc>0（二）的其他发展，以克服高计算成本的MNPS，同时明确利用图像特征的已知区域。同时，Yanet al.[33]修改了U-Net以形成一级网络，即，Shift-Net，利用编码器特征从已知区域的最重-0，否则(iii) M′=fM（Mc）（3）其中A=fA（Mc）表示注意力映射，并且M′=fM（Mc）表示更新的掩码。我们进一步将注意力图和更新的掩模的激活函数定义为：.最近，Zhenget al.[39]引入了增强的短期+长期注意力层，并提出了一个概率框架，具有用于多元修复的两个并行路径。大多数现有的基于CNN的修复方法通常不太适合处理不规则的洞。解决fA（Mc）=fM（Mc）=Ic，如果Mc>00，否则.1、如果Mc>00，否则（四）（五）8861这个问题，刘等。[17]提出了涉及三个步骤的部分卷积（PConv）层，即，掩模卷积，从Eqns（1）图（5）和图2（a），PConv也可以解释为掩模和8862C2256128128256646432321616884245125122565125125125125122563米128641286431-MinFFFFFFFFFFFFGgGgGgFGgGgGgGgGgGgGgGg等式（1 2）滑接元件-wis e生产FgA（A）GggM（M）图3.我们模型的网络架构。内部具有三角形的圆表示等式11的运算形式。其中，gA和gM表示等式（12）的激活函数。（9）和等式的掩码更新函数。（八）、卷积特征图然而，PConv采用手动激活功能用于更新的掩码，制作的卷积滤波器k1以及手工制作的ac-C9cg M（Mc）=（ReLU（Mc））α，（8）激励函数fA（M）和fM（M），从而为进一步的改进提供了一些余地此外，f M（MC）的不可微性也增加了端到端学习的难度。据我们所知，将对抗性损失纳入其中α≥0是一个超参数，我们设置α=0。8.可以看出，当α=0时，gM（Mc）退化为fM（Mc）。第三，我们引入了一个非对称的高斯形形式作为注意图的激活函数使用PConv训练U-Net。此外，PConv仅适用于为编码器特征选择掩码及其更新作为.caexp .Σ−γl（Mc−µ）2，如果Mc<µ对于解码器特征，它简单地采用全一掩模，使得PConv在填充孔方面受到限制。gA（M）=1+（a−1）exp.Σ−γr（M−µ）、其他（九）3.2. 可学习的注意力地图无偏置的卷积层在U-Net中被广泛用于图像到图像的转换[11]和图像修复[33]。当偏置被移除时，可以容易地从等式11看出。（2）更新孔中的卷积特征为零。因此，方程中的掩模卷积（1）等价地重写为标准卷积，(i) Fconv= WTFin.（六）然后，在Eqn.（2）可以被解释为卷积特征和注意图的逐元素乘积，(ii) Fout =Fconv fA（Mc）.（七）尽管如此，手工卷积滤波器k1是固定的9不适合面具。激活函数为更新后的掩码绝对信任区域Mc>0中的修复结果，但是将更高置信度分配给具有更高Mc的区域更明智。为了克服上述局限性，我们提出了可学习的注意力地图，它从三个方面概括了PConv没有偏见。首先，为了使掩模自适应于不规则的孔和沿着层的传播，我们用逐层和可学习的卷积滤波器kM代替k1。9其次，我们修改了其中a、µ、γ l和γ r是可学习的参数，我们将它们初始化为a=1。1，μ=2。0，γ l=1。0，γ r=1. 0，并以端到端的方式学习它们。综上所述，可学习的注意力地图采用Eqn。（6）在步骤（i）中，接下来的两个步骤被公式化为，(ii) Fout =FconvgA（Mc），（10）(iii) M′= gM（Mc）.（十一）图2（b）示出了可学习注意力图的相互作用模型。与PConv相比，我们的可学习注意力地图更灵活，可以进行端到端训练，从而有效地适应不规则孔和卷积层的传播。3.3. 可学习的双向注意地图当将PConv与U-Net结合用于修复时，该方法[17]仅更新编码器特征的掩模以及卷积层然而，解码器特征通常采用全一结果，应当使用编码器特征的第（1+1）层和解码器特征的第（L-l-1）层两者来对已知区域和孔两者中的解码器特征的第（L-l）实际上，第l层编码器特征将与第（L-l）层解码器特征相关联，并且我们只能关注孔中第（L-l）8863eDDDD原始输入PM [2] GL [10] CA [36] PConv [17]我们的图4.巴黎街景数据集的定性比较。与PatchMatch（PM）[2]，Global Local（GL）[10]，Context Attention（CA）[36]，PConv [17]和Ours的比较。我们进一步引入可学习的反向注意力映射到解码器功能。用Mc表示卷积掩码，孔. 反向注意力地图的引入允许解码器只专注于填充不规则的洞，编码器特征Fin. 设Mc=Md<$kM是个骗子也有助于修复性能。我们的LBAMedd中的解码器特征F的卷积掩码。可学习的反向注意力映射的前两个步骤可以用公式表示为，（i& ii）Fout =（WT Fin）gA（Mc）+（WT Fin）gA（Mc）. （十二）也有利于网络训练，使得利用对抗性损失提高视觉质量成为可能3.4. 模型架构deeeDD d我们修改了14层的U-Net架构，其中We和Wd是卷积滤波器。我们将gA（MC）定义为反向注意图.然后，更新掩码Mc并将其部署到前一解码器层，D去除瓶颈层，并与双向注意力地图相结合（见图1）。（3）第三章。特别地，前向注意层被应用于编码器的前六层（三）M′=gM（Mc）。（十三）而解码器的后六层采用反向注意层对于所有的U-Net层以及前向和图2（c）示出了反向注意力图的相互作用模型。与前向注意力图相反，编码器特征（掩码）和解码器特征（掩码）都被考虑。此外，反向注意力图中更新的掩码应用于前一个解码器层，而前向注意力图中更新的掩码应用于下一个编码器层。通过将正向和反向注意力地图与U-Net相结合，Fig.图3显示了完整的可学习双向注意力图。给定具有不规则孔的输入图像Iin，我们使用Min来表示二进制掩码，其中1表示有效像素，0表示孔中的像素从图3中，前向注意力映射将M作为用于编码器特征的第一层的重新归一化的输入掩码，并且逐渐更新掩码并将其应用于下一个编码器层。相反，反向注意力地图反向注意力层，我们使用卷积滤波器，内核大小为4×4，步幅为2，填充为1，并且没有使用偏置参数。在U-Net骨干中，批量归一化和泄漏ReLU非线性用于特征，ter重新归一化，并且在最后一层的卷积之后立即部署tanh非线性图3还提供了每个层的特征图的大小，并且在Suppl.3.5. 损失函数为了更好地恢复纹理细节和语义，我们将像素重建损失，感知损失[12]，风格损失[7]和对抗性损失[8]用于训练我们的LBAM。像素重建损失。在输入图像中用I表示有孔，在二进制掩码区域中用M表示，并且Igt为地面实况图像。我们的LBAM的输出可以被去-1-Min作为最后一个的重新归一化的输入（即，第L层）解码器特征，并逐步更新罚款，因为我出来= Φ（Iin，Min; Θ），其中Θ表示886411并将掩模应用于前一解码器层。受益于端到端的学习，我们的可学习双向注意力映射（LBAM）在处理不规则的学习模型参数我们采用的误差为0.1范数作为像素重构损失，L=I out-I gt.（十四）8865原始输入PM [2] GL [10] CA [36] PConv [17]我们的图5.在Places数据集上进行定性比较。与PatchMatch（PM）[2]，Global Local（GL）[10]，Context Atten- tion（CA）[36]，PConv[17]和Ours的比较。感知损失。1范数损失在捕获高级语义方面是有限的，并且与人类对图像质量的感知不一致。为了缓解这个问题，我们引入了在ImageNet [23]上预训练的VGG-16网络[25]上定义的感知损失Lperc其中D（·）表示判别式。通过线性插值法从Igt和Iout中随机选取一个因子，对I gt和out 进行采样，在我们的实验中，λ我们经验性地发现，在以下情况下很难训练PConv模型：包括对抗性损失幸运的是，Lperc1ΣN=Pi（Igt）−Pi（Iout）可学习的注意力地图有助于减轻训练，Ni=1其中Pi（·）是第i个池化层的特征图。在我们的实现中，我们使用预训练的VGG-16的池-1，池-2和池风格损失。为了更好地恢复细节纹理，我们进一步采用VGG-16的池化层的特征图上定义的风格损失。类似于[17]，我们从特征图的每一层构造一个Gram矩阵假设特征图Pi（I）的大小为Hi×Wi×Ci.风格损失可以定义为，证明了在对抗性损失下学习LBAM是可行的。请请参阅supply。对于我们实现中使用的7层以太网的网络架构模型目标考虑到上述损失函数，我们的LBAM的模型目标可以形成为，L=λ1L1+λ2Ladv+λ3Lperc+λ4Lstyle（18）其中λ1、λ2、λ3和λ4是折衷参数。在我们的实现中，我们根据经验设置λ1= 1，λ2= 0。1，λ3=0。05，λ4=120。1个N1Lstyle=Ni=1Ci××Ci（十六）4. 实验Pi（Igt）（ Pi（Igt））T − Pi（Iout）（ Pi（Iout））T对抗性损失。对抗性损失[8]已被广泛用于图像生成[24，27，38]和低级别视觉[16]，以提高生成图像的视觉质量。为了提高GAN的训练稳定性，Ar- jovsky等。[1]利用Wasserstein距离测量生成图像和真实图像之间的分布差异，Gulrajani等人。[9]进一步引入梯度罚函数来加强判别器中的Lipschitz约束。在[9]之后，我们将对抗性损失公式化为：实验进行了评估我们的LBAM在两个数据集上，即，Paris StreetView [6]和Places（Places 365-standard）[40]，它们已被图像修复文献[20，33，34，36]广泛采用。对于Paris StreetView，我们使用其原始分割，14，900张图像用于训练，100张图像用于测试。在我们的实验中，随机选择100张图像并从训练集中删除，以形成我们的验证集。至于地点，我们从365个类别中随机选择10个类别，并使用原始训练集中每个类别的所有5，000张图像来形成我们的50，000张图像的训练集此外，委员会认为，Ladv=最小最大EgtgtD（I）我们将原始验证集从每个类别的8866GT我我ΘDI可编程数据（I）的方式-EI输出数据（I输出）D（Iout）（十七）将1000张图像分成两组，每组500张，图像分别用于验证和测试。我们的LBAM+λEIp（（D（I））2−1）2处理256×256图像需要1.70 ms，速度快5倍8867[17]第三十六话：我的世界图6.真实世界图像的结果。从左到右依次为：原始图像，对象被屏蔽的输入（白色区域），上下文注意力（CA）[36]，PConv [17]和Ours。比上下文注意力[36]（1.400ms）快1.3倍，比全局本地（GL）[10]（1.200ms）快1.3倍。在我们的实验中，所有图像都被调整大小，最小高度或宽度为350，然后随机裁剪为256×256的大小。在训练过程中采用了诸如翻转的数据增强。我们生成了18，000个随机形状的面具，以及来自[17]的12，000个面具用于训练和测试。我们的模型使用ADAM算法优化[13]，初始学习率为1e−4，β=0。五、训练过程在500个epoch之后结束，并且最小批量大小为48。所有的实验都是在一台配备了4个并行NVIDIA GTX 1080TiGPU的PC上进行的。4.1. 与最新技术水平的比较并将我们的LBAM方法与四种最先进的方法进行了比较，Global Local [10]、PatchMatch [2]、Context At-tention [36]和PConv [17]。巴黎街景和景点评价。图4和图5显示了我们的LBAM和竞争方法的结果。Global Local [10]在处理不规则的洞时受到限制，产生许多不匹配的和无意义的纹理。PatchMatch [2]在恢复复杂结构方面表现不佳，并且结果与周围环境不一致。对于一些复杂和不规则的孔，上下文注意力[36]仍然会产生模糊的结果，并可能产生不必要的伪影。PConv [17]在处理不规则孔方面是有效的，但在某些区域仍然不可避免地会出现过度平滑的结果相比之下，我们的LBAM表现良好，产生视觉上更合理的结果与精细详细，和现实的纹理。定量评价。我们还将LBAM与Places [40]上的竞争方法进行了定量比较，掩模比（0。1，0。2]，（0。2，0。3]，（0。3，0。（4）和（0。四，零。5]。从表1中可以看出，我们的LBAM表现良好在PSNR、SSIM和平均SNR1损失方面，特别是当掩模比高于0时。3 .第三章。表1.对场所进行定量比较。PConv* 的结果取自[17]。掩模[第10话][2]美国[36]PConv*[17]我们PSNR（0.1-0.2）23.3626.6726.2728.3228.51(0.2，0.3]20.5324.2123.5625.2525.59(0.3，0.4]19.3721.9521.2022.8923.31(0.4，0.5]17.8620.0219.9521.3821.66SSIM（0.1-0.2）0.8280.8760.8810.8700.872(0.2，0.3]0.7440.7630.7690.7790.785(0.3，0.4]0.6430.6570.6670.6890.708(0.4，0.5]0.5450.5720.5630.5950.602平均l1（%）（0.1-0.2）2.451.432.051.091.12(0.2，0.3]4.012.383.741.881.93(0.3，0.4]5.863.595.652.842.55(0.4，0.5]7.925.227.433.853.67从真实世界的图像中删除对象。使用在Places上训练的模型，我们进一步评估了LBAM在现实世界中的对象移除任务。图6显示了我们的LBAM，上下文注意力[36]和PConv [17]的结果。我们使用轮廓形状或矩形包围盒来遮蔽目标区域.与其他方法相比，我们的LBAM可以同时利用全局语义和局部纹理生成真实感和连贯性的用户研究。此外，本文还对巴黎街景和Places进行了用户研究，并对用户的主观视觉质量进行了评价.我们从覆盖不同不规则孔洞的测试集中随机选取30幅图像，8868并通过PatchMatch [2]，Global Local [10]，ContextAttention [36]，PConv [17]和我们的方法生成修复结果。我们邀请了33名志愿者投票选出最具视觉合理性的修复结果，其评估标准包括与周围上下文的一致性，语义结构和精细程度。886916(a)（b）（c）（d）（e）（f）（g）图7.第一个编码器层和第13个解码器层的特征可视化。(a)输入，（b）（c）我们的（未学习），（d）（e）我们的（向前），（f）（g）我们的（完全）。(a)（b）（c）（d）（e）（f）（g）图8. 在激活函数gA（·）之后，针对正向和反向注意力图的更新掩码的可视化。（a）输入，（b）（c）（d）来自前三层（1，2，3）的正向掩码，（e）（f）（g）来自后三层（11，12，13）的反向掩码。给出了巴黎街景上LBAM变体的定量结果，Ours（完整）的性能增益可以通过（1）可学习的注意力地图，（2）反向注意力地图和（3）适当的激活函数来解释。表2.巴黎街景上的消融研究（PSNR/SSIM）(a) 输入（b）我们的（未学习）（c）我们的（向前）（d）我们的（完全）图9.视觉品质对可学习双向注意图影响之比较。续费对于每个测试图像，5个修复结果被随机排列并与输入图像一起呈现给用户。我们的LBAM有63个。2%的机会赢得最有利的结果，大大超过PConv [17]（15。2%）、PatchMatch [2]（11. 1%），上下文注意力[36]（6. 33%）和全球&本地[10]（4。17%）。4.2. 消融研究进行烧蚀研究，以比较巴黎街景上几种LBAM变体的性能，(i)我们的（满）：全面的LBAM模式，（二）我们的（未学习的）：LBAM模型，其中掩模中的所有元素都是方法(0.1，0.2](0.2，0.3](0.3，0.4](0.4，0.5]我们的（unlearned）26.95/0.85324.39/0.76322.54/0.67721.20/0.583Ours（前进）27.80/0.86925.13/0.77523.04/0.68821.76/0.598我们的（Sigmoid）26.93/0.85724.15/0.76822.24/0.68320.32/0.582我们的（LReLU）26.61/0.85223.59/0.76220.63/0.66718.38/0.562我们的（ReLU）27.62/0.86425.16/0.77622.96/0.68521.48/0.596我们的（3x3）28.74/0.88626.10/0.79324.03/0.70322.43/0.617Ours（w/oLadv）29.19/0.90326.55/0.81724.46/0.72922.70/0.626我们的（满）28.73/0.88926.16/0.79524.26/0.71622.62/0.621面具更新图8示出了来自不同层的更新的掩模的可视化。从第一层到第三层，编码器的掩模逐渐更新，以减小孔的尺寸。类似地，从第13层到第11层，解码器的掩码逐渐更新以减小已知区域的大小。对抗性损失的影响。表2还给出了不含Ladv的定量结果。尽管我们的（不含LADV）改进了卷积滤波器设置为1因为过滤器的大小PSNR和SSIM，使用LAdv一般来说，有利于VI-4×4，并且我们采用在等式（4）和Eqn. （5）、（iii）我们的（远期）：LBAM没有反向注意力地图的模型，（ iv ）我们的（w/oLadv）：没有（w/o）对抗性损失的LBAM模型，（ v ）我们的（ Sigmoid/LReLU/ReLU/3×3 ）：使用Sigmoid/LeakyReLU/ReLU作为激活函数或3×3过滤器进行掩码更新的LBAM模型。图图7显示了第一个编码器层和第13解码器层由Ours（未学习），Ours（转发）和Ours（完整）组成。对于我们的（未学习），模糊和文物可以从图中观察到。第9（b）段。我们的（前向）是有益的，以减少文物和噪音，但解码器幻觉的漏洞和已知的地区，并产生一些模糊的效果（见图。9（c））。相反，Ours（full）在生成语义结构和详细纹理方面是有效的（见图10）。9（d）），和解码器的重8870点主要是幻觉孔（见图。7（g））。表2修复结果的质量定性结果在附录中给出。5. 结论提出了一种可学习的双向注意力映射（LBAM）图像修复方法。随着可学习注意力地图的引入，我们的LBAM在适应不规则孔和卷积层的传播方面是有效的。此外，提出了反向注意力映射，使U-Net的解码器只专注于填补漏洞。实验表明，我们的LBAM表现faforably对国家的最先进的产生更清晰，更连贯和精细的详细结果。确认这项工作得到了国家自然科学基金资助的一部分。61671182 和 61872116 ，以及国家重点研发项目2018YFC 0832105。8871引用[1] 马丁 ·阿乔对 ky ，苏米特 ·钦塔拉和 Le'onBottou 。Wasserstein 生成对抗网络在国际机器学习会议（ICML）中，第2146[2] Connelly Barnes ， Eli Shechtman ， Adam Finkelstein ，and Dan B Goldman. PatchMatch：一种用于结构图像编辑的随机对应算法。 ACM Trans-actions on Graphics（TOG），第24：1-24：11页，2009年。一、二、五、六、七、八[3] Marcelo Bertalmio、Guillermo Sapiro、Vincent Caselles和Coloma Ballester。图像修复。在计算机图形和交互技术年会（SIG-GRAPH），第417-424页，2000年。1[4] Antonio Criminisi Patrick Perez和Kentaro Toyama。基于样本的图像补绘的区域填充和目标去除IEEE图像处理学报（TIP），第1200-1212页，2004年。2[5] Silvano Di Zenzo.关于多重图像梯度的一个注记。计算机视觉，图形和图像处理，第116-125页，1986年。2[6] Carl Doersch 、 Saurabh Singh 、 Abhinav Gupta 、 JosefSivic和Alexei A Efros。是什么让巴黎看起来像巴黎？ACM通讯，第103-110页，2015年。二、六[7] 利昂·A Gatys，Alexander S. Ecker，and Matthias Bethge.使用卷积神经网络的图像风格转换。在IEEE计算机视觉和模式识别会议中，第2414-2423页，2016年。5[8] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。神经信息处理系统进展（NeurIPS），第2672-2680页，2014年一、五、六[9] Ishaan Gulrajani 、 Faruk Ahmed 、 Martin Arjovsky 、Vincent Dumoulin和Aaron Courville。改进的瓦瑟斯坦甘斯训练。神经信息处理系统进展（NeurIPS），第5767-5777页，2017年。6[10] Satoshi Iizuka，Edgar Simo-Serra，and Hiroshi Ishikawa.全局和局部一致的图像完成。ACM Transactions onGraphics（TOG），第107：1-107：14页，2017年。一二三五六七八[11] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei AEfros. 使用条件对抗网络进行图像到图像翻译在IEEE计算机视觉和模式识别会议（CVPR）中，第5967-5976页，2017年。四、五[12] 贾斯汀·约翰逊，亚历山大·阿拉希，李飞飞。实时风格转换和超分辨率的感知损失。在欧洲计算机视觉会议（ECCV），第9906卷，第694-711页，2016年。5[13] Diederik P. Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。7[14] RolfK？ hler，ChristianSchuler，BernhardSch？ lk opf，andStefan Harmeling.使用深度神经网络进行面具特定修复模式识别（GCPR），第523-534页，2014年。2[15] Nikos Komodakis和Georgios Tavernitas。通过优先级调度和动态修剪使用有效置信传播的IEEE图像处理学报（TIP），第2649-2661页，2007年。2[16] ChristianLedig ， Lucas Theis ， Ferenc Huszar ， JoseCaballero，Andrew P. Aitken，Alykhan Tejani，JohannesTotz，Zehan Wang，and Wenzhe Shi.使用生成对抗网络的照片级真实感单幅图像超分辨率。在IEEE计算机视觉和模式识别会议（CVPR），第105-114页，2017年。6[17] Liu Guilin ， Fitsum A. Reda ， Kevin Shih ， Ting-ChunWang，Andrew Tao，and Bryan Catanzaro.基于部分卷积的不规则孔洞图像修复。在欧洲计算机视觉会议（ECCV），第11215卷，第89-105页，2018年。一二三四五六七八[18] 奥利维耶·勒梅尔，乔斯林·戈蒂埃，克里斯汀·吉耶莫。基于局部几何的基于示例的修复 IEEEInternationalConference on Image Processing（ICIP），第3401-3404页一、二[19] Kamyar Nazeri ， Eric Ng ， Tony Joseph ， FaisalQureshi，and Mehran Ebrahimi.边缘连接：具有对抗性边缘学习的生成图像内绘。 arXiv 预印本 arXiv ：1901.00212，2019。3[20] Deepa kPathak，PhilippKr aühenbuühl ，Jef fDonahue，Trev orDarrell和Alexei Efros。上下文编码器：通过修复进行特征学习。在IEEE计算机视觉和模式识别会议（CVPR），第2536-2544页，2016年。一、三、六[21] Jimmy SJ Ren，Li Xu，Qiong Yan，and Wenxiu Sun.谢帕德卷积神经网络。神经信息处理系统进展（NeurIPS），第901-909页，2015年。2[22] Olaf Ronneberger，Philipp Fischer，and Thomas Brox.U-网：用于生物医学图像分割的卷积网络在Medical ImageComputingandComputer-AssistedIntervention（MICCAI），第9351卷，第234-241页，2015中。2[23] Olga Russakovsky

下载后可阅读完整内容，剩余1页未读，立即下载