增量Transformer结构增强的掩蔽位置编码图像修复

77 浏览量更新于2023-10-26 收藏 2.47MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11358×增量Transformer结构增强的掩蔽位置编码图像修复董巧乐*，曹晨杰*，傅艳伟*，复旦大学{18307130096,20110980001,yanweifu}@fudan.edu.cn摘要图像修复技术近年来取得了很大的进展.然而，如何恢复出纹理清晰、结构合理的图像仍然是一个挑战。由于卷积神经网络（CNN）的接收域有限，一些特定的方法只能处理规则纹理，而失去了另一方面，基于注意力的模型可以学习更好的长程依赖性的结构恢复，但他们是有限的沉重的计算与大图像尺寸的推断。为了解决这些问题，我们建议利用一个额外的结构恢复，以促进图像修复增量。该模型在固定的低分辨率草图空间中使用基于注意力的Transformer模型来恢复整体图像结构。这样的灰度空间容易被上采样到更大的尺度以传达正确的结构信息。我们的结构恢复器可以有效地与其他预训练的修复模型集成，并具有零初始化的残差加法。此外，一个掩蔽的位置编码策略，用于提高性能与大的不规则掩码。在各种数据集上进行的大量实验验证了我们的模型与其他竞争对手相比的有效性。我们的代码以https发布：//github.com/DQiaole/ZITS_inpainting网站。1. 介绍图像修复作为一个长期存在的挑战已经被研究，以解决填充图像缺失区域的困难。它对各种现实世界的应用非常有用，例如对象删除[12]，照片恢复和图像编辑[25]。为了达到逼真的效果，修补后的图像应该保持语义上连贯的纹理和视觉上合理的结构.许多经典算法[3，9，19，31，42]启发式地搜索用于重建的类似补丁。但是保存*平等捐款。†通讯作者。图1.高质量的1024 1024修补结果。从左到右，屏蔽输入，LaMa [44]的结果，我们的方法的结果对于这些传统方法来说，大图像中的良好纹理和整体结构仍然是不平凡的。得益于卷积神经网络（CNN）[28]和生成对抗网络（GAN）[15]的出色能力，现有的深度学习方法[4，18，30，35，44，46，54，59]可以在某些常见情况下有效地执行然而，他们仍然遭受一些困境。（1）有限的接收域。由于卷积运算的局部归纳先验和窄的接收域，学习语义一致的纹理对于传统的CNN来说是困难的。即使是扩张卷积[55]也无法处理大的损坏区域或高分辨率图像。（2）整体结构缺失。恢复关键的边缘和线条的场景，特别是那些与弱纹理是困难的，没有整体的理解，如图1所示的大图像。（3）计算量大。训练具有大图像尺寸的GAN仍然非常棘手和昂贵[27]。并且在高分辨率图像上修复性能可能会下降。（4）在掩蔽区域中没有位置信息。修复模型倾向于在没有明确位置线索的情况下在大的不规则掩蔽区域中重复无意义的伪影。一些开创性的工作可以部分解决这些问题。对于有限的感受野，基于注意力的冰毒-11359ods [54，56，60]利用注意力机制来扩展感受野。Suvorov等人[44]利用快速傅立叶卷积（FFC）来编码具有全局感受野的频场中的特征，以用于分辨率鲁棒的内绘制。但它们不能保证图像的整体结构，对纹理较弱的图像效果较差。此外，利用具有长程依赖性的基于变换器的方法[46，58]首先填充低分辨率令牌，然后用CNN对其进行上采样。不幸的是，trans-formers需要大量的内存来处理大图像. Transformer和CNN之间的分辨率差异另一方面，一些方法利用辅助信息进行结构恢复，例如，，边缘[18，38]，分割[32，43]，和gra-1 [53]。Cao等人[4]提出了一个由边和线框组成的草图张量空间[22]，以促进人造场景中的整体结构学习。然而，这些复杂的方法通常是基于多阶段或多模型设计，这是昂贵的从头开始训练。此外，许多研究[23，33，51]表明位置信息对于学习网络至关重要，例如GANs [33，51]和NeRF [36]。据我们所知，有没有以前的工作，明确讨论和利用的位置信息在图像修复。因此，这促使我们的工作，逐步推断整体结构信息和位置信息，以提高修复模型的性能。具体来说，我们利用基于变换的模型来处理具有边缘和线条的整体结构作为草图张量空间[4]。重要的是，这种归一化的灰度空间可以通过简单的CNN轻松地上采样到更高的分辨率，而不会丢失信息。此外，我们提出了一种新的增量训练策略，使用零初始化残差添加（ZeroRA）[2]将结构信息引入到预训练的修补模型中。与重新训练一个新的基于神经网络的模型相比，这种增量策略具有收敛速度快、步骤少的优点此外，我们还对掩模区域进行了位置编码，提高了图像恢复的性能。在形式上，本文提出了一种新的基于ZeroRA的增量Transformer结构（ZITS）修复框架，该框架通过掩蔽位置编码（MPE）进行增强.我们的ZITS具有掩蔽位置编码（MPE）、Transformer结构恢复器（TSR）、傅立叶 CNN 纹理恢复（ FTR ）和结构特征编码器（SFE）的新组件。TSR由交替的轴向[21]和标准注意力块组成，以平衡性能和效率。请注意，与CNN相比，我们的TSR可以实现更好的结构恢复[4，38]。输出的灰度边缘和线使用简单的4层CNN进行上采样。然后，基于门控卷积[57]的SFE对特征进行编码并传输他们的FFC为基础的修复模型称为FTR与Ze- roRA。此外，我们使用MPE来表示从未掩蔽区域到掩蔽区域的距离和方向。我们突出几个贡献如下。 (1) 我们建议使用Transformer来学习用于修复任务的归一化这种基于注意力的模型可以学习具有长距离依赖性的更好的整体结构。(2)辅助信息可以增量地并入到预先训练的修复模型中，而无需再训练。(3)提出了一种新的掩模位置编码，以提高不同掩模的修复模型的通用性。(4)在包括Places2 [63]，ShanghaiTech [22]，NYUDepthV2 [37]和MatterPort3D [5]在内的多个数据集上进行的广泛实验表明，我们提出的模型优于其他最先进的竞争对手。2. 相关工作由辅助设备进行修复。辅助信息，如边缘[38，53]，分割图[32，43]和梯度[53]对修复非常有用。具体来说，EdgeConnect [38]利用边缘来帮助修复具有某些结构的图像。Guo等[18]提出了一种用于图像修复的双流网络，该网络以耦合的方式对结构约束的纹理合成和纹理引导的结构重建进行建模。SGE-Net [32]只是相对地更新语义分割图和损坏的图像。Cao等人[4]进一步提出学习草图张量空间，其由用于在绘画中的人造场景的边缘和线组成。在我们的工作中，我们还采取了边缘和线作为我们的辅助信息。与[4]不同，利用Transformer在ZITS中重建边和线。一些初步的调查[6]已经显示出它在自然图像合成的结构关系建模方面的出色能力。此外，几乎所有基于辅助的方法都需要额外的输入通道来获取更多的信息，这使得它们必须从头开始重新训练以充分利用这些额外的输入。在我们的论文中，我们提出了一种灵活有效的方法来增量地向预训练的修复模型添加结构用于图像生成的变压器。Transformer [1，45]在NLP和CV社区的许多任务上都取得了良好的性能，因为它学习了序列数据上的远程交互。Dosovitskiy等人[11]首先提出使用Transformer进行图像识别，并展示了其巨大的能力。许多工作[6，29，39]致力于降低变压器的时间和空间复杂度。Esser等人[13]和Rameshet al. [41]利用离散表示学习以降低计算成本。变换器也用于图像修复[46，58]以进行低分辨率图像重建，然后引导基于GAN的CNN以获得进一步的高质量结果。在我们的工作中，Transformer被用来建立整体结构reflecc，11360i、j××∈∈∈联系我们i、j与基于CNN的方法相比，该方法具有更好的性能3. 方法概况.ZITS的整个管道显示在行i和j之间的RPE值，并且Rcol表示列i、j之间的RPE值。然后，通过softmax操作处理注意力分数。为了稳定训练，我们使用[50]中的预范数技巧。与标准自我注意的O（n2）复杂度相比，3图二、给定掩蔽图像I ，canny edgeI [10]，时间复杂度为O（2n2），这使得我们可以线IM[4]和二进制掩码M为了更好的容量，可以省略更多的注意层。再说我们我，我们连接起来-将它们放入Transformer Structure Restoration（TSR）模型，以恢复边和线作为草图空间[m ， m，m]=TSR（m ，m ， m ， M ）（ Sec. 第 3.1节）。在-在参考级，简单结构上采样器（SSU）可以轻松地将灰度草图上采样为任意大小（第3.2）。然后，基于门卷积的结构特征编码器（SFE）提取多尺度特征Sk=来自上采样的SFE（k=0，1，2，3}，还保留了一些用于学习全局相关性的标准注意模块。我们的消融表明，这种设置可以提高性能，相同的内存成本。在对堆叠的Transformer块进行编码之后，在256中通过三个转置卷积对特征进行上采样以用于我们使用二进制交叉熵（BCE）损失来优化预测的连续S-K蚀刻结构的边缘线和线素描我们递增地将Sk添加到基于傅立叶卷积的CNN纹理恢复（FTR）当k=0，1，2，3时，零初始化的可训练系数αk的总和，即、ZeroRA（第3.3）。3.1. Transformer结构修复由于Transformer显示出获得表达性全局结构恢复的能力[46]，因此我们利用Transformer的能力对于256256中的输入掩码图像Im、边缘Ie、线Il和掩码M，我们首先用三个卷积对它们进行下采样，以减少注意力学习的计算与基于补丁的MLP嵌入相比，这种简单的卷积还可以为视觉变换器注入有益的卷积归纳偏差[49]。然后，我们在每个空间位置向特征添加可学习的绝对位置嵌入，并获得XRh× w × c对于到关注层的输入，其中h、w=32是高度和宽度，并且c=256是特征通道。为了克服标准自我注意力的二次复杂性[45]，我们交替使用轴向注意力模块[21]和标准注意力模块，如图2左上角所示。轴向注意模块可以通过调整行方向和列方向的张量形状，然后分别用基于点积的自注意进行处理来容易地实现。为了改善空间关系，我们还为每个轴向注意模块提供了相对位置编码（RPE）[40]。对于输入要素X我们假设xri，rj，xci，cjRcX的行i，j和列i，j的平均特征向量。然后，基于行和列的RPE的轴向注意力分数Arow，Acol可以写为Le=BCE（BCE，BCE），L1=BCE（BCE，BCE），（2）其中，k表示二进制地面真值可以是n个边，并且图11指示从来自[4]的掩蔽增强线框检测器获得的抗锯齿线图3.2. 简单结构上采样器为了捕获可能的高分辨率图像的整体结构然而，基于香草插值的插值导致锯齿形，如图3（f）这样的伪影对于大图像尺寸更严重，这使修复结果恶化。幸运的是，灰度草图张量易于使用基于学习的方法进行上采样。首先，我们训练一个简单的CNN作为SSU，以上采样边缘和线到两倍大小。尽管可以成功地对线进行上采样，但是边缘不能得到正确的结果，如图3（j）所示。因为如图3（b）和图3（c）所示，在来自不同图像尺寸的Canny边缘中存在模糊性。由于从线框解析器获得的线具有良好的离散表示[22，52]，即一条线可以表示为两个端点的位置及其关系，我们可以绘制各种分辨率的线图，而没有任何歧义，如图3（d）和图3（e）所示。如果模型是在线训练的，由于如图3（k）所示的网络的一般化，它还可以实现平滑的高分辨率边缘图。通过迭代调用SSU，我们可以得到高质量的边缘和线条的高分辨率。3.3. ZeroRA结构增强修补傅立叶CNN纹理恢复（FTR）。对于纹理恢复，我们采用[44]的优秀作品作为我们的修复骨干。Suvorov等人[44]建议使用A行=xriWrqWTxT+R行，傅立叶卷积[7]用于频域学习，i、jrk rji、j（一）其可以实现分辨率鲁棒的修补结果。作为Acol=xciWcqWTxT+Rcol，i、jCK CJi、j其他修复模型使用的主干[4，38]，FTR是其中，Wrq、Wrk、Wcq、Wck是用于行和列中的查询和关键字的可训练参数;R行是可训练参数。一个自动编码器模型，具有用于下采样和上采样图像特征的几个卷积。按键模块11361××图2.我们的ZITS概述首先，TSR模型用于恢复低分辨率的结构然后，利用简单的基于CNN此外，上采样草图空间由SFE模型编码，并通过ZeroRA添加到FTR中以恢复纹理。左上角显示了有关Transformer块的详细信息。输入特征分别通过行和列注意力学习，然后通过标准注意力模块编码。(a) RGB图像（b）256x256边缘（c）512x512边缘（d）256x256线（e）512x512线(f)最近邻线（g）双线性线（h）三次线（i）抗锯齿线（Antialias）ERS下采样卷积（编码器）、具有扩张卷积的3层残差块[55]（中间）以及3层上采样卷积（解码器）。对于SFE中的编码器和解码器，我们使用门控卷积（GC）[57]来选择性地传输有用的特征。GC学习另一个具有相同通道的sigmoid激活然后将S形特征乘以卷积特征作为输出。虽然GC被广泛用于图像修复更好地推广到不规则的面具，我们使用GC过滤有用的功能FTR。因为灰度草图空间是稀疏的，并且并非所有特征都是修补所必需的然后，4个由粗到细的特征映射Sk，k∈ {0，1，2，3}（j）来自模型的上采样边缘和线用边和线训练仅用线训练图3. (a)- （e）指示地面实况图像和结构。边缘是从canny边缘检测器，而sigma是2.0，256 256和2.5为512 512。然而，（b）和（c）之间（f）与来自（k）的基于学习的上采样边缘相比，来自（j）的基于学习的上采样边缘具有显著更优的质量。FTR的核心是快速傅立叶卷积（FFC）层，它由两个分支组成：1）局部分支使用常规卷积，2）全局分支卷积快速傅立叶变换后的特征然后，在修复过程中将两个分支组合以获得更大的感受野和局部不变性[44]。然而，这样一个强大的模型无法学习合理的整体结构。我们进一步提出了一系列新的组件，以改善它。结构特征编码器（SFE）。对于给定的恢复的边缘和线，我们需要一个完整的卷积网络（FCN）将它们处理到特征空间中。我们的SFE也是一个自动编码器模型，具有3层-从最后一个中间层和3个解码器层被选择将结构特征转移到FTR，S0，S1，S2，S3=SFE（m，m，M），（3）其中M指示经调整大小的二进制掩码。掩蔽位置编码（MPE）。虽然CNN中的零填充可以提供一些位置信息[23]，但它仅包含有关空间锚的信息[51]。因此，来自GANs的中心生成区域倾向于重复无意义的伪影，而没有特定的位置编码。当图像尺寸较大时，零填充的效果将进一步减弱，这会导致生成器出现更多重复伪影[33]。在修复期间，用于未掩蔽区域的位置信息是不必要的，因为模型总是知道真实的未掩蔽图像区域。然而，我们认为位置信息对于掩模区域仍然是至关重要的，特别是当掩模区域对于高分辨率图像是大的时。受CNN感受野的限制，具有大掩模的模型可能会失去方向和方向。2 s（+ng 30 s +4+ 0 nl5n60*+ng 72358;o6r8）rC//T）56r）7）s5 or#58o $9;T7：x3 x $x30;41;4+m g）I#Tr#$s或（）m s（MSk“#k$%'（$）$*$+，m s（）*+m g）ImL001C）*i+x2x/m s（）**g）Iex3 x8 x3<0n6 4）n 4）5l）m）n4=>+s）**+4+0n9）s40nl：x3 x3 x3R35@R）14 +A）10s+4+0n）n60*+ngm s（）Tr#$sor（）r45r6c56r）7）s5 or45r6c56r）;）#56r）行$wie R（）*o+u-n$wieR（）C++（C7）/）5B+ockTr#$s或（）r*+ OCK+$wi e（）e*）io*;;C *+ockC//0o1$s#（2+）=#5）Co$>0o1$s#（2+）4ee54o2w025/01e23o2-60ni++0788en8ion/01e23o2-4ee54o2w025C//0o1$s#（2+）/01e23o2-行$wi e（））e*）io*Lay$r或（Lay$r或（资源a e在#$t&e（ t$）e*C//32s#（2+=#5）Co$>32s#（2+C//32s#（2+）11362联系我们×∈∈Ⓢ(a) 输入掩码(b) 掩蔽距离Ddis零初始化残差加法（ZeroRA）。由于现在大多数修复方法都是基于复杂的GAN，因此增量训练修复模型并不简单。然而，受益于各种辅助信息[4，32，38]，增量训练可以灵活地改善图像修复。为了用整体结构增量地改进预训练的修复模型，我们建议使用ZeroRA，它在[2]中被用来取代Transformer中的层归一化ZeroRA的想法对于给定的输入特征x，输出特征x′是通过添加函数F的跳过连接来获得的，(c) 四个掩蔽方向通道Ddi$图4.我们的掩蔽相对位置编码的说明(a)输入掩码，（b）掩码距离Ddis和所有一个3× 3核，（c）掩码方向Ddir及其核。位置信息，这会导致无意义的伪影。尽管FFC可以将特征学习扩展到频域，但它对区分掩蔽区域和非掩蔽区域不敏感因此，我们建议使用位置编码的掩蔽区域称为MPE的图像修复，这是正交的，并提高后FFC在FTR。具体地，为了清楚地表示掩蔽和未掩蔽的位置关系，我们的MPE被写为P，它可以被表示为掩蔽距离Pdis和掩蔽方向Pdir，如图4所示。给定一个反相的256×256二进制掩码，其中1表示未掩码的重新x具有零初始化的可训练剩余权重α，x′=x+α·F（x）.（6）对于简单的基于线性的模型，如果α初始化为零，则输入-输出雅可比矩阵将初始化为1，使训练稳定。对于更复杂的情况，[2]中的实验也证明了ZeroRA的有效性。由于ZeroRA可以取代Transformer中的层规范化，因此它还可以提高模型的表达能力，而不会降低早期层的方差。在我们的例子中，我们使用ZeroRA增量地将结构信息从SFE添加到FTR。具体地说，利用4个零初始化的αk，k0，1，2，3融合来自SFE的4个相关特征图Sk.对于基于Conv-BatchNorm-ReLU的FTR编码器层k的特征Xk，我们如下gions和零表示掩蔽区域，我们使用3 三个都是-一个内核计算掩蔽距离Ddis为每个位置在掩蔽区域如图所示第4（b）段。然后Xk+1=Conv（Xk+αk·Sk），Xk+1=ReLU（BatchNorm（Xk+1））。（七）通过正弦位置编码（SPE）[45]对距离进行裁剪和映射，以获得PdisR256×256×d我基于ZeroRA的增量还有另一个优点-说话学习。模型输出等价于微调开始时的预训练输出，这可以影响Pdis，2i= sin（clip（Ddis，0，Dmax）/10000d），我Pd为，2i+1=cos（np（Ddis，0，Dmax）/10000d），（四）稳定的训练，并自适应地传递必要的我们的消融研究表明，ZeroRA其中i表示通道索引;Dmax=128，d=64表示Pdis的总通道数，与FTR的第一个卷积相同。由于SPE只能提供绝对位置信息[51]，因此可以在训练期间通过最接近的插值来进一步调整Pdis的大小，以学习任意分辨率的相对位置信息。对于掩蔽方向，我们使用4个不同的二进制内核来获得4通道one-hot vec，重要的是用附加信息增量地微调预训练的修补模型。3.4. 损失函数我们采用与[44]相同的损失函数，包括L1损失、对抗性损失、特征匹配损失和高感受场（HRF）感知损失[44]。首先，L1损失仅在未掩蔽区域之间计算为torDdirR256×256×4. Ddir的值取决于核函数首先覆盖被掩蔽的区域。Ddir显示了LL1 =（1−M）|I−~I|第1条，第（8）项从掩蔽位置到未掩蔽位置的最近方向，如图4（c）所示。注意，掩蔽方向是多标签向量，因为像素可以具有多于一个的最短方向。然后Ddir被投影到a具有可学习嵌入参数Wdir∈R4×d的d维特征，其中，M表示0-1掩码，1表示掩码区域;表示逐元素乘法;RNI、RNI分别表示地面实况和预测图像。对抗损失由发电机损失L_D和发电机损失L_G组成. 此外，我们只把来自掩蔽区域的特征作为LD中的假样本。[24]第二十四话P方向 =D目录×W方向∈R256×256× d.（五）基于的函数被写为D，并且FTR和SFE可以看作是生成元G，那么ad-Pdis和Pdir作为MPE添加到FTR的第一层对抗性损失可以表示为11363LL−L||||××××××LD=−EIloggD（I）−EI，MloggD（I）（1−M）-EI，Mlogg（1 −D（I））<$M，LG=−EIloggD（I），Ladv= LD+ LG+λGP LGP，（九）表1. 256× 256室内和场所2的定量结果其中GP=E<$I<$<$I D（<$I）2是梯度惩罚[16]，λGP= 1e3。我们还使用了特征匹配损失[47]fm，它是基于L1损失，真的和假的样品。fm通常用于稳定GAN训练。它还可以稍微改善性能。此外，我们在[44]中使用HRF损耗Lhrf在室内和地方2，并减少发电机学习率到3e-4。此外，我们用2,000步来预热训练SFE的学习率。对于TSR和FTR的训练，输入图像被调整大小为256 256。对于增量微调，我们分别训练两个版本的Lhrf =E（E）HRF（I）−（CHI）CH2），（十）ZITS是在256 256中训练的版本和在256到512的随机大小中训练第二其中，Reshrf表示预先训练的分割ResNet50有扩张的螺旋如[44]中所讨论的，使用HRF损失而不是感知损失[26]可以提高修复模型的质量。我们的模型在增量训练中的最终损失可以写为L最终=λL1LL 1+λadvLadv+λfmLfm+λhrfLhrf，（11）其中λL1= 10，λadv= 10，λfm= 100，λhrf= 30。4. 实验4.1. 数据集提出的ZITS在两个数据集上训练：Places2 [63]和我们的自定义室内数据集（室内）。对于Places2，我们使用来自各种场景的约1，800 k图像作为训练集，并使用36，500张图像作为验证。为了更好地展示结构恢复，我们从ShanghaiTech [22]收集了5，000张图像，从NYUDepthV2[37]收集了15，055张图像，以构建定制的20，055室内训练数据集。对于室内验证，我们收集了1，000张图像，其中包括分别来自Shan-haiTech和NYUDepthV 2的462和538张图像。Places 2和In-door都可以在256 256和512 512中进行测试。此外，我们还在高分辨率MatterPort3D [5]上测试了1024 1024中的1，965张室内图像的修复能力。MatterPort3D的更多细节和结果在补充资料中讨论。4.2. 实现细节培训设置。我们的ZITS是用Py-Torch实现的. 对于TSR的训练，我们使用学习率为6 e-4的AdamTSR在室内和场所2使用150k和400k步进行训练。另一方面，我们首先用Adam优化器训练FTR，生成器和学习器的学习率分别为1 e-3 和1 e-4 。FTR在室内训练10万步，在Places2训练80万步。然后，我们使用ZeroAR对它们进行增量微调，只需50k步模型可以处理一些具有更高分辨率输入的情况并且MPE也被改变为用于随机大小训练的相对位置编码。遮罩设置。为了解决现实世界的对象移除任务，我们遵循[4]中的遮罩设置，其中包括不规则遮罩画笔和COCO [34]分割遮罩，遮罩率从10%到50%。与[4]不同的是，我们随机组合了20%的不规则和分割掩模，以提高学习难度。4.3. 比较方法我们将所提出的模型与其他最先进的方法进行了比较，这些方法包括边缘连接（EC）[38]，上下文残差聚合（HiFill）[54]，多尺度草图张量修复（MST）[4]，Co-Modulation GAN（Co-Mod）[62]和大掩模修复（LaMa）[44]。所有竞争者都在Places2中进行比较。我们也重新训练EC，MST，和LaMa的室内数据集，以讨论结构恢复。注意，下面比较的LaMa都是用与 ZITS相同的总步骤训练的。4.4. 定量比较修复结果。在选项卡中。1，我们利用PSNR，SSIM[48]，FID [20]和LPIPS [61]来评估所有的方法在室内和Places2数据集上进行了比较，256 256具有混合分割和不规则掩模。不同掩蔽率的更多结果见补充资料。对于室内，我们的ZITS可以在所有指标上达到最佳效果。而MST的效果略好于EC，这得益于线的使用。LaMa可以得到更容易接受的FID和LPIPS，而我们的ZITS由于无缝嵌入的结构信息和位置编码，可以在LaMa的基础上实现显著的改进注意，ZITS和MST之间的差距也是由结构恢复的质量差距引起的，如下所对于Places2，HiFill无法使用大掩模获得良好的结果，这可能是由其有限的模型容量引起的。请注意，Co-Mod具有低HRF室内地点2PSNR↑ SSIM↑ FID↓ LPIPS↓ PSNR↑ SSIM↑ FID↓ LPIPS↓EC24.070.884 22.020.13523.310.8396.210.149MST24.520.894 21.650.12224.020.8623.530.137HiFill- ---20.760.770 21.330.246Co-Mod- ---22.570.8431.490.122喇嘛25.200.902 16.970.11224.370.8691.630.155我们25.57零点九零七15.930.09824.420.8701.470.10811364××表2.定量精密度（P.），召回（R.）和F1-室内和场所2上的边缘和线的得分（F1）。边缘P.R.F1线P.R.F1AvgF1室内MST我们23.79 26.87 21.3637.34 35.1043.67 51.95 37.7753.60 66.23 58.3533.7346.72地点2MST我们22.54 18.29 20.1935.64 27.92 30.3934.22 49.21 37.0943.70 60.54 49.3528.6439.87表3.在512 512个位置2上进行MPE消融研究，动态分辨率从256到512。PSNR↑SSIM↑FID↓LPIPS↓关于MPE24.230.88126.080.133w./ O. MPE24.200.88026.290.135位置2上的FID和LPIPS。然而，Co-Mod是用一个复杂的StyleGAN [27]训练的，与其他人相比，它有更多的训练数据。与Co-Mod相比，我们的ZITS甚至可以在有限的数据规模和训练步骤下实现更好的结果。在一般情况下，我们的方法具有优越的性能相比，LaMa，这是有价值的，只有50k微调步骤。还有塔布的拉玛1被训练与ZITS相同的总步骤。边和线的结果。我们在选项卡中的Indoor和Places2上显示了边缘和线条二、与MST相比，我们的TSR在室内和场所 2 上都能达到更好的效果它表明，基于Transformer的TSR适合于在稀疏张量空间中学习整体结构，这可以使ZITS的结果受益匪浅，如表1所示。1.一、请注意，TSR结果为Tab. 2基于Mask-Predict [8，14，17]，其可以通过迭代采样输出来丰富结构生成，但不会改善定量度量。关于掩码预测的更多信息将在补充资料中讨论。4.5. 定性比较修复结果。我们在图5中示出了室内的定性修复结果，在图6中示出了地点2的定性修复结果。与其他方法相比，本文的ZITS方法可以处理更合理的结构，特别是可以得到更清晰的边界。与LaMa算法相比，ZITS算法在结构恢复方面有明显的改善. 请注意，LaMa和ZITS都使用相同的步骤进行训练。边和线的结果。我们比较了图7的室内的结构恢复结果，其在我们的基于变压器的TSR和来自MST的基于CNN的我们的TSR可以达到更合理和更有表现力的结果，无论是边缘和线条。更多定性结构结果见补充资料。4.6. 消融研究室内的定量消融研究如表1所示。4.第一章MPE和GC可以稍微改善FTR的性能此外，如果添加来自TSR的结构信息表4.室内不同设置的消融研究FTR SFE MPE ReZero 网关转换 PSNR↑ SSIM↑ FID↓ LPIPS↓✓25.200.902 16.97 0.112✓✓25.310.903 16.44 0.110✓✓✓✓25.280.905 16.15 0.102✓✓✓✓25.460.906 16.22 0.107✓✓✓✓25.510.906 16.15 0.103✓✓✓✓✓25.570.907 15.93 0.098表5. 512× 512室内和场所2和1024× 1024 MatterPort3D的定量结果。PSNR↑ SSIM↑ FID↓ LPIPS↓室内（512）喇嘛24.420.91121.480.826我们25.360.91918.760.823HiFill20.100.76465.470.291位置2（512）Co-Mod喇嘛22.0024.150.8430.87730.0427.860.1660.149我们24.230.88126.080.133MatterPort3D（1k）喇嘛26.400.94414.040.133我们26.550.94612.340.116没有ZeroRA，改进是有限的。因此，ZeroRA是有用的增量学习具有良好的收敛性。此外，完整模型实现了最佳性能。ZeroRA 我们还在图8中显示了在有和没有ZeroRA的情况下进行微调期间的PSNR和FID的折线图。没有ZeroRA的蓝色曲线在微调开始时不稳定，而带有ZeroRA的红色曲线具有更好的收敛性和稳定性。因为在没有ZeroRA的情况下添加额外的结构特征会导致输出发生巨大变化，这会损害脆弱的GAN训练。MPE。我们进一步利用MPE在高分辨率图像修复中的作用. FTR首先在没有MPE的情况下训练。然后，我们使用ZeroRA技术微调模型，有和没有相同的步骤MPE。选项卡中的结果。结果表明，基于MPE的微调方法有效地改善了FID中的512修复。根据图9，具有MPE的ZITS生成具有自然和平滑颜色的图像。4.7. 高分辨率修复我们还比较了HiFill，Co-Mod，LaMa和我们在Tab中Places 2（512）中的ZITS的结果。五、此外，在Tab中的Indoor（512）和Matter-Port 3D（1 k）中进一步比较了LaMa和ZITS。五、LaMa和ZITS首先接受培训，256 - 256，然后用50 k步长从256到512的动态分辨率进行微调。在Indoor（512）和MatterPort3D（1k）中测试的模型都在 Indoor 训练集中训练。对于 Places2（512），我们从36，500个样本中随机选择1，000个样本进行512测试。与LaMa算法相比，本文提出的ZITS算法此外，ZITS还可以在MatterPort3D中获得更好的1k结果。更多高分辨率结果可参见补充资料。11365(a) 屏蔽输入（b）EC（c）MST（d）LaMa（e）Ours图5.室内数据集的定性结果比较EC [38]，MST [4]，LaMa [44]和我们的。放大查看详细信息。(a)屏蔽输入（b）EC（c）HiFill（d）MST(e) Co-Mod(f) 喇嘛(g) 我们图6.在EC [38]、HiFill [54]、MST [4]、Co-Mod [62]、LaMa [44]和我们之间比较Places 2的定性结果(a)掩码输入(b)MST边缘(c)来自MST的线路(d)从我们的边缘(e)我们的台词图7.室内数据集的边和线的定性结果。图8.使用和不使用ZeroRA的结构增强微调5. 结论在本文中，我们提出了一个渐进的结构增强修复模型称为ZITS。我们使用一个基于transformer的结构恢复器，得到更好的整体结构相比，以前的方法。然后，(a)屏蔽输入（b）w./O. MPE（c）与MPE图9. 512× 512个部位2的消融（含和不含MPE）。利用新颖的ZeroRA策略来将辅助结构结合到具有几个微调步骤的预先训练的修补模型所提出的掩蔽位置编码可以进一步提高修复性能。ZITS可以在各种分辨率的实验中基于最先进的模型实现显著的改进谢谢。本工作得到了国家自然科学基金（62176061）、上海市科技委（2018 SHZDZX 01）和上海再-搜索和创新功能计划（17DZ2260900）。11366引用[1] 吉米·雷·巴，杰米·瑞安·基罗斯，杰弗里·E·辛顿.层归一化。arXiv预印本arXiv：1607.06450，2016。2[2] Thomas Bachlechner 、 Bodhisattwa Prasad Majumder 、Huanru Henry Mao 、 Garrison W Cottrell 和 JulianMcAuley。Rezero就是您所需要的：在大深度下快速收敛。arXiv预印本arXiv：2003.04887，2020。二、五[3] Marcelo Bertalmío，Guillermo Sapiro，Vicent Caselles，and Coloma Ballester.图像修复。2000年第27届计算机图形学与交互技术年会论文集。1[4] Chenjie Cao和Yanwei Fu。学习草图张量空间用于人造场景的图像修复。arXiv预印本arXiv：2103.15087，2021。一二三五六八[5] Angel Chang，Angela Dai，Thomas Funkhouser，MaciejHalber ， Matthias Niessner ， Manolis Savva ， ShuranSong，Andy Zeng，and Yinda Zhang. Matterport 3d：从室内环境中的rgb-d数据中学习。arXiv预印本arXiv：1709.06158，2017。二、六[6] 陈马克、亚历克·雷德福、雷旺·蔡尔德、吴杰弗瑞、全熙宇、栾大卫和伊利亚·苏茨科沃。从像素生成预训练。《国际机器学习会议》，第 1691-1703 页。PMLR，2020年。2[7] 陆驰，江博睿，木亚东。快速傅立叶卷积。神经信息处理系统的进展，33，2020。3[8] Jaemin Cho，Jiasen Lu，Dustin Schwenk，Hannaneh Ha-jishirzi，and Aniruddha Kembhavi. X-lxmert：2020年，用多模态变压器绘画，说明和回答问题。7[9] Antonio Criminisi Patrick Perez和Kentaro Toyama。通过基于样本的修复去除对象。2003年IEEE计算机协会计算机视觉和模式识别会议，2003年。诉讼，第2卷，第II-II页IEEE，2003年。1[10] Lijun Ding和Ardeshir Goshtasby。在边缘探测器上。Pattern Recognition，34（3）：721-725，2001. 3[11] AlexeyDosovitskiy，LucasBeyer，AlexanderKolesnikov，Dirk Weissenborn，Xiaohua Zhai，ThomasUnterthiner ， Mostafa Dehghani ， Matthias Minderer ，Georg Heigold，Syl- vain Gelly，et

下载后可阅读完整内容，剩余1页未读，立即下载