减少图像修复中Transformer的信息损失

159 浏览量更新于2023-10-25 收藏 20.29MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

210N-1N-2Pixel-level Codebook (Quantized Pixel) …TransformerDownsampleQuantizeRefinementNetworkInputOutputDe-Tokenize10N-1N-2Patch-level Codebook (Quantized Feature) …InputEncoderTransformerDe-TokenizeOutputDecoder0 4…36 110N-1N-2…10N-1N-2…113470减少Transformer在多样化图像修复中的信息损失0Qiankun Liu 1* Zhentao Tan 1 Dongdong Chen 2 Qi Chu 1† Xiyang Dai 20Yinpeng Chen 2 Mengchen Liu 2 Lu Yuan 2 Nenghai 01中国科学技术大学电磁空间信息重点实验室，2微软云+AI0{liuqk3, tzt}@mail.ustc.edu.cn, {qchu, ynh}@ustc.edu.cn0cddlyf@gmail.com, {xiyang.dai, yiche, mengcliu, luyuan}@microsoft.com0摘要0Transformer最近在多样化图像修复方面取得了巨大成功。然而，我们发现现有的基于Transformer的解决方案将每个像素都视为一个标记，因此在两个方面都存在信息损失问题：1）为了考虑效率，它们将输入图像下采样到较低的分辨率，导致掩蔽区域边界的信息损失和额外的不对齐。2）它们将256x3个RGB像素量化为少量（如512）个量化像素。量化像素的索引被用作Transformer的输入和预测目标的标记。尽管使用了额外的CNN网络来上采样和改进低分辨率结果，但很难恢复丢失的信息。为了尽可能保留输入信息，我们提出了一种新的基于Transformer的框架“PUT”。具体而言，为了避免输入下采样同时保持计算效率，我们设计了基于补丁的自动编码器P-VQVAE，其中编码器将掩蔽图像转换为非重叠的补丁标记，解码器从修复的标记中恢复掩蔽区域，同时保持未掩蔽区域不变。为了消除量化引起的信息损失，应用了一个非量化Transformer（UQ-Transformer），它直接将P-VQVAE编码器的特征作为输入，而将量化的标记仅作为预测目标。大量实验证明，PUT在图像保真度方面表现出色，尤其是对于大面积掩蔽区域和复杂的大规模数据集。01. 引言0图像修复专注于在损坏的区域中填充有意义和合理的内容。0* 在微软实习期间完成的工作† 通讯作者0标记0像素级码本（量化像素）0Transformer0下采样0量化0细化0网络0输入输出0去标记化0补丁级码本（量化特征）0输入0编码器Transformer0去标记化0输出0解码器0像素级码本（量化像素）0Transformer0下采样0量化0细化0网络0输入输出0标记化去标记化0图1. 上图：现有的基于Transformer的方法[49]。输出由ICT[49]生成。下图：我们基于Transformer的方法。“Tokenize”在这里表示获取量化像素或特征的索引，“De-Tokenize”是其逆操作。0图像修复一直是计算机视觉领域的热门话题，在各种应用中广泛使用[1, 35, 39, 42, 47, 48, 56]。传统方法[1, 3,9]基于纹理匹配可以很好地处理简单的情况，但在处理复杂的自然图像时困难重重。在过去几年中，由于CNN的发展，通过在大规模数据集上进行学习取得了巨大成功[28, 30, 34,54]。然而，由于CNN的固有属性，即局部归纳偏差和空间不变核，这些方法在理解全局结构和修复大面积掩蔽/缺失区域方面仍然表现不佳。最近，Transformer在各种视觉任务中展示了其强大的能力[4-8, 13, 16, 37,50]，得益于其建模长期关系的能力。一些最近的工作[49]也尝试将Transformer应用于多样化图像修复，并在提高多样性和大区域修复质量方面取得了显著成功。如图1的上排所示，它们遵循类似的设计：1）将输入图像下采样到较低分辨率并量化像素；2）使用Transformer进行修复× 𝑛′LinearProbability: ෝ𝐩TransformerBlock487406123367445163504501 323 334132 433Tokens: Ƹ𝐭𝐼208 410199 121Vector RetrievalGibbs SamplingUn-Quantized Transformer EncoderDecoderSoftmaxLinearPosition EncodingVector TokenizationFeature Vectors: መ𝐟Quantized Vectors: ො𝐞Output: ො𝐱𝐼Input: ො𝐱𝐦5447461337451351 23 3412 4328 4019 11ො𝐞𝐼Ƹ113480 � ′0线性层0Transformer0块0UQ-Transformer0编码0解码器Softmax0线性层0��0输出: �� 输入: �00 1 K-1 码书 � …0吉布斯0采样0��0概率0P-VQVAE0层归一化 MSA0层归一化0MLP0线性层线性层0?0如果需要，进行降采样0位置编码向量量化分区掩蔽 �0特征向量0量化0图2.PUT用于多样化图像修复的流程。注意，图中没有显示多样化的修复结果。0通过将每个量化像素视为标记来覆盖掩蔽像素；3）通过将低分辨率结果与原始输入图像一起输入到额外的CNN网络中，上采样和细化低分辨率结果。本文认为，使用基于像素的标记使得现有的基于Transformer的解决方案在信息损失问题上遭受了两个方面的影响：1）“低分辨率”。为了避免Transformer的高计算复杂性，输入图像被降采样到更低的分辨率，以减少输入标记数量，这不仅会导致信息损失，还会在上采样回原始分辨率时引入掩蔽区域边界的不对齐。2）“量化”。为了将预测限制在一个小空间内，大量（详细为256^3）的RGB像素通过聚类被量化为更少（如512）个量化像素。量化像素的索引被用作Transformer的输入和预测目标的离散标记。这样的做法会进一步导致信息损失。0为了减轻这些问题，我们提出了一种新的基于Transformer的PUT框架，可以尽量减少信息损失。如图1底部所示，原始的高分辨率输入图像直接输入到基于补丁的编码器中，没有任何降采样，Transformer直接从编码器中获取特征作为输入，没有任何量化。具体而言，PUT包含两个关键设计：基于补丁的向量量化变分自编码器（“P-VQVAE”，第3.1节）和未量化的Transformer（“UQ-Transformer”，第3.2节）。P-VQVAE是一个特殊设计的补丁自编码器：1）它的编码器以非重叠的方式将每个图像补丁转换为潜在特征，非重叠的设计是为了避免掩蔽区域和未掩蔽区域之间的干扰；2）作为UQ-Transformer的预测空间，为补丁特征标记化建立了一个双重码书，其中掩蔽补丁和未掩蔽补丁分别由不同的码书表示；3）P-VQVAE中的解码器不仅从修复的标记中恢复掩蔽的图像区域，还保持未掩蔽的区域不变。对于UQ-Transformer，它利用未掩蔽的量化标记。0将未量化的特征向量作为输入，而不是采用量化的标记作为输入，这种设计可以避免信息损失，并帮助UQ-Transformer进行更准确的预测。为了证明其优越性，我们在FFHQ[25]、Places2 [61]和ImageNet[11]上进行了大量实验。结果表明，我们的方法在不同的评估指标上比基于CNN的多样化修复方法有很大的优势。由于信息损失较少，我们的方法在大区域修复和复杂大规模数据集上也实现了更高的保真度，超过了现有的基于Transformer的解决方案。02. 相关工作0自动编码器。自动编码器[21]是一种半监督和无监督学习中的人工神经网络。在其子类中，变分自动编码器（VAE）[12, 27]被广泛用于图像合成任务[41,43]作为生成模型。它可以通过具有潜在空间采样或自回归模型的解码器进行自监督策略训练并生成多样的图像[33,45]。随后，提出了向量量化变分自动编码器（VQ-VAE）[44]用于离散表示学习以避免“后验坍缩”问题，并通过VQ-VAE-2[38]进一步发展。最近，基于与VQ-VAE类似的量化机制，提出了VAGAN[16]和dVAE[37]用于通过Transformer进行条件图像生成[46]，而PeCo[14]训练了一个感知视觉分词器用于视觉TransformerBERT预训练[51]。与以往的方法不同，提出的“P-VQVAE”包含一个非重叠的补丁编码器，一个双码本和一个多尺度引导解码器，专门用于图像修复。0视觉Transformer。由于其具有长距离关系建模的能力，Transformer已广泛应用于不同的视觉任务，如目标检测[4,6]，图像合成[5, 16, 37]，目标跟踪[7,50]和图像修复[49]。具体而言，自回归推理机制在图像合成相关任务中自然适用，可以带来多样的结果，同时保证合成图像的质量[5, 16, 37,49]。在本文中，我们充分利用Transformer的优势，并提出用连续特征向量替换离散令牌以避免信息丢失。0图像修复。根据修复图像的多样性，图像修复任务有两种不同类型的定义：确定性图像修复和多样性图像修复。大多数传统方法，无论是基于扩散的方法[2,15]还是基于路径的方法[1, 10,19]，都只能为每个输入生成单个结果，并且在遇到大面积缺失时可能失败。MGA× 𝑛LinearPatch-based Encoder (P-Enc) Dual-Codebook (D-Codes)መ𝐟0,0መ𝐟0,3መ𝐟1,0መ𝐟1,3መ𝐟2,0መ𝐟2,1መ𝐟2,2መ𝐟2,3መ𝐟3,0መ𝐟3,1መ𝐟3,2መ𝐟3,3Feature Vectors: መ𝐟መ𝐟0,1መ𝐟0,2መ𝐟1,1መ𝐟1,2× 𝑛MGA𝐞406 𝐞132𝐞501 𝐞323𝐞123𝐞367𝐞487𝐞163𝐞334 𝐞445𝐞433 𝐞504Quantized Vectors: ො𝐞𝐞241′𝐞256′𝐞456′𝐞231′Unmasked:𝐞 Masked:𝐞’1…0𝐾…01𝐾′VectorTokenization𝐦⨂𝐦′Deconv× log2 𝑟Output: ො𝐱𝑅Multi-Scale Guided Decoder (MSG-Dec)487406123 256 456 367241 231445163504501 323 334132 433Vector QuantizationLinearResBlockLinearInput: ො𝐱Tokens: Ƹ𝐭ConvResBlockVectorRetrievalConvConv……Deconv× log2 𝑟Convො𝐱⨂𝐦′Mask Guided addition (MGA)Elementwise AdditionElementwise MultiplicationPartitionFlattenDownsample if Needed𝐦⨂𝐦′𝟏 − 𝐦⨂𝐦′𝐦′𝐦ConvConvMGA× 𝑛LinearPatch-based Encoder (P-Enc) Dual-Codebook (D-Codes)መ𝐟0,0መ𝐟0,3መ𝐟1,0መ𝐟1,3መ𝐟2,0መ𝐟2,1መ𝐟2,2መ𝐟2,3መ𝐟3,0መ𝐟3,1መ𝐟3,2መ𝐟3,3መ𝐟0,1መ𝐟0,2መ𝐟1,1መ𝐟1,2× 𝑛MGA𝐞46 𝐞12𝐞51 𝐞23𝐞13𝐞37𝐞47𝐞13𝐞34 𝐞45𝐞43 𝐞54𝐞21′𝐞26′𝐞46′𝐞29′Unmasked:𝐞 Masked:𝐞’1…0𝐾-1…01𝐾′-1VectorTokenization𝐦⨂𝐦′Deconv× log2 𝑟Output: ො𝐱𝑅Multi-Scale Guided Decoder (MSG-Dec)474613 26 46 3721 2945135451 23 3412 43LinearResBlockLinearƸConvResBlockVectorRetrievalConv……DeconvConv𝐦⨂𝐦′𝟏 − 𝐦⨂𝐦′MGAመ𝐟0,0መ𝐟0,3መ𝐟1,0መ𝐟1,3መ𝐟2,0መ𝐟2,1መ𝐟2,2መ𝐟2,3መ𝐟3,0መ𝐟3,1መ𝐟3,2መ𝐟3,3መ𝐟0,1መ𝐟0,2መ𝐟1,1መ𝐟1,2𝐞46 𝐞12𝐞51 𝐞23𝐞13𝐞37𝐞47𝐞13𝐞34 𝐞45𝐞43 𝐞54𝐞21′𝐞26′𝐞46′𝐞29′1…0…01474613 26 46 3721 2945135451 23 3412 43Ƹ……spatial size of patches and is set to 8 by default. For a patch,we call it a masked patch if it contains any missing pixels,otherwise unmasked patch. Each patch is flattened and thenmapped into a feature vector. Formally, all feature vectorsDual-Codebook for Vector Quantization.Following theworks in [16, 38, 44], the feature vectors from encoder arequantized into discrete tokens with the latent vectors inthe learnable codebook.By contrast, we design a dual-codebook (denote as D-Codes) for vector quantization,which is more suitable for image inpainting. In D-Codes,the latent vectors are divided into two parts, denoted ase ∈ RK×C and e′ ∈ RK′×C, which are responsible forfeature vectors that mapped from unmasked and masked(1)113490特征向量：� 量化向量：0向量量化0输入：��0卷积0× log 2 �0卷积0��′0卷积0掩膜引导加法（MGA）元素逐元素加法0分区展平“如果需要则下采样”0�′：用于训练�0�：用于训练�’0元素逐元素乘法0MGA0× �0线性0基于补丁的编码器（P-Enc）0双码本（D-Codes）0特征向量：� �0× �0MGA0量化向量：��0未屏蔽：� 屏蔽：�’0� -10�′ -10向量0标记化0��′0反卷积0× log 2 � 输出：��0多尺度引导解码器（MSG-Dec）0向量量化0线性0残差块0线性0输入：��0令牌：� �0卷积0残差块0向量0检索0卷积0卷积0反卷积0× log 2 �0卷积0��′0卷积0卷积0MGA0元素逐元素加法分区0展平0“Downsample”（如有需要）逐元素乘法0�：用于训练 � 的 MGA（Mask Guided Addition）0图3. P-VQVAE的训练过程。P-VQVAE的详细架构可在补充材料中找到。0后来，一些基于CNN的方法[23, 28, 30, 32, 34,54]被提出来确保修复图像的语义内容的一致性，但仍然忽略了结果的多样性。为了为每个掩蔽图像生成多个不同的结果，最近出现了一些基于CNN的[58,60]和基于变换器的[49]方法。其中，基于变换器的方法[49]在质量和多样性方面都表现出优势。然而，它们的不合理设计，如输入图像的下采样和变换器输入的量化，导致了严重的信息丢失问题。因此，我们提出了一种新的PUT框架，通过最大化输入信息来实现更好的合成结果。03. 方法0所提出的方法主要由基于块的向量量化变分自编码器（P-VQVAE）和未量化变换器（UQ-Transformer）组成。我们方法的概述如图2所示。设 x ∈ R H × W × 3为一幅图像， m ∈ { 0 , 1 } H × W × 1为掩蔽区域的标记，表示某个区域是否需要修复（值为0）或不需要修复（值为1）。其中，H和W为空间分辨率。掩蔽图像 ˆx = x � m 是包含缺失像素的掩蔽图像，其中 �表示逐元素乘法。首先，将掩蔽图像 ˆx输入到P-VQVAE的编码器中，以获取基于块的特征向量。然后，UQ-Transformer以特征向量作为输入，并预测掩蔽区域的潜在向量在码书中的标记（即索引）。最后，检索到的潜在向量被用作块的量化向量，并输入到P-VQVAE的解码器中重构修复后的图像。03.1. P-VQVAE0为了避免输入下采样导致的信息丢失，同时保持变换器的计算效率，我们利用自编码器的优点，用编码器的特征替换下采样的像素。与下采样的像素相比，编码器的特征可以具有相同的低分辨率以提高效率，同时保持0包含更多用于重构的信息。考虑到图像修复的任务，我们特别设计了P-VQVAE，它包含基于块的编码器、双码书和多尺度引导解码器。0基于块的编码器。传统的基于CNN的编码器通过滑动窗口方式使用多个卷积核处理输入图像，但这种方式对于图像修复来说是不合适的，因为它们会在掩蔽和未掩蔽区域之间引入干扰。因此，P-VQVAE的编码器（记为P-Enc）被设计为以非重叠块的方式通过多个线性层处理输入图像。具体而言，首先将掩蔽图像 ˆx 分割成 H0r × C ，其中C（默认为256）是特征向量的维度，E（∙）是编码器函数。0r × 1为指示器掩蔽，指示一个块是掩蔽（值为0）还是未掩蔽（值为1）的块。特征向量 ˆ f i,j 的量化如下：0当 m ↓ i,j = 1 时，k = argmin l ∥ ˆ f i,j � e l ∥ 2，否则，k ′ = argmin l ∥ ˆ f i,j � e ′ l ∥ 2 ，e ′ k ′wheredenotes the operation of elementwise subtraction.HWHWIn existing transformers for image inpainting [49] andsynthesis [16,37], the quantized discrete tokens are used asboth the inputs and prediction targets. Given such discretetokens, transformers suffer from the severe information lossissue, which is harmful to their prediction. In contrast, totake full advantage of feature vectors ˆf from the encoder ofP-VQVAE, our UQ-Transformer directly takes them as theinputs and predicts the discrete tokens for masked patches.Specifically, ˆf is firstly mapped by a linear layer andthen added with extra learnable position embeddings forthe encoding of spatial information. Finally, following [36],the feature vectors are flattened along spatial dimension toget the final input for the subsequent several transformerblocks. The output of the last transformer block is furtherprojected to the distribution over K latent vectors in code-book e with a linear layer and a softmax function. We for-113500r 为 ˆ f 的量化向量和标记，其中I（∙，∙，∙，∙）表示获取其第一个参数的标记的函数，可以通过获取 ˆe中所有量化向量的索引来简单实现。双码书帮助P-Enc学习更具区分性的特征向量，用于掩蔽和未掩蔽的块，因为它们经过量化并用不同的码书表示，进一步使变换器对掩蔽和未掩蔽的块产生更合理的预测结果。0多尺度引导解码器。对于图像修复任务，一个不争的事实是未遮挡区域应保持不变。为此，我们设计了一个多尺度引导解码器（MSG-Dec），通过参考输入的遮挡图像ˆx构建修复图像ˆxI。令ˆtI为transformer生成的修复标记（参考图2和第3.3节），ˆeI为基于ˆtI从码本中检索到的量化向量。构建过程如下所示：0ˆxI = D(ˆeI, m, ˆx), (2)0其中D(∙, ∙,∙)是解码器函数。解码器由两个分支组成：主分支从量化向量ˆeI开始，使用多个反卷积层生成修复图像；参考分支提取多尺度特征图（具有空间大小H的特征）。0从遮挡图像ˆx中提取具有不同尺度的特征（尺度为2l，0 ≤ l≤log2r）。通过遮罩引导相加（MGA）模块将来自参考分支的特征与主分支相同尺度的特征融合，如下所示：0ˆeI,l−1 = Deconv((1 − m↓,l) � ˆeI,l + m↓,l � ˆfR,l), (3)0其中ˆeI,l和ˆfR,l是具有空间大小H的特征。0其中2l ×0其中m↓,l是从m得到的指示器掩码，对应空间大小。0P-VQVAE的训练。为了避免解码器仅从参考图像中学习重构输入图像ˆx，我们通过另一个掩码m′随机擦除ˆx中的一些像素来获得参考图像（见图3）。令ˆxR = D(ˆe, m � m′, ˆx �m′)为重构图像。在我们的设计中，参考图像中的未遮挡像素将用于恢复ˆxR中对应的像素，而码本中的潜在向量e′和e将分别用于恢复被m遮挡的ˆxR中的像素和剩余像素。P-VQVAE的训练损失为：0Lvae = Lrec(ˆx, ˆxR) + ∥sg[ˆf] � ˆe∥22 + β∥sg[ˆe] �ˆf∥22, (4)0其中sg[∙]表示阻止梯度流入其参数的停梯度操作。β是平衡的权重，设置为0.25。Lrec(∙,∙)是用于衡量输入图像和重构图像之间差异的函数，包括两个图像中像素值的L1损失、两个图像的梯度、通过鉴别器网络获得的对抗损失[18]，以及两个图像之间的感知损失[24]和风格损失[17]。根据[38,44]，式（4）中的第二项被指数移动平均（EMA）替代，以优化D-Codes中的向量。有关P-VQVAE的训练的更多细节，请参阅补充材料。03.2. UQ-Transformer0r × K，其中T(∙)表示UQ-Transformer函数。0UQ-Transformer的训练。给定一个遮挡图像ˆx，可以通过预训练的P-VQVAE和UQ-Transformer获得其对应的修复标记在K个潜在向量上的分布ˆp = T(E(ˆx))。x的真实标记为t =I(E(x), e, e',O(m↓))(参考第3.1节)，其中O(∙)将给定参数中的所有值设为1。通过固定P-VQVAE，使用交叉熵损失训练UQ-Transformer：0Ltrans = −1 � i,j 1 − m↓i,j0i,j (1 − m↓i,j)logˆpi,j, ti,j. (5)0为了使训练阶段与推理阶段一致，在遮挡区域只能获得量化向量的情况下，我们在将特征向量E(ˆx)输入UQ-Transformer之前，以0.3的概率将其随机量化为码本中的潜在向量。03.3.图像修复的采样策略0为了产生多样化的结果，迭代地对掩膜补丁（m ↓ i,j =0）的标记进行采样KPSNRSSIMMAEFID123.4358051217220550.82103969484441670.0412130616605281832.0080647929156041023.4768246237166880.82461857983288730.0391799248754978226.7897093897145174023.232564363490040.81693904885913630.0403786785900592828.4440143960422355023.2635484453291850.81761434757373650.04013391956686973627.6476777012783266023.175993603346540.81492566065998980.0406394153833389328.0839909076396457023.1345507956564550.81371718587565590.0407905131578445427.796152720255698023.100974844580130.81283474361902210.0406810231506824528.036136323945479023.134034386444030.81257448826897760.0409933254122734129.16221077972272710023.070484613348930.81087022963125480.0412256456911563928.099677714018811.808752.4551.84253.826253.6953.856254.340123456020406080113510PUT（我们的）1 ICT 4 PUT（我们们的）4 PUT（我们的）3 PUT（我们的）60ICT 1 ICT 2 PIC 1 PIC 20ICT 30EC DFv2 ICT 1 PIC 2 PIC 1 MED ICT 2 输入0EC DFv2 MED 输入0ICT 4 ICT 30I0FFHQPlaces2ImageNet0PUT（我们的）20PUT（我们的）1 PUT（我们的）5 PUT（我们的）4 PUT（我们的）3 PUT（我们的）6 PUT（我们的）20PUT（我们的）1 PUT（我们的）20图4.不同方法产生的修复T，我们设置K=50。更多定性比较请参见补充材料。0ImageNet0FFHQ Places2 ImageNet0PIC ICT PUQ0FFHQ ImageN0Places2 PIC ICT PUT0图5.人类评估的排名1图像中每种方法的比例。统计数据来自23位参与者。0吉布斯采样。具体而言，在每次迭代中，我们首先从剩余的掩膜补丁中选择具有最大预测概率的补丁。然后，从前K个预测元素中对所选补丁的标记进行采样。最后，在下一次迭代中，使用采样的标记对所选补丁的相应潜在向量进行检索，以替换UQ-Transformer的特征向量。在对所有掩膜补丁进行标记采样后，我们可以使用公式（2）构建所有具有修复标记的量化向量ˆeI，并且可以使用公式（2）构建修复图像。为了产生确定性结果，一次性使用具有最大概率的标记对掩膜补丁进行采样。04.实验0评估在256×256（即H=256和W=256）分辨率下在三个不同的数据集上进行，包括FFHQ [25]，Places2[61]和ImageNet[11]。我们使用原始的训练和测试划分来进行Places2和ImageNet的评估。对于FFHQ，我们保留最后的1K张图像进行评估，其他图像用于训练。按照ICT[49]的做法，从ImageNet的测试划分中随机选择1K张图像进行评估，并且使用PConv[28]提供的不规则掩膜进行训练和测试。04.1.实现细节0我们使用相同模型大小的P-VQVAE和不同模型大小的UQ-Transformer用于不同的数据集。双码本中的潜在向量数量（即K和K'）均设置为512。有关P-VQVAE和UQ-Transformer的详细架构，请参阅补充材料。我们使用批量大小为128来训练P-VQVAE，并使用批量大小为48（FFHQ）和96（Places2和ImageNet）来训练UQ-Transformer。学习率在前5000次迭代中从0逐渐增加到2e-4和3e-4，然后进行下降。113520数据集FFHQ [25] Places2 [61] ImageNet [11]0掩膜比例（%）20-40 40-60 10-60 20-40 40-60 10-60 20-40 40-60 10-600FID ↓0DFv2（ICCV，2019）[55] 27.344 47.894 30.509 53.107 83.979 59.280 49.900 102.111 64.0560EC（ICCVW，2019）[32] 12.949 26.217 16.961 20.180 34.965 23.206 27.821 63.768 39.1990MED（ECCV，2020）[29] 13.999 26.252 17.061 28.671 46.815 32.494 40.643 93.983 54.8540ICT all（ICCV，2021）[49] 10.442 23.946 15.363 19.309 33.510 23.331 23.889 54.327 32.6240将所有（我们的）11.221 19.934 13.248 19.776 38.206 24.605 19.411 43.239 26.223放入0PIC（CVPR，2019）[60] 22.847 37.762 25.902 31.361 44.289 34.520 49.215 102.561 63.9550ICT 50（ICCV，2021）[49] 13.536 23.756 16.202 20.900 33.696 24.138 25.235 55.598 34.2470PUT 50（我们的方法）12.784 21.382 14.554 19.617 31.485 22.121 21.272 45.153 27.6480PSNR ↑0DFv2（ICCV，2019）[55] 27.937 22.984 26.783 26.292 22.412 25.391 24.464 20.157 23.3870EC（ICCVW，2019）[32] 27.484 22.574 26.181 26.536 22.755 25.975 24.703 20.459 23.5960MED（ECCV，2020）[29] 27.117 22.499 26.111 25.401 21.543 24.510 23.730 19.560 22.7520ICT all（ICCV，2021）[49] 29.847 23.041 26.736 25.836 22.120 24.986 24.249 20.045 23.3170PUT all（我们的方法）28.356 24.125 27.473 26.580 22.945 25.749 25.721 21.551 24.7260PIC（CVPR，2019）[60] 25.157 20.424 24.093 24.073 20.656 23.469 22.921 18.368 21.6230ICT 50（ICCV，2021）[49] 26.462 21.816 25.515 24.947 21.126 24.373 23.252 19.025 22.1230PUT 50（我们的方法）26.877 22.375 25.943 25.452 21.528 24.492 24.238 19.742 23.2640SSIM ↑0DFv2（ICCV，2019）[55] 0.945 0.850 0.912 0.878 0.741 0.831 0.876 0.719 0.8190EC（ICCVW，2019）[32] 0.941 0.826 0.899 0.881 0.734 0.840 0.882 0.714 0.8240MED（ECCV，2020）[29] 0.936 0.840 0.903 0.854 0.685 0.796 0.861 0.675 0.7950ICT all（ICCV，2021）[49] 0.964 0.863 0.917 0.870 0.723 0.819 0.876 0.711 0.8180PUT all（我们的方法）0.953 0.888 0.908 0.885 0.756 0.840 0.904 0.772 0.8380PIC（CVPR，2019）[60] 0.910 0.769 0.865 0.824 0.648 0.775 0.842 0.623 0.7660ICT 50（ICCV，2021）[49] 0.931 0.822 0.896 0.850 0.682 0.803 0.852 0.666 0.7860PUT 50（我们的方法）0.936 0.845 0.906 0.861 0.703 0.806 0.875 0.704 0.8180MAE ↓0DFv2（ICCV，2019）[55] 0.0187 0.0429 0.0270 0.0230 0.0461 0.0304 0.0303 0.0638 0.04150EC（ICCVW，2019）[32] 0.0177 0.0430 0.0263 0.0207 0.0419 0.0261 0.0271 0.0582 0.03750MED（ECCV，2020）[29] 0.0200 0.0430 0.0277 0.0255 0.0505 0.0336 0.0320 0.0676 0.04340ICT all（ICCV，2021）[49] 0.0129 0.0368 0.0232 0.0221 0.0433 0.0289 0.0362 0.0578 0.03780PUT all（我们的方法）0.0159 0.0328 0.0213 0.0205 0.0398 0.0269 0.0233 0.0487 0.03210PIC（CVPR，2019）[60] 0.0251 0.0571 0.0350 0.0284 0.0544 0.0353 0.0361 0.0785 0.05090ICT 50（ICCV，2021）[49] 0.0196 0.0445 0.0270 0.0245 0.0487 0.0312 0.0312 0.0677 0.04400PUT 50（我们的方法）0.0191 0.0417 0.0263 0.0235 0.0479 0.0317 0.0281 0.0641 0.04010表1.不同方法的定量结果。方法分为确定性和多样性两组。ICT和PUT的下标“50”是K的值，而ICT和PUT的下标“all”表示在一次迭代中对所有标记进行采样。0使用余弦调度器进行衰减。P-VQVAE使用Adam [26]（β1= 0，β2 = 0.9）进行优化，UQ-Transformer使用AdamW[31]（β1 = 0.9，β2 =0.95）进行优化。所有模型都训练到收敛。04.2. 主要结果0我们将提出的PUT与以下最先进的修复方法进行比较：DeepFillv2（DFv2）[55]，Edge-Connect（EC）[32]，MED[29]，PI

下载后可阅读完整内容，剩余1页未读，立即下载