基于查询的图像外绘与混合视觉变换的编码器-解码器框架

163 浏览量更新于2023-11-30 收藏 2.55MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2255获取更多论文外绘由姚凯1、2，高鹏磊1、2，杨Xi2，黄凯珠3，孙杰2，张瑞21University of Liverpool，Liverpool L69 7ZX，英国{Kai. Yao，P.Gao6} @ liverpool.ac.ukXi3昆山杜克大学，昆山215316抽象的。基于卷积神经网络（CNN）的图像外绘技术是近年来计算机视觉领域研究的热点。然而，CNN依赖于固有的归纳偏差来实现有效的样本学习，这可能会降低性能上限。在本文中，受Transformer架构中具有最小归纳偏差的灵活自注意机制的激励，我们将广义图像外绘问题重新构建为逐块序列到序列自回归问题，从而实现基于查询的图像外绘。具体来说，我们提出了一种新的混合视觉变换为基础的编码器-解码器框架，命名为查询Outpainting TR ansformer（QueryOTR），外推视觉上下文周围的一个给定的图像。Patch-wise模式一个新的查询扩展模块（QEM）被设计成根据编码器为了进一步增强每个补丁之间的连接，建议补丁平滑模块（PSM）重新分配和平均的重叠区域，从而提供无缝的预测图像。实验结果表明，QueryOTR可以产生视觉上的appealing结果顺利和现实的国家的最先进的图像 outpainting 方法。代码可在https://github.com/Kaiseem/QueryOTR上获得。关键词：图像外绘，Transformer，查询扩展1介绍图像外绘，通常称为图像外推，是一项具有挑战性的任务，需要通过从受限的输入图像生成具有语义有意义的结构的新的视觉和谐内容来扩展图像边界它可以广泛应用于现实世界，以丰富人类的社会生活，基于有限的不同于图像修复[3，2，35，45]，它可以K. Yao和P.高-同等贡献。arXiv：2207.05312v1 [cs.CV] 2022年72+v：mala2255获取更多论文2K. Yao等人利用修补区域周围的视觉环境，广义图像外绘应该在子图像周围的所有方向上外推未知区域由于距离图像边界较远的未知像素受约束较少，因此它们比靠近边界的未知像素更有可能积累扩展误差或因此，这项任务的挑战包括：（a）确定丢失的特征相对于附近和远处特征的输出空间位置的位置;（b）保证外推图像具有合理内容的真实外观和与条件子图像一致的结构布局;以及（c）外推区域和原始子图像之间的边界应该是平滑和无缝的卷积架构已被证明是成功的计算机视觉任务。现有的图像外画方法利用各种变量基于CNN的方法来进行图像外推。CNN依赖于inher-输入归纳偏差以实现有效的样本学习，这可能会降低性能上限。虽然现有的基于CNN的外绘方法实现了可靠的性能[40，44，43，22，31]，但当外推图像的未知区域时，它们仍然遭受钝结构和突变颜色。潜在的原因可能是，这种基于CNN的架构中卷积的归纳偏差以权重的两个强约束的形式硬编码：局部性和权重共享[6]。这些约束可能会降低模型Transformer 架构在图像和视频识别等领域具有竞争力的性能Transformer通过在像素块的嵌入上执行自注意来消除卷积感应偏置，这突破了捕获长程依赖性的限制然而，在纯Transformer中，模型在相对较小的数据集上收敛得非常慢 [6] 。在 ImageNet 基准测试中，Dosovitskiy et al.[9]开发了Vision Transformer（ViT），将图片解释为一系列标记，可以实现相当的图像分类精度，同时需要更少的计算预算。ViT依赖于全局上下文表示，其中每个补丁都涉及同一图像的所有补丁，而不是CNN中的ViT及其变体在建模非本地上下文关系方面表现出了很好的优越性，以及良好的效率和可扩展性，尽管它们仍处于起步阶段。鉴于全局相互作用和具有条件子图像的远距离特征的生成，这些益处可以以有益的方式增强图像外推。为了更好地处理预测区域和条件子图像之间的图像长距离依赖性和空间关系，我们重新考虑将外绘问题作为由自然语言处理中的原始Transformer [41]启发的逐块序列到序列自回归问题。我们开发了一种新的基于查询的混合编码器 - 解码器 Transformer 框架，称为 Queryoutpainting TR transformer（QueryOTR），以在图像outpainting任务中利用ViT [ 9 ]和纯Transformer [ 41 ]来外推给定图像周围的视觉上下文，如图所示。 S1. 具体地说，+v：mala2255获取更多论文？？？？？？？什么？？？？？输入外涂外涂外涂外涂外绘由dm3图S1：通过我们的QueryOTR演示递归外画我们的方法通过查询输入图像补丁的序列来生成外推图像补丁的序列，从而实现显著的感知一致性。我们设计了两个特殊的模块，查询扩展模块（QEM）和补丁平滑模块（PSM），从透视图的角度进行特征预测注意力机制中的查询。与中的查询学习相比，纯粹的Transformer，我们在QEM中设计的查询是根据Transformer编码器的输出通过堆叠的基于CNN的块来预测的。预测查询简单易学，借鉴了上述优点，具有更好的灵活性在纯变换器中，CNN所开发的PSM重新分配的预测补丁周围的条件子图像和平均重叠的部分，使生成的图像平滑和无缝。此外，PSM有助于减轻棋盘状伪影的问题所造成的独立处理之间的输出图像补丁。这样，模型可以更加专注于在每个补丁之间的连接，并增强表示能力，如图S2（b）和（c）所示。我们的QueryOTR是第一个混合Transformer作为序列到序列建模，它能够无缝扩展图像边界，并平滑逼真地生成不可见的图像。这项工作的主要贡献有三方面：-+v：mala2255获取更多论文纯Transformer w QEM纯Transformer w/o QEM4公里。Yao等人10010−10 200 400 600 800 1000时代(a) 自回归w/ and w/o QEM（b）w/o PSM（c）w/PSM图S2：（a）训练具有和不具有QEM的纯Transformer编码器-解码器QEM显著地加快了收敛速度（比没有QEM的收敛速度快约3.3倍：在300个历元时w/ QEM与在300个历元时w/QEM相比）。w/o QEM在1，000 epoch）。(b)不带PSM的QueryOTR。(c)带PSM的QueryOTR。的外推图像，并从CNN结构中的电感偏置– 我们提出了查询扩展模块和补丁平滑模块，以解决纯变压器的收敛速度慢的问题，并产生逼真的外推图像平滑和无缝。– 实验结果表明，该方法实现了国家的最先进的一步和多步的outpainting性能相比，最近的图像outpainting方法。2相关工作2.1图像外绘生成对抗网络（GAN）[12]已广泛应用于许多研究领域，如图像超分辨率，图像合成和图像去噪[14，25，4，32，15]。已经在某些条件下努力用GAN生成图像图像外推旨在从视觉内容中生成周围区域，这可以被认为是图像条件生成任务[16]。Sabini和Rusak [36]通过受图像修复方法启发的深度神经网络框架，使图像外绘任务引起了公众的注意这项工作的重点是通过使用GAN和后处理方法来执行水平外绘，从而平滑地提高生成图像的质量。Van等人[40]设计了一个基于CNN的编码器到解码器框架，使用GAN进行图像outpainting。Wang等人[43]提出了一种语义再生网络，直接从条件子图像中学习语义特征。Han等人。[28]开发了一个带有边缘引导生成网络的3阶段深度学习模型，以从小图像输入中产生语义一致虽然这些方法避免了一般填充和上采样模式中的偏差，但它们仍然遭受生硬的结构和突然的颜色问题，这些问题往往忽略了空间和语义的一致性。为了解决这些问题，Yang等人[44]提出了一个经常性内容，MSE损失（log）+v：mala2255获取更多论文∈∈pP2ppppP2ppp外绘：105传输（RCT）块，用于以长短期记忆（LSTM）网络为瓶颈的时间内容预测。为了增加上下文信息，Lu et al. [30]和Kim et al. [22]通过将图像的外部区域切换到其内部区域来重新布置边界区域。这些最新模型基于卷积神经网络。由于全球信息没有很好地捕获，它们在明确建模长期依赖性方面都有局限性。2.2Transformer近年来，Transformer在计算机视觉领域引起了广泛的关注。trans-former首先被提出来通过取代传统的CNN和递归神经网络（RNN）结构来解决NLP任务[41]。自注意机制帮助模型从输入中学习全局表示，这可以提高基本视觉特征提取的性能[41]。Jacob等人[8]引入了一个非常深的网络，通过联合调节左和右上下文，从未标记的文本中预训练深度双向表示，所有层。它可以通过一个额外的输出层进行微调，以获得更好的性能。ViT [9]是一种无卷积的Transformer，可对图像块序列进行图像与基于CNN的方法相比，许多基于ViT的变体也证明了计算机视觉任务的成功[47，19，13]，例如对象检测[5]，视频识别[1]和图像合成[26]。此外，Liu等人。[29]提出了Swin Transformer来扩展对象检测和语义分割的视觉任务。Gao等人[11]设计了一个基于transformer的框架，用于使用编码器-解码器架构的图像outpainting。他们使用Swin Transformer，其中涉及转移窗口注意力以桥接前一层的窗口，这显著增强了建模能力并实现了更低的延迟。3方法3.1问题陈述给定一幅图像xRH×W×3，我们的目标是用额外的M-像素外推图像边界以外的内容。生成器将生成一个视觉上一致的图像xR（H+2M）×（W+2M）×3。与以前的工作几乎是基于卷积运算不同，我们将问题重新表述为分片序列到序列自回归问题。特别地，我们将图像x划分为规则的不重叠的块，大小为P×P（P通常根据经验设置为16），导致一系列2补丁令牌{x1， x2，· · ·，xL}，其中xi∈R（P·3），序列长度为L= H×W。我们的目标是预测额外序列{XL+1，XL+2，···，XL+R}表示外推区域，其中xi∈R（P2·3）和扩展的se-序列长度为R=（H+2M ）×（W+2M ）−H×W。额外的polated图像x可扫描+v：mala2255获取更多论文ppp6公里。Yao等人解码器输入图像编码器…添加规范添加规范FFN添加规范多头自我注意FFNV K Q添加规范多头自我注意QEM添加规范多头自我注意VKQ V K Q地面实况…补丁令牌位置编码…查询面片平滑模块（PSM）(a) 主要架构输入残余块~~~噪声图 S3 ：（ a ） QueryOTR 中混合 Transformer 生成器的主要架构由Transformer编解码器、QEM和PSM组成。(b)查询扩展模块的结构。通过将新的补丁令牌序列重新整形为图像补丁，然后围绕输入图像重新排列图像补丁，得到x{\displaystylex {\displaystyle x{L}+1 ，x {L}+2 ， ···，x{L}+R}}）。3.2混合式Transformer自动编码器所提出的 QueryOTR 生成器的架构如图 S3 所示，它是一个混合Transformer自编码器。整个体系结构由四个主要部分组成：提取块令牌的表示的Transformer编码器Transformer编码器我们的编码器是一个标准的ViT [9]。受ViT的启发，输入图像首先被转换为表示为补丁令牌序列X p的几个不重叠的补丁。编码器模块通过具有添加的位置嵌入Epos的线性投影E嵌入补丁标记。然后，编码器通过一系列Transformer块来处理补丁令牌集线性令牌…下降&重新排列…(b)查询扩展模块（QEM）………MLP贴片嵌入重新排列Norm LReLUConv变形转换Norm LReLU线性范数+v：mala2255获取更多论文h=10PpppPP外绘：107长度为N。基于变换器的编码器可以描述如下：h=[x 1E; x 2E;. ;x LE]+ E，E∈R（P2·3）×D，E∈RL×D（1）h ′n= MSA（LN（h n−1））+h n−1，n = 1，...，N（2）h n= FFN（LN（h ′n））+h ′n，n = 1，.，（3）henc = LN（hN），⑷其中D是Transformer块的隐藏维度，FFN是前馈网络，LN表示层归一化，hn是中间令牌给定对应于查询、键和值表示的可学习矩阵Wq、Wk、Wv，计算单个自注意头部（用h索引）：Δtettim_h（X，Y）=softmax（QK_T/Δtettim_h）V，（5）其中Q=XWq，K=YWk，V=YWv。多头自注意在H个自注意头的级联上使用线性投影操作来聚集信息：MSA（X）=concatH[注意h（X，X）]W+b，（6）其中W和b是聚合特征的可学习矩阵。查询扩展模块所提出的QEM旨在通过为Transformer解码器生成扩展查询来加速纯Transformer的收敛。我们根据编码器的特征预测解码器如图S3（b）所示，首先将输入令牌henc整形为大小为H×W×D的特征图。然后，重新整形的特征图是沿宽度和高度外推额外的M像素，其中填充到-kens由具有均匀输入噪声的多层感知（MLP）生成。之后，我们利用配备有可变形卷积层[48]的堆叠残差块[18]来处理查询，这通常用于捕获局部和长期依赖性。最后，扩展的查询被扩展并转换为序列，然后是一个规范化层和一个线性层。这个过程可以描述为：q expand= QEM（h enc，z），z <$N（0，1）.（七）Transformer解码器受原始Transformer [41]的启发，解码器配备了一个额外的子层，该子层执行类似于具有两个子层的编码器的多头交叉关注（MCA）。具体来说，在MCA中，查询来自先前的解码器层，而键和值来自编码器的输出这允许解码器中的每个位置都参与所有位置POSPOS+v：mala2255获取更多论文h=1××MprojS我我2×pppppprecRi=L+1pp2八千。Yao等人在输入序列中，导致产生性能的显着改善。该过程可描述如下：q0= qexpand+ E′pos，E′pos ∈ RR×D（8）q ′m = MSA（LN（q m−1））+q m−1，m = 1，.，男（9）q′m′ =MCA（LN（q ′m），h enc）+q ′m，m = 1，.，男（10）q m=FFN（LN（q′m′））+q ′m′，m=1，.，男（11）在Eq中的多头交叉注意力。 10聚合来自H交叉注意头部的信息，如下所示：MCA（X，Y）=concatH[注意h（X，Y）] W + b.（十二）面片平滑模块如果使用预定义的面片大小P P来预测输出面片，则线性模块易于生成伪影。原因是输出标记是独立处理的，没有显式约束。这些任意的网格划分可能会使图像内容在每个补丁的边界边缘上不连续。为了缓解这个问题，我们允许图像块之间有一些重叠。对于一个补丁的每个边界边缘，我们将其扩展O个像素，生成输出图像补丁大小为（P+2o）（P+2o）。该操作涉及解码器，其中相邻块的内容在Transformer架构中具有更好的局部感，从而使得输出序列能够具有与预定义网格相同的PSM可以描述为：x∈S（x，qW），W∈RD×（（P+2o）2·3），（13）其中是将外推的重叠块放置在输入图像周围并对重叠区域中的像素值进行平均的函数。3.3损失函数我们的损失函数由三部分组成：逐块重建损失、感知损失和对抗损失。重建损失负责捕获预测块的整体结构，而感知损失和对抗损失被耦合以保持良好的感知质量并促进更真实的预测。我们利用地面实况图像块序列{yL+1， yL+2，···，yL+R}和序列之间的L2距离预测的图像块{XL+1，XL+2，· · ·，XL+R}：L=1L+R埃什基 −x，（14）其中斑块大小为（P+2o）（P+2o）。我们进行了每个补丁的归一化，以增强补丁的对比度局部，其中图像补丁的平均值和标准差是预先计算的。+v：mala2255获取更多论文∼∼DDL=min−ED（x）。（17）P2Pg感知--5j=1GD外绘由1999年感知损失感知损失提供了对中间特征的监督，可以帮助保留更多的语义信息。根据之前的工作[10，21，24]，我们从在ImageNet [7]上预训练的VGG-19 [38]网络中提取特征，表示为φ。感知损失设计如下：L=15（wj×（φj（x）−φj（y），（15）其中下标j是从φ开始的特征图尺度的索引，并且随着尺度减小，wj被设置为1/32、1/16、1/8、1/4、1。对抗性损失我们使用与pix 2 pixHD [42]中相同的多尺度PatchGANWARD-D，除了我们用铰链损失项[ 27 ]替换最小二乘损失项[32]。由于PatchGAN训练器具有固定的补丁接收场，因此我们采用整个生成的图像而不是图像补丁来训练GAN。QueryOTR生成的外推图像给定额外的polated图像x由QueryOTR和真实图像生成的PgPy，对于美国队来说，Ladv=minExPg（min（1+D（x）+EyPy（min（1−D（y）。（16）此外，发电机的对抗性损失是GadvxG我们联合训练混合Transformer生成器和CNN鉴别器，并将最终目标优化为上述损失项的加权和min maxLadv+λrecLrec+λperceptualLperceptual，（18）其中λrec、λperceptual是控制损失项的重要性的权重。在我们的实验中，我们设置λrec= 5，λperceptual= 10。4实验4.1数据集、实施和培训详情我们使用三个数据集与场景[44]，建筑立面[11]和WikiArt [39]进行实验。有关这三个数据集的详细信息，请参阅补充材料。我们使用配备NVIDIA GeForce RTX 3090 GPU 1.9.0的PyTorch [34混合Transformer生成器包含12个堆叠的Transformer编码器层和4个堆叠的Transformer解码器层。我们通过利用预训练的ViT [17]初始化发生器编码器的权重。Adam [23]被用作优化器，以最小化目标函数，最小批量为64，β1= 0。0，β2= 0。99，重量衰减为0.0001。o是+v：mala2255获取更多论文××× × ×××××10K. Yao等人方法风景建筑立面WikiArtFID↓IS↑PSNR↑FID↓IS↑PSNR↑ FID↓IS↑PSNR↑SRN47.781 2.981 22.440 38.644 3.862 18.588 76.749 3.629 20.072NSIPO25.977 3.059 21.089 30.465 4.153 18.314 22.242 5.600 18.5921× IOHUformer32.10720.5752.8863.24922.28623.00749.48130.5423.9244.18918.43118.82840.18415.9044.8356.56719.40319.610查询OTR 20.366 3.955 23.604 22.378 4.978 19.680 14.955 7.896 20.388SRN83.772 2.349 18.403 74.304 3.651 15.355 137.997 3.039 16.646NSIPO45.989 2.606 17.733 58.341 3.669 15.262 51.668 4.591 15.6792× IOHUformer44.74239.8012.6552.92018.73918.92076.47663.9153.4563.79815.44315.61275.07041.1074.2895.90016.05615.947查询OTR 39.237 3.431 19.358 41.273 4.547 16.213 43.757 6.341 17.074SRN115.193 2.087 16.123 110.036 2.938 13.693 181.533 2.504 14.609NSIPO64.457 2.405 15.606 81.301 3.431 13.791 75.785 4.225 14.2573× IOHUformer58.62960.4972.4322.63816.30716.37995.06893.8882.7903.38813.89414.051108.32872.9233.7285.90413.91913.464查询OTR60.977 3.114 16.864 64.926 4.612 14.316 69.951 5.683 15.294表S1：一步和多步外涂的定量结果。最佳和次佳结果用黑体加下划线表示。1×表示一步外绘，而2×和3×分别表示两步和三步外绘考虑到复杂度和精度，设置为8。我们的QueryOTR分别在风景，建筑立面和WikiArt数据集上训练了300，200和120个epoch，学习率为0.0001。在前10个历元中使用预热技巧[18]对于正则化，DiffAug [46]和谱归一化[33]用于稳定训练动态。我们进行了广义的图像outpainting实验比较以下以前的工作。在训练阶段，原始图像被调整大小为192 192作为地面实况图像。然后，通过中心裁剪操作获得具有尺寸128、128的输入图像。在测试阶段，将所有图像的大小调整为192 192作为地面实况，然后通过中心裁剪到大小128来获得输入图像128、86、86和56 56分别用于1、2和3次外涂。除了水平翻转和图像归一化，没有其他数据增强用于简化设置。在1×、2×和3× outpainting方面，总输出大小是输入的2.25、5和11.7倍，这表明将生成超过一半的像素。4.2实验结果我们与三种基于SOTA CNN的图像外绘方法NSIPO [44]，SRN [43]和IOH[40] 以及一种基于变换器的方法 Uformer [11] 进行了比较，以证明QueryOTR的有效性。对于所有实验，我们将输入和输出大小设置为128 ×128和192 × 192。+v：mala2255获取更多论文××外绘：11我们使用InceptionScore（IS）[37]，Fr'eChetInceptionDistance（FID）[20]和峰值信噪比（PSNR）来客观地衡量生成质量。利用测试集上的真实图像计算得到的风景、建筑立面和WikiArt的IS上界分别定量结果选项卡。S1显示定量结果。我们的QueryOTR在一步和多步绘画的几乎所有指标上都表现出色。特别是，QueryOTR在与基于CNN的方法兼容的所有条目中显示出明显的优越性，例如，SRN、NSIPO和IOH。这些结果表明，与CNN的归纳偏差相比，Transformer结构成功地捕获了图像外绘的全局依赖关系。同时，我们的QueryOTR优于非常有竞争力的基于Swin的Uformer，其使用图像到图像的翻译方法进行图像外推，主要是因为我们的基于查询的方法允许生成涉及所有视觉位置的图像块，从而产生更好的感知一致性。值得注意的是，我们的结果1 outpainting非常接近所有数据集的IS上限，表明逼真的图像生成和良好的感知一致性。用输入子图像替换中心区域的额外定性结果所有数据集上的视觉结果的一些例子如图所示。 S4. 我们的QueryOTR通过查询全局语义相似的图像补丁来有效地推断图像从1个外画结果来看，我们的QueryOTR可以生成更逼真的图像，具有生动的细节，并丰富了白框标记的生成区域的内容。此外，我们的方法可以削弱之间的边缘感生成的区域和输入子图像。与其他基线相比，我们的QueryOTR可以在图S4的第3行生成包含更逼真的波纹的水，在第5行生成完整的树木，这可以在白色虚线框中看到。在图S4的第7行中，通过QueryOTR生成的整个摩天大楼表明我们的基于查询的方法的成功在第9行，我们的方法可以捕获绿色背景的全局信息的角落标记在白色框。在补充材料中可以看到更多的视觉结果。4.3消融研究我们通过逐步调整每个因素来消除QueryOTR中的几个关键因素。可以看出，每个因素都有助于QueryOTR的最终成功。我们在Scenery数据集上进行了所有消融实验。Transformer编码器和解码器我们比较预训练的基于ViT的编码器和Transformer解码器层的数量M的影响。如Tab中所示。S2（a），利用预训练的ViT编码器有助于FID和IS的改进2。418和0。204、分别主要原因是小的数据集可能不足以训练模型以获得平均饱和度。预训练的ViT编码器能够捕获长期依赖性，这可能有利于补丁预测。此外，我们的QueryOTR在FID和IS中的性能最佳，+v：mala2255获取更多论文涂上油漆涂上油漆涂上油漆涂上油漆涂上油漆涂上油漆一万二。Yao等人涂上油漆涂上油漆涂上油漆涂上油漆输入图像SRNNSIPOIOHUformerQueryOTR（我们的）地面实况图S4：一步和多步外涂与最新方法的比较我们的QueryOTR实现了最佳的图像质量。+v：mala2255获取更多论文LLL(a)不含QEM（b）不含PSM（c）不含(d)W/O(e)查询OTR(f)地面实况外绘：13预先训练的Enc.MFID↓IS↑-422.784 3.751C220.731 3.931C420.366 3.955C820.373 3.852(a) 预训练的基于ViT的编码器的消融和变换器解码器层的数量M。FID↓IS↑不含QEM36.967 3.642QEM（无噪声）23.444 3.728QEM w/o DC [48]23.5303.775关于QEM22.7843.751(c) 建议的查询扩展模块（QEM）及其关键内部组件的影响。FID↓IS↑不带L接收L感知无L记录无L感知QueryOTR（基线）38.009 3.43331.282 3.74433.380 3.51020.366 3.955(b) Lrec和Lperceptual对整体性能的影响该模型是默认训练的，有三个损失。PSM每补丁标准FID↓IS↑--51.945 3.801-CCC-C31.073 3.75322.501 3.70720.366 3.955(d)建议的补丁平滑模块（PSM）和每补丁图像归一化的效果表S2：在Scenery数据集上确认的消融研究。图S5：消融研究的可视化解码器层被设置为4。进一步无限期地增加解码器的深度不会提高我们的QueryOTR的性能。损失项我们研究了Tab中逐块重建损失Lrec和感知损失感知的影响。S2（b）.我们首先只训练对抗性损失的模型，这相当于训练未配对的模型，导致FID为38。009和3。433.在对抗训练的基础上，使用rec或感知可以提高整体性能。图S5（c）和(d)显示了在没有训练的情况下，Lrec，并且在没有L感知的情况下不能生成细节。QEM我们消除QEM及其内部关键组件的影响。在实验中，我们没有使用预训练的编码器，以避免减少训练可学习查询的难度。由于训练纯Transformer可能需要更大的数据集和更长的时间，因此可学习查询很难收敛+v：mala2255获取更多论文×一万四千。Yao等人在Scenery数据集上，结果是高FID（见表1）。S2（c））和模糊图像块（参见图S5（a））。另一方面，建议的QEM gener- ates查询条件输入图像，显着提高FID的14.227。同时，生成带有噪声的查询稍微提高了补丁的多样性，并且可变形卷积使得查询生成的主动长距离建模成为可能。为了进一步研究QEM如何影响纯变压器的收敛速度如图S2（a）所示，在相对较小的数据集上，具有QEM的纯Transformer的收敛速度比不具有QEM的收敛速度快约3.3倍，表明QEM在加速模型收敛方面的优越性另一方面，没有QEM，损失下降缓慢，这可能是由于训练数据不足造成的。导致这一现象的原因是，如果将16 × 16像素的块作为一个词来处理，则纯Transformer将处理近40亿种可能性当处理小数据集时，数据量不足以回归外推的补丁，导致模型退化。PSM选项卡S2（d）展示了所提出的PSM和每补丁归一化的效果。虽然使用单个线性层可以生成生动的图像补丁，补丁之间的连接是不自然的，如图所示。 S5（b）。逐块归一化可以通过增强块的局部对比度来改善高频的重建，从而导致FID 20.872的改善同时，PSM显著地消除了由逐块预测引起的棋盘状伪影，并提高了提取图像的整体感知质量。PSM通过显式约束消除棋盘伪影，而感知损失从语义角度惩罚图像不连续性PSM似乎比感知损失更有效和直接如果两者都应用，则可以获得更好的性能。5结论在本文中，我们提出了一种新的混合基于查询的编码器-解码器Transformer框架，QueryOTR，外推视觉上下文周围的一个给定的图像。Transformer结构突破了图像长期依赖性和固有局部性的限制。特别设计的QEM模块有助于加速Transformer模型在小数据集上的收敛，PSM有助于真实平滑地生成无缝外推图像。在Scenery、Building和WikiArt数据集上的实验证明了该方法的优越性致谢。国家自然科学基金项目（编号：61876155）;江苏省科技计划项目（编号：BE 2020006 -4）;西安交通大学重点专项基金项目（编号：KSF-T-06、KSF-E-26、KSF-E-37）;西安交通大学科研发展基金项目（编号：RDF-19-01-21）。+v：mala2255获取更多论文外绘：15引用1. Arna b，A.，Dehghani，M.，他是伊戈尔德，G.，孙角，澳-地 Luc ic，M.， S chmid，C.：Vivit：一个视频视觉Transformer。在：IEEE/CVF计算机视觉国际会议论文集。pp. 68362. 巴恩斯角，Shechtman，E.，Finkelstein，A.，戈德曼，D.B.：Patchmatch：一种用于结构图像编辑的随机对应算法. ACM Transactions on Graphics28（3），24（2009）3. Bertalmio，M.，Sapiro，G.，Caselles，V. Ballester，C.：图像修复。第27届计算机图形学和交互技术年会的开幕式。pp.第4174. Brock，A.，Donahue，J.，Simonyan，K.：用于高保真自然图像合成的大规模gan训练。在：学习代表国际会议5. Carion，N.，Massa，F.，Synnaeve，G.，N.C.，Kirillov，A.，Zagoruyko，S.：使用变压器的端到端对象检测。在：欧洲计算机视觉会议。pp. 213-229.施普林格（2020）6. D’Ascoli, Touvron，H.，Leavitt，M. L.，Morcos，A.S.，Biroli，G.，萨贡湖：Con-vit：用软卷积电感偏置改进视觉变换器。上一篇：机器学习国际会议pp. 2286-2296. PMLR（2021）7. 邓，J.，Dong，W.，Socher河，Li，L.J.，Li，K.，李菲菲：Imagenet：一个大规模的分层图像数据库. 2009年IEEE计算机视觉与模式识别会议。pp.248-255. 05 The Lord（2009）8. Devlin，J.，Chang，M.W.，Lee，K.，Toutanova，K.：Bert：用于语言理解的深度双向转换器的预训练在：计算语言学协会北美分会年会：人类语言技术（2019）9. Dosovitskiy，A.，拜尔湖，Kolesnikov，A.，Weissenborn，D.，Zhai，X.，Unterthiner，T.，Dehghani，M.，Minderer，M.，Heigold，G.，Gelly，S.，Uszkoreit，J.，Houlsby，N.：一张图片相当于16x16个单词：用于大规模图像识别的变形金刚学习表征国际会议（2021）10. Dosovitskiy，A.，Brox，T.：基于深度网络生成具有感知相似性度量的图像。神经信息处理系统的进展29（2016）11. Gao，P.，杨，X.，张，R.黄，K.，Geng，Y.：用u型变换器实现广义图像外画。arXiv预印本arXiv：2201.11403（2022）12. 古德费洛岛， Pouget-Abadie ， J. ，米尔扎， M. ， Xu ， B. ， Warde-Farley，D.，Ozair，S.，Courville，A.，Bengio，Y.：生成对抗网。神经信息处理系统的进展27（2014）13. 当然， El-Nou by，A.， Touvron，H.， Sto ck，P.，Joulin，A.， J'egou，H.，Douze，M.：Levit：一个穿着convnet衣服的视觉Transformer，用于更快的推理。IEEE/CVF计算机视觉国际会议论文集。pp. 1225914. 顾，J.，沈，Y.，Zhou，B.：图像处理采用多码gan先验。在：IEEE/CVF计算机视觉和模式识别会议的开幕式上。pp. 301215. 古拉贾尼岛Ahmed，F.，Arjovsky，M.，Dumoulin，V.，Courville，A.C.：改进瓦瑟斯坦甘斯的训练。神经信息处理系统的进展30（2017）+v：mala2255获取更多论文16K. Yao等人16. Guo，D.，中国植物研究所，刘洪，赵，H.，郑，Y.，Song，Q.，顾志，郑洪，Zheng，B.：图像外推的螺旋生成网络。欧洲计算机视觉会议。pp.701-717.施普林格（2020）17. 他，K.，陈旭，Xie，S.，李，Y.，多尔拉尔山口， Girs hi ck，R.： Maskedaut oencoders是可扩展的视觉学习器。arXiv预印本arXiv：2111.06377（2021）18. 他，K.，张，X.，Ren，S.，Sun，J.：深度残差学习用于图像识别。在：IEEE计算机视觉和模式识别会议论文集。pp. 77019. Heo，B.，Yun，S.，Han，D.，Chun，S.，Choe，J.，哦，S.J.：重新思考视觉变换器的空间维度。IEEE/CVF计算机视觉国际会议论文集。pp.1193620. Heusel，M.，Ramsauer，H.，Unterthiner，T.，Nessler，B.，Hochreiter，S.：用双时标更新规则训练的Gans收敛于局部nash均衡。神经信息处理系统的进展30（2017）21. Johnson，J.，Alahi，A.，李菲菲：实时风格转换的感知损失和超分辨率。在：欧洲计算机视觉会议。pp. 694-711. Springer（2016）22. 金，K.，Yun，Y.，Kang，K.W.，Kong，K.，李，S.，Kang，S.J.：室外绘画内部：通过渐进式学习的双向重排进行边缘引导图像外绘。IEEE/CVF计算机视觉应用冬季会议论文集。pp. 212223. 金玛，D.P.，Ba，J.：Adam：一种随机优化方法ArXiv预印本arXiv：1412.6980（2014）24. 拉森，A.B.L.，Sønderby，S.K.，Larochelle，H.，Winther，O.：使用学习的相似性度量自动编码像素以外的内容。上一篇：机器学习国际会议pp.1558-1566. PMLR（2016）25. 莱迪格角，泰斯湖， Husz'ar，F.，卡瓦列罗，J.，坎宁安，A.，Acosta，A.， Ait ken，A.，Tejani，A.，托茨，J.，王志，

下载后可阅读完整内容，剩余1页未读，立即下载