没有合适的资源?快使用搜索试试~ 我知道了~
4692基于变形金刚的高保真多元图像补全万紫玉1张静波1陈冬冬2廖静1*1香港城市大学2微软云+ AIhttp://raywzy.com/ICT图1:我们的方法产生的多元自由形式图像完成结果。摘要卷积神经网络(CNN)由于其强大的纹理建模能力,图像完成已经取得了巨大的进展。然而,由于某些固有特性(例如,局部归纳先验、空间不变核),CNN在理解全局结构或自然支持多元完备化方面表现不佳。最近,变压器在建模的长期关系和generating多样化的结果,显示出他们的权力,但其计算复杂度是输入长度的平方,从而阻碍了在处理高分辨率图像的应用。本文将两种方法的优点结合到多元图像的修复中:用Transformer进行外观先验重建和用CNN进行纹理补充。前者的Transformer恢复多元相干结构连同一些粗糙的纹理,而后者的CNN增强由高分辨率掩蔽图像引导的粗糙先验的局部纹理所提出的方法在三个方面大大优于最先进的方法:1)即使与确定性完成方法相比,图像保真度也有很大的性能提升; 3)例外一般-*通讯作者。在大型掩码和通用数据集上的化能力,如ImageNet。代码和预训练模型已在https://github.com/raywzy/ICT公开发布。1. 介绍图像完成(也称为图像修复)是计算机视觉领域中一个长期存在的关键问题,其目的是用视觉上真实的和语义上适当的内容来填充图像的缺失部分它被广泛用于各种应用,例如对象移除[2]、照片恢复[34,35]、图像处理[23,15]和图像重定位[6]。为了解决这一挑战性任务,像PatchMatch [2]这样的传统方法通常在图像内搜索相似的块并将它们粘贴到缺失区域中,但是它们需要在输入图像中包含适当的信息,例如,类似的结构或贴片,这通常难以满足。近年来,基于CNN的解决方案[22,14,18,27,36,21]开始主导这一领域。通过以自监督的方式在大规模数据集上进行训练,CNN已经显示出它们在学习丰富的纹理模式方面的实力,并且用这种学习的模式填充缺失的区域此外,考虑到卷积的稀疏连接性,CNN模型在计算上是高效的尽管如此,他们还是分享了一些4693固有局限性:1)卷积运算的局部归纳先验使得难以建模图像的全局结构; 2)CNN滤波器是空间不变的,即相同的卷积核对所有位置上的特征进行操作另一方面,CNN模型本质上是确定性的。为了实现不同的完成输出,最近的框架[41,39]依赖于优化实例相似性的变分下界。尽管如此,额外的分发假设将不可避免地损害生成内容的质量[40]。Transformer作为在语言任务中得到充分探索的架构,在许多计算机视觉任务中正在崛起。与CNN模型相比,它放弃了内置的局部归纳先验,旨在通过密集注意力模块支持长期交互[33]。一些初步的工作[5]也证明了它在自然图像合成的结构关系建模的能力。使用Transformer进行合成的另一个优点是,它通过直接优化底层数据分布而自然地支持多元输出但是,Transformer也有其自身的不足。由于计算复杂度随输入长度呈二次方增加,因此其在高分辨率图像合成或处理中挣扎。此外,大多数现有的基于变换器的生成模型[26,5]以自回归方式工作,即以固定的顺序(如光栅扫描顺序)合成像素,因此妨碍了其在图像完成任务中的应用,在图像完成任务中,缺失区域通常具有任意形状和尺寸。在本文中,我们提出了一种新的高保真度的plualis-tic图像完成方法,通过带来两全其美:变换器的全局结构理解能力和CNN模型的高效局部纹理细化能力。为了实现这一点,我们将图像完成解耦为两个步骤:使用Transformer进行多元外观先验重建以恢复相干图像结构,以及使用CNN进行低分辨率上采样以重现精细纹理。具体来说,给定一幅有缺失区域的输入图像,我们首先利用Transformer对低分辨率的补全结果进行采样,即有前科然后,在输入图像的外观先验和可用像素的引导下,利用另一个上采样CNN模型来渲染缺失区域的高保真度纹理,同时确保与相邻像素的特别是,与以前的自回归方法[5,32]不同,为了使Transformer模型能够通过考虑所有可用的上下文来完成缺失区域,我们基于双向条件优化了缺失像素的对数似然目标,这受到了BERT [9]等掩码语言模型的启发。为了证明其优越性,我们将我们的方法与多个数据集上的最先进的确定性[25,20,37]和多元[41]图像完成方法进行了比较。我们的方法从三个方面取得了重大进展:1) 与以往的确定性完成方法相比,我们的方法建立了一个新的艺术状态,并在各种指标上表现出很大的差距;2) 与以往的多元补全方法相比,该方法进一步增强了补全结果的多样性,同时具有更高的补全保真度; 3)由于变压器强大的结构建模能力,我们的方法在完成极 大 的 缺 失 区 域 和 大 规 模 通 用 数 据 集 ( 例 如ImageNet),如图所示。1.一、值得注意的是,与最先进的方法PIC相比,ImageNet上的FID得分最多提高了41.2 [41]。2. 相关作品Vaswani等人 [33]首先提出了用于机器翻译的转换器,其成功已经在各种下游自然语言处理(NLP)任务中得到证明。变压器的整体架构是由堆叠的自注意和逐点前馈层的编码器和解码器。由于注意机制能够很好地模拟输入序列元素之间的密集关系,变换器在计算机视觉领域逐渐受到重视例如,DETR [4]采用变压器作为骨干来解决对象检测问题。Dosovitskiy等人。 [10]提出了ViT,它首先在图像识别领域利用变换器,与基于CNN的方法相比取得了优异的此外,Parmar等人。[26]和Chen等人。 [5]利用Transformer对图像进行建模。然而,为了生成图像,这些方法依赖于固定的排列顺序,这不适合于完成具有变化形状的缺失区域。确定性图像完成传统的图像完成方法,如基于扩散的[3,11]和基于补丁的[2,12,7],依赖于强大的低级假设,当面对大面积掩模时可能会违反这些假设。为了生成语义一致的内容,最近已经提出了许多基于CNN的方法[27,19,21,36,25]。大多数方法共享类似的编码器-解码器架构。具体而言,Pathak et al.[27]将对抗训练引入图像修复中,实现语义补洞。Iizuka等人。 [14]通过涉及局部-全局鉴别器来改善CE[27]的性能。Yu等人。 [36]提出了一种新的上下文注意模块来捕获长程相关性。Liu等人。 [19]设计了一种名为partial-conv的新算子,以减轻卷积产生的掩蔽区域的负面影响这些方法可以为掩蔽区域生成合理的内容,但缺乏生成多样化结果的能力。多元图像补全为了获得每个屏蔽输入的不同结果集,Zheng等人。 [41]提出了一个双管道框架,该框架将估计与输入耦合,4694N∈∈|||×××||−代币嵌入Transformer层...Transformer层FC层SoftmaxGibbs抽样.........引导上采样网络:[面具]:位置编码:逐元素加法:离散化:双线性上采样图2:管道概述。 我们的方法包括两个网络。第一个是双向Transformer,它负责产生缺失区域的概率分布,然后从这个分布中进行多样性采样随后,我们采用另一个CNN在输入掩码图像的指导下在原始分辨率之前对外观进行上采样我们的方法结合了Transformer和CNN的优点E:编码器,D:解码器,R:残差块。通过联合最大化下界,从重构路径和生成路径的条件先验中提取匹配分布。与[41]类似,UCTGAN [39]通过优化编码特征和(0,I)分布之间的KL散度将掩蔽的输入和参考图像投影到公共空间中,以实现多样化的采样。虽然他们在一定程度上取得了一定的多样性,但他们的完成质量是有限的,由于变化的训练。与这些方法不同的是,我们直接优化的对数似然在离散空间中,通过变换器没有辅助假设。3. 方法图像补全的目的是将具有缺失像素的输入图像ImRH×W ×3变换为完整的图像IRH×W ×3。该任务本质上是随机的,这意味着给定掩蔽图像Im,存在条件分布p(I Im)。由于在给定I和Im的情况下获得粗略先验X是确定性的,则p(I Im)可以重写为,p(I|I m)= p(I|I m)·p(X|I,I m)像素,表示为p(I X,Im)(在第2节中描述)。3.2)。总体管线如图所示二、3.1. 外观先验重建离散化考虑到变换器架构中多头注意力[33]的计算成本呈二次增加,我们用其对应的低分辨率版本(在我们的实现中为32 32或48 48)表示自然图像的外观先验然而,RGB像素的维数(2563)仍然太大.为了进一步降低维度并忠实地重新表示低分辨率图像,使用整个ImageNet [8]像素空间的K-Means聚类中心生成空间大小为512_3的额外视觉词汇表然后,对于每个像素的外观先验,我们从视觉词汇表中搜索最近的元素的索引,以获得其离散表示。此外,表示序列中与孔洞区域相对应的元素将被替换为一个特殊的令牌[MASK],这也是为此,我们将-= p(X,I|I m)= p(X|I m)·p(I|X,I m)。(一)将先前的外观转换为离散序列。Transformer对于离散化序列X={x1,x2,· · ·,xL},其中L是X的长度,代替直接从p(I Im)采样,我们首先使用Transformer来对给定Im的出现先验的底层分布建模,表示为p(XIm)(在第2节中描述)。第3.1节)。这些重建的外观先验包含大量的线索的全球结构和粗糙的纹理,由于Transformer的强大的表示能力。随后,我们采用另一个CNN补充纹理细节的指导下,外观先验和unmasked我们通过前置可学习的嵌入将其投影到D维特征向量中。为了对空间信息进行编码,额外的可学习位置嵌入将被添加到每个位置1≤i≤L的令牌特征中以形成Transformer模型的最终输入E∈RL×d遵循GPT-2 [28],我们使用仅解码器Transformer作为我们的网络架构,它主要由N个基于自注意力的转换器层组成在每一个跨-4695|K≤≤∈--××FΣFDDFQK.V图3:单向(左)和双向(右)注意力之间的差异。在前层L中,计算可以公式化为采样策略我们在本节中介绍如何使用经过训练的Transformer获得合理和多样化的外观先验。给定所生成的Transformer的分布,由于独立性,直接对整个掩蔽位置集合进行采样不会产生合理的结果。相反,我们采用吉布斯采样来迭代地在不同位置对令牌进行采样。具体地,在每次迭代中,对网格位置进行采样Fl−1=LN( MSALEl−1. l−1Σ )+El−1l−1(二)从具有顶部预测元素的p(x πk X-Π,X <πk,θ),其中X <πk表示先前生成的令牌。然后将相应的[MASK]令牌替换为其中LN、MSA、MLP分别表示层归一化[1]、多头自注意和FC层。更具体地,给定输入E,MSA可以被计算为:. EWj(EWj)TΣQ√KV采样一个,并重复该过程,直到所有位置更新了。与PixelCNN [32]类似,默认情况下以光栅扫描方式顺序选择位置。经过采样,我们可以得到一组完全未知的序列. 对于每个完整的离散序列sam-头j=softmax(英、西、j)D(三)从Transformer中提取,我们重建其外观先验X∈RL×3,并进行视觉词汇查询。MSA =[总目1;. ;头部h]W0,其中h是头的数量,Wj,Wj和Wj是3.2. 引导上采样在重建低维外观三个可学习的线性投影层,1JH. W/O也是可学习的FC层,其目标是融合来自不同头的输出的级联通过调整Transformer层数N、嵌入尺寸d和头部数h等参数,可以方便地缩放变压器的尺寸。还应该注意的是,与自回归变换器[ 5,26 ]不同,自回归变换器[5,26 ]通过单向注意力生成元素,即仅受扫描线前的上下文约束,我们使每个令牌注意到所有位置,以实现双向注意,如图所示3,其有效地保持生成的内容和未掩蔽区域之间的语义一致性。最后的Transformer层的输出被进一步投射到一个每元素分布在512个元素的视觉词汇与完全连接的层和softmax功能。我们采用与BERT [9]中使用的目标类似的 掩 码 语 言 模 型 ( MLM ) 具 体 地 , 令 Π = π1 ,π2,. . .,πK在《易经》中,卦的卦名为“卦”。put,其中 K是掩码令牌的数量。设XΠ表示X中的[MASK]令牌的集合,并且X−Π表示未掩蔽令牌的集合。MLM的目标最小化以所有观察到的区域为条件的XΠK先验,我们将X重塑为I tR√L×√L×3用于后续处理.由于I t已经包含多样性,现在的问题是如何学习确定性映射以将I t重新缩放到原始分辨率Hff3,同时保持空穴区域和未掩蔽区域之间的边界一致性。 为了实现这一点,由于CNN具有建模纹理模式的优势,因此在这里我们引入另一种引导上采样网络,其可以在掩蔽输入I m的引导下渲染重建外观先验的高保真细节。引导上采样的处理可以写为Ipred=Fδ( It↑-Im)∈RH×W×3,(5)其中It↑是It的双线性插值结果,-表示沿信道di的级联运算尺寸是上采样网络的主干,其参数由δ表示,主要由编码器、解码器和若干残差块组成。有关该架构的更多细节可在补充材料中找到。我们通过最小化Ipred和对应的地面实况I之间的l1损失来优化该引导上采样网络:L A1=E(I pred− I1)。(六)为了生成更真实的细节,额外的对抗性损失是LMLM1=E[XK-logp(xπkk=1|X−Π,θ)],⑷也参与了培训过程,具体来说,Ladv=E[log(1-Dω(Ipred))]+E[logDω(I)],(7)其中θ为Transformer参数。MLM目标与双向注意相结合,保证了Transformer模型能够捕捉到完整的上下文信息来预测缺失区域的概率分布。其中是由ω参数化的鉴别器。我们通过求解以下优化来联合训练上采样网络minmaxLupsamplee(δ,ω)=α1LA1+α2Lad v.(八)ΣE =LN( MLP)+F、4696F D4697××××图4:在FFHQ,Places2数据集上与最先进方法的定性比较。我们的方法完成的结果具有更好的质量和多样性。损失权重设置为α1= 1。0且α2= 0。在所有实验中为1。我们还观察到,涉及实例规范化(IN)[31]将在优化期间导致颜色不一致和严重的伪影。因此,我们移除上采样网络中的所有4. 实验我们在第二节中介绍了实施细节。4.1,随后进行评估(第4.2)和深入研究(Sec. 4.3)提出了基于变换器的图像补全方法。多元图像完成实验在三个数据集上以256 256分辨率进行,包括FFHQ[16],Places2[42]和ImageNet[29]。我们从整个FFHQ中保留1K图像用于测试,并在rest数据集中使用原始的常见训练和测试分割PConv [19]提供的多样化不规则掩模数据集用于训练和评估。4.1. 实现细节我们通过同时平衡数据集的表示能力和大小来控制Transformer架构的规模。 离散序列长度L被设置为4848 关于FFHQ由于计算资源的限制,我们...在大规模数据集Places2和ImageNet上将可行L增加到32 32。不同型号Transformer的详细配置见补充资料。我们使用8Tesla V100 GPU用于FFHQ,批次大小为64,4 8Tesla V100 GPU用于Places2和ImageNet,批次大 小 为 256 , 以 训 练 变 压 器 直 到 收 敛 。 我 们 使 用AdamW [ 24 ]优化Transformer,其中β1=0。9,β2=0。九十五学习速率在第一个历元中线性地从0预热到3e-4,然后在其余迭代中经由余弦调度器衰减到0模型中没有采用额外的权重衰减和丢弃策略。为了训练引导上采样网络,我们使用Adam [17] optimizer,其具有固定的学习率1 e-4,β1=0。0且β2=0。9 .第九条。在优化过程中,不同损失项的权重被设置为固定值,如第2节所述。3.2经验4.2. 结果将我们的方法与以下最先进的修复算法进行比较:Edge-Connect(EC)[25],DeepFillv 2(DFv 2)[37],MED [20]和PIC [41]使用官方预训练模型。我们还在FFHQ数据集上完全训练了这些模型,以进行公平比较。定性比较我们将定性比较4698KKK图5:与ImageNet数据集上最先进方法的定性比较。更多定性的例子在补充材料中显示。结果与本节中的其他基线一致。我们采用的抽样策略中介绍的。3.1,其中=50,以并行生成20个解决方案,然后选择按照PIC [41]的上采样网络的鉴别器得分排名的前6个结果。我们的方法的所有报告结果都是训练模型的直接输出,无需额外的后处理步骤。我们在图中显示了FFHQ和Places2数据集上的结果。4.第一章具体而言,EC [25]和MED [20]通常可以产生缺失区域的基本组件DeepFillv2 [37]基于多阶段恢复框架,可以生成清晰的细节。然而,当掩模区域相对较大时,出现严重的伪影此外,他们的方法只能为每个输入产生一个单一的解决方案。PIC [41]作为最先进的多样化图像修复方法,倾向于生成过平滑的内容和奇怪的图案,同时语义合理的变化被限制在小范围内。与这些方法相比,我们的方法在照片真实性和多样性方面都更优越.我们进一步在图中的ImageNet数据集上显示了与DeepFillv1(DFv1)[36]和PIC [41]的比较五、在这种具有挑战性的环境中,完全基于CNN的方法不能很好地理解全局背景,导致不合理的完成。当遇到大型口罩时,他们甚至无法保持如图中第二行所示的精确结构。五、相比之下,我们的方法给出了优越的结果,这证明了我们的方法在大规模数据集上的特殊泛化能力。定量比较我们将我们的方法与表中的其他基线进行了数值比较。1、桌子二、的峰值信噪比(PSNR)、结构相似性指数(SSIM)和相对l1(MAE)被用来比较恢复输出与地面真实值之间的低水平差异,这更适合于测量小比率的掩模设置。为了评估较大区域的缺失,我们采用Fre´ chet初始距离(FID)[13],该距离计算完成结果与自然图像之间的特征分布距离由于我们的方法可以产生多个解决方案,我们需要找到一个例子来计算上述指标。与PIC[41]不同,PIC [41]为每个样本选择具有高排名鉴别器得分的结果,在这里,我们直接提供随机采样结果,当=50时,以证明其泛化能力。此外,我们还提供了表中给定=1的确定性1.一、可以看出,我们的方法与前1采样实现了优越的结果与其他竞争对手相比,在几乎所有的指标。并且在相对大的掩模区域的情况下,前50个采样导致稍微更好的FID分数。在ImageNet数据集上 , 如 表 所 示 2 , 我 们 的 方 法 优 于 PIC 的 一 个considerable利润,特别是在FID指标(大于41.2大掩模)。用户研究为了更好地评估主观质量,我们进一步进行用户研究,以比较我们的方法与其他基线。具体而言,我们从测试集中随机选择30幅对于测试图像,我们使用每种方法生成一个完成结果,并要求参与者从最高的照片逼真度到最低的照片逼真度对总共五个结果进行我们收集了28名参与者的回答,并计算了每种方法被选为前1、2、3的比例,统计数据如图所示六、我们的方法是73.70%的可能性被挑选4699我们的_POurs_FPIC_PPIC_F我们的_P我们的_FPIC_PPIC_FDATASETFFHQ [16] PLACES 2 [42]方法掩蔽比PSNR↑ SSIM↑ MAE↓ FID↓ PSNR↑ SSIM↑ MAE↓ FID↓DFv2 [37]EC [25]PIC [41]医学[20]我们我们的†20%-40%25.868 0.922 0.023126.901 0.938 0.0209 14.276 26.52026.781 0.933 0.0215 14.51326.325 0.922 0.0230 14.79127.922 0.948 0.0208 10.99528.242 0.952 0.0155 10.515DFv2 [37]EC [25]PIC [41]医学[20]我们我们的†40%-60%21.108 0.802 0.051021.368 0.780 0.0510 30.49921.723 0.811 0.0488 25.03120.765 0.763 0.0592 34.148 22.271 0.71722.613 0.845 0.044523.076 0.864 0.037120.843DFv2 [37]EC [25]PIC [41]医学[20]我们我们的†随机24.962 0.882 0.0310 19.506 25.692 0.83425.908 0.882 0.0301 17.03925.580 0.889 0.0303 17.36425.118 0.867 0.0349 19.64426.681 0.910 0.029214.52927.157 0.922 0.0223 14.03925.982表1:具有不同掩模比率的FFHQ和Places2数据集的定量结果。我们的:默认的前50名抽样。我们的†:Top-1采样。0.25600.2050400.15300.10200.0510表2:与ImageNet上的PIC的定量比较10 20 30 40 50掩蔽比(%)10 20 30 40 50掩蔽比(%)数据集。806040200MED PIC EC DFV2我方图6:用户研究结果。图7:左:多样性曲线。 右:FID曲线。 P和F分别表示Places2和FFHQ数据集无意义的内容也将导致高的LPIPS分数,我们同时在图的右侧部分提供在整个采样结果(10K)和自然图像之间计算的每个级别的FID分数7 .第一次会议。我们的方法在所有情况下都实现了更好的多样性。此外,在Places2的最大掩码比中,尽管PIC [41]近似于我们方法的多样性,但我们完成的感知质量大大优于PIC [41]。作为第一等级,这显示了其明显的优势。4.3. 分析多样性我们计算来自相同输入的随机采样输出对之间的平均LPIPS距离[ 38 ],以测量Zhu等人的完成多样性。 [43]。具体来说,我们利用1K的输入图像和样本,每输入5个输出对在不同的掩码比。LPIPS是基于在ImageNet上预训练的VGG [30]模型的深度特征计算的多样性得分如图所示。7 .第一次会议。由于完成与不同但用 于 完 成 超 大 孔 的 坚 固 性 。 为 了 进 一 步 了 解Transformer的能力,我们对设置非常大的孔进行了额外的实验,这意味着只有非常有限的像素可见。尽管Transformer和上采样网络都仅使用PConv [19](最大掩码比60%)的数据集进行训练,但我们的方法相当好地推广到这种困难的设置。在图中。8,几乎所有的基线失败与大的缺失区域,而我们的方法可以产生高质量和多样化的完成结果。如果Transformer能更好地理解全球结构顶部123我们的_POurs_FPIC_PPIC_FPIC_P我们的_PPIC_F我们的比LPIPS评分FID方法掩蔽比PSNR↑SSIM↑MAE↓FID↓PIC [41]20%-40%24.0100.8670.031947.750我们24.7570.8880.026328.818PIC [41]40%-60%18.8430.6420.0756101.278我们20.1350.7210.058559.486PIC [41]随机22.7110.7910.046259.428我们23.7750.8350.035835.8424700图8:大规模掩模的图像完成结果。可以注意到,所有比较的基线都很难产生合理的内容。图9:Transformer生成的概率图的可视化。 较高的置信度意味着较低的不确定性。真的比CNN?为了回答这个问题,我们进行了一些几何图元的完备实验。具体来说,我们要求我们的基于变换器的方法和其他完整的CNN方法,即。DeepFillv1[36]和PIC [41],在ImageNet上训练,以恢复图中钢笔形的缺失部分。10个。正如预期的那样,所有完整的CNN方法都无法重建丢失的形状,这可能是由卷积核的局部性引起的相反,Transformer可以很容易地在低维离散空间中重建正确的几何形状。基于这种精确的外观先验,上采样网络最终可以更有效地渲染原始分辨率结果。概率图的可视化。直观地,由于缺失区域的轮廓与现有像素是连续的,因此完成置信度应该从掩模边界到内部区域逐渐减小。较低置信度对应于更多样化的可能内容。为了验证这一点,我们绘制了图中的概率图9其中每个像素表示由Transformer生成的视觉词汇 我们有一些有趣的观察:1)在图的右侧部分。9、不确定性确实在从外到内增加。2)对于肖像完成示例,面部区域的不确定性总体上低于头发部分。根本原因是面部的可见部分在某种程度上限制了其他区域的多样性3)肖像示例的右脸颊的概率在其余掩模区域中最高,这表明Transformer捕获了对称特性。图10:基本几何形状的完成。所有比较的模型都在ImageNet上训练。我们的观点是:从Transformer改造的容忍先验.5. 总结发言在图像补偿领域中存在长期存在的困境,以实现足够的多样性和真实感质量。现有的尝试大多通过完整的CNN架构来优化变化下限,这不仅限制了生成质量,而且难以渲染自然变化。在本文中,我们首先提出将变压器和CNN结合起来,以实现高保真的自由形式的多元图像完成。大量的实验表明,与现有的全卷积方法相比,该方法具有更高的性能,包括在常规评估设置上获得更大的性能增益,更多样化和生动的结果,以及出色的泛化能力。我们已经展示了双向变压器在图像完成领域的巨大潜力。虽然这些结果是令人鼓舞的,但我们相信未来仍有一些挑战可以考虑,包括推理效率,采样策略或架构设计。我们建议观众检查所提供的补充材料1以进行更深入的分析。鸣谢:我们要感谢匿名评论者的建设性意见。这项工作得到了香港研究资助局(RGC)早期职业计划(9048148号拨款 (21209119))和 香港城市 大学(APRC 9610488号拨款)的支持。1http://raywzy.com/ICT/supple.pdf4701引用[1] 吉米·雷·巴,杰米·瑞安·基罗斯,杰弗里·E·辛顿.层归一化。arXiv预印本arXiv:1607.06450,2016。[2] Connelly Barnes , Eli Shechtman , Adam Finkelstein ,and Dan B Goldman.Patchmatch:一种用于结构图像编辑 的 随 机 对 应 算 法 ACM Transactions on Graphics(TOG),28(3):1[3] Marcelo Bertalmio、Guillermo Sapiro、Vincent Caselles和Coloma Ballester。图像修复。在Proceedings of the27thannualconferenceonComputergraphicsandinteractive techniques,pages 417[4] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器的端到端对象检测。arXiv预印本arXiv:2005.12872,2020。[5] Mark Chen ,Alec Radford ,Rewon Child,Jeff Wu ,Hee- woo Jun,Prafulla Dhariwal,David Luan,and IlyaSutskever.从像素生成预训练。2020年。[6] Donghyeon Cho,Jinsun Park,Tae-Hyun Oh,Yu-WingTai,and In So Kweon.用于内容感知深度图像重定向的弱监督和自监督学习。在IEEE计算机视觉国际会议论文集,第4558[7] Soheil Darabi,Eli Shechtman,Connelly Barnes,Dan BGoldman,and Pradeep Sen.图像融合:使用基于块的合成来组合不一致的图像。ACM Trans-actions on graphics(TOG),31(4):1[8] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议,第248-255页。Ieee,2009年。[9] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert:为语言理解而进行的深度双向转换器的预训练。arXiv预印本arXiv:1810.04805,2018。[10] AlexeyDosovitskiy,LucasBeyer,AlexanderKolesnikov,Dirk Weissenborn,Xiaohua Zhai,ThomasUnterthiner , Mostafa Dehghani , Matthias Minderer ,Georg Heigold,Sylvain Gelly,et al.一张图片相当于16x16个单词:用于大规模图像识别的变换器. arXiv预印本arXiv:2010.11929,2020。[11] Alexei A Efros和William T Freeman。图像绗缝纹理合成和转移。在Proceedings of the 28th annual conference onComputer graphics and interactive techniques,pages 341[12] James Hays和Alexei A Efros。使用数百万张照片完成场景 。 ACM Transactions on Graphics ( TOG ) , 26(3):4[13] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。神经信息处理系统进展,第6626-6637页,2017年[14] Satoshi Iizuka,Edgar Simo-Serra,and Hiroshi Ishikawa.全局和局部一致的图像完成。2017年。[15] 赵英珠和朴钟Sc-fegan:具有用户草图和颜色的面部编辑在IEEE计算机视觉国际会议论文集,第1745-1753页[16] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构,用于生成对抗网络。在IEEE/CVF计算机视觉和模式识别会议论文集,第4401-4410页[17] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980,2014。[18] Yijun Li,Sifei Liu,Jimei Yang,and Ming-Hsuan Yang.创新型面部修复。2017年。[19] Guilin Liu,Fitsum A Reda,Kevin J Shih,Ting-ChunWang,Andrew Tao,and Bryan Catanzaro.使用部分卷积的 不规 则孔 图像 修复 。在欧洲 计算 机视 觉会 议(ECCV)的会议记录中,第85-100页[20] Hongyu Liu,Bin Jiang,Yibing Song,Wei Huang,andChao Yang.重新思考图像修复通过相互编码器-解码器与特征均衡。arXiv预印本arXiv:2007.06929,2020。[21] Hongyu Liu,Bin Jiang,Yi Xiao,and Chao Yang.图像修复中的相干语义注意。在IEEE计算机视觉国际会议论文集,第4170-4179页[22] Hongyu Liu ,Ziyu Wan,Wei Huang,Yibing Song,Xintong Han,and Jing Liao.Pd-gan:用于图像修复的概率多样性gan在IEEE/CVF计算机视觉和模式识别会议论文集,第9371- 9381页[23] Hongyu Liu ,Ziyu Wan,Wei Huang,Yibing Song,Xintong Han , Jing Liao , Bin Jiang , and WeiLiu.Deflocnet:通过灵活的低级控件进行深度图像编辑在IEEE/CVF计算机视觉和模式识别会议论文集,第10765-10774页[24] 伊利亚·罗希洛夫和弗兰克·哈特。解耦权重衰减正则化。arXiv预印本arXiv:1711.05101,2017。[25] Kamyar Nazeri , Eric Ng , Tony Joseph , Faisal ZQureshi,and Mehran Ebrahimi.边缘连接:具有对抗性边缘学习的生成式图像修复。arXiv预印本arXiv:1901.00212,2019。[26] Niki Parmar,Ashish Vaswani,Jakob Uszkoreit,LukaszKaiser,Noam Shazeer,Alexander Ku,and Dustin Tran.图像Transformer。在机器学习国际会议上,第4055-4064页[27] Deepak Pathak 、 Philipp Krahenbuhl 、 Jeff Donahue 、Trevor Darrell和Alexei Efros。上下文编码器:通过修复进行特征学习。2016年。[28] Alec Radford,Jeff Wu,Rewon Child,David Luan,Dario Amodei,and Ilya Sutskever.语言模型是无监督的多任务学习器。2019年。[29] OlgaRussakovsky , Jia Deng , Hao Su , JonathanKrause , San- jeev Satheesh , Sean Ma , ZhihengHuang , Andrej Karpathy , Aditya Khosla , MichaelBernstein , et al. 图 像 网 大 规 模 视 觉 识 别 挑 战 。International Journal of Computer Vision,115(3):2114702[30] Karen Simonyan和Andrew Zisserman用于大规模图像识别 的 非 常 深 的 卷 积 网 络 。 arXiv 预 印 本 arXiv :1409.1556,2014。[31] 德米特里·乌里扬诺夫,安德烈·维达尔迪,维克多·伦皮茨基。 实例归一化:快速造型缺少的成分。arXiv预印本arXiv:1607.08022,2016。[32] Aaron Van den Oord , Nal Kalchbrenner , LasseEspeholt,Oriol Vinyals,Alex Graves,et al.条件图像生成与pixelcnn解码器。神经信息处理系统的进展,29:4790[33] Ashish Vaswani, Noam Shazeer , Niki Parmar , JakobUszko-reit , Llion Jones , Aidan N Gomez , ukaszKaiser,and Illia Polosukhin.注意力是你所需要的。神经信息处理系统的进展,第5998-6008页,2017年[34] 万紫玉、张波、陈冬冬、潘章、陈冬、廖静、方文。让老照片复活在IEEE/CVF计算机视觉和模式识别会议论文集,第2
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- NIST REFPROP问题反馈与解决方案存储库
- 掌握LeetCode习题的系统开源答案
- ctop:实现汉字按首字母拼音分类排序的PHP工具
- 微信小程序课程学习——投资融资类产品说明
- Matlab犯罪模拟器开发:探索《当蛮力失败》犯罪惩罚模型
- Java网上招聘系统实战项目源码及部署教程
- OneSky APIPHP5库:PHP5.1及以上版本的API集成
- 实时监控MySQL导入进度的bash脚本技巧
- 使用MATLAB开发交流电压脉冲生成控制系统
- ESP32安全OTA更新:原生API与WebSocket加密传输
- Sonic-Sharp: 基于《刺猬索尼克》的开源C#游戏引擎
- Java文章发布系统源码及部署教程
- CQUPT Python课程代码资源完整分享
- 易语言实现获取目录尺寸的Scripting.FileSystemObject对象方法
- Excel宾果卡生成器:自定义和打印多张卡片
- 使用HALCON实现图像二维码自动读取与解码
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功