深度生成模型的上下文视觉外推

184 浏览量更新于2023-10-19 收藏 1.51MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1399宽上下文语义图像外推王毅1、2陶昕2沈晓勇2贾佳雅1、21香港中文大学2腾讯优图实验室yiwang@cse.cuhk.edu.hk{xintao，dylanshen，jiayajia}@ tencent.com摘要本文研究了使用深度生成模型外推视觉上下文的基本问题，用合理的结构和细节扩展图像边界。这个看似简单的任务实际上面临着许多关键的技术挑战，并具有其独特的性质。两个主要问题是规模扩张和单边约束。我们提出了一个语义再生网络的几个特殊贡献，并使用多个空间相关的损失来解决这些问题。我们的结果包含一致的结构和高质量的纹理。对各种可能的替代方案和相关方法进行了广泛的实验。我们还探讨了我们的方法的潜力，各种有趣的应用程序，可以在各个领域的研究受益。1. 介绍人类具有基于有限的视觉内容感知不可见表面的自然能力。对于计算机视觉，完成此任务需要生成语义上有意义且一致的结构和纹理。在本文中，我们专注于特殊的任务，推断看不见的内容以外的图像边界。此任务在图像处理和图形学中找到几个相关的方法和主题。它被视为视图扩展中的有趣应用[35，43，49]，年龄编辑[2]，纹理合成[10，11，41]，仅举几例。这些方法利用来自外部图像或内部统计的信息。例如，[35，43，49]的算法通过匹配和拼接类似的候选项来放大视图。另一行[15]使用了retarget- ing。使用图像修复方法[1，5，7，20，23，25，37]来外推图像也是一个自然的选择。我们注意到，这些方法不是专门为我们的任务设计的，因此在应用于内容生成时有各自的局限性。基于外部图像的算法需要大量或结构上非常相似的参考图像，而基于内部像素/块的方法主要产生明显相似或重复的图案。图1.以人脸、狗、鸟、人体为例，说明我们的追求，这些都是高度语义敏感和代表性的。与以前的工作中所示的结果不同，图1中的图示表明我们的方法具有独特而强大的能力。它可以生成完整的肖像与头发和背景，甚至从一小部分的脸（图1的顶行），创建鸟头和尾巴的基础上的身体形状（图1的左下），或产生一个完整的人类身体只给出上半身的信息（图1的右下）。注意，在所有这些示例中，算法需要适当地考虑每个不完整图像的极大不同的上下文，并且预测比已知像素多3倍在技术策略方面，深度学习在低级视觉中变得流行和有效[8，26，39，46，48]。然而，将其应用于该上下文生成任务仍然需要考虑以下两个问题。图像大小更改图像扩展可将图像大小扩展到边界之外。类似的任务是超分辨率[8，24，36，38]，它从低分辨率（LR）输入中产生高分辨率（HR）结果。当前的SR框架要么在馈送到网络中之前进行上采样输入[8]，要么在网络中使用空间因此，在我们的框架中要克服的第一个问题是通过结构和细节生成适当地增加尺寸。单侧约束上下文生成中的边界条件只有一侧，如图1所示，其中黑色箭头表示推理方向。这种配置不同于一般的图像到图像的1400翻译（例如，图像合成、去模糊），其中后者在预测和输入之间具有一对一的空间对应。远离图像边界的未知像素比靠近边界的未知像素受到的约束更小，潜在地积累误差或重复模式。为了解决这个问题，我们设计了相对空间变量损失、上下文对抗损失和上下文规范化来规范生成过程。我们的贡献为了解决这些关键问题，我们提出了一个语义再生网络（SRN），从一小部分的视觉线索再生整个对象。SRN无需训练多个模型就可以生成任意大小的图像边界以外的语义结构。它直接从小尺寸输入中学习语义特征，通过避免常见填充和上采样过程中的偏差，这是有效和高效的[33，40，26]。在结构层次上，SRN由特征扩展网络（FEN）和上下文预测网络（CPN）两部分组成。FEN将小尺寸图像作为输入并提取特征。这些特征和外推指示符被馈送到CPN，用于重建最终的扩展结果。由于特征提取和图像重建的分离，使得网络的学习和推理变得合理和高效。此外，设计的损失和其他处理模块使我们的网络适应单侧约束，生成语义上有意义的结构和自然纹理。我们的主要贡献是双重的。• 我们提出了一个有效的深度生成模型SRN图像外推。实用上下文规范化（CN）模块和相对空间变量（RSV）亏损建议。它们与其他几种替代方案一起进行评估。• 我们将我们的解决方案应用于各种有趣和重要的应用程序。2. 相关工作2.1. 图像外推以前的外推解决方案[35，43，49]通常以数据驱动的方式转向外部库。这种类型的方法将问题公式化为匹配和拼接，其中从预先构造的数据集检索新内容例如，Wanget al. [43]将该方法应用于图像的图形表示。它们通过子图匹配检索候选图像，并将这些包装的图像缝合到输入中。Shan等人将图像合成公式化为MRF问题，能够处理关于视点、外观和布局变化具有高鲁棒性的大型库Zhang等人[49]利用检索到的大图像候选，对齐小输入和候选。已知区域和未知区域中相似斑块以复制和粘贴的方式将候选应用于输入。作为一种非参数方法，数据驱动图像外推受所用数据集的限制。此外，沿扩展边界的尖锐或精细纹理阻碍了这类方法的应用。2.2. 条件图像生成图像外推属于深度学习中的条件图像生成。最相关的问题是修复。修复的最新进展在于应用深度生成模型来修复大的缺失片段[47，46，31，48，44]。Pathak等人[31]首先应用对抗性损失来学习编码器-解码器网络。为了基于给定的上下文创建逼真的纹理，通过深层特征空间中的补丁匹配进行基于MRF的风格转换被用作后处理[46]。此外，Yuet al. [48]提出了上下文注意层，用其邻域加权平均值代替另一个相关的主题是图像重定向[34，3]。在[3]中，CNN被设计用于学习每个像素的移位映射。显著对象被保留，而背景被无缝修改。重定向无意扩展周围的内容。2.3. 空间扩展算子空间扩展算子是各种任务中不可缺少的组成部分，当输出具有较大尺寸时.流行的空间扩展运算符包括填充、插值、去卷积[30，9]、子像素卷积[36]和基于扭曲的SPMC模块[38]。我们讨论和实验这些运营商除了SPMC在第4节，因为SPMC只适用于顺序输入。3. 我们的方法给定输入图像X∈Rh×w ×c和填充边距m=（上、左、下、右），语义图像扩展（或外推）旨在生成视觉上令人信服的图像 Y∈Rh′×w′×c ，其中h′=h+top+bottom，w′=w+left+right，并且X是Y的子图像。违背图像修补是一个填补图像内部空洞的过程，图像外推是为了扩展图像边界。为方便起见，我们记为h′=r1h和w′=r2w（其中r1≥1，r2≥1，r1r2>1）。3.1. 框架设计我们的模型G由特征扩展网络（FEN）和上下文预测网络（CPN）两个子网络组成，如图2所示FEN从给定的图像中提取深层特征，CPN将这些特征解码成考虑填充边距和尺寸的图像。我们网络的输入包含一个图像X和一个边缘变量m=（top，left，bottom，right），表示扩展。14011222图2.我们的框架说明。3.1.1特征扩展该模块采用类似于编码器-解码器的结构，其中输入仅为大小为 h × w × c 的 X ，输出为其大小为r1h×r2w×c ′的特征映射f（X）。增加特征尺寸是通过最近邻上采样实现的，通过卷积降低，除了最后一层，这是通过子像素卷积[36]变体实现的这是一个香草卷积，然后是重新洗牌的功能通道。 Giv enafeaturemapF∈Rh×w×r1r2c′ ，suchreshuf-抛出操作s（·）定义为s（F）i，j，k=F<$i/r1<$，<$j/r2<$，c′r2·mod（i，r1）+c′·mod（j，r2）+k，（1）其中s（F）∈Rr1h×r2w×c′.i、j和k分别表示高度、宽度和通道。与原始亚像素卷积[36]相比，所提出的变量放松了r1= r2的约束。它能处理当r1/=r2时，[36]的方法不能。这种能力在人体生成（图1中的r1=4和r2=1）和视图扩展（第4节中的r1=1和r2=2我们讨论和比较替代的可训练的操作员，即，去卷积层和填充（在下文中称为展开算子）或内插之后的这里不考虑去卷积，因为它会由于重叠问题[30，9]而导致生成视觉伪影。插值或填充方法具有各自的属性。具体地说，插值假设填充区域与输入的相应位置相似，补零假设缺失部分为常数值;对称/镜像填充使上下文特征沿着图像边界成为镜像版本。比较-在保真度和视觉自然度方面产生更好的性能因此，我们的模型直接推断给定的视觉数据，而无需预先定义的先验。3.1.2上下文预测我们还使用编码器-解码器-类似的网络为这个组件。输入是f（X）和填充指示符的级联，即。二进制掩码，其中0用于已知像素，1用于未知像素，由M表示。输出为大小为r1h×r2w×c的Y。开发了上下文规范化模块，用于协调填充和已知区域。上下文预测网络（CPN）背后的基本原理是双重的，而不是通常在粗到细框架中使用的简单细化阶段。首先，它将FEN中不包括的填充余量合并，以指示预测的位置。第二，除了填充余量之外，输入到网络的还包括由FEN而不是粗略预测学习的上下文特征这些特征通过编码器-解码器和我们设计的上下文规范化模块进行压缩处理。上下文规范化为了提高生成图像的风格一致性，提出了上下文规范化（CN）模块。近年来的研究表明，图像风格是由图像风格的特征统计量来表征的.探索了各种图像统计损失[12，14]和归一化操作[18，42，16]，以隐式或非隐式地捕获此类统计数据很明显受实例归一化[42]和AdaIN[16]的启发，我们提出的CN函数（t（·））定义为：t（f（X），ρ）=[ρ·n（f（X））反卷积展开，亚像素卷积以较少的偏差扩展功能。这在第4.3节中进行了实验验证。+（1−ρ）f（X<$）]<$M↓+f（X<$$>）<$（1−M↓），（二）特征扩展网络（FEN）是学习潜在的上下文特征。实验结果表明，填充像素在早期批次作为一种先验的后来的一代。直接以可用像素为条件的计算可以n（x，x）=x1−µ（x1）·σ（x）+µ（x），（3）σ（x1）1402其中，X和X分别表示已知和未知图像区域，f（·）e基于1403ΩΩΩW在输入扩展的特征映射上，且ρ∈[0，1]。↓是最近邻下采样算子。M↓与f（X）具有相同的高度和宽度。µ（·）和σ（·）计算平均值和标准差。从本质上讲，它是跨-将已知特征的均值和方差传递给未知区域，从而使生成的内容规则化，使其超出了单侧约束，并增强了输入区域和预测区域之间的颜色/纹理一致性。请注意， CN 和 AdaIN [16]从根本上是不同的。AdaIN替换图像的特征统计信息(a)图3.在等式中使用的权重掩模Mw的可视化。（五）、(a)输入掩码（0和1用于已知和未知颜色），（b）使用M作为Mw，（c）CD中的M w [44]，（d）RSV中的M w。（b）-（d）显示在射流色图中。与另一张图片中的图像进行对于CN，特征统计结果Mc−1和Mc来描述信心。Intu-在同一图像的已知/未知区域中，是的。此外，CN中还包含混合步骤。由于已知和未知区域的特征统计对于语义敏感的目标（如面部和身体）可能不同，因此混合这些特征统计对于我们的系统至关重要。详细的比较见补充材料。3.2. 损耗设计优化目标包括重建损失、纹理一致性损失和对抗性损失，具体如下。相对空间变化损失重建损失通过提供像素级监督来稳定训练过程。由于内容外插的单侧属性，需要空间变量监督 [48 ， 44]。我们设计了一种相对空间变分（RSV）重建算法因此，接近现有区域的未知像素具有高-置信相邻像素。因此，它们的相对增加比远离它的未知像素的相对增加如图3所示，CD不约束远距离区域，而RSV分配有意义的权重。更多的比较见4.3节。隐式多样化MRF损失与逐像素重建损失一起，隐式多样化MRF正则化[29，44]被引入作为优化目标的一部分，用于通过使G（X，m）和Y的特征分布接近来创建清晰纹理。我们使用Y_L和Y_L来表示从预训练网络的Lth特征层，其中Yt h表示待填充区域的预测。Y L和Y L之间的ID-MRF损失[29，44]定义为：这是由于这种空间规则化的损失。对于信心驱动（CD）损失[44]，其公式为：1LM（L）=−log（ZΣ最大RS（v，s）），（7）v∈Y<$LMi=（g<$Mi）<$M，（4）我相对于s∈YL其中，g是归一化高斯滤波器，M=1−M+mMi−1，M0=0。Hadamard是Hadamard乘积算子。RS（v，s）= RS（v，s）/RS（v，r），（8）w wcr∈ρs（YL）当量(4)重复c次以生成Mw。在RSV中，我们使用的权重矩阵为RS（v，s）= exp（（β（v，s））/h），（9）M=Mc−1/max（Mc，λ）。（五）MaxLβ（v，r）+λww wr∈ρs（Y）最终重建损失为Ls=||（Y-G（X，m;θ））<$Mw||其中G（X，m; θ）是我们的生成模型G的输出，Y是相应的地面真值，θ表示参数。其中Z是归一化因子。当量（8）是等式的归一化版本。（9），其定义了来自Y_L和Y_L的两个扩展块v和s之间关于ively的相似性。β（·，·）是余弦相似度y。 r∈ρs（YL）表示r属于YL，不包括s. h和k是两个正常数。如果v比YL中的其他神经块更像s，则RS（v，s）这些都是可以学习的。g在Mi上的重复卷积传播该变大。在我们的实验中，我们计算LM的和，已知像素对未知像素的置信度然而，在这方面，由于现有像素比未知像素少并且它们几乎是分离的（只有少数未知像素具有相邻的已知像素），置信度传播受到其稀少的邻域支持的阻碍。为了解决这个问题，我们应用两个相邻卷积从预训练的VGG 19网络中提取的conv 3 2和conv 4 2上的G（X，m; θ）和Y作为Lmrf。与其他损失相比，风格损失及其变化，集中于恢复纹理或风格，ID-MRF损失通过在地面实况中引用它们最相对相似的块来加强局部图像细节。1404图4.背景图。使用生成对抗网络的各种生成任务已经验证了对抗训练在图像创建和合成中的有效性。对抗性损失是一种可以学习的优化措施，是产生令人信服的细节的不可或缺的因素。在我们的工作中，采用了具有改进的Wasserstein距离[13]的全局和局部鉴别器[17]。值得注意的是我们设计的专业性。与在修复任务中恢复局部矩形区域（其中局部信息可以被容易地提取）不同，上下文区域（要被预测）围绕给定输入区域，导致难以将局部区域聚合成矩形区域。一个单一的概率。为了解决这个问题，采用了一个掩蔽的补丁包作为上下文包（图-图4）。的输出Dcontext（Y）输入预测值Y_n被定义为：Σ最终学习目标在相对空间变量重建损失、ID-MRF损失和对抗损失的情况下，我们的网络的模型目标表示为L=λsLs+λmrfLmrf+λadvLadv，（12）其中λs、λadv和λmrf是用于平衡回归、局部结构正则化和对抗训练之间的效果3.3. 学习方案为了更好地稳定对抗训练，我们的模型首先进行了预训练，只有重建损失（λ s=5）。然后，我们设λmrf=0。05且λ adv=0。001用于微调SRN直到收敛。在训练过程中，采用学习率为1 e − 4的Adam求解器[22]，其中β1=0。5和β2=0。9 .第九条。训练批次大小为16。输入和输出在范围[−1，1]内线性缩放。4. 实验我们的模型使用TensorFlow v1.4实现，并在配备Intel Xeon E5（2.60GHz）CPU和NVidia TITAN X GPU的PC上进行训练。我们在各种数据集上评估了我们的方法，包括 CelebA-HQ [21] ， CUB 200 [45] ，DeepFashion [27，28]，ETHZ Synthesizability [6]，巴黎街景[31]，Places 2 [50]和Cityscapes [4]。对于每个数据集，模型在训练集上进行训练，并在验证集上进行测试。它们是CUB200和ETHZ合成能力，我们按照柔软材料中的描述进行了分割。我们在三种不同的分辨率设置上训练我们的模型。1)128×128→256×256（用于CelebA-HQ，ETHZ合成性和CUB200）。 2)64×128→256×128（用于DeepFashion）; 3）256×256→256 ×512（巴黎街景、Places 2和Cityscapes）。我们使用输入图像大小来表示下面的设置名称。用于目视和定量评价。我们选择了三个模型进行比较。 CA型是目前的状态-三维上下文（Y）=n∈P（Y∈）p，q∈M↓q（十）使用上下文注意层的艺术修复方法[48]。我们将零值填充的全尺寸图像作为输入，W. r. t.P（Y）=dcontext（Y）<$M↓，其中dcontext（Y）表示Y的特征映射，而↓是最大池化算子。对于SRN，全局/上下文对抗损失定义为使用公开可用的代码重新训练此模型，但为了公平，上下文对抗性损失代替全局和局部对抗性损失。此外，我们还比较了具有不同网络架构的基线模型ED和SRN-HR，这将在第4.3节中详细介绍。新的=−EX<$PX[Dn（G（X;θ））]+4.1. 定量评价λgpEXPX[（||XDn（X）Mw ||2 -1）2]、（11）如先前的图像生成论文[46，48]所示，峰值信噪比（PSNR）和结构其中X=tG（X，m;θ）+（1−t）Y，t∈[0，1]，Y是对应于X的地面真值，并且n∈{context，global}。因此，在本发明中，使用的Ladv=（Lcontext+Lglobal）/2。L1405相似性指数度量（SSIM）不是用于评估条件图像生成任务最佳度量。因此，我们仅在表1中提供这些值以供参考。我们的方法得到的PSNR和SSIM是不稳定的.adv adv1406方法CelebA-HQ-2K CUB200-1.7K DeepFashion-3KPSNR SSIM PSNR SSIM PSNR SSIMED十三岁880的情况。5859十四岁900的情况。574412个。500的情况。5677SRN-HR十三岁880的情况。6183十五岁700的情况。603512个。720的情况。5686加拿大[48]十三岁560的情况。6010十五岁560的情况。646712个。580的情况。5769SRN十四岁010的情况。6171十五岁590的情况。647312个。580的情况。5686表1.验证数据的定量结果CelebA-HQ公司简介DeepFashion[48]第四十八话百分之九十七点五四96.42%93.68%SRN> ED96.02%92.69%91.13%SRN> SRN-HR77.69%69.63%62.25%表2.用户研究统计。每个条目给出了我们的方法的结果被判断为比另一种解决方案更现实的方法64 ×128128 ×128256 ×256CA17.3530.5660.44ED18.9226.6641.81SRN-HR17.7328.9552.50SRN11.0718.1536.75表3.不同结构的运行时间（ms/image）。（一）（b）（c）进行了更有说服力的成对A/B测试的盲用户研究每个调查问卷包括40个成对比较，关于相同输入的两种不同方法的结果。有40名参与者被邀请参加用户研究。他们需要在每一对中选择更真实的图像。所有图像都以相同的分辨率显示-尺寸（256×128、256×256或256×512）。这些比较在不同的方法中是随机的，左右顺序。参与者有无限的时间来决定。在表2中给出的所有条件下，我们的方法都优于基线。关于效率，表3显示了各种分辨率图像的评估时间。请注意，SRN仅占用CA的60%-65%测试时间，具有相似的网络深度，宽度和容量（17.14Mvs. 20.62米）。4.2. 定性评价如图5和图6所示，我们的方法产生了更令人信服的对象，肖像和场景布局，具有从有限视图输入推断出的精细细节。与基线CA相比，我们的方法在语义结构，纹理和边界一致性方面的质量更好。此外，由于我们的模型的填充余量是任意的，SRN可以从不同的位置推断视觉上下文，如图7所示。更多结果见补充材料。4.3. 消融研究网络架构我们分析多种可能的网络设计。比较的网络架构包括三个大到大的设计和一个小到大的设计。从大到大意味着输入首先被填充为与输出相同的大小，而从小到大则直接填充为（a）（b）（c）（a）（b）（c）图5。CelebA-HQ（上）、CUB 200（中）和DeepFashion（下）的视觉比较(a)输入图像。(b)CA的结果[48]。(c)我们的结果。特征扩展算子代诺夫展开子像素PSNR14.9515.0615.02SSIM0.64090.64120.6452表4.在预训练阶段，SRN中不同特征扩展操作符在CelebA-HQ数据集上的定量结果。像SRN一样处理输入大到大的框架包括vanilla编码器-解码器、SRN-HR和由两个顺序编码器-解码器形成的粗到细网络在这里，我们直接采用CA [48]作为粗到细网络。SRN-HR是SRN的一个变体，它用普通卷积替换了FEN中的特征扩展算子，并保留了所有剩余的分量。小到大的设计是SRN。为了公平，网络深度和参数被设置为类似的值。图8显示了给定架构之间的比较。注意SRN和SRN-HR在创建更自然的头发和面部形状方面比CA和ED给出更好的预测，具有更少的视觉伪影，这验证了SRN设计的有效性。与SRN-HR相比，SRN以更少的推理时间产生更逼真的头发纹理（表3），这表明输入的预填充填充损害了最终填充性能和效率。特征扩展算子在我们的实验中，三个特征扩展算子，包括deconv，unfold（对称填充加conv），和子像素卷积，在SRN结构中进行了评价。除了这些操作符之外，三个SRN中的其他组件是相同的。我们评估的1407(a)（b）（c）图6.巴黎街景（上）和城市景观（下）的视觉比较（a）输入图像。（二）研究成果[48]。（c）我们的成果。(a)（b）（a）（b）（a）（b）（a）（b）图7.外推CelebA-HQ（上）和CUB 200（下），具有任意填充余量。（a）输入图像。（b）我们的成果。(a)（b）（c）（d）（e）图8. CelebA-HQ上不同网络结构的视觉比较。(a)输入图像。(b)从粗到细(c)天真的编码解码器。(d)SRN-HR.（e）SRN。（a）（b）（c）（d）（e）图10.在CelebA-HQ上使用CN（或不使用）的目视比较(a) 输入图像。(b)SRN在预培训中不含CN。(c)SRN w/ CN预培训。(d)SRN，不含CN。(e)SRN w/CN。（一）(b)(c)（d）其他事项训练模型预训练模型的相应定量结果见表4，完整模型的示例图像见图9。值得注意的是，这三个SRN的PSNR和SSIM彼此接近。与反卷积和展开相比，亚像素级的SRN方法得到的结果更具有视觉效果图9.不同功能扩展歌剧的视觉对比-名人总部的人(a)输入图像。(b)解卷积(c)展开(d)子像素转换三个SRN在CelebA-HQ上的保真度与他们的前，图9示出了面部结构和纹理的细节。W/O上下文规范化在CelebA-HQ上评估两个SRN。其中一个是上下文规范化（CN）模块，而另一个是没有。他们的忠诚度测试1408W(a)(b)（c）第（1）款图11. CelebA-HQ上不同对抗损失的视觉比较。(a)输入图像。(b)无效的全球对抗性损失。(c) 上下文对抗性损失。(a)(b)（c）第（1）款图13.纹理合成对ETHZ可合成性的视觉比较。(a)输入图像。(b)CA [48]. (c)我们的结果。（a）（b）（c）（d）图12。CelebA-HQ上不同重建损失的视觉比较。(a)输入图像。(b)香草l1损失。(c)信心导致的损失。(d)相对空间变异损失。（a）（b）（a）（b）图14.使用在CelebA-HQ上训练的SRN模型对狗图像进行变形。(a)输入图像。(b)我们的结果。（图12中的发际线和脸部形状）比信心驱动损失（其中Mw=Mc）[44]和com-我的损失。表 5.在 CelebA-HQ 数据集上的SRN中使用上下文归一化（CN）（或不使用）的定量结果。RSV损失CD损失香草l1损失PSNR15.0214.4115.06SSIM0.64520.62290.6478表6.在CelebA-HQ数据集上仅使用SRN中不同重建损失的定量结果（RSV损失：相对空间变异丢失，CD丢失：信心驱动的损失）。在表5中给出，得到的视觉预测在图10中示出。显然，CN提高了SRN的数量和质量。在图10中，CN在预训练和完全训练阶段协调颜色和边界一致性。情境对抗性损失vs. 香草进口 WGAN损失我们对这两种类型的GAN损失的CelebA-HQ进行定性评估（图11），因为PSNR、SSIM和其他指标可能无法反映真实的视觉质量。基本模型是SRN，其中还采用相对空间变异损失和ID-MRF损失。在图11中，具有上下文对抗性损失的SRN比仅具有全局对抗性损失的SRN预测更清晰的毛发细节。相对空间变异损失与信心驱动的损失vs.与常见的11损失（其中Mw=M）相比，具有相对空间变量损失的SRN预训练（等式1）。（5））给出了可比的保真度（表6）。但是，它产生了更鲜明的语义界限-4.4. 其他应用和限制除了未裁剪图片的内容外推，SRN还发现了纹理合成（图13）和变形（图14）的应用关于限制，每个训练模型现在都具有特定的扩展比率（例如，训练用于基于输入预测三倍多的像素的模型仅在相同设置中产生结果此外，像Places2这样拥有数千种场景类型的庞大数据集很难通过生成模型来拟合。随着GAN模型的新研究突破，这个问题可能会有所5. 总结发言我们已经探索了一种深度学习模型，用于对语义敏感的对象进行图像外推。我们总结了挑战在于规模扩张和片面的限制，并通过提出新的网络模块和损耗设计来解决它们。我们的方法取得了良好的语义扩展效果。在未来的工作中，当效率不是问题时，半参数方法将被研究.如最近的工作[32，19]所示，这一系列方法使用检索到的与输入匹配的对象片段来预先填充未知区域，并回归原始材料。此外，将图像扩展应用于具有时间一致性和冗余空间信息的视频是有趣的。使用CN预培训全面培训否是否是PSNR14.4815.0213.9214.01SSIM0.60840.64520.59610.61711409引用[1] Connelly Barnes ， Eli Shechtman ， Adam Finkelstein ，andDanBGoldman.Patchmatch ： Arandomizedcorrespondence algorithm for structural image editing.ACM事务处理图表，28（3）：24，2009.[2] Tao Chen ， Ming-Ming Cheng ， Ping Tan ， ArielShamir，and Shi-Min Hu. Sketch2photo：互联网图像蒙太奇。ACM事务处理图表，28（5）：124，2009.[3] Donghyeon Cho，Jinsun Park，Tae-Hyun Oh，Yu-WingTai，and In So Kweon.用于内容感知深度图像重定向的弱监督和自监督学习。InICCV，2017.[4] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。在CVPR，2016年。[5] Antonio Criminisi Patrick Perez和Kentaro Toyama。通过基于样本的修复去除对象。在CVPR，2003年。[6] Dengxin Dai ， Hayko Riemenschneider ， and Luc VanGool.纹理示例的可合成性。CVPR，2014。[7] Soheil Darabi，Eli Shechtman，Connelly Barnes，Dan BGoldman，and Pradeep Sen.图像融合：使用基于块的合成来组合不一致的图像。 ACM 事务处理图表，31（4）：82，2012.[8] Chao Dong ， Chen Change Loy ， Kaiming He ， andXiaoou Tang. 使用深度卷积网络的图像超分辨率。TPAMI，38（2）：295[9] Vincent Dumoulin和Francesco Visin深度学习卷积算法指南。arXiv预印本arXiv：1603.07285，2016。[10] Alexei A Efros和Thomas K Leung。基于非参数采样的纹理合成。载于ICCV，1999年。[11] Leon Gatys，Alexander S Ecker，and Matthias Bethge.使用卷积神经网络进行纹理合成。InNeurIPS，2015.[12] Leon A Gatys，Alexander S Ecker，and Matthias Bethge.使用卷积神经网络的图像风格转换。在CVPR，2016年。[13] Ishaan Gulrajani 、 Faruk Ahmed 、 Martin Arjovsky 、Vincent Dumoulin和Aaron C Courville。改进的瓦瑟斯坦甘斯训练。NeurIPS，2017。[14] 阿格里姆·古普塔，贾斯汀·约翰逊，亚历山大·阿拉希，李菲菲.表征和提高神经风格转移的稳定性。在CVPR，2017年。[15] Kaiming He，Huiwen Chang，and Jian Sun. 通过扭曲矩形全景图像。ACM事务处理图表，32（4）：79，2013.[16] Xun Huang和Serge J Belongie.实时任意样式传输，具有自适应实例规范化。InICCV，2017.[17] Satoshi Iizuka，Edgar Simo-Serra，and Hiroshi Ishikawa.全局和局部一致的图像完成。ACM事务处理图表，36（4）：107，2017.[18] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。arXiv预印本arXiv：1502.03167，2015。[19] 卡里姆·伊斯卡科夫半参数图像修复。arXiv预印本arXiv：1807.02855，2018。[20] Jiaya Jia和Chi-Keung Tang。图像修复：鲁棒图像合成自适应ND张量表决。在CVPR，2003年。[21] Tero Karras ， Timo Aila ， Samuli Laine ， and JaakkoLehtinen.为提高质量、稳定性和变异性而进行的干细胞生长。arXiv预印本arXiv：1710.10196，2017。[22] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。[23] Johannes Kopf ， Wolf Kienzle ， Steven Drucker ， SingBing Kang.用于图像完成的质量预测。ACM事务处理图表，31（6）：131，2012.[24] Chri s tianLedig ， LucasTheis ， FerencHus za'r ， Jo seCaballero ， Andrew Cunningham ， Alejandro Acosta ，Andrew P Aitken ， Alykhan Tejani ， Johannes Totz ，Zehan Wang，et al.使用生成式对抗网络的照片级真实感单幅图像超分辨率。在CVPR，2017年。[25] Anat Levin，Assaf Zomet和Yair Weiss。学习如何从全局图像统计中进行图像修补。载于ICCV，2003年。[26] Guilin Liu，Fitsum A Reda，Kevin J Shih，Ting-ChunWang，Andrew Tao，and Bryan Catanzaro.使用部分卷积的不规则孔图像修复。 arXiv 预印本 arXiv ：1804.07723，2018。[27] Ziwei Liu，Ping Luo，Shi Qiu，Xiaogang Wang，andXiaoou Tang. Deepfashion：通过丰富的注释实现强大的服装识别在CVPR，2016年。[28] Ziwei Liu，Sijie Yan，Ping Luo，Xiaogang Wang，andXiaoou Tang.野外时尚地标检测。在ECCV，2016年。[29] Roey Mechrez，Itamar Talmi，and Lihi Zelnik-Manor.非对齐数据图像变换的上下文损失。arXiv预印本arXiv：1803.02077，2018。[30] Augustus Odena Vincent Dumoulin和Chris Olah。反卷积和棋盘式伪影。Distill，1（10）：e3，2016.[31] Deepak Pathak 、 Philipp Krahenbuhl 、 Jeff Donahue 、Trevor Darrell和Alexei A Efros。上下文编码器：通过图像修复进行特征学习。在CVPR，2016年。[32] Xiaojuan Qi ， Qifeng Chen ， Jiaya Jia ， and VladlenKoltun.半参数图像合成。在CVPR，2018年。[33] Jimmy SJ Ren ， Li Xu ， Qiong Yan ， and WenxiuSun.Shepard卷积神经网络InNeurIPS，2015.[34] Michael Rubinstein ， Diego Gutierrez ， Olga Sorkine ，and Ariel Shamir.图像重定向的比较研究。ACM事务处理图表，29（6）：160，2010.[35] Qi Shan ， Brian Curless ， Yasutaka Furukawa ， CarlosHernan-dez，and Steven M Seitz.照片未修剪。2014年，在ECCV[36] WenzheShi，JoseCaballero，FerencHusza'r，JohannesTotz ， Andrew P Aitken，Rob Bishop，DanielRueckert，and Zehan Wang.使用有效的子像素卷积神经网络实现实时单幅图像和视频超分辨率。在CVPR，2016年。[37] 孙健，陆远，贾佳雅，沈香扬。用结构传播完成图像。1410ACM Trans. Graph. ，24（3）：8611411[38] Xin Tao，Hongyun Gao，Renjie Liao，Jue Wang，andJiaya Jia.细节揭示深度视频超分辨率。InICCV，2017.[39] 陶新，高红云，沈晓勇，王珏，贾继亚.用于深度图像去模糊的尺度递归网络。在CVPR，2018年。[40] Jonas Uhrig ， Nick Schneider ， Lukas Schneider ， UweFranke，Thomas Brox，and Andreas Geiger.稀疏不变cnn。arXiv预印本arXiv：1708.06500，2017年。[41] Dmitry Ulyanov，Vadim Lebedev，Andrea Vedaldi，andVic- tor S Lem

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

深度生成模型的上下文视觉外推

ChatGPT技术的多轮对话生成与上下文关联方法.docx

keras语言生成模型

深度学习上下文语义信息提取

CABAC 上下文模型

bert大模型上下文

与上下文编码的生成对抗网络相比 普通的生成对抗网络有什么缺点

Transformer模型与以下七个模型的联系：生成式人工智能模型包括： 1.自回归模型 2.自编码器 3.基于变分自编码器的生成模型 4.基于生成对抗网络的生成模型 5.基于流的生成模型 6.超分辨率模型 7.生成式对话模型

模型设置中的上下文长度是指什么

DCIOM深度学习模型

Entity Framework 如何使用命令生成实体和上下文 非 core版本

NNLM模型如何嵌入上下文

访问openai的接口，如何才能让它有理解上下文的能力？

目前最流行的深度学习模型

transformer生成模型

基于bert的关键词生成模型

目标检测模型获得全局上下文信息的好处

举例说明CABAC的上下文模型

深度学习模型感受野大小与其层深度不成比例

gpt-3.5-turbo 上下文功能

生成一份根据标签裁剪上下文的代码

最新资源

与上下文编码的生成对抗网络相比普通的生成对抗网络有什么缺点

Entity Framework 如何使用命令生成实体和上下文非 core版本