上下文外扩：基于对象级对比学习的背景内容合成

136 浏览量更新于2023-10-25 收藏 21.57MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

114510基于对象级对比学习的上下文外扩0李佳成 1 陈畅 2 熊志伟 1 *01 中国科学技术大学 2华为技术有限公司诺亚方舟实验室0图1.上下文外扩：根据前景内容合成连贯和自然的背景内容。所提出的方法首先预测多样化的语义布局，然后在预测的语义布局的指导下合成逼真的背景内容。对于每个示例，我们分别展示了输入前景图像和真实背景图像后，由我们的方法生成的语义布局（红色虚线框）和外扩图像（红色框）。0摘要我们研究了上下文外扩问题，其目标是根据剩余的前景内容来幻想缺失的背景内容。现有的图像外扩方法主要关注完成物体形状或扩展现有的场景纹理，忽略了缺失内容与剩余内容之间的语义相关性。为了探索剩余前景内容提供的语义线索，我们提出了一种新颖的上下文外扩生成对抗网络（CTO-GAN），利用语义布局作为桥梁来合成连贯和多样化的背景内容。为了建模前景和背景内容之间的上下文关联，我们引入了一种基于对象级对比损失的方法，以规范前景内容和相应的背景语义布局的跨模态表示的学习，从而实现准确的语义推理。此外，我们通过在对抗训练中检测生成的上下文来提高生成背景内容的逼真度。大量实验证明，与现有解决方案相比，所提出的方法在具有挑战性的COCO-stuff数据集上实现了更好的性能。项目页面：https://ddlee-cn.github.io/cto-gan。0* 通讯作者：zwxiong@ustc.edu.cn。01. 引言0图像外扩，也称为图像外推或图像扩展，是计算机视觉中一个历史悠久的任务。许多现实世界的场景对高质量的图像外推有很强的需求，例如在虚拟现实中模拟当前视觉内容的不同视角。早期的图像外扩方法依赖于检索和拼接过程来扩展图像块[18, 49,69]。最近，基于学习的方法在合成视觉上取得了令人瞩目的进展[13, 21, 53,61]。然而，现有的图像外扩方法主要关注完成物体形状或扩展现有的场景纹理，未探索前景和背景内容之间的上下文关系。0在这项工作中，我们研究了一种名为上下文外扩（contextualoutpainting）的变体问题，其目标是从剩余的前景内容中合成连贯和自然的背景内容，如图1所示。作为人类，我们很容易根据常见物体来幻想出经验性的上下文，因为我们在日常生活中无意识地将物体与它们的上下文联系起来。上下文外扩技术有许多潜在的应用，例如为在线广告、电影制作和增强现实中的显著对象生成可信的背景。114520然而，对于机器来说，上下文外扩任务比之前的图像补全任务（即修复和外扩）更加困难，有两个方面的原因。首先，信息冗余的假设被违反，因为前景和背景内容在外观上几乎没有共同之处。其次，为了利用剩余前景内容提供的约束，有必要在语义级别上理解场景内部的相关性。为了解决上述障碍，我们利用语义布局作为桥梁，以生成方式利用前景和背景内容之间的上下文关联。具体而言，如图2所示，我们提出了一种新颖的上下文外扩生成对抗网络（CTO-GAN），首先从剩余前景内容中推断出可能的语义布局，然后在其指导下合成相应的背景内容。我们使用变分自动编码器（VAE）从剩余前景内容中预测多样化的语义布局。为了更好地建模前景和背景内容在语义级别上的上下文关联，我们提出了一种基于对象级对比损失的方法，以辅助学习前景内容和背景语义布局的表示。具体而言，我们将前景像素和背景语义布局的特征编码为相同的跨模态嵌入空间，并在“通过对比关系进行关联”范式中规范它们的表示学习，鼓励网络将给定的前景内容拉向连贯的语义布局，并将不相关的语义布局推开。此外，为了防止鉴别器仅基于未触及的前景内容做出懒惰的决策，我们引入了一个额外的上下文感知鉴别器，用于检测生成图像中的哪个区域是伪造的，使生成器更难欺骗鉴别器，从而提高生成图像的质量。我们在具有挑战性的COCO-stuff数据集[5]上进行了大量实验，并展示了我们的方法能够生成连贯和多样化的背景内容，优于现有的解决方案。02. 相关工作0图像外描绘。早期的外描绘方法首先从候选池中搜索相似的补丁，然后将检索到的补丁与输入图像拼接起来完成外推[18，49，69]。最近，引入了基于学习的方法来利用从大型数据集中学到的表示[13，21，53，61]。以下工作是基于边缘引导[26，28，54，55]，实例掩码[4，19]，补丁重新排列[20]和GAN反演[8]进行的。上述方法主要集中在扩展正常部分，如中心或一半的部分0该图像并生成现有的场景纹理或完整的图像形状。与我们最接近的工作是多模态图像外描绘[66]，其旨在通过规范化多样化来征服生成背景内容时的模式崩溃现象。不同的是，我们对前景和背景内容的联合分布进行建模，并为剩余的前景内容产生连贯的上下文。图像修复。现有的修复方法可以分为两组：单解和多解。大多数早期的单解方法基于扩散[3，24]和补丁匹配[2，10]。最近，基于学习的方法将图像修复任务建模为条件生成问题，利用大型数据集提取强大的先验[17，25，31，33，38，52，60，62，63，64，72]。许多工作引入了诸如边缘[35，58，59]，语义布局[43]，类标签[22]，平滑图像[32，41]和语义纹理[27]等线索，以指导缺失内容的预测。同时，多解方法旨在给定一个损坏的图像合成多个合理的结果。提出了基于VAE[70，71]，GAN[34]，VQ-VAE[39]和transformers[11，48]的方法。从大型数据集中提取的先验主要关注类内一致性，而我们的方法基于前景和背景内容之间的上下文关系建模推断出类间先验。对比学习。随着自监督表示学习[7，14，45]的进展，对比学习引起了社区的越来越多的兴趣。大多数基于图像级对比学习的方法依赖于精心设计的增强过程来生成合适的正样本。最近的研究兴趣从图像级转向像素级或对象级，其中可以自然定义正样本和负样本。在目标检测[56]，语义分割[51]和对象级表示学习[57]等领域取得了进展。另一方面，还引入了用于深度图，语义布局，音频和文本等跨模态数据的对比学习方法[1，44，65]。我们的方法通过在对象级别（前景vs背景）和跨模态（图像vs语义布局）上操作来与上述工作区分开来。上下文建模。上下文信息已在许多计算机视觉任务中得到利用，例如视觉识别[9，12，15]，表示学习[36，38]和动态预测[47]。最近，基于学习的方法根据上下文合成和插入对象[23，67]或从对象预测上下文[40]。这些方法可以在图像或分割图上操作。相比之下，我们采用“通过对比关系”范式来建模前景内容和背景语义布局之间的跨模态上下文关系。⨁̂̂I⨁LKL̂̂̂�po��animalacce��o��o��doo��ehiclepe��onindoo�appliancef��ni��eelec��onicfoodki�chen�a�e�g�o�nd�olid�k��c��alf��ni��e-��b�ilding plan��e��ile�a�-ma�e�ial�indo��oo�food-��allceiling18.2%17.8%13.4%12.5%7.44%5.83%5.64%3.9%groundplantwallsk�furniture-stu�buildingwater�oortextileraw-materialstructuralsolidwindowceilingfood-stu�L�ading [Ma�hJa�]/e��en�i�n�/Ma�hMen�.j�114530G背景0G 图像0� S背景0E fg0G bg0G im bg }0Ifg0�(0,1) �(0,1)0∙ ∙∙0∙ ∙∙0∙ ∙∙0样本0zbg0zfg0zfg0{ � zbg }0{ � I}0训练推理0Sbg0z0SPDNorm0SPDNorm0z0− − h fg (Sec.3.3)0监督0监督0图2.所提出的CTO-GAN的概述。左：我们独立地训练所提出的方法的两个阶段：语义推理（蓝色）和内容生成（紫色）。首先，将输入的前景图像I fg 和背景语义布局S bg 分别由前景编码器E fg 和背景编码器E bg 编码为潜在代码z fg 和z bg，然后通过布局生成器G bg解码为语义布局。其次，以S bg 为条件输入，图像生成器G img 学习将I fg 进行修复以获得最终的输出图像ˆI。注意，我们在插图中省略了鉴别器以简化说明。右：在推理时，从已知分布（例如N(0,1)）中采样{ˆ z bg}。然后，G bg 和G img 从{ˆ zbg}和I fg 合成多样的背景语义布局和内容。�表示连接操作。这些组件的详细架构在补充材料中提供。0(b) (a)0图3. (a)COCO-Stuff数据集[5]中按背景类别分组的像素面积统计。(b)通过计算共现次数揭示的前景和背景类别之间的上下文关系。我们突出显示了人+运动→地面（蓝色）和人+动物→植物（绿色）的上下文相关性。03. 上下文修复03.1. 揭示上下文关系0最近的基于学习的修复方法从大规模数据集中提取外观先验知识。例如，COCO-Stuff数据集[5,30]包含具有物体（前景）和物质（背景）类别的多样化图像块。背景类别的数据集级分布可以通过按类别标签分组的像素面积统计来描述，如图3(a)所示。利用不同类别的提取的图像块外观先验知识，基于学习的修复方法能够根据类内相似性填充缺失区域。但是，这些类内外观先验知识对于上下文修复任务来说是不够的，其关键在于理解剩余区域与背景之间的上下文关系。0我们通过计算超类之间的共现次数来揭示数据集中的类间上下文相关性，以揭示数据集中的类间上下文相关性。如图3(b)所示，具有特定前景类别的一组对象更有可能出现在特定的上下文中。例如，人和运动类与地面相关，而人和动物与植物相关。从这个角度来看，我们假设共享相似前景类别的图像也会共享相似的背景上下文，并将数据集重新组织成图像组。在每个组内，前景图像应与共享的上下文语义相关联。我们通过引入语义布局作为桥梁信息，并将这些共享的相似语义布局设置为每组前景图像的训练目标，以生成这些关联。03.2. 上下文修复生成对抗网络（CTO-GAN）0从上述观察中，我们设计了CTO-GAN，利用语义布局作为桥梁来建模前景和背景内容之间的上下文相关性。通过语义布局将前景和背景内容连接起来的好处有两个。首先，语义布局位于一个更紧凑的域中，更容易被神经网络抽象化。其次，它明确描述了剩余前景内容的中间语义推理结果，使我们的方法更具可解释性。如图2所示，我们首先从前景图像Ifg 推断出可能的语义布局ˆ S bg，然后以预测的ˆ S bg作为条件信号获得修复图像ˆI。在训练过程中，提出的CTO-GAN包含两个独立的阶段：语义推理和内容生成。在语义推理阶段，一个条件VAE,̂114540E bg0E fg0hfg0h +0h −0h −0h −0图4. “对比关系”范式。提出的CMC损失通过将 h fg拉向上下文一致的语义 ( h + ) 并将不在上下文中的语义 ( h − )推开来规范编码器的学习过程。我们在左下角显示原始图像以供参考。0被训练用于建模前景和背景内容的联合分布。它由背景编码器 E bg ，前景编码器 E fg 和背景布局生成器 G bg组成。给定前景图像 I fg 和背景语义布局 S bg ，E fg 将 Ifg 编码为潜在编码 z fg ，E bg 将 S bg编码为分布，从中重新采样背景潜在编码 z bg 。然后，Gbg 将 z fg 和 z bg 解码为ˆ S bg。在内容生成阶段，图像生成器 G img 学习将 I fg进行超出绘制以获得ˆ I 。我们使用SPDNorm[37]条件方案并从随机噪声 z进行上采样。在推理过程中，背景语义布局在前景和背景内容之间起到桥梁作用。从正态分布中采样，潜在编码 {ˆ zbg} 被解码为多个语义布局 {ˆ S bg} ，在给定前景潜在编码z fg 的条件下。然后，G img 将 I fg进行超出绘制以获得多样化结果 {ˆ I} 在 {ˆ S bg}的帮助下。03.3. 对比关系范式0为了更好地利用前景和背景内容之间的上下文关系，我们采用了对象级对比学习的思想，在语义推理阶段对内容进行编码。具体来说，通过前景编码器 E fg 和背景编码器 E bg，我们将前景图像 I fg 和背景语义布局 S bg映射到相同的跨模态嵌入空间。如图4所示，在这个共享空间中，前景表示 h fg被视为锚点，来自同一图像组的背景表示作为正样本 h +，来自其他图像组的背景表示作为负样本 h −。从这个角度来看，我们制定以下用于训练的跨模态对比(CMC) 损失0CMC损失 ( h fg , h + , h − ) =0− log0� exp ( h fg ∙ h + /τ )0exp ( h fg ∙ h + /τ ) + � N n =1 exp � h fg ∙h − n /τ �0�0D det0� I0没有伪造区域0伪造区域0I0D得分图0L GAN −det0图5.上下文感知的鉴别器。提出的上下文感知的鉴别器通过使用真实掩码的监督来检测合成上下文的区域。0其中 τ表示温度值。这个正则化项通过将前景编码器拉近上下文一致的语义并将不在上下文中的语义推开，帮助前景编码器得到一个更好的结构化嵌入空间。它使得 E fg能够根据其最相关的背景语义对前景图像进行编码，促进语义推理过程。在实践中，我们利用另一个动量编码器 E bg通过MoCo方案[14]提供大量的负样本。然后，通过卷积进一步抽象学习到的表示以获得潜在编码 z fg 和 z bg 。03.4. 上下文感知的鉴别器0由于前景图像在上下文超出绘制任务中被保留，区分生成图像的真实性的普通鉴别器可能会被几乎未改动的前景像素所欺骗。为了解决这个问题，我们提出了一个上下文感知的鉴别器，用于检测生成图像的合成区域，并将其应用于内容生成阶段进行上下文感知的对抗训练。如图5所示，上下文感知的鉴别器 D det预测一个得分图，指示每个空间位置的真实或伪造的概率。我们使用二进制交叉熵 (BCE)准则和输入掩码作为目标来监督 D det的学习。在优化过程中，以下损失交替更新0L GAN − det ( D det ) = E(D det (ˆI), m) + E(D det (I), m0),0L GAN − det (G img ) = E(D det (ˆI), m0),0其中E表示BCE准则，m表示地面真实掩码，m0表示所有值为零的掩码张量，表示地面真实图像I中没有伪造区域。03.5. 损失函数0除了用于语义推理的CMC损失外，我们还利用Kullback-Leibler散度项将z bg 的采样规范化为正态分布，如下所示：0L KL (E bg ) = D KL (E bg (z bg | S bg ) ||N(0, 1)),114550图6. 我们方法生成的视觉结果。提出的CTO-GAN预测具有不同类别和形状的连贯且多样化的语义布局，然后合成逼真的背景内容。0其中DKL表示KL散度距离。此外，交叉熵损失和焦点损失[29]在多个尺度上应用于监督背景语义布局的生成。根据之前的工作[50]，我们采用多尺度补丁鉴别器进行对抗训练。在内容生成阶段，我们利用预训练的VGG网络[42]的ℓ1距离和特征匹配距离来监督生成图像的重建。除了提出的上下文感知鉴别器，我们还应用了一个多尺度补丁鉴别器，其中语义布局作为条件输入来判断生成图像的真实性和与期望布局的对齐情况。鉴别器提取的多尺度特征用于特征级重建。CTO-GAN的两个阶段并行训练，它们各自的损失项通过超参数在优化过程中平衡。04. 实验04.1. 设置0数据集。我们在COCO-Stuff数据集[5,30]上进行实验，该数据集包含80个物体（前景）类别和91个背景（背景）类别。通过在常见上下文中搜索常见对象进行收集，COCO-Stuff数据集封装了丰富而具有挑战性的类之间的上下文相关性。它包括超过118K个训练图像和5K个验证图像。我们专注于室外场景，并省略了具有太小前景的图像。0地面区域，共有53,865个训练图像和2,252个测试图像。在训练过程中，对于每个图像，我们构建掩码来指示缺失的背景区域，其中像素被注释为物质类别。我们将所有图像重新缩放为256×256像素。有关前景区域和具有全物质注释的背景语义布局的伪物质注释的详细过程，请参见补充材料。比较方法。我们将提出的方法与单解决方案和多解决方案的图像补全方法进行比较，包括GatedConv[63]（修复，单解决方案），Boundless[21]（外扩，单解决方案），Multimodal ImageOutpainting（MIO）[66]（外扩，多解决方案），Pluralistic ImageCompletion（PIC）[71]（修复，多解决方案）和DiverseStructures forInpainting（DSI）[39]（修复，多解决方案）。实现细节。CTO-GAN语义推理阶段的编码器和生成器遵循PIC[71]。CTO-GAN的内容生成阶段受到SPADE[37]的启发。我们添加了一个类似UNet的生成器，以聚合输入的前景图像和背景特征以获得最终结果。上下文感知鉴别器遵循DeepLabV2[6]的架构。其他鉴别器的架构类似于pix2pixHD[50]，但在内容生成阶段的鉴别器中，将语义布局的投影作为条件输入。我们的方法使用PyTorch实现，并在2个NVIDIA GTX 3090 GPU上进行训练。114560输入0真实图像0GatedConv Boundless MIO PIC0DSI 我们的方法0图7.与现有方法的定性比较。对于每个示例，从上到下，从左到右，图片依次为：输入前景图像，GatedConv [63]的结果，Boundless[21]的结果，MIO [66]的结果（蓝框中），PIC [71]的结果（紫框中），真实图像，DSI[39]的结果（黄框中）和我们的方法的结果（红框中）。0真实图像0图像0适应的0结果0物体初始输入0初始结果0图8.我们的方法为操作的输入前景图像生成的场景自适应结果。04.2.主要结果0定性结果。我们在图6中可视化了我们的方法生成的语义布局和修复结果。可以看出，我们的方法生成了连贯且多样化的语义布局，以及逼真的背景内容。我们将我们提出的方法与现有方法进行了视觉质量比较，如图7所示。尽管比较方法可以生成合理的颜色，但它们往往会预测模糊的纹理或无关的内容。相比之下，提出的CTO-GAN能够合成语义连贯的内容和生动的纹理。例如，在图7的第一个示例中，我们的方法在早晨和日落时都产生了天空景色。此外，我们通过操纵输入图像的前景对象的语义类别和空间关系来分析我们的方法的场景理解能力。如图8所示，我们的方法根据呈现的前景对象及其空间位置的语义变化预测适应的结果。0指标感知语义主观失真0定量比较。我们使用多个指标评估和比较我们的方法与现有方法。我们采用基于深度特征的指标FID [16]和LPIPS[68]来评估修复图像的感知质量，因为深度特征与人类视觉系统的一致性优于传统指标[68]。为了评估生成图像的语义连贯性，我们使用预训练的DeepLabV2模型[6]进行语义分割，并计算加权平均交并比（mIoU）和像素准确率（Accu）。这些指标是在10个随机样本上计算的。MetricPerceptualSemanticSubjectiveDistortionoryus-114570FID ↓ LPIPS ↓ mIoU ↑ 准确率 ↑ 平均排名 ↓ PSNR ↑ SSIM ↑0GatedConv 40.10 0.436 26.6 38.2 4.25 14.29 0.436 Boundless 31.11 0.411 26.8 38.8 3.40 15.540.5140MIO 60.33 0.487(0.455) 26.6 31.6 5.39 11.36(12.86) 0.433(0.462) PIC 33.14 0.417(0.378) 25.439.0 3.92 14.37(15.88) 0.467(0.510) DSI 30.74 0.395(0.351) 26.6 39.1 2.42 14.94(16.22)0.494(0.542) 我们的方法 27.34 0.371(0.341) 31.5 47.0 1.61 14.79(16.01) 0.529(0.560)0表1.与现有方法的定量比较。对于多解决方案方法，我们以平均（最佳）的形式报告LPIPS、PSNR和SSIM的性能。我们的方法在几乎所有指标上都优于现有解决方案，尤其是在感知质量和语义连贯性方面。0人体育动物人车辆车辆动物人0GatedConv 0.714 0.594 0.639 0.651 0.732 Boundless 0.7040.602 0.639 0.644 0.7320MIO 0.594 0.476 0.574 0.595 0.632 PIC 0.699 0.569 0.6140.630 0.716 DSI 0.721 0.573 0.616 0.620 0.732 我们的方法0.702 0.644 0.645 0.661 0.7540表2.前5个前景超类组合的语义精度。0（a）（b）0图9. 对比正则化的有效性通过t-SNE可视化前景图像的学习表示（hfg ）来说明。 (a)如果没有对比正则化，同一类别内的学习表示相互分离，导致语义推理不准确。 (b)使用所提出的对比正则化，具有相似语义类别的前景图像被很好地分组。 ▲ 表示具有人+冲浪板类别的前景图像，▼ 表示人+船，■表示人+汽车+公交车。0解决方案方法。如表1所示，我们的方法在几乎所有指标上优于现有解决方案，特别是在感知质量和语义连贯性方面。我们还报告了参考的畸变度量峰值信噪比（PSNR）和结构相似性指数（SSIM），尽管所有方法在像素级恢复方面表现不佳。此外，我们还报告了表2中前5个超类组合的语义准确率。0FID ↓ LPIPS ↓ mIoU ↑ 准确率 ↑0我们的（无对比正则化） 33.19 0.407 25.6 38.0我们的（无上下文鉴别器） 28.31 0.387 31.1 46.4 我们的27.34 0.371 31.5 47.00表3. 对比正则化（contra. reg.）和上下文感知鉴别器（contextdis.）的消融研究。0表2中前5个超类组合的准确率。它衡量了每种方法生成的语义类别的准确性。我们的方法在大多数组合中优于现有解决方案。对于多样性指标，我们使用测试集中1K张图像的5个样本之间的平均配对LPIPS距离（LPIPS-D）进行衡量。如前期研究[39,48]所讨论的，无意义但多样化的完成结果可能导致较高的LPIPS-D，因此我们在图11(a)中同时显示了FID指标。我们的方法在LPIPS-D方面与PIC和DSI达到了类似的性能。最后，我们进行了主观评估，要求20名参与者对比方法和我们的方法为20个随机输入图像生成的结果进行排名。我们在表1中报告了平均排名。可以看出，我们的方法获得了最有利的结果。04.3. 消融研究0对比正则化的有效性。我们通过比较前景编码器学习到的表示来验证利用CMC损失的正则化效果。具体来说，我们从前景编码器获取测试图像的学习表示（h fg），并运行t-SNE算法[46]在二维平面上可视化这些表示。如图9(a)所示，如果没有对比正则化，不同前景图像的学习表示会相互交叉，导致语义推理不准确。相比之下，如图9(b)所示，我们的对比正则化使具有相同语义类别的前景图像被很好地分组。注意，即使是来自114580输入0我们的0我们的（无上下文鉴别器）我们的（无对比正则化）0真实图像0图10. 对比正则化（contra. reg.）和上下文感知鉴别器（contextdis.）的消融研究结果。0由于它们在上下文中共享一致性，其他类别被分组在一起，尽管它们在外观上非常不同。此外，如图10所示，如果没有我们的对比正则化，相交的表示可能会导致预测常见但不准确的语义。如表3所示，我们的方法通过对象级对比正则化实现了更好的定量性能，因为它有助于推理缺失的背景语义并合成连贯的语义布局。上下文感知鉴别器的效果。我们重新训练CTO-GAN的内容生成阶段，而不包含所提出的上下文感知鉴别器。如表3所示，使用我们的上下文感知鉴别器训练的方法在感知质量和语义连贯性方面取得了更好的性能。这也可以在图10中观察到。给定相同的语义布局，我们使用所提出的上下文感知鉴别器训练的方法生成更真实、生动的背景内容，而没有使用上下文感知鉴别器训练的方法将不同类别（海洋和沙滩）混合在一起。在同一图像组内共享语义的效果。如3.1节所述，我们将图像重新组织成组，并在每个组内共享语义。在训练过程中，我们通过超参数γ控制训练图像中涉及共享语义布局的百分比。我们采用广泛使用的精度和召回曲线来评估生成的语义类别的准确性和覆盖范围。如图11(b)所示，如果不共享语义（γ=0），我们的方法可以实现高精度，但召回率较低。在训练过程中涉及共享语义布局有助于增加我们方法的语义多样性。我们选择γ=0.25来在语义准确性和覆盖范围之间取得平衡。更多实验结果和交互演示见补充材料。04.4. 限制0我们的方法在某些情况下失败。如图12的第一个示例所示，我们的方法无法生成具有太多类别和细粒度边界的语义布局。如第二个示例所示，当照片是0图11. 与现有多解方法的多样性定量比较。（a）FID vsLPIPS-D平面。（b）语义精度vs召回曲线。n表示生成的样本数量。0输入图像0真实值0图像0修复后0图像0真实值0布局0生成的0布局0图12. 我们方法的失败案例。0单色，我们假设语义布局为背景生成提供了必要的线索，但这导致了输出图像中不一致的风格。我们的未来工作将包括引入更明确的约束，如边界框和场景图，以促进背景语义和内容的推理和生成。05. 结论0在这项工作中，我们提出了CTO-GAN，根据剩余的前景内容生成连贯且多样化的背景内容。我们的方法利用语义布局作为桥梁，并利用对比正则化来建模前景和背景内容之间的上下文相关性。我们在具有挑战性的COCO-stuff数据集上进行了大量实验，并展示了我们的方法的语义推理能力以及其优于现有解决方案的优越性。0致谢0我们感谢中国国家重点研发计划（2017YFA0700800号）和中国国家自然科学基金（62131003号和62021001号）的资助。114590参考文献0[1] Humam Alwassel，Dhruv Mahajan，BrunoKorbar，Lorenzo Torresani，Bernard Ghanem和Du Tran.通过跨模态音频-视频聚类进行自监督学习。在NeurIPS，2020年。20[2] Connelly Barnes，Eli Shechtman，Adam Finkelstein和DanB. Goldman.Patchmatch：一种用于结构图像编辑的随机对应算法。ACM0[3] Marcelo Bertalm´ıo，Guillermo Sapiro，VicentCaselles和Coloma Ballester. 图像修复。在ACMSIGGRAPH，2000年。20[4] Richard Strong Bowen，Huiwen Chang，CharlesHerrmann，Piotr Teterwak，Ce Liu和Ramin Zabih.Oconet：通过对象完成的图像外推。在CVPR，2021年。20[5] Holger Caesar，Jasper R. R. Uijlings和Vittorio Ferrari.Coco-stuff：上下文中的物体和物品类别。在CVPR，2018年。2，3，50[6] Liang-Chieh Chen，George Papandreou，IasonasKokkinos，Kevin Murphy和Alan L. Yuille.Deeplab：具有深度卷积网络，扩张卷积和完全连接CRF的语义图像分割。IEEE Trans. Pattern Anal. Mach.0[7] Ting Chen，Simon Kornblith，MohammadNorouzi和Geoffrey E. Hinton.一种用于对比学习视觉表示的简单框架。在ICML，2020年。20[8] Yen-Chi Cheng，Chieh Hubert Lin，Hsin-Ying Lee，JianRen，Sergey Tulyakov和Ming-Hsuan Yang.In&out：通过GAN反演进行多样化图像外推。arXiv:2104.00675，2021年。20[9] Myung Jin Choi, Antonio Torralba, and Alan S. Willsky.上下文模型和上下文外对象。模式识别信函，33（7）：853-862，2012年。20[10] Soheil Darabi，Eli Shechtman，Connelly Barnes，Dan B.Goldman和Pradeep Sen.图像融合：使用基于补丁的合成结合不一致的图像。ACM Trans.Graph.，31（4）：82：1-82：10，2012年。20[11] Ye Deng, Siqi Hui, Sanping Zhou, Deyu Meng, and JinjunWang. 学习上下文变换网络进行图像修复. 在 ACM MM , 2021. 20[12] Santosh Kumar Divvala, Derek Hoiem, James Hays, AlexeiA. Efros, and Martial Hebert. 对象检测中上下文的实证研究. 在CVPR , 2009. 20[13] Dongsheng Guo, Hongzhi Liu, Haoru Zhao, YunhaoCheng, Qingwei Song, Zhaorui Gu, Haiyong Zheng, and BingZheng. 螺旋生成网络用于图像外推. 在 ECCV , 2020. 1 , 20[14] Kaiming He, Haoqi Fan, Yuxin Wu, Saining Xie, and RossB. Girshick. 动量对比用于无监督视觉表示学习. 在 CVPR , 2020. 2, 40[15] Geremy Heitz and Daphne Koller. 学习空间上下文:利用物体寻找物体. 在 ECCV , 2008. 20[16] Martin Heusel, Hubert Ramsauer, Thomas Unterthiner,Bernhard Nessler, and Sepp Hochreiter.通过两个时间尺度更新规则训练的GAN收敛到局部纳什均衡. 在NeurIPS , 2017. 60[17] Satoshi Iizuka, Edgar Simo-Serra, and Hiroshi Ishikawa.全局和局部一致的图像补全. ACM Trans. Graph. ,36(4):107:1–107:14, 2017. 20[18] Biliana Kaneva, Josef Sivic, Antonio Torralba, Shai Avi-dan, and William T. Freeman. 无限图像:创建和探索大规模逼真的虚拟空间. Proc. IEEE , 98(8):1391–1407,2010. 1 , 20[19] Bholeshwar Khurana, Soumya Ranjan Dash, AbhishekBha- tia, Aniruddha Mahapatra, Hrituraj Singh, and KuldeepKulkarni. Semie: 语义感知的图像外推. 在 ICCV , 2021. 20[20] Kyunghun Kim, Yeohun Yun, Keon-Woo Kang, KyeongboKong, Siyeong Lee, and Suk-Ju Kang.通过双向重排和渐进式步骤学习进行边缘引导的图像外推. 在WACV , 2021. 20[21] Dilip Krishnan, Piotr Teterwak, Aaron Sarna, AaronMaschinot, Ce Liu, David Belanger, and William T. Free- man.无限: 用于图像扩展的生成对抗网络. 在 ICCV , 2019. 1 , 2 , 5 , 60[22] Avisek Lahiri, Arnav Kumar Jain, Sanskar Agrawal, PabitraMitra, and Prabir Kumar Biswas.基于先验引导的GAN的语义修复. 在 CVPR , 2020. 20[23] Donghoon Lee, Sifei Liu, Jinwei Gu, Ming-Yu Liu, Ming-Hsuan Yang, and Jan Kautz. 上下文感知的对象实例合成和放置.在 NeurIPS , 2018. 20[24] Anat Levin, Assaf Zomet, and Yair Weiss.从全局图像统计中学习修复图像. 在 ICCV , 2003. 20[25] Jiacheng Li, Zhiwei Xiong, Dong Liu, Xuejin Chen, andZheng-Jun Zha. 带有条件单图像GAN的语义图像类比. 在 ACMMM , 2020. 20[26] Yijun Li, Lu Jiang, and Ming-Hsuan Yang.可控和渐进的图像外推. 在 WACV , 2021. 20[27] Liang Liao, Jing Xiao, Zheng Wang, Chia-Wen Lin, andShin’ichi Satoh. 由语义和纹理的一致性优先引导的图像修复. 在CVPR , 2021. 20[28] Han Lin, Maurice Pagnucco, and Yang Song.边缘引导的渐进生成图像外推. 在 CVPR Work- shops , 2021. 20[29] Tsung-Yi Lin, Priya Goyal, Ross B. Girshick, Kaiming He,and Piotr Doll´ar. 密集目标检测的焦点损失. 在 ICCV , 2017. 50[30] Tsung-Yi Lin, Michael Maire, Serge J. Belongie, JamesHays, Pietro Perona, Deva Ramanan, Piotr Doll´ar, and C.Lawrence Zitnick. Microsoft COCO: 上下文中的常见对象. 在ECCV , 2014. 3 , 50[31] Guilin Liu, Fitsum A. Reda, Kevin J. Shih, Ting-ChunWang, Andrew Tao, and Bryan Catanzaro.使用部分卷积进行不规则孔洞的图像修复. 在 ECCV , 2018. 20[32] Hongyu Liu, Bin Jiang, Yibing Song, Wei Huang, andChao Yang. 通过互相编码器-解码器和特征均衡重新思考图像修复.在 ECCV , 2020. 20[33] 刘洪宇，姜斌，肖毅，杨超. 一致的语义注意力用于图像修复.在ICCV中，2019年. 20[34] 刘洪宇，万子宇，黄伟，宋义兵，韩新童，廖静. PD-GAN:用于图像修复的概率多样性GAN. 在CVPR中，2021年. 20[35] Kamyar

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

上下文外扩：基于对象级对比学习的背景内容合成

【Java设计模式-源码】上下文对象模式：简化上下文数据的访问

js上下文理解

android 上下文对象有几个

java怎么自定义上下文对象

selinux安全上下文命名

什么是spring上下文

进程上下文中，包含 PCB 的是：（ ） A ．系统级上下文 B ．用户级上下文 C ．寄存器上下文 D ．系统堆栈

unity 获取上下文

flask中的上下文怎么理解

如何理解android 上下文对象

基于深度学习的背景消去算法有哪些

进程上下文、线程上下文、中断上下文

activity中有多个view对象，让其中的某些对象弹出上下文菜单

Spring 上下文

对于题目：基于图像处理的农作物害虫诊断系统的设计与实现，介绍项目背景、项目发展趋势、项目技术路线，本 文从哪些方面迚行了调研

上下文对象

在对话机器人项目中，硬件开发平台：基于esp-s3-box的aiot开发套件 的研究内容和技术

java Servlet的上下文

第三章关于软件架构的许多上下文 3.1技术上下文下的体系结构 3.2项目生命周期上下文下的架构 3.3业务上下文中的体系结构 3.4专业上下文下的建筑 3.5利益相关者 3.6架构是如何受到影响的？ 3.7架构影响什么？

如何利用transformer提升背景感知能力

最新资源

进程上下文中，包含 PCB 的是：（） A ．系统级上下文 B ．用户级上下文 C ．寄存器上下文 D ．系统堆栈

对于题目：基于图像处理的农作物害虫诊断系统的设计与实现，介绍项目背景、项目发展趋势、项目技术路线，本文从哪些方面迚行了调研

在对话机器人项目中，硬件开发平台：基于esp-s3-box的aiot开发套件的研究内容和技术