复杂场景生成的多尺度对比学习

89 浏览量更新于2023-10-15 收藏 1.29MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

764复杂场景生成的多尺度对比学习方法Hanbit Lee Youna Kim Sang-goo Lee首尔国立大学，韩国{skcheon，anna9812，sglee} @ europa.snu.ac.kr摘要生成对抗网络（GAN）的最新进展已经实现了对单个对象图像的照片般逼真的合成然而，建模更复杂的分布，如多个对象的场景，仍然具有挑战性。困难源于场景配置的不可估量的多样性，场景配置包含放置在不同位置的不同类别的多个对象。在本文中，我们的目标是通过一个局部定义的自我监督的借口任务，以减轻困难，提高辨别能力的机器人。为此，我们设计了一个判别器来利用多尺度局部反馈，引导生成器更好地对场景中的局部语义结构进行建模。然后，我们要求神经网络在多个尺度上进行像素级的对比学习，以增强对局部区域的区分能力。在几个具有挑战性的场景数据集上的实验结果表明，与最先进的基线相比，我们的方法提高了合成质量1. 介绍近年来，生成对抗网络（GAN）[11]由于对网络结构[35，53，3，24，25，38]，目标函数[30，1，27]和正则化技术[13，32，31]的广泛研究，已经取得了显着的改进。现在GAN模型可以生成几乎与真实图像无法区分的高质量图像，在包括人脸[24]，动物[3，38]和汽车[25]在内的广泛对象类别尽管取得了这些成功，但当涉及到更复杂的图像（如具有多个对象的场景）时，它们很容易无法实现与单个对象图像相同的真实感水平[4，10]。在单个对象图像中，每个组件都有一个共同的布局，这使得摄影师可以更容易地监督每个组件应该在哪里以及如何合成，以产生逼真的图像。例如，狗眼睛、鼻子和嘴巴的形状和比例可能会有所不同，但仍然保持在一个共同的布局中，形成了脸。另一方面，自然场景图像表现出更加多样化和复杂的分布，因为它们包括各种大小，形状和空间位置的对象集合[4，40，18]。因此，它是更难学习真实和虚假图像之间的多层差异从局部语义结构，如对象，整体场景布局[39，10]。因此，即使是最先进的GAN模型也会产生令人不满意的结果，即有限的分布覆盖范围和低合成质量，以及混乱的布局和不完整的内部对象。在这项工作中，我们探索了一种方法，以提高这种复杂的场景，通过自我监督的借口任务分配给机器人的辨别能力。近年来，自我监督表示学习已被广泛研究，并显示出为各种下游任务产生有益的表示进展继续到生成模型，最近的研究表明，GAN模型也可以通过利用各种自监督借口任务来改进，例如旋转预测[6，41，17]，一致性正则化[54，56]和对比学习[57，21，49]。虽然成功，现有的研究主要集中在增强图像级的全局表示，特别是对单对象的图像，因此，改善往往是有限的更复杂的数据分布，如场景图像包含各种本地对象。为了更好地对场景图像中复杂的局部语义结构进行建模，我们建议使用局部定义和多尺度的辅助借口任务来增强局部表示和全局表示。为此，我们设计了一个具有多级分支的多尺度神经网络，其中每个分支处理不同大小的局部补丁。每个尺度下的分支产生每像素辅助表示以及每像素双对数。这些辅助表示用于执行像素级对比学习以增强逐像素分类任务。这两个任务都是针对每个尺度级别定义的，并在所有尺度上联合优化，从而判别器可以提高局部到全局的判别能力，以更好地对各种尺度下复杂场景中的局部结构进行建模。765微分变换真实或虚假的图像增强图像图1. 所提出方法的概述。我们的方法通过两种方式提高了区分能力。首先，我们通过骨干网络特征金字塔产生的多尺度局部对抗反馈来训练模型。为了进一步增强反馈，增强器执行多尺度对比学习，其旨在区分来自增强图像T（x）的正面特征和来自其他不相关图像的负面特征我们评估我们的方法在几个具有挑战性的场景图像数据集与场景级和对象级的合成质量的指标。与最近最先进的GAN模型相比，我们的方法在视觉质量和多样性方面始终取得更好的结果。特别是，我们的方法显着提高了场景中单个对象的合成质量，表明多尺度表示学习有效地增强了对抗性反馈，以更好地建模局部语义结构。2. 相关工作2.1. 广义网络的鉴别器设计鉴别器区分真实和虚假图像的能力在GAN训练中起着关键作用，因为生成器完全依赖于从鉴别器传递的反馈信号。这种能力随着网络架构的进步而显著提高，从多层感知器[11]到卷积网络[35，22]，残差网络[32，24]和自适应网络[35，22]。注意力模型[53，3，52]。然而，即使是最先进的模型在建模复杂场景时仍然很困难，因为它们仅仅依赖于全局反馈，因此丢失了高频细节。为了缓解这个问题，我们重新设计了多尺度的局部局部反馈已经以PatchGAN反馈的形式用于各种条件图像生成任务[58，19，33，8，51][20]。覆盖多-tiple scales，Wang et al.[43]建议使用多个补丁GAN鉴别器来处理以不同分辨率内插的每个图像。这些架构对于高频模式的建模很有帮助，但它们依赖于显式条件（如分割图或输入图像）来建模全局布局。相比之下，我们的方法允许通过利用多尺度反馈来建模局部到全局结构，该多尺度反馈来自骨干网络的金字塔特征中固有的自然层次结构。最近提出的ProjectedGAN[37]也验证了多尺度特征的有用性，但它们专注于混合多个级别的预训练特征，而不是利用局部反馈。2.2. GAN的自监督学习近年来，自监督学习被认为是最有影响力的方法之一，因为它可以从大量未标记的数据中学习信息表示。最近的研究表明，GAN训练也可以从各种自我监督的借口任务中受益。一组工作[6，41，17]已经表明，旋转预测任务可以防止GAN中的灾难性遗忘，并导致更好的结果。一致性正则化[54，56]通过在干净图像及其增强版本之间施加连续输出的一致性来最近，几项研究探索了使用实例辨别任务[45，14，5]作为辅助任务，以进一步增强识别能力[57，21，49]。自我监督的借口任务一般推拉其他负面特征一批积极特征DD多尺度对比学习多尺度局部对抗损失766res盘proj×{res盘projres=盘盘projLL涉及各种图像变换函数以获取图像不同视图。在GAN训练中，应用于真实和假图像的可重构图像变换[23，55]已证明可以在有限的数据范围内稳定训练并提高数据效率。我们的工作依赖于以前的研究结果，改进GAN训练与自我监督的借口任务。然而，虽然所有以前的研究都集中在通过整合图像级任务来增强全局表示空间，但在这项工作中，我们寻求增强区域级表示以提高对局部特征的区分能力。2.3. 密集表示学习最近关于自监督表示学习的研究主要集中在以对象为中心的图像的图像级表示，即，ImageNet [9]。尽管他们的成功，图像级的全局表示往往是次优的一般视觉任务上定义的复杂场景，因为全球汇集表示失去了空间信息的本地ob-obtain。因此，最近的工作尝试学习像素级[34，48，44]或区域级[36，46，47]表示，并在密集预测下游任务中取得了有意义的改进，例如对象检测和在D提出的判别准则下，综合质量受D的判别能力的限制。因此，本工作着重于通过两种手段来提高辨别能力：重新设计了一个新的体系结构，并为其引入了一个有效的辅助任务。3.2.具有多级分支的多尺度鉴别器在无条件图像合成中，图像处理器通常配备有几个子采样层，这些子采样层将输入的高分辨率图像逐步下采样为较低分辨率的特征，从而构建金字塔特征图[35，3，53，24]。为了能够区分特征图中的每个局部特征，我们使用每个尺度l的分支来将中间特征转换为相应的局部输出。每个分支由三个部分组成：剩余块块RQ1、分类头RQ1和投影头RQ1。所有组件均采用11个卷积层来单独处理每个局部特征。图2（左）显示了建议的判别器设计。具体地说，我们的网络模型由骨干网络F和每尺度分支网络Fl =1组成。实例分段我们重新利用密集的代表-LresL盘Lproj {\fn方正粗倩简体\fs12\b1\bord1\shad1\3cH2F2F2F} 给定一个输入图像，实验结果表明，该方法能够有效地提高复杂场景中局部目标的合成质量。网络F产生多尺度特征图。我们将尺度级别l处的特征图表示为fl。首先通过fl将fl变换为相同形状的hl，然后处理hl通过两个独立的头部网络，3. 方法头罩及投影头罩生产出两个-在本节中，我们详细描述了所提出的方法，即多尺度对比鉴别器（MsConD）。首先，我们简要介绍了图像合成，把U和Vl放在一起。hl=lUl=l（fl）∈RHl×Wl×Ch（2）（hl）∈RHl×Wl×1（3）第3.1节中标准GAN姐妹方法我们然后在盘Vlproj（hl）∈RHl×Wl×Cp，（4）第3.2节，然后是多尺度像素级对比学习，进一步增强了第3.3节中的优化，最后是优化的完整目标函数其中Cp是投影输出的通道数。我们表示分类头输出U1，并且表示前- 针对输入图像x的投影输出Vl作为Dl（x），以及在第3.4节中对整个网络进行了放大。lproj（x）分别。Dl（x）用于计算每-3.1. 生成对抗网络标准GAN涉及两个网络之间的极小极大优化，即生成器G和网络ID，如下所示：min maxL（G，D）=第l尺度的像素对抗性损失，而Dl（x）用于执行像素级对比学习，这将在下面的部分中描述。第l尺度的对抗性损失是通过对所有每像素对抗性损失进行损失如下：L（G，D）=E1 log（x）AdvG D（一）AdvxHl Wli、j盘i、jExp数据[logD（x）]+ Ezpz[log（1−D（G（z）]，+EzΣ1 Σ日志.1−Dl（G（z））ΣΣ，，D767盘其中p数据是一个经验数据分布，是一HlWli、j盘i、j已知先验分布D旨在区分真实图像和生成的图像，而G旨在合成逼真的图像，以便它们可以区分。其中，（x）Σi、j（五）是指分类输出，被D当作真的直观上，由于G是opti-pixel（i，j）。如图2（左）所示，全球代表-768（）（（）（projAdvconQKKKKproj第三分支干净图像增强图像（PNG）（n+ 1）-thbranchL真/假...==图像L图2. 鉴别器架构（左）。我们的神经网络通过逐层分支从不同层的中间特征产生多尺度输出。在每一层，中间特征图fl被映射成两个不同的输出：l盘（x）和投影输出D1（x）。使用两个输出来计算每像素对抗性损失L1和像素级的对比损失L1分别表示。空间一致的像素级对比学习（右）。对于每个像素特征（红色×），在干净图像x的投影输出中，增强图像T（x）中的正特征集（red+）用预定义的距离阈值t来定义。另一方面，负特征集是由同一小批图像中的特征构成的。骨干网络顶部的表示同样被映射到分别用于计算对抗性和对比性损失的全局反向输出和全局投影输出。更多详情请参见补充材料第1节。3.3. GAN的多尺度对比学习重新设计的神经网络学习区分之间的真实和虚假的图像的基础上本地到全球区域级的决定。为了进一步增强辨别能力，我们建议分配一个辅助的自我监督任务，旨在丰富区域级的代表，每个决定执行。给定一个干净的图像x，通过应用可微变换T来获得其增强视图T（x）。然后在第n比例下相应投影输出L和L应当谨慎地识别特征，以确保由特征表示的区域之间的充分重叠。否则，它会通过关联图像中彼此完全不相关的区域来在这项工作中，我们将来自Vl和Vl的两个特征向量识别为正对，如果它们足够接近以包含图像中的相同区域[48]。空间接近度是通过图像空间中两个特征向量的坐标之间的欧几里得距离来度量的。图2（右）显示了一个示例。具体地说，我们将Vl中的像素点变形到干净的图像空间中，以获得参考坐标，并计算两个特征图中的特征向量坐标Vl和Vl。对于每个特征向量v q∈RCp 在V1中，我们VqVklq k q通过投影分支提取：如下定义来自Vl的正特征集Vl=Dl（x）∈RHlWl×Cp（6）Lq projpos（v）={v∈V：dist（v，v）

下载后可阅读完整内容，剩余1页未读，立即下载