「一次性合成高质量图像和分割掩膜的无监督学习方法」

110 浏览量更新于2023-10-15 收藏 17.59MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

62850图像和分割掩膜的一次性合成0Vadim Sushko 1 Dan Zhang 1,2 Juergen Gall 3 Anna Khoreva 1,201 Bosch人工智能中心 2 图宾根大学 3 波恩大学0{vadim.sushko,dan.zhang2,anna.khoreva}@bosch.com, gall@iai.uni-bonn.de0图1.我们引入了一项新任务，即从单个训练对生成新的图像和它们的分割掩膜，在这个具有挑战性的模式下，我们提出的GAN模型（OSMIS）实现了高结构多样性的合成，保留了原始图像的照片逼真度，并将生成的分割掩膜与生成的内容精确对齐。0摘要0通过生成对抗网络（GANs）共同生成图像和分割掩膜有望减少收集像素级注释图像数据所需的工作量。然而，为了学习高保真度的图像-掩膜合成，现有的GAN方法首先需要一个需要大量图像数据的预训练阶段，这限制了它们在受限图像领域中的应用。在这项工作中，我们采取了一步减少这种限制的措施，引入了一次性图像-掩膜合成任务。我们的目标是在只有一个标记示例的情况下生成多样的图像和它们的分割掩膜，并且与之前的模型相反，不需要任何预训练数据。为此，受到单图像GAN的最新架构发展的启发，我们引入了我们的OSMIS模型，它能够在一次性模式下合成与生成的图像精确对齐的分割掩膜。除了实现生成掩膜的高保真度外，OSMIS在图像合成质量和多样性方面优于最先进的单图像GAN模型。此外，尽管没有使用任何额外的数据，OSMIS展示了作为一次性分割应用的有用数据增强源的令人印象深刻的能力，提供了与标准数据增强技术互补的性能提升。代码可在https://github.com/boschresearch/one-shot-synthesis找到。01. 引言0深度神经网络已经在计算机视觉中解决各种分割问题上显示出强大的能力[8, 10, 14, 23, 21,32]。这些分割模型的成功在很大程度上依赖于大规模标记数据集的可用性进行训练。然而，在实践中，由于手动标注分割掩膜的成本非常高，标注大规模数据集并不总是可行的[7]。例如，准确标注一张包含多个对象的图像可能需要超过30分钟[35]。因此，减少获取多样且精确对齐的图像-掩膜数据所需的人力工作量是许多实际应用中的一个重要问题。最近，一些研究[30, 35, 15,26]提出通过生成对抗网络（GANs）共同生成图像和分割掩膜来解决这个问题。这些GAN模型利用提供的少量像素级注释以及图像数据集进行训练，成为可以用于训练神经网络的标记数据的来源。尽管现有的图像-掩膜GAN模型在基于有限注释示例的分割掩膜合成方面取得了令人印象深刻的成果，但仍然需要大规模预训练图像数据集来学习高保真度的图像合成。这自然地限制了它们仅适用于这些数据集可用的数据领域（例如人脸或汽车图像）。然而，在某些实际场景中，这样的数据集可能很难找到，因此62860训练对 SemanticGAN [15] DatasetGAN [35] OSMIS0图2. 与仅训练于单个图像-掩膜对（红色）的SemanticGAN [15]和仅预训练于单个图像并训练于单个手动掩膜注释的DatasetGAN[35]相比，两个模型都存在记忆问题，而SemanticGAN由于训练不稳定还存在质量较差的问题。相比之下，OSMIS避免了模式崩溃并生成了多样且高质量的样本。这是通过一个判别器分别评判不同对象的真实性来实现的，这样可以防止对整个给定图像的记忆。0例如，在一次性分割应用[1]中，对象类型可能很少见。因此，在这项工作中，我们的目标是学习一个尽可能少限制数据域的高保真联合掩模和图像合成。为此，我们提出了一种新颖的GAN训练设置，其中我们假设只有一个训练图像及其分割掩模可用，不依赖于任何图像数据集进行预训练（见图1）。训练完成后，我们的目标是生成多样化的新图像样本，并补充精确的分割掩模。据我们所知，我们是第一个考虑这种GAN训练场景的人。由于记忆问题[20]，从单个训练样本训练GAN被认为是具有挑战性的，因为在许多情况下，生成器会收敛到复制训练数据的精确副本。例如，如我们的实验所示，这个问题发生在先前的图像-掩模GAN模型[15,35]中（见图2）。最近，在单图像GAN的一系列工作中，记忆问题已经得到缓解，这使得从单个训练图像生成多样化的图像合成成为可能[27, 12,28]。受到这些模型的启发，我们的目标是将这种能力扩展到图像和分割掩模的联合合成。为此，我们提出了一个新模型，对传统GAN架构进行了两个修改。首先，我们为生成器引入了一个掩模合成分支，使其能够合成图像之外的分割掩模。其次，为了确保生成的分割掩模与生成的图像内容精确对齐，我们为鉴别器引入了一个掩模内容注意力模块，使其能够单独判断不同对象的真实性。通过这种方式，为了欺骗鉴别器，生成器被诱导出准确标记合成图像。实际上，我们提出的模型实现了结构多样性、高质量的一次性联合掩模和图像合成（见图1），因此我们将其命名为OSMIS。正如我们在实验中所展示的，与先前的单图像GAN [27, 12,28]相比，OSMIS不仅具备生成准确分割掩模的额外能力，而且实现了更高质量和多样性的生成图像。尽管只使用一对图像-掩模进行训练，OSMIS可以生成一组高质量标注样本。0结构多样性，有时无法通过标准的数据增强技术（如翻转、缩放或旋转）来实现。例如，对于给定的场景，OSMIS可以改变前景对象的相对位置或编辑背景布局（见图1、4、5）。此外，与[15,35]不同，OSMIS可以成功处理不同类型的掩模，例如具有类别级（见图1）或实例级（见图4）注释。这表明我们的模型在实际应用中具有作为额外标注数据增强的潜力。我们在第4.2节中展示了这种潜力，其中我们将OSMIS应用于一次性视频目标分割[23]和一次性语义图像分割[1]的测试阶段。结果表明，OSMIS生成的数据有助于提高最先进网络的性能：OSVOS [6]、STM [22]和RePRI[5]，为标准数据增强提供了补充增益。我们认为这些结果对于未来研究中利用一次性图像-掩模合成具有潜力。02. 相关工作0GANs生成分割掩模。最近观察到，一个在大型数据集上训练的GAN生成器隐式地学习到了生成场景对象的像素级特征[30]。因此，一些工作提出收集来自不同生成器层的特征激活，并使用一个小型解码器将它们转换为分割掩模。RepurposeGAN [30]和DatasetGAN[35]提出使用少量手动注释的生成图像来训练解码器。LinearGAN[33]用外部分割网络的预测替代了手动注释。另外，SemanticGAN [15]和EditGAN[18]通过附加的鉴别器的损失来强制生成图像和掩模之间的对齐，该鉴别器将图像和掩模作为输入。尽管上述模型只需要少量掩模就能实现高质量的图像-掩模合成，但当训练图像数量不足时，它们并不成功。例如，当只有一对图像-掩模进行训练时，DatasetGAN和SemanticGAN会出现不稳定和记忆问题（见图2和附录中的A）。62870图3.OSMIS模型。生成器G中的简单掩码合成分支允许生成与图像一起的对象的分割掩码。鉴别器D中的掩码内容注意力（MCA）模块强制执行掩码和生成图像内容之间的精确对齐，以单独评估不同对象的真实性。0（补充材料）。与此相反，我们的模型在这种情况下成功学习，因为它不依赖于大规模的预训练数据。实验证明，这使得我们的模型更适用于处理受限数据领域的场景，例如一次性分割应用。此外，我们的模型以纯粹的对抗方式进行训练，不需要任何额外的开销，例如不需要对生成的图像进行手动注释、外部分割网络或额外的鉴别器。单图像生成对抗网络。一系列工作研究了仅使用单张图像进行无条件生成对抗网络的训练。在这种极低数据的情况下，模型容易出现训练不稳定性，因为鉴别器可以简单地记住训练样本并为生成器提供无信息的梯度[13]。SinGAN[27]提出使用一系列生成对抗网络级联来缓解这个问题，其中每个生成对抗网络阶段仅学习特定图像尺度上的补丁分布。ConSinGAN[12]通过重新平衡不同生成对抗网络阶段的训练以及同时训练多个阶段来改进SinGAN的性能和效率。此后，还提出了许多进一步的多阶段生成对抗网络训练的变体[2, 9, 4,11]。最近，One-Shot GAN[28]提出了一个两分支的内容-布局鉴别器，作为单个阶段进行训练，使得合成的图像的内容和布局与原始样本显著不同。我们的论文与上述工作有类似的动机，因为我们也希望在单个数据实例上训练生成对抗网络模型。然而，我们扩展了单图像设置，合成了分割掩码，据我们所知，之前的工作没有考虑这一点。03. 方法0给定一张带有像素级分割掩码的单张图像，并且假设没有访问任何预训练数据，我们的目标是生成一组多样化的新的图像-掩码对。在本节中，我们提出了OSMIS，我们的一次性图像-掩码合成模型。采用One-Shot GAN[28]作为最先进的图像合成基线（第3.1节），我们对生成器和鉴别器架构进行了修改0ture，实现了与生成图像精确对齐的一次性合成分割掩码（第3.2节）。03.1. 单次生成对抗网络基线0作为基线网络架构，我们选择了最先进的模型One-ShotGAN[28]，因为它在之前的工作中实现了最高质量和多样性的一次性图像合成。One-ShotGAN提出了一个两分支的鉴别器，其中输入图像x首先通过低级鉴别器Dlow-level转换为特征表示F(x)。接下来，两个单独的鉴别器通过不同的方式评估F(x)的不同方面。内容鉴别器Dcontent通过全局平均池化来消除F(x)中包含的空间信息，无论其空间位置如何，判断对象的真实性。另一方面，布局鉴别器Dlayout通过使用一通道卷积来压缩F(x)来仅评估空间场景布局的真实性。此外，鉴别器在F(x)的内容和布局表示中应用特征增强，以进一步增加生成样本之间的高级多样性。One-Shot GAN模型的对抗损失由三个项组成：0L adv ( G, D ) = L D 内容 + L D 布局 + 2 L D 低级 , (1)0其中每个项是相应鉴别器部分的不同层获得的二进制交叉熵的均值。03.2. OSMIS模型0与一次性图像合成不同，我们假设单个训练图像提供了其对象的像素级掩码，不假设任何固定的注释类型（例如，按类别或按实例）。为了将其纳入训练过程中，我们对基线模型的架构进行了两个修改。首先，我们建议通过额外的生成器掩码合成分支同时生成分割掩码和图像。其次，为了强制生成的图像内容与掩码对齐，我们重新定义了内容鉴别器Dcontent 的目标，设计它来分别判断不同对象的保真度。这MCA(x, y) = {AvgPool (F(x) × 1y=i)}i=1.(4)LDobject = − E(x,y)� N�i=1αi log Diobject(MCAi(x, y))�− Ez� Nlog(1 − Dfakeobject(MCAi(G(z)))�,αi =(sum(1y=i))−1Nj=1(sum(1y=j))−1 .(6)62880通过引入带掩码的内容注意力模块，我们可以为每个对象构建一个单独的内容特征向量，考虑到提供的分割掩码。我们的模型架构概述如图3所示。接下来，我们详细描述了所提出的修改。生成器中的掩码合成分支。与[30,35]一致，我们假设在训练过程中，生成器应该能够学习完全描述生成对象外观的有区分性特征。因此，在合成图像时，我们收集生成器层的特征激活，并将其用作掩码合成分支的输入。与[30,35]不同，我们仅使用最后一个生成器块之后的激活，因为这种最简单的解决方案在我们的实验中已经表现良好。通过简单的卷积和softmax激活，我们将这些特征转化为一个N通道的软概率图，其中每个通道对应于分割掩码中的N-1个感兴趣对象或背景之一。通过沿通道维度应用argmax操作T，可以获得最终的离散掩码预测。为了使掩码合成分支能够通过鉴别器损失进行训练，生成的掩码应该允许梯度的反向传播，类似于生成的图像。在我们的实验中，将在不可微的argmax操作T之前获得的连续分割概率图馈送给鉴别器会影响GAN的训练，因为鉴别器学会检测虚假和真实输入之间的连续-离散差异。因此，受到[31,3]的启发，我们通过开发一种直通梯度估计器，使得通过argmax的反向传播成为可能：0MaskArgmax(y) = y + T(y) - sg[y]，(2)0其中sg表示停止梯度操作。这样，鉴别器以离散形式T(y)提供生成的掩码，这使得它的训练更加有效，而生成器可以通过其概率映射预测y传递梯度进行训练。然而，这种解决方案有时可能会导致退化解决方案，例如，当所有像素都被预测为背景通道时。这在训练过程中无法纠正，因为在这种情况下，梯度流通过所有其他掩码通道被阻塞。我们发现，在训练开始时通过对argmax操作T进行软化可以缓解这个问题。因此，在前P0个时期中，我们将每个掩码像素视为遵循伯努利分布的随机变量：0T(y) =0�伯努利（y）时期

下载后可阅读完整内容，剩余1页未读，立即下载