空间融合GAN：实现几何和外观空间中真实图像合成的创新方法

193 浏览量更新于2023-10-18 收藏 12.71MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

136530图像合成的空间融合GAN0Fangneng Zhan 南洋理工大学 50Nanyang Avenue, 新加坡 6397980fnzhan@ntu.edu.sg0Hongyuan Zhu 信息通信研究院，新加坡 1Fusionopolis Way, 新加坡 1386320zhuh@i2r.a-star.edu.sg0Shijian Lu 南洋理工大学 50 NanyangAvenue, 新加坡 6397980shijian.lu@ntu.edu.sg0摘要0生成对抗网络（GANs）的最新进展表明，它在实现真实图像合成方面具有很大潜力，而大多数现有的研究只关注外观空间或几何空间中的合成真实性，而很少兼顾两者。本文提出了一种创新的空间融合GAN（SF-GAN），它结合了几何合成器和外观合成器，以实现几何和外观空间中的合成真实性。几何合成器学习背景图像的上下文几何，并将前景对象统一地转换和放置到背景图像中。外观合成器调整前景对象的颜色、亮度和样式，并将其和谐地嵌入到背景图像中，其中引入了引导滤波器以保留细节。这两个合成器相互连接作为相互参考，可以在少量监督下进行端到端训练。SF-GAN在两个任务中进行了评估：（1）用于训练更好的识别模型的真实场景文本图像合成；（2）用于与真实肖像进行真实匹配的戴眼镜和戴帽子。与最先进的方法进行的定性和定量比较证明了所提出的SF-GAN的优越性。01. 引言0随着深度神经网络（DNNs）的进步，图像合成作为生成新颖图像和创建用于训练DNN模型的注释图像的一种手段，越来越受到关注。后者有很大潜力取代传统的手动注释，这通常是昂贵、耗时和不可扩展的。近年来，生成对抗网络（GANs）[9]的快速发展为自动图像合成开辟了新的道路。0图1.所提出的SF-GAN能够同时在几何和外观空间中合成真实图像。第1行和第2行显示了一些合成的场景文本图像，第3行显示了一些戴帽子和戴眼镜的图像，其中前景文本、眼镜和帽子由红色框突出显示，与背景场景和面部图像和谐地组合在一起。0由于生成对抗网络（GANs）能够同时实现生成器和鉴别器，因此它们在自动图像合成方面具有很大的潜力。GAN基于图像合成已经探索了三种典型的方法，即直接图像生成[27,33, 1]，图像到图像的转换[55, 16, 22, 14]和图像合成[21,2]。然而，大多数现有的GAN都是从几何空间或外观空间中实现合成真实性，但两者兼顾的GAN很少。因此，当GAN合成的图像用于训练深度网络模型时，它们的贡献很小（甚至有害）。特别是，由于网络容量有限，直接图像生成仍然面临生成高分辨率图像的困难。基于GAN的图像合成能够通过将前景对象放置到背景图像中生成高分辨率图像[21,2]。但是，大多数基于GAN的图像合成技术仅关注几何真实性（例如，对象与背景的对齐）。GANs [9] have achieved great success in generating re-alistic new images from either existing images or randomnoises. The main idea is to have a continuing adversariallearning between a generator and a discriminator, where thegenerator tries to generate more realistic images while thediscriminator aims to distinguish the newly generated im-ages from real images. Starting from generating MNISThandwritten digits, the quality of GAN-synthesized imageshas been improved greatly by the laplacian pyramid of ad-versarial networks [6]. This is followed by various effortsthat employ a DNN architecture [33], stacking a pair of gen-erators [52], learning more interpretable latent representa-tions [4], adopting an alternative training method [1], etc.Most existing GANs work towards synthesis realism inthe appearance space. For example, CycleGAN [55] usescycle-consistent adversarial networks for realistic image-236540与基于图像到图像转换的GAN相比，它旨在通过学习目标域图像的风格来实现外观真实性，而几何真实性则被大部分忽略。我们提出了一种创新的空间融合GAN（SF-GAN），它能够同时在几何和外观空间中实现合成真实性，这是图像合成中一个非常具有挑战性的任务，因为前景对象与背景图像之间存在着广泛的相对缩放、空间对齐、外观风格等方面的冲突。SF-GAN通过设计几何合成器和外观合成器来解决这些挑战。几何合成器学习背景图像的局部几何，使得前景对象可以统一地转换和放置到背景图像中。引入鉴别器来训练空间变换网络，目标是生成可以误导鉴别器的转换图像。外观合成器学习调整前景对象的颜色、亮度和样式，以与背景图像最小冲突地匹配。引入引导滤波器来补偿大多数外观转换GAN中发生的细节损失。几何合成器和外观合成器相互连接作为相互参考，可以在少量监督下进行端到端训练。本文的贡献有三个方面。首先，它设计了一种创新的SF-GAN，这是一个端到端可训练的网络，能够同时在几何和外观空间中实现合成真实性。据我们所知，这是第一个能够同时在几何和外观空间中实现合成真实性的GAN。其次，它设计了一个融合网络，引入了引导滤波器以保留外观真实性的细节，而大多数图像到图像转换GAN在进行外观转换时往往会丢失细节。第三，它研究并证明了GAN合成图像在训练深度识别模型中的有效性，这是大多数现有GAN（除了一些用于领域自适应的GAN[14, 16, 22,55]）中很重要但往往被忽视的问题。02. 相关工作02.1. 图像合成0多年来，人们一直在研究逼真图像的合成，从合成单个对象[29, 30, 40]到生成完整场景图像[8,34]。在不同的图像合成方法中，图像合成已经得到了广泛的探索，通过将前景对象放置到某些现有的背景图像中合成新图像。目标是通过控制对象的大小、方向和前景对象与背景图像之间的混合来实现合成逼真性。例如，[10, 17, 50,51]研究了合成用于训练更好的场景文本检测[47]和识别模型[49]的场景文本图像。他们通过控制一系列参数，如文本在背景图像中的位置、前景文本的几何变换、前景文本和背景图像之间的混合等，实现了合成逼真性。还有其他报告用于DNN训练[7]、合成协调[26,42]、图像修复[54]等的图像合成系统。良好的外观一致性和合成图像中的最小视觉伪影对于良好的图像合成至关重要。一种直接的方法是在像素级别应用密集图像匹配，以便只复制和粘贴相应的像素，但是当前景对象和背景图像具有非常不同的外观时，这种方法效果不好。另一种方法是使过渡尽可能平滑，以便在合成的图像中隐藏/删除伪影，例如alpha混合[43]，但是这种方法往往会模糊前景对象和背景图像中的细节。此外，基于梯度的技术，如泊松混合[31]，可以编辑图像梯度并调整颜色和照明的不一致性，以实现无缝混合。大多数现有的图像合成技术通过手工制作的变换来实现几何真实性，这些变换涉及复杂的参数，并容易产生各种不自然的对齐。外观真实性通过不同的混合技术处理，其中特征是手动选择的，仍然容易受到伪影的影响。我们提出的技术采用了一种GAN结构，从真实图像中学习几何和外观特征，减少了各种不一致性和伪影。0GANs[9]已经在从现有图像或随机噪声生成逼真新图像方面取得了巨大成功。其主要思想是在生成器和判别器之间进行持续的对抗学习，其中生成器试图生成更逼真的图像，而判别器旨在区分新生成的图像和真实图像。从生成MNIST手写数字开始，GAN合成图像的质量通过金字塔形式的对抗网络[6]得到了极大的改善。随后的各种努力采用了DNN架构[33]、堆叠一对生成器[52]、学习更可解释的潜在表示[4]、采用替代训练方法[1]等。大多数现有的GANs都致力于在外观空间中实现合成逼真性。例如，CycleGAN[55]使用循环一致的对抗网络进行逼真图像合成。02.2. GANFC1512-FC2N-i1i1336550图像到图像的转换，以及其他相关的GANs [16,37]。LR-GAN[48]通过将额外的空间变换网络（STNs）应用于分解形状变化来生成新图像。GP-GAN[46]通过使用泊松混合[31]来合成高分辨率图像。近年来已经报道了一些用于几何真实性的GANs，例如[21]提出了一种空间变换GAN（ST-GAN），通过将STNs嵌入生成器以实现几何真实性，[2]设计了一种组合GAN，它采用自一致的组合-分解网络。大多数现有的GANs在几何空间（例如ST-GAN）或外观空间（例如CycleGAN）中合成图像，但很少在两个空间中都合成。此外，由于缺乏注释或合成真实性，GAN合成的图像通常不适合训练深度网络模型。我们提出的SF-GAN可以通过同时在外观和几何空间中合成图像来实现外观和几何真实性。由于其高度逼真，其合成图像可以直接用于训练更强大的深度网络模型。02.3. 引导滤波器0引导滤波器[12,13]使用一幅图像作为引导来过滤另一幅图像，已经在保留细节的滤波中表现出优越的性能。滤波输出是通过考虑引导图像的结构对其进行线性变换得到的，其中引导图像可以是输入图像本身或另一幅不同的图像。引导滤波器已经在各种计算机视觉任务中使用，例如，[20]将其用于加权平均和图像融合，[53]使用滚动引导来进行完全可控的细节平滑，[45]使用快速引导滤波器进行高效的图像超分辨率，[24]使用引导滤波器进行高质量的深度图恢复，[23]使用引导滤波器来容忍严重的噪声和结构不一致性，[11]将引导滤波器作为一个非凸优化问题，并通过主导最小化[15]提出解决方案。大多数图像到图像翻译的GAN可以合成高分辨率图像，但外观转换往往会抑制图像的边缘和纹理等细节。如何在学习目标的外观的同时保留原始图像的细节仍然是一个活跃的研究领域。所提出的SF-GAN将引导滤波器引入到循环网络中，能够同时实现外观转换和细节保留。03. 提出的方法0所提出的SF-GAN由几何合成器和外观合成器组成，整个网络可以端到端地进行训练，如图2所示。详细的网络结构和训练策略将在下面的小节中介绍。0表1. 图2中STN中几何估计网络的结构0层输出尺寸配置0Block1 16 × 50 3 × 3 卷积, 32 , 2 × 2 池化0Block2 8 × 25 3 × 3 卷积, 64 , 2 × 2 池化0Block3 4 × 13 3 × 3 卷积, 128 , 2 × 2 池化03.1. 几何合成器0几何合成器具有如图2左侧所示的蓝色线条和框架所突出的局部GAN结构。它由一个空间变换网络（STN）、一个组合模块和一个判别器组成。STN由如表1所示的估计网络和一个具有N个参数的变换矩阵组成，该矩阵控制前景对象的几何变换。前景对象和背景图像被连接起来作为STN的输入，估计网络将预测一个变换矩阵来对前景对象进行变换。变换可以是仿射变换、单应性变换或薄板样条[3]（我们在场景文本合成任务中使用薄板样条，肖像佩戴任务中使用单应性变换）。变换后的图像中的每个像素是通过在原始图像中特定位置处应用采样核心来计算的。用P s = ( p s 1 , p s 2 , . . ., p s N )和P t = ( p t 1 , p t 2 , . . . , p t N)表示原始图像和变换后图像中的像素，我们使用变换矩阵H来进行逐像素的变换，如下所示：�0其中p s i = ( x s i , y s i )和p t j = ( x t i , y t i)分别表示原始图像和变换后图像中第i个像素的坐标。因此，变换后的前景对象可以放置到背景图像中形成一个初始组合图像（图2中的ComposedImage）。判别器D2学习区分组合图像是否与一组真实图像相比具有逼真性。另一方面，我们的研究表明，真实图像不是训练几何合成器的好参考。原因是真实图像在几何和外观空间中都是逼真的，而几何只能在几何空间中实现逼真。合成图像与真实图像之间外观空间的差异将误导几何合成器的训练。为了最佳训练几何合成器，参考图像应该只在几何空间中逼真，并且与初始组合图像具有相似的外观（例如颜色和风格）。436560图2.提出的SF-GAN的结构：几何合成器在左侧以蓝色线条和方框突出显示，外观合成器在右侧以橙色线条和方框突出显示。STN表示空间变换网络，F表示引导滤波器，G1、G2、D1和D2表示生成器和判别器。为了清晰起见，没有包括循环损失和身份损失。0这样的参考图像很难手动创建。在SF-GAN中，我们巧妙地使用外观合成器中的图像（如图2所示的适应真实图像）作为训练几何合成器的参考。关于外观合成器的更多细节将在下一小节中讨论。03.2. 外观合成器0外观合成器设计为循环结构，如图2右侧的橙色线条和方框所示。它旨在融合前景对象和背景图像，以在外观空间中实现合成的真实性。图像到图像的转换GAN也致力于实现真实的外观，但在进行外观转换时通常会丢失视觉细节。在提出的SF-GAN中，引入了引导滤波器，有助于有效地保留视觉细节，同时在外观空间中实现合成的真实性。03.2.1 循环结构0提出的SF-GAN采用循环结构在两个域之间进行映射，即合成图像域和真实图像域。设计了两个生成器G1和G2，分别实现从合成图像到最终合成图像的图像到图像转换，以及从真实图像到适应真实图像的图像到图像转换，如图2所示。设计了两个判别器D1和D2，用于区分真实图像和转换图像。特别地，D1将努力区分适应合成图像（即经过G1进行域适应的合成图像）和真实图像，迫使G1学习将合成图像映射到在外观空间中具有真实性的最终合成图像，G2将学习将真实图像映射到适应真实图像，这些图像0理想情况下，几何空间中的图像应该是真实的，但外观与合成图像相似。如前一小节所讨论的，G2中的适应真实图像将用作几何合成器的训练参考，因为它更好地专注于合成具有真实几何形状的图像（因为干扰的外观差异已经在适应真实图像中被压缩）。图像外观转换通常会导致细节丢失。我们从两个方面解决这个问题。第一是通过循环损失和身份损失的自适应组合。具体来说，我们采用加权组合策略，为感兴趣的图像区域分配更高的循环损失权重，为非感兴趣的区域分配更高的身份损失权重。以场景文本图像合成为例。通过为文本区域分配较大的循环损失权重和较小的身份损失权重，可以确保文本样式的多模式映射，同时保持背景与原始图像相似。第二个方面是在循环结构中引入引导滤波器以实现细节保留，下一小节将详细描述。03.2.2 引导滤波器0引导滤波器旨在进行边缘保留的图像平滑处理。它通过使用引导图像中的结构来影响滤波过程。由于大多数图像到图像翻译GAN在外观转换过程中往往会丢失图像细节，我们在SF-GAN中引入了引导滤波器（如图2所示），以保留翻译后图像中的细节。目标是仅对前景对象（在合成图像中）进行外观转换，同时尽量减少背景图像的变化。我们将引导滤波器引入到提出的SF-GAN中，并将细节保留的外观转换形式化为联合上采样问题，如图3所示。Ti = akIi + bk, ∀i ∈ ωk(2)E(ak, bk) =�i∈ωk((akIi + bk − Ri)2 + ǫa2k)(3)ak =1|ω|�i∈ωk Ii − µkRkσk + ǫ(4)bk = Rk − akµk(5)Ti = 1|ω|�k:i∈µk(akIi + bk) = aiIi + bi(6)The proposed SF-GAN is designed to achieve synthe-sis realism in both geometry and appearance spaces. TheSF-GAN training therefore has two adversarial objectives,one is to learn the real geometry and the other is to learnthe real appearance The geometry synthesizer and appear-ance synthesizer are actually two local GANs that are inter-connected and need coordination during the training. Forpresentation clarity, we denote the Foreground Object andBackground Image in Fig. 2 as the x, the Composed Imageas y and the Real Image as z which belongs to domains X,Y and Z, respectively.For the geometry synthesizer, the STN can actually beviewed as a generator G0 which predicts transportation pa-rameters for x. After the transformation of the ForegroundObject and Composition, the Composed Image becomes theinput of the discriminator D2 and the training reference z′minG0 maxD2 Ex∼X[D2(G0(x))] − Ez′∼Z′ [D2(z)](7)LD2 = Ex∼X[D2(G0(x)] − Ez′∼Z′ [D2(z′)](8)LG0 = −Ex∼X[D2(G0(x))](9)536570图3. 引导滤波器 F 的详细结构：给定一个要滤波的图像（图2中的Composed Image ），具有平滑细节的翻译图像（图2中 G1的输出，在背景脸部和前景帽子区域丢失了细节）和前景对象帽子的掩码（提供的）， F生成一个具有完整细节的新图像（图2底部的 Synthesized Image）。可以看到，引导滤波器保留了背景图像（例如脸部区域）和前景帽子（例如红色框突出显示的图像区域）的细节。0特别地，从 G1的输出中翻译的图像（丢失了细节）是要滤波的输入图像 I，而最初的合成图像（细节保持不变）（图2中的Composed Image ）作为引导图像 R，提供边缘和纹理细节。因此，可以通过最小化 I 和 T之间的重构误差来得到保留细节的图像 T （对应于图2中的 Synthesized Image ），遵循线性模型的约束：0其中 i 是像素的索引， ω k 是以像素 k为中心的局部正方形窗口。为了确定线性模型 a k 和 b k的系数，我们寻求最小化以下局部窗口中的滤波器输入 R与 T 之间的差异的解：0其中 � 是一个正则化参数，防止 a k过大。可以通过线性回归求解：0其中 µ k 和 σ 2 k 是 ω k 中 I 的均值和方差， | ω | 是0i ∈ ω k 是 ω k 中 R 的均值。0通过将线性模型应用于图像中的所有窗口 ω k 并计算 ( ak , b k ) ，可以通过对 T i的所有可能值进行平均来得到滤波器的输出：0k ∈ ω i b k。我们将引导滤波器集成到循环结构网络中，以实现端到端可训练的系统。03.3. 对抗训练0来自外观合成器的 G 2( z )的几何合成器采用了Wasserstein GAN [ 1 ]目标进行训练，可以表示为：0其中 Z ′ 表示 z ′ 的域。由于 G0 旨在最小化对抗者 D2尝试最大化的目标函数，因此 D2 和 G0的损失函数可以定义为：0外观合成器采用了一个循环结构，包括两个映射 G 1 : Y→ Z 和 G 2 : Z → Y 。它有两个对抗性鉴别器 D1 和D2 。D2在几何和外观合成器之间共享，并旨在区分外观合成器中的y 和 G2(z)。因此，学习目标包括域之间的对抗性损失和防止模式崩溃的循环一致性损失。对于对抗性损失，可以通过以下方式定义映射 G 1 : Y → Z （反向映射 G 2 : Z → Y也是如此）的目标：0L D 1 = E y � Y [ D 1( G 1( y )] - E z � Z [ D 2( z )] (10)636580L G 1 = - E y � Y [ D 1( G 1( y ))] (11)0由于对抗损失不能保证学习到的函数将单个输入 y映射到期望的输出 z，我们引入循环一致性，旨在确保图像转换循环将 x带回原始图像，即 y → G 1( y ) → G 2( G 1( y )) = y。循环一致性可以通过循环一致性损失来实现：0L G 1 cyc = E y � p ( y ) [ ∥ G 2( G 1( y )) - y ∥ ] (12)0L G 2 cyc = E z � p ( z ) [ ∥ G 1( G 2( z )) - z ∥ ] (13)0我们还引入身份损失，以确保转换后的图像保留原始图像的特征：0L G 1 idt = E y � Y [ ∥ G 1( y ) - y ∥ ] (14)0L G 2 idt = E z � Z [ ∥ G 2( z ) - z ∥ ] (15)0对于每个训练步骤，模型需要分别更新几何合成器和外观合成器。特别地，在更新几何合成器时，交替优化 L D 2 和 LG 0。在更新外观合成器时，冻结几何合成器的所有权重。在映射 G 1: Y → Z 中，交替优化 L D 1 和 L G 1 + λ 1 L G 1cyc + λ 2 L G 1 idt ，其中 λ 1 和 λ 2控制循环一致性损失和身份损失的相对重要性。在映射 G 2:Z → Y 中，交替优化 L D 2 和 L G 2 + λ 1 L G 2 cyc + λ 2L G 2 idt。需要注意的是，顺序更新对于所提出的SF-GAN的端到端训练是必要的。如果丢弃几何损失，我们需要根据外观合成器的损失函数更新几何合成器。另一方面，无论几何合成器如何，外观合成器都会生成模糊的前景对象，这与直接图像生成的GAN类似。正如前面讨论的，直接图像生成无法提供准确的注释信息，直接生成的图像质量也较低，不适合训练深度网络模型。04. 实验04.1. 数据集0ICDAR2013[19]用于国际文档分析与识别会议（ICDAR）2013年的鲁棒阅读竞赛。它包含848个用于网络训练的单词图像和1095个用于测试的图像。ICDAR2015 [18]用于ICDAR2015年的鲁棒阅读竞赛。它包含未经准备的意外场景文本图像。从该数据集中裁剪出2077个文本图像补丁。0大量的裁剪场景文本受到透视和曲率失真的影响。IIIT5K[28]有2000个训练图像和3000个测试图像，这些图像是从场景文本和数字图像中裁剪出来的。该数据集中的每个单词都有一个50个单词的词汇表和一个1000个单词的词汇表，其中每个词汇表包含一个真实单词和一组随机选择的单词。SVT[44]是从用于场景文本检测研究的Google街景图像中收集的。647个单词图像是从249个街景图像中裁剪出来的，大多数裁剪的文本几乎是水平的。SVTP[32]有639个单词图像，这些图像是从SVT图像中裁剪出来的。该数据集中的大多数图像都受到透视失真的影响，这些图像是有意选择用于评估透视视图下的场景文本识别。CUTE[35]有288个单词图像，其中大多数是弯曲的。所有单词都是从CUTE数据集中裁剪出来的，该数据集包含80个用于场景文本检测研究的场景文本图像。CelebA[25]是一个包含超过200,000个名人图像和40个属性注释的人脸图像数据集。该数据集具有大量的数据、大量的人脸姿势变化、复杂的背景杂乱、丰富的注释，并且被广泛用于人脸属性预测。04.2. 场景文本合成0数据准备：SF-GAN需要一组真实图像作为参考，如图2所示。我们通过使用ICDAR2013 [19]，ICDAR2015[18]和SVT[44]的训练图像中的文本图像裁剪来创建真实图像，并使用提供的注释框。在裁剪文本图像补丁时，我们扩展注释框（额外的1/4宽度和高度的注释框）以包括某些局部几何结构。除了真实图像，SF-GAN还需要一组背景图像，如图2所示。对于场景文本图像合成，我们通过平滑裁剪的真实图像的文本像素来收集背景图像。此外，通过使用90k词汇表，我们使用计算机生成的前景对象（用于场景文本合成）创建。创建的背景图像、前景文本和真实图像被馈送到网络中以训练SF-GAN。对于场景文本识别模型的训练，需要使用更紧密的框裁剪出文本（以排除额外的背景）。通过图2中所示的转换对象表示的文本映射，可以通过检测最小外接矩形准确地裁剪出场景文本补丁。结果分析：我们使用100万个SF-GAN合成的场景文本图像来训练场景文本识别模型，并使用模型的识别性能来评估合成图像的有用性。此外，我们还使用一些最先进的合成技术对SF-GAN进行基准测试。736590表2. 在ICDAR2013、ICDAR2015、SVT、IIIT5K、SVTP和CUTE数据集上的场景文本识别准确率，其中所有比较方法都使用了100万个合成文本图像。0方法 ICDAR2013 ICDAR2015 SVT IIIT5K SVTP CUTE 平均0Jaderberg [17] 58.1 35.5 67.0 57.2 48.9 35.3 50.30Gupta [10] 62.2 38.2 48.8 59.1 38.9 36.3 47.30Zhan [50] 62.5 37.7 63.5 59.5 46.7 36.9 51.10ST-GAN [21] 57.2 35.3 63.8 57.3 43.2 34.1 48.50SF-GAN(BS) 55.9 34.9 64.0 55.4 42.8 33.7 47.80SF-GAN(GS) 57.3 35.6 66.5 57.7 43.9 36.1 49.50SF-GAN(AS) 58.1 36.4 66.7 58.5 45.3 35.7 50.10SF-GAN 61.8 39.0 69.3 63.0 48.6 40.6 53.70前景0背景0ST-GAN0CycleGAN0SF-GAN(GS)0SF-GAN0图4.使用不同的GAN进行场景文本图像合成的示例：第1-2行是标记的前景文本和背景图像。第3-4行分别显示了ST-GAN和CycleGAN合成的图像。第5行显示了SF-GAN(GS)合成的图像，即SF-GAN中的几何合成器的输出（图2中的合成图像）。最后一行显示了由提出的SF-GAN合成的图像。0通过从[17]中随机选择100万个合成场景文本图像和从[10]和[50]中随机裁剪100万个场景文本图像，我们还使用ST-GAN[21]合成了100万个具有随机文本外观的场景文本图像。有许多场景文本识别模型[38, 39, 41, 36, 5]，我们设计0一个具有50层ResNet作为骨干网络的注意力场景文本识别器。在消融分析中，我们评估了SF-GAN(GS)（表示几何合成器的输出，如图2所示）和SF-GAN(AS)（表示具有随机几何对齐的外观合成器的输出）。还训练了一个基准SF-GAN(BS)，其中文本以随机对齐和外观放置。这三个SF-GAN还分别合成了100万张用于场景文本识别测试的图像。识别测试在四个常规场景文本数据集ICDAR2013 [19]、ICDAR2015[18]、SVT [44]、IIIT5K [28]和两个非规则数据集SVTP[32]和CUTE[35]上进行，如“数据集”中所述。除了场景文本识别，我们还进行了亚马逊机械土耳其人（AMT）的用户研究，招募用户来判断SF-GAN合成的图像是真实的还是合成的。表2和表3显示了场景文本识别和AMT用户研究结果。如表2所示，SF-GAN在大多数6个数据集上都实现了最高的识别准确率，并在平均识别准确率上提高了3%，证明了其合成图像在训练场景文本识别模型时的卓越性能。消融研究表明，所提出的几何合成器和外观合成器都有助于合成更逼真和有用的图像以进行识别模型训练。此外，它们是互补的，它们的组合在基线SF-GAN(BS)之上提高了6%的平均识别准确率。表3的第二列中的AMT结果还显示，SF-GAN合成的场景文本图像比最先进的合成技术更加逼真。请注意，[17]合成的图像是灰度图像，不包括在AMT用户研究中。图4显示了使用提出的SF-GAN和一些最先进的GAN进行的一些合成图像。如图4所示，ST-GAN可以实现几何对齐，但外观在合成图像中明显不真实。836600表3.AMT用户研究评估合成图像的逼真程度。百分比表示每个类别的图像被土耳其人分类为真实图像的频率。0方法文本眼镜帽子0Gupta [ 10 ] 38.0 - -0Zhan [ 50 ] 41.5 - -0ST-GAN [ 21 ] 31.6 41.7 42.60真实 74.1 78.6 78.20SF-GAN 57.7 62.0 67.30图像。CycleGAN可以在一定程度上调整前景文本的外观，但它忽略了真实的几何形状。这不仅导致了不真实的几何形状，还导致了外观的退化，因为鉴别器可以根据几何差异轻易区分生成的图像和真实图像。SF-GAN（GS）给出了几何合成器的输出，即图2中显示的合成图像，由于从外观合成器获得了良好的参考，因此产生了更好的对齐效果。此外，它可以通过使用薄板样条变换[ 3]合成曲线文本。完全实现的SF-GAN还可以从真实图像中学习文本外观，并合成高度逼真的场景文本图像。此外，我们可以看到所提出的SF-GAN可以从背景图像中的相邻文本中学习，并相应地调整前景文本的外观。04.3. 肖像佩戴0数据准备：我们使用CelebA数据集[ 25]，并按照提供的肖像佩戴实验的训练/测试划分进行。训练集通过使用注释“眼镜”和“帽子”分为两组。对于眼镜情况，戴眼镜的一组人作为我们对抗设置中的真实数据进行匹配，另一组没有戴眼镜的人作为背景。对于前景眼镜，我们裁剪了15对正面平行眼镜，并将它们随机组合到背景图像中。根据我们的实验，15对眼镜作为前景对象足以训练一个强大的模型。帽子情况下的设置类似，只是我们使用30个裁剪的帽子作为前景对象。结果分析：图5显示了一些SF-GAN合成图像，并与ST-GAN合成图像进行了比较。如图5所示，ST-GAN通过将眼镜和帽子与背景人脸图像对齐，在几何空间中实现了逼真性。另一方面，合成图像在外观空间中不真实，颜色、对比度和亮度存在明显的伪影。相比之下，SF-GAN合成图像在几何和外观空间中更加逼真。特别是，在SF-GAN中，前景眼镜和帽子0物体人脸 ST-GAN SF-GAN0图5.不同GAN的肖像佩戴示例：列1-2分别显示前景帽子和眼镜以及背景人脸图像。列3-4分别显示由ST-GAN [ 21]和我们提出的SF-GAN合成的图像。0合成图像与背景人脸图像具有和谐的亮度、对比度和融合。此外，所提出的SF-GAN在几何对齐方面也比ST-GAN取得了更好的效果，ST-GAN只关注几何对齐。我们推测，更好的几何对齐主要是由于外观合成器的参考。表3中的AMT结果也显示了我们提出的SF-GAN具有更优秀的合成性能。05. 结论0本文介绍了一种SF-GAN，它是一个端到端可训练的网络，可以根据前景对象和背景图像合成逼真的图像。SF-GAN能够同时在几何和外观空间中实现合成逼真性。第一个场景文本图像合成研究表明，所提出的SF-GAN能够合成有用的图像，以训练更好的识别模型。第二个肖像佩戴研究表明，SF-GAN具有广泛的适用性，并且可以轻松扩展到其他任务。我们将继续研究SF-GAN，以进行全图像合成，以训练更好的检测模型。[18] Dimosthenis Karatzas, Lluis Gomez-Bigorda, AnguelosNicolaou, Suman Ghosh, Andrew Bagdanov, Masakazu Iwa-mura, Jiri Matas, Lukas Neumann, Vijay Ramaseshan Chan-drasekhar, Shijian Lu, Faisal Shafait, Seiichi Uchida, and936610参考文献0[1] Martin Arjovsky, Soumith Chintala, and Lon Bottou.Wasserstein生成对抗网络. 在ICML, 2017. 1, 2, 50[2] Samaneh Azadi, Deepak Pathak, Sayna Ebrahimi, andTrevor Darrell. 组合GAN：学习条件图像组合.在arXiv:1807.07560, 2018. 1, 30[3] Fred L. Bookstein. 主要变形：薄板样条和变形的分解.在TPAMI, 11(6), 1989. 3, 80[4] Xi Chen, Yan Duan, Rein Houthooft, John Schulman, IlyaSutskever, and Pieter Abbeel.InfoGAN：通过最大化信息的生成对抗网络进行可解释的表示学习. 在NIPS, 2016. 20[5] Zhanzhan Cheng, Yangliu Xu, Fan Bai, Yi Niu, Shiliang Pu,and Shuigeng Zhou. Aon: 面向任意方向的文本识别. 在CVPR,2018. 70[6] Emily Denton, Soumith Chintala, Arthur Szlam, and RobFergus. 使用拉普拉斯金字塔的深度生成图像模型. 在NIPS, 2015.20[7] Debidatta Dwibedi, Ishan Misra, and Martial Hebert.剪切，粘贴和学习：对于实例检测而言令人惊讶的简单合成.在ICCV, 2017. 20[8] Adrien Gaidon, Qiao Wang, Yohann Cabon, and EleonoraVig. 虚拟世界作为多目标跟踪分析的代理. 在CVPR, 2016. 20[9] Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza,Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville,and Yoshua Bengio. 生成对抗网络. 在NIPS, pages 2672–2680,2014. 1, 20[10] Ankush Gupta, Andrea Vedaldi, and Andrew Zisserman.用于自然图像中文本定位的合成数据. 在CVPR, 2016. 2, 7, 80[1

下载后可阅读完整内容，剩余1页未读，立即下载