局部注意金字塔：解决场景图像生成的类别视觉质量不平衡问题的新方法

147 浏览量更新于2023-10-25 收藏 13.91MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

scene image generation, the generator tends to ﬁrst synthe-size big and frequently appeared object classes since it canbe a shortcut to reduce a discrepancy between real and fakedistributions. This leads the generator to become just anexpert at drawing the dominant objects in the scene. It cancause a signiﬁcant class-wise visual quality imbalance prob-lem, especially low qualities for the object classes with smallscales or low appearance frequencies. Let us denote thoseobject classes as non-dominant objects throughout this paper.To support the above raised argument, we ﬁrst conductpreliminary study in the scene image generation with thestate-of-the-art GANs (i.e. StyleGAN [13]). We measure theclass-wise quality scores based on the segmentation results(Sec. 3 and Fig. 1). The pilot study shows that GANs tendto produce non-dominant objects in lower quality. Thisempirical evidence motivates us to develop a way to ensurebalanced quality over diverse object classes.To mitigate the aforementioned problem, we proposea simple yet effective attention module, Local AttentionPyramid (LAP) tailored for the scene generation, that spreadsattentions over the entire image regions and drives highlocal attentions in various scales. Speciﬁcally, our LAPmodule receives feature maps as its input and ﬁrst determinecoarse locations of each object class by employing depthwiseconvolution layers. Since depthwise convolution has nointervention between channels, we can infer the feature mapsthat maintain feature representations of each channel whichis highly related to parts of the object [1]. We then dividefeature maps into several feature patches and perform aninstance normalization for each patch, before feeding theminto the sigmoid function. By doing this, LAP ampliﬁes thelocally high activation scores in each patch. Thus, it spreadshigh attentions to diverse regions that can encourage thefeatures of various objects scattered in image. To handle thediversity of object scales, our LAP module infers multipleattention maps with various patch sizes based on the featuremap pyramid.Our main contributions are summarized as follows:77740场景图像生成的局部注意金字塔0Sang-Heon Shim, Sangeek Hyun, DaeHyun Bae, Jae-PilHeo * 成均馆大学0摘要0在本文中，我们首先研究了由GAN生成的场景图像的类别视觉质量不平衡问题。经验上发现，类别视觉质量与训练数据中对象类别的统治地位在尺度和外观频率方面高度相关。具体而言，小型和出现频率较低的对象类别的合成质量往往较低。为了解决这个问题，我们提出了一种新颖的场景图像合成专用的注意力模块，即局部注意金字塔（LAP）模块，通过显式地将高注意力分数扩展到局部区域，鼓励GAN生成高质量的多样化对象类别，因为场景图像中的对象分散在整个图像中。此外，我们的LAP模块以多个尺度分配注意力分数，以反映各种对象的尺度多样性。在三个不同数据集上进行的实验评估显示，与最先进的基线方法相比，FrechetInception Distance（FID）和Frechet SegmentationDistance（FSD）均有一致的改进。此外，我们将LAP模块应用于各种GAN方法，以展示LAP模块的广泛适用性。01. 引言0生成对抗网络（GANs）[7]在图像生成任务中取得了显著的进展。其最近的进展甚至在大规模基准测试中生成的图像几乎无法与真实世界的图像区分开[15,16]。然而，在场景图像中生成多样化的对象并没有得到足够的关注。大多数方法关注的数据集通常只有一个以图像中心为中心的对象，例如人脸。然而，众所周知，真实世界的场景图像中有各种不同区域的对象。在这方面，我们提出一个问题：“GANs能否生成包含高质量多样化对象的场景图像？”在GANs框架中，生成器学习生成高质量样本以欺骗鉴别器。在场景图像生成中，生成器倾向于首先合成大型和频繁出现的对象类别，因为这可以缩小真实分布和伪分布之间的差异。这导致生成器只擅长绘制场景中的主导对象。这可能导致一个显著的类别视觉质量不平衡问题，特别是对于具有小尺度或低外观频率的对象类别而言，质量较低。让我们将这些对象类别称为非主导对象。为了支持上述提出的论点，我们首先在具有最先进GANs（即StyleGAN[13]）的场景图像生成中进行了初步研究。我们基于分割结果（第3节和图1）测量类别视觉质量分数。这项初步研究显示，GANs倾向于以较低质量生成非主导对象。这一经验证据激励我们开发一种方法，以确保不同对象类别之间的平衡质量。为了缓解上述问题，我们提出了一种简单而有效的场景生成专用注意力模块，即局部注意金字塔（LAP），它将注意力扩展到整个图像区域，并在各种尺度上驱动高局部注意力。具体而言，我们的LAP模块以特征图作为输入，通过使用深度卷积层确定每个对象类别的粗略位置。由于深度卷积在通道之间没有干预，我们可以推断出保持与对象部分高度相关的每个通道的特征图。然后，我们将特征图分成几个特征块，并在将它们馈送到sigmoid函数之前对每个块执行实例归一化。通过这样做，LAP放大了每个块中的局部高激活分数。因此，它将高注意力扩展到可以鼓励图像中各种对象的特征的各个区域。为了处理对象尺度的多样性，我们的LAP模块基于特征图金字塔推断出具有各种块大小的多个注意力图。我们的主要贡献总结如下：0* 通讯作者0•我们强调GAN在场景合成任务中遭受类别图像质量不平衡问题。在实证研究中，我们发现GAN更注重生成大型和频繁出现的对象，因此为非主导对象提供较差的视觉质量。0510152005101520253035Figure 1.Class-wise FID scores with their pixel percentages77750•由于我们的LAP是一个通用模块，因此可以应用于各种GAN架构、损失函数和训练策略。我们将LAP应用于各种最先进的GAN方法，并使用各种质量度量在大规模场景图像基准上进行评估。实验结果表明，LAP在非常少的可学习参数的情况下显著且一致地提高了图像质量。0•我们引入了一种新颖的局部注意金字塔（LAP）模块，以解决在场景合成任务中分散注意力的类别质量不平衡问题，通过反映场景图像的特征来将注意力集中在具有局部高分数的不同区域。0生成对抗网络。通过开发GAN的网络架构，已经有许多优秀的工作来提高合成样本的视觉质量[3, 12 – 14, 21 –23]。作为最具开创性的工作，Radford等人[22]提出了DCGAN，采用了步幅卷积和转置卷积。最近，StyleGAN[13,14]提出了在每个卷积层中注入潜在代码以解开变化因素。MSG-GAN[12]提出了将生成器和判别器之间的中间层连接起来，使判别器能够查看生成器的多个尺度的中间输出。在这项工作中，我们提出了一种基于新颖的局部注意金字塔机制的模块，适用于现有的GAN架构，以提高位于不同区域的各种对象的视觉质量。我们通过将LAP模块应用于上述几种GAN架构来验证我们方法的优点。02. 相关工作0Frechet Inception Distance（FID）0注意机制。近年来，计算机视觉领域提出了简单而有效的注意机制[9,10,24,26]。通常，它们接收卷积块的特征图作为输入，并通过注意机制对其进行改进。例如，SENet [9]提出使用通道注意机制来增强通道之间的关系。另一方面，Woo等人[24]引入了CBAM，它以顺序方式利用空间和通道注意力。在GAN领域，一些注意力技术主要基于自注意机制[6,26]。Zhang等人[26]引入了自注意层，用于建模空间上远距离特征之间的依赖关系。Daras等人[6]通过多步骤计算注意力图来减少自注意过程的计算复杂度。在这项工作中，我们明确地分配激活值以推断0墙床地板天花板窗帘0像素数量（%）0地毯枕头画垫桌子0窗户沙发衣柜门箱子0图1. 类别的FID分数及其像素百分比（类别的像素数量）0柜子椅子扶手椅灯镜子0合成场景图像中的像素总数）。类别的视觉质量往往与像素百分比呈负相关。这是GAN生成较少频繁或小规模对象的低质量的经验证据，而更多地集中于少数但占主导地位的对象类别。请注意，本实验使用StyleGAN[13]。对于每个类别，我们从真实和伪造的补丁中计算类别的FID分数。0每个区域的高注意力分数。它有助于增强各种对象的特征表示，因为对象在场景图像中分散。03. 问题定义0在本文中，我们将讨论使用GAN生成场景图像。虽然真实场景图像中有各种各样的对象，但GAN倾向于集中于生成少数但占主导地位的高质量对象，而忽视其他多样化的对象。由于主导对象在训练数据集中尺寸较大且频繁出现，GAN的学习框架主要集中在它们上面，如前面所讨论的。因此，非主导对象在视觉质量方面可能自然而然地较低。为了支持提出的论点，我们进行了一个实验，通过使用最先进的GANs，StyleGAN，调查了与数据集中每个类别对应的像素总数相关的类别生成质量的趋势。在实验中，我们使用预训练的分割模型[25]计算分割图。然后，基于分割结果收集类别裁剪图像补丁。最后，计算真实和虚假补丁之间的类别FID值。一个理想的趋势可能是不同对象类别之间的一致FID值。然而，实验结果显示，FID值从主导对象到非主导对象变差，如图1所示。例如，椅子类的FID比床类高约9个点。上述问题引导我们的动机是，如果GAN在训练阶段尝试学习不同区域的对象概念，它可以生成具有更高视觉质量的多样化对象。为此，我们提出了一个Patch-INPatch-INPatch-IN��F ′ = ConvAvgPool(F); MaxPool(F),(1)Fa = Convγd(F) ⊙ T(F ′, C) + Convβd(F),(2)77760卷积池化0先前的卷积块0（a）通道分离转换 � �0平铺0深度卷积和仿射变换0下一个卷积块（b）局部注意力金字塔0图2. 我们提出的注意力模块的整体框架。（a）通道分离转换推断出类别间空间注意力的粗略位置。我们使用深度卷积层来防止通道之间的干扰，因为这可能导致与对象的各个部分密切相关的每个通道的特征表示的丢失。（b）局部注意力金字塔将特征图分成多尺度补丁，并在补丁中应用补丁实例归一化，然后将其输入到sigmoid函数中。然后，以递归方式组合计算得到的局部注意力图。局部注意力金字塔通过放大每个多尺度补丁中的局部高注意力分数，鼓励模型生成具有更高质量的多样化对象。0场景GAN的局部注意机制。我们提出的注意机制假设场景图像在其不同区域上有各种对象。因此，我们的目标是明确保证每个空间区域的高注意力分数。我们首先在第4节解释我们的注意机制，并在第5节验证其对各种基线GAN架构以及现成的注意力模块的有效性。04. 我们的方法0我们的注意力模块接收一个3D特征图并将其转换为下一个卷积块。我们有两个主要组件，1）通道分离转换，和2）局部注意力金字塔，如图2所示。直观地说，第一个组件（第4.1节）通过计算通道级别的空间注意力分数而不进行任何归一化来推导出每个对象类的粗略位置，而第二个组件（第4.2节）则通过不同的补丁大小进行分数归一化以处理对象尺度的多样性。04.1. 通道分离转换0在高层次上，我们首先通过转换输入特征来确定每个对象类或其部分的粗略位置。由于GAN的每个通道与对象类的部分密切相关，如[1]中所讨论的那样，我们计算空间0与典型的使用全局注意力图的注意机制不同，我们为每个通道计算注意力分数图。在典型的注意机制中，通过卷积操作计算要关注的位置。然而，一般的卷积操作对于我们计算类别相关的空间注意力分数并不合适，因为它在计算过程中涉及多个通道。通道之间的干预可能导致与对象的部分高度相关的通道信息丢失[1]。在下游任务中，浓缩操作有助于突出判别特征，但它们会干扰到在生成任务中将注意力集中在不同的对象上。因此，卷积层不适合我们的LAP模块，其中滤波器在通道轴上是全连接的。为了满足我们的目的，我们使用深度卷积层，因为它不允许通道之间的干预。这样，我们可以独立地为每个通道计算要关注的位置。具体来说，我们在CBAM[24]的基础上设计了我们的通道分离转换组件，并在其上添加了一系列深度卷积层的路径。请注意，与其他注意力模块不同，我们不执行任何归一化或激活，而是将原始值传递给LAP，因为LAP鼓励在不同大小的补丁内进行归一化，以生成不同尺度的对象。让我们描述一下我们的通道分离转换的实际实现。给定输入中间特征图 F ∈ R C × H × W，我们首先通过池化和卷积层沿通道维度压缩输入特征图，如下所示：0其中 Conv ( ∙ ) ， AvgPool ( ∙ ) 和 MaxPool ( ∙ )分别表示具有 3 × 3卷积核大小的卷积操作、平均池化和最大池化。通过这样做，要关注的位置的一般特征表示包含在 F ′ ∈ R 1 × H × W[24] 中。如前所述，我们从输入特征图 F进行通道分离转换，然后调制 F ′ 如下：0其中 Conv γ d 和 Conv β d 表示具有不同可学习参数的 3 ×3 深度卷积操作，⊙ 表示逐元素乘法，T ( f, n ) 是将特征图f 沿通道维度复制 n次的平铺函数。我们将计算得到的特征图 F a ∈ R C × H ×W 输入到我们的局部注意金字塔中。04.2. 局部注意金字塔0我们可以直接利用在第4.1节中计算得到的转换特征图，使用适当的激活函数，如sigmoid。然而，我们仍然有一个担忧，即与主导对象对应的通道可能会抑制1.20.61.81.21.81.81.82.42.47.93.03.63.67.38.51.83.67.34.210.33.64.24.83.03.03.03.610.3 12.14.23.63.61.81.22.410.9 11.55.54.23.01.27.93.04.23.67.97.93.01.28.52.43.04.21.27.32.41.22.43.03.01.81.81.23.00.40.20.50.30.60.60.61.01.112.12.53.42.111.0 13.30.61.611.01.815.61.62.25.81.01.11.11.415.6 19.42.21.41.40.70.40.917.5 18.53.02.41.00.412.31.32.51.39.312.31.00.413.30.72.64.50.311.00.90.41.12.62.60.60.60.41.41.20.61.51.01.61.61.82.62.812.85.06.04.511.9 13.81.83.712.04.015.93.74.58.02.52.72.73.315.9 19.54.53.33.31.91.22.417.6 18.65.64.92.71.212.83.14.83.210.6 13.02.71.213.82.05.07.01.011.92.51.22.75.05.01.71.71.13.41.20.61.51.02.812.85.06.03.712.04.015.92.72.73.315.90.20.10.00.00.10.10.20.30.41.01.01.00.51.01.00.20.21.00.20.90.20.31.00.00.10.10.10.91.00.30.10.10.30.20.21.01.00.20.40.10.21.00.20.40.10.61.00.10.21.00.01.01.00.01.00.20.20.41.01.00.10.10.10.40.20.10.20.10.20.20.20.20.20.90.40.50.40.91.00.20.30.90.31.00.30.40.70.20.20.20.31.01.00.40.30.30.20.20.21.01.00.50.40.20.21.00.30.50.30.90.90.20.21.00.20.50.60.10.90.20.20.30.50.50.20.20.10.30.20.20.20.20.20.20.20.20.30.90.40.50.40.91.00.20.30.90.31.00.30.40.70.20.30.30.31.01.00.40.30.30.20.20.21.01.00.50.40.30.20.90.30.40.30.90.90.30.21.00.20.40.60.20.90.20.20.30.40.40.20.20.20.3� = 1� = 00.70.30.90.61.01.01.11.61.712.43.54.63.111.5 13.61.12.411.52.715.72.43.26.91.51.71.72.215.7 19.53.22.12.11.20.71.517.5 18.54.13.41.70.712.62.03.62.19.912.61.70.713.61.23.75.70.611.51.50.71.73.73.71.01.00.62.20.70.30.90.61.01.01.11.61.712.43.54.63.111.5 13.61.12.411.52.715.72.43.26.91.51.71.72.215.7 19.53.22.12.11.20.71.517.5 18.54.13.41.70.712.62.03.62.19.912.61.70.713.61.23.75.70.611.51.50.71.73.73.71.01.00.62.21.61.61.82.64.511.9 13.81.83.74.58.02.519.54.53.33.31.91.22.417.61.212.83.14.81.213.82.05.01.22.75.05.018.65.64.92.73.210.6 13.02.77.01.011.92.51.71.71.13.4213233344135661214361271767855561720766324181997521357613135214457212424553325214133256336123414361255717617672078566322134185719961375135214244555723312425Patch-INPatch-IN77770放大局部峰值激活0Patch-IN0结果0输入（� = 2）0缩放输入0图3. 描述我们局部注意金字塔模块的玩具示例。该示例说明了在具有金字塔级别 p = 2 的 8 × 8特征图上推断局部注意金字塔。最右边的图像显示了LAP模块的输出。为了清楚地比较“结果”和“输入”，我们将“输入”缩放到与“结果”具有相同数量的总值。如图所示，LAP放大了局部峰值激活。0最后，其他的因为它们很可能覆盖特征图中的广泛区域。由于这对于高质量和特征图的通道具有不同的分布是有害的，应该进行适当的通道级归一化。此外，与通道相关的对象类别应该区分局部高分数（即比其邻居得分更高）的重要性。例如，与小尺度对象相关的局部高分数单元需要比大对象的单元更受关注。上述问题激发了我们提出局部注意金字塔（LAP）。LAP的开发是为了放大不同大小的补丁中的局部高激活分数。LAP的基本操作是将特征图的通道划分为一个网格，并在每个网格单元内进行独立的归一化。归一化后，整个通道进入sigmoid函数。在补丁内进行独立的归一化会强调局部峰值并将高的注意力扩散到不同的区域。此外，我们根据空间金字塔对不同大小的补丁进行补丁级归一化，因为归一化的补丁大小与对象的尺度密切相关。结果，LAP根据各种对象的尺度多样性分配注意分数。0金字塔级别p处的注意力图。为了简单起见，我们假设Fa和特征补丁的形状都是正方形。给定输入Fa，金字塔级别p处的补丁大小s p定义如下：0s p = l 2 p，（3）0其中l是Fa较长一边的长度。然后，我们根据以下实例归一化函数对每个s p × s p大小的特征补丁进行归一化：0Patch-IN（f，k h，k w，s h，s w），（4）0其中Patch-IN对输入f使用k h × kw大小的滑动窗口和步幅大小s（∙）沿空间轴进行。Patch-IN函数将特征补丁的最高激活值校准到附近的1。因此，Patch-IN输出的sigmoid结果始终包含补丁内的高注意力分数。我们的LAP模块如下计算注意力图M（F a，s p）：0M（F a，s p）= σ�Patch-IN（F a，s p，s p，sp，s p）�，（5）0其中σ（∙）是sigmoid函数。在实践中，我们设置k（∙）=s（∙）= s p，以便Patch-IN在不重叠的特征补丁上操作。0多尺度注意力图及其聚合。我们以递归方式计算多尺度注意力图，如图3所示。我们将金字塔级别p处的特征图表示为F pa。我们从在最高级别定义的最小补丁大小开始（公式3）。在每个级别上，我们的LAP模块首先根据公式5计算一个注意力图。然后，我们将注意力应用于当前特征图，并将结果传递给下一个级别，如下面的递归方程所示：0F p − 1 a = α ∙ F p a + (1 − α) ∙ (M（F p a，s p）⊙F p0其中α是控制先前注意力分数影响程度的衰减因子，⊙表示逐元素乘法。请注意，我们始终将α设置为0.5(7)77780数据集方法 FID FSD0COCO-stuff0StyleGAN 31.6 290.4StyleGAN（与我们的方法）30.7 283.10MSG-StyleGAN 76.7 655.8MSG-StyleGAN（与我们的方法）65.3 563.10LSUN卧室0StyleGAN 4.2 38.4StyleGAN（与我们的方法）3.4 34.50MSG-StyleGAN 6.5 54.4MSG-StyleGAN（与我们的方法）5.9 49.10MSG-DCGAN 60.9 303.4MSG-DCGAN（与我们的方法）24.9 238.60LSUN综合0StyleGAN 4.6 37.1StyleGAN（与我们的方法）3.9 33.20MSG-StyleGAN 7.7 74.2MSG-StyleGAN（与我们的方法）6.6 56.50MSG-DCGAN 81.4 615.1MSG-DCGAN（与我们的方法）46.6 426.70表1.大规模场景数据集的实验结果。我们使用官方代码和推荐的超参数训练基线模型。所有模型都是为生成256×256分辨率的样本而训练的。0在本文的所有后续实验中，我们执行上述递归，而补丁大小sp 覆盖了F a的整个大小。F − 1a是我们LAP模块的最终输出，并且我们将其添加到中间特征图F中，如图2所示。0多个宽高比。在实际实现中，我们采用多个宽高比的特征补丁来反映各种物体形状。具体而言，我们的LAP模块有三种不同类型的补丁形状：正方形、宽形和长形。因此，公式3被重新定义如下：0� 0� 0s个像素度为H02个像素，s个像素度为W02个像素正方形0s个像素度为H02个像素，s个像素宽度为W0s个像素高度为H，宽度为02个像素长0其中H和W分别表示Fa的高度和宽度。p表示金字塔级别。根据公式7，我们还将公式5重写如下：0M（Fa, sph, spw）= σ � Patch-IN（Fa, sph, spw, sph,spw）�，（8）0其中步幅大小与内核大小相同，因此Patch-IN在非重叠的补丁上执行。05. 实验0在本节中，我们通过与最先进的无条件GAN方法（包括MSG-DCGAN，MSG-StyleGAN [12]和StyleGAN[13]）进行广泛实验来评估我们提出的方法。0方法 # 参数0MSG-DCGAN 41 . 77 MMSG-DCGAN（与我们的）+ 0 . 1 M（+ 0 . 2%）0StyleGAN 49 . 13 M StyleGAN（与我们的）+ 0. 1 M（+ 0 . 2%）0MSG-StyleGAN 49 . 13 MMSG-StyleGAN（与我们的）+ 0 . 1 M（+ 0 . 2%）0表2. 基线和我们的可学习参数数量。05.1. 数据集0我们使用以下基准来评估我们的LAP和基线的性能：0COCO-stuff[4]是从COCO数据集[19]派生而来的。它包含从室内和室外场景中捕获的118,000个训练图像。它有182个语义类别。0LSUN卧室由3M的卧室图像组成。它有超过20个语义类别，这些类别是通过在已发表的工作[1,2]中使用预训练的分割模型[25]进行研究的。0LSUNcombined是一个自定义数据集，它是LSUN厨房、LSUN餐厅和LSUN客厅的组合。该数据集包含4.1M张图像。我们使用分割模型[25]发现了超过20个语义类别。05.2. 实现细节0我们将LAP模块应用于生成器的每个卷积块中，除了4x2大小的特征图。具体来说，我们根据特征图的大小应用不同的金字塔级别p。从8x2大小的特征图开始，每次上采样特征图4倍，p线性增加。因此，p=1对应于32x2大小的特征图，p=2对应于128x2大小的特征图。对于训练细节，我们遵循StyleGAN [13]和MSG-GAN[12]的官方实现中的默认训练设置。例如，我们允许训练迭代次数，直到鉴别器看到25M个真实图像，并使用γ=10的非饱和损失[7]和R1正则化[20]。此外，所有实验都没有使用水平翻转的数据增强。我们始终使用2个GPU来训练所有测试模型，比[14]中使用的8个GPU要少得多，因为缺乏研究设备。我们意识到GAN的性能可能因训练配置（例如GPU数量和迭代次数）而异，如[12,18]中所讨论和报告的。例如，由于上述问题，StyleGAN在LSUNChurches上训练的FID分数在[12]和[14]中是不同的。在这项工作中，我们在公平的配置下比较了所有测试模型，并更加关注LAP相对于基线的性能改进的明确展示。B(xi, c) ≠77790卧室墙床地板天花窗帘枕头垫子画桌子沙发门衣柜箱子地毯椅子灯柜扶手椅镜子0StyleGAN 10.7 10.1 13.6 13.6 11.1 11.6 16.1 19.2 11.4 15.5 17.8 12.7 14.2 15.1 19.6 19.1 13.6 14.6 18.7 13.5 + LAP 10.0 9.6 15.1 13.7 11.3 11.4 15.9 19.1 11.4 14.7 17.1 11.8 12.814.1 18.3 17.8 13.8 13.7 18.6 12.80组合墙地柜天花窗椅子桌子沙发表面窗帘扶手椅炉灶厨房桌子画冰箱门地毯咖啡桌垫子架子0StyleGAN 11.0 14.4 11.2 13.1 11.4 15.0 15.6 16.1 12.0 13.0 18.5 13.8 11.5 12.2 14.0 12.4 19.1 17.4 20.7 17.8 + LAP 11.2 13.5 10.8 13.3 10.9 14.9 14.7 14.5 11.7 13.3 16.2 12.810.8 12.6 12.0 12.4 20.8 16.4 18.0 16.50表3. LSUN卧室（上）和LSUN综合（下）的类别-wise FID分数。我们基于预训练的分割模型从类别-wise的裁剪图像块计算类别-wiseFID分数。请注意，“+ LAP”表示StyleGAN（带有我们的LAP）。05.3. 评估指标0FID. Frechet Inception Distance (FID)[8]被广泛用于衡量图像生成质量。FID分数通过以下顺序操作计算：首先，从Inception模型的中间层提取特征。然后，从Inception特征中获得均值为m，协方差矩阵为C的多维高斯分布，计算Frechet距离如下：0d 2 � ( m r , C r ) , ( m f , C f ) � = ∥ m r − m f ∥ 2 20+ Tr � C r + C f − 2( C r C f ) 1 / 2 � , (9)0其中Gaussians ( m r , C r ) 和 ( m f , C f )分别来自真实样本和虚假样本。Tr ( ∙ )表示矩阵的迹。请注意，我们在本文中从50K的真实和虚假图像中测量FID分数。0类别-wise FID.为了进一步量化每个类别的视觉质量，我们提出了类别-wiseFID。我们首先使用预训练的分割模型计算分割图，然后根据分割结果收集类别-wise的裁剪图像块。最后，我们使用公式9计算真实和虚假图像块之间的类别-wiseFID分数。我们将其表示为类别-wiseFID。请注意，我们在本文中始终从5K的真实和虚假图像块中测量类别-wise FID分数。0FSD. 最近，Bau等人[2]提出了Frechet SegmentationDistance(FSD)来量化场景数据集中模式丢失的程度。它不使用Inception特征，而是从语义分割标签的直方图中获得高斯分布 ( m,C ) 。具体而言，对于分割图 x ，计算类别 c的像素预测为类别 c 的百分比，得到类别 c 的频率 H ( x, c )如下：0H ( x, c ) = 10WH0i =1 B ( x i , c ) , (10)0其中0当 s ( x i ) = c 时，为 1；当 s ( x i ) �= c 时，为 c 0，(11)0其中 s ( x i ) 表示分割图 x 在像素位置 i处的预测标签。函数 H ( x, c )遍历所有语义类别和一组分割图。在获得真实和虚假样本的高斯分布 ( m r , C r ) 和 ( m f , C f )后，从公式9计算Frechet距离。请注意，DeepLab-v2[5]和UperNet101[25]分别作为COCO-stuff和LSUN数据集的预训练分割模型。按照Bau等人[2]的方法，我们在本文中从10K的真实和虚假图像中测量FSD分数。05.4. 定量结果0为了证明我们的LAP是一个通用模块，我们将LAP应用于具有不同GAN架构、损失函数和训练策略的三个基线。例如，MSG-DCGAN使用相对论-铰链损失函数[11]训练基于DCGAN的模型。此外，它们不使用渐进学习。传统的GAN架构。我们首先将我们的LAP模块应用于MSG-DCGAN[12]并在LSUN数据集上进行训练。对于基于DCGAN的架构来说，生成256×256的假样本是一项艰巨的任务。如表1所示，我们的LAP模块在视觉质量上优于原始的MSG-DCGAN。例如，在LSUN卧室中，MSG-GAN（带有我们的LAP）的FID分数为24.9，比原始的MSG-DCGAN显著提高了36.0个FID点。请注意，我们尝试在COCO-stuff中训练基于DCGAN的架构，但由于场景复杂性较高且缺乏训练图像，它遭受了严重的模式崩溃。0最近的GAN架构。我们进一步将我们的LAP模块应用于StyleGAN和MSG-StyleGAN。我们在COCO-stuff和LSUN数据集上进行了大量实验，并在表1中报告了结果。结果表明，我们的LAP模块一致改善了基线方法的FID和FSD分数。具体而言，在LSUN卧室中，StyleGAN（带有我们的模块）的FID分数为3.4，比原始StyleGAN提高了0.8个点，同时将FSD分数从38.4提高到34.5。在其他数据集和MSG-StyleGAN的实验结果中也可以找到类似的趋势。这些结果明确验证了我们的LAP模块提升了最近场景图像生成器的学习能力。请注意，我们还提供了� = 3� = 2� = 1� = 0�� 77800单位29 单位29 单位29 单位290单位74 单位74 单位74 单位740图4. 局部注意金字塔结果的可视化。第一列的图像是由StyleGAN（带有我们的模块）生成的假样本。其他列显示了对应于每个金字塔级别的可视化注意力图。0LSUN教堂的结果以及根据附录中的精确度和召回率测量的详细质量分析。0可学习参数的数量在表2中报告。我们的LAP模块只需要额外的0.2%参数，相对于基线方法。这表明GAN性能的改善不是由于增加模型容量引起的。请注意，基线模型具有相同数量的卷积块，因此当应用LAP时，模型参数的增量是相同的。0按类别的视觉质量。表3报告了针对StyleGAN生成器的类别FID分数。如报告所示，我们的LAP模块在各种对象上一致改善了FID分数，从而减轻了GAN生成的场景图像中类别视觉质量不平衡的问题。请注意，我们没有在COCO-stuff数据集上测量类别FID分数，主要是因为生成样本的视觉质量太低，以至于预训练的分割模型无法很好地分割对象。我们还通知，关于外观频率和对象大小的相对每类改进的报告在附录中提供。05.5. 定性结果0局部注意金字塔的可视化结果如图4所示。首先，在p =3时，我们的局部注意金字塔为每个最小区域计算高注意力分数。因此，高注意力值也会乘以空区域（例如墙壁）。通过从细到粗的级别逐渐推断注意力图，我们的LAP模块逐渐产生聚焦于场景图像中不同对象的空间注意力图。0方法 # 参数 F

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

局部注意金字塔：解决场景图像生成的类别视觉质量不平衡问题的新方法

类别不平衡问题的解决方法1

图像金字塔在图像分割中的作用 用法

图像金字塔、特征金字塔的区别

如何使用图像金字塔技术来优化cascade分类器

matlab中金字塔图像融合

opencv图像金字塔

python实现：计算原始图像的拉普拉斯金字塔

matlab图像高斯金字塔函数

如何构建遥感图像金字塔

金字塔的语义分割算法

金字塔图像融合法 matlab

python实现：计算原始图像的高斯金字塔

MTCNN的图像金字塔怎么生成的，用专业语言描述

移动场景超分辨定位问题

通过视觉词汇的频率来表示图像

SAR图像和可见光图像融合的各种方法的优缺点

影像金字塔的生成python 双线性插值

python实现：计算原始图像的高斯差分金字塔

transformer图像生成

最新资源

图像金字塔在图像分割中的作用用法