GAN潜在空间的开放式词汇表

125 浏览量更新于2023-10-13 收藏 3.39MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

6804GAN潜在空间Sarah Schwettmann1，Evan Hernandez2，David Bau2，Samuel Klein3，Jacob Andreas2，AntonioTorralba21 MIT BCS，2MIT CSAIL，3MIT KFG{schwett，dez，davidbau，sjklein，jda，torralba} @ mit.edu摘要最近的大量工作已经确定了生成对抗网络（GAN）潜在空间中的转换，这些转换一致且可解释地转换生成的图像。但是用于识别这些变换的现有技术依赖于预先指定的视觉概念的固定词汇表，或者依赖于无监督的解缠技术，其与关于感知显著性的人类判断的对准是未知的。本文介绍了一种新的方法来建立开放式的词汇表的原始视觉概念表示在一个GAN的潜在空间。我们的方法由三个部分组成：（1）基于它们的层选择性自动识别感知上显著的方向;（2）用自由形式的、合成的自然语言描述对这些方向进行人工注释;以及（3）将这些注释分解成视觉概念词汇表，该视觉概念词汇表由用单个单词标记的提取的方向组成。实验表明，我们的方法学习的概念是可靠的和可组合的概括类，上下文，和观察员，并使细粒度的操纵图像的风格和内容。1. 介绍GANs [8]将潜在向量z映射到图像x。过去的研究发现，这个潜在空间中的方向可以对图像语义的特定方面进行编码：例如，在卧室上训练的StyleGAN包含一个方向，使得在该方向上移动大部分z会相关图片[24]然而，目前用于识别这些方向的方法是特设的，仅捕获有限的一组人类显著维度的变化。在本文中，我们描述了如何构建更有表现力和多样化的有意义的图像变换集-视觉概念词汇表-通过分解GAN变换的自由语言描述。考虑尝试找到一个方向，使户外市场更喜庆（图1）。GAN潜在空间太大，无法在有监督的图1：构建视觉概念词汇表。首先，我们生成保留图像中大部分结构和内容的方向。然后，我们使用人类注释将它们分解为对应于单个突出概念的方向最后，我们展示了分解的方向在起始表示和输入类之间的推广，并且可以组合以构造复合方向。方法无法验证是否存在所需的方向[11，7，24，19]。非监督方法[10，15，20，21]可能无法发现节日方向，因为模型的主要组件不一定能捕捉到为了提高我们对GAN潜在空间中编码的各种可解释语义转换的理解，我们提出了一种新的方法，用于从下向上构建原始的感知突出方向的开放式词汇表。我们的方法由三部分组成：1. 基于层选择性生成感知显著方向的新过程。所得到的方向对场景做出有意义的局部改变，但仍然是非原子的。2. 一种数据收集范例，其中人类注释者直接用它们的语义标记方向，这6805ZZ是复杂的并且组成多个概念来描述视觉变换。3. 一个新的方向袋模型，自动分解这些注释到一个词汇表的因为我们的方法覆盖了GAN潜在空间的广度，所以它能够以相对开放的词汇表进行可靠的图像编辑我们还展示了我们的词汇如何支持泛化到新的组成和跨类转移。代码、数据和其他信息可在visualvocab.csail.mit.edu上获得。2. 相关工作我们的方法受到最近成功发现捕获图像中语义变化的各个维度的潜在向量的启发[11，10，7，24]。据我们所知，我们是第一次尝试系统地编目的一套人类可解释的概念内表示的发电机解释GAN。GAN擅长捕捉图像的丰富视觉结构，这就提出了一个问题，即它们利用什么样的内部表示来实现这一点，以及这些表示与人类在视觉场景中识别和发现有意义的变化维度重叠GAN的早期工作[17]发现了潜在向量，这些向量在不同的抽象层次上编码语义上有意义的表示。解释问题的后续方法[2]集中在单个单元上，并使用预训练的分割网络[23]来识别中间层中的单元集，其特征图与特定对象类的语义分割密切匹配。相关工作通过将生成图像中分割对象的分布与训练集中的目标分布进行比较，识别了GANs [3]没有这些方法在它们可能识别的概念集合中受到约束，这些概念集合限于分割模型内表示的对象类。除了对象之外，GAN还被证明包含确定空间布局的内部表示[14，27，1]以及其他高阶场景属性，包括可记忆性和情感价[7]。虽然这些方法已经使得控制图像输出的特定方面成为可能，但是寻找预定的概念集合限制了关于GAN能够表示的内容可以学习的内容我们的解释方法旨在更加数据驱动：通过从头开始构建以GAN为代表的、对人类重要的共享职业。监督方向搜索。如果要搜索的概念是已知的，并且属性注释是可用的，则可以使用监督分类器来发现潜在空间中的向量方向[12，19]。当属性注释不可用时，可以使用图像分类器[24]，或者可以训练单独的模型[11，16，6]。然而，前者仅限于由分类器捕获的概念，而后者仅限于简单的预定视觉概念，例如相机角度。我们的方法并不假设要搜索的概念是事先已知的。无监督方向搜索。其他最近的方法使用无监督方法来发现GAN潜在空间和特征空间中的可解释维度[10，21，15，22]。这些方法利用了许多GAN表示的已知解纠缠[2]。一种这样的方法-GANSpace-通过识别GAN早期层上的特征张量的主成分来发现图像操作的潜在方向，并通过线性回归将基础转移到潜在空间[10]。然而，这些转换中的大多数的视觉内容是未知的，因为只有少数的例子已经被作者在事实之后标记。此外，该方向生成过程限于找到模型表示的解纠缠的主要分量，而对人类显著的在相关的工作中，应用自组织标签的方向发现与这样的无监督的方法，我们引入了一个自下而上的方法，发现与概念相关的方向，在这种情况下，当一组搜索的概念是不知道的先验。我们的方法的一个主要贡献是，它不需要在标记之前完美地解开3. 将视觉概念投射到潜在空间我们的目标是提取GAN潜在空间中的变化维度，这些变化维度捕获图像空间中的原始视觉变换。我们首先在多个图像类中生成一组测试方向，其中沿着这些方向的变换被约束为在层的特征表示的子集中最小接下来，我们合成在潜在空间中沿着每个测试方向变换的图像序列，并要求人类注释者描述相应的视觉变化（第3.2节）。因为这些方向是在没有预先选择特定概念的情况下生成的，所以它们充当了屏幕，观看者将他们发现最显著的感知变化的梯度投射到屏幕上。我们利用重复术语的普遍性及其与不同转换的关联来推断潜在空间中表示的一组视觉概念，以及改变每个概念感知存在的相关（第3.3节）。6806Z一一ǁ −ǁǁ −ǁ图2：层选择性方向的示例方向是通过最小化层中相对于方向的变化来生成的，受到范数约束。我们的过程为每个层选择一组n个LSD，一次一层，与已经选择的那些正交本文其余部分的实验使用Big-GAN架构[4]，这是一种在Places数据集[26]上预训练的类条件模型，其中包括来自365个独特类的视觉场景。然而，我们的方法是相对模型不可知的。我们在补充中展示了在ImageNet数据集[5]上训练的BigGAN的泛化3.1. 选择注释生成器G将潜在码z和类向量y映射到图像空间中，合成x=G（z;y）。可以通过沿着潜在空间中的对应方向d变换矢量z来沿着视觉维度操纵图像X：x*=G（z+d;y）.视觉空间和潜在空间中的方向之间的这种对应关系是我们希望解决的问题对于给定的模型，我们想要学习在视觉空间中对人类观察者来说突出的变换的潜在空间中的嵌入。然而，我们不能从定义一个目标开始，其中d被优化以在x中产生可辨别的变换，例如[11，7，18，24]，因为我们希望避免预先承诺视觉概念的固定词汇表。层选择性方向（LSD）。为了生成用于注释的方向，我们对不同z的显著感知变换的空间进行采样。我们的目标是收集一个方向注释数据集，它既多样又特殊-捕获一组广泛的概念，其中相同的概念与图像和观察者之间的特定方向可靠地关联。因此，对于给定的z，我们寻求在不同的抽象层次上做出最小的、有意义的感知变化的方向随机采样的方向往往会改变许多视觉特征，在许多级别的分辨率，一次全部。骗-应变方向d（固定大小）以在图像输出G（z+d;y）中产生较少数量的特定的可识别的变化，我们可以搜索使G的中间层的特征表示的变化最小化的d。用GA表示G的前l层。然后，该层的特征图计算如下：gA=GA（z，y）（1）设gA*是当我们将d加到z时第l层的输出：gA*=GA（z+d，y）（2）我们通过定义一个层正则化子来约束层表示的变化，该层正则化子使某个层l的g * g A 2最小化。为了生成满足针对层1的该目标的方向d，j，A的相反集合，我们对随机向量d进行采样，然后对每个样本应用梯度下降以优化潜在方向d，j，A，以最小化gA*的变化，其中d，j，A被约束为具有单位范数。我们将以这种方式优化的方向称为层选择性方向。G的不同层控制不同分辨率级别的图像输出中的特征，后面的层控制更细粒度的特征[2，24]。因此，为了构建包含不同图像变换的LSD的集合，当在层1处对矢量dj，A进行采样时，我们添加样本与其他层的LSD正交的进一步约束。从形式上讲，我们的目标是：dj，A=argming*gA2（3）d∈Ul其中U A={d}，使得||D||=1和d∈dj'，A'对于所有j'和l'>l}（4）我们通过在最后一层l处对n个LSD进行采样开始，并且然后继续寻找对于较早层l选择的正交方向。6807Z层。该过程类似于Gram-Schmidt或-正交化，并且选择沿着的相互正交的子空间的方向，最后，我们生成一组与所有LSD正交的n个附加方向，以捕获被层选择过程排除的图像变换类型。使用该方法生成的方向的示例在图2中可视化。3.2. 收集方向标注我们将第3.1节中描述的方法应用于64个随机选择的z，以生成每个z的20个层选择性方向di，总共1280个方向。对于每个zi，通过将修改的zi传递通过生成器来沿着每个方向j变换图像G （z i）：G（z+αdi，j）.变换在图像对中可视化：[G（zi），G（zi+αdi，j）]，其中d具有单位范数。为了创建用于注释的图像，我们设置缩放项α=6。对于每个方向，我们在BigGAN-Places中合成四类图像：小屋，厨房，湖泊和麦地那（户外市场）。这些代表熟悉的视觉场景，平衡室内和室外，自然和建筑环境。使用Amazon Mechanical Turk（AMT）收集方向注释。与会者看到单个图像对[G（z），G（z+αdj）]，并被要求描述两个图像之间的构图和风格的主要视觉变化，总共5，120个注释。图3示出了示例图像序列和注释。我们在第S.1节中提供了有关AMT设置的更多详细信息图3：来自所有四个图像类的示例转换和AMT注释：（a）小屋，（b）麦地那，（c）厨房，（d）湖。数据标准化和后处理。为了清理和规范化第3.2节中产生的方向注释，我们首先使用补充中描述的方法对标签进行预处理和lemmatize。接下来，我们发布-图像类概念的唯一性n> 1乘以一个类山寨1166508147厨房1045445167湖1167479153麦地那1087460142所有四28001372609表1：按类划分的清理后的注释中使用的概念的不同术语。我们专注于那些在多个标签中重复的标签，其中不到一半（44%）只出现在一个类别中。通过检测捕获概念中的减少的短语（例如，较少的绿色，或窗口被移除），并将它们标记为各个负方向。其结果是一个紧凑的人类视觉概念的术语集，描述每个方向，我们称之为清洁的注释。例如，图3a中所示的方向的经清理的注释将读取“雪、天空、电、蓝色、怪异、黑暗、云、冷”。在所有课程中，出现了2800个独特的概念，其中1372个至少重复了一次。122人出现在所有四个班级。表1中显示了每个类中独立使用的不同概念的数量。在整个数据集中出现超过20次的概念中（在所有4个类中），32%是对象（例如cabinet、tree），48%是属性（例如更温暖、更明亮），20%描述场景和对象级几何（例如，背景、角度）。我们在第S.2节中提供了这些类别的更详细描述以及按图像类别划分的概念细分。经清理的注释指示描述每个LSD的视觉概念然而，它们并不隔离对应于个体概念的变化维度;一个方向可以由多个术语描述为了理解哪些视觉上突出的术语可以被映射到GAN表示中的各个维度上3.3我们将注释方向分解成Z潜在空间中的一组评估方向质量。虽然我们的主要贡献是一个程序（第3.3节），用于提取一组解开，人类可识别的概念，从任何语料库的方向注释，我们描述的方法，以获得一组初始的方向也有优势，相关的方法。为了验证我们使用LSD进行注释的决定，我们直接将数据集中LSD的注释与两个基线进行比较：使用GANSpace方法[10]生成的方向，以及随机生成的方向。对于600个LSD的子集（四个图像类别中的每个类别中有150个），我们使用第3.2节中描述的AMT协议每个方向收集10个注释。此外，我们遵循[10]并确定了与特征的主成分对应6808Z−张量的前三层G。最后，我们采样了600个固定大小的随机方向。将所有方向归一化并添加到相同的z集合，其中α=6。表2显示了我们的比较结果。我们发现，LSDs引出一个更多样化的词汇的单字概念和他们的组成。此外，我们还测量了注释器间BLEU [13]和注释器间BERTScore，后者利用大型预训练语言模型来测量注释之间的语义相似性[25]。虽然我们的LSD获得了比基线更低的注释者间BLEU分数，但它们获得了更大的BERTScore，这表明与基线相比，注释者如何描述LSD的词汇重叠更少，但语义重叠更大。这一假设得到了进一步的证实LSD注释中的n然后，我们可以解析地求解E：E=（WTW+λI）−1WTD（7）其中I是单位矩阵，其大小与WTW相同。超参数λ决定了L2损失和E.我们在实验中将λ设置为100。在G的潜在空间中的单个词嵌入ej沿着E的行。如在第3.1节中，沿着对应于概念j的提取方向变换图像G（z）等效于在潜在空间中在方向ej上移动并且使变换的z向量通过生成器：G（z+αej）.缩放参数α决定变换的程度和类型：较大的α将更多的概念j引入G（z），并且在许多情况下，α从场景中移除视觉概念。我们注意到潜在的方向1克2克3克BleuBERTScore-R空间不是感知上均匀的：相同幅度的步骤随机2,31614,91322,9388.860.375沿着不同方向的态度并不一定反映GANSpace2,97518,62226,4668.240.343相同数量的感知变化。继续工作可能LSD（我们的）3,15620,98631,3077.170.393描绘出这种对运动的感知敏感度表2：添加到同一组z的6000个方向注释的多样性和可靠性度量的比较。对于LSD，观察者识别出每个数据集的语义上最相似的变化。反应，总体上产生了大量的单词概念及其组合。3.3. 视觉概念我们的目标是识别原始视觉概念的词汇表，但如图3所示，LSD注释描述了复杂的、合成的图像变化，即使在将注释限制到层选择方向之后。我们假设，每个注释的方向可以从与注释中的各个概念相关联的一组提取的方向换句话说，d（红色高层建筑）≈d（高）+d（红色）+d（建筑）（5）这是一个简化的假设（红色意味着红色头发与红砖的颜色不同）[9]。然而，它提供了一个方便的（和经验上有效的）数学框架，用于从组合注释中提取原始概念的方向。特别地，我们可以将视觉概念词汇的学习公式化为以下形式的正则化线性回归：方向在潜在空间上变化。图 1和图 4 说明了将我们的方法应用于 BigGAN-Places以解开与各个概念相对应的方向的功效，其中每个概念与多个注释方向相关联。我们还测试了这种方法对BigGAN-Imagenet的推广，并在补充中显示结果。有趣的是，lake是ImageNet和Places共享的唯一图像类。对于相同数量的注释方向（ 1280 ），BigGAN-ImageNet 的 lake 类中不同概念的数量是BigGAN-Places lake类中不同概念数量的75%<这可能反映了由于训练数据较少而导致的类似ImageNet类中的场景多样性较少鉴于我们的方法是可推广的，相当模型不可知的，我们建议，它可以被用来在这样一种方式来表征一个给定的发电机的投影的概念突出到一组概念的模型已经学会了人类。4. 评估提炼的视觉概念我们现在已经将LSD提炼成一个原始视觉概念的词汇表，每个词汇表都由一个简短的语言描述组成，例如：雪或节日，以及相关的潜在方向。我们的下一步是评估方向在生成的图像中产生转换的2、忠实于自己的描述。换句话说，多久一次arg minWE−DF+λEF（6）其中词矩阵W的行i对应于注释，W的列j对应于各个词。Wi，j=1，如果词i出现在清理后的注释j中。因此，WE是我们可以与D进行比较的注释嵌入的矩阵，其中行di是Z潜在空间中的注释方向将树的方向添加到起始表示是否清楚地将树添加到图像？我们通过进行一系列的人类实验来实证研究这一点，在这些实验中，众包工作者被要求在几个图像转换中区分哪一个对应于一个特定的视觉概念。变换图像之一是通过将对应E6809图4：跨四类视觉场景的示例视觉概念，每类应用于两个z。这个样本只代表了BigGAN-Places中发现的1372个独特概念某些概念（如蓝色）出现在所有场景类中。其他的则是一个或两个（如使湖雾或厨房现代）。底部：在某些情况下，减去概念可以产生相反的转换。比如蓝色的减法是补色的橙色，冬天的减法是春天的景象。具有不同α的其他示例在补充中示出。方向d到起始z，而其他方向通过添加来自词汇表的不同方向来构造。如果人类能够可靠地辨别出哪个变换后的图像对应于视觉概念，这将表明方向是忠实的。以下三个实验采用这种结构，并改变词汇的构建方式，以研究蒸馏物的不同性质方向前两个实验的重点是方向是否在起始表征（第4.1节）和图像类别（第4.2节）之间泛化。最后的实验探讨了它们是否可靠地组成一个一个其他的，支持组合扩展的词汇表（第4.3节）。6810∗∈ ZZ--∈ Z4.1. 概念是否在Z上泛化？我们首先要问的是，当将提取的方向加到不可见的z上时，保持所有其他输入相同。这里，我们固定一个类y，只改变初始表示z。这意味着当我们使用等式7提取词汇表时，我们仅使用人类注释者看到用类y生成的图像的注释来构造W。对于每个视觉概念c*及其提取方向d*，我们从词汇表中的其余方向中抽取az和三个干扰项方向d1、d2、d3向人类参与者示出初始图像G（z; y）和四个变换图像G（z+αdi; y），其中i = 1，2，3，…并被要求辨别哪个变换图像对应于c*。如果方向d*成功地推广到新的z，那么参与者应该可靠地选择由该方向产生的图像变化。我们从Amazon Mechanical Turk招募众包工作者;关于AMT设置和其它超参数的全部细节可以在补充中找到。为了去噪，我们生成三组z和干扰词的词汇表中的每个概念，并另外显示每个（z，d）对五个不同的参与者，共15 AMT命中每个概念。蒸馏方向推广到新的输入。表3显示了按图像类别划分的人类准确度。参与者识别正确的图像变换超过60%的时间，提供了强有力的证据，蒸馏方向概括整个表示空间。图5a示出了许多概念以比表3中报告的更高的准确度被识别，并且只有大约6%的概念以机会的水平被识别。属性是最有可能被准确检测到的概念类别（75%）。我们在第S.3节中按概念进一步细分使用SVM检测概念。我们使用线性分类器来检测添加到生成的图像中的概念，从而提供了我们的词汇概括的额外证据。对于所有四个类别中的20个最频繁的概念中的每一个，我们训练线性SVM以区分将该概念添加到图像中与添加随机采样的干扰项，并在保持的图像上进行测试。在所有类别中，平均分类准确度显著高于偶然性（小屋：80.2%，厨房：73.4%，湖泊：79%，麦地那：77.3%），并且与人类一样，属性的准确度总体上最高（82.8%）。我们在补充中提供了每个概念的细分。4.2. 概念是否跨类泛化？视觉概念是上下文敏感的。例如，使厨房场景更明亮可能涉及添加其他灯具，而使农舍场景更明亮实验厨房Lake Medina Cottage Avg.泛化z.60.76.62.64.66概括y.37.39.43.37.39组合物.40.44.51.41.44表3：区分目标概念与目标概念的人类准确度三个干扰项，其中通过将其相关联的方向应用于新 z（ Generalizez ）、新类（ Generalizey ）和方向的合成（Composition）来可视化概念。图5：（a）来自第4.1节的直方图，其中准确度是指人类正确识别特定概念的时间分数。垂直虚线表示随机猜测的准确性。对于94%的概念，参与者比随机猜测更容易识别正确的变化，这表明方向概括为穿过z。（b）概念准确性第4.2节的跨类评估，通过是否概念出现在训练类和测试类的注释一些概念（通常是对象和属性）表现出很强的跨类泛化，每个观察者都能正确识别一个。其他概念即使出现在两个类的注释中也无法泛化，这表明Big-GAN还没有完全将概念从类中分离出来。很可能会增强太阳的辐射。尽管这些图像变换之间存在差异，但两者都是更明亮的视觉概念的实例。同时，一些视觉概念对于上下文可能是唯一的。厨房类专门功能的概念，如橱柜和电器，而湖类功能雪和山-tains。这就提出了一个问题：如果我们使用来自一个图像类的注释来构造词汇表，那么所得到的方向是否在其他类上产生忠实的变换？我们现在重复4.1节中的计算，但不是在计算中固定y，而是从未用于在等式7中构造E的类集合中随机选择它。因此，在评估厨房词汇表时，我们使用lake、cottage或medina类生成图像和转换。我们得出几个结论。当概念在类之间共享时，跨类的泛化是最健壮的。图5b示出了当概念出现在两个类的词汇表中时，参与者最经常地识别概念。这与直觉一致，即应该很难添加视觉效果6811∧∈Z◦∈◦联系我们∈◦◦∈ −{}◦当概念对于上下文是外来时，例如，将设备添加到湖泊场景。为了使这些转换成功，BigGAN必须生成分布图像。然而，提取的方向仍然跨类泛化。尽管跨类泛化比类内泛化更难，但人类在大多数情况下仍然识别目标视觉概念。这甚至包括一些分布外的概括，如图6中所示的概括，其将雪插入到麦地那中，尽管在麦地那训练图像中看不到雪。图6：由应用于medina的相同起始图像的分解方向产生的若干图像变化。方向一般化（a）跨类和（b）类内。无论对应的概念（c）是否在原始语料库中不共现或（d）是否共现，都可以组成两个方向。4.3. 概念是否构成？在之前的实验中，我们的词汇包括原始的视觉概念，如山和黑暗。我们能从这些原始的视觉概念中构造出更复杂的视觉概念这样做的一种方法是将基本概念结合起来：给定山方向和暗方向，通过简单地平均两个方向来构造山暗。我们在本节中的目标是评估这种组合成功的频率。我们重复第4.1节的评估，现在通过从原始词汇中合取组合每对原始概念来构建词汇。形式上，给定一个原始词汇V，对应于一个固定的概念y和两个方向a，bV，我们定义它们的组合ab为（a+b）/2，并定义我们的新的词汇是V′=一b：（a，b）V2。在在实践中，V′相当大，因为它有很多概念，所以我们随机选择50个组成的子集如前所述，对于每个方向a bV′，我们采样一个表示z和三个干扰项方向。然而，在这方面，现在，我们选择两个干扰项作为A和B与其他原语的组合。具体来说，我们采样图7：（a）人类选择第4.3节中的每种组合物的时间分数。a和b是目标方向，而c和d是随机选择的干扰项。观察家们经常会发现正确的成分，但即使不是，他们更喜欢部分正确的成分，这表明分解的方向忠实地组成。(b)人类识别每个概念组成的时间分数，根据组成的概念是否在原始语料库中共同出现而划分。这两类组成per-form具有可比的平均准确度，这表明词汇表中的许多方向可以忠实地组成。两个附加方向c、dV甲乙丙并使用 c、b、d和c、d作为干扰物。然后，参与者辨别哪个变换后的图像包含a和b。提炼的方向组合产生新的和可识别的概念。即使成分变化很难区分，参与者仍然可靠地预测正确的变化。此外，图7a显示，当参与者选择一个分心，他们倾向于选择最接近目标的干扰物，即aoc或bod。即使在训练数据中没有同时出现概念时，组合也会产生忠实的转换。图7b示出了参与者识别组合概念，而不管组成概念是否曾经一起出现在单个LSD描述中。图6示出了一个示例，其中紫色和人的概念（在训练期间不可见）可以被组合以产生充满人的紫色麦地那5. 结论我们引入了一个新的程序，用于构建GAN潜在空间中表示的原始视觉概念的开放式词汇表，并表明这些概念是可靠可识别和自由组合的。这项工作代表了弥合人类感知和人工生成器之间的代表性差距的重要一步。未来的工作可以探索使用我们的方法与BigGAN以外的生成器，如StyleGAN。鸣谢。我们感谢MIT-IBM Watson AI实验室的支持，以及IBM捐赠的Satori超级计算机，该计算机使BigGAN能够在MIT Places上进行培训我们也感谢Luke Hewitt的宝贵讨论和见解。6812引用[1] David Bau，Hendrik Strobelt，William Peebles，JonasWulff，Bolei Zhou，Jun-Yan Zhu，and Antonio Torralba.语义- tic照片处理与生成图像之前。ACM Transactionson Graphics，38（4）：1-11，2019年7月。2[2] David Bau ， Jun-Yan Zhu ， Hendrik Strobelt ， BoleiZhou， Joshua B.作者：William T. Freeman 和AntonioTorralba。肝解剖：可视化和理解生成对抗网络，2018。二、三[3] David Bau 、 Jun-Yan Zhu 、 Jonas Wulff 、 WilliamPeebles 、 Hendrik Strobelt 、 Bolei Zhou 和 AntonioTorralba。看看一个GAN不能产生什么，2019年。2[4] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模gan训练，2019。3[5] J. 邓，W。东河，巴西-地索赫尔湖J. Li，K.Li和L.飞飞ImageNet：一个大规模的分层图像数据库。2009年CVPR09中。3[6] Emily Denton 、 Ben Hutchinson 、 Margaret Mitchell 、Timnit Gebru和Andrew Zaldivar。用于检测非预期偏倚的图像反事实2[7] Lore Goetschalckx，Alex Andonian，Aude Oliva，andPhillip Isola.Ganalyze ： Toward visual definitions ofcognitive image properties，2019. 一、二、三[8] Ian J. Goodfellow、Jean Pouget-Abadie、Mehdi Mirza、Bing Xu 、 David Warde-Farley 、 Sherjil Ozair 、 AaronCourville和Yoshua Bengio。生成对抗网络，2014年。1[9] 艾琳·海姆和安吉丽卡·克拉泽。生成语法中的语义Blackwell，1998年。5[10] ErikH¨ rko¨ nen ， AaronHertzmann ， Jaakk oLehtinen ，andSylvain Paris.Ganspace：发现可解释的gan 控制，2020。一、二、四[11] Ali Jahanian，Lucy Chai和Phillip Isola。关于生成对抗网络的一、二、三[12] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构，用于生成对抗网络。在IEEE/CVF计算机视觉和模式识别会议论文集，第4401-4410页，2019年。2[13] Kishore Papineni，Salim Roukos，Todd Ward，and Wei-Jing Zhu. Bleu：一种机器翻译的自动评测方法。计算语言学协会第40届年会论文集，第311-318页，2002年5[14] Taesung Park ， Ming-Yu Liu ， Ting-Chun Wang ， Jun-Yan Zhu.语义图像合成与空间自适应归一化，2019。2[15] William Peebles 、John Peebles、 Jun-Yan Zhu、AlexeiEfros和Antonio Torralba。黑森惩罚：无监督解纠缠的弱先验一、二[16] 安托万·普卢默罗，《她的生活》和《Ce'lineHude-lot》。控制具有连续变化因子的生成模型，2020年。2[17] 亚历克·雷德福卢克·梅斯和苏米特·钦塔拉深度卷积生成对抗网络的无监督表示学习。arXiv预印本arXiv：1511.06434，2015。2[18] Sarah Schwettmann，Hendrik Strobelt，and Mauro Martino.潜罗盘：导航设计，2020年。3[19] Yujun Shen，Jinjin Gu，Xiaoou Tang，and Bolei Zhou.解释gans的潜在空间用于语义面部编辑，2020。一、二[20] Yujun Shen和Bolei Zhou。gans中潜在语义的封闭形式因子分解，2020。1[21] 安德烈·沃诺夫和阿特姆·巴本科。gan潜在空间中可解释方向的无监督发现，2020年。一、二[22] Zongze Wu，Dani Lischinski，and Eli Shechtman.样式空间分析：2020年风格图像生成的解缠控制。2[23] 萧泰特、刘英成、周博磊、姜宇宁、孙剑。场景理解的统一感知解析，2018年。2[24] Ceyuan Yang，Yujun Shen，and Bolei Zhou.语义层次结构出现在场景合成的深度生成表示中，2020年。一、二、三[25] 张天一，Varsha Kishore，Felix Wu，Kilian Q.温伯格和约阿夫·阿茨. Bertscore：Evaluating text generation withbert，2020. 5[26] Bole iZhou ， A`gataLapedriza ， AdityaKhosla ， AudeOliva，and Antonio Torralba.地点：一个用于场景识别的1000 万图像数据库。 IEEE Transactions on PatternAnalysis and Machine Intelligence，PP：1-1，2017年7月。3[27] Jun-YanZhu ， PhilippKr aühenbuühl ， EliShechtman ，andAlexei A.埃夫罗斯自然图像流形上的生成视觉操作，2018年。2

下载后可阅读完整内容，剩余1页未读，立即下载