基于子空间的生成式对抗网络（Sub-GAN）及其多样性控制的研究

177 浏览量更新于2023-10-13 收藏 1.08MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Sub-GAN：一种基于子空间的梁杰1，杨巨峰1*，李欣颖2，王凯1，杨铭轩2，31南开大学2加州大学默塞德分校3谷歌云抽象。近年来，在构建鲁棒生成模型以捕获自然数据的信息分布方面取得了显着增长然而，由于环境空间的高维性，很难充分利用图像和视频等复杂数据的分布因此，如何有效地指导生成模型的训练是一个至关重要的问题。在本文中，我们提出了一个基于子空间的生成式对抗网络（Sub-GAN），它同时解开多个潜在子空间，并相应地生成不同的样本。由于高维自然数据通常位于包含语义扩展结构的低维子空间的并集上，Sub-GAN引入了一种新的聚类器，该聚类器可以通过子空间信息与生成器和鉴别器与传统的生成模型不同，所提出的Sub-GAN可以通过学习子空间的多样性来控制生成样本的多样性。此外，Sub-GAN遵循无监督的方式，不仅探索视觉类，而且探索潜在的连续属性。我们证明我们的模型可以发现有意义的视觉属性，这是很难被注释通过强监督，例如数字的书写风格，从而避免了模式崩溃问题。大量的实验结果表明，所提出的方法的竞争力的性能，既产生不同的图像质量满意，发现歧视性的潜在子空间。1介绍在深度生成建模方面已经取得了重大进展，其中合成数据的能力需要对数据结构有深刻的理解。最近，生成对抗网络（GAN）[1]已经成为以数据驱动的方式生成复杂数据分布的GAN由生成器和鉴别器组成，其中生成器将样本从任意潜在分布映射到环境数据空间，而对抗性鉴别器尝试区分真实样本和生成样本。这两个模块都通过对抗训练进行了优化。虽然GAN在模拟复杂的数据分布（如图像和视频）方面显示出了有希望的结果，但现实分布并未得到充分利用。* 通讯作者2J. Liang，J.杨，H.-Y. 李，K.Wang和M.-H. 杨真实数据的复杂性使得生成模型很难在没有任何指导的情况下学习随后，条件GAN [2]提出以监督的方式提供直接的聚类指导，其中给出了数据的标签。然而，注释的要求将生成模型限制在具有明显类别的强先验的有限应用中，例如，MNIST数据集中的10位数。此外，还有更多的内在模式是难以标记的，如手写数字的各种风格。充分利用这些潜在结构可以明显缓解产生过程中的模式崩溃问题。研究表明，高维数据总是可以建模为低维子空间的并集[3]。已经开发了许多子空间聚类方法来探索高维数据分布[3，4]。底层低维子空间的解纠缠可以作为近似数据分布的指导，并且可以促进复杂数据空间的生成。在这项工作中，我们提出了一个联合框架，即基于子空间的生成对抗网络（Sub-GAN），以无监督的方式同时发现内在子空间，并从每个子空间生成真实的样本。子GAN由三个模块组成，一个聚类器，一个生成器和一个鉴别器。聚类器的目标是以无监督的方式发现高维数据的独特子空间它在每个历元上根据来自用户的反馈进行更新。该生成器产生的样本条件上的一个独热向量指示所属的集群和一个基向量的子空间从聚类器。鉴别器不仅需要区分真假样本，而且需要将它们分类到所属的子空间。它还提供了独特的表示数据样本更新聚类。我们进行了大量的实验，以验证所提出的框架的有效性。具体而言，基于可视化和定量结果，我们证明，所生成的样本不仅在视觉上有吸引力，但多样的多个潜在的属性。我们还表明，我们的模型在图像聚类任务上取得了良好的性能。我们的贡献有两方面。首先，我们提出了一个联合无监督框架，同时学习环境空间的子空间和相应的生成实例，其中两个任务相互优化。其次，我们解决模式崩溃的问题，通过指定的数量不同的子空间，从我们生成有意义的和不同的图像与信息的视觉属性。大量的实验证明了所提出的Sub-GAN模型的有效性。2相关工作深度生成式模型深度生成式框架最近由于其在[5- 10 ]处的现代化大规模统一能力而吸引了大量关注生成模型可以应用于各种低级视觉问题，例如，图像超分辨率[11，12]和语义分割[13，14]。Sub-GAN：一种基于子空间的3生成模型的目标是拟合真实数据样本的空间，例如，n的集合在一般年龄[15- 17 ]。为了实现该实际分布，大多数遗传模型优化以多个变量上的潜在噪声为条件的聚合概率问题。他们假设所有的数据样本都是从一个低维的潜在空间中提取的。早期的研究集中在以无监督的方式学习嵌入式表示，例如，限制玻尔兹曼机（RBM [18，19]）和堆叠自动编码器（AE [20]）。例如，Hintonet al.[21]提出通过使用对比发散算法来有效地训练深度信念网（DBN）。DBN和AE都在单个潜在空间上学习每个数据样本的低维表示，然后通过解码网络生成新实例[22]。然而，这些方法难以在最大化训练数据可能性的同时解决棘手的概率优化问题，特别是对于高维数据[23]。最近，Goodfellowet al.[1]提出GAN作为训练生成模型的替代对抗策略。生成器和鉴别器之间的min-imax博弈从低维潜在分布（例如，从标准高斯分布到高维实分布。在训练期间，对抗模块用于优化损失函数，并且回避明确计算或近似复杂环境空间的要求。然而，由于这两个对等体的高维和矛盾性质，传统GAN遭受模式崩溃问题以及不稳定的训练[24，25]，这对于进一步改进至关重要。建立在这些生成模型上，各种条件图像生成方法（例如，CGAN[2]）被提出来从给定的条件化潜在向量生成特定的确定性输出，其以某种方式控制生成的多样性。特别地，潜在变量被设计为通过连接地面实况标签来编码对象类，使得生成器可以从特定视觉类别产生样本[26，27]。CGAN具有为多模态数据生成提供更好的表示的优点，但是这样的推理过程依赖于广泛注释的训练数据，其中的一些难以明确标记，例如，[28]第28话的写作技巧最近，InfoGAN [29]优化了潜在代码的互信息，该互信息由高斯混合而不是均匀噪声构成。然而，它缺乏明确的分类分配以及独特的嵌入向量的样本。本文提出了一种联合模型，同时学习真实样本的潜在类别信息，并从每个子空间进行生成，推理和生成过程完全无监督，相互优化。子空间学习建模高维数据一直是计算机视觉中最关键的问题之一[30]。由于高维数据通常分布在低维子空间的并集[4，31]中，因此许多深子空间包含[32- 35]已经在该图中被发现。子空间学习方法的目标是找到给定数量的非纠缠低维子空间[34]。传统的算法侧重于计算4J. Liang，J.杨，H.-Y. 李，K.Wang和M.-H. 杨i=1i=1i=1鉴别器发生器是真的？zeK箱y卷积层反卷积层L聚类器K箱全连接层特征图嵌入数据流概率G（l）{S}Ki i=1XFig. 1. Sub-GAN方法的主要步骤。三个框分别表示聚类器C（紫色）、生成器G（绿色）和鉴别器D（蓝色）。我们设计C以解开K个子空间{Si}K对于给定的数据集X（初始化时）或从D导出的深度特征（在训练期间）。对于G，输入l由三个分量组成，即，e和y，以及噪声向量z∈ N（0， 1）。D算法不仅可以通过输出二值预测来区分真假图像，还可以计算每个子空间的概率来细化C算法。两者的K仓C、D统一进行综合预测。实例之间的相似性/相异性关系[36]，然后构建图并进行谱聚类[37]。最近，研究人员提出通过深度嵌入网络提取每个样本的更独特的表示[38]。Xie等人[39]提出深度嵌入聚类（DEC）算法，用于学习从数据空间到具有去噪堆叠自动编码器（DAE）的潜在特征空间的非线性映射，然后细化聚类分配。DEC框架首先预训练DAE，然后通过基于具有自训练目标分布的Kullback-Leibler（KL）散度迭代地优化聚类目标函数来微调DAE堆叠。然而，它需要逐层预训练和非联合嵌入和聚类[34]。在本文中，我们提出了一个联合模型，用于同时训练所有模块，并采用对抗策略，该模型被证明可以有效地提取独特的子空间。3基于子空间的广义网络给定一组未标记的高维数据X={xi}N，gener的目标-最小模型是通过映射G（·）来在Px（X）上映射r个值。从低维潜在变量zpz（z），即，x=G（z）。然而，直接对原始空间建模可能遭受模式崩溃的问题即，所生成的样本具有满足目标函数[40]的类似模式。这也导致了不稳定的训练[41]。数据样本X可以从多个子空间{Si}K中提取，其中描述信息属性，并且比高-三维环境空间因此，我们提出了一个联合无监督框架Sub-GAN：一种基于子空间的5i=1i=1i=1Nbi=1i=1i=1i=1算法一：子GAN的培训输入：X ={xi}N∈Rdx，K，Ni，Nb.1：通过求解自表示问题（1）计算相关矩阵C; 2：通过（2）计算拉普拉斯矩阵M3：通过计算{ei}K来解开子空间使用（3）;4：Cal culateanitial i zedc lusterasinmentyniusingK-mens;5：WhileI NI Do6：计算综合潜码L={li}K对于每个子空间使用（8）;7：通过优化（6）来更新生成器G（L8：通过优化（9）来更新鉴别器D10：如果I%（N）= 0，则12：根据（12）更新C13：如果结束14：结束while输出：CluterasignnmentyGenertorG.称为Sub-GAN，以寻找有效覆盖多模态数据X的多个模态的辅助分布。在本节的其余部分中，我们首先描述深度聚类模块C，其解开{Si}K的周围空间X.然后，我们解释了深层生成的公式模块，包括生成器G和鉴别器D，其在更新用于生成和聚类两者的模型参数之间交替。图1示出了Sub-GAN的流水线，并且算法1示出了训练过程，其中Ni和Nb分别表示迭代次数和批量大小3.1一种用于子空间解缠的我们考虑将一组N个样本X={xi}N∈Rdx聚类为K簇{Si}K其中dx表示X的维度，并且K是基于固定的X的多样性和内在结构。注意我们允许用户控制以生成多样或紧凑的样本。为了满足子空间解纠缠的要求，我们设计了一个聚类器C，它是在这是一个非常特殊的框架。我们首先将t的值定义为P？通过子空间聚类[30]。然后，我们最小化预测之间的KL散度分配P和辅助目标分布T。在子GAN的训练期间，我们迭代地将原始数据样本映射到独特的嵌入空间U∈Rdu，其中我们具有dudx。同时，对抗过程可以提供用于细化软分配的梯度。为了初始化分配与原始数据样本，我们遵循两步子空间聚类方法。具体来说，我们解开多重仿射子空间{Si}K使用自我表示和图形聚类技术。我们首先解决下面的1-范数优化问题[4]以计算自6J. Liang，J.杨，H.-Y. 李，K.Wang和M.-H. 杨我我ik（p）数据样本的表示：minX−XC2 + λC1，s.t. diag（C）=0，（1）C2其中，不存在1-范数，并且在将样本x表示为其自身的线性组合的平凡解处，存在约束条件diag（C）= 0。这里，C表示系数矩阵，其中每个条目反映样本X1和X2之间的相似性。然后，用C定义一个有向图G=（V，E），其中V中的每个顶点表示一个数据样本，并且dge（vi ，vj ）∈Eisweig tedbyycij.WeconstabalancedgraphG（ withthe adjacency matrixW，其中W=|C|+的|C|. 然后，通过下式计算图的拉普拉斯矩阵MM=D-W，（2）其中D∈RN×N计算为DiiΣ=jWij.给定拉普拉斯矩阵M，我们计算前K个特征向量为[e1，e2，···，eK]= eig（M），⑶其中，（·）是用于实现矩阵的特征向量的分解函数。注意，M的零特征值的重数反映了G[4]中连通分量的数量，因此特征向量在潜谱空间中是可区分的。最后，我们使用K-均值来计算初始化的计算结果，作为sign_m_tP_n[42]。GivenP，我们在后续跟踪中找到改进的预处理位置过程在每次迭代I中，我们向G和D馈送数据样本xi，并且该cur_r_t将子空间作为sign_m_t_pI。在第3.3节中所示的鉴别器的深度p_n_w或k上，我们生成每个样本x_i的深度嵌入特征f_I，其在区分K个子空间时是可区分的。给定f，我们计算每个局部训练集X b的软分配P b，其中X b由每个批次中的图像组成。然后，我们通过使用Kullback-Leibler（KL）散度来定义每次迭代I的聚类目标函数L_C，以最小化预测P_I和目标变量Q_I之间的距离：LI= KL（Q I||P（I）=1ΣNΣK qik测井qik，（4）CNbi=1k=1皮克其中，Nb表示批量大小，N是训练样本的数量，K是子空间的数量。在这里，我们导出稀疏预测矩阵P，其中e-hot向量上的e-hot向量，即。例如， pik=1或xi∈S k且d{pij}j/=k=0. 在聚类器C中，我们通过基于每个聚类的频率进行归一化来更新目标分布Qqik= p2/fk、（五）2MimΣ/fm）其中fk=表示每个聚类的预测频率。图1示出在每次迭代中，通过从D导出的密集K个仓来细化C中的预测的K个仓。Sub-GAN：一种基于子空间的7i=1i=1i=13.2子空间逼近深度生成模型旨在从潜在空间L近似真实数据空间X。因此，它们优化非线性映射函数fθ：l→x，其中l表示编码环境空间的内在属性的潜在向量，θ表示参数集。传统的生成框架通过优化聚合后验p θ（x）来近似单个环境空间|z），其中z表示潜在空间中的不可压缩噪声的源。在这一节中，我们设计了一个生成器G（l）来实现fθ：l→x的非线性映射。我们证明了所提出的G（1）捕获了信息内在结构，即，从多个子空间生成不同的样本。更具体地，我们将G（l）表示为确定性前馈网络G：ΩL→ΩS，其中Ω·表示相应的响应分布，L={li}K表示潜在空间，S={Si}K表示潜在空间。表示数据X的K个子空间。我们制定了优化过程如：pG（x∈Si）= ElipL [pG（x|（6）其中pG（x|l i）= L（x-G（l i）），并且l i表示从Si诱导的潜在码。最后，我们通过对抗方式训练G（l），使得pG（x）≈pSi（x），Si∈S.（七）给定非纠缠子空间{Si}K，我们设计l来描绘独立的-每个Si的属性具有综合的组合，即，l=zey。（八）因此，在当前分配中，在ionoperation和y∈RKdente（3）中的特征向量e反映从C导出的子空间的固有基，其中C在每次迭代中更新我们在噪声变量pz（z）=N[0， 1]上设置先验，其中N表示正态分布。图中的绿色方框。1提供了此串联操作的可视化。3.3用于对抗训练GAN [1]是一个对抗性框架，它通过极大极小博弈来训练深度生成模型。传统的GAN由生成器G和判别器D组成，生成器G和判别器D的生成或判别能力在训练过程中相互提高。G总是将潜在噪声变量zpz（z）非线性映射到数据空间xpx（x）。同时，对于真实的样本，CXD 计算置信概率 p=D （ x ） ∈[0 ， 1] ，并且对于生成的样本 G（z），分配概率1−p在训练期间，使用极小极大目标来交替地训练两个网络：minmax L（G，D）= Expx（x）[log D（x）]+ Ezpz（z）[log（1 − D（G（z）]。（九）G D这里，D被优化为提供真实样本和伪样本之间的最佳概率估计的二元分类器，即，x和G（z）。同时8J. Liang，J.杨，H.-Y. 李，K.Wang和M.-H. 杨k=1我i=1i=1C鼓励G类似于数据分布，即，G（z）px（x），然后用G（z）挑战鉴别器D。G和D两者经由反向传播交替地更新。为了改进子空间分配，我们将对抗损失与聚类损失合并，即，LC，其区分样本是否从单个S.混合Sub-GAN训练目标被定义为极小极大优化：min maxL（D，G，C），（10）G、CD在那里我们有L（D，G，C）=ExpS（x）[logD（x）]+ElpL（l）[log（1−D（G（l）]+KL（QS||PS）。（十一）这里，S={Sk}K表示每次迭代中的预测子空间。在训练过程中，我们遵循基于交替梯度的优化-如[1]中所使用的技术具体地，Sub-GAN中的每个模块是分别具有参数θD、θG和θC的参数函数我们使用交替随机梯度步骤联合对于每次迭代I，我们通过计算正梯度方向的单个或多个步骤来更新鉴别器的θD，即θDLI−1（D，G，C）.然后，我们同时分别更新G和C的参数θG和θC我们在负梯度方向−θG，θCLI−1（D，G，C）上进行一步特别地，对于聚类器C，我们有I={C I，P I，Q I}。（十二）为了更新系数矩阵C，我们在从DI−1导出的有利数据特征之上，在每个历元中计算（1）中的1范数优化。因此，对于生成元G，我们更新表示每个子空间Si到CI−1的特征向量eI。对于所有模，L（D，G，C）的前两项是计算的。基于n个样本的小批次{xipS}n和隐藏的代码{lipL}n从底层子空间绘制。4实验结果4.1数据集和方法我们在MNIST和CIFAR-10数据集上进行实验。了MNIST是一个标准的手写数字数据集，由70，000张图像28× 28灰度。我们使用这个数据集来展示所提出的Sub-GAN的综合特性。 CIFAR-10数据集由10个类别的60，000张32×32彩色图像组成，涵盖了飞机或汽车等常见物体。这两个数据集都具有除了现有标签之外的信息性内在属性，例如，MNIST中每个数字的书写风格，CIFAR-10中汽车的各种场景θSub-GAN：一种基于子空间的9i=1CGANIgANDCGANInfoGANIWGAN子GAN图二.由CGAN [2]，InfoGAN [29]，IGAN [43]，IWGAN [44]，DCGAN [45]和拟议的Sub-GAN在MNIST数据集上生成图像。前两个方法在生成过程中探索类信息，但是，生成的数字在视觉上看起来并不吸引人。虽然其他人的样本看起来更好，但多样性很难控制。相比之下，所提出的子GAN可以同时发现子空间{Si}K并且从每个Si生成不同的样本。为了评估生成质量，我们将所提出的Sub-GAN与各种最先进的生成模型进行了比较，即，[2]，改进的GAN（IGAN，[43]），改进的WGAN（IWGAN，[44]），DCGAN [45]和InfoGAN [29]。此外，我们进行实验，以评估Sub-GAN的无监督聚类性能。我们与K-means，SSC [4]，LSR [46]，SMR [47]，NSN [48]，SSC-OMP [35]，ORGEN [31]，iPursuit [49]，DEC [39]，CatGAN [50]和InfoGAN [29]进行比较这里，SSC、LSR、SMR、NSN、SSC-OMP、ORGEN和iPursuit是子空间聚类算法。DEC专注于深度嵌入聚类，而CatGAN和InfoGAN则基于生成模型。4.2评估指标我们采用各种指标来定量评估所提出的Sub-GAN的生成和聚类能力。具体来说，我们通过使用初始得分[43]和多样性得分[51]来评估图像质量然后，我们通过计算调整后的准确度来量化聚类分配[52]。初始评分：初始得分[43]被广泛用于评估生成任务，该任务使用预先训练的神经网络分类器来捕获关于类标签的高度可分类和多样化的属性。对于评估的样本，它计算条件标签分布（对于容易分类的样本，预期具有低熵）和边缘分布（如果所有类别被同等地呈现，则预期具有高熵）之间的平均KL偏差。我们遵循[53]中的相同例程进行评估，即，使用在ImageNet数据集[55]上训练的Inception网络[54多样性得分多样性得分[51]基于特征之间的余弦距离在本文中，我们用它来定量地10J. Liang，J.杨，H.-Y. 李，K.Wang和M.-H. 杨i=1i=11 2 3 4 5 6 7 8 9 10111213 141516胖vs瘦w/o circle与w/circlew/ point与w/o point图三. 使用建议的Sub-GAN在MNIST数据集上进行联合无监督训练生成的样本。在这里，我们设置K= 16（顶行）以解开不同的子空间{Si}16. 注意，我们根据导出的序列构建此图来自聚类器C。底部说明了三对不同的写作风格数字2、 0和7。Sub-GAN不仅可以发现具有数字0 - 9的10个子空间，而且可以发现具有数字0-9的差异的类型，即。例如，在一个实施例中，分别在4-th和8-th中的fat和hin'0 '。棕色框反映了混淆4和9的失败情况评估生成样本的多样性，从而验证GAN训练中模式崩溃问题的缓解调整后的准确度[52]是用于评估当Ki=Kg时的聚类性能常见度量，其中K g表示聚类的真实数量对于每个聚类S k，我们找到了使q（yk）最大化的验证示例x i|xi），并将xi的标签分配给聚类Sk中的所有点。然后，我们根据分配的类标签计算测试准确度注意，当K=Kg时，它与标准聚类精度相同。4.3网络架构生成器G主要由两个去卷积层（deconv）和两个全连接层（FC）组成。具体地，输入本征向量是1 ∈ R110。G的网络结构为：（1）FC.1024w/ReLU和batch-norm;（2）FC. 6272w/ ReLU和batch-norm;（3）重塑为7× 7× 128;(4)deconv.4× 4，步幅= 2，特征图= 64，w/ReLU和批量范数;（5）deconv.4× 4，步幅= 2，特征图= 1。鉴别器D主要由两个卷积层（conv）和两个全连接层组成。具体地，输入图像尺寸为28× 28，具有1个灰度通道。D的网络架构是：（1）conv.4 × 4，stride= 2，feature maps= 64，w/lReLU;（2）conv.4 ×4，stride= 2，feature maps= 128，w/lReLU和batch-norm;（3）FC。1024w/lReLU和批规范;（4）FC。1用于分类图像是否真实。聚类器C与D共享类似的结构。然而，最后一层C，即FC.K，用于计算K个子空间的K个仓的概率4.4实现细节为了设置所提出的联合框架的实验，我们首先初始化t的值作为子空间{Si}K的值通过雇用一个无人监督的Sub-GAN：一种基于子空间的11时代87654321达到稳定的子空间分配GCD0012345678910迭代次数（10000）见图4。优化损失的三个模块，即，C（蓝色），D（绿色）和G（红色），在MNIST数据集上的训练迭代。在大约第10000次迭代之前，LC呈现出下降趋势。因此，G和D的训练是不稳定的，例如，D可以容易地将伪图像与真实图像区分开，使得LD较低。在C达到稳定的子空间分配之后，框架开始G、D和C的正常对抗训练。子空间聚类称为SMR [47]在原始数据空间。然后，为了稳定Sub-GAN的训练，我们基于DCGAN [45]和InfoGAN [29]中的最新技术设计了G和D具体来说，我们用多个卷积和去卷积层构建了两个网络，然后分别在G和D中激活ReLU和我们还在这两个网络中加入了批量归一化。我们用100，000次迭代来训练所提出的联合模型我们在补充材料中提供了更多的培训细节。4.5由Sub-GAN在本节中，我们分析了所提出的Sub-GAN在MNIST和CIFAR-10数据集上的生成性能在MNISTW上区分K首先对MNIST数据集上的数据进行分类。图2示出了从五个对比生成模型和所提出的Sub-GAN导出的样本之间的可视化比较。CGAN和InfoGAN从子空间的并集生成样本。然而，从CGAN得到的样本与人类判断的一致性不令人满意，在几种情况下数字的组成部分是断开的。此外，CGAN依赖于注释的强监管，其只能在有限的应用程序上访问。从IGAN，DCGAN或IWGAN生成的数字具有令人满意的质量，但该算法不能发现周围空间的信息子空间结果，生成的样品的属性难以控制。当K= 10时，所提出的Sub-GAN框架从每个子空间生成不同的样本，这缓解了训练GAN中的模式崩溃问题。在图3中，我们还证明了所提出的Sub-GAN可以发现信息丰富的视觉属性，这些属性很难被强监督注释损失12J. Liang，J.杨，H.-Y. 李，K.Wang和M.-H. 杨表1. MNIST和CIFAR数据集的多样性评分比较，K= 10。所提出的Sub-GAN相对于对比方法实现了最佳性能，这缓解了训练GAN中的模式崩溃问题。“R e a l i d i c a t”列表示来自表示数据集的所有实际数据的内容数据集房CGAN [2]IGAN [43][29]第45话：我的世界MNIST2.960.921.811.781.632.112.36CIFAR3.211.022.202.031.952.482.72锡永因此，该算法以无监督的方式处理模式崩溃问题。在实验中，我们设置K=16并在MNIST数据集上生成图像。我们可以看到，Sub-GAN发现了数字的多种书写例如，红色框反映数字“0”分为两种即，胖它还发现了几种写作风格的其他digits如' 2'和' 7'。我们在补充材料中提供了更多差异。此外，为了定量地评估所生成的摘要的多样性，我们计算对比方法之间的多样性得分并将其报告在表1中。虽然Sub-GAN在此度量上实现了最佳性能，但它表明所提出的方法由于结合了子空间分析而减轻了模式崩溃问题。为了展示训练过程，我们在图中可视化优化损失4.第一章聚类器在大约前10- 4次迭代中迭代优化。在这个过程中，生成器和鉴别器的训练都是不稳定的，即，G的损失高且不稳定，而D的损失接近于0。它反映了生成的样本在视觉上并不吸引人，并且可以容易地被D区分。在达到稳定的子空间分配之后，联合无监督模型开始所有模块的正常对抗训练。CIFAR-10在本节中，我们在CIFAR-10数据集上进行实验。我们在训练过程中设置K= 10，并在图中显示示例结果五、我们还从现有框架中收集生成的样本，并计算每个框架的初始得分。Sub-GAN在初始分数的度量上取得了良好的性能，这表明了与人类判断的一致性，从而证明了我们的方法在生成能力方面的有效性。该模型还可以从每个子空间生成样本，从而处理模式崩溃问题。从IGAN生成的样本得到比Sub-GAN稍高的分数，然而，红色框中的样本反映了IGAN的模式崩溃问题，即许多生成的样本非常相似。其他方法也存在同样的问题，但生成的图像质量低于我们的方法。我们在补充材料中提供了来自对比方法的生成样本的更多比较我们还定量评估了表1中CIFAR数据集上生成样本的多样性，其中所提出的Sub-GAN显示出良好的性能Sub-GAN：一种基于子空间的13样品模型[45]第二届中国国际航空航天博览会[29]第二十九话子GAN成立评分4.28 0.08 8.09 0.07 7.86 0.07 6.16 0.07 7.26 0.05 7.95 0.04图五. 源自CIFAR-10数据集上的各种生成模型的样本的初始得分。分数越高表示与人类判断的一致性越高。实验结果表明，所提出的Sub-GAN生成有利的样本对其他国家的最先进的方法在视觉表达和多样性方面。IGAN实现了最先进的初始得分，然而，图中的红框显示它遭受模式崩溃问题，该问题由Sub-GAN通过子空间分析解决对比方法。多样性得分的结果显示与图1中的可视化结果一致五、例如，IGAN的多样性得分低于所提出的Sub-GAN（2. 二十对二。72）。4.6图像聚类性能聚类器是一个辅助模块，它解开子空间，以促进生成。G、D和C之间的有效交互对于生成样本和聚类都是重要的在本节中，我们分析了所提出的Sub-GAN在MNIST和CIFAR数据集上的聚类性能。在本文中，聚类器更新整个数据集的聚类分配在每个时代，而D细化分配的一个小批量在每次迭代。一些样本可能基于与所有其他样本的全局相似性而被错误地分组，因此我们基于局部批次中的样本的相似性来细化D我们已经对K= 10的MNIST数据集进行了消融研究，并在表2中报告了聚类准确度（%），这证明了细化操作的有效性。我们在表3中报告了对比方法在两个数据集上的调整准确度。K-均值方法在此任务上执行得不好，因为它缺乏处理高维大规模数据的能力。相比之下，子空间聚类（SSC、LSR、SMR、NSN、SSC-OMP、ORGEN和iPur-suit）、基于深度嵌入的聚类方法（DEC）和基于生成的方法（CatGAN和InfoGAN）由于独特的表示或迭代优化而显示出更好的性能。相比之下，所提出的Sub-GAN在所有配置下都实现了对对比方法的良好性能，因为深度表示根据对抗训练过程的指导进行迭代更新。注意，在K = 10的实验中，使用SMR的初始化分配的准确度为73。39%的MNIST和56。24%，而三个模块的联合训练分别诱导约12%和22%的改善因此，信息交互不仅促进了多样性的生成，而且14J. Liang，J.杨，H.-Y. 李，K.Wang和M.-H. 杨表2.在K= 10下 MNIST数据集上的聚类准确度（%），在鉴别器中具有/不具有细化操作D中的细化St1个时期日20时代日40时代上一个历元W/O75.2382.9683.1183.87W/77.1283.4584.2485.32表3. 具有不同K值的MNIS和CIFAR数据集上的比较方法的无监督聚类性能（调整的聚类准确度）Sub-GAN中的聚类器对各种聚类算法表现出良好的性能方法MNISTCIFARK=10K=16K=20K=10K=16K=20K-均值53.4960.3662.5542.6246.8151.02[4]62.7166.8270.1950.3152.7753.98LSR [46]66.8570.2173.8353.9755.8059.24SMR [47]73.3981.2783.6356.2459.0262.73NSN [48]68.7571.0473.6752.2956.5559.03SSC-OMP [35]76.3379.2582.5251.2153.0257.84奥根[31]71.0474.0778.6552.2955.6158.08[第49话]61.3564.2868.8459.2162.5365.6612月[39]84.3083.2883.0261.0365.2967.31CatGAN [50]80.2184.9290.3067.4267.8568.76[29]第二十九话70.6373.7778.6971.0273.6474.07子GAN85.3290.3690.8178.9581.3582.44样本，而且聚类性能。此外，对于两个数据集，子空间AN显示出具有K的最佳形式，因为该模型可以将信息子空间结构与大量的聚类分开。5结论在这项工作中，我们提出了一个无监督的Sub-GAN模型，用于联合学习环境空间的潜在子空间并相应地生成实例我们将一个新的聚类到GAN框架中，其中聚类器解开子空间，并根据来自鉴别器的样本同时，生成器被馈送有正态分布的随机向量和来自聚类器的低维特征向量。这里，特征向量反映了解纠缠子空间的潜在结构。鉴别器被顺序地设计为奖励适合特定子空间分布的样本的高分，并提供反馈以细化聚类分配。定量评估和可视化表明，Sub-GAN不仅可以发现数据集的有意义的潜在子空间，而且还可以生成照片般逼真和多样化的图像。致谢本研究得到了国家自然科学基金项目61620106008、61572264、国家自然科学基金项目 1149783 、模式识别国家重点实验室开放项目18JCYBJC15400的资助Sub-GAN：一种基于子空间的15引用1. 古德费洛岛Pouget-Abadie，J.Mirza，M.，徐，B.，沃德-法利，D.，Ozair，S.，Courville，A.Bengio，Y.：生成性对抗网。在：NIPS。（2014）1、3、7、82. Mirza，M.，Osindero，S.：条件生成对抗网。arXiv预印本arXiv：1411.1784（2014）2，3，9，123. 维达尔，R.：子空间聚类IEEE Signal Processing Magazine 28（2）（2011）52-6824. Elhamifar，E.，维达尔，R.：稀疏子空间聚类。在：CVPR中。（2009）第2、3、5、6、9、14页5. 尤湖张伟，王杰，Yu，Y.：SeqGAN：具有策略梯度的序列生成对抗网络。在：AAAI。（2017年）26. Shen，W.，Liu，R.：学习人脸属性操作的残差图像。在：CVPR中。（2017年）27. Dong，H. Yu，S.，吴，C.，Guo Y.：通过对抗学习进行语义图像合成。In：ICCV.（2017年）28. 毛泽东，李，Q.，谢，H.，Lau，R.Y.，王志，Smolley，S.P.：最小二乘生成对抗网络。In：ICCV.（2017年）29. 邓志，张洪，梁湘，杨湖，徐，S.，Zhu，J.，Xing，E.P.：结构化生成对抗网络。在：NIPS。（2017年）210. Li，C.，Wand，M.：用马尔可夫生成对抗网络进行预先计算的实时纹理合成。In：ECCV.（2016年）211. 张洪，徐，T.，Li，H.，Zhang，S.，（1991），中国农业科学院，王，X.，黄，X.，Metaxas，D.N.：Stack- GAN：使用堆叠生成对抗网络进行文本到照片级逼真图像合成In：ICCV.（2017年）212. L edig ， C. ，这是 LHusza'r ， F. ， Caballero ， J. ， Cunningham ， A.Acosta，A. Aitken，A. Tejani，A.，托茨，J.，王志，等：使用生成对抗网络的照片级真实感单幅图像超分辨率。在：CVPR中。（2017年）213. Luc，P.，库普利角Chintala，S.，Verbeek，J.：使用对抗网络的语义分割。在：NIPS。（2016年）214. 魏，Y.，冯杰，梁湘，郑女士赵玉，Yan，S.：带有对抗性擦除的对象区域挖掘：一种简单的分类到语义分割方法。在：CVPR中。（2017年）215. 别这样，杰， Kr¨ahenb u¨hl，P.，达尔尔，T. ：一个开发者有一个很好的解决方案。 In：ICLR.（2017年）316. Nguyen，A.，Yosinski，J.，Bengio，Y.，Dosovitskiy，A.，Clune，J.：即插&即用生成网络：潜空间中图像的条件迭代生成。在：CVPR中。（2017年）317. 王，X.，Gupta，A.：使用风格和结构对抗网络的生成图像建模In：ECCV.（2016年）318. Nair，V.，Hinton，G.E.：整流线性单元改进受限玻尔兹曼机。在：ICML。（2010年）319. Tieleman，T.：利用似然梯度近似训练受限玻尔兹曼机。在：ICML。（2008年）320. Rifai，S.，Vincent，P.Muller，X.，Glorot，X.，Bengio，Y.：收缩式自动编码器：特征提取过程中的显式不变性。在：ICML。（2011年）321. 辛顿通用电气Osindero，S.，Teh，Y.W.：一种快速的深度信念网络学习算法。新中国出版社18（7）（2006）152722. 李，H.，Ekanadham，C. Ng，A.Y.：用于视觉区域V2的稀疏深度信念网模型。在：NIPS。（2008年）316J. Liang，J.杨，H.-Y. 李，K.Wang和M.-H. 杨23. 辛顿通用电气Salakhutdinov，R.R.：用新的工作方法降低数据的维数。Science313（5786）（2006）50424. Arjovsky，M.，Chintala，S.，Bottou，L.：Wasserstein GANIn：ICLR.（2017年）325. Arjovsky，M.，Bottou，L.：训练生成对抗网络的原则性方法。In：ICLR.（2017年）326. van den Oord，A.，Kalchbrenner，N.埃斯佩霍尔特湖Vinyals，O.，格雷夫斯，A.，等：使用pixelCNN解码器生成条件图像。在：NIPS。（2016年）327. Odena，A.，Olah，C.，Shlens，J.：使用辅助分类器GANs的条件图像合成。在：ICML。（2017年）328.

下载后可阅读完整内容，剩余1页未读，立即下载