流形学习对GAN的好处

131 浏览量更新于2023-10-25 收藏 1.07MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11265M···θGθDJ−流形学习对GANs的好处Yao Ni，<$，Piotr Koniusz，<$，Richard Hartley，<$，Richard Nock，<$，†澳大利亚国立大学§Data 61/CSIRO搜索谷歌研究firstname. anu.edu.au摘要在本文1中，我们通过将流形学习步骤引入到生成对抗网络中来改进生成对抗网络。我们考虑局部约束的线性和基于子空间的流形2，以及局部约束的非线性流形。在我们的设计中，流形学习和编码步骤与鉴别器的层交织在一起，目标是将中间特征表示吸引到流形上。我们自适应地平衡特征表示和流形视图之间的差异，这是流形上的去噪和细化流形之间的权衡。我们发现，局部约束非线性流形优于线性流形，由于其非均匀密度和光滑。我们的表现也大大超过了最先进的基线。1. 介绍生成对抗网络（GAN）[13]是图像生成[5，19，22]，声音生成[11]，图像风格化[32]和去风格化[46-49 ]的强大模型超分辨率[62]、特征生成[60，65]等。的原始GAN通过执行以下最小-最大游戏来学习生成图像[5，19，21，22，56最小最大J（D|θD，G|θG），（1）其中（）= Ex<$px（x）log（D（x; θD））+Ez<$pz（z）log（1D（G（z）。当量（1）更新θD（x;θD）的参数θD以区分来自数据的样本分布px（x）和生成分布pg（G）。同时，对生成元G（z;θG）的参数θG进行了更新，使之能够欺骗混沌系统.因此，噪声分布pz（z）通过生成器G映射到px（x）。然而，GAN通常会遇到三个问题：1）训练不稳定性[25]，2）所谓的模式崩溃[44]，以及3）过拟合[58]。*同等缴款。GoogleBrain团队（richardnock@google.com）。1代码：https://github.com/MaxwellYaoNi/LCSAGAN。[2]本文中考虑的编码空间被松散地称为man-ifolds。在大多数情况下，它们不是严格数学意义上的流形，而是拓扑空间，如变种或单纯复形。这个词将只在非正式意义上使用。图1.我们的GAN管道。我们为CNN配备残差块B1，B1，B2，B3，B4，B4，B5，B6，B6，B7，B7，B8，B9，B10，B11，B11，B12，B13，B14，B15，B16，B16，B17，B18，B19，B19，卷积、ReLU、下采样、残差链接等，和多方面的学习者L. Metaparthritisβ控制了de-混合块转化率从流形上恢复的视图的特征你说的“过度健身”？' 当怀疑过度拟合到xreal时，检测器增加β，这增强了流形学习器的影响。训练不稳定性是由于模型分布和数据分布之间的非重叠支持而导致的生成器和训练器的不平衡竞争[6，19，25]，导致生成的数据质量差模式崩溃与不期望的局部平衡点附近的梯度急剧上升有关[25，44]，导致产生相同的图像。最后，鉴别器过拟合导致过度记忆和较差的泛化。事实上，在参数数量过多的情况下，识别器可能会记住训练数据而不是学习有意义的分布，从而导致训练数据集上的高真/假分类准确性和验证分割的低准确性[5，20，66]。Webster等[58]认为这样的现象主要影响了生成器，并且在生成器中无法检测到，除了混合对抗和非对抗方法[4]，其对生成器施加了所谓的一致性损失。我们还观察到基线模型中的过拟合，将判别器的参数数量加倍会导致基线GAN的训练和验证FID分数在某个中间训练阶段出现分歧。因此，为了减少过拟合的神经网络，我们提出了一个数据驱动的特征流形学习步骤，并与神经网络的层进行互操作。通过这种方式，神经网络在对象抽象的不同级别（从细到粗）学习特征流形，这限制了11266→→M···Fǁ − ǁ ≤···∈§M≡···∈2当n（α′，M′，X）······[xn−m1<$2，···，xn−L l=1ǁ −ǁl=1参数空间的复杂性，并将信号与噪声分离，因为生成的数据和真实的数据都表示在公共流形上。因此，生成器根据它们对人的看法来多样化所生成的模式，其中，所述人在所述人身上操作。最小-最大博弈是在一个逐渐学习的流形上进行的（见图1）。1）。我们的贡献有三个方面：i. 我们将局部约束和基于子空间的特征编码和字典学习步骤[29，34]与GAN块进行了交叉，以在端到端场景中利用多重学习。ii. 我们采用了一个平衡项来帮助判别器的块从与它们交织在一起的编码器中学习数据驱动的流形，同时允许在该流形附近有一定程度的自由（§2）。iii. 我们证明了局部约束软分配编码（我们实验中的最佳编码器）由于其Lipschitz连续性而充当了局部灵活的去噪器[1]，我们控制该Lipschitz连续性以在普通k均值量化和局部约束线性编码之间改变其操作模式。该设置允许某些特征空间部分的量化，而近似保持其他特征空间部分的线性（§5）。对于贡献（i），我们研究了稀疏编码（SC）[31，61] 、非负稀疏编码（ SC+ ） [16] 、正交匹配追踪（OMP）[8，42]、局部约束线性编码（LLC）[55]、软分配（SA）[3，54]和局部约束软分配（LCSA）[ 26- 29，34 ]，以及硬分配（HA）[26- 29，34]。7，51]。我们提供公式-在§4中对每个编码器的属性进行了说明和讨论。2. 问题公式化图1显示了我们的管道（为了简洁起见，我们跳过了条件提示我们建立在BigGAN [5]，OmniGAN [69]，MSG- StyleGAN [18]，StyleGAN 2 [22]的基础上，但我们为判别器配备了元控制的流形学习器，以减少过度拟合。在补充材料的C中，我们还研究了我们的方法与DA [66]的结合ADA [20]和LeCamGAN [53]在有限数据场景中。图2.块B1，，BL包含一个标准块，用f表示，与流形学习器交织在一起。Metaparthritisβ控制f和h之间的混合平衡。N′=W′H′是块的特征图中的输入/输出空间位置的数量通常，N′可以等于N。我们引入一个编码函数h：Rd'×N'Rd'×N'它将Rd'×N'映射到一个子集中，通常在Rd'×N'中没有稠密或小体积，我们有时称之为特征空间。在这种情况下，我们认为这个映射来自于映射Rd'Rd'，独立地和相等地应用于第二维RN '。编码引入了误差，由h（X）XF测量，其中f被称为重建误差。在基于字典的编码中，函数h依赖于字典M=[m-1，，mk]Rd'×k包含k个列向量，即所谓的字典原子（有时称为锚），定义底层流形，并且k d′确保字典是过完备的。然后，在解决了优化问题之后，（ α ， M ） = arg minX M′α′2+κ （ α′ ， M′ ，X），（2）α'，M'其中α[α1，，αN']Rk×N'，函数h定义为h（X）=Mα.由于α依赖于X，我们通常将其写为α（X）。映射h将Rd'映射为Rd'的一个子集，我们称之为特征流形（或简称为流形）。通过正则化（κ >0），选择κ（α′，M′，X）实现了一些期望的约束，例如，κ（α′，M′，X ）=κακ′κ1鼓励α的稀疏性，ǁ|n2方程中GAN的θD（x;θD）（1）类别─将输入图像筛选为真实或虚假。许多建筑物，存在于文献中，GAN [13]使用基于卷积网络的卷积，而最近的架构，例如，BigGAN [5]、OmniGAN [69]、MSG-StyleGAN[18]和StyleGAN2 [22]使用残差判别器，L个剩余块例如，”[15]见《明史》。第16段）。设3f：Rd×N × R|θB |→ Rd'×N'（其中|θB|是mk2]T]αn鼓励局部性来表达每个αnw。r. t.Span（m1，，mk'），其中m1，，，mk'是k′的近邻，xn的邻居。我们用如下的判别器的块来插入编码步骤：Xl+1=（1-β）Xl+βhl（Xl）（3）其中Xl=f（Xl;θBl）且hl是编码函数。参数组的大小θB）是由具有参数θ的单块，其中d和上面介绍的，用一个词来表达naryMl，而{θB}L和{Ml}L是参数d′是输入/输出通道的数量，N=WH，[3]我们的符号在补充材料的§A层1，. - 是的- 是的，L分别。图2示出了Eq. （3）应用于块B1，···，B1。B11267Δ◦M×······◦LF≤≤ML联系我们LL图3. 我们的多重设置。原子m1，· · ·，mk（交叉）定义流形的几何形状。样本x1，，xN'（蓝色）通过函数α（x）投影到流形上，然后通过h（x）恢复，这产生恢复的样本x1，xN'（蓝色），，xN'（黑色）。灰色圆圈表示等式中邻近算子施加的L 2个球。（4）绿色三角形f和h之间的折衷样本，由L2球内的β控制。我们注意到L2球的半径由γ控制，但每个球可以更大或更小，这取决于这是否有利于区分损失。因此，在需要的情况下，由f w.r.t.精制。 h在L2球内。卷曲的线（sigmoid-like ~）表示我们局部使用了sigmoid非线性。与此同时，我们防止EQ。（3）通过向GAN添加重构损耗而避免成为剩余链路我们选择这样的设计，（i）f可以细化h，如果识别器损失发现真实/虚假输入认为它有用，（ii）h是首选时，过拟合检测，而f引入细化模式，否则，（iii）f鼓励从分段光滑h中学习（见§5）。3. 相关作品现代GAN。最近的GAN通过改进生成器或ADC建立在GAN [13]或DC-GAN [43]上。残差模型[14]通过添加自我注意块[63]进行了改进Progressive GAN [19]使用几个层次的层来获得越来越精细的图像分辨率。StyleGAN [21]将输入映射到中间潜在空间，并通过自适应实例规范化（所谓的AdaIN）控制生成器。MSG-GAN将多尺度梯度从ADC传递到发生器[18]。改进GAN。为了解决训练不稳定性，模式崩溃和过拟合，研究人员研究了（i）损失和距离公式，（ii）正则化机制和惩罚，以及（iii）架构修改。Wasserstein GAN（Arjovskyet al.[2]享受美好目标：Jprox=γs（X;M），其中l=1训练稳定性Gulrajani等人进一步改进了该方法。[14]通过惩罚批评者的梯度范数平均协方差GAN [38]匹配生成的和s（X<$ l;Ml）=<$X<$ l−hl（X<$ l）<$2。元参数（β，γ）控制混合平衡以及f和h之间的接近度。（β，γ）的元适应。鉴别器过拟合可以通过对决策r （ xreal） = E [Sign （ D （ xreal）） ] w.r.t. 样本xreal，定义为Sign（r（xreal）> η）1，0，1，其中η = 0。5是阈值，其违反指示潜在的过拟合，因为该阈值越来越善于区分真实数据点[20]。因此，为了更新（β，γ），我们应用：βt+1=βt+πβ·Sign（r（xreal）>η），（5）γt+1=γ0+εγ·βt+1，（6）其中β0=0。1. α β=0。001通过从等式中的h（Xl）增加收缩来确保β的逐渐变化。（3）当检测到过拟合时，并且增加来自等式（1）中的Xλ 1的贡献。（3）当过装时，通过设置γ0= 0。1，我们确保在方程中的邻近损失（4）始终启用，并且0. 01∆ γ3控制强度接近。讨论图3显示了我们的流形设置，它利用了方程之间的相互作用。（3）和方程（四）、我们交替学习流形l上样本Xl并细化字典M1。在Eq. （4）通过控制L2球在h（Xl）附近，促使样本Xl保持在其接收到的视图wh（X l）附近。当量（3）在L2球内，在h（Xl）和Xl之间插值.一阶和二阶统计量的真实数据分布最大平均离散GAN[33]匹配再生核希尔伯特空间（RKHS）中的分布。频谱归一化GAN [36]对权重进行归一化以稳定权重。频谱正则化GAN [35]执行所谓的频谱崩溃的检测。不连通流形GAN [23]假设自然图像位于不相交流形的并集上。特征量化 GAN （ Feature QuantizationGAN）[67]将识别器的特征量化去噪特征匹配GAN [57]鼓励生成器的输出与去噪自动编码器之间的接近我们的工作不同于不连通流形GAN，它将整个图像分布建模为非显式流形的联合GAN对图像的特征进行量化，去噪特征匹配GAN在真实图像上学习去噪自动编码器，以将其应用于生成的图像。相比之下，我们对从多个块中提取的粗糙到精细的特征进行建模，这些特征捕获了不同的语义抽象级别我们鼓励这些特征位于显式局部约束的非线性流形上（我们的每个块都有自己的学习器）。我们自适应地控制混合水平的功能和他们的意见恢复流形，和光滑的流形，以防止过度拟合。限制过拟合。增强（旋转，裁剪）[17，52，64，66]可以限制过拟合，但是，增强（四）112682≥2∈{}∈∈{· ··−}→ǁǁ≡···ǁǁJJ→→J≡···∈§§§σ1 2K 24.2. 上的特征编码和字典学习C +1。Σ伪影泄漏到生成的图像中[20，68]。通过dropout [50]将噪声注入到神经网络[39，59]中形成了一个集成网络，而我们为神经网络配备了一个数据流形学习器，我们控制其平滑度4. 预赛下面，我们将解释我们构建的GAN管道，以及我们的关键工具--特征编码和字典学习4.1.基线GANBigGAN[5]结合了基于投影的损失[37]，频谱归一化[36]和自我注意力[63]。基于投影的分数是类余弦相似性和类独立项之间的权衡如果M是由k均值聚类形成的，HA就变成了来自MAGAN [67]的量化器的等价物。稀疏编码（SC）[31，61]非负稀疏编码（SC+）[16]。SC通过优化以下目标将X编码为原子Mα（x）= arg min <$x−Mα′<$2+κ<$α′<$1，（12）而SC+另外施加了一个约束，即α′0. SC和SC+都在由稀疏项控制的大小的M的子集上对x进行正交匹配追踪（OMP）[8，42]。该编码器通过优化以下目标将X表示为原子Mα（x）= arg min<$x−Mα′<$2，s（x，y）=yTVD（x;θD）+f′（D（x;θD）;θD′），（7）α'S.T.<$α′<$0≤τ，（十三）其中y0， 1C和y1=1，VRC×d' 是一个双线性兼容性矩阵，从D中取出带有类标签的X。由于y是一个独热向量，[v1，，vC]T包含线性投影器vc，每类c一个0，得双曲余切值.1 .一、函数f′：Rd′1是通过具有参数θ D '的FC层来实现的。分数s（x，y）被传递到具有两个分量的基于铰链的损失其中伪范数α′0确保α ′的非零系数的计数至多为τ。与SC和SC+，α′0不同，惩罚对α′中的非零元素的数量进行了严格限制，但问题本身是NP难的。近似局部约束线性编码（LLC）[55]。LLC将x表示为选自M的x的k′个最近邻原子的线性组合，形成discr=E（x，y）p实数x×y（x，y）max（0，1−s（x，y））+分段线性流形上大小为k′E（z，y）p（z，y）max（0，1+ s（G（z，y），y））. （八）α（x）= arg min<$x−Mα′<$2，ZZ×Y Z ZZα'2（14）我们的基于歧管的管道结合了来自方程的损失Jprox。（4）用[ 5 ]中的Jdiscr和原始Jgen。S.T. 1Tα′= 1，并且α′进一步受到α′=0的约束，除非m是以下之一：OmniGAN[69]使用多标签softmax损失（其中la-bel向量y∈{0，1}C+2，y1= 2是的我我k′是x的最近邻。独热类标签向量和独热真/假向量）：软分配（SA）[3，54]局部约束软分配（LCSA）[26，29，34]。SA将x表示为discr=E（x，y）p实x×y（x，y）s（x，y）+隶属概率（GMM [3]中的E（z，yz）<$pz×yz（z，yz）s（G（z，yz），yz）其中（9）s（x，y）= 1+ e−Sign（yc−0. 5）φc（x）。（十）c=0在等混合概率和等GMM方差σ的条件下，SA给出为：α（x;M，σ）=S（x-m，· · ·，x-m），（15）我们注意到，Xout表示来自D的输出特征，φ（x）= f′（D（x; θD）;θD′），其中函数f′：Rd′C+2由具有参数θD′的FC层实现。其中Sσ是softmax函数Sσ：Rk <$k−1，其中k-1是概率单形，exp（−d2/2σ2）（十六）S σ（d1，. - 是的- 是的，d k）j= exp（−d2/2 σ2）.数据驱动流形下面，我们正式定义了1中列出的特征编码和字典学习方法。在实验中，我们将一个选定的编码步骤从2替换到函数h（x）中。此外，M[m1，，mk]Rd'×k是一个字典其学习步骤在4.2的底部详述，并且α（x）表示单纯形上的编码/映射。硬分配（HA）[7，51]。此编码器分配每个通过求解以下优化，我我α'11269x−Mα′这个模型对于M中的原子mi产生了最大的αi′值，这些原子是x的欧几里德近邻。然而，即使对于远离x的mi，αi（x）>0。因此，SA不受严格的本地限制。LCSA与SA的不同之处在于设置αi（x）=0，除非mi在x的k′个最近邻原子中。Eq. （16）执行归一化，即求和在k′个最近邻上运行。因此，LCSA将Rd映射到一组概率单形k'−1上。作为问题：α（x）= argminα'∈{0，1}k22（十一）LCSA在我们的实验中是最好的，我们在§5中进行了分析。字典学习（DL）。对于上述编码器，我们em-S.T. α′采用一个与类别无关的词典学习目标，11270ǁ ǁ ≤→'K§--≥·N2¨。22¨¨›→222KK'Rd由k′个元素组成，其中k′≤d+1，我们考虑映射方程（15）、（字典可以是矩阵通过增加σ′2。我们惩罚雅可比矩阵<$Mα（x）谱范数¨.¨¨→¨K'¨¨Nn=12xx=xn2（即，σ′2与我们的σ2成正比。为此，我们注意到，以下等式（二）、设α（X）<$[α1，···，αN']，则：纤维是映射到同一点的点的集合在这个映射下的“2k”−1。M= arg min <$X−M α<$F，（17）其中M′可以被约束为包含原子m′i21如果码α具有非限制L2范数，对于OMP。α的倒数。将α（X）从流形M重新投影到命题2LCSA的以下属性成立：1. 如果σ 0或k′=1，则α码收敛于HA解（量化）。2. α（x）是x的近似线性编码，在欧氏空间中，我们简单地计算出X∈=Mα（X）。实施备注。编码方法，字典近似值μ（x）=1μm'∈NNk'（x）m′。学习，并在补充材料的J中详细说明了它们的实施。对于字典学习，我们分离X和α，并在每一个小样本中运行1次梯度下降迭代。批处理w.r.t.每个M（≥2次迭代无大增益为3. For x with nearest neighbor atoms mi = NNk' (x)with mean µ(x), and nearest neighbor atom n(x) =NN1(x), the reconstruction error satisfies≤max.x−n（x）SC和SC+，我们分离X和所有M，并让5次迭代梯度下降（6次迭代无增益）。LLC有一个封闭形式的求解器[55]。我们有效的OMP解决了线性方程组的系统（无矩阵求逆）。SA/LCSA享受快速封闭式配方。LLC和LCSA使用部分排序算法来选择k ′个最近邻居。我们分离Mα来计算等式中的邻近损失。（四）、5. LCSA的理论分析由于LCSA是我们实验中最好的编码器，我们在下面重点讨论它的理论特性。下面列出的理论的所有证明都在补充材料的§L在本节中，我们使用以下符号。假设给定Rd中的原子字典M=[mi]，表示M的所有大小为k′的子集的集合。我们通过NN'定义：2 M是集值函数，它将点x带到它的k′最近邻原子的集合。称Rd的一个最大子集为NNK'（x）为常数细胞（NNk'）−1K'包括所有的（U）是R的子集 D4. 重建误差在每个点上平滑地变化，Voronoi细胞。对于x和x′在相同的Voronoi单元中，并且k是顶点为NN k′（x）的单形，我们有• 局部Lipschitz连续性：如果σ > 0，则<$Mα（x）−Mα（x′）<$$>≤K<$x−x′<$其中K =D2/σ2，D是单形的直径（顶点间的最大距离）。Lipschitz条件对范数为1.01和1.02成立。对于HA（σ = 0），Voronoi单元上的重建误差的最大变化小于或等于D。5. 编码Mα（x）的LCSA在Voronoi区域的边界处是不连续的。命题3我们的设计实现了具有去噪自动编码器（DAE）的GAN的原理[1]，损失如下：1Σ。r（x）一个沃罗诺伊细胞对于一个给定的集合U在2M，那么，一个VoronoiLdae=<$r（xn）−xn<$+σ′2点，其中U是k′最近邻的集合。的所有Voronoi单元的集合构成分解分割成不相交的多面体区域。在M的k′个最近元的集合不唯一，我们不定义集合NNk'（x）。因此，Voronoi单元是不相交的开放多面体区域，使得NNk'（x）在每个单元上是恒定的。Rd中Voronoi胞集合的补是Rd中超平面的有限集合的子集。其中r（xn）是xn的重构，类似于我们的h（xn）由方程式（四）、更重要的是，σ′2指定噪声变量，ance.具体而言，我们注意到：6. 毫不奇怪，在Eq. （4）在某种程度上与等式中的<$r（xn）−xn<$2起类似的作用。（十八）、7. LCSA隐含地实现了以下去噪作用（除了局部约束非线性编码之外）：¨ ¨SA和LCSA编码。给定字典M=[mi]，σ′2r（x）B.F.，LCSA的σ和DAE的σ′函数Mα（x），其中α（x）=Sσ（x）是softmaxDAE惩罚了雅可比矩阵的Frobenius范数r（x）k′是某个点x的最近邻点。）命题1若σ >0，则映射xM α（x）是从Rd到顶点为mi是¨=K via、11271¨x2的单形的内部的光滑纤维化。这个映射的纤维等于R d的线性子空间，它垂直于mi所张成的仿射空间。联系我们实际上控制Lipschitz常数K =D2/σ2。讨论下面的蓝色框解释了LCSA的属性如何有助于训练，以及它们如何让LCSA继承其他编码方法的最佳属性。11272×××××××模型d′IS↑tFID↓vFID↓BigGAN†阿甘OmniGAN†CR-GANICR-GANOmniGAN+LCSA2569.149.169.63−−9.88−0.02±7.056.165.52−−4.09−0.10±−−11−0.4810.329.218.16±0.07BigGAN联系我们OmniGAN+LCSA风格GAN2 +ADAStyleGAN2+ADA+LCSA5129.369.389.7010.02±0.0510.14±0.0910.18±0.068.167.656.883.36±0.062.42±0.042.32±0.0512.1611.7210.657.40±0.066.54±0.066.36±0.10OmniGAN+LCSA1024 10.21±0.03 2.94±0.02 6.98±0.04表1.CIFAR-10的结果我们将OmniGAN和Style-GAN 2 +ADA与LCSA相结合。这是从[69]收集的结果。6. 实验我们在CIFAR-10 CIFAR-100上评估了我们的方法[30] ImageNet [9]（条件GAN）和Oxford-102 Flowers[40]和FFHQ [21]（无条件设置）。我们展示了我们的LCSA与BigGAN [5]，OmniGAN [69]，MSG-StyleGAN [18]和StyleGAN 2 [22]的协调。数据集。CIFAR-10具有50K和10K的训练和测试图像（3232)从10类，而CIFAR-100有100个类别。ImageNet有1。2M和50K训练和验证图像，1K类。我们中心裁剪和缩小其图像到64 64和128128像素。Oxford- 102 Flowers包含102种细粒度花卉的8K图像我们将其图像居中裁剪，并将大小调整为256256。FFHQ数据集提供了70K多分辨率的人脸图像（我们选择256256）.在[20]之后，我们使用x翻转将70K数据集扩展到140K评估指标。我们为每个数据集生成50 K图像，以计算常用的初始得分[45]和Fre'chet初始距离（FID）[15]。平均值/标准差在5次运行中计算，其中均报告。我们报告tFID，在50K生成的图像和所有训练图像之间计算。对于CIFAR-10/CIFAR-100/ImageNet，我们还计算了10K/10K/50K生成图像和10K/10K/50K真实测试之间的vFID （ val. 在 ImageNet 上）图像。对于 Oxford-102Flowers/FFHQ，我们计算10K/50K假图像和整个训练集之间的FID。6.1. 网络架构和超参数CIFAR-10 基于 OmniGAN/BigGAN/StyleGAN 2 构建。对于CIFAR-100/ImageNet（64 64），我们使用OmniGAN/BigGAN进行了实验。对于ImageNet（128128 ），我们建立在 OmniGAN 的基础上，因为OmniGAN 一直优于 BigGAN 。我们采用 MSG-StyleGAN 作为 Oxford-102 Flowers 的基线。对于FFHQ，在StyleGAN 2上（参见补充材料的§ILCSA是HA、LLC、SA和DAE之间的折衷。号提案图2和图3表明，LCSA平衡了其他编码器的极端，Prop.2.1表明LCSA可以作为HA（引导f的极端方式）。HA是一种局部化的编码器，具有较大的重建误差。在阿富汗，HA稳定了阿富汗。Prop.2.2表明LCSA在Voronoi单元的中心部分可以充当LLC（具有非常低的反射误差的局部线性编码器）（引导f的弱方式）。Prop.2.3表明大字典是不好的，使LCSA成为一个LCSA是局部自适应降噪器。Prop.2.4显示了每个Voronoi单元基于Lipschitz常数K=D2/σ2（由于字典的原因，每个单元中的直径D不同）专门化它对f的去噪程度去噪限制了信号的高频和复杂性。号提案3.7显示了LCSA通过DAE类机制去噪。模型d′IS↑tFID↓vFID↓BigGAN†10.8910.18−−−11.02−0.13±阿甘OmniGAN†25610.6213.518.238.14TAC-GAN9.347.22OmniGAN+LCSA13.60±0.116.24±0.09BigGAN11.4410.1615.24联系我们OmniGAN51211.0512.787.769.1312.7013.82OmniGAN+LCSA13.71±0.035.22±0.109.98±0.08OmniGAN+LCSA102413.88±0.124.97±0.099.72±0.0811273§××表2.OmniGAN+LCSA与CIFAR上其他产品的比较100.这是从[69]收集的结果。6.2. 图像生成每个数据集的生成图像以补充材料的KCIFAR-10。表1示出了OminGAN+LCSA的结果，其优于基线OmniGAN 0.25，IS和tFID指标为1.43（d′=256）。当d′= 512时，我们的表现比OmniGAN 高0。32和3.52。当d′=1024时，我们得到了进一步的改进，而基线则难以收敛.d′=1024的不同模型的比较在补充材料的§B中CIFAR-100。表2显示了OmniGAN+LCSA相对于最新技术水平的结果。对于d′= 256，我们的方法获得0 的情况。 09 和 1.9 的 IS 和 tFID 指标超过基线OmniGAN 。对于 d′=512 ，我们的表现优于OmniGAN，0.93和3.91（IS和tFID）。当其他方法努力收敛时，d′=我们将TAC-GAN [12]用于比较。ImageNet （ 64 64 ） . 表 3 显示 BiGAN+LCSA 比BigGAN高出2.97和3.01（tFID vFID）。Om-niGAN+LCSA将OmniGAN提高了6.86和2.72（IS tFID），这是GAN的最新技术水平。ImageNet （ 128 ） . 表 4 显示 OmniGAN+LCSA 将OmniGAN提高了23.32和2.28（IS&tFID）。牛津102朵花图4（a）示出了MSG-StyleGAN +LCSA在FID上将MSG-StyleGAN提高了5.46。此外，图4（b）显示，在迭代前后11274××≤≤∈{···}×§≤ ≤−§§模型IS↑tFID↓vFID↓[10]第十届全国人大代表43.309.078-.80BigGAN34.508.96联系我们33.148.278.15BigGAN+LCSA33.295.995.79OmniGAN70.597.097.66OmniGAN+LCSA77.454.264.94表3.ImageNet上的结果（6464）。我们将OmniGAN和BigGAN与LCSA结合起来。我们设d′= 384。模型IS↑tFID↓vFID↓BigGAN†104.579.199.18OmniGAN†190.948.308.93OmniGAN系列169.137.117.30OmniGAN+LCSA192.454.835.24表4. ImageNet上的结果（128 128），d′=384。†代表引用[69]，其中的结果是我们复制的。FID3530252015ImageNet，k′=8也得到了最好的结果。图5（b）证实了1 σ1 .一、5提供了平滑度方面的最佳折衷（量化与线性化）（Prop.二点一2.2 和2.4）。图5（c）验证了字典过完备性d′k（k= 1024）的好处。块11、、L和LCSA。图5（d）显示了将LCSA注入到块体中的各种组合的结果。看来，将LCSA注入到所有块中产生最低的tFID/vFID，这验证了在粗到细语义级别上构造多个流形控制了流形的复杂性。Metaparthritisβ和η的影响。β在方程中（5）控制conv.通过f获得的特征和从流形恢复的它们的视图h，如在Eq.（三）、图6（a）显示了在早期迭代中，学习的块会转换为功能.大约25K次迭代，模型开始在防止过拟合和细化转换之间振荡。特征，如绿色曲线所示，该曲线在η = 0时继续逐渐增长。5（c.f. η = 0的平坦曲线。（3）第三章。图6（b）还显示η = 0。5是普遍的好(a) 不同型号的FID。ITER=35k55k75k100k 125k(b) 培训进度。阈值图4.牛津大学102 Flowers (a)不同模型的FID（†是从[18]收集的结果）。 (b)FIDw.r.t.MSG-StyleGAN 和 MSG-StyleGAN+LCSA 在 Oxford-102 Flowers 上的黑点表示最小FID。数据 StyleGAN2 +ADA +LeCam +bCR +LCSA +LCSA+bCR70k5.284.30-3.793.833.47140k3.713.813.663.533.323.20表5. FFHQ（256× 256）数据集上的FID↓编号75K，MSG-StyleGAN开始发散，而MSG-StyleGAN +LCSA（Ours）继续减小FID。FFHQ（256 256）.表5显示了具有LCSA的StyleGAN 2在70K/ 140K数据集上将StyleGAN 2的FID提高了1.55/0.39。此外，我们的LCSA还可以与bCR [68]结合以提高性能。CIFAR-10/100上的数据有限生成。我们在补充材料的C中提供综合实验（10%和20%数据）。我们将我们的发现总结为：1）基于增强的ADA [20]和DA [66]将增强伪影泄漏到发生器，而ADA+LCSA和DA+LCSA缓解了该问题（参见补充材料中的图242）LCSA与ADA、DA和LeCam损失协调一致[53]。3)我们在这种有限的数据设置上达到了现有技术的水平。6.3. 超参数的影响下面，我们对d′=512的CIFAR-100进行消融最近邻k0，σ和k图5（a）显示了OmniGAN+LCSA w.r.t. k′在CIFAR-100上，这验证了局部约束流形可以用8 k′32 k构造，并且在最坏情况下具有足够小的重建误差（Prop.2.3）。为6.4. 分析和消融研究我们在CIFAR-10/100（d′=512）上分析了我们的方法防止鉴别器过拟合。图7验证了标准方法的迭代在训练图像上产生高的真/假准确度，但在测试图像上产生低准确度。因此，它们过拟合到训练集（请参阅真实图像和假图像之间的巨大差异）。因此，标准方法在早期出现分歧（见FID），但我们的方法继续学习，如图8和图4（b）所示。不同组件的影响在表6中，我们消融(i) 字典学习（Eq.（ii）自适应混合输入Eq.（3）和（ iii ）邻近损失方程。（四）、 We conductexperiments with settings: (1) ACM: removing our main-fold learner and the proximity loss, and changing Eq.（三）为Xl+1=（1 （2）LCSA（γ=0）：消除邻近损失但保持自适应混合输入;（3）LCSA（β= 0）：去掉自适应混合输入，保留自适应邻近损失;（4）LCSA（EMA）：用指数移动平均代替我们的随机学习;（5）LCSA（fixed（β，γ））：固定的元控制器（β，γ）（在柔性材料的G中给出（β和γ）的不同组合）。表6显示（i）LCSA（γ=0）优于ACM和OmniGAN，这验证了自适应混合输入的益处。(ii)LCSA（β=0）优于OmniGAN，验证了控制学习复杂度的重要性(iii)EMA的表现比我们的字典学习更差。(iv)由于固定（β，γ）分数较低，因此自适应元控制器是有用的。在H（混合材料）中，LCSA在前景处产生较大的误差，在背景处产生较小的误差，因此交织步骤（混合在-味精-味精-LCSAStyleGAN+StyleGAN模型Iters FID↓MSG-ProGAN†53K 28.27MSG-StyleGAN† 50K 19.60MSG-StyleGAN125K18.59我们125K13.1311275···14.214.013.813.65.75.55.35.110.510.310.19.922 23 24 25 26 27 2829(a) k′k′ 21014.214.013.813.65.75.55.35.110.510.310.19.90.2 0.5 0.8 1.0 1.2 1.5σ2.0(b) σ14.214.013.813.65.75.55.35.110.510.310.19.92526272829210(c) Kk21114.514.013.513.07.46.65.85.012.011.210.49.61 2 3 4 12 23 34 123 234 1234(d)l∈{1，···，L}图5. CIFAR-100 w.r.t.的消融研究k′（最近邻）、σ（控制LCSA的Lipschitz常数）、k（字典大小）和使用LCSA的块l我们指出了IS↑、tFID↓和vFID↓等指标。β0.50.40.30.20.10255075100125150175 19514.214.013.813.613.46.36.05.75.45.111.110.810.510.29.90.30.40.50.60.70.80.9迭代次数（×1000）(a) βw.r.t. 迭代η(b) ηwrt迭代图6.元参数β的演化和控制过拟合检测器行为的

下载后可阅读完整内容，剩余1页未读，立即下载